Commons:Strukturierte Daten/Computergestütztes Tagging

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:Structured data/Computer-aided tagging and the translation is 100% complete. Changes to the translation template, respectively the source language can be submitted through Commons:Structured data/Computer-aided tagging and have to be approved by a translation administrator.
Notice Computergestütztes Tagging ist eine neue Technologie. Manchmal sind vorgeschlagene Tags falsch oder ungeeignet. Dies ist ein erwartetes Verhalten.

Das computergestützte Tagging-Tool ist eine Funktion, die vom Structured Data Commons-Team entwickelt wird, um Benutzern bei der Identifizierung und Beschriftung von Aussagen für Commons-Dateien zu helfen. Es gibt Dutzende Millionen sorgfältig kuratierter Dateien auf Commons, aber das Tool für strukturierte Daten ist neu. Mit dieser Funktion kann der Inhalt bestehender Dateien einfach, schnell und - bei sorgfältigem Gebrauch - genau beschrieben werden. Um einen Beitrag zu leisten, müssen die Benutzer nicht wissen, wie Wikidata funktioniert oder eine bestimmte Sprache sprechen. Diese neue Funktion fordert die Benutzer auf, Vorschläge für „Tags“ zu machen, die anhand eines Computer-Vision-Modells von Menschen überprüft werden können. Commons-Benutzer werden in der Lage sein, eine spezielle Seite über Commons zu besuchen und vorgeschlagene Darstellungs-Tags zu sehen, die zur Bestätigung oder zum Ignorieren ausgewählt werden können. Tags werden niemals ohne menschliches Zutun automatisch hinzugefügt.

Computergestütztes Tagging hilft dabei, Dateien mit strukturierten Daten zu füllen, die wiederum mit allgemeinen Suchbegriffen in der Special:MediaSearch in einer Weise gefunden werden können, wie es bisher nicht möglich war. Dies hilft den Benutzern, Medien zu finden, die sonst mit der alten Suche, die sich oft auf spezifische Informationen in Dateibeschreibungen oder die Platzierung in Kategorien stützt, um Dateien zu finden, nicht leicht zu finden sind. Wenn spezifische Informationen fehlen, kann es schwierig bis unmöglich sein, viele Medien zu Commons über die Standardsuche zu finden. Beispielsweise erscheint Peter_iredale_sunset_edited1.jpg bei einer Suche nach „Strand“ mit Special:MediaSearch dank der durch computergestütztes Tagging hinzugefügten Aussage „Strand“; bei einer Suche nach „Strand“ mit der regulären Suche wird sie überhaupt nicht angezeigt.

Computergestütztes Tagging ist eine eigeständige MediaWiki-Erweiterung und ist kein Kernbestandteil von Commons selbst; es knüpft mit Special:SuggestedTags an Commons an. Im Back-End wird das Tool Google Cloud Vision für die Darstellung von Vorschlägen verwendet. Wikimedia verwendet den Google Cloud Vision-Dienst bereits für das Wikisource OCR und dies wird in ähnlicher Weise funktionieren. Dieses Tool ist für registrierte, automatisch bestätigte Benutzer freigeschaltet. Sie ist für keine Benutzergruppe standardmäßig eingeschaltet und steht neuen und nicht registrierten Benutzern nicht zur Verfügung.

Aktualisierungen zur Verwendung von CAT/SuggestedTags, September 2020

Bis heute (14. Februar 2022):

  1. 5.809 Benutzer insgesamt haben Bearbeitungen über das computergestützte Tagging-Tool vorgenommen
    • 962 dieser Benutzer taten dies über das mobile Web
  2. 341.957 Dateien wurden insgesamt per Computer-Aided Tagging bearbeitet
    • 41.563 dieser Dateien wurden mit Computer-Aided Tagging im mobilen Web bearbeitet
  3. 72 % der Dateien mit CAT-Bearbeitungen wurden von demselben Benutzer bearbeitet, der die Datei hochgeladen hat.
  4. Ungefähr 10.000 von CAT bearbeitete Dateien waren bisher rein manuelle Bearbeitungen
  5. Zurzeit haben wir im Durchschnitt etwa 20 neue Benutzer pro Woche.

Die Diagramme für diese Daten werden jeden Montag auf der Seite Analyse für CAT-Nutzungsberichte aktualisiert.

CAT-Spezifität

Wir arbeiten an möglichen Techniken zur Verbesserung der Fähigkeit des Tools, bestimmte Elemente von Fotos genau zu identifizieren, aber man darf nicht vergessen, dass der Google Vision-Algorithmus in vielen Themenbereichen bereits recht gut funktioniert.

Bevorstehende Änderungen an der Warteschlange für allgemeine Bilder

Obwohl der größte Teil der Nutzung des computergestützten Tagging-Systems von Benutzern kommt, die ihre eigenen Uploads bearbeiten (72 %), gibt es eine separate Warteschlange für „populäre“ Bilder. Auf der Grundlage des jüngsten Feedbacks aus der Commons-Community untersuchen wir Möglichkeiten, dieser Warteschlange andere Prioritäten zuzuweisen. Insbesondere erwägen wir ein System, das sich mehr auf Dateien konzentrieren würde, die noch keine kuratierten Kategorien haben.

Google Cloud Vision

Alle Informationen, die durch Google Cloud Vision laufen, sind ebenfalls öffentlich. Völlig anonyme Daten, in denen die Commons-Datei, die vorgeschlagenen Tags und die akzeptierten Tags aufgelistet sind, werden als Dumps verfügbar sein. Google Cloud Vision ist vollständig von Wikimedia Commons isoliert, die Funktion ist vom Commons-Kern getrennt.'

Obwohl es Open-Source-Computervisionsplattformen gibt, mit denen man beginnen kann, würde ein solches Paket Ressourcen oder spezielle Fachkenntnisse erfordern, um eine Erfahrung mit Computervision auf Industriestandard zu bieten, die die Wikimedia Foundation derzeit selbst nicht bieten kann. Das Team erkennt an, dass Google Cloud Vision keine Open-Source-Software ist. Es wird keinen unfreien oder proprietären Code geben, der von der Foundation für dieses Projekt geschrieben wurde; alle Beiträge bleiben Open Source.[clarification needed] Google hat keinen Zugriff auf private, nicht-öffentliche, persönliche Informationen, es findet keine direkte Kommunikation zwischen den Nutzern und dem Google-Service statt.

Architektur und Workflow

Gestaltung des Informationsflusses bei der computergestützten Bildmarkierung. Der „Machine Vision“-Anbieter auf der rechten Seite fordert potentielle Tags für Bilder an und sendet sie; es werden keine persönlichen Informationen ausgetauscht und der Anbieter ist vom Rest des Systems und von Commons isoliert.

Registrierte, automatisch bestätigte Benutzer können sich über ihre Einstellungen oder das Hochladen von Dateien anmelden. Nachdem einige Zeit vergangen ist, wird der Benutzer über seine Benachrichtigungen kontaktiert, dass seine Uploads für das Tagging unter Special:SuggestedTags bereit sind. Benutzer, die sich dafür entschieden haben, können Special:SuggestedTags jederzeit besuchen, um Dateien anzuzeigen, die für die Tag-Verarbeitung bereit sind. Anonyme Benutzer, neue Benutzer und Benutzer, die sich nicht angemeldet haben, können nicht auf Special:SuggestedTags zugreifen.

Die Konzepte, die für das Tagging zur Verfügung stehen, sind solche, die von Google Knowledge Graph-IDs in Wikidata-IDs übersetzt werden. Mit 2,1 Millionen Tripletts ist die Liste zu lang, um sie hier zu katalogisieren, aber sie steht zum Herunterladen zur Verfügung as freebase-wikidata mappings.

Entwicklungsphase

Alle ursprünglich geplanten Funktionen für das Tool sind jetzt bereitgestellt und können genutzt werden. Das Entwicklungsteam wird auch weiterhin Feinabstimmungen und mögliche neue Funktionen in der Zukunft vornehmen.

Hinweise zur Implementierung und Verwendung

  • Es werden keine persönlichen Informationen an den Anbieter der Computer Vision Plattform gesendet. Bei der Einführung wird diese neue Funktion nur das Google Cloud Vision-System verwenden, auf das über eine Middleware-Schicht zugegriffen wird, die alle Nutzerdaten verbirgt. Commons-Bilder werden von den Servern der Wikimedia Foundation an die Google-Server gesendet. Es wird keine direkte Kommunikation zwischen dem Nutzer und externen Diensten geben. Es werden keine persönlichen Informationen (IP-Adresse, Benutzername usw.) an die Google-Server gesendet. Die Middleware, die die Google-Server kontaktiert, ist ein Wikimedia-Projekt und ist quelloffen. Kein Teil des Dienstes oder des Codes von Google wird Teil der Wikimedia-Infrastruktur sein.
  • Vorschläge aus der Computer Vision werden erst dann zu den strukturierten Daten einer Bilddatei hinzugefügt, wenn ein Benutzer sie überprüft hat: Dieser Dienst wird als Mittel zur Ergänzung, nicht als Ersatz für menschliche Aktivitäten angeboten.' Alle Vorschläge des Computer Vision Service werden in einer separaten, spezialisierten Datenbank gespeichert. Die Vorschläge werden erst dann als strukturierte Daten in der Commons-Datei gespeichert, wenn ein menschlicher Benutzer sie bestätigt.
  • Benutzer können sich dafür entscheiden, Benachrichtigungen zu erhalten, die sie darauf hinweisen, dass es für ihre letzten Uploads vorgeschlagene Tags gibt. Im letzten Schritt des Upload-Prozesses des Hochladeassistenten haben Benutzer die Möglichkeit, Benachrichtigungen zu aktivieren, die sie darüber informieren, wenn kürzlich hochgeladene Dateien die Wartezeit überschritten haben und Tags zur Bestätigung zur Verfügung stehen. Diese Option findest du auch in den Benutzereinstellungen unter Benachrichtigungen.
  • Benutzerbeiträge, die vorgeschlagene Darstellungs-Tags bestätigen, werden als CC0 lizenziert. Diese Daten entsprechen dem Hinzufügen von Wikidata zu einem Bild und müssen als solche unter derselben CC0-Lizenz beigesteuert werden, die Wikidata verwendet. Klare Lizenzhinweise informieren die Benutzer darüber, dass alle Beiträge, die über das Computer Vision Tool geleistet werden, unter der CC0-Lizenz lizenziert werden.
  • Analyse von Bildern auf Commons: Die Funktion analysiert nur Bilder und liefert Vorschläge für „Darstellungen“, die auf dem Inhalt dieser Bilder basieren.
  • Bestimmte Arten von Bildern werden ausgeschlossen: Einige Arten von Bildern auf Commons sind für diese Art von System nicht gut geeignet.' Kleine Bilder (weniger als 100 Pixel breit), Kunstwerke (identifiziert über die Artwork-Vorlage), Buchseiten-Scans und andere Dateien werden nicht eingeschlossen.
  • Neu hochgeladene Dateien werden analysiert, aber nicht während des Hochladens: Commons-Benutzer überwachen neue Dateien kontinuierlich auf Vandalismus, Urheberrechtsverletzungen und Relevanz für das Projekt. Dateien, die die Kriterien nicht erfüllen, werden zur Löschung markiert. Die neue Computer Vision-Funktion analysiert neue Dateien erst nach Ablauf einer Wartezeit und analysiert keine zur Löschung markierten Dateien.
  • Alle Tag-Bestätigungen erscheinen als regelmäßige strukturierte Datenbearbeitungen mit einem Edit Summary-Tag, der ihre Herkunft aus dem Computer Vision Tool identifiziert: Dies ermöglicht alle üblichen Kurations- und Moderations-Workflows, so dass Änderungen verbessert, bearbeitet oder rückgängig gemacht werden können. Es hilft uns auch, die Revert-Rate zu messen und sicherzustellen, dass mit CAT vorgenommene Bearbeitungen nicht häufiger rückgängig gemacht werden als die durchschnittliche Bearbeitung.
  • Problematische Tags können blockiert werden, damit sie nicht vorgeschlagen werden: Es gibt eine Blockliste von Tags, die vom Tagging-Tool nicht vorgeschlagen wird. Die offizielle Blockliste befindet sich derzeit in der Konfigurationsdatei für Commons und kann nicht direkt von der Gemeinschaft bearbeitet werden, jedoch können Vorschläge auf der Diskussionsseite der Blockliste gemacht werden.

Benutzervorlage

Du kannst diese Benutzervorlage auf deiner Benutzerseite verwenden.

{{User Computer-aided tagging}}
links talk view

This user uses Computer-aided tagging tool for tagging images.

Dieses Vorhaben ist gescheitert

Bereits am 13. Februar 2020 beschwerten sich erfahrene Commons-Nutzer darüber, dass der Großteil der mit diesem Tool hinzugefügten Tags „viel zu vage, irrelevant oder sogar schädlich“ sei. Nach zahlreichen derartigen Beschwerden im Laufe der nächsten Jahre räumte der leitende Direktor der WMF-Produktabteilung am 16. Juni 2023 ein, dass „wir verstehen, dass die Genauigkeit und der Nutzen der von diesem Tool erzeugten Tags in Frage gestellt wurden.“ Nach einigen Untersuchungen wurde am 14. September 2023 bekannt gegeben, dass „wir das Tool am 20. September 2023 nach Abschluss der erforderlichen Codeänderungen deaktivieren werden.“