Commons:OpenRefine/Strukturierte Daten hinzufügen mit OpenRefine

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:OpenRefine/Adding structured data with OpenRefine and the translation is 100% complete. Changes to the translation template, respectively the source language can be submitted through Commons:OpenRefine/Adding structured data with OpenRefine and have to be approved by a translation administrator.
 Über How-to: Dateien hochladen How-to: Dateien bearbeiten Tipps und Tricks für Fortgeschrittene Schulung Projekte 

Schritt-für-Schritt-Anleitung zum (Stapelweisen) Hinzufügen von strukturierten Daten zu (vorhandenen) Dateien auf Wikimedia Commons mit OpenRefine.

Software-Installation

OpenRefine (Version 3.6 oder neuer!) herunterladen und installieren

⚠️ Zum stapelweisen Bearbeiten von Wikimedia Commons benötigst du OpenRefine 3.6 oder neuer. Wikimedia Commons wird in OpenRefine 3.5 oder älteren Versionen nicht unterstützt.

Lade OpenRefine herunter und installiere es auf deinem Computer. Zum Bearbeiten von Dateien auf Wikimedia Commons benötigst du OpenRefine 3.6 oder neuer.

Du kannst OpenRefine für Windows, MacOS und Linux von https://openrefine.org/download.html herunterladen.

Es gibt detaillierte Download-Anweisungen und Installationsanweisungen im Benutzerhandbuch von OpenRefine.

Wikimedia-Commons-Erweiterung für OpenRefine herunterladen und installieren

Darüber hinaus wird es sehr empfohlen, auch die Wikimedia-Commons-Erweiterung für OpenRefine zu installieren. Sie ist für die stapelweise Bearbeitung von Wikimedia Commons sehr hilfreich. Die Erweiterung bietet:

  • Einen Startbildschirm zum direkten Laden von Dateinamen aus den Kategorien von Wikimedia Commons.
  • Vorschaubilder von Wikimedia-Commons-Dateien (es werden noch nicht alle Dateiformate unterstützt).
  • Mehrere spezielle GREL-Ausdrücke zum Abrufen von Daten aus Wikitext zur weiteren Verarbeitung.

Die Erweiterung kann von GitHub heruntergeladen werden, wo du auch die Installationsanweisungen lesen kannst.

Die Erklärung auf dieser Seite geht davon aus, dass du diese Erweiterung installiert hast.

Alternativ: OpenRefine online in der Cloud ausführen (über Wikimedia PAWS)

Wenn du OpenRefine nicht auf deinem Computer installieren kannst oder es sehr langsam läuft, kannst du es auch in der Cloud verwenden (auf wmcloud.org über PAWS). Jeder mit einem Wikimedia-Konto kann hier auf OpenRefine zugreifen. Besuche https://hub-paws.wmcloud.org/, melde dich an und klicke auf das OpenRefine-Logo (blauer Diamant).

Die (oben erwähnte) Wikimedia-Commons-Erweiterung ist in OpenRefine auf PAWS installiert.

Bitte beachte: Mit OpenRefine auf PAWS ist es NICHT möglich, Dateien von deinem lokalen Computer auf Wikimedia Commons hochzuladen. Es ist jedoch möglich, vorhandene Dateien zu bearbeiten.

Ein OpenRefine-Projekt basierend auf einer oder mehreren Commons-Kategorien erstellen

Diese Anweisungen gehen davon aus, dass du die Wikimedia-Commons-Erweiterung von OpenRefine verwendest. Siehe ihre Dokumentation für Installationsanweisungen. Wenn du diese Erweiterung nicht verwendest und ein OpenRefine-Projekt auf andere Weise starten möchtest, sieh dir die Seite mit Tipps und Tricks für Fortgeschrittene an.

  • Wähle im Startbildschirm von OpenRefine die Option Wikimedia Commons.
  • Jetzt kannst du den Namen einer oder mehrerer Wikimedia-Commons-Kategorien eingeben. Du kannst auch die Tiefe angeben, mit der du den Commons-Kategorienbaum durchsuchen möchtest.
  • Klicke auf Next.
  • Die Projektvorschau wird geladen. Du siehst eine Liste mit Dateinamen, die aus der/den von dir angegebenen Kategorie(n) geladen wurden.
  • Unten im Vorschaufenster kannst du angeben, ob du zusätzlich eine Spalte mit den Commons-Kategorien der einzelnen Dateien und/oder eine Spalte mit MIDs der Dateien laden möchtest. Commons-Kategorien können sehr aufschlussreich und nützlich sein, um Daten zu extrahieren, die später als strukturierte Daten hinzugefügt werden können. Wenn du dich entscheidest, die Kategorien der Dateien noch nicht abzurufen, erhältst du auch später die Möglichkeit dazu.
  • Gib deinem Projekt einen aussagekräftigen Namen und klicke auf Create project. Das Projekt wird nun geladen und zeigt Vorschaubilder der Dateien an. Die Dateinamen sind blau und anklickbar, was bedeutet, dass sie bereits mit Wikimedia Commons abgeglichen sind.

Wikitext und strukturierte Daten extrahieren

Dieser Schritt ist optional, kann aber sehr nützlich sein. Vorhandene Dateien auf Wikimedia Commons werden immer mit Wikitext beschrieben, der normalerweise Informationen über den Ersteller der Datei, die Lizenz und eine oder mehrere Wikimedia-Commons-Kategorien enthält. Es ist oft sinnvoll, diesen Wikitext in OpenRefine zu parsen und daraus wertvolle Daten abzurufen, die im nächsten Schritt in strukturierte Daten umgewandelt werden können. Gute Beispiele für solche Daten können sein:

  • Die Dateibeschreibung, die du in eine Kurzbeschreibung umwandeln kannst
  • Der Ersteller der Datei
  • Die Quelle der Datei
  • In der Datei abgebildete Dinge und andere wertvolle Informationen können in den Kategorien der Datei erwähnt werden

Um eine oder mehrere neue Spalten mit Wikitext (und Aussagen mit strukturierten Daten) aus deiner Spalte mit abgeglichenen Dateinamen zu erstellen, wähle im Menü der Dateispalte Edit columnAdd columns from reconciled values.... Du erhältst ein Dialogfenster, in dem du eine oder mehrere Optionen auswählen kannst; du kannst nur eine oder mehrere davon auswählen.

  • Wikitext: Erstellt eine Spalte mit dem (vollständigen) Wikitext jeder Datei
  • Verschiedene Aussagen mit strukturierten Daten; das Dialogfenster schlägt mehrere gängige Aussagen vor, du kannst jedoch die Suchfunktion verwenden, um nach jeder Eigenschaft zu suchen, die dich interessiert
  • Du kannst Kurzbeschreibungen abrufen, indem du den Großbuchstaben C gefolgt vom zweistelligen Sprachencode eingibst (z. B. Cen für englische Kurzbeschreibungen, Cja für japanische Kurzbeschreibungen).

📘 Siehe Spalten aus abgeglichenen Werten hinzufügen im Benutzerhandbuch von OpenRefine für allgemeine Informationen zu dieser Funktion.

Wikitext parsen

Die Spalte mit Wikitext kann wertvolle Daten enthalten, die du in neue OpenRefine-Spalten extrahieren (oder parsen) möchtest.

📘 Die folgenden Anweisungen zeigen, wie Wikitext mithilfe der Funktionen der Wikimedia-Commons-Erweiterung von OpenRefine geparst wird. Siehe auch die Dokumentation dieser Erweiterung.

Es gibt noch viele weitere Möglichkeiten, diese Daten zu parsen. Die Seite Tipps und Tricks für Fortgeschrittene enthält weitere Rezepte - füge unbedingt deine eigenen hinzu, wenn du neue nützliche Methoden entwickelt hast!

Die Wikimedia-Commons-Erweiterung schaltet zwei dedizierte GREL-Befehle frei, die dabei helfen, spezifische Informationen aus dem Wikitext von Dateien auf Wikimedia Commons zu extrahieren.

GREL, General Refine Expression Language, ist eine spezielle Skriptsprache, die in OpenRefine für viele flexible Datenoperationen verwendet wird. Das Handbuch von OpenRefine enthält eine allgemeine Referenz zur Verwendung von GREL. Du wirst auch viele Beispiele und Rezepte finden, wenn du im Internet suchst.

Aus der Spalte mit dem Wikitext, die du im vorigen Schritt abgerufen hast, kannst du nun wie unten beschrieben Werte und Kategorien extrahieren. Wähle dazu zunächst im Spaltenmenü Edit column > Add column based on this column... aus. Im nächsten Dialogfenster kannst du verschiedene spezifische GREL-Befehle verwenden.

Werte aus Vorlagenparametern extrahieren: extractFromTemplate

Verwende die folgende Syntax:

extractFromTemplate(value, "BHL", "source")[0]

Ersetze dabei BHL durch den Namen der Vorlage (ohne geschweifte Klammern) und source durch den Parameter, aus dem du den Wert extrahieren möchtest. Diese GREL-Syntax gibt den ersten (und normalerweise einzigen) Wert des besagten Parameters zurück, z. B. https://www.flickr.com/photos/biodivlibrary/10329116385.

Wikimedia-Commons-Kategorien extrahieren: value.extractCategories

Verwende die folgende Syntax:

value.extractCategories().join('#')

Diese GREL-Syntax gibt alle im Wikitext erwähnten Kategorien zurück, getrennt durch das Zeichen #, das du dann verwenden kannst, um die resultierende Zelle nach Bedarf weiter aufzuteilen.

Andere Spalten mit Wikidata abgleichen

Strukturierte Daten auf Commons beschreiben Dateien auf Commons unter Verwendung von (mehrsprachigen) Datenobjekten und Eigenschaften aus Wikidata.

Angenommen, du hast in deinem Projekt eine oder mehrere Spalten mit (neuen) Daten, die du zu den Dateien als strukturierte Daten hinzufügen möchtest. Die Daten in den Zellen deiner Spalten können Wikidata-Datenobjekten entsprechen. Du musst diese abgleichen, damit OpenRefine versteht, dass es den Link zu diesen Wikidata-Datenobjekten erstellen muss. Beispiele hierfür sind:

Du gleichst diese Spalten mit dem Wikidata-Abgleichsdienst ab, auf Englisch oder einer anderen relevanten Sprache (Englisch funktioniert normalerweise gut). Der englische Wikidata-Abgleichsdienst ist standardmäßig in OpenRefine installiert.

Abgeglichene Spalten haben eine Kopfzeile, die dunkelgrün unterstrichen ist; die Werte in der Spalte sind blaue Hyperlinks, die auf Wikidata-Datenobjekte verweisen.

Du findest weitere Anweisungen zum Abgleichen von Daten im Benutzerhandbuch von OpenRefine und auf Wikidata.

Erstellung deines Bearbeitungsschemas

Schließlich erstellst du in OpenRefine ein Schema, um die Bearbeitungen auf Wikimedia Commons zu modellieren, die OpenRefine für jede Zeile in deinem Projekt vornimmt.

Klicke auf den Reiter Schema in der blauen Leiste über deinem Datensatz oder gehe zum Wikidata/Wikibase-Erweiterungsmenü und wähle Edit Wikibase schema aus. Du erhältst zunächst ein leeres Schemafenster. Überprüfe, ob der Infotext oben Wikimedia Commons erwähnt; wenn Wikidata erwähnt wird, musst du deine Wikibase-Instanz über den Menüpunkt Select Wikibase instance... im Wikibase-Erweiterungsmenü auf Wikimedia Commons umstellen.

Klicke auf den blauen Link + add media. Es werden mehrere Felder angezeigt.

Du kannst jetzt alle Informationen eingeben und/oder per Drag & Drop verschieben, die in die Metadaten der Dateien aufgenommen werden sollen.

  • Ziehe in das Hauptfeld (mit der Angabe type entity or drag reconciled column here) deine abgeglichene Spalte mit Dateinamen (siehe vorherige Anweisungen oben). Hinweis: Diese Spalte muss eine grüne Linie aufweisen (als Ergebnis der Abgleichung).
  • Beschreibungen: Wenn du Spalten mit Dateibeschreibungen erstellt hast, kannst du diese hierher ziehen. Achte darauf, die entsprechende Sprache hinzuzufügen.
  • Aussagen: Klicke auf + add statement, um Aussagen in strukturierten Daten einzeln hinzuzufügen. Du kannst Werte eingeben, die für alle deine Dateien gleich sind, oder (abgeglichene) Spalten herüberziehen.

Siehe Schema-Ausrichtung im Benutzerhandbuch von OpenRefine für allgemeine Informationen über Schemas.

Achte darauf, die Konventionen von Wikimedia Commons zur Datenmodellierung einzuhalten

Erfinde keine eigene Methode zur Beschreibung von Dateien, sondern achte darauf, die bewährten Vorgehensweisen von Wikimedia Commons zu befolgen. Frage im Zweifelsfall die Community von Wikimedia Commons auf der allgemeinen Diskussionsseite zu strukturierten Daten.

Datenmodelle für strukturierte Daten über Mediendateien auf Commons werden auf Commons:Structured_data/Modeling erklärt und diskutiert.

Grundlegende Aussagen in strukturierten Daten für alle Dateien auf Commons sind:

Hinzuzufügende strukturierte Daten Kurzanleitung Detaillierte Anleitungen und Informationen zum Datenmodell in strukturierten Daten
Dateibeschreibung(en) (mehrsprachig) Eine (kurze) Textbeschreibung der Datei in mindestens einer Sprache. Reiner Text; keine Wiki-Syntax oder Hyperlinks. Richtlinien zur Datenmodellierung: Dateibeschreibungen
Datum Normalerweise das Datum, an dem die Datei erstellt wurde; mit einer Aussage inception (P571). Richtlinien zur Datenmodellierung: Datum
Quelle der Datei Informationen darüber, woher die Datei stammt. Handelt es sich um das eigene Werk des Hochladers, wurde sie von einer externen Website hochgeladen, ...? Normalerweise mit einer Aussage source of file (P7482). Richtlinien zur Datenmodellierung: Quelle der Datei
Ersteller Wer hat die Datei erstellt? Normalerweise mit einer Aussage creator (P170) beschrieben. Richtlinien zur Datenmodellierung: Ersteller der Datei
Urheberrechtsstatus und Lizenz Unterliegt die Datei noch dem Urheberrecht oder ist sie gemeinfrei? Wenn sie noch dem Urheberrecht unterliegt, welche Lizenz(en) gilt/gelten? Verwendung von copyright status (P6216) und copyright license (P275). Richtlinien zur Datenmodellierung: Urheberrecht und Lizenz

Vorschau und Hochladen deiner Bearbeitungen auf Wikimedia Commons

Du kannst dir eine Vorschau deiner Bearbeitungen ansehen, indem du auf den Reiter Preview über deinem Schema klickst. Der Reiter Issues informiert dich über mögliche Fehler in deinen Daten oder deinem Schema, sodass du diese beheben kannst.

Tipp: Beginne mit der Bearbeitung von nur einer oder wenigen Dateien, um deine Bearbeitungen zu testen und zu prüfen, ob sie gut aussehen. Fehler nach einem großen Stapel können behoben werden, aber es ist besser, es in einem frühen Stadium auszuprobieren.

Wenn du bereit bist, deine Bearbeitungen hochzuladen, wähle Upload edits to Wikibase... im Wikidata/Wikibase-Erweiterungsmenü aus und melde dich mit deinen Anmeldeinformationen für Wikimedia Commons an. OpenRefine fordert dich auf, ein Bot-Passwort zu verwenden, aber wenn du möchtest, kannst du diese Warnung ignorieren. Gib eine beschreibende Bearbeitungszusammenfassung an. Der Maxlag-Wert muss nicht geändert werden. Klicke auf Upload edits und deine Stapelbearbeitung wird gestartet.

Du siehst deine zuletzt bearbeiteten Dateien in deinem eigenen Bearbeitungsverlauf auf Wikimedia Commons.

Siehe Dokumentation zum Hochladen im Benutzerhandbuch von OpenRefine für allgemeine Informationen zu dieser Funktion.

Mit dem Werkzeug EditGroups Fehler korrigieren

Wenn du deine Benutzerbeiträge prüfst, werden dir deine letzten mit OpenRefine durchgeführten Änderungen auf Wikimedia Commons angezeigt. Jede OpenRefine-Bearbeitung zeigt nach der Bearbeitungszusammenfassung einen Hyperlink (details) an, der zum Bearbeitungsstapel im Werkzeug EditGroups führt.

In EditGroups können ganze Stapel von Änderungen einfach rückgängig gemacht werden, falls Fehler gemacht wurden.

Alle Stapel von OpenRefine auf Wikimedia Commons werden unter https://editgroups-commons.toolforge.org/?tool=OR aufgeführt.