German subtitles for clip: File:Wikidata Editing with OpenRefine - Part 1.webm
Jump to navigation
Jump to search
1 00:00:00,000 --> 00:00:05,333 Willkommen zur Tutorialreihe, die zeigt, wie man OpenRefine zum Datenimport in Wikidata nutzen kann. 2 00:00:05,333 --> 00:00:06,833 Mein Name ist Antonin, 3 00:00:06,850 --> 00:00:09,674 und ich führe euch jetzt durch den gesamten Prozess – 4 00:00:09,674 --> 00:00:11,489 wie man das Datenmaterial bereinigt, 5 00:00:11,489 --> 00:00:13,468 den passenden Wikidata-Objekten zuordnet, 6 00:00:13,468 --> 00:00:17,601 und die Informationen als Aussagen zu den Objekten hochlädt. 7 00:00:17,612 --> 00:00:20,133 Ihr braucht keine Vorkenntnisse von OpenRefine, um diesem Tutorial zu folgen, 8 00:00:20,133 --> 00:00:23,333 ein paar Kenntnisse von Wikidata sind jedoch hilfreich. 9 00:00:24,078 --> 00:00:26,627 Alle Links zum Nachvollziehen dieses Tutorials 10 00:00:26,627 --> 00:00:28,485 sind in der Beschreibung zum Video aufgelistet. 11 00:00:28,485 --> 00:00:30,828 Dann legen wir mal los … 12 00:00:30,828 --> 00:00:35,561 OpenRefine ist freie Software, die ihr auf openrefine.org runterladen könnt. 13 00:00:35,930 --> 00:00:40,330 Wenn ihr es installiert habt, läuft es so wie hier im Browser. 14 00:00:40,679 --> 00:00:43,363 In diesem Tutorial importieren wir Daten 15 00:00:43,363 --> 00:00:46,496 about Drehorte von Filmen in Paris. 16 00:00:47,592 --> 00:00:49,947 Die Daten, mit denen wir hier arbeiten, sind 17 00:00:49,947 --> 00:00:52,947 auf dem Pariser Opendata-Portal verfügbar 18 00:00:53,455 --> 00:00:55,962 und wir können sie als csv-Datei runterladen. 19 00:00:55,962 --> 00:00:58,501 Wir können einfach den URL dieser Datei kopieren 20 00:00:58,501 --> 00:01:01,501 und in OpenRefine einfügen. 21 00:01:01,794 --> 00:01:04,395 Wir sehen dann eine Vorschau der Datentabelle, 22 00:01:04,395 --> 00:01:06,604 das Format sieht soweit gut aus, 23 00:01:06,604 --> 00:01:10,004 so dass wir einen Namen für das Projekt vergeben und es speichern. 24 00:01:13,482 --> 00:01:15,824 Der erste Schritt, um die Daten in Wikidata zu importieren, 25 00:01:15,824 --> 00:01:17,324 ist die Zuordnung der Filmtitel in der Liste 26 00:01:17,324 --> 00:01:20,191 mit den passenden Wikidata-Objekten. 27 00:01:20,766 --> 00:01:22,266 Klickt also auf die Spalte, die den Titel der 28 00:01:22,266 --> 00:01:23,600 zuzuordnenden Objekte enthält 29 00:01:23,600 --> 00:01:26,667 und wählt im Kontextmenü "Reconcile" -> "Start reconciling". 30 00:01:27,200 --> 00:01:30,200 Wählt den "Wikidata reconciliation service" aus. 31 00:01:31,150 --> 00:01:33,100 OpenRefine versucht nun, den Typ des 32 00:01:33,100 --> 00:01:37,100 dazu passenden Objekts zu „raten“. 33 00:01:37,100 --> 00:01:37,688 In unserem Fall 34 00:01:37,688 --> 00:01:40,688 ist die beste Vermutung „Film“, 35 00:01:40,953 --> 00:01:43,638 was soweit passt. 36 00:01:43,638 --> 00:01:46,572 OpenRefine berücksichtigt dabei nur Ausprägungen dieser Datenklasse 37 00:01:46,572 --> 00:01:48,488 oder Unterklassen davon 38 00:01:48,488 --> 00:01:51,472 wenn es nach Zuordnungen sucht. 39 00:01:51,472 --> 00:01:54,302 Ihr könnt OpenRefine aber auch andere Attribute mitgeben, 40 00:01:54,302 --> 00:01:56,993 die in anderen Spalten der Tabelle vorliegen. 41 00:01:56,993 --> 00:01:59,785 Hier nehmen wir die „Réalisateur“-Spalte mit dazu, 42 00:01:59,785 --> 00:02:02,145 die den Namen des Regisseurs enthält, 43 00:02:02,145 --> 00:02:05,021 was natürlich sehr nützlich zur Begriffsklärung ist. 44 00:02:05,021 --> 00:02:07,594 Also, markiert die Checkbox und wählt 45 00:02:07,594 --> 00:02:10,114 die zugehörige Wikidata-Eigenschaft. 46 00:02:10,114 --> 00:02:13,066 Klickt "Start reconciling" 47 00:02:13,066 --> 00:02:16,066 und wartet, bis der Vorgang durch ist. 48 00:02:26,998 --> 00:02:29,153 Nachdem der Datenabgleich erledigt ist, 49 00:02:29,153 --> 00:02:30,803 sind einige der Filmnamen blaue Links geworden, 50 00:02:30,803 --> 00:02:34,270 die zu den passenden Wikidata-Objekten zeigen. 51 00:02:34,990 --> 00:02:36,969 Andere sind nicht verknüpft worden, 52 00:02:36,969 --> 00:02:39,185 etwa weil der Regisseur nicht übereinstimmte. 53 00:02:39,185 --> 00:02:42,185 Hier z.B. bei diesem Film „Nadia“. 54 00:02:42,411 --> 00:02:44,042 Einige andere Filme wurden nicht zugeordnet 55 00:02:44,042 --> 00:02:47,698 weil Wikidata nicht weiß, wer Regie geführt hat. 56 00:02:47,698 --> 00:02:49,116 Wenn ihr Zeit habt, 57 00:02:49,116 --> 00:02:51,265 könnt ihr diese nicht zugeordneten Zellen durchgehen 58 00:02:51,265 --> 00:02:53,290 und manuell abgleichen. 59 00:02:53,290 --> 00:02:55,097 Aber ihr könnt sie auch erst mal lassen wie sie sind: 60 00:02:55,097 --> 00:02:58,430 Diese Reihen ignorieren wir beim Import einfach. 61 00:03:00,100 --> 00:03:02,993 Hier im linken Bereich seht ihr zwei Wertebereiche (facets), 62 00:03:02,993 --> 00:03:04,530 die man zum Filtern der Reihen verwenden kann 63 00:03:04,530 --> 00:03:06,200 sie basieren auf ihrem Zuordnungsstatus 64 00:03:06,200 --> 00:03:08,381 und ihrer Genauigkeitsquote (matching score). 65 00:03:08,381 --> 00:03:10,896 Wählt also z.B. alle Reihen aus, wo die Zuordnung geklappt hat, 66 00:03:10,896 --> 00:03:13,896 indem ihr auf den Status „matched“ klickt. 67 00:03:15,450 --> 00:03:17,200 Es ist natürlich wichtig, dass ihr 68 00:03:17,200 --> 00:03:19,500 die Qualität dieser automatisierten Zuordnungen prüft; 69 00:03:19,500 --> 00:03:21,250 dazu gibt es verschiedene Methoden. 70 00:03:21,250 --> 00:03:23,250 In unserem Fall enthält die Tabelle 71 00:03:23,250 --> 00:03:25,000 das Aufnahmedatum des Films, 72 00:03:25,000 --> 00:03:26,700 also vergleichen wir dieses 73 00:03:26,700 --> 00:03:28,774 mit dem Erscheinungsdatum des Films 74 00:03:28,774 --> 00:03:30,440 und prüfen, ob die Werte in sich schlüssig sind. 75 00:03:30,440 --> 00:03:32,855 Klickt auf die abgeglichene Spalte 76 00:03:32,855 --> 00:03:36,000 wählt im Menü "Edit column" -> "Add column from reconciled values" 77 00:03:36,000 --> 00:03:39,000 und wählt danach "Erscheinungsdatum" (publication date) 78 00:03:46,700 --> 00:03:49,050 Wir erstellen uns nun eine Spalte, 79 00:03:49,050 --> 00:03:50,650 die die Differenz zwischen 80 00:03:50,650 --> 00:03:52,150 Erscheinungsdatum und 81 00:03:52,150 --> 00:03:54,350 dem Enddatum der Dreharbeiten enthält. 82 00:03:57,278 --> 00:04:01,211 Wähle "Edit column" -> "Add column based on this column" 83 00:04:02,498 --> 00:04:04,800 Die Sprache, die wir hier für den Ausdruck benutzen 84 00:04:04,800 --> 00:04:06,750 heißt „GREL“, 85 00:04:06,750 --> 00:04:08,550 eine recht einfache Sprache, über die 86 00:04:08,550 --> 00:04:10,150 man sich im Wiki von OpenRefine schlau machen kann. 87 00:04:10,150 --> 00:04:12,065 Ihr könnt auch eine andere Sprache auswählen, 88 00:04:12,065 --> 00:04:14,398 die euch mehr liegt. 89 00:04:14,750 --> 00:04:17,588 Dieser Ausdruck berechnet jetzt den Unterschied 90 00:04:17,588 --> 00:04:19,150 zwischen den beiden Daten 91 00:04:19,150 --> 00:04:22,159 und gibt die Anzahl von Tagen zurück. 92 00:04:22,159 --> 00:04:24,196 Jetzt noch einen Namen für die Spalte vergeben 93 00:04:24,196 --> 00:04:27,196 … und die neue Spalte erstellen. 94 00:04:31,079 --> 00:04:32,579 Jetzt können wir einen numerischen Wertebereich (Facet) 95 00:04:32,579 --> 00:04:33,682 über unsere neue Spalte erstellen 96 00:04:33,682 --> 00:04:37,149 und uns die Verteilung der Unterschiede ansehen. 97 00:04:39,704 --> 00:04:42,124 Einige Werte sind negativ 98 00:04:42,124 --> 00:04:44,700 was darauf hindeuten könnte, dass der zugeordnete Film 99 00:04:44,700 --> 00:04:48,443 schon vor den Dreharbeiten erschienen ist. 100 00:04:48,443 --> 00:04:52,200 Hier bedeutet es aber nur, dass das Erscheinungsdatum 101 00:04:52,200 --> 00:04:55,952 auf Wikidata nur mit der Genauigkeit „Jahr“ eingetragen ist. 102 00:04:57,041 --> 00:04:59,229 Der maximale Unterschied zwischen den Werten ist hier weniger als zwei Jahre 103 00:04:59,229 --> 00:05:00,643 was soweit auch schlüssig aussieht. 104 00:05:00,643 --> 00:05:02,020 Insgesamt können wir also davon ausgehen, 105 00:05:02,020 --> 00:05:05,020 dass die Zuordnungen soweit korrekt sind. 106 00:05:08,515 --> 00:05:11,258 Das ist das Ende von Teil 1 des Tutorials. 107 00:05:11,258 --> 00:05:13,315 Im nächsten Video werden wir 108 00:05:13,315 --> 00:05:16,315 die Drehorte mit Wikidata abgleichen.