German subtitles for clip: File:Wikidata Editing with OpenRefine - Part 1.webm

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
1
00:00:00,000 --> 00:00:05,333
Willkommen zur Tutorialreihe, die zeigt, wie man OpenRefine zum Datenimport in Wikidata nutzen kann.

2
00:00:05,333 --> 00:00:06,833
Mein Name ist Antonin,

3
00:00:06,850 --> 00:00:09,674
und ich führe euch jetzt durch den gesamten Prozess – 

4
00:00:09,674 --> 00:00:11,489
wie man das Datenmaterial bereinigt,

5
00:00:11,489 --> 00:00:13,468
den passenden Wikidata-Objekten zuordnet,

6
00:00:13,468 --> 00:00:17,601
und die Informationen als Aussagen zu den Objekten hochlädt.

7
00:00:17,612 --> 00:00:20,133
Ihr braucht keine Vorkenntnisse von OpenRefine, um diesem Tutorial zu folgen,

8
00:00:20,133 --> 00:00:23,333
ein paar Kenntnisse von Wikidata sind jedoch hilfreich.

9
00:00:24,078 --> 00:00:26,627
Alle Links zum Nachvollziehen dieses Tutorials

10
00:00:26,627 --> 00:00:28,485
sind in der Beschreibung zum Video aufgelistet.

11
00:00:28,485 --> 00:00:30,828
Dann legen wir mal los …

12
00:00:30,828 --> 00:00:35,561
OpenRefine ist freie Software, die ihr auf openrefine.org runterladen könnt.

13
00:00:35,930 --> 00:00:40,330
Wenn ihr es installiert habt, läuft es so wie hier im Browser.

14
00:00:40,679 --> 00:00:43,363
In diesem Tutorial importieren wir Daten

15
00:00:43,363 --> 00:00:46,496
about Drehorte von Filmen in Paris.

16
00:00:47,592 --> 00:00:49,947
Die Daten, mit denen wir hier arbeiten, sind 

17
00:00:49,947 --> 00:00:52,947
auf dem Pariser Opendata-Portal verfügbar

18
00:00:53,455 --> 00:00:55,962
und wir können sie als csv-Datei runterladen.

19
00:00:55,962 --> 00:00:58,501
Wir können einfach den URL dieser Datei kopieren

20
00:00:58,501 --> 00:01:01,501
und in OpenRefine einfügen.

21
00:01:01,794 --> 00:01:04,395
Wir sehen dann eine Vorschau der Datentabelle,

22
00:01:04,395 --> 00:01:06,604
das Format sieht soweit gut aus,

23
00:01:06,604 --> 00:01:10,004
so dass wir einen Namen für das Projekt vergeben und es speichern.

24
00:01:13,482 --> 00:01:15,824
Der erste Schritt, um die Daten in Wikidata zu importieren,

25
00:01:15,824 --> 00:01:17,324
ist die Zuordnung der Filmtitel in der Liste

26
00:01:17,324 --> 00:01:20,191
mit den passenden Wikidata-Objekten.

27
00:01:20,766 --> 00:01:22,266
Klickt also auf die Spalte, die den Titel der 

28
00:01:22,266 --> 00:01:23,600
zuzuordnenden Objekte enthält

29
00:01:23,600 --> 00:01:26,667
und wählt im Kontextmenü "Reconcile" -> "Start reconciling".

30
00:01:27,200 --> 00:01:30,200
Wählt den "Wikidata reconciliation service" aus.

31
00:01:31,150 --> 00:01:33,100
OpenRefine versucht nun, den Typ des 

32
00:01:33,100 --> 00:01:37,100
dazu passenden Objekts zu „raten“.

33
00:01:37,100 --> 00:01:37,688
In unserem Fall

34
00:01:37,688 --> 00:01:40,688
ist die beste Vermutung „Film“,

35
00:01:40,953 --> 00:01:43,638
was soweit passt.

36
00:01:43,638 --> 00:01:46,572
OpenRefine berücksichtigt dabei nur Ausprägungen dieser Datenklasse

37
00:01:46,572 --> 00:01:48,488
oder Unterklassen davon

38
00:01:48,488 --> 00:01:51,472
wenn es nach Zuordnungen sucht. 

39
00:01:51,472 --> 00:01:54,302
Ihr könnt OpenRefine aber auch andere Attribute mitgeben,

40
00:01:54,302 --> 00:01:56,993
die in anderen Spalten der Tabelle vorliegen.

41
00:01:56,993 --> 00:01:59,785
Hier nehmen wir die „Réalisateur“-Spalte mit dazu,

42
00:01:59,785 --> 00:02:02,145
die den Namen des Regisseurs enthält,

43
00:02:02,145 --> 00:02:05,021
was natürlich sehr nützlich zur Begriffsklärung ist.

44
00:02:05,021 --> 00:02:07,594
Also, markiert die Checkbox und wählt

45
00:02:07,594 --> 00:02:10,114
die zugehörige Wikidata-Eigenschaft.

46
00:02:10,114 --> 00:02:13,066
Klickt "Start reconciling"

47
00:02:13,066 --> 00:02:16,066
und wartet, bis der Vorgang durch ist.

48
00:02:26,998 --> 00:02:29,153
Nachdem der Datenabgleich erledigt ist,

49
00:02:29,153 --> 00:02:30,803
sind einige der Filmnamen blaue Links geworden,

50
00:02:30,803 --> 00:02:34,270
die zu den passenden Wikidata-Objekten zeigen.

51
00:02:34,990 --> 00:02:36,969
Andere sind nicht verknüpft worden,

52
00:02:36,969 --> 00:02:39,185
etwa weil der Regisseur nicht übereinstimmte. 

53
00:02:39,185 --> 00:02:42,185
Hier z.B. bei diesem Film „Nadia“.

54
00:02:42,411 --> 00:02:44,042
Einige andere Filme wurden nicht zugeordnet

55
00:02:44,042 --> 00:02:47,698
weil Wikidata nicht weiß, wer Regie geführt hat.

56
00:02:47,698 --> 00:02:49,116
Wenn ihr Zeit habt,

57
00:02:49,116 --> 00:02:51,265
könnt ihr diese nicht zugeordneten Zellen durchgehen

58
00:02:51,265 --> 00:02:53,290
und manuell abgleichen.

59
00:02:53,290 --> 00:02:55,097
Aber ihr könnt sie auch erst mal lassen wie sie sind:

60
00:02:55,097 --> 00:02:58,430
Diese Reihen ignorieren wir beim Import einfach.

61
00:03:00,100 --> 00:03:02,993
Hier im linken Bereich seht ihr zwei Wertebereiche (facets),

62
00:03:02,993 --> 00:03:04,530
die man zum Filtern der Reihen verwenden kann

63
00:03:04,530 --> 00:03:06,200
sie basieren auf ihrem Zuordnungsstatus

64
00:03:06,200 --> 00:03:08,381
und ihrer Genauigkeitsquote (matching score).

65
00:03:08,381 --> 00:03:10,896
Wählt also z.B. alle Reihen aus, wo die Zuordnung geklappt hat,

66
00:03:10,896 --> 00:03:13,896
indem ihr auf den Status „matched“ klickt.

67
00:03:15,450 --> 00:03:17,200
Es ist natürlich wichtig, dass ihr 

68
00:03:17,200 --> 00:03:19,500
die Qualität dieser automatisierten Zuordnungen prüft;

69
00:03:19,500 --> 00:03:21,250
dazu gibt es verschiedene Methoden.

70
00:03:21,250 --> 00:03:23,250
In unserem Fall enthält die Tabelle 

71
00:03:23,250 --> 00:03:25,000
das Aufnahmedatum des Films,

72
00:03:25,000 --> 00:03:26,700
also vergleichen wir dieses 

73
00:03:26,700 --> 00:03:28,774
mit dem Erscheinungsdatum des Films

74
00:03:28,774 --> 00:03:30,440
und prüfen, ob die Werte in sich schlüssig sind.

75
00:03:30,440 --> 00:03:32,855
Klickt auf die abgeglichene Spalte

76
00:03:32,855 --> 00:03:36,000
wählt im Menü "Edit column" -> "Add column from reconciled values"

77
00:03:36,000 --> 00:03:39,000
und wählt danach "Erscheinungsdatum" (publication date)

78
00:03:46,700 --> 00:03:49,050
Wir erstellen uns nun eine Spalte,

79
00:03:49,050 --> 00:03:50,650
die die Differenz zwischen 

80
00:03:50,650 --> 00:03:52,150
Erscheinungsdatum und 

81
00:03:52,150 --> 00:03:54,350
dem Enddatum der Dreharbeiten enthält.

82
00:03:57,278 --> 00:04:01,211
Wähle "Edit column" -> "Add column based on this column"

83
00:04:02,498 --> 00:04:04,800
Die Sprache, die wir hier für den Ausdruck benutzen

84
00:04:04,800 --> 00:04:06,750
heißt „GREL“, 

85
00:04:06,750 --> 00:04:08,550
eine recht einfache Sprache, über die

86
00:04:08,550 --> 00:04:10,150
man sich im Wiki von OpenRefine schlau machen kann.

87
00:04:10,150 --> 00:04:12,065
Ihr könnt auch eine andere Sprache auswählen,

88
00:04:12,065 --> 00:04:14,398
die euch mehr liegt.

89
00:04:14,750 --> 00:04:17,588
Dieser Ausdruck berechnet jetzt den Unterschied

90
00:04:17,588 --> 00:04:19,150
zwischen den beiden Daten

91
00:04:19,150 --> 00:04:22,159
und gibt die Anzahl von Tagen zurück.

92
00:04:22,159 --> 00:04:24,196
Jetzt noch einen Namen für die Spalte vergeben

93
00:04:24,196 --> 00:04:27,196
… und die neue Spalte erstellen.

94
00:04:31,079 --> 00:04:32,579
Jetzt können wir einen numerischen Wertebereich (Facet) 

95
00:04:32,579 --> 00:04:33,682
über unsere neue Spalte erstellen

96
00:04:33,682 --> 00:04:37,149
und uns die Verteilung der Unterschiede ansehen.

97
00:04:39,704 --> 00:04:42,124
Einige Werte sind negativ

98
00:04:42,124 --> 00:04:44,700
was darauf hindeuten könnte, dass der zugeordnete Film

99
00:04:44,700 --> 00:04:48,443
schon vor den Dreharbeiten erschienen ist.

100
00:04:48,443 --> 00:04:52,200
Hier bedeutet es aber nur, dass das Erscheinungsdatum 

101
00:04:52,200 --> 00:04:55,952
auf Wikidata nur mit der Genauigkeit „Jahr“ eingetragen ist.

102
00:04:57,041 --> 00:04:59,229
Der maximale Unterschied zwischen den Werten ist hier weniger als zwei Jahre

103
00:04:59,229 --> 00:05:00,643
was soweit auch schlüssig aussieht.

104
00:05:00,643 --> 00:05:02,020
Insgesamt können wir also davon ausgehen,

105
00:05:02,020 --> 00:05:05,020
dass die Zuordnungen soweit korrekt sind. 

106
00:05:08,515 --> 00:05:11,258
Das ist das Ende von Teil 1 des Tutorials.

107
00:05:11,258 --> 00:05:13,315
Im nächsten Video werden wir 

108
00:05:13,315 --> 00:05:16,315
die Drehorte mit Wikidata abgleichen.