French subtitles for clip: File:Wikidata Editing with OpenRefine - Part 1.webm
Jump to navigation
Jump to search
1 00:00:00,000 --> 00:00:05,333 Bienvenue dans cette série de tutoriels sur l'utilisation d'OpenRefine pour importer des données dans Wikidata. 2 00:00:05,333 --> 00:00:06,833 Mon nom est Antonin 3 00:00:06,850 --> 00:00:09,674 Je vais vous guider à travers le processus 4 00:00:09,674 --> 00:00:11,489 de nettoyage du jeu de données, 5 00:00:11,489 --> 00:00:13,468 d'association aux éléments Wikidata, 6 00:00:13,468 --> 00:00:17,601 et de téléchargement des informations sous forme de déclarations sur ces éléments. 7 00:00:17,612 --> 00:00:20,133 Aucune connaissance préalable d'OpenRefine n'est nécessaire pour suivre ce tutoriel 8 00:00:20,133 --> 00:00:23,333 mais une certaine familiarité avec Wikidata est utile. 9 00:00:24,078 --> 00:00:26,627 Tous les liens nécessaires pour suivre le tutoriel 10 00:00:26,627 --> 00:00:28,485 se trouvent dans la description de la vidéo. 11 00:00:28,485 --> 00:00:30,828 Allons-y 12 00:00:30,828 --> 00:00:35,561 OpenRefine est un logiciel libre que vous pouvez télécharger sur openrefine.org. 13 00:00:35,930 --> 00:00:40,330 Une fois installé, il fonctionne dans votre navigateur comme ceci. 14 00:00:40,679 --> 00:00:43,363 Dans ce tutoriel, nous allons importer des données 15 00:00:43,363 --> 00:00:46,496 sur les lieux de tournage de films à Paris. 16 00:00:47,592 --> 00:00:49,947 Le jeu de données sur lequel nous allons travailler est disponible 17 00:00:49,947 --> 00:00:52,947 sur le portail de données ouvertes parisien 18 00:00:53,455 --> 00:00:55,962 et nous pouvons le télécharger en fichier CSV. 19 00:00:55,962 --> 00:00:58,501 Nous pouvons simplement copier l'URL de ce fichier 20 00:00:58,501 --> 00:01:01,501 et la coller dans OpenRefine. 21 00:01:01,794 --> 00:01:04,395 Nous avons maintenant un aperçu du tableau 22 00:01:04,395 --> 00:01:06,604 et nous sommes satisfait par ce format 23 00:01:06,604 --> 00:01:10,004 nous donnons donc un nom au projet et le créons. 24 00:01:13,482 --> 00:01:15,824 La première étape pour importer ces données dans Wikidata 25 00:01:15,824 --> 00:01:17,324 est de'associer les noms de films 26 00:01:17,324 --> 00:01:20,191 avec les éléments Wikidata correspondants. 27 00:01:20,766 --> 00:01:22,266 Cliquez sur la colonne qui contient les noms 28 00:01:22,266 --> 00:01:23,600 des entités que vous voulez faire correspondre. 29 00:01:23,600 --> 00:01:26,667 et choisissez « Réconcilier » -> « Démarrer la réconciliation ». 30 00:01:27,200 --> 00:01:30,200 Choisissez le service de réconciliation Wikidata. 31 00:01:31,150 --> 00:01:33,100 OpenRefine essaie de deviner 32 00:01:33,100 --> 00:01:37,100 le type d'entité auquel ces noms correspondent. 33 00:01:37,100 --> 00:01:37,688 Dans notre cas, 34 00:01:37,688 --> 00:01:40,688 sa meilleure estimation est « film » 35 00:01:40,953 --> 00:01:43,638 ce qui semble approprié. 36 00:01:43,638 --> 00:01:46,572 OpenRefine considérera uniquement les instances de cette classe 37 00:01:46,572 --> 00:01:48,488 ou les sous-classes de celle-ci 38 00:01:48,488 --> 00:01:51,472 lors de la recherche de correspondances. 39 00:01:51,472 --> 00:01:54,302 OpenRefine permet également de faire correspondre d'autres propriétés 40 00:01:54,302 --> 00:01:56,993 stockées dans d'autres colonnes de la table. 41 00:01:56,993 --> 00:01:59,785 Dans notre cas, la colonne « Réalisateur » 42 00:01:59,785 --> 00:02:02,145 contient le nom du réalisateur, 43 00:02:02,145 --> 00:02:05,021 ce qui est très utile pour la désambiguïsation. 44 00:02:05,021 --> 00:02:07,594 Cochez cette colonne et sélectionnez 45 00:02:07,594 --> 00:02:10,114 la propriété Wikidata à laquelle elle doit correspondre. 46 00:02:10,114 --> 00:02:13,066 Cliquez sur « Démarrer la réconciliation » 47 00:02:13,066 --> 00:02:16,066 et attendez que le processus soit terminé. 48 00:02:26,998 --> 00:02:29,153 Maintenant que la réconciliation est faite, 49 00:02:29,153 --> 00:02:30,803 certains noms sont devenus des liens bleus 50 00:02:30,803 --> 00:02:34,270 qui pointent vers les éléments Wikidata correspondants. 51 00:02:34,990 --> 00:02:36,969 D'autres n'ont pas été trouvés 52 00:02:36,969 --> 00:02:39,185 par exemple parce que le directeur ne correspond pas 53 00:02:39,185 --> 00:02:42,185 dans le cas du film ''Nadia''. 54 00:02:42,411 --> 00:02:44,042 Certains autres films n'ont pas été trouvés 55 00:02:44,042 --> 00:02:47,698 parce que Wikidata ne sait pas qui est leur directeur. 56 00:02:47,698 --> 00:02:49,116 Si vous avez le temps, 57 00:02:49,116 --> 00:02:51,265 vous pouvez revoir ces cellules sans correspondance 58 00:02:51,265 --> 00:02:53,290 et les réconcilier manuellement. 59 00:02:53,290 --> 00:02:55,097 Mais vous pouvez aussi les laisser telles quelles : 60 00:02:55,097 --> 00:02:58,430 ces lignes seront juste ignorées dans l'importation. 61 00:03:00,100 --> 00:03:02,993 Sur le côté gauche, vous pouvez voir deux facettes. 62 00:03:02,993 --> 00:03:04,530 Celles-ci peuvent être utilisés pour filtrer les lignes 63 00:03:04,530 --> 00:03:06,200 en fonction de leur statut de correspondance 64 00:03:06,200 --> 00:03:08,381 et leur score de correspondance. 65 00:03:08,381 --> 00:03:10,896 Vous pouvez sélectionner les lignes où la correspondance a réussi 66 00:03:10,896 --> 00:03:13,896 en cliquant sur le statut « correspondant ». 67 00:03:15,450 --> 00:03:17,200 Il est important de vérifier 68 00:03:17,200 --> 00:03:19,500 la qualité de ces correspondances automatisées, 69 00:03:19,500 --> 00:03:21,250 et il y a plusieurs façons de le faire. 70 00:03:21,250 --> 00:03:23,250 Dans notre cas, le tableau contient 71 00:03:23,250 --> 00:03:25,000 les dates des tournages 72 00:03:25,000 --> 00:03:26,700 que l'on peut comparer 73 00:03:26,700 --> 00:03:28,774 à la date de sortie des films 74 00:03:28,774 --> 00:03:30,440 et vérifiez qu'elles sont cohérentes. 75 00:03:30,440 --> 00:03:32,855 Cliquez sur la colonne réconciliée, 76 00:03:32,855 --> 00:03:36,000 choisissez « Modifier la colonne » -> « Ajouter une colonne à partir des valeurs réconciliées » 77 00:03:36,000 --> 00:03:39,000 et sélectionnez « date de publication ». 78 00:03:46,700 --> 00:03:49,050 Nous allons maintenant créer une colonne 79 00:03:49,050 --> 00:03:50,650 qui contiendra la différence 80 00:03:50,650 --> 00:03:52,150 entre la date de publication 81 00:03:52,150 --> 00:03:54,350 et la date de fin de tournage. 82 00:03:57,278 --> 00:04:01,211 Choisissez « Modifier la colonne » -> « Ajouter une colonne en fonction de cette colonne » 83 00:04:02,498 --> 00:04:04,800 Le langage utilisée pour l'expression ici 84 00:04:04,800 --> 00:04:06,750 s'appelle GREL. 85 00:04:06,750 --> 00:04:08,550 C'est un langage simple 86 00:04:08,550 --> 00:04:10,150 que vous pouvez apprendre sur le wiki d'OpenRefine. 87 00:04:10,150 --> 00:04:12,065 Vous pouvez sélectionner d'autres langages 88 00:04:12,065 --> 00:04:14,398 si vous êtes plus familier avec eux. 89 00:04:14,750 --> 00:04:17,588 Cette expression va calculer la différence 90 00:04:17,588 --> 00:04:19,150 entre les deux dates 91 00:04:19,150 --> 00:04:22,159 en nombre de jours. 92 00:04:22,159 --> 00:04:24,196 Donnez un nom à la nouvelle colonne 93 00:04:24,196 --> 00:04:27,196 et créez la colonne. 94 00:04:31,079 --> 00:04:32,579 Nous pouvons maintenant créer une facette numérique 95 00:04:32,579 --> 00:04:33,682 sur notre nouvelle colonne 96 00:04:33,682 --> 00:04:37,149 et inspecter la répartition des différences. 97 00:04:39,704 --> 00:04:42,124 Certaines de ces différences sont négatives 98 00:04:42,124 --> 00:04:44,700 ce qui suggère que nous avons peut-être des cellules correspondant 99 00:04:44,700 --> 00:04:48,443 à des films sortis avant le tournage. 100 00:04:48,443 --> 00:04:52,200 En fait, c'est juste parce que leur date de sortie 101 00:04:52,200 --> 00:04:55,952 a une précision annuelle sur Wikidata. 102 00:04:57,041 --> 00:04:59,229 La différence maximale est inférieure à deux ans 103 00:04:59,229 --> 00:05:00,643 ce qui est aussi cohérent, 104 00:05:00,643 --> 00:05:02,020 donc nous sommes confiants 105 00:05:02,020 --> 00:05:05,020 que ces correspondances sont fiables. 106 00:05:08,515 --> 00:05:11,258 Ceci est la fin de la première partie du tutoriel 107 00:05:11,258 --> 00:05:13,315 Dans la prochaine vidéo, nous allons réconcilier 108 00:05:13,315 --> 00:05:16,315 les emplacements des tournages.