French subtitles for clip: File:Wikidata Editing with OpenRefine - Part 2.webm
Jump to navigation
Jump to search
1 00:00:00,000 --> 00:00:02,367 Bienvenue à la partie 2 de ce tutoriel 2 00:00:02,367 --> 00:00:04,700 sur l'utilisation d'OpenRefine pour importer des données 3 00:00:04,700 --> 00:00:06,400 dans Wikidata. 4 00:00:06,400 --> 00:00:08,200 Dans la vidéo précédente, 5 00:00:08,200 --> 00:00:10,750 nous avons associés les films à leurs éléments Wikidata 6 00:00:10,750 --> 00:00:13,100 et vérifiez la qualité de la réconciliation. 7 00:00:13,100 --> 00:00:15,050 Pour chaque film, 8 00:00:15,050 --> 00:00:17,300 nous souhaitons ajouter les lieux de tournages 9 00:00:17,300 --> 00:00:19,550 aux éléments Wikidata. 10 00:00:19,550 --> 00:00:22,150 Cela nécessite la réconciliation des lieux de tournages. 11 00:00:22,150 --> 00:00:25,107 Commençons. 12 00:00:25,107 --> 00:00:27,104 Les lieux de tournages dans le jeu de données 13 00:00:27,104 --> 00:00:29,726 sont indiqués par leur adresse. 14 00:00:29,726 --> 00:00:31,974 Ces adresses n'ont généralement 15 00:00:31,974 --> 00:00:33,939 pas d'éléments Wikidata, 16 00:00:33,939 --> 00:00:36,939 mais les rues de Paris sont dans Wikidata. 17 00:00:38,665 --> 00:00:40,608 Nous commençons par extraire 18 00:00:40,608 --> 00:00:41,871 le nom des rues des adresses. 19 00:00:41,871 --> 00:00:44,000 Nous utilisons une expression régulière 20 00:00:44,000 --> 00:00:47,467 pour retirer le numéro au début de la chaîne de caractères. 21 00:00:51,504 --> 00:00:54,500 Dans la fenêtre précédente, nous avons observé 22 00:00:55,089 --> 00:00:55,400 que notre expression régulière 23 00:00:55,400 --> 00:00:57,800 ne prend en compte les espaces. 24 00:00:57,800 --> 00:01:00,500 Cela signifie que ces chaînes 25 00:01:00,500 --> 00:01:03,050 contiennent des caractères d'espacement non standards. 26 00:01:03,050 --> 00:01:04,550 Cela peut poser un problème 27 00:01:04,550 --> 00:01:07,445 lors de la réconciliation avec Wikidata. 28 00:01:07,445 --> 00:01:08,892 Copions ces caractères bizarres 29 00:01:08,892 --> 00:01:10,700 et débarrassons-nous en 30 00:01:10,700 --> 00:01:13,967 avec une fonction de remplacement. 31 00:01:15,479 --> 00:01:16,979 La première fonction de remplacement 32 00:01:16,979 --> 00:01:18,646 élimine les espaces ; 33 00:01:19,302 --> 00:01:22,302 la seconde fonction enlève les numéros de rue. 34 00:01:30,550 --> 00:01:32,538 Choisissez un nom pour cette nouvelle colonne 35 00:01:32,750 --> 00:01:34,600 et créez la. 36 00:01:37,050 --> 00:01:40,464 Nous pouvons désormais réconcilier ces rues avec Wikidata. 37 00:01:40,464 --> 00:01:43,531 Choisissez « Reconcile » (Réconcilier) -> « Start reconciling » (Démarrer la réconciliation). 38 00:01:43,548 --> 00:01:45,525 et choisissez le service de réconciliation Wikidata. 39 00:01:48,250 --> 00:01:51,638 Le type « rue » est trop restreint. 40 00:01:52,071 --> 00:01:54,735 Le jeu de données comporte des espaces verts et des ponts. 41 00:01:54,735 --> 00:01:57,735 Choisissez un type plus large. 42 00:01:57,936 --> 00:01:59,859 Voyons quelles autres informations nous pourrions utiliser 43 00:01:59,859 --> 00:02:02,200 afin d'améliorer la réconciliation. 44 00:02:02,200 --> 00:02:04,754 Le code postal semble convenir 45 00:02:04,754 --> 00:02:07,300 mais l'information est rarement 46 00:02:07,300 --> 00:02:10,300 ajoutée au nom de rue. 47 00:02:10,600 --> 00:02:13,000 La dernière colonne contient 48 00:02:13,000 --> 00:02:14,535 les coordonnées géographiques des lieux de tournages 49 00:02:14,535 --> 00:02:17,535 exprimées en latitude, virgule, longitude. 50 00:02:18,912 --> 00:02:22,379 Nous pouvons faire correspondre ces données aux coordonnées des rues. 51 00:02:22,688 --> 00:02:25,218 Plus ces points géographiques seront proches, 52 00:02:25,218 --> 00:02:28,218 plus le score de correspondance sera élevé. 53 00:02:35,400 --> 00:02:37,949 Une fois la réconciliation terminée, 54 00:02:37,949 --> 00:02:39,902 nous pouvons vérifier les correspondances. 55 00:02:39,902 --> 00:02:41,644 On constate que deux rues 56 00:02:41,644 --> 00:02:43,034 avec le même nom 57 00:02:43,034 --> 00:02:45,073 ont obtenu des scores différents, 58 00:02:45,073 --> 00:02:48,073 grâce à la réconciliation via les coordonnées. 59 00:02:48,111 --> 00:02:51,111 La première est la bonne. 60 00:02:52,600 --> 00:02:55,209 Cette cellule n'a pas été associée automatiquement 61 00:02:55,209 --> 00:02:56,550 car l'écart entre les deux notes 62 00:02:56,550 --> 00:02:58,300 n'est pas assez grand. 63 00:02:58,300 --> 00:03:00,550 Il y a sans doute d'autres cas similaires. 64 00:03:00,550 --> 00:03:02,900 Filtrons les cellules 65 00:03:02,900 --> 00:03:06,100 qui n'ont pas fait l'objet d'une correspondance 66 00:03:06,100 --> 00:03:10,431 mais dont le score du meilleur candidat est très élevé. 67 00:03:12,050 --> 00:03:14,500 Ajoutons une facette 68 00:03:14,500 --> 00:03:16,238 qui calcule la similarité des chaînes de caractères 69 00:03:16,238 --> 00:03:17,819 entre le contenu de la cellule 70 00:03:17,819 --> 00:03:20,202 et le nom de la meilleure correspondance 71 00:03:20,202 --> 00:03:23,202 et se limite aux correspondances avec les scores les plus élevés. 72 00:03:24,500 --> 00:03:26,127 Examinons ces lignes filtrées 73 00:03:26,127 --> 00:03:27,860 et leurs meilleurs candidats. 74 00:03:48,209 --> 00:03:50,679 et leurs meilleurs candidats. 75 00:03:50,679 --> 00:03:52,469 Cliquez sur « Reconcile » (Réconcilier) -> et « Actions » 76 00:03:52,469 --> 00:03:55,469 -> « Match each cell to its best candidate » (Faire correspondre chaque cellule à son meilleur candidat). 77 00:03:57,015 --> 00:03:58,931 Utilisez cette option avec prudence 78 00:03:58,931 --> 00:04:01,931 à cause des faux positifs. 79 00:04:03,650 --> 00:04:05,200 Vérifions maintenant la qualité 80 00:04:05,200 --> 00:04:07,671 des cellules associées. 81 00:04:08,079 --> 00:04:09,582 Par exemple, 82 00:04:09,582 --> 00:04:11,100 nous pouvons récupérer l'emplacement administratif 83 00:04:11,100 --> 00:04:15,669 de ces rues. 84 00:04:23,676 --> 00:04:24,918 Une fois que l'on a récupéré les emplacements, 85 00:04:24,918 --> 00:04:27,514 nous pouvons créer une facette texte sur cette colonne 86 00:04:27,514 --> 00:04:29,168 et trier la facette 87 00:04:29,168 --> 00:04:32,168 par nombre décroissant d'occurrences. 88 00:04:39,550 --> 00:04:42,100 Cela nous donne une vue d'ensemble 89 00:04:42,100 --> 00:04:47,241 des résultats les plus fréquents. 90 00:04:47,241 --> 00:04:47,800 Nous pouvons vérifier la liste. 91 00:04:47,800 --> 00:04:50,050 Tous ces lieux sont dans Paris, 92 00:04:50,050 --> 00:04:52,947 ce qui est cohérent avec notre jeu de données. 93 00:05:03,250 --> 00:05:06,551 Ceci est la fin de la deuxième partie du tutoriel. 94 00:05:06,551 --> 00:05:08,500 Dans la prochaine vidéo, nous allons 95 00:05:08,500 --> 00:05:10,965 transformer la table en déclarations 96 00:05:10,965 --> 00:05:12,832 et importer les données dans Wikidata.