Commons:OpenRefine/Ajouter des données structurées avec OpenRefine

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:OpenRefine/Adding structured data with OpenRefine and the translation is 100% complete. Changes to the translation template, respectively the source language can be submitted through Commons:OpenRefine/Adding structured data with OpenRefine and have to be approved by a translation administrator.
 A propos Comment importer des fichiers Comment éditer des fichiers Trucs et astuces avancés Formation Projets 

Instructions pas à pas sur la façon 'd'ajouter (batch) des données structurées aux fichiers Wikimedia Commons (existants) avec OpenRefine.

Installation du logiciel

Télécharger et installer OpenRefine 3.7 (ou une version plus récente)

⚠️ Pour télécharger des fichiers sur Wikimedia Commons, vous avez besoin d'OpenRefine 3.7. Le téléchargement Wikimedia Commons n'est pas supporté par OpenRefine 3.6 ou les versions antérieures.

Téléchargez et installez OpenRefine sur votre ordinateur. Pour modifier les fichiers de Wikimedia Commons, vous avez besoin d'OpenRefine 3.6 ou une version plus récente.

Vous pouvez télécharger OpenRefine pour Windows, MacOS et Linux à partir de https://openrefine.org/download.html.

Il y a des instructions de téléchargement et des instructions d'installation détaillées dans le manuel d'utilisation d'OpenRefine.

Téléchargez et installez l'extension Wikimedia Commons pour OpenRefine

De plus, il est fortement recommandé' d'installer également l'extension Wikimedia Commons pour OpenRefine. Elle est très utile pour l'édition par lots de Wikimedia Commons. L'extension offre :

  • Ecran de démarrage pour charger les noms de fichiers directement à partir des catégories de Wikimedia Commons.
  • Des miniatures des fichiers Wikimedia Commons (tous les formats de fichiers ne sont pas encore pris en charge).
  • Plusieurs expressions GREL dédiées pour récupérer des données du wikicode pour un traitement ultérieur.

L'extension peut être téléchargée à partir de GitHub, où vous pouvez également suivre les instructions d'installation.

L'explication de cette page suppose que vous avez installé cette extension.

Alternative : faire fonctionner OpenRefine en ligne avec le cloud (via Wikimedia PAWS)

Si vous ne pouvez pas installer OpenRefine sur votre ordinateur, ou s'il fonctionne très lentement, vous pouvez également utiliser sa version cloud (sur wmcloud.org via PAWS). Toute personne disposant d'un compte Wikimedia peut accéder à OpenRefine ici. Consultez https://hub-paws.wmcloud.org/, connectez-vous, et cliquez sur le logo OpenRefine (diamant bleu).

L'extension Wikimedia Commons (mentionnée ci-dessus) est installée dans OpenRefine sur PAWS.

Attention : avec OpenRefine sur PAWS, il n'est PAS possible de télécharger des fichiers sur Wikimedia Commons à partir de votre ordinateur local. En revanche, il est possible de modifier des fichiers existants.

Lancer un projet OpenRefine basé sur une ou plusieurs catégories Commons

Ces instructions supposent que vous utilisez l'extension Wikimedia Commons d'OpenRefine. Voir sa documentation pour les instructions d'installation. Si vous n'utilisez pas cette extension et que vous souhaitez démarrer un projet OpenRefine avec une autre méthode, consultez la page conseils et astuces avancés.

  • Sélectionnez l'option Wikimedia Commons dans l'écran de démarrage d'OpenRefine.
  • Vous pouvez maintenant taper le nom d'une ou de plusieurs catégories Wikimedia Commons. Vous pouvez également spécifier la profondeur avec laquelle vous allez requêter l'arbre de catégorie Commons.
  • Cliquez sur Next.
  • L'aperçu du projet se charge. Vous verrez une liste de noms de fichiers à partir de la ou des catégories que vous avez spécifiées.
  • Au bas de la fenêtre d'aperçu, vous pouvez indiquer si vous souhaitez également charger une colonne avec les catégories Commons de chaque fichier et/ou une colonne de M-ids des fichiers. Les catégories de communes peuvent être très informatives et utiles pour extraire des données qui peuvent ensuite être ajoutées sous forme de données structurées. Si vous décidez de ne pas récupérer les catégories de fichiers maintenant, vous pouvez également le faire plus tard.
  • Donnez un nom compréhensible à votre projet et cliquez sur Create project. Le projet se chargera, montrant des miniatures des fichiers. Les noms de fichiers sont bleus et cliquables, ce qui signifie qu'ils sont déjà réconciliés avec Wikimedia Commons.

Extraire le wikicode et les données structurées

Cette étape est facultative, mais peut s'avérer très utile. Les fichiers existants sur Wikimedia Commons sont toujours décrits par un wikicode, qui contient généralement des informations sur le création du fichier, la licence ainsi qu'une ou plusieurs catégories Wikimedia Commons. Il sera souvent utile d'analyser ce wikicode dans OpenRefine, en récupérant de précieuses données qui pourront être converties en données structurées dans une prochaine étape. Quelques exemples :

  • La description du fichier, que vous pouvez convertir en une légende de fichier
  • Le créateur ou la créatrice du fichier
  • Source du fichier
  • Les éléments représentés dans le fichier et d'autres informations pertinentes peuvent être mentionnés dans les catégories du fichier

Pour créer une ou plusieurs nouvelles colonnes avec du wikicode (et les déclarations de données structurées) à partir de votre colonne de noms de fichiers réconciliés, sélectionnez Edit columnAdd columns from reconciled values... dans le menu de la colonne de fichier. Vous obtiendrez une fenêtre de dialogue dans laquelle vous pouvez sélectionner une ou plusieurs options ; vous pouvez en choisir une ou plusieurs.

  • Wikicode : créera une colonne avec le wikicode (complet) de chaque fichier
  • Diverses déclarations de données structurées ; les fenêtres de dialogue suggèrent plusieurs déclarations courantes, mais vous pouvez utiliser la fonctionnalité de recherche pour rechercher toute propriété qui vous intéresse.
  • Vous pouvez récupérer les légendes de fichiers en tapant la lettre majuscule C, suivie du code de langue à deux lettres (par exemple Cen pour les légendes de fichiers en anglais, Cja pour les légendes de fichiers en japonais).

📘 Voir ajouter des colonnes à partir de valeurs réconciliées dans le manuel d'utilisation d'OpenRefine pour des informations générales sur cette fonctionnalité.

Analyser le wikicode

La colonne avec du wikicode peut contenir des données précieuses que vous souhaiterez extraire (ou analyser) dans de nouvelles colonnes OpenRefine.

📘 Les instructions ci-dessous montrent comment analyser le wikicode à l'aide des fonctionnalités de l'extension Wikimedia Commons Opour penRefine. Voir aussi la documentation de cette extension.

Il y a beaucoup de manières d'analyser ces données. La page de conseils et d'astuces avancés contient d'autres recettes - assurez-vous d'ajouter les vôtres si vous avez créé de nouvelles méthodes !

L'extension Wikimedia Commons déverrouille deux commandes GREL dédiées, qui aident à extraire des informations spécifiques au wikicode des fichiers Wikimedia Commons.

GREL, General Refine Expression Language, est un langage de script dédié utilisé dans OpenRefine pour de nombreuses opérations flexibles sur les données. [Le manuel d'OpenRefine contient une documentation générale sur l'utilisation de GREL.] Vous découvrirez également de nombreux exemples et cas pratiques en effectuant des recherches sur le web.

Avec la colonne en wikicode que vous avez récupéré dans l'étape précédente, vous pouvez maintenant extraire des valeurs et des catégories comme décrit ci-dessous. Commencez par sélectionner la colonne Modifier > Ajouter une colonne basée sur cette colonne... dans le menu de la colonne. Dans la fenêtre de dialogue suivante, vous pouvez utiliser diverses commandes GREL spécifiques.

Extraire des valeurs du modèle : extractFromTemplate

Utilisez la syntaxe suivante :

extractFromTemplate(value, "BHL", "source")[0]

où vous remplacez 'BHL' par le nom du modèle (sans les crochets) et 'source' par le paramètre dont vous voulez extraire la valeur. Cette syntaxe GREL renverra la première (et généralement la seule) valeur de ce paramètre, par exemple https://www.flickr.com/photos/biodivlibrary/10329116385.

Extraire les catégories Wikimedia Commons : value.extractCategories

Utilisez la syntaxe suivante :

value.extractCategories().join('#')

Cette syntaxe GREL renvoie toutes les catégories mentionnées dans le wikicode, séparées par le caractère #, caractère que vous pouvez ensuite utiliser, si nécessaire, pour diviser la cellule résultante.

Réconcilier les autres colonnes avec Wikidata

Données structurées sur Commons décrit les fichiers sur Commons en utilisant des éléments (multilingues) et des propriétés de Wikidata.

Supposons que vous ayez une ou plusieurs colonnes dans votre projet avec de (nouvelles) données que vous souhaitez ajouter aux fichiers en tant que données structurées. Les données contenues dans les cellules de vos colonnes peuvent correspondre à des éléments de Wikidata. Vous devrez les réconcilier, pour aider OpenRefine à comprendre qu'il devra faire le lien avec ces éléments Wikidata. Voici quelques exemples :

Vous allez réconcilier ces colonnes avec le service de réconciliation Wikidata, en anglais ou dans une autre langue qui peut être pertinente (l'anglais fonctionne généralement bien). Le service de réconciliation Wikidata en anglais est installé par défaut dans OpenRefine.

Les colonnes reconciliées ont une en-tête soulignée par une bande verte foncée ; les valeurs de la colonne sont des hyperliens bleus qui pointent vers les éléments de Wikidata.

Vous pouvez trouver plus d'informations sur les manières de réconcilier les données dans le manuel de l'utilisateur d'OpenRefine et sur Wikidata.

Créez votre schéma d'édition

Enfin, vous allez créer un schéma dans OpenRefine, pour modéliser les modifications qu'OpenRefine effectuera pour chaque ligne de votre projet dans Wikimedia Commons.

Cliquez sur l'onglet Schema dans la barre bleue au-dessus de votre jeu de données ou allez dans le menu Wikidata/extension Wikibase et sélectionnez Edit Wikibase schema. Vous obtiendrez d'abord une fenêtre de schéma vide. Vérifiez que le texte d'information en haut mentionne Wikimedia Commons ; s'il mentionne Wikidata, vous devez basculer votre instance Wikibase vers celle de Wikimedia Commons via l'élément de menu Select Wikibase instance... dans le menu d'extension Wikibase.

Cliquez sur le lien bleu + add media. Plusieurs champs apparaîtront.

Vous pouvez maintenant rédiger et/ou glisser et déposer toutes les informations que vous voulez inclure dans les métadonnées des fichiers.

  • Dans le champ principal (qui indique type entity or drag reconciled column here), vous ferez glisser votre colonne réconciliée de noms de fichiers (voir les instructions précédentes ci-dessus). Note : cette colonne doit avoir une ligne verte (suite à la réconciliation).
  • Légendes : si vous avez créé des colonnes avec des légendes de fichiers, vous pouvez les faire glisser ici. Veillez à renseigner la langue correspondante.
  • Déclarations : cliquez sur + add statement pour ajouter les déclarations de données structurées, une par une. Vous pouvez saisir des valeurs identiques pour tous vos fichiers ou faire glisser des colonnes (réconciliées).

Voir alignement du schéma dans le manuel d'utilisation d'OpenRefine pour des informations générales sur les schémas.

Assurez-vous de suivre les conventions de modélisation des données de Wikimedia Commons

N'inventez pas votre propre méthode pour décrire les fichiers mais assurez-vous de suivre les bonnes pratiques de Wikimedia Commons. En cas de doute, demandez l'avis de la communauté Wikimedia Commons sur la page de discussion générale sur les données structurées.

Les modèles de données pour les données structurées sur les fichiers multimédias sur Commons sont expliqués et discutés sur Commons:Structured data/Modeling.

Les déclarations de données structurées de base pour tous les fichiers Wikimedia Commons sont :

Données structurées à ajouter Instructions sommaires Instructions détaillées sur le modèle de données des données structurées
File caption (multilingue) Une (courte) description textuelle du fichier, dans au moins une langue. Texte brut ; pas de balise wiki ni d'hyperliens. Lignes directrices pour la modélisation des données : Légendes des fichiers
Date Habituellement la date à laquelle le fichier a été créé ; en utilisant la déclaration inception (P571). Lignes directrices pour la modélisation des données : Date
Source du fichier Informations sur l'origine du dossier. Est-ce le travail de la personne qui verse le fichier, a-t-il été téléchargé depuis un site Web externe etc. ? En général, on utilise la déclaration source of file (P7482). Lignes directrices pour la modélisation des données : Source du fichier
Creator Qui a créé le fichier ? Généralement décrit avec la déclaration creator (P170). Lignes directrices pour la modélisation des données : Creator of the file
Copyright status and license Le fichier est-il encore sous copyright ou est-il de domaine public ? S'il est sous droit d'auteur, quelle licence(s) s'appliquent ? Utiliser copyright status (P6216) et copyright license (P275). Lignes directrices pour la modélisation des données : Droits d'auteur et licences

Prévisualisez et téléversez vos modifications sur Wikimedia Commons

Vous pouvez prévisualiser vos modifications en cliquant sur l'onglet Preview en haut de votre schéma. L'onglet Issues vous informe des erreurs qui peuvent être présentes dans vos données ou votre schéma, afin que vous puissiez les corriger.

Conseil : Commencez par modifier un ou deux fichiers pour tester vos modifications et vérifier qu'elles soient bonnes. Il est possible de corriger les erreurs après un grand import, mais il est préférable de faire un test avant.

Lorsque vous êtes prêt à envoyer vos modifications, sélectionnez Upload edits to Wikibase... dans le menu d'extension Wikidata/Wikibase et connectez-vous avec vos informations de base Wikimedia Commons. OpenRefine vous encourage à utiliser un mot de passe du bot, mais si vous le souhaitez, vous pouvez ignorer cet avertissement. Fournir un résumé descriptif de l'édition. Pas besoin de changer la valeur maxlag. Cliquez sur Upload edits et votre envoi de données en lot commence.

Vous verrez vos fichiers récemment édités dans votre propre historique d'édition sur Wikimedia Commons.

Voir la documentation sur le téléversement dans le manuel d'utilisation d'OpenRefine pour des informations générales sur cette fonctionnalité.

Corriger les erreurs avec l'outil EditGroups

En consultant vos contributions, vous verrez vos récentes modifications de Wikimedia Commons effectuées avec OpenRefine. Chaque édition OpenRefine affiche un hyperlien (détails) après le résumé de l'édition, qui renvoie au lot d'édition dans l'outil EditGroups.

Dans EditGroups, des lots entiers peuvent être facilement annulés, au cas où certaines erreurs auraient été commises.

Tous les lots de Wikimedia Commons avec OpenRefine sont listés sur https://editgroups-commons.toolforge.org/?tool=OR.