Commons:Données structurées/Vue d’ensemble

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:Structured data/Overview and the translation is 100% complete. Changes to the translation template, respectively the source language can be submitted through Commons:Structured data/Overview and have to be approved by a translation administrator.

Depuis ses débuts, Wikimedia Commons est l'une des plateformes de la communauté Wikimedia qui ont le mieux réussi en ce qui concerne le partage de savoirs. Il est cependant connu de longue date qu'un certain nombre de problèmes techniques l'ont empêchée de devenir une plateforme idéale pour d'autres communautés centrées sur le savoir, pour des partenaires potentiels ou pour nos communautés Wikimedia. Surmonter ces défis techniques devrait passer entre autres par la mise en place d'outils permettant aux communautés Wikimedia comme aux partenaires externes de profiter pleinement de la plateforme, telles que des descriptions et des catégories en plusieurs langues, des APIs complètes et une meilleure gestion des métadonnées. Par extension, ils vont améliorer substantiellement l'accès d'un plus large public à Commons, au travers d'outils tels que la recherche multi-langues.

En 2014, la Fondation a commencé à explorer le concept de données structurées dans Commons pour répondre à ces demandes. Cette exploration initiale a permis d'identifier la plupart des fonctions qu'il est nécessaire de mettre en place dans l'architecture centrale de Commons afin d'améliorer le projet. Elle a aussi permis de se rendre compte que ces fonctionnalités s'intègrent bien dans la feuille de route du logiciel Wikidata, Wikibase, soutenu par la WMDE. À partir de ce moment-là, le projet initié en 2014 a été mis au ralenti, et s'est vu reporté jusqu'à ce que Wikibase fournisse une infrastructure plus robuste. Nous avons atteint ce point courant 2016, ce qui a permis une première démonstration de comment les données structurées pourraient fonctionner sur Commons.

En octobre 2016, la WMF et Wikimedia Deutschland ont annoncé un accord de financement pour subvenir aux besoins de Wikidata pendant plusieurs années, comprenant le financement d'un soutien à l'intégration de Wikidata à Wikimedia Commons. La feuille de route à long terme de la WMF comprend la planification de la construction d'outils pour rendre cette infrastructure utilisable par les communautés de Commons et des GLAM. Cependant, l'ensemble de tous ces travaux se serait pas financé pour plusieurs années.

Récemment, un organisme de subvention a demandé au WMF de demander un financement qui pourrait accélérer ce travail dans un délai plus rapide de trois ans. Le financement potentiel peut couvrir les coûts de certains travaux qui figurent déjà dans le plan et le budget annuels du WMF. L'équipe de collecte de fonds du WMF ne cherche généralement pas de financement pour des projets en dehors du plan annuel du WMF. Cependant, c'est une occasion unique quand un financier nous a abordés avec l'intérêt potentiel d'accélérer les travaux sur ce projet existant. Pour être clairs et pour fixer les attentes de manière appropriée, nous n'avons été invités qu'à présenter une demande. Nous pouvons recevoir des fonds ou nous ne le pouvons pas.

Attention : ceci n'est PAS une proposition de nouveau projet. Pour le moment, cette page traite d'une mise à jour d'octobre 2016 faite par la WMF sur la possibilité de lancer le projet.

Que contient cette page ?

Cette page contient un synopsis du plan de route potentiellement accéléré que nous espérons partager avec les futurs financeurs de ces travaux. Nous n'avons pas inclus tout le document, car il est toujours en cours de discussion et de relecture en interne, et peut être modifié en fonction de qui nous recevrons des ressources ou à qui nous en demanderons. De plus, une grande partie du contenu de ce document est destiné à expliquer le contexte des données structurées sur Commons à des publics qui ne sont pas familiers avec ces notions (y compris, et sans s'y limiter, aux objectifs de Common, pourquoi les métadonnées structurées sont importante pour les fichiers multimédias, notamment pour les documents du patrimoine culturel, et la comparaison avec d'autres plateformes). Nous avons repris ici :

  • notre plan de route de haut niveau pour le développement du projet, si nous obtenons des ressources pour réaliser les travaux
  • les bénéfices et les risques identifiés pour le projet
  • les occasions qui peuvent se présenter d'apporter des changements à Commons.

Si/quand nous obtenons/obtiendrons le support externe nécessaire pour le projet accéléré, nous partagerons une version plus complète (expurgée des informations sensibles) avec la communauté.

Pourquoi avons-nous besoin de vos commentaires ? Comment pouvez-vous aider ?

La communauté des bénévoles de Commons demande depuis longtemps des fonctionnalités qui nécessitent une structure proche de celle d'une base de données qui leur permettrait de décrire plus complètement les documents. Par exemple, les catégories multilingues sont un sujet de conversation depuis longtemps dans notre communauté, et permettraient à plus de bénévoles non anglophones d'annoter et de retrouver des images plus efficacement (voir une discussion datant de début 2004, un article de blog de 2008, les recommandations de 2009 pour GLAM-WIKI, une autre en 2010, une question sur Quora, la liste des besoins exprimés par la communauté en 2015 et quelques discussions plus récentes).

Notre espoir renouvelé est que les données structurées sur Commons apportent les fondations pour résoudre ces problèmes en général.

Nous voulons fournir un temps d'accès ouvert aux membres des communautés Wikimedia pour qu'ils puissent exprimer leur avis sur ce projet en particulier et nous attendons des retours sur ce qui suit :

  • est-ce que vous voyez ce plan de route comme une entreprise qui en vaut la peine ?
  • quels obstacles, risque ou défis voyez-vous venir si nous accélérions un tel projet ?
  • est-ce que les informations actuellement sur cette page représentent de manière fidèle le rôle des communautés, notamment les communautés de Wikimedia Commons et de Wikidata, dans leur engagement dans un tel projet informatique ?
  • comment aimeriez-vous soutenir ce projet ?
  • si vous désirez rester informé à propos de cette proposition et/ou à propos des données structurées sur Commons d'une façon plus générale, nous vous recommandons de vous inscrire à ce bulletin d'informations

Nous prévoyons de laisser les commentaires concernant cette proposition ouverts jusqu'au 9 novembre.

Description de haut niveau

Nous avons collecté un ensemble de contenus qui donnent le contexte du pourquoi et du comment les données structurées fonctionnent dans le cadre des projets Wikimedia et des conséquences d'une absence notable d'infrastructures pour les données structurées sur Wikimedia Commons, qui sont représentatives des problèmes identifiés décrits sur la page Commons:Structured data. Nous mettons ici en lumière quelques éléments clés de ces contenus qui se concentrent sur le cadre de travail effectif de la communauté Wikimedia.

Contexte

Toutes les photos, tous les fichiers audio et vidéos placés sous des licences libres sur Wikipedia sont hébergés sur un site de la Fondation Wikimedia appelé Wikimedia Commons. Mis en place en 2004, Commons contient maintenant 34 millions de fichiers multimédia – des photos, des documents audio et des vidéos – et continue de croître rapidement chaque année : les contributeurs ont ajouté cinq millions de nouveaux fichiers l'an dernier. Ces fichiers multimédia peuvent facilement être retrouvés via des plateformes comme le moteur de recherche Google.

Des milliers de bénévoles intègrent ces fichiers multimédia issus de Commons dans nos projets Wikimedia, comme Wikipédia, afin d'illustrer nos contenus et de partager ces documents avec le public. Ces fichiers sont généralement 1) des photographies personnelles et des documents multimédia téléversés par des particuliers ; 2) des fichiers multimédia sous licences libres issus de sites internet comme Flickr, YouTube, des journaux en accès libre et d'autres dépôts ; ou 3) de dons faits par des institutions et des organisations apportant des collections conséquentes de documents, comme l'UNESCO, la NASA et la British Library.

Wikimedia Commons fonctionne avec MediaWiki, le même logiciel que celui qui anime Wikipedia. MediaWiki a été initialement développé pour la rédaction et l'hébergement de textes pour Wikipédia, ce qui fait que les millions de fichiers de Commons ne disposent pas de métadonnées utilisables par des programmes. Au lieu de cela, chaque fichier est accompagné par des descriptions en texte libre, non structurées, qui ne sont pas interprétables par des programmes de manière cohérente. Cela rend difficile de relier les documents à d'autres ressources sur les sites Wikimedia, comme Wikipédia ou Wikisource. Cela rend aussi difficile pour d'autres de profiter des fichiers – pour faire des liens vers eux et de les connecter à leur propre contenu. De plus, les données non structurées rendent encore plus difficile la recherche de ces documents pour les utilisateurs d'internet – trouver les photos, les vidéo, et les fichiers audio qui pourraient être géniaux à réutiliser mais qui restent pour l'essentiel invisibles, cachés parce que les détails sur les documents, les mots qui les décrivent sont incomplets et déconnectés du reste d'internet.

Les données structurées – et Wikidata – modifient la façon dont les gens, sur internet, peuvent accéder aux informations de dépôts tels que Wikimedia Commons. Une manière de voir les données structurées serait de les comparer à une sorte d'ADN expliquant les informations d'une manière bien plus complète. Les données structurées fournissent du sens sur un fichier sous différents angles. Elles permettent d'effectuer des recherches sur le fichier de plusieurs manières, et de nombreuses façons d'interpréter ce document. Les données non data structurées ne donnent qu'une partie de l'histoire du document. Elles réduisent la valeur des informations permettant de le contextualiser – et rendent bien plus difficile de trouver une image, un fichier audio ou une vidéo. Pour de nombreux contenus hébergés sur Commons, c'est un peu comme si les fichiers n'existaient même pas, dans la mesure où ils sont trop difficiles à retrouver à l'extérieur, sur internet, et où ils sont difficiles à retrouver sur Commons. Nous allons changer ça.

Le projet Données Structurées sur Commons va fournir les moyens de transformer les informations de tout les fichiers multimédia de Wikimedia Commons, en passant du texte libre à des données interprétables par des programmes, afin que les millions de fichiers de Commons soient bien plus faciles à visualiser, traduire, retrouver, modifier, corriger, utiliser et réutiliser.

Bénéfices attendus

Voici les points que nous avons mis en évidence dans le chantier qui est proposé :

  • Bénéfice n°1 :
les catégories et les métadonnées seront plus faciles à rendre multilingue sur Commons. Ceci permet de répondre avec succès à cette demande de 2015 formulée sur la Community Wishlist : 2015 Community Wishlist Survey/Commons#Allow categories in Commons in all languages
  • Bénéfice n°2 :
les développeurs vont pouvoir encore plus étendre le projet. Les données structurées sur Commons fournissent les infrastructures nécessaires pour un usage cohérent des données de Commons via des APIs et d'autres points d'entrée pour des traitement automatisés, ce qui va permettre à tous les développeurs, aussi bien de la communauté de Wikimedia que ceux qui sont externes, de créer des logiciels cohérents, réutilisables et fiables pour la modification, l'aide à la réutilisation et l'analyse des documents de Commons media et des données associées.
  • Bénéfice n°3 :
en disposant de meilleurs capacités pour les recherches sur Commons, les contributeurs pourront plus efficacement illustrer les contenus Wikimedia.
  • Bénéfice n°4 :
une meilleure fonctionnalité de recherche sur Common apportera une meilleure ergonomie pour la communauté des lecteurs au sens large.
  • Bénéfice n°5 :
une meilleure structure pour les données de Commons permettra des partenariats facilités et simplifiés avec les fournisseurs de contenus, et notamment avec les organisations collectant et partageant du savoir.

Nous identifions également d'autres bénéfices pour notre communauté prise de façon plus large, attendus de ces améliorations apportées à Wikimedia Commons. Ces bénéfices comprennent, sans s'y limiter :

  • faciliter la participation des GLAMs et d'autres partenaires liés au savoir, en particulier les communautés non soutenues par des organisations comme Europeana ou la Digital Public Library of America
  • améliorer l'accès et la réutilisation par des communautés externes, au-delà des projets Wikimedia

Risques connus

Nous avons à ce jour identifié un certain nombre de risques :

  • Risque n°1 (élevé) :
l'analyse et les discussions à propos des données structurées avec la communauté pourrait identifier des modifications techniques non prévues et de grande ampleur exigeant un temps de développement plus important.
  • Risque n°2 (moyen) :
l'appropriation des fonctionnalités par la Community dans des processus existants est ralentie par les politiques de la communauté. Cependant, l'équipe de Wikidata a démontré que les fonctionnalités de Wikidata ont réellement été utilisées aussi bien pour ce qui est de Wikidata que de son utilisation plus large dans d'autres projets, y compris Commons et des dizaines de Wikipédias dans diverses langues. L'application des leçons apprises quant à la planification transparente et la gestion de communauté au projet Données structurées sur Commons dans le contexte de Wikidata constituera un partie importante de sa réussite.
  • Risque n°3 (moyen) :
la quantité de travail à effectuer sur les fonctionnalités des outils et du logiciel qui seront perturbées lors des modifications de l'infrastructure pourrait empêcher de parvenir à une réelle intégration de toutes les nouvelles fonctionnalités prévues pour les données structurées sur Commons.
  • Risque n°4 (faible) :
les relations entre la Fondation Wikimedia et/ou Wikimedia Allemagne et la communauté de Commons pourraient changer d'une manière fondamentale qui rendrait les membres de la communauté sceptiques quant au projet.
  • Risque n°5 (faible) :
des complications pourraient survenir dans le développement des fonctionnalités et dans les feuilles de route définissant le chantier de manière claire, entre le projet Wikidata tel qu'il est actuellement financé par le Fondation Wikimedia et de futurs travaux.
  • Risque n°6 (élevé) :
les modifications qui sont proposées imposent de réaliser des modifications significatives du schéma et du logiciel sous-jacent de Commons. Ceci pourrait perturber les ré-utilisateurs actuels de nos contenus et les développeurs des outils de la communauté et de tierces parties. Nous devons limiter en partie ces perturbations en mettant en place des procédures de migration ou des niveaux de compatibilité, et en anticipant une longue période de mise en place et de soutien de ces changements sur ces logiciels.

Structure du projet

L'implication dans ce chantier des données structurées sur Commons par Wikimedia Allemagne et par la Fondation Wikimédia est déjà une réalité. Wikimedia Allemagne s'est déjà engagée en commençant une partie des travaux via un chantier planifié sur Wikidata. De plus, l'équipe Discovery ainsi que l'équipe Multimedia ont pris des engagements relatifs à la création d'une infrastructure de base pour l'utilisation des données structurées de Commons.

Le calendrier ci-dessous est basé sur l'état actuel de ce chantier et sur la manière dont nous espérons que ce chantier accélère si ce financement était accordé à la Fondation Wikimedia. Ce projet devrait impliquer un travail sur trois ans, grossièrement réparti en trois points :

Point n°1 - mettre en place l'infrastructure initiale
Point n°2 - intégrer des fonctionnalités supplémentaires dans Commons et dans les projets Wikimedia
Point n°3 - engagement actif de la communauté au sens large et soutien au développement d'outils et d'infrastructures supplémentaires.

Dans le cas où nous ne recevrions pas de financements supplémentaires dans le cadre de l'appel de fonds actuel, ce calendrier devra être mis à jour pour prendre en compte l'éventuel ralentissement de la progression des travaux entre maintenant et le prochain appel de fonds.

1ère année - Infrastructure 2ème année - Intégration 3ème année - Engagement
Wikidata : tester et prototyper les métadonnées en tant que données structurées, intégration de l'interface pour les données structurées, vérification des libellés et du vocabulaire Wikidata : intégration de l'interface des données structurées, concepts pour l'interface utilisateur de wikidata
Outils : exploration & tests Outils : déploiement Outils : itération et maintenance
Affichage des licences dans le visualiseur de contenus
Recherche & requêtes : exploration des fonctionnalités Recherche & requêtes : déploiement Recherche & requêtes : itération et maintenance
Communauté : revue des concepts et des modèles de données Communauté : retours sur le lancement des fonctionnalités Communauté : commentaires et support des traitements
Communauté : soutien de la migration des outils, notamment des autres outils d'import de médias de la communauté, comme PattyPan Communauté : encourager le développement d'outils pour l'engagement, les corrections et les contributions
Partenaires : revue des modèles de données Partenaires : promotion des fonctionnalités et recherche de nouveaux partenaires potentiels Partenaires : encourager de développement d'outil pour l'engagement, les corrections et les contributions

Comment le contenu de Commons pourrait changer

Avec ce plan, après deux ans, l'infrastructure sera prête pour faire migrer une partie des millions de fichiers de Commons vers les données structurées, et après trois ans, la migration devrait battre son plein tandis que nous renforcerons l'infrastructure. Déjà, une quantité non négligeable d'images sont prêtes pour la migration. Comme signalé dans l'introduction, Magnus Manske, un expert quant à la manière dont le contenu de Commons et de Wikidata est structuré, estime que la communauté de Commons pourrait migrer instantanément entre 16 et 19 millions de fichiers dans un format structuré sur Commons s'ils disposaient de l'infrastructure adéquate et d'un ensemble logiciel à peu près standard. Nous fournissons l'infrastructure dans le cadre de ce projet, qui permet à la communauté d'utiliser du logiciel relativement simple – un exemple de la symbiose qui peut exister entre Wikimedia et les bénévoles de nos projets.

Combien de temps après la migration initiale les autres fichiers seront-ils convertis ? L'essentiel des défis futurs sera lié à considérations sur la capacité à mettre en œuvre les fonctionnalités autour des modèles et des données sur les contenus existants de Commons. L'inconnue est la capacité des bénévoles et des outils de type bots à faire migrer ces contenus. Quand bien même vous faites migrer un ensemble conséquent de contenus d'une structure de données (semi-structurées, données historiques de Commons enregistrées sous la forme de wikitexte) vers une autre (les données structurées de Commons), il existe une longue traîne de travaux de nettoyage de données où, pour une durée déterminée, une large portion du contenu enregistré dans un fichier sera constituée d'un mélange de données structurées faciles à nettoyer et à intégrer, et de données non structurées (ou “à nettoyer”) qui demande un traitement combinant des outils semi-automatisés et du jugement humain.

Il faudra cinq, voire dix ans, pour traiter la grande majorité des fichiers de Commons et les faire passer au format du projet Données Structurées. Nous ne pouvons pas donner de calendrier précis dans la mesure où cela dépend de l'implication de la communauté de Commons. Mais nous sommes optimistes. Chaque mois, plus de 7 000 contributeurs de Commons réalisent au moins cinq modifications sur Commons, et chaque mois plus de 1 300 contributeurs de Commons réalisent au moins 100 modifications sur Commons. Commons et Wikidata disposent chacun de 7 000 éditeurs actifs. Que ce soit sur Commons, sur Wikipédia ou sur un autre projet Wikimedia, nos sites sont animés par des contributeurs passionnés. La clé de cela est la conception de logiciels, d'outils, de formes de soutien à la communauté et d'incitations à la participation en direction des contributeurs au projet Données Structurées sur Commons. C'est ce que nous faisons.

Une fois l'infrastructure en place, nous nous attendons à ce que la communauté de Commons dispose de la capacité à réaliser la migration pour certains types de données, dont les “catégories.” Quasiment chaque image de Commons fait partie d'une catégorie relative à son contenu, celles-ci étant aussi proches que possibles d'une notion d'étiquettes sur Commons. Ces informations sont prêtes à être synchronisées avec les identifiants de Wikidata.

Plus d'1,5 millions de ces catégories (sur les 4,2 millions existantes) ont déjà été synchronisées avec des éléments de Wikidata, ce qui en fait des candidats de choix pour cette migration. Nombre de ces catégories disposent aussi de sous-catégories, qui pourraient être examinées de manière systématique avec les bons outils. Des éléments de données supplémentaires de chaque fichier pourraient plus facilement faire l'objet d'une migration :

  • les déclarations de droits d'auteur
  • la plupart des champs “créateurs d’œuvres” (certains d'entre eux étant dépendants d'infrastructures techniques majeures planifiées dans le cadre de cet appel de fonds)
  • la plupart des champs concernant les dates de téléversement
  • la plupart des champs de dates de création
  • les données concernant l'identité des téléverseurs de fichiers (dépendantes d'infrastructures techniques majeures planifiées dans le cadre de cet appel de fonds)

Des pans du contenu de Commons qui peuvent être migrés pour l'essentiel avec un bon niveau de confiance vers des données structurées comprennent :

  • plus de 31 millions de fichiers multimédia utilisant une version du modèle Information qui fournit des informations de base pouvant être déplacées vers des données structurées, certaines d'entre elles vont nécessiter un traitement de mise en cohérence pour créer des données uniformes. Parmi ces modèles figurent certains types de données prêtes à subir une migration :
• parmi elles, plus de 24 millions de descriptions de fichiers dans une langue identifiée (légendes), qui sont encodées de manière adéquate pour être intégrées dans des données structurées.
• parmi ces images, 6,2 millions de fichiers contiennent des coordonnées géographiques qui pourraient décrire précisément la localisation de l'image et être intégrées dans des données structurées.

D'autres pans de Commons qui ont été traités avec des métadonnées de description plus robustes pourraient être migrés plus rapidement par les communautés. Et ces pans pourraient constituer les parties les plus utiles de la migration initiale. Ils comprennent* :

(*-Ces chiffres ne sont pas un décompte de tous les fichiers de chaque type – ils représentent juste ceux dont les données ont été retraitées selon les meilleurs standards)

L'Assistant de téléversement de la Fondation Wikimedia, la boîte de dialogue inter-wiki de téléversement, le téléversement et les outils de campagnes de téléversements maintenus par la Fondation, de même que les outils de téléversement en masse qui sont développés par les bénévoles de la communauté GLAM-Wiki (principalement Patty Pan et GLAMPipe) devront faire l'objet d'ajustements afin d'être compatibles avec les données structurées de Commons. Ces outils sont construits en partant du principe que les documents devraient contenir des données et des descriptions structurées, donc il s'agit d'ajuster le cheminement des données dans nos API et notre cadre logiciel ainsi que d'étendre la gamme de champs disponibles dans les formulaires de téléversement.