Commons:Données structurées/Ajout de mots-clés assisté par ordinateur

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:Structured data/Computer-aided tagging and the translation is 92% complete. Changes to the translation template, respectively the source language can be submitted through Commons:Structured data/Computer-aided tagging and have to be approved by a translation administrator.
Notice L’ajout de mots-clés assisté par ordinateur est une technologie récente. Il peut arriver que des mots-clés proposés soient erronés ou inappropriées. Il s'agit là d'un comportement normal.

L'outil d’ajout de mots-clés assisté par ordinateur est une fonctionnalité en cours de développement par l'équipe Données structurées de Commons, pour aider les membres de la communauté à identifier et à renseigner des déclarations d'éléments représentés sur les fichiers de Commons. Il existe des dizaines de millions de fichiers soigneusement conservés sur Commons, mais l'outil de données structurées est tout neuf. Avec cette fonctionnalité, les fichiers existants peuvent voir leur contenu décrit de manière simple, rapide et, à condition de l'utiliser avec soin, précise. Pour contribuer, les participants n'auront pas besoin de savoir comment fonctionne Wikidata ou de parler une langue donnée. Cette nouvelle fonctionnalité propose aux utilisateurs des suggestions de mots-clés en utilisant un modèle de vision par ordinateur, qui seront vérifiées par des gens. Les utilisateurs de Commons pourront visiter une page spéciale de Commons et voir les mots-clés d'éléments représentés ayant été suggérées, qui peuvent être sélectionnées afin d'être confirmées ou ignorées. Aucun mot-clé ne sera jamais ajouté automatiquement sans l'action volontaire d'une personne.

L'ajout de mots-clés assisté par ordinateur (AMCAO) aide à ajouter des données structurées aux fichiers, ce qui en retour, permet de trouver ces fichiers en utilisant des termes de recherche généraux avec Special:MediaSearch, d'une manière qui n'était autrefois pas possible. Ceci aide les utilisateurs à trouver facilement des documents sur lesquels il n'était autrement pas facile de tomber avec l'ancien système de recherche, qui s'appuie souvent sur des informations spécifiques présentes dans la description des fichiers ou dans leurs catégories pour retrouver les fichiers. Si des informations spécifiques sont manquantes, il peut être difficile, voire impossible, de trouver ne nombreux documents sur Commons via le système de recherche standard. Par exemple, Peter_iredale_sunset_edited1.jpg remonte dans une recherche du terme "beach" (plage) en utilisant Special:MediaSearch, grâce à la déclaration de l'élément représenté "beach" ajouté via l'ajout de mots clés assisté par ordinateur ; il ne remonte pas du tout dans une recherche classique sur le terme "beach".

L'ajout de mots-clés assisté par ordinateur est une extension autonome de MediaWiki et ne fait pas partie du noyau de Commons proprement dit ; elle s'interface avec Commons grâce à Special:SuggestedTags. Pour la partie technique, l'outil va utiliser le service Google Cloud Vision pour les suggestions d'éléments représentés. Wikimedia utilise déjà le service Google Cloud Vision pour la reconnaissance optique de caractères sur Wikisource, et ceci fonctionnera d'une manière similaire. Cet outil nécessite un accord préalable des utilisateurs disposant d'un compte et du droit technique auto-confirmé. Il n'est activé par défaut pour aucun groupe d'utilisateurs et n'est pas disponible pour les nouveaux utilisateurs ni pour les utilisateurs non enregistrés.

Mises à jour concernant l'utilisation de l'AMCAO/SuggestedTags, septembre 2020

À ce jour (14 février 2022) :

  1. 5 089 utilisateurs au total ont réalisé des modifications via l'outil d'ajout de mots-clés assisté par ordinateur
    • 962 de ces utilisateurs l'ont fait via un mobile
  2. 341 957 fichiers au total ont reçu des modifications via l'AMCAO
    • 41 563 de ces fichiers ont reçu une modification des mots-clés assistée par ordinateur via un mobile
  3. 72% des fichiers avec des modifications d'AMCAO ont eu ces modifications réalisées par le même utilisateur que celui ayant téléversé le fichier
  4. Approximativement 10 000 fichiers modifiés avec l'AMCAO ont reçu des modifications purement manuelles
  5. Nous avons en moyenne environ 20 nouveaux utilisateurs par semaine en ce moment

Des graphiques avec ces données sont mis à jour chaque lundi sur la page des statistiques d'usage de l'AMCAO

Spécificités de l'AMCAO

Nous travaillons sur des techniques possibles pour améliorer l'utilisabilité de l'outil afin d'identifier correctement des éléments spécifiques dans des photos, mais il est important de garder à l'esprit que l'algorithme de Google Vision se débrouille déjà plutôt bien avec de nombreux sujets.

Améliorations à venir de la file d'attente pour les images générales

Bien que l'essentiel de l'utilisation du système d'ajout de mots-clés assisté par ordinateur provienne d'utilisateurs modifiant leur propres téléversements (72%), il existe une file d'attente distincte pour les images “populaires”. En se basant sur de récents retours de la part de la communauté de Commons, nous explorons de nouvelles manières de prioriser cette file d'attente différemment. En particulier, nous étudions un système qui pourrait plus se concentrer sur les fichiers pour lesquels nous n'avons pas encore traité les catégories.

Google Cloud Vision

Toutes les informations qui transitent par Google Cloud Vision seront aussi publiques. Des fichiers de sauvegarde seront disponibles, contenant des données complètement anonymes listant les fichiers de Commons avec les mots-clés suggérés correspondants et ceux qui ont été acceptés. Google Cloud Vision est complètement distinct de Wikimedia Commons, la fonctionnalité est indépendante de l'expérience utilisateur principale sur Commons.

Bien qu'il existe des plateformes open source de vision par ordinateur sur lesquelles il serait possible de s'appuyer, chacune d'entre elles demanderait des ressources ou une expertise spécialisée afin de fournir un niveau d'expérience utilisateur conforme aux standards de l'industrie en matière de vision par ordinateur que la Fondation Wikimedia n'est pas en mesure de fournir elle-même à ce jour. L'équipe reconnaît que Google Cloud Vision n'est pas un logiciel open source. Il n'y aura aucun code non libre ou propriétaire d'écrit par la Fondation pour ce projet, toutes les contributions resteront open source. [clarification needed] Google ne dispose d'aucun accès aux informations privées, non-publiques ou personnelles, il n'y aura aucune communication directe entre les utilisateurs et le service de Google.

Architecture et organisation des tâches

Concept du flux d'informations dans l’ajout de mots-clés aux images assisté par ordinateur. Le fournisseur de « vision par ordinateur », tout à droite, demande et envoie des mots-clés potentiels pour les images ; aucune information personnelle n'est échangée et le fournisseur est isolé du reste du système et de Commons.

Les utilisateurs enregistrés, automatiquement confirmés, pourront s'inscrire via leurs préférences ou lorsqu'ils téléverseront des fichiers. Après un certain délai, l'utilisateur sera prévenu via une notification que ses téléversements sont prêts à recevoir des mots-clés sur Special:SuggestedTags. Les utilisateurs qui se sont inscrits peuvent visiter Special:SuggestedTags à tout moment pour afficher les fichiers prêts à recevoir des mots-clés. Les utilisateurs anonymes, les nouveaux utilisateurs et les utilisateurs qui ne se sont pas inscrits ne pourront pas accéder à Special:SuggestedTags.

Les concepts disponibles pour ajouter des mots-clés sont ceux qui permettent de passer des identifiants du graphe de connaissance de Google (Google Knowledge Graph) à ceux de Wikidata. Avec 2,1 millions de triplets, la liste est trop longue pour être affichée ici, mais elle est disponible en téléchargement sous la forme de d'associations freebase-wikidata.

Phase de développement

Toutes les fonctionnalités initialement prévues pour l'outil sont désormais déployées et disponibles pour utilisation. L'équipe de développement continuera avec des ajustements et de nouvelles fonctionnalités possibles à l'avenir.

Mise en œuvre et remarques sur l'utilisation

  • Aucune information personnelle n'est envoyée au fournisseur de la plateforme de vision par ordinateur. Lors de son lancement, cette nouvelle fonctionnalité n'utilisera que le système de Google Cloud Vision, auquel l'accès sera fait via une couche logicielle intermédiaire masquant toutes les données concernant les utilisateurs. Les images de Commons sont envoyées aux serveurs de Google depuis les serveurs de la Fondation Wikimedia. Il n'y aura aucune communication directe entre l'utilisateur et les services externes. Aucune information personnelle (adresse IP, nom d'utilisateur, etc.) n'est transmise aux serveurs de Google. La couche logicielle intermédiaire qui contacte les serveurs de Google est un projet Wikimedia et est open source. Aucun élément du service ou du code de Google ne sera intégré dans l'infrastructure de Wikimedia.
  • Les propositions faites par l'outil de vision par ordinateur ne seront pas ajoutées aux données structurées d'un fichier image tant qu'un utilisateur ne les aura pas vérifiées : ce service est fourni comme un moyen d'améliorer l'activité humaine, pas de la remplacer. Toutes les propositions issues du service de vision par ordinateur sont enregistrées dans une base de données distincte et spécialisée. Les propositions ne sont pas enregistrées sous la forme de données structurées sur le fichier de Commons tant qu'une personne ne les a pas confirmées.
  • Les utilisateurs peuvent s'inscrire pour recevoir des notifications afin de les prévenir lorsque leurs téléversements récents ont reçu des suggestions de mots-clés. Dans la dernière étape du processus proposé par l'Assistant de téléversement, les utilisateurs disposent d'une option pour activer les notifications qui les préviendront lorsque des fichiers récemment téléversés auront terminé leur période d'attente et qu'ils disposeront de mots-clés à confirmer. Cette option peut aussi être trouvée dans les Préférences de l'utilisateur, à la rubrique Notifications.
  • Les contributions des utilisateurs consistant à confirmer des mots-clés proposés pour des éléments représentés sont placées sous licence CC0. Ces données sont équivalentes à l'ajout de données Wikidata à une image, et en tant que tel, ces contributions doivent être placées sous la même licence CC0, identique à la licence utilisée par Wikidata. Des informations claires sur les licences informeront les utilisateurs que toutes les contributions réalisées via l'outil de vision par ordinateur seront placées sous licence CC0.
  • Analyse d'images de Commons : la fonctionnalité ne va analyser que les images, et fournira des propositions de mots-clés de type « élément représenté » en se basant sur le contenu de ces images.
  • Certains types d'images seront exclus : certains d'entre eux sur Commons ne sont pas bien adaptés pour ce système. Les petites images (d'une largeur inférieure à 100 pixels), les œuvres d'art (identifées par le modèle Artwork), les numérisations de pages de livres et d'autres fichiers ne seront pas inclus.
  • Les fichiers récemment téléversés seront analysés, mais pas lors de leur téléversement : les utilisateurs de Commons surveillent en permanence les nouveaux fichiers pour détecter le vandalisme, les violations de droits d'auteur et la pertinence pour le projet. Les fichiers qui ne remplissent pas les critères font l'objet d'une demande de suppression. La nouvelle fonctionnalité de vision par ordinateur n'analysera les nouveaux fichiers qu'après une période d'attente, et n'analysera pas les fichiers signalés comme étant à supprimer.
  • Toutes les confirmations de mots-clés sont affichées comme des modifications standard de données structurées, avec une balise de résumé de modification qui identifie leur origine comme étant l'outil de vision par ordinateur : ceci permet de conserver les méthodes de travail usuelles pour la conservation et la modération, afin que les modifications puissent être améliorées, modifiées ou annulées. Cela permet également de mesurer le taux d'annulation et de garantir que les modifications effectuées via l'outil de vision par ordinateur ne sont pas plus fréquemment annulées que les modifications en général.
  • Il est possible d'empêcher de faire apparaître des termes problématiques dans les suggestions : il existe une liste noire de termes qui ne seront pas proposés par l'outil d'annotation. La liste noire officielle se trouve actuellement dans le fichier de configuration de Commons et ne peut pas être modifiée directement par la communauté, mais des suggestions peuvent être faites sur la page de discussion de la liste noire.

Boîte utilisateur

Vous pouvez utiliser cette boîte utilisateur sur votre page utilisateur.

{{User Computer-aided tagging}}
links talk view

This user uses Computer-aided tagging tool for tagging images.

This was a failed project

As early as 13 February 2020, experienced Commons users were complaining that the bulk of tags added using this tool were, as one put it, "way too vague, irrelevant or even detrimental". After numerous such complaints over the next several years, on 16 June 2023 the Sr. Director in the WMF Product department acknowledged that "We understand that the accuracy and utility of the tags generated by this tool have been called into question." After some study, on 14 September 2023 they announced, "we will be deactivating the tool on September 20, 2023, after completing the necessary code changes."