Commons:Batch uploading/Fonds Ancely/notes

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search

Notes on the Ancely batch upload

Source code[edit]

→ On GitHub

Pages[edit]

TODO[edit]

  • Handle date
    • for the date field (using {{Other date}} if needed) ✓ Done
    • for categorisation (like 1881 in France)
  • Filter category parenting → use filterParents() from geograph/topic_stats.py
  • handle category intersection (ask Maarten, probably has something to do it)
  • Steal ideas from Commons:Bots/Requests/SLQbot
  • Handle too long titles

Categorisation[edit]

For this batch-upload, the philosophy was to have extensive categorisation, based on a community-sourced mapping of the OAI records to Wikimedia Commons categories (as well as possible 'tags', processed values to add to {{Artwork}}).

Expected results (in the current state of the mapping) are:

Total: 31,801 categories used, 1,694 distinct.

Uses per category
  • Average: 18.8
  • Median: 2
  • Max: 1045
  • Min: 1
Uses per file
  • Average: 15.25
  • Median: 14
  • Max: 48
  • Min: 0

Since the OAI repo uses flat, 'atomic' tags, the results need to be largely diffused in sub categories, or in intersected categories. We are seeing how to do that (see above). Otherwise, {{Intersect categories}} is your friend.


Metadata Mapping[edit]

Actual mapping is done with the ingestion template.

Overview[edit]

  • Contributor :
    • tag : À conserver comme champ d'artwork (artist en conservant le rôle qui est associé ?), ou à mettre dans un other_fields contributeur ?
    • Category : pas mal de personnes locales qui n'ont pas de catégories et pour lesquelles on aura du mal à trouver des informations pour trouver une catégorie intéressante (et justifiée).
  • Coverage :
    • tag : à conserver en description ?
    • category : pas mal d'associations à des catégories devraient pouvoir être fait automatiquement, la plupart concernent des communes et on a le département entre parenthèse pour confirmer l'association.
  • Creator :
    • tag : champs artist, avec {{creator}} (automatisé)
    • category : pas sûr qu'il y ait beaucoup de cas où une catégorie se justifie. Sur les 10 premiers de la liste, une recherche rapide ne donne trace sur les projets wikimedia que d'un seul à travers un article en + de : Robert Batty (artist).
  • Date :
    • tag : date, en générant automatiquement le {{date}} ou {{other date}} s'il existe déjà des routines pour le faire (ça a l'air assez bien formé)
    • category
  • Description :
    • tag : à reprendre en description
    • category
  • Publisher :
    • tag : pas prévu dans artwork on dirait, à rajouter en other_field.
    • category : pas asse précis et peu d'éditeurs assez connus pour justifier d'une catégorie.
  • Relation : liens entre notices numérisées ou entre notices numérisées et notices papier, pas sûr que ça ait un grand intéret pour nous, on renverra sur la notice numérisée, libre à eux de gérer les liens entre leurs notices.
  • Source : on dirait que ça correspond à l'origine du document (object history) mais il faudrait le confirmer.
  • Subject :
    • tag : à reprendre dans other_field ?
    • category : crowdsourcing en complétant le tableau pour ce qui est faisable de manière transversale : Cols de montagne -- France -- Haute-Garonne (France) -- Bagnères-de-Luchon (Haute-Garonne ; région) -- 19e siècle -> Category:Bagnères-de-Luchon ; Category:Mountain passes of France et laisser de côté les sujets comme montagne pour lesquels on ne peut pas faire grand chose. Ne rien faire pour les sujets qui ne sont utilisés qu'une ou deux fois, il sera plus rapide de traiter directement au niveau de la photo a posteriori.
  • Type :
    • tag : medium avec un template technique, à faire manuellement.
    • category

Petite ébauche rapide, à compléter Symac (talk) 21:23, 19 September 2012 (UTC)[reply]

DC fields mapping[edit]

Every OAI record content, broken down by DC field and ordered by frequency in the considered set.