Commons:Structured data/Overview/nl

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:Structured data/Overview and the translation is 100% complete. Changes to the translation template, respectively the source language can be submitted through Commons:Structured data/Overview and have to be approved by a translation administrator.

Sinds de oprichting is Wikimedia Commons een van de meest succesvolle platforms binnen de Wikimedia-gemeenschap voor het delen van kennis. Het is echter al lang bekend dat een aantal onderliggende technische obstakels het hebben verhinderd een ideaal platform te worden voor andere kennisgemeenschappen, potentiële partners en onze Wikimedia-gemeenschappen. Om op deze technische uitdagingen te reageren, zouden functies worden gemaakt die zowel Wikimedia-gemeenschappen als externe partners in staat stellen om volledig gebruik te maken van dat platform, inclusief meertalige beschrijvingen en categorieën, holistische API's en een beter metadatabeheer. Dit alles verbetert de toegang tot Commons door middel van functies als meertalig zoeken.

Vanaf 2014 begon de Foundation met het eerste onderzoek naar het concept van gestructureerde data op Commons om deze verzoeken aan te pakken. Deze eerste exploratie identificeerde de meeste kernarchitecturele kenmerken die nodig zijn voor verbetering van Commons en vond dat deze kenmerken goed passen in de roadmap voor de Wikidata-software, Wikibase, ondersteund door WMDE. Op dat moment werd het project van 2014 vertraagd en vertraagd totdat Wikibase een robuuster infrastructuur bood. In 2016 hebben we dat punt bereikt, waardoor een eerste demonstratie is mogelijk gemaakt van hoe Gestructureerde Data on Commons kan werken.

In oktober 2016 kondigden WMF en Wikimedia Duitsland een financieringsovereenkomst aan die meerjarige ondersteuning voor Wikidata zou bieden, inclusief financiering voor backend-ondersteuning voor het integreren van Wikidata in Wikimedia Commons. De WMF's langetermijn roadmap omvat een plan om hulpmiddelen te bouwen om deze infrastructuur te maken bruikbaar voor de Commons en GLAM-gemeenschappen. Delen van dit werk zouden echter nog enkele jaren niet worden gedaan.

Onlangs heeft een subsidieverlener bij het WMF aangeklopt om een financiering te doen die dit werk in een snellere termijn van drie jaar zou kunnen doen. De potentiële financiering kan de kosten van een aantal werkzaamheden dekken die al in het jaarplan en de begroting van het WMF staan. Het fondsbevorderingsteam van het WMF zoekt over het algemeen geen financiering voor projecten buiten het jaarplan van het WWF. Het is echter een unieke gelegenheid dat een financier ons benaderd heeft met het potentiële belang om het werk aan dit bestaande project te versnellen. Om duidelijk te zijn en de verwachtingen op de juiste manier te stellen, is er alleen gevraagd om te solliciteren. We kunnen financiering krijgen of we kunnen niet.

NB: dit is geen nieuw projectvoorstel. Op dit moment bespreekt deze pagina een update van oktober 2016 van het WMF over de mogelijke versnelling van het project.

Wat publiceren we hier?

Deze pagina is een samenvatting van het potentiële versnelde roadmap/plan dat we verwachten met potentiële financiers voor dit werk te delen. We hebben niet het hele document opgenomen, omdat het nog steeds intern wordt besproken en beoordeeld, en afhankelijk van wie we de middelen van het document ontvangen/zoeken, zullen deze veranderen. Bovendien is een groot deel van het materiaal in het document bedoeld om de context van gestructureerde gegevens op Commons aan onbekend publiek te verklaren (inclusief, maar niet beperkt tot het toepassingsgebied van Commons, waarom gekoppelde gestructureerd metadata belangrijk zijn voor multimedia, vooral multimedia over cultureel erfgoed, en vergelijkingen met andere platforms). We hebben hieronder opgenomen:

  • Onze high-level roadmap voor de ontwikkeling van het project, indien we middelen krijgen om het werk te versnellen
  • Geconstateerd welke voordelen en risico's het project kan opleveren.
  • De verwachte mogelijkheid tot wijzigingen in de Commons.

Als/naar het verkrijgen van de noodzakelijke externe steun voor het versnelde project, zullen wij een meer volledige versie (met gevoelige informatie) delen met de gemeenschap.

Waarom hebben we uw commentaar nodig? Hoe kunt u helpen?

De vrijwilligersgemeenschap van Commons heeft al lang gevraagd om functies die een database-achtige structuur vereisen die hen in staat stelt de media meer volledig te beschrijven. Bijvoorbeeld, meertalige categorieën zijn een langdurig gesprek geweest met onze gemeenschap dat meer vrijwilligers die niet Engels spreken, effectief zou kunnen taggen en afbeeldingen kunnen vinden. (Zie een discussie begin 2004, een blogpost uit 2008, de 2009 GLAM-WIKI aanbevelingen, een andere uit 2010, een vraag op Quora, de 2015 wenslijst van de gemeenschap en meer recente discussies).

Wij hopen dat de gestructureerde data in Commons een basis vormen voor het oplossen van deze problemen.

We willen een open tijdsruimte bieden voor leden van de Wikimedia-gemeenschappen om feedback te geven over dit specifieke project en zoeken feedback over het volgende:

  • Zie u deze versnelde roadmap als een waardevol onderdeel?
  • Welke obstakels, risico's of uitdagingen verwacht u bij het versnellen van een dergelijk project?
  • Vertoont de huidige informatie op deze pagina de rol van de gemeenschappen, vooral de Wikimedia Commons en Wikidata gemeenschappen, bij het betrekken van een dergelijk softwareproject?
  • Hoe zou u dit project willen steunen?
  • Als u op de hoogte wilt blijven van dit voorstel en/of gestructureerde data in Commons, raden wij u aan zich aan te melden voor deze nieuwsbrief

Wij zijn van plan om tot en met 9 november opmerkingen over dit voorstel toe te laten.

Beschrijving op hoog niveau

We hebben een reeks punten opgesteld die de context uiteenzetten van waarom en hoe gestructureerde data binnen de Wikimedia-projecten werken en de effecten die worden veroorzaakt door een gebrek aan effectieve gestructureerd data-infrastructuur op Wikimedia Commons, die de bekende problemen weerspiegelt die hier worden beschreven. We noemen enkele belangrijke elementen van die punten op die zich richten op het werkelijke kader voor het werken met de Wikimedia-gemeenschap.

Achtergrond

Alle vrij gelicentieerde foto's, audio en video-bestanden op Wikipedia worden opgeslagen op de Wikimedia Foundation site Wikimedia Commons. Commons is in 2004 begonnen en heeft nu 34 miljoen mediabestanden - foto's, audio en video - en blijft elk jaar snel groeien: de bijdragers voegden vorig jaar ongeveer vijf miljoen nieuwe bestanden toe. De mediabestanden zijn gemakkelijk te vinden via platforms zoals Google zoek.

Duizenden vrijwilligers integreren deze mediabestanden van Commons in onze Wikimedia-projecten, zoals Wikipedia, om onze inhoud te illustreren en die media met het publiek te delen. Deze bestanden zijn meestal 1) persoonlijke fotografie en media die door individuen worden geüpload; 2) vrij gelicentieerde mediabestanden van locaties op het internet zoals Flickr, YouTube, openlijk toegankelijke tijdschriften en andere bronnen; of 3) donaties van instellingen en organisaties met aanzienlijke mediacollecties, zoals UNESCO, NASA en de British Library.

Wikimedia Commons werkt op MediaWiki, dezelfde software die Wikipedia ondersteunt. MediaWiki is voornamelijk ontwikkeld voor het schrijven en hosten van tekst zoals Wikipedia, zodat Commons' miljoenen mediabestanden geen machine-leesbare metadata hebben. In plaats daarvan wordt elk mediabestand vergezeld van vrije, niet-gestructureerde beschrijvingen die niet door de machine gelezen kunnen worden. Dit maakt het moeilijk om de media daar te koppelen aan andere educatieve bronnen op de Wikimedia sites, zoals Wikipedia of Wikisource. Het maakt het ook moeilijk voor andere websites om gebruik te maken van de media - om er een link naar te maken en de media aan hun eigen inhoud te koppelen. Bovendien maat ongestructureerde data het voor internetgebruikers moeilijker om op zoek te gaan naar deze media - om de foto's, video's en audio te vinden die ideaal zouden zijn om te hergebruiken, maar die in wezen onzichtbaar zijn, verborgen omdat de details van de media, de woorden die de media beschrijven, onvolledig zijn en verbonden zijn met het bredere internet.

Gestructureerde data – en Wikidata – veranderen de manier waarop mensen op internet toegang hebben tot informatie uit opslagplaatsen zoals Wikimedia Commons. Een manier om aan gestructureerde data te denken: het is een soort DNA dat informatie op een veel integralere manier verklaart. Gestructureerde data geven betekenis aan een mediabestand vanuit meerdere invalshoeken. Het biedt meerdere manieren om naar die media te zoeken en meerdere manieren om die media te begrijpen. Ongestructureerde data vertellen slechts een deel van de geschiedenis van dat medium. Ongestructureerde data verminderen de waarde van informatie die de media contextualiseert - en maken het veel moeilijker om de afbeelding, audio of video te vinden. Voor veel van de inhoud van Commons is het alsof de mediabestanden helemaal niet bestaan, omdat ze zo moeilijk te vinden zijn op het internet en moeilijk te vinden zijn op Commons. Daar brengen we verandering in.

Het project zal de middelen bieden om de informatie in Wikimedia Commons mediabestanden te transformeren van vrije tekst in machineleesbare gegevens, zodat Commons' miljoenen mediabestanden veel gemakkelijker te bekijken, te vertalen, te vinden, te bewerken, te cureren, te gebruiken en te hergebruiken.

Bekende voordelen

In het voorgestelde werk worden de volgende resultaten benadrukt:

  • Voordeel 1:
Categorieën en metadata zouden gemakkelijker meertalig zijn op Commons. Dit maakt het mogelijk om het verzoek om een wenslijst voor de gemeenschap in 2015 met succes af te ronden, zie: die wenslijst
  • Voordeel 2:
Ontwikkelaars kunnen het project nog verder uitbreiden. Gestructureerde data op Commons biedt de fundamentele infrastructuur die nodig is voor consistent gebruik van Commons-gegevens via API's en andere machineleesbare eindpunten, zodat ontwikkelaars zowel binnen als buiten de Wikimedia-gemeenschap consistente, herbruikbare en betrouwbare software kunnen maken die bewerkt, helpt bij hergebruik en analyse van Commons-media en de bijbehorende gegevens mogelijk maakt.
  • Voordeel 3:
Met een betere Commons zoekfunctie kunnen medewerkers Wikimedia-inhoud effectiever illustreren.
  • Voordeel 4:
Een betere Commons-zoeken zorgt voor een betere gebruikerservaring voor de bredere lezersgemeenschap.
  • Voordeel 5:
Betere structuur voor commons data maakt het mogelijk om gemakkelijker en eenvoudiger samen te werken met leveranciers van gegevens, vooral organisaties die kennis verzamelen/delen.

We identificeren ook andere verwachte voordelen van de verbetering van Wikimedia Commons voor onze bredere gemeenschap, waaronder maar niet beperkt tot:

  • Gemakkelijke deelname van GLAM en andere kennispartners, vooral in gemeenschappen die niet worden ondersteund door organisaties zoals Europeana en DPLA
  • Grote ontdekking en hergebruik door externe gemeenschappen buiten Wikimedia Projecten

Bekende risico's

Tot nu toe hebben wij een aantal risico's gedocumenteerd:

  • Risico 1 (Hoog):
De beoordeling en discussie van gestructureerde data op Commons kan grote onverwachte technische veranderingen identificeren die langere ontwikkelingstijd vereisen.
  • Risico 2 (Medium):
De communautaire invoering van functies in bestaande werkstromen wordt belemmerd door de communautaire politiek. Het Wikidata-team heeft echter de effectieve adoptie van Wikidata functies in Wikidata en het bredere gebruik van Wikidata in andere projecten aangetoond, waaronder Commons en tientallen taalwikipedia's. Het toepassen van de geleerdheid van transparante planning en gemeenschapsbeheer in het kader van Wikidata op gestructureerde gegevens op Commons zal een noodzakelijk onderdeel van het succes zijn.
  • Risico 3 (Medium):
De achterstand van hulpmiddelen en softwarefuncties die tijdens de infrastructuurwijziging worden gebroken, kan de effectieve integratie van alle nieuwe functies die voor gestructureerde gegevens op Commons zijn gepland, belemmeren.
  • Risico 4 (Laag):
De relaties tussen WMF en/of WMDE en de Commons-gemeenschap veranderen op een fundamentele manier waardoor de gemeenschap sceptisch is tegenover het initiatief.
  • Risico 5 (Laag):
Complexiteiten in functioneel ontwikkeling en roadmaps die duidelijk werk tussen Wikidata zoals nu gefinancierd door WMF en toekomstige werk definiëren.
  • Risico 6 (Hoogh):
Voorgestelde wijzigingen vereisen belangrijke wijzigingen in het onderliggende schema en de software van Commons. Dit kan bestaande hergebruikers van onze inhoud en bouwers van community- en tools van derden verstoren. Tot op zekere hoogte moeten we dit beperken door migratie-paden of compatibiliteitslagen te bouwen en te anticiperen op een lange periode van betrokkenheid bij en ondersteuning van wijzigingen in die software.

Projectstructuur

De WMDE en de WMF hebben al toegezegd het werken aan gestructureerde data op Commons te ondersteunen. Wikimedia Duitsland heeft al toegezegd om een deel van dit werk te starten door middel van gepland werk op Wikidata. Bovendien hebben zowel het Discovery team als het Multimedia-team aangegeven zich in te zetten voor het creëren van basisinfrastructuur voor het gebruik van gestructureerde Commons-data.

De onderstaande tijdlijn is gebaseerd op de huidige stand van dit werk en hoe we zouden verwachten dat een versnelde tijdlijn zou worden vastgesteld als deze subsidie aan WMF zou worden toegekend. Het project zou een driejarige procedure omvatten, die in drie hoofdpunten zou worden verdeeld:

Focus 1 - bouw van de eerste infrastructuur
Focus 2 - het integreren van extra functies in Commons en Wikimedia-projecten
Focus 3 - actieve betrokkenheid van de bredere gemeenschap en ondersteuning van de ontwikkeling van aanvullende hulpmiddelen en infrastructuur.

Als we geen extra financiering ontvangen via de huidige mogelijkheid, moet deze tijdlijn worden bijgewerkt om rekening te houden dat de vooruitgang dan met een langzamer tempo wordt geboekt.

Jaar 1 Infrastructuur Jaar 2 Integratie Jaar 3 Betrokkenheid
Wikidata: Test- en prototype-metadata als gestructureerde data, integratie van gestructureerd data-interface, beoordelingslabels en woordenschat Wikidata: Integratie van gestructureerde data-interface, wikidata ui concepten
Hulpmiddelen: Verkennen en Testen Hulpmiddelen: Deployment Hulpmiddelen: Iteratie en onderhoud
Media Viewer Licentie weergave
Zoeken & Query: Functies verkennen Zoeken en Query: Deployment Zoeken en Query: Iteratie en onderhoud
Gemeenschap: Concepten & data-modellen beoordelen Gemeenschap: Feedback op nieuwe functies Gemeenschap: Feedback en ondersteuning van het verbeteren
Gemeenschap: Ondersteuning van de migratie van hulpmiddelen, met name andere communautaire media-importeer hulpmiddelen, zoals PattyPan Gemeenschap: Aanmoediging van de ontwikkeling van hulpmiddelen voor betrokkenheid, opschoning en het bijdragen
Partners: Gegevensmodellen beoordelen Partners: Het promoten van functies en het zoeken van nieuwe partners Partners: Ontwikkeling van hulpmiddelen voor betrokkenheid, opschoning en het bijdragen

Hoe de inhoud van Commons kan veranderen

Met dit plan zal na twee jaar de infrastructuur beschikbaar zijn om delen van Commons' miljoenen mediabestanden naar gestructureerde data te migreren, en na drie jaar moet die migratie goed in gang zijn als we de infrastructuursystemen versterken. Al is een aanzienlijke hoeveelheid beelden klaar voor migratie. Zoals in de inleiding vermeld, schat Magnus Manske, een expert op het gebied van de structuring van Commons en Wikidata-inhoud, dat de Commons-gemeenschap tussen 16-19 miljoen bestanden direct in een gestructureerd Commons-formaat kan migreren als ze de juiste infrastructuur en een vrij standaard software hebben. We leveren de infrastructuur met dit project, wat de gemeenschap vrij maakt om de relatief eenvoudige software toe te passen - een voorbeeld van de symbiose die plaatsvindt tussen Wikimedia en de vrijwilligers van onze projecten.

Hoe snel na deze eerste migratie zouden de andere bestanden worden omgezet? De meeste resterende uitdagingen zouden betrekking hebben op oplosbare overwegingen rond template/data-functies van bestaande Commons-inhoud. De "X-factor" is de capaciteit van vrijwilligers en bot-hulpmiddelen om het materiaal te migreren. Wanneer u een groot aantal gegevens van de ene gegevensstructuur (halfgestructureerde, historische Commons-gegevens die in wikitext zijn opgeslagen) naar de andere (gestructureerd data op Commons) migreert, is er een lange staart aan data-reiniging waar een groot deel van de inhoud die in het bestand wordt opgeslagen, een mix van gestructureerde data heeft die gemakkelijk op te schonen en te integreren is, en ongestructureerde (of "onzuivere") data die een combinatie van semi-automatische hulpmiddelen en menselijke evaluatie vereisen.

Het kan vijf of zelfs tien jaar duren voordat de meerderheid van de mediabestanden van Commons overgeplaatst wordt naar een gestructureerd dataformaat. We kunnen geen precieze tijdsbestek bieden, omdat het afhangt van de input van de gemeenschap van de Commons. Maar we zijn optimistisch. Elke maand maken meer dan 7.000 Commons-medewerkers vijf of meer bewerkingen op Commons, en elke maand maken meer dan 1.300 Commons-medewerken 100 of meer bewerkingen op Commons. Commons en Wikidata elk heeft ongeveer 7.000 actieve redacteurs. Of het nu op Commons, Wikipedia of een ander Wikimedia-project is, onze sites zijn vol gepassioneerde medewerkers. Een sleutel is het ontwerpen van software, hulpmiddelen, gemeenschapsondersteuning en stimulansen voor bijdragers om deel te nemen aan dit project. Dat is wat we doen.

Zodra de infrastructuur gereed is, verwachten we dat de Commons-gemeenschap de capaciteit zal hebben om over te migreren voor bepaalde gegevenstypen, waaronder "Categorieën." Bijna elke afbeelding op Commons wordt geplaatst in content-gebaseerde categorieën, die zo dicht bij Commons komen als tags. Deze informatie is rijp voor synchronisatie met Wikidata identifitiers.

Meer dan 1,5 miljoen (van de 4,2 miljoen) van deze categorieën zijn al gesynchroniseerd met Wikidata-items, waardoor ze voorname kandidaten voor deze migratie zijn. Veel van deze categorieën hebben ook subcategorieën, die systematisch met de juiste hulpmiddelen kunnen worden onderzocht. Bijkomende gegevens in bijna elk bestand kunnen gemakkelijker worden overgezet:

  • Copyright verklaringen
  • De meerderheid van de mensen die velden aanmaken (waarvan een deel afhankelijk is van de voor deze subsidie geplande grote technische infrastructuur)
  • De meeste uploaddatumvelden
  • De meeste velden met een aanmaakdatum
  • De identiteit van uploaders van bestanden (waarvoor grote technische infrastructuurwijzigingen nodig zijn die in deze subsidie zijn gepland)

Subsecties van Commons-inhoud die, met meer betrouwbaarheid, voor een groot deel kunnen worden gemigreerd naar gestructureerde data, zijn onder meer:

  • Meer dan 31 miljoen mediabestanden met behulp van een versie van het sjabloon Information die enkele basisinformatie bevat die kan worden verplaatst naar gestructureerde data, waarvan sommige moeten worden opgeschoond om consistentie te bieden om uniforme gegevens te creëren. Onder deze sjablonen zijn verschillende soorten data die rijp zijn voor migratie:
• Van deze zijn meer dan 24 miljoen taal-geïdentificeerde bestandsbeschrijvingen (onderverdelingen) die correct zijn gecodeerd voor correcte integratie in gestructureerde data.
• Van deze beelden hebben 6,2 miljoen bestanden locatie geo-coördinaten die de locatie van de afbeelding nauwkeurig kunnen beschrijven en in de gestructureerde data kunnen worden geïntegreerd.

Andere delen van Commons die zijn hersteld met een robuustere beschrijving metadata kunnen sneller worden gemigreerd door gemeenschappen. Deze onderdelen zouden de meest nuttige delen van de eerste migratie zijn. Deze zijn onder meer*:

(*-Deze cijfers geven niet alle bestanden van dat genre aan - alleen die die met gegevens in de beste standaard zijn geteld.)

De Wikimedia Foundation's UploadWizard, de cross-wiki upload, de kernupload en de bijbehorende uploadcampagnhulpmiddelen die door de Foundation worden onderhouden, en de massa-uploadhulpmiddelen die worden ontwikkeld door de vrijwillige GLAM-Wiki Gemeenschap (vooral de Patty Pan en de GLAMPipe) zullen aanpassingen nodig hebben om compatibel te zijn met gestructureerde data van Commons. Deze hulpmiddelen zijn allemaal gebouwd rond de aannames dat media gestructureerde data en beschrijvingen moeten hebben, dus het is een kwestie van het aanpassen van de datapaden via onze API/raamwerk en het uitbreiden van de beschikbare velden in de uploadformulieren.