Вікісховище:Структуровані дані/Загальні відомості

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:Structured data/Overview and the translation is 98% complete. Changes to the translation template, respectively the source language can be submitted through Commons:Structured data/Overview and have to be approved by a translation administrator.
Outdated translations are marked like this.

З моменту заснування, Вікісховище становило одну з найуспішніших платформ у межах спільноти Вікімедіа для поширення знань. Однак давно було відомо, що ряд базових технічних перешкод не дозволяли йому стати ідеальною платформою для інших спільнот, що займаються поширенням знань, потенційних партнерів та наших спільнот Вікімедіа. Реакція на ці технічні виклики мала б включати створення функцій, що б дозволили як спільнотам Вікімедіа, так і зовнішнім партнерам отримати доступ до всіх переваг цієї платформи, включно з багатомовними описами та категоріями, цілісними API і кращим управлінням метаданими. Усі ці речі, в разі їх досягнення, значно покращили б ширший публічний доступ до Вікісховища через такі функції, як багатомовний пошук.

Починаючи з 2014 Фонд розпочав попередню розробку концепції структурування даних на Вікісховищі, щоб задовольнити ці запити. Ця попередня розробка визначила більшість основоположних архітектурних функцій, необхідних для покращення Вікісховища, і виявила, що ці функції добре пасують до дорожньої карти розробки програмного забезпечення Вікіданих — Вікібази, підтримуваної WMDE. На цьому етапі проект 2014 року сповільнився і зрештою був відкладений, поки Вікібаза б не запропонувала більш життєдайну структуру. Минулого року ми досягли цього етапу, що дозволило нам провести початкову демонстрацію того, як структурування даних могло б працювати на Вікісховищі.

У жовтні 2016 ФВМ і Вікімедіа Німеччина оголосили про підписання договору про фінансування, що забезпечить багаторічну підтримку Вікіданих, включно з фінансуванням бекенду для інтегрування Вікіданих у Вікісховище. Довготермінова дорожня карта ФВМ включає план створення інструментів, що зроблять цю інфраструктуру доступною для використання Вікісховищем та GLAM-спільнотами. Однак сума цієї роботи не матиме необхідних ресурсів протягом декількох років.

Нещодавно до ФВМ звернувся грантодавець із пропозицією подати заявку на фінансування, що могло б пришвидшити цю роботу, виконавши її в межах трирічного періоду. Таке потенційне фінансування мало б покрити кошти деякої роботи, що вже закладена в річному плані ФВМ та в його бюджеті. Команда зі збору коштів ФВМ загалом не приймає фінансування проектів з-за меж річного плану ФВМ. Однак це унікальна можливість, коли грантодавець сам звернувся до нас із потенційним інтересом у пришвидшенні роботи над вже наявним, запланованим проектом. Щоб було зрозуміло, і щоб уточнити очікування, нас попросили лише подати заявку, більше нічого. Ми можемо отримати фінансування, або й не отримати його.

Це НЕ нова пропозиція проекту. Ця сторінка обговорює новини від жовтня 2016 року від ФВМ щодо можливого прискорення проекту.

Що саме ми публікуємо тут?

Ця сторінка являє собою синопсис потенційної прискореної дорожньої карти/плану, якими ми очікуємо поділитись із тими, хто потенційно може фінансувати нашу роботу. Ми не включили весь документ, оскільки він все ще на стадії внутрішнього обговорення і перевірки, і залежно від кого ми отримаємо/шукатимемо ресурси, вміст цього документу може змінитись. Крім того, чимало матеріалу, що міститься в документі, призначений для пояснення контексту структурування даних на Вікісховищі людям, що не знають, про що йдеться (включно зі сферою Вікісховища, але не лише з нею — також пояснення того, чому структурування метаданих таке важливе для мультимедіа, особливо для файлів мультимедіа, що являють собою культурну спадщину, а також порівняння з іншими подібними платформами). Ми включили тут:

  • Нашу дорожню карту з найвищими цілями для розвитку проекту, якщо ми отримаємо ресурси для прискорення роботи.
  • Визначені переваги і ризики проекту.
  • Очікувана можливість впровадження змін на Вікісховищі.

Якщо/коли ми отримаємо необхідну зовнішню підтримку для прискорення проекту, ми поділимося повнішою версією (що міститиме чутливу інформацію) зі спільнотою.

Для чого нам Ваші коментарі? Як Ви можете допомогти?

Спільнота волонтерів Вікісховища здавна просила про функції, що вимагають структури, подібної до структури баз даних, і які дозволили б користувачам давати повніші описи медіафайлів. Наприклад, багатомовні категорії здавна були темою для розмов у межах нашої спільноти — така багатомовність дозволила б більшій кількості волонтерів, що не знають англійської, ефективніше позначати і шукати зображення. (Див. обговорення початку 2004 року, публікацію в блозі від 2008, рекомендації GLAM-WIKI від 2009, інші рекомендації від 2010, запитання на Quora, Опитування побажань спільноти 2015, і нещодавні обговорення.)

Ми безустанно сподіваємось, що структурування даних на Вікісховищі створить підоснову для вирішення усіх цих проблем загалом.

Ми хочемо надати відкрите часове вікно для учасників спільнот Вікімедіа, щоб вони могли залишити відгуки про цей конкретний проект, і хочемо отримати відгуки на такі теми:

  • Чи вважаєте Ви цю прискорену дорожню карту добрим починанням?
  • Які перешкоди, ризики чи виклики Ви передбачаєте при прискоренні такого проекту?
  • Чи поточна інформація на цій сторінці належним чином репрезентує роль спільно, особливо спільнот Вікісховища та Вікіданих, у роботі над таким проектом з розробки програмного забезпечення?
  • Яким чином Ви б хотіли підтримати цей проект?
  • Якщо Ви хотіли б залишатись загалом у курсі щодо цієї пропозиції та/або структурування даних на Вікісховищі, рекомендуємо підписатись на цю розсилку новин.

Ми плануємо залишити початкове коментування щодо цієї пропозиції до 9 листопада.

Загальний опис

Ми зібрали докупи ряд матеріалів, що пояснюють контекст того, чому і як структурування даних працює в проектах Вікімедіа, і які ефекти має брак ефективної інфраструктури структурованих даних на Вікісховищі, що віддзеркалює відомі проблеми, описані на сторінці Вікісховище:Структуровані дані. Тут ми виділяємо деякі ключові елементи з тих матеріалів, що фокусуються на дійсному програмному каркасі для роботи з Вікісховищем.

Передумови

Усі фото, аудіо і відеофайли під вільними ліцензіями зберігаються на веб-сайті Фонду Вікімедіа під назвою Вікісховище. Засноване 2004 року, Вікісховище тепер має 34 мільйони медіафайлів — фото, аудіо та відео — і продовжує швидко зростати з кожним роком: минулого року користувачі додали близько п'яти мільйонів медіафайлів. Ці медіафайли можна з легкістю відшукати за допомогою таких платформ як пошуковик Google.

Тисячі волонтерів інтегрують ці медіафайли з Вікісховища в наші проекти Вікімедіа на кшталт Вікіпедії, щоб проілюструвати наш контент і поділитися цими медіафайлами з публікою. Ці файли зазвичай є 1) персональними фото та іншими медіафайлами, завантаженими окремими особами; 2) медіафайлами під вільними ліцензіями, що походять з таких місць в інтернеті, як Flickr, YouTube, журнали з відкритим доступом та з інших репозиторіїв; або ж 3) пожертвуваннями з різних інституцій та організацій, які мають значні колекції мультимедіа, — таких як ЮНЕСКО, НАСА та Бібліотека Великої Британії.

Вікісховище працює на MediaWiki — тому ж рушії, на якому працює й Вікіпедія. MediaWiki було розроблено в першу чергу для написання і зберігання текстів, як у Вікіпедії, тож мільйони медіафайлів на Вікісховищі не мають машиночитабельних метаданих. Натомість кожен файл супроводжують неструктуровані описи у вільній формі, що не є достатньо машиночитабельними. Це ускладнює створення посилань на файли у Вікісховищі з інших освітніх ресусрів на сайтах Вікімедіа, таких як Вікіпедія чи Вікіджерела. Це також ускладнює іншим веб-сайтам користуватися перевагами цих медіафайлів — посилатися на них і прив'язувати їх до свого власного контенту. Крім того, неструктуровані дані ускладнюють користувачам інтернету пошук цих медіафайлів — фото, відео та аудіо, які могли б бути ідеальними для повторного використання, але залишаються загалом невидимими, бо інформація про них, слова, що описують ці медіафайли, є неповними, відокремленими від решти інтернету.

Структуровані дані — і Вікідані — змінюють те, яким чином люди в мережі отримують доступ до інформації з таких репозиторіїв, як Вікісховище. Одним зі способів зрозуміти, що таке структуровані дані — уявити, що це різновид ДНК, що пояснює інформацію в значно повніший спосіб. Структуровані дані надають інформацію про файл з різних ракурсів. Вони пропонують різноманітні способи пошуку таких медіафайлів, різноманітні способи розуміти їх. Неструктуровані дані розповідають лише частину історії такого файлу. Неструктуровані дані зменшують цінність інформації, що творить контекст файлу — і значно ускладнюють пошук зображення, аудіо, або відео. Для значної частини контенту Вікісховища це все одно, якби ці файли взагалі не існували, оскільки їх дуже складно знайти в інтернеті, і складно знайти навіть на Вікісховищі. Ми змінюємо цей стан справ.

Проект структурування даних на Вікісховищі надасть засоби для трансформування інформації про всі медіафайли Вікісховища з даних у вільному текстовому форматі в машиночитабельні дані, щоб мільйони медіафайлів Вікісховища стало значно легше переглядати, перекладати, відшукувати, редагувати, курувати, використовувати і повторно використовувати.

Відомі вигоди

У пропонованій роботі ми виділяємо такі наслідки:

  • Вигода 1:
Категорії та метадані стане легше робити багатомовними на Вікісховищі. Це дозволить успішно виконати запиту з побажань спільноти 2015 року, окресленого на сторінці Опитування побажань спільноти 2015/Вікісховище#Дозволити створення категорій на Вікісховищі усіма мовами
  • Вигода 2:
Розробники можуть навіть ще більш розширити проект. Структурування даних на Вікісховищі забезпечує фундаментальну інфраструктуру, необхідну для відповідного використання даних з Вікісховища через API та інші машиночитабельні кінцеві точки, тож розробники як із самої спільноти Вікімедіа, так і з-за її меж, зможуть створювати повноцінні, доступні і надійні програми для редагування, допомоги з використанням, і можливістю аналізу медіафайлів Вікісховища та пов'язаних з ними даних.
  • Вигода 3:
При кращій результативності пошуку на Вікісховищі дописувачі зможуть значно краще ілюструвати контент проектів Вікімедіа.
  • Вигода 4:
Кращий пошук по Вікісховищі уможливить кращий користувацький досвід для ширшої читацької спільноти.
  • Вигода 5:
Краща структура даних Вікісховища полегшить і спростить партнерство з різними постачальниками контенту, особливо з організаціям, що займаються накопиченням і поширенням знань.

Ми також ідентифікуємо інші очікувані вигоди від цього покращення Вікісховища для нашої ширшої спільноти, включно з:

  • Полегшення участі GLAM-інституцій та інших партнерів з поширення знань, особливо в спільнотах, що не підтримуються такими організаціями як Europeana та DPLA
  • Більше відкриття і використання зовнішніми спільнотами з-за меж проектів Вікімедіа.

Відомі ризики

Наразі задокументовано ряд визначених ризиків:

  • Ризик 1 (високий):
Перевірка та обговорення структурування даних на Вікісховищі зі спільнотою може ідентифікувати значні непередбачені технічні зміни, що потребуватимуть більше часу для розробки.
  • Ризик 2 (середній):
Прийняття спільнотою нових функцій у вже наявні робочі процеси іноді має перешкоди у формі політик спільноти. Однак команда Вікіданих продемонструвала ефективне прийняття функцій Вікіданих як на Вікіданих, так і ширше використання Вікіданих в інших проектах, включно з Вікісховищем та дюжинами мовних версій Вікіпедії. Застосування уроків, вивчених із прозорого планування й управління спільнотою в контексті Вікіданих, буде необхідною умовою для досягнення успіху в структуруванні даних на Вікісховищі.
  • Ризик 3 (середній):
Завали інструментів та програмного забезпечення, що зламаються під час зміни інфраструктури, можуть перешкодити ефективній інтеграції усіх нових функцій, запланованих для структурування даних на Вікісховищі.
  • Ризик 4 (низький):
Стосунки між ФВМ та/або WMDE і спільнотою Вікісховища зміняться у якийсь фундаментальний спосіб, що змусить учасників спільноти ставитись скептично до цієї ініціативи.
  • Ризик 5 (низький):
Складнощі в розробці функцій та дорожніх карт, що чітко визначають роботу між тими Вікіданими, робота над якими зараз фінансується ФВМ, і майбутньою роботою над ними.
  • Ризик 6 (високий):
Запропоновані зміни вимагають значних змін до основоположної схеми і програмного забезпечення Вікісховища. Це може підірвати роботу поточних користувачів контенту Вікісховища і творців інструментів для нашої спільноти та зовнішніх інструментів. Нам доведеться певною мірою пом'якшити це через створення шляхів міграції або шарів сумісності, і передбачення тривалих часових вікон для роботи з такими питаннями і підтримкою змін до такого тимчасового програмного забезпечення.

Структура проекту

WMDE та ФВМ вже зобов'язались працювати над структуруванням даних на Вікісховищі. Вікімедіа Німеччина зобов'язалась розпочати роботу в рамках планової роботи над Вікіданими. Крім того, як команда з відкриття, так і команда з мультимедіа вже прийняли зобов'язання, пов'язані зі створенням базової інфраструктури для використання структурованих даних Вікісховища.

Графік нижче базується на поточному статусу цієї роботи і того, яким ми бачимо прискорений графік, якщо цей грант буде наданий ФВМ. Цей проект займе три роки, і в широкому сенсі буде подібений на три основні фокуси:

Фокус 1 — створення початкової інфраструктури
Фокус 2 — інтеграція додаткових функцій у Вікісховище та в проекти Вікімедіа
Фокус 3 — активне залучення ширшої спільноти і підтримка додаткових інструментів та розробка інфраструктури.

Якщо ми не отримаємо додаткового фінансування, цей графік треба буде оновити, щоб врахувати будь-який прогрес, що відбуватиметься повільніше між теперішнім часом і можливістю фінансування.

Рік 1: Інфраструктура Рік 2: Інтеграція Рік 3: Участь спільноти
Вікідані: тестування і прототипи метаданих у формі структурованих даних, інтеграція інтерфейсу структурованих даних, перевірка термінології Вікідані: інтеграція інтерфейсу структурованих даних, концепти інтерфейсу користувача Вікіданих
Інструменти: дослідження і тестування Інструменти: впровадження Інструменти: повторення і обслуговування
Показ ліцензії в Медіапереглядачі
Пошук і запити: вивчення функцій Пошук і запити: впровадження пошук і запити: повторення і обслуговування
Спільнота: перевірка концептів і моделей даних Спільнота: відгуки щодо запуску функцій Спільнота: відгуки і кураторська підтримка
Спільнота: підтримка міграції інструментів, особливо інших інструментів спільноти з імпортування мультимедіа, на кшталт PattyPan Спільнота: заохочення розробки інструментів для залучення спільноти, для виправлення помилок і для здійснення внеску
Партнери: перевірка моделей даних Партнери: рекламування функцій і пошук нових потенційних партнерів Партнери: заохочення розробки інструментів для залучення спільноти, для виправлення помилок і для здійснення внеску

Як може змінитися контент Вікісховища

Якщо цей план буде реалізовано, вже за два роки інфраструктура буде готова до перенесення частинами мільйонів медіафайлів з Вікісховища до структурованих даних, а вже через три роки ця міграція має завершуватися разом зі зміцненням цієї інфраструктури. Вже зараз досить значна частина зображень готова до міграції. Як зазначено у вступі, Магнус Манске, експерт зі структурування контенту Вікісховища і Вікіданих, припускає, що спільнота Вікісховища може одразу перенести від 16 до 19 мільйонів файлів у структурований формат Вікісховища, якщо вже буде відповідна інфраструктура і повноцінне, стандартизоване програмне забезпечення. Цим проектом ми забезпечуємо інфраструктуру, що дає змогу спільноті застосовувати порівняно просте програмне забезпечення — приклад симбіозу, що відбувається між Вікімедіа та волонтерами наших проектів.

Як швидко після цієї початкової міграції можна буде конвертувати решту файлів? Більшість викликів, що залишаться, будуть пов'язані з різними доступними для вирішення питаннями навколо функцій шаблонів/даних вже наявного контенту Вікісховища. «X-фактором» тут є можливість волонтерів та інструментів для ботів мігрувати матеріали. При міграції значного набору матеріалів з однієї структури даних (напівструктуровані, історичні дані Вікісховища, що зберігаються у форматі вікірозмітки) до іншої (структуровані дані на Вікісховищі), є довгий хвіст даних, які потрібно виправити, де протягом тривалого часового вікна значна частина контенту в межах одного файлу матиме суміш структурованих даних, які легко можна виправити та інтегрувати, і неструктурованих (або невиправлених) даних, що потребують виправлення за допомогою комбінації напівавтоматичних інструментів та людського втручання.

Перенесення файлів Вікісховища у формат структурованих даних може зайняти до п'яти або й десяти років. Ми не можемо вказати точніший строк, оскільки це залежить від реакції спільноти Вікісховища. Але ми налаштовані оптимістично. Кожного місяця понад 7 000 дописувачів Вікісховища здійснюють п'ять або більше редагувань на Вікісховищі, і кожного місяця понад 1 300 редакторів Вікісховища здійснюють 100 або більше редагувань на Вікісховищі. Як Вікісховищ, так і Вікідані мають приблизно по 7 000 активних редакторів. На Вікісховищі, у Вікіпедії чи в інших проектах Вікімедіа працюють пристрасні дописувачі. Ключем тут є розробка програмного забезпечення, інструментів, підтримки спільнот і стимулів для дописувачів, щоб вони брали участь у проекті структурування даних на Вікісховищі. Це — саме те, чим ми займаємось.

Коли інфраструктура вже буде готова, ми очікуємо, що спільнота Вікісховища зможе мігрувати певні типи даних, включно з «категоріями». Майже кожне зображення на Вікісховищі поміщене в категорії, що базуються на вмісті, які є найближчою відповідністю інтернет-тегів, що використовуються на Вікісховищі. Ця інформація вже готова до синхронізації з ідентифікаторами Вікіданих.

Понад 1.5 мільйона (з 4.2 мільйона) цих категорій вже синхронізовано з елементами Вікіданих, що робить їх першочерговими кандидатами на міграцію. Чимало цих категорій також мають підкатегорії, які можна систематично досліджувати за допомогою відповідних інструментів. Додаткові елементи даних майже в кожному файлі теж спокійно можна переносити:

  • Повідомлення про копірайт
  • Більшість полів про «творців роботи» (дещо з цього залежить від основної технічної структури, запланованої в разі отримання цього гранту)
  • Більшість полів про дату завантаження
  • Більшість полів про дату створення
  • Особи завантажувачів файлів (тут потрібні значні зміни технічної інфраструктури, заплановані в разі отримання цього гранту)

Підрозділи контенту Вікісховища, які зі значною ймовірністю можна мігрувати в систему структурованих даних, включають:

  • Понад 31 мільйон медіафайлів, що використовують якусь версію шаблону Information — вони містять базову інформацію, яку можна перенести в систему структурованих даних, але дещо з цього треба буде виправити з метою уніфікації всіх даних. Серед цих шаблонів є декілька типів даних, вже готових до міграції:
• З них понад 24 мільйони описів файлів із визначеною мовою (підписи), що закодовані коректним чином для правильної інтеграції в систему структурованих даних.
• Із цих зображень 6.2 мільйона файлів мають геокоординати розташування, що можуть дати точний опис розташування зображення, і які можна інтегрувати в систему структурованих даних.

Інші підрозділи Вікісховища, що містять повніші метадані опису, можуть мігрувати швидше при підтримці спільнот. І ці підрозділи будуть найбільш корисними частинами початкової міграції. До них належать*:

(*-Ці числа не позначають усі файли такого типу — лише ті, що містять дані найвищого стандарту.)

Майстер завантаження, міжпроектні завантаження, базова система завантаження, і пов'язані інструменти кампаній завантаження, що обслуговуються Фондом Вікімедіа, а також інструменти масового завантаження, що розробляються спільнотою волонтерів GLAM-Wiki (в першу чергу Patty Pan і GLAMPipe) потребуватимуть корекції, щоб бути сумісними із системою структурованих даних на Вікісховищі. Всі ці інструменти розроблені на основі припущення, що медіафайли повинні мати структуровані дані та описи, тож це лише питання налаштування шляхів даних через наші API/програмний каркас і розширення полів, доступних у формах завантаження.