Як автопереклади у Вікіпедії шкодять вразливим мовам

Вікіпедія існує 340+ мовами, але якість розділів англійською чи німецькою і розділу, скажімо, мовою інуктитут дуже відрізняється.

Англомовна Вікіпедія традиційно найбільша і найкраща. Україномовна відстає від англійської у більшості тем, але загалом є в топ-20 мов за багатьма різними показниками.

Більші проблеми починаються десь на другій чи третій сотні мовних розділів. П’ять років тому був великий скандал із шотландською Вікіпедією — виявилося, що значну частину статей написав американський підліток, який не знає шотландської мови.

Шотландську Вікіпедію підчистили, але проблема, хоч і не в таких масштабах, залишається і в деяких інших мовних розділах. Про це — велика нова стаття MIT Technology Review.

Заголовок чіткий і промовистий: «як ШІ та Вікіпедія загнали вразливі мови у замкнене коло занепаду» (“how AI and Wikipedia have sent vulnerable languages into a doom spiral”).

Суть цієї doom spiral: у невеликому мовному розділі на кшталт гренландської Вікіпедії велика частина статей створюється з допомогою автоперекладу поганої якості людьми, які не є впевненими носіями мови => ШІ-моделі згодом тренуються на цьому наборі даних (бо Вікіпедія ж є важливим джерелом для тренування великих мовних моделей) => як наслідок корпус доступних текстів цією мовою стає ще гіршим.

У повній статті на чотири тисячі слів значно більше прикладів і деталей.

Для нас, української вікіспільноти, це теж актуальна загроза, хоча поки більш теоретична.

Українській мові така doom spiral, звичайно, не загрожує, але ми також намагаємося розвивати кримськотатарську Вікіпедію, і там все складніше. Є багато людей, щиро зацікавлених у розвитку кримськотатарської Вікіпедії, але далеко не всі з них гарно знають мову. Ми намагаємося залучати носіїв мови до створення і вичитки статей, і деколи це вдається, але все ще сушимо голову над тим, як налаштувати постійну системну роботу.

Тому якщо ви знаєте носіїв кримськотатарської мови, які хотіли б покращувати кримськотатарську Вікіпедію, а заодно і якість майбутніх текстів кримськотатарською — перешліть їм цей допис. Якщо знаєте меценатів, готових системно підтримувати цю роботу — також.

Опубліковано у Вікіпедійне, Особиста думка | Теґи: . | Додати в закладки: постійне посилання на публікацію.

Залишити коментар