Вікіпедія існує 340+ мовами, але якість розділів англійською чи німецькою і розділу, скажімо, мовою інуктитут дуже відрізняється.
Англомовна Вікіпедія традиційно найбільша і найкраща. Україномовна відстає від англійської у більшості тем, але загалом є в топ-20 мов за багатьма різними показниками.
Більші проблеми починаються десь на другій чи третій сотні мовних розділів. П’ять років тому був великий скандал із шотландською Вікіпедією — виявилося, що значну частину статей написав американський підліток, який не знає шотландської мови.
Шотландську Вікіпедію підчистили, але проблема, хоч і не в таких масштабах, залишається і в деяких інших мовних розділах. Про це — велика нова стаття MIT Technology Review.
Заголовок чіткий і промовистий: «як ШІ та Вікіпедія загнали вразливі мови у замкнене коло занепаду» (“how AI and Wikipedia have sent vulnerable languages into a doom spiral”).
Суть цієї doom spiral: у невеликому мовному розділі на кшталт гренландської Вікіпедії велика частина статей створюється з допомогою автоперекладу поганої якості людьми, які не є впевненими носіями мови => ШІ-моделі згодом тренуються на цьому наборі даних (бо Вікіпедія ж є важливим джерелом для тренування великих мовних моделей) => як наслідок корпус доступних текстів цією мовою стає ще гіршим.
У повній статті на чотири тисячі слів значно більше прикладів і деталей.
Для нас, української вікіспільноти, це теж актуальна загроза, хоча поки більш теоретична.
Українській мові така doom spiral, звичайно, не загрожує, але ми також намагаємося розвивати кримськотатарську Вікіпедію, і там все складніше. Є багато людей, щиро зацікавлених у розвитку кримськотатарської Вікіпедії, але далеко не всі з них гарно знають мову. Ми намагаємося залучати носіїв мови до створення і вичитки статей, і деколи це вдається, але все ще сушимо голову над тим, як налаштувати постійну системну роботу.
Тому якщо ви знаєте носіїв кримськотатарської мови, які хотіли б покращувати кримськотатарську Вікіпедію, а заодно і якість майбутніх текстів кримськотатарською — перешліть їм цей допис. Якщо знаєте меценатів, готових системно підтримувати цю роботу — також.