Від Вікіджерел до ГРАКу: як відкриті дані стають основою для мовознавчих досліджень

Вікіджерела є онлайн-бібліотекою, що надає доступ до багатьох українських видань, що перебувають у суспільному надбанні, у форматі цифрового тексту. Вони користуються широкою популярністю серед читачів та дослідників, але чи цікавились ви колись, як використовують дані Вікіджерел за межами проєкту?

Тож зустрічайте нашу нову статтю, де ми розповімо, як Вікіджерела використовують для мовознавчих досліджень!

З кожним роком дедалі більшої популярності набувають корпусні мовознавчі дослідження, що послуговуються власне корпусами для підтвердження даних.

Почнімо із того, а що ж власне таке корпус? Корпус є електронним масивом текстів, що має розмітку слів, у якому можна здійснювати пошук за певними параметрами. Розмітка може бути найрізноманітнішою. Зазвичай, це приналежність слова до певної частини мови, його граматичні та синтаксичні ознаки та ін. А можливості пошуку у корпусі обмежуються лише даними, що в нього додані. До прикладу, ми можемо віднайти усі речення в корпусі, коли перед словом «бібліотека» уживається прикметник, або ж усі іменники чоловічого роду. Також у корпусах зазвичай є зручні інструменти для підрахунку статистики певного запиту.

Графік порівняння кількості уживань слів «побідний» та «переможний» у корпусі ГРАК впродовж років.
© Maria GRAC, CC BY-SA 4.0

Аби створити корпус, потрібно мати тексти у цифровому вигляді, щоб їх можна було автоматично розмітити. І власне тут виникає проблема, адже значна частина друкованих видань доступна лише у вигляді відсканованих файлів, що містять лише зображення сторінок, а не сам текст. Звісно, ми можемо взяти сучасні тексти, які є в цифровому вигляді, але тоді наш корпус вийде незбалансованим і не міститиме багатьох особливостей мови, які існували навіть 20 чи 30 років тому, а то й давніших.

Часто укладачі корпусів беруть тексти з різних онлайн-бібліотек або ж самостійно займаються транскрибуванням старіших видань, але цей процес займає надто багато часу для проєктів, що мають обмежену команду. Важливим джерелом у цьому випадку й стають Вікіджерела, які мають налагоджені інструменти для спільного вичитування книг та перевірки кінцевого тексту.

У Вікіджерелах користувачі вже майже 20 років займаються додаванням текстів українською у суспільному надбанні. За цей час було опрацьовано понад 125 тисяч сторінок друкованого тексту, що становить дивовижний матеріал для дослідників. Багато текстів представляють різноманітні правописи української мови: скрипниківку, желехівку, максимовичівку та навіть деякі ранні правописи, що не набули значного поширення, окрім видань їхніх творців. Не кажучи вже про індивідуальні риси автора у текстах чи діалектні слова. Кожен із цих аспектів можна досліджувати за вікіджерельними текстами, а інколи текст присутній у кількох редакціях, що навіть дозволяє порівняти мовні зміни на прикладі одного й того ж твору, але виданого у різні роки.

Одним із корпусів, що вже використовує вікіджерельні тексти, є Генеральний регіонально анотований корпус української мови (ГРАК). Він був створений у 2017 році і з того часу отримав багато оновлень, остання з версій (ГРАК 19а) містить понад 800 тисяч текстів від трохи більше 35 тисяч авторів.

Поповнюється корпус із різноманітних джерел: від інтернет-бібліотек, які вже містять розпізнані тексти, до творів, підготовлених самими укладачами та різноманітними волонтерами, що долучалися до наповнення корпусу. Вони здійснили титанічну роботу із опрацювання тисяч видань, особливо періодичних, що часто залишаються поза увагою.

До корпусу також додані окремі видання із Вікіджерел. Проте додавання нових текстів потребує ручного оформлення метаданих для кожного твору, що суттєво сповільнює процес. Для вирішення цієї проблеми укладачі працюють над створенням інструменту, який автоматично підтягуватиме надходження з Вікіджерел до ГРАКу.

Так само і Вікіджерела можуть поповнитися текстами з ГРАКу. У 2024 році укладачі люб’язно опублікували для завантаження усі тексти (під назвою корпус «ПлуГ»), що були вперше опубліковані між 1816 та 1954 роками та створені авторами, твори яких більше не захищені авторським правом, і поступово їх також буде імпортовано до Вікіджерел, де вони стануть доступними для читання.

Від Вікіджерел до ГРАКу: як відкриті дані стають основою для мовознавчих досліджень

Залишити коментар Скасувати відповідь

Підписатися на блог

Facebook

Недавні записи

Мета

Архіви публікацій

Вікі любить Землю

Вікі любить пам’ятки

Блог Wikimedia Foundation

Від Вікіджерел до ГРАКу: як відкриті дані стають основою для мовознавчих досліджень

Оцінити це:

Поділитися:

Пов’язано

Залишити коментар Скасувати відповідь

Підписатися на блог

Facebook

Недавні записи

Мета

Архіви публікацій

Вікі любить Землю

Вікі любить пам’ятки

Блог Wikimedia Foundation