Вікіпедія

Як боти пишуть Українську Вікіпедію і до чого тут гриби

15.06.2022

Бачите помилку в тексті — виділяйте фрагмент та тисніть Ctrl + Enter

Україномовна Вікіпедія станом на 2022 рік нараховує близько 1 млн 150 тисяч статей. Це досить добрий показник, 17 місце серед усіх вікіпедій. Проте нас обігнали не лише міжнародні мови, але й деякі мови невеликих народів. Спробуємо розібратися, яке насправді місце серед мов світу Вікіпедії ми посідаємо і що треба зробити для його зміцнення.

Хто у лідерах

Логічно припустити, що мовні розділи корелюються з кількістю мовців. Чим більше людей спілкуються мовою, тим більшою стає їхня Вікіпедія. Це правда лише частково. З першої десятки лідерів за кількістю мовців (оцінка Encarta – електронної мультимедійної енциклопедії від Microsoft) українську вікіпедію обганяють тільки 6:

Серед них є китайська Вікіпедія, яка попри найбільшу кількість мовців має порівняно невелику кількість статей. І це при тому, що цей сегмент об’єднує зусилля двох спільнот, оскільки одні й ті самі ієрогліфи передають слова мандаринської та кантонської мов. З 2005 року Вікіпедія у КНР заблокована, тому дописують туди переважно емігранти та мешканці незалежного Тайваню. 

 

Арабська мова у лідерах Вікіпедії представлена аж двома розділами – класичної арабської та її популярного діалекту – єгипетської арабської, що домінує в мас-медіа, шоубізнесі та кіно через засилля єгипетського медійного продукту.

Єгипетська арабська Вікіпедія

Що заважає зростанню

З десяти найпоширеніших мов українську не обігнала гінді з 200 000 000 носіїв, а також бенгалі, яка налічує 170 000 000 носіїв.  Тут логічним поясненням може бути скрутне матеріальне становище більшості мовців, коли у них немає достатньої освіти, технічних засобів для створення статей і вільного часу.

 

Також не спромоглася обігнати українську португальська мова, яка хоч і має 150 000 000 носіїв, але вони переважно живуть у колишніх колоніях в Бразилії, Африці та інших частинах світу. Бідність та розшарування населення у цих країнах не дає португальській вирватися вперед.

 

Причини диспропорції у розвитку Вікіпедій досліджував Мортен Раск з Орхуського університету. Він визначив пряму кореляцію добробуту та індексу людського розвитку (HDI) нації з кількістю створених статей. Українська мова за кількістю носіїв знаходиться всього на 28 місці світу, однак ми займаємо доволі високе 17 місце серед Вікіпедій.

 

Зі слов’янських мов нас обігнала лише російська та польська Вікіпедії, що розташувалися на 7 та 11 місцях відповідно. Іншим слов’янським мовам заважають розвиватися у Вікіпедії мала кількість мовців та розпорошення зусиль спільноти через політичні конфлікти.

 

Наприклад, у країнах колишньої Югославії, що раніше послуговувалися однією мовою, наразі існує 4 окремих Вікіпедії – сербохорватська, сербська, хорватська та боснійська. Білоруська Вікіпедія страждає від того, що білоруська мова не єдина державна у країні, а освіта та наука використовує російську. Ще одна причина полягає у тому, що Білоруська Вікіпедія розділена на два окремі розділи: з класичним (тарашкевиця) та офіційним (наркомівка) правописами. Українська спільнота теж могла б отримати такий конфлікт між скрипниківкою та радянським правописом, але нашим адміністраторам вдалося знайти компроміс. Білоруси ж не змогли домовитися про співпрацю. Можна навіть припустити, що тут мала місце російська диверсія для роздробленості зусиль білоруськомовної спільноти.

Боти та себуанізація

Окремо в списку лідерів за кількістю статей стоять дві мови з Філіппін. Себуанська з 6 125 886 статтями займає друге місце після Англійської. Це мова, якою розмовляють 27 млн людей і вона не є навіть державною у Філіппінах. На 11 місці перебуває Варайська Вікіпедія. Цією мовою розмовляють всього 3 млн людей. Успіх до себуано прийшов зі Швеції, де фізик і програміст Ларс Сверкер Юханссон у 2012 році почав свої експерименти з генерації статей за допомогою ботів. 

Фото Юхансона в статті Dailymail

 

У світі існують сотні баз наукових даних зі структурованою інформацією. Наприклад, база  Catalogue of Life містить записи про 2 млн видів живих організмів. А каталог астрономічних об’єктів SIMBAD містить інформацію про майже 4 млн зірок. Вони добре структуровані: наукові назви об’єкта, тип, класифікація, посилання на наукові праці, де про них згадують. Існують подібні бази про географічні об’єкти, населенні пункти та багато чого іншого. 

 

Шведський науковець Юханссон вирішив залити ці дані на Вікіпедію. Він написав програму Lsjbot, що забирала інформацію з бази, формувала з них короткі статті й публікувала. Після запуску бота Шведська Вікіпедія почала стрімко рости та вийшла на друге місце у світі, Сверкер Юханссон став, мабуть, найпродуктивнішим творцем статей за всю історію людства.

Приклад статті, згенерована ботом

 

Але у Шведській Вікіпедії були й інші адміністратори, що не вітали такі ініціативи енергійного програміста. З 2016 року в ході внутрішніх баталій спільнота почала методично вичищати дуже короткі статті про маловідомих рослин і тварин, розцінюючи їх як інформаційне сміття. Наразі Шведська Вікіпедія опустилася на 4-те місце, проте там ще досі велика кількість бото-статей. 

 

Зустрівши опір шведської вікіспільноти, Сверкер Юханссон не розгубився і паралельно почав працювати з мовою себуано, якою розмовляла його дружина філліпійка. Оскільки у цьому мовному розділі навіть зараз всього 6 адміністраторів, проти таких експериментів ніхто спротиву не чинив. Скоро Себуанська Вікіпедія матиме шанси обігнати англомовну, ставши найбільшою за кількістю статей у світі. Подібні Вікіпедії, на які залито понад 50% статей ботами, жартома називають ботопедії. А спроби неконтрольованих заливок називають – себуанізацією Вікіпедії. 

 

Читайте також: 299 мовних розділів, Kiev і пильні очі патрульних – як працює Вікіпедія

Українська Вікіпедія і гриби

В Українській Вікіпедії також працюють боти. Наприклад, надзвичайно продуктивний RarBot створив статті про міста Італії (8 000), муніципалітети Франції (36 000), села Польщі (40 000) та населені пункти США (40 000). 

 

Якщо до географічних ботозаливок вікіспільнота ставиться загалом позитивно, оскільки відомості навіть про невеликі населенні пункти потрібні в енциклопедії, то до заливок біологічних статей після експериментів Юханссона виступає різко критично. Для прикладу можна навести історію, яка тягнеться з 2016 року, коли українцями була започаткована програма Cercospora. Вона забирала дані з онлайн-бази грибів Mycobank і перетворювала їх у формат статей Вікіпедії. Планувалося залити близько 400 тис. статей. 

Українська бото-стаття

 

Свою назву програма отримала після тестового запуску, коли вона випадково згенерувала десяток статей про гриби з роду Cercospora, що є паразитом рослин. Першою проблемою цього проєкту було те, що частина записів бази не актуальна, тож програмі довелося навчатися розпізнавати їх. Другою – критика вікіспільноти щодо доцільності пів мільйона статей про маловідомі цвілі чи мікроскопічні гриби.

 

Авторам довелося виділити з бази лише важливі й актуальні записи про роди грибів, що зменшило амбіції до 20 тисяч. Щоб заливати лише “суспільно важливі гриби”, програма спочатку перевіряла, чи наявний такий рід в Англійській Вікіпедії як у найбільш авторитетній. Таким чином кількість звузили ще до 5 тисяч. Щоб не потрапити під звинувачення у ботозаливці, статті заливали вручну, силами спільноти. Навіть таке звуження теми до “суспільно важливих грибів” було сприйняте адміністраторами як злочин. В результаті палких дебатів з’явився компромісний “Проєкт Гриби”, й авторам програми Cercospora таки вдалося залити кілька тисяч статей замість запланованих пів мільйона.

Загалом вважається, що в Українській Вікіпедії близько 21% статей створені ботами. Найсуттєвішим аргументом проти таких заливок є те, що користувачі люблять створювати статті, а не редагувати ті, що вже існують.

 

Для десебуанізації Вікіпедії створені ботами статті необхідно покращувати. Як ми вже бачили з аналізу мовних розділів Вікіпедії, індекс людського розвитку, матеріальний добробут впливають на бажання носів мови створювати чи редагувати у свій вільний час статті про маловідомі гриби чи муніципалітети Франції. Проте є ще один важливий фактор – в Україні завжди існувало і зараз прискорюється бажання розвивати свою національну мову. Є приклади дуже невеликих освічених націй, що на такому бажанні будують свої великі розділи Вікіпедії. Наприклад, носіїв баскської мови всього 1 мільйон, а їхня Вікіпедія займає аж 34 місце у рейтингу. Тому якщо хочете допомогти українській мові укріпитися – візьміть кілька згенерованих ботами статей Вікіпедії та додайте туди хоча б дещицю нової інформації. Ваш вклад у спільну справу приноситиме користь ще багато років і допоможе наступним поколінням українців.

Посилання для десебуанізації

 

Читайте також: Жадан, Фреймут і Саша Грей – кого з авторів шукають в українській Вікіпедії