Reaguojant į šiuos iššūkius, Lietuvoje įgyvendinamas projektas „Didžiojo lietuvių kalbos garsyno sukūrimas (LIEPA-3)“. Garsyno pagrindu kuriamos inovacijos apima automatinį šnekos atpažinimą, subtitravimą, vertimo sprendimus ir prieinamumo įrankius žmonėms, turintiems specialiųjų poreikių ar negalią, kt. Jos leis atsirasti naujoms, patogesnėms ir lietuvių kalba veikiančioms skaitmeninėms paslaugoms.
Didžioji darbo dalis jau atlikta – šiuo metu surinkta apie 80 proc. visų planuojamų įrašų. Tačiau, pasak projekto LIEPA-3 vadovės, Vilniaus universiteto (VU) Matematikos ir informatikos fakulteto prof. dr. Gražinos Korvel, būtent dabar prasideda pats svarbiausias etapas – jau aiškiai matyti, kokių balsų trūksta, kad galutinis rezultatas būtų visapusiškas ir atspindėtų realią lietuvių kalbos įvairovę.
Garsyno kokybei užtikrinti itin svarbi demografinė balsų įvairovė: subalansuotas vyrų ir moterų santykis, visų amžiaus grupių: nuo jaunuolių iki vyresnių nei 75 metų žmonių, bei visų Lietuvos regionų atstovavimas. Prie garsyno kūrimo jau yra prisidėję daugiau nei 7 000 žmonių. Dėl natūralaus skaitmeninio aktyvumo jaunesnių žmonių ir moterų balsų jau surinkta daugiau, todėl dabar daugiau dėmesio skiriama toms grupėms, kurios garsyne dar nepakankamai atstovaujamos. Labiausiai trūksta 55 metų ir vyresnių žmonių balsų, ypač perkopusių 75 metų ribą. Projektu siekiama ne išskirti, o sukurti kuo reprezentatyvesnį lietuvių kalbos vaizdą, kad technologijos ateityje vienodai gerai suprastų skirtingo amžiaus ir skirtingų kalbėjimo manierų žmones.
Ne mažiau svarbus ir regioninis aspektas. Nors garsynas jau apima didelę Lietuvos dalį, šiuo metu dar trūksta balsų iš Šalčininkų, Vilniaus, Trakų ir Jurbarko r., Visagino miesto bei Pagėgių. Kiekviena vietovė turi savitą kalbos skambesį, intonacijas ir žodžių vartojimo niuansus. Jei šių balsų nebus užfiksuota dabar, ateityje technologijos jų paprasčiausiai „nepažinos“.
Lietuvių kalba skaitmeniniame pasaulyje – ties riba
Šio projekto svarbą patvirtina ir tarptautiniai tyrimai. Remiantis „Europos kalbų lygybės“ (angl. European Language Equality) ataskaita, lietuvių kalba skaitmeninėje erdvėje vis dar smarkiai atsilieka nuo geriausiai palaikomų pasaulio kalbų. Tyrime konstatuojama, kad tarp anglų ir lietuvių kalbų egzistuoja milžiniškas technologinis atotrūkis, net vadinamas „bedugne“.
Nors per pastarąjį dešimtmetį kalbos technologijos sparčiai pažengė į priekį, disbalansas tarp didžiųjų ir mažųjų kalbų išliko. Tyrėjai perspėja, kad šis atotrūkis turi būti mažinamas, siekiant išvengti skaitmeninės atskirties ir rizikos, kad lietuvių kalba technologijų pasaulyje bus prieinama vis rečiau.
VU Matematikos ir informatikos fakulteto Duomenų mokslo ir skaitmeninių technologijų instituto dėstytojas, projekto LIEPA-3 ekspertas Gediminas Navickas pabrėžia, kad dirbtinis intelektas gerai veikia ten, kur turi pakankamai duomenų. Jei kalba neturi skaitmeninių išteklių, technologijose ji paprasčiausiai nebus prieinama. Tokiu atveju žmonės pradeda bendrauti su sistemomis kita kalba ne todėl, kad taip nori, o todėl, kad ji veikia tiksliau ir patogiau.
Pasak Vytauto Didžiojo universiteto (VDU) Informatikos fakulteto prof. dr. Gailiaus Raškinio, projekto LIEPA-3 veiklų koordinatoriaus, pagrindinis projekto rezultatas – 10 tūkst. valandų apimties garsynas – turės dvejopą naudą. Viena vertus, jis leis reikšmingai pagerinti jau veikiančių lietuvių kalbos atpažinimo sprendimų tikslumą. Kita vertus, jis pašalins barjerus, kurie iki šiol trukdė kurti lietuviškai veikiančias technologijas net ir mažesnėms įmonėms ar startuoliams, sudarydamas sąlygas naudotis bendra išsamia anotuotų lietuvių kalbos balso įrašų duomenų baze.
Anot prof. dr. G. Raškinio, šiandien lietuvių kalba technologijų srityje prieinama palyginti mažai, todėl daugelis žmonių su dirbtinio intelekto sistemomis bendrauja angliškai. Garsynas suteiks trūkstamus duomenis, kurie padės technologijoms sklandžiau veikti lietuviškai ir leis lietuvių kalbai būti visavertei skaitmeninėje erdvėje.
Be praktinio pritaikymo, Didysis lietuvių kalbos garsynas turės ir didelę mokslinę vertę. Jis bus naudojamas kalbos, dirbtinio intelekto ir skaitmeninių technologijų tyrimuose, padės analizuoti, kaip lietuvių kalba vartojama skirtingų kartų ir regionų. Atviras garsynas suteiks galimybių tiek mokslo, tiek verslo atstovams kurti naujus sprendimus ir padės užtikrinti, kad lietuvių kalba išliktų gyvybinga ir plačiai prieinama kasdienėse technologijose bei kuriant inovacijas.
Dalyvauti labai paprasta – tereikia užsiregistruoti www.kurkgarsyna.lt ir garsiai skaityti savo kompiuterio ar išmaniojo telefono ekrane pateikiamas lietuviškas frazes. Nereikia specialios programinės įrangos ar mikrofono – užtenka to, kas integruota naudojamuose įrenginiuose. Balsą galima įrašyti namuose, pasirinktu tempu – nuo keliolikos minučių iki kelių valandų, įrašinėjant per kelis kartus. Įrašymą galima bet kada sustabdyti ir pratęsti vėliau.
Už dalyvavimą numatyta padėka – dovanų čekis iki 75 Eur, taip pat iki 25 Eur dovanų čekis už pakviestą ir prie projekto prisijungusį kitą asmenį. Net kelių minučių kiekvieno mūsų balso įrašas gali tapti svarbia dalimi užtikrinant, kad lietuvių kalba liktų gyva, moderni ir suprantama technologijų pasaulyje.
Projektas atveria daugiau galimybių skaitmeninimo plėtrai ir naujomis technologijomis pagrįstiems sprendimams ir pažangioms skaitmeninėms paslaugoms visuomenei. Projektą vykdo VU su partneriais – VDU ir Lietuvių kalbos institutu. Vykdomos veiklos finansuojamos Ekonomikos gaivinimo ir atsparumo didinimo plano „Naujos kartos Lietuva“ lėšomis.
UAB „Gooliver“ informacija
Edgaro KURAUSKO (VU) ir VDU nuotr.
Nr. 123