Simultánně překládá do více než 40 jazyků současně. Systém ELITR českých vědců se nadále zlepšuje a učí nové věci

18. květen 2023

Jeden řečník, 5 tlumočníků a automatický překlad mluvené řeči do více než 40 jazyků. To dokáže systém ELITR, evropský on-line překladatel, u jehož zrodu stáli odborníci z Matematicko-fyzikální fakulty Univerzity Karlovy. Je určený pro konference a každé slovo pronesené řečníkem musí během několika milisekund proběhnout skoro celou Evropou, aby si je lidé mohli ve své řeči vzápětí přečíst na mobilu.

„Teď se díváme na výstup našeho systému. Jakékoli slovo řeknu, objeví se v prvním sloupečku s češtinou, a to velmi rychle. Z češtiny to překládá z angličtiny,“ ukazuje mi Ondřej Bojar z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy

„Vedle toho je tabulka, kde si může uživatel vybrat kterýkoli z těch dalších celkem 42 jazyků a začnou s tam objevovat i ty překlady v různých jazycích,“ pokračuje Ondřej Bojar. 

Je možné různě přepínat. Dominik Macháček to nastavil, a když přepnete na čtvereček KK, jaký to je jazyk?

„To je myslím kazachština, vidíme tam něco v azbuce,“ odpovídá Dominik Macháček. 

Ze čtverečku do čtverečku

Když se různě překlikávají čtverečky, zvyšuje se také počet jazyků, tedy ten simultánní překlad, vidíme tady latinku, azbuku, hebrejštinu, arabské písmo. Kolik jim může být najednou?

„Včetně angličtiny 43. A to, že se tady díváme jen na šest a už vidíme, že se to roluje příliš rychle, protože ty sloupečky jsou příliš úzké, tak to je prostě nedostatečností naší obrazovky. Kdyby ta obrazovka byla široká metr a půl, tak se tam vejdeme se všemi,“ říká Ondřej Bojar. 

Ondřej Bojar s doktorandem Dominikem Macháčkem

Evropský živý překladatel ELITR vznikl na základě požadavku Nejvyššího kontrolního úřadu, který chystal velký mezinárodní kongres.

„Sestavili jsme plán, jak během tříletého projektu připravíme systémy tak, aby dokázaly sledovat živé slovo hlavního řečníka, a jako zálohu také současné přítomné simultánní tlumočníky, a z těchto více zdrojů budeme živě zobrazovat překlad toho mluveného slova,“ prozrazuje Bojar. 

Velký objem překladu současně

Český tým v čele s Ondřejem Bojarem se proto spojil se zahraničními kolegy a vytvořil systém, který s využitím obrovské slovní zásoby jednotlivých jazyků pro strojové učení vytváří desítky překladů najednou.

Čtěte také

„Vevnitř to funguje tak, že jeden natrénovaný model máme připravený, aby vyráběl výstup ve všech jazycích najednou. Dáme mu tu samou větu 42 krát a řekne se mu, tuto anglickou větu přelož do češtiny, do ázerbájdžánštiny, do bulharštiny. A protože grafická karta je zvyklá pracovat paralelně, tak do všech těchto jazyků přijde odpověď najednou," vysvětluje Ondřej Bojar. 

Během několika milisekund slovo vyřčené v České republice projde celkem devíti systémy, a to i ve Skotsku, Itálii a Německu.

„To se dělo v reálném čase, čili když jedno slovo bylo dořečeno, v tu chvíli se objevilo na obrazovce, a to celé stihlo proběhnout Evropu,“ dodává Ondřej Bojar.

Elitr se bude učit dál

Pro tlumočení na konferencích je důležité, aby se on-line překlad vytvářel průběžně po slovech, a nikoli ve větách.

Do budoucna by měl systém dělat z přednášky relevantní poznámky ve všech jazycích. Dominik Macháček teď pracuje na zkvalitnění výsledného předkladu, a to díky kombinaci slov řečníka a tlumočníků.

„Například české slovo zámek může zámek budovu a věc na zamykání, a když zároveň k tomu dostaneme anglickou větu, tak víme, která věc to je a to už se může líp přeložit do dalšího jazyka,“ ví Dominik Macháček. 

Vzhledem k hardwarové náročnosti překladatelský systém ELITR zatím nebude mobilní aplikací.

autoři: Eva Kézrová , aka
Spustit audio

Související