Autor RUR bude mít po druhém kole volby prezidenta hodně práce. Robotická žurnalistika je přesná a rychlá, má také svá „ale“

28. leden 2023

Do 14. hodiny můžeme volit budoucího českého prezidenta. Až následně budeme číst, anebo poslouchat novinky o sčítání hlasů napříč republikou, budou některé z nich pocházet od robota. Česká tisková kancelář, od které média často zprávy přebírají, totiž opět použije systém automaticky generovaného textu.

Jan Kodera, technický ředitel veřejnoprávní České tiskové kanceláře, mi na počítači v redakčním systému ukazuje jednu ze zpráv po prvním kole prezidentských voleb, kterou nenapsal člověk. Zkratka autora je RUR, což symbolicky odkazuje na systém automaticky generovaného textu.

„Obsahuje vlastní text, který vznikl na základě šablony s doplněním konkrétních údajů, které se načetly,“ popisuje Jan Kodera.

Ukázka kódu šablon

RUR bude mít dost práce

Údaje pocházejí z dat Českého statistického úřadu. Systém si je bere a jen doplňuje do předem hotových článků. Díky tomu tak může vytvořit třeba průběžné zprávy o sčítání hlasů ve všech krajích.

„Okamžiky můžou být definované buď podle toho, jaký objem je zrovna zpracován, anebo zda z těch zpráv dokážeme predikovat nějaký výsledek, případně připravit odhad. Poté se spouští generování. Zpráva potom putuje do redakční fronty, zkontroluje ji editor a vydáme ji,“ pokračuje Jan Kodera z ČTK.

Čtěte také

Zcela jistě tak RUR bude během soboty po volbách nejaktivnějším autorem.

Přesný a rychlý, jen ta čeština

Automatické generování textů je přesné, protože není možnost chyby při ručním opisování čísel, a hlavně rychlé.

„Nyní vydáváme zprávu každou sekundu, a kdybychom měli větší republiku, není problém vytvářet desítky zpráv za sekundu,“ vysvětluje Jiří Hana, spoluzakladatel softwarové firmy Geneea, která se na systému podílí.

Vše vychází ze starších článků z předchozích voleb: „U nás to analyzujeme a šablony se vytvoří automaticky. A pak je můžete upravovat,“ dodává Jiří Hana.

Jak doplňuje zdejší odbornice na automatické zpracování jazyka Lucie Burešová, největším oříškem byly při programování záludnosti související s češtinou.

„Třeba skloňování, časování a shoda podmětu s přísudkem. V rámci prezidentské volby jsme věděli, že většina kandidátů jsou muži, ale byla mezi nimi i žena, a neznámá pro nás byla, na kterém místě se umístí. Museli jsme proto být připraveni na všechny varianty,“ přibližuje Lucie Burešová.

Je to mnohem lepší

Zahraniční agentury podobné systémy využívají déle než ČTK. Ta automatické generování poprvé použila před volbami na podzim 2018. Technický ředitel Jan Kodera, který je v Česku průkopníkem této robotické žurnalistiky, dodává, že od té doby je lepší právě jazyková stránka.

„Zprávy byly formulovány, aby pokud možno byl všude první pád, jazykové tvary v nějakém omezeném rozsahu. Od té doby se to velmi vyvinulo, zprávy mohou být daleko bohatší, texty jsou rozšířenější oproti těm prvním verzím, což je asi největší pokrok,“ vnímá Jan Kodera.

Robotická žurnalistika může najít uplatnění třeba i při burzovním zpravodajství nebo dalších odvětvích.

V Česku se výzkumu robotické žurnalistiky věnuje například novinář a odborný asistent na Katedře žurnalistiky Fakulty sociálních věd Univerzity Karlovy Václav Moravec.

Ve velkých tiskových agenturách ve Velké Británii a USA je žurnalistika automatizovaná; algoritmy generují texty a jsou doplňkem k lidské práci.

Umělá inteligence potřebuje mít k dispozici velké datové soubory, v tom je české prostředí v nevýhodě. Katedra žurnalistiky má k využití 6 milionů článku z iRozhlasu, ale i to je málo, to je důvod, proč v ČR v této oblasti zaostáváme. 

Výhodami robotické žurnalistiky jsou rychlost a přesnost, ale ta není stoprocentní, i v ČTK automaticky generované zprávy kontroluje editor. Pokud algoritmus vybere chybný soubor, může vytvořit chybnou zprávu.

Možná vznikne nová pracovní pozice: editor pro automatizovanou žurnalistiku. Budou to lidé, kteří budou intervědní, budou mít vzdělání v počítačových vědách a zároveň v žurnalistice. Ukazuje se totiž, že kontrola lidské síly je stále důležitá.

autoři: Ondřej Vaňura , aka
Spustit audio

Související