Hledají nové principy, objevují nečekané souvislosti, propojují teoretické poznatky s praxí a posouvají hranice lidského poznání. Řeč je o mladých vědkyních z Informatické sekce Matfyzu, které svými příběhy boří mýty o tom, že informatika není pro holky. Seznamte se s několika z nich prostřednictvím našeho seriálu. V dalším díle nás do svého badatelského světa, do oblasti výpočetní lingvistiky, zavede Jana Straková.

Výzkumný svět: | Nástroje pro zpracování přirozeného jazyka |
---|---|
Největší úspěch: | Naše nástroje se používají v praxi |
Profesní vzor: | Nemám |
Vědecký zlozvyk: | Zaberu se do práce a vůbec nejím, nepiju a nespím |
Oblíbený citát: | Nemám |
Co dělám, když nedělám vědu: | Zvedám činky, luštím únikovky a šifry, hraju laser game |
Kdybych nebyla vědkyní, byla bych: | Novinářka, spisovatelka nebo editorka |
Co vás přivedlo k informatice a co vás na ní nejvíc baví?
Odmala jsem ráda luštila hádanky a řešila zapeklité úlohy. Na gymnáziu jsem se přihlásila na Korespondenční seminář z programování, který organizují studenti Matfyzu. Bavilo mě řešit těžké úkoly a programování byl prostředek, jak řešení implementovat, tak jsem se ho naučila. Navíc díky semináři jsem poznala lidi z Matfyzu, takže když jsem si potom vybírala vysokou školu, nebylo dlouho co rozmýšlet.
Proč jste se rozhodla pro vědeckou dráhu v tomto oboru?
Bylo rozhodnuto, když jsem na konci magisterského studia zjistila, že existuje obor výpočetní lingvistika, který kombinuje moje dvě velké lásky: řešení problémů a jejich implementaci a práci s přirozeným jazykem. Uvědomila jsem si, že je to dokonalé spojení pro obě moje zdánlivě vzdálená zaměření.
Na jakém výzkumu nebo projektu aktuálně pracujete? Jaké jsou hlavní výzvy ve vašem oboru?
Neustále se snažíme naše nástroje posouvat dál, tak aby poskytovaly ty nejlepší výsledky na hranici současného poznání i ve srovnání se světovými nástroji. Například nedávno jsme představili nástroj NameTag na rozpoznávání pojmenovaných entit (vlastních jmen), který má světově nejlepší čísla na 21 datasetech v 15 jazycích. Můžete se podívat na propagační video, které jsme k němu vydali, anebo si rovnou vyzkoušet, jestli NameTag dokáže najít vlastní jména i ve vašem textu.
A výzvy v našem oboru? Těch je spousta... Obecně všichni, a netýká se to jen našeho oboru, vidíme rozmach generativní AI. Každý má na to nějaký názor, každý se snaží udržet v obraze a možná si i uloupnout kousek toho úspěchu. Před 10 lety nebyl náš obor tak viditelný, teď se o něm všude mluví a píše, což přináší výhody i nevýhody.
Propagační video k nástroji NameTag
Jaké metody, nástroje a data ve svém výzkumu nejčastěji využíváte?
Bez debaty jsou to hluboké neuronové sítě (hluboké učení). Bez nich bychom se v našem oboru vůbec nemohli udržet na špici.
Jaký máte názor na využití umělé inteligence ve vědeckém výzkumu?
Myslím si, že v některých ohledech je umělá inteligence stále nedoceněná, zatímco v jiných se přeceňuje a jde spíš o marketingovou bublinu. Generativní AI jako ChatGPT je skvělý jazykový nástroj, jeden z nejlepších a nejzajímavějších, co jsme jako lidstvo vymysleli. Ale je třeba mít na paměti, že tento nástroj nebyl trénovaný na pravdivostní hodnotu, s tou vůbec nepracuje, jenom krásně sestavuje řeč. Vlastně si vymýšlí pořád, ale někdy je to zároveň i pravda. Takový nástroj se dá s úspěchem používat na generování nápadů a přepisování textu, ale konečný úsudek, jakož i zodpovědnost musí být na člověku, který tomu rozumí.
Spolupracujete na výzkumu s vědci z jiných institucí nebo s průmyslem?
Spolupracujeme se Seznam.cz. U komerčních projektů řešíme zase jiné požadavky, nástroje a zvolená řešení musejí být opravdu velmi efektivní.
Jaký dopad může mít váš výzkum na společnost nebo technologie? Jak by vypadal ideální scénář, ve kterém by vaše práce měla největší dopad?
V ideálním případě by naše nástroje vykonávaly za člověka tu část práce, která je stereotypní či příliš objemná na to, aby se dala zpracovávat manuálně (anebo by tuto práci alespoň připravily a člověk by ji pak dokončil). V současnosti dokážeme například udělat větný rozbor, určit slovní druhy a mluvnické kategorie v 75 jazycích. Naše nástroje se tedy používají pro zpracování nebo alespoň předzpracování a indexaci v knihovnách, archivech, databázích článků a podobně.
Jak vidíte budoucnost vašeho výzkumného oboru v příštích 5–10 letech?
Výpočetní lingvistika právě zažívá prudký rozvoj, proto je opravdu těžké něco konkrétního předpovídat. Ale kdybych si měla tipnout, řekla bych, že navzdory naší snaze se i v příštích letech budeme potýkat s problémem halucinující AI. Domnívám se, že bez změny architektury tento inherentní problém nepůjde odstranit, ale budu se velmi těšit na další vývoj a ráda se nechám překvapit.
Vědecká profese je náročná a nezřídka vědkyním a vědcům zasahuje i do osobního života. Pociťujete, že by vás věda v běžném životě nějak limitovala?
Věda mi sice do osobního života zasahuje, ale nevnímám to jako omezení. Pořád mě to baví.
Co byste poradila těm, kteří o vědecké kariéře v informatice uvažují?
Pokud vás baví přemýšlet, běžte do toho! Informatika je zajímavý obor, který nabízí nepřeberné množství zaměření, od teoretických až po ryze praktické, takže si v něm každý najde to své.