Filip Jurčíček: Zajímá mě přirozenost komunikace pomocí hlasu

Filip Jurčíček vede na ÚFALu dialogovou skupinu, která se zabývá vývojem hlasových dialogových systémů. Odborné zkušenosti si přivezl z Cambridge, kde působil v rámci Dialogue Systems Group.

Můžete nám přiblížit, čím vším se ve skupině zabýváte?

Naším cílem je vývoj a testování základních algoritmů nutných pro vývoj takových systémů. To znamená umět rozpoznat, co člověk říká, tj. převést mluvenou řeč do textové podoby. A dále na tomto základě inteligentně a přirozeně reagovat, odpovědět uživateli na dotaz nebo se doptat pomocí nějaké zpřesňující otázky. Obtížnost práce na hlasových dialogových systémech spočívá v nutnosti kombinovat několik oblastí z oboru zpracování přirozeného jazyka a navíc se to vše musí realizovat velmi rychle, aby uživatel nepozoroval nepříjemné zpoždění v reakcích vyvíjených systémů.

Jaké zkušenosti jste si přivezl z pobytu na Cambridge, a co rozhodlo o vašem návratu do Čech?

Tak důvod návratu byl jednoduchý. Manželka chtěla dostudovat své Ph.D. Z Cambridge jsem si přivezl, jak se systematicky dělá dobrá věda. Pracoval jsem s excelentními lidmi / vědci, a to je asi ta nejlepší zkušenost. Samozřejmě jsem si přivezl i kontakty na jiné lidi. Již to, že jsem pracoval v Cambridge, otevírá mnoho dveří.

Praktickým výstupem je vaše aplikace Alex PTICS, která poskytuje informace o veřejné dopravě. Uživatelé mohou zavolat na bezplatné číslo, kde je robot, který mu poradí vhodný dopravní spoj. S jakými úmysly byla aplikace vytvořena a kolik uživatelů ji používá?

Abychom mohli studovat moderní metody řešení hlasových dialogových systémů, potřebujeme mít možnost tyto metody vyhodnocovat. Ideálním způsobem vyhodnocení je mít reálné nasazení technik, které u nás vyvíjíme. Po krátké úvaze a diskuzi se zástupci Sjednocené organizace nevidomých a slabozrakých ČR jsme se rozhodli zaměřit na aplikaci o veřejné dopravě. Nevidomí, zejména pokud již cestují, potřebují efektivní a přirozený způsob získávání aktuálních informací o veřejné dopravě. A právě hlasová komunikace s naším systémem jim to umožňuje. Mezi námi je přibližně 10 000 nevidomých nebo slabozrakých spoluobčanů a právě těm je tato aplikace určena. V současnosti obsluhujeme kolem 20 hovorů denně. Přesný počet uživatelů neznám, ale jde o stovky.

ALEX PTICS

Zdrojový kód frameworku Alex je volně dostupný na GitHubu. Máte informace, že ho již využívá někdo mimo fakultu?

Kód je uvolněn pod svobodnou licencí, zejména protože výzkum je placen z veřejných peněz. A já věřím, že takto ho můžeme poskytnout veřejnosti bez omezujících licenčních podmínek. Myslím, že některé jeho části někdo používá, ale jako celek ještě ne.

Pro koho je takový systém jako Alex určený?

Pro veřejnost, nadšence, nebo i pro firmy, co mají zájem vytvářet systémy umožňující komunikovat s uživateli pomocí hlasu. Pro nás slouží zejména jako experimentální platforma.

Čeho všeho je vaše platforma schopna?

Vcelku libovolné komunikace. Je stavěna modulárně a doménově nezávisle. Může být použita k informování o libovolných tématech.

Opravdu libovolných? Prosím uveďte nějaké příklady. Jaká jsou úskalí?

Zejména je vhodná pro vyhledávání. Například: co bude dnes v televizi, anebo informace o firmách apod. Určitě není vhodná pro volný nezávazný dialog. To dnes snad ještě neumí řešit nikdo.

Co platfromu Alex čeká do budoucna?

Zejména ji plánujeme rozšiřovat o nové algoritmy, což umožní vyvíjet flexibilnější a přirozenější dialogové systémy. Nyní se hodně soustředím na oblast otevřených domén, tj. že dialogový systém bude schopen konverzovat téměř o čemkoli.

Všechny hovory do vaší dopravní aplikace jsou nahrávány. Pracujete s nimi pouze strojově, anebo máte přístup i k obsahu?

Nahrané hovory jsou zpracovávány zejména strojově. Ale aby mohly být například použity ke zlepšení rozpoznávání, tak musí být poslechnuty a přepsány alespoň jedním z našich anotátorů. Samotný obsah dialogů je velmi poučný pro návrh dialogových systémů. Z těchto přepisů dialogů dokážeme vyčíst, proč náš systém neporozuměl uživateli, nebo proč se nechoval tak, jak by měl.

Kde všude se dnes využívají dialogové systémy?

Asi dnes nejznámější použití jsou aplikace Apple Siri nebo Google Now. Tyto aplikace patří do kategorie osobních asistentů. Dále jsou často použity v bankách k automatizaci kontaktních center, kde přispívají k významným úsporám.

Někdy může interakce s počítačem pomocí hlasu vytvářet i komické situace.

Ano. Slyšel jsem interakci uživatele s automatickým hlasovým systémem pro rezervaci schůzek technika pro opravu internetu. Systém se ptal uživatele, jestli chce schůzku dopoledne nebo odpoledne. Uživatel asi tak 10 x odpověděl „ne“ a potom rozzuřeně zavěsil. Tady došlo k jasnému nedorozumění, kdy uživatel nechtěl schůzku ani dopoledne ani odpoledne, ale systém to nepochopil.

Co vás tolik fascinuje na hlasové interakci člověka a počítače, že jste se tomu rozhodl věnovat tak naplno?

Pro mě je nejzajímavější přirozenost, jednoduchost a efektivita komunikace pomocí hlasu. A nejenom nevidomí z hlasové komunikace se stroji mohou těžit. Například jsem nedávno byl u lékaře s chřipkou, byl jsem nemocen a celkově unaven. Místo abych na zpáteční cestě od lékaře luštil jízdní řády, tak jsem si zavolal Alex PTICS a zeptal jsem se na nejlepší spojení.

Jaké jsou poslední úvahy/trendy uvažovaní ve vašem oboru dialogových systémů?

Jasným trendem je přechod od koncepce návrhu dialogového systému expertem vývojářem k systému učení se z dat, z interakce s koncovým uživatelem. Předpokládaná výhoda těchto systémů je automatická a kontinuální adaptace k změnám prostředí, ve kterém tyto systémy provozujeme, např. změna hlasu, změna v použití slov, změna ve způsobu vyjadřování. Anebo i to, že dojde k výluce na konkrétní trase tramvajového spojení.

Skýtají dialogové systémy také nějaké nebezpečí? Jaký je pro vás ten nejčernější scénář zneužití takové technologie?

Pro mě ne. Pro mě znamenají přirozené ovládání strojů. Nevýhoda hlasové komunikace je, že se dá snadno odposlouchávat.

Jak může být například vyřešeno, abych pouhým hlasem nemohl třeba v tramvaji začít ovládat něčí telefon, chytré brýle, hodinky a podobně?

Tady se může využít identifikace osoby podle hlasu. Telefon podle hlasu pozná, jestli na něho mluví jeho majitel. Dnes se ukazuje, že počítače v této úloze mohou být lepší než lidé.

Jak se vyvýjí jazyková sensitivita robota, když nemůže znát ironii, přirovnání, vtip?

Hmm, tohle moc nesleduji – přestože to je zajímavá oblast. Zatím máme dost práce s tím, aby nám to dělalo něco rozumného.

Máte papouška?

Ne. Kdysi jsem měl andulku.

Autor: LSD
Úvodní foto: Mgr. Ing. Filip Jurčíček, Ph.D. - (foto: Svoboda)