„Od začátku studia mě fascinovala umělá inteligence a její schopnost řešit složité problémy automatizovaným způsobem,“ říká Zuzana Vopálková, která na Matfyzu studuje softwarové a datové inženýrství. Mladá výzkumnice je členkou vědecké skupiny, která vyvíjí pokročilé vyhledávací systémy. V rámci svého studia se podílí na vylepšování nástroje PraK, který boduje na prestižních mezinárodních soutěžích a má i řadu praktických využití.

Mohla byste stručně představit svou práci?
Nástroj PraK je webová aplikace, která umožňuje efektivní vyhledávání v rozsáhlých video kolekcích a lifelog datech – tedy rozsáhlých záznamech o každodenních aktivitách uživatele. V praxi se jedná o fotografie a videa pořízená v pravidelných intervalech a doplněná o data z různých senzorů či o textové popisy.
Moje práce, a práce celého týmu, který na projektu pracuje, spočívá ve vývoji systému, který umožňuje kombinovat různé typy dotazů – například hledání pomocí textového popisu, vizuálních prvků, časových souvislostí nebo kombinace těchto přístupů.
Tradiční metody organizace dat spoléhají na ruční třídění do alb nebo složek, což je neefektivní a časově náročné. PraK naopak umožňuje uživateli pokládat dotazy přirozeným jazykem jako třeba „najdi všechny fotky, kde jsem měl červené tričko a byl jsem na horách“ nebo „zobraz mi snímky z oslav narozenin za posledních pět let“. Nástroj takto umožňuje uživatelům vracet se k důležitým momentům svého života nebo efektivně analyzovat své aktivity.
Co vás inspirovalo k tomu, abyste se zaměřila právě na toto téma?
Od začátku mého studia mě fascinovala umělá inteligence a její schopnost řešit složité problémy automatizovaným způsobem. Vyhledávání ve videu je však oblast, kde AI zatím nedokáže nahradit interakci s uživateli. Právě tahle kombinace mě nadchla – chtěla jsem se podílet na vývoji systému, který nebude jen „chladně vyhledávat“, ale bude skutečně pomáhat uživatelům najít to, co hledají, intuitivním způsobem. Tuto možnost jsem získala díky doc. Lokočovi, který se vývojem takových systémů zabývá.
Další velkou motivací pro mě byla účast na mezinárodních soutěžích, jelikož jsem soutěživý člověk, a když jsem viděla, že existují prestižní výzvy jako Video Browser Showdown nebo Lifelog Search Challenge, rozhodla jsem se, že chci vytvořit něco, co obstojí i v mezinárodní konkurenci. Práce na projektu PraK mi tak dala nejen možnost posunout své znalosti, ale zároveň soutěžit s nejlepšími týmy v této oblasti, což mě vždy motivovalo k dosažení co nejlepších výsledků.
Můžete vysvětlit, jaký konkrétní přínos nebo využití má vaše práce?
Rychlé a přesné vyhledávání v lifelog a video datech může sloužit k celé řadě účelů, a právě zde se ukazuje užitečnost PraKu. Nástroj se dá využít například pro osobní analýzu života a aktivit, kdy si uživatel snadno připomene, co dělal v určité dny, kde byl nebo třeba co jedl. Může sloužit pro historické a archivní účely, konkrétně pro zpětné dohledání událostí v určitém kontextu, nebo třeba pomáhat lidem s kognitivními poruchami, například pacientům s Alzheimerovou chorobou. Využijí ho však i bezpečnostní složky pro vyhledávání v rozsáhlých záznamech anebo lékaři pro analýzu chirurgických zákroků.
S jakými technologiemi jste pracovala a jaké metody jste využívala?
V rámci projektu jsem použila několik technologií, které nám pomohly dosáhnout efektivního a rychlého vyhledávání. Při programování backendové části jsem používala Python, protože poskytuje širokou škálu knihoven pro zpracování dat a strojové učení. Pro fronted nám sloužil JavaScript a Svelte, díky kterým jsme mohli vytvořit interaktivní uživatelské rozhraní. Dále jsme používali CLIP (Contrastive Language-Image Pretraining), což je model, který umožňuje propojení textových a vizuálních dotazů a výrazně zlepšuje přesnost vyhledávání, a taky Docker pro snadnou správu celého systému a jeho nasazení. Každá z těchto technologií přispěla ke zlepšení uživatelského zážitku a výkonu systému.
Co bylo během psaní vaší práce nejtěžší? Dostala jste se někdy do slepé uličky? Je něco, co byste zpětně udělala jinak?
Vývoj nástroje, jako je PraK, zahrnuje neustálé testování nových funkcionalit, což znamená, že se často experimentuje s různými přístupy, a ne všechny vedou k úspěchu. Každá nová metoda musí projít důkladným testováním, a pokud se neosvědčí, je nakonec zavržena, což může být časově velmi náročné. V mém případě to byl například experiment s vizuálními prompty pro neuronovou síť CLIP. Myšlenka byla, že bychom mohli vylepšit vyhledávání pomocí doplňkových vizuálních podnětů, které by neuronové síti pomohly lépe pochopit kontext vyhledávaného obsahu. Bohužel výsledky nebyly dostatečně přesvědčivé a ukázalo se, že současný přístup je stále efektivnější.
Obecně je největší výzvou vymýšlení nových funkcionalit, které by skutečně posunuly kvalitu vyhledávání na vyšší úroveň. Není snadné přijít s něčím, co přinese významné zlepšení, protože mnoho zřejmých možností už bylo vyzkoušeno. Naštěstí se na vývoji nyní podílí relativně velký tým lidí, takže společná diskuse a sdílení nápadů často vede k zajímavým inovacím.
Jakým způsobem jste ověřovala výsledky své práce?
Ověřování výsledků bylo jednou z klíčových fází projektu, protože vyhledávání ve video datech musí být nejen rychlé, ale především přesné a relevantní. Použili jsme proto několik metod testování, které nám umožnily posoudit, jak dobře systém PraK funguje v různých scénářích. Obecně šlo o kombinaci experimentálního testování a zpětné vazby od uživatelů. V průběhu projektu jsme navíc testovali různé nové metody vyhledávání mimo samotný nástroj a porovnávali jejich přesnost, rychlost a uživatelskou přívětivost. V následné fázi byl nejúspěšnější model z testování přidán do samotného nástroje.
Co považujete za nejdůležitější výsledek nebo závěr své práce?
Nejdůležitější je podle mě to, že se podařilo vyvinout funkční systém, který umí efektivně vyhledávat ve velkých kolekcích videí. V širším kontextu je největším úspěchem především skutečnost, že se nám podařilo vyvinout solidní základ, na kterém se může dále stavět. Projekt se stále vyvíjí a věřím, že jeho další verze přinesou lepší výsledky jak na mezinárodních soutěžích, tak i v praxi.
Máte pocit, že vaše práce může být inspirací pro další studenty nebo odborníky v dané oblasti?
Myslím, že určitě ano. Hlavně tím, že ukazuje, že umělá inteligence ještě zdaleka neumí vyřešit všechno a že je pořád potřeba kombinovat chytré algoritmy s uživatelským vstupem. Dnes se hodně řeší plně automatizované systémy, ale v některých případech je interakce s uživatelem klíčová, což je na PraKu viditelné.
Na projektu již v současné době pracují další studenti, a tak doufám, že náš nástroj bude i nadále úspěšný. Je skvělé být součástí něčeho, co se může dál rozvíjet a najít své uplatnění v budoucnosti i v praxi.
Jaké jsou vaše plány do budoucna?
Chtěla bych pokračovat v práci v této oblasti v rámci své magisterské práce, například zkoumáním nahraditelnosti jednotlivých funkcionalit nebo propojením s dalšími AI modely. Možnosti vyhledávání v multimediálních datech jsou stále otevřené a určitě je zde velký potenciál pro další inovace. Z tohoto důvodu bych se chtěla tomuto oboru věnovat i po dokončení studia.
Ukázka vyhledávání v kolekci Marine Video Kit
Další odkazy:
GitHub
VideoHunter
přiblížil středoškolákům umělou inteligenci
Vyhledávač z Matfyzu ulovil stříbro na soutěži VBS