Doporučovací systémy by neměly být černými skříňkami

Algoritmy streamovacích platforem, sociálních sítí i e-shopů zásadním způsobem určují, jaké informace denně konzumujeme. Proč by neměly zůstávat neprůhlednými „černými skříňkami“ a jak mohou uživatelé získat kontrolu nad obsahem, který se jim zobrazuje? V rozhovoru s Patrikem Dokoupilem, držitelem ocenění James Chen Best Student Paper Award udělovaného na konferenci ACM UMAP, se podíváme do zákulisí výzkumu moderních doporučovacích systémů. Přečtěte si, jak se od dětského opravování počítačů a vývoje her dostal k vrcholové vědě, jaké výzvy přináší zapojení umělé inteligence do recenzních řízení a proč je v akademické sféře klíčové nastavit si pevné hranice dříve, než vás pohltí blížící se uzávěrky konferencí.

Čím vás poprvé zaujala informatika a jaký současný technologický trend v tomto oboru vás momentálně nejvíce fascinuje?

O počítače se zajímám od pozdního dětství. Bude to asi klišé, ale moje prvotní motivace pramenila zčásti z počítačových her a zkoušení toho, jak sám opravit různé problémy na vlastním počítači.

O programování jsem se začal více zajímat pravděpodobně kolem 15 let a o něco později jsem začal brát vážněji práci s C++, včetně jednoduchého vývoje her pomocí knihovny SDL.

Jak jsem postupoval k pokročilejším tématům, jako je OpenGL, shadery a související matematické koncepty, uvědomil jsem si, že mi chybí hlubší teoretické základy. To byl moment, kdy jsem získal mnohem větší motivaci studovat matematiku i informatiku opravdu vážně.

Pokud jde o současné trendy, v posledních několika letech vidíme rostoucí vliv systémů založených na AI na náš každodenní život – od chatbotů postavených na velkých jazykových modelech, které zvyšují produktivitu, až po doporučovací algoritmy, jež formují to, jak denně konzumujeme informace. Sledovat tento vývoj je pro mě nesmírně fascinující, zejména s ohledem na to, jak tyto systémy dál porostou a jaké nové technické výzvy to přinese.

Mohl byste stručně představit svou práci?

Pracuji na doporučovacích systémech – to jsou algoritmy, které běží na pozadí platforem, jako jsou streamovací aplikace, zpravodajské weby nebo e-shopy. Vzhledem k tomu, že tyto systémy mají obrovský vliv na to, jaké informace a obsah lidé reálně vidí, je neuvěřitelně důležité nastavit je správně. Konkrétně se zaměřuji na vícekriteriální systémy (multi-objective systems). Místo optimalizace na jedinou metriku, jako je přesnost, zkoumám, jak vybalancovat protichůdné cíle, mezi které patří diverzita (rozmanitost), novost, férovost a objevování nového obsahu (exploration).

Významná část mého výzkumu se věnuje uživatelské kontrole. Nechci, aby tyto algoritmy byly černými skříňkami (black boxes). Zkoumám, jak dát uživatelům možnost aktivně si ladit své vlastní obsahové kanály (feeds) – například si zvolit, zda chtějí rozmanitější doporučení, nebo naopak ta vysoce relevantní. Ve výsledku jde o to, aby tyto systémy byly transparentní a skutečně odpovídaly očekáváním uživatelů.

Jak jste se začal zajímat o výzkum v oblasti doporučovacích systémů?

Můj zájem se probudil během práce na diplomové práci. Tehdy jsem měl možnost pracovat delší dobu na něčem, co bylo nové a technicky náročné. Zjistil jsem, že mě baví pracovat na problémech, které nemají jasné řešení, a trávit čas experimentováním.

Na konci magisterského studia jsem dostal příležitost publikovat výsledky své diplomové práce spolu s jejím dalším rozšířením a zúčastnit se své první konference, která je v našem oboru tou hlavní – ACM RecSys. To, že jsem tehdy viděl ostatní prezentace a mohl se do této komunity zapojit takto brzy, pro mě hrálo zásadní roli.

V neposlední řadě mě motivovala představa, že komunitě smysluplně přispěji; přišlo mi zajímavé něco vrátit poté, co jsem strávil roky studiem práce ostatních.

Na jakém konkrétním výzkumu nebo projektu momentálně pracujete? Jaká je největší technická nebo metodologická výzva, se kterou se potýkáte?

V současné době pracuji na algoritmech a metodách evaluace pro ovladatelné vícekriteriální doporučovací systémy.

Jednou z klíčových výzev, kterou řešíme, je škálovatelnost (scalability). Mnoho stávajících přístupů spoléhá na post-processing nebo techniky dodatečného přeuspořádání doporučení (re-ranking), které jsou při větších objemech dat výpočetně velmi náročné. Proto zkoumáme přístupy, jako jsou řídké autokodéry (sparse autoencoders) a jejich použitelnost pro kalibraci a vícekriteriální doporučování, s cílem zefektivnit tyto metody a přizpůsobit je pro reálné nasazení v praxi.

Ilustrace z aktuálního článku na konferenci ACM UMAP 2026

Jaké metody, nástroje a zdroje dat ve svém výzkumu nejčastěji využíváte?

Moje práce kombinuje několik doplňujících se přístupů. Zabývám se metodami strojového učení a přerovnávacími (re-ranking) algoritmy pro doporučování, uživatelskými studiemi pro vyhodnocování vnímání, spokojenosti a interakce a také statistickou analýzou pro rigorózní porovnávání různých přístupů.

Pokud jde o nástroje, pro zpracování dat a evaluaci obvykle používám ekosystém kolem Pythonu (NumPy, Pandas, Matplotlib/Seaborn) a pro vývoj modelů frameworky jako TensorFlow nebo PyTorch. Pro uživatelské studie jsme vyvinuli vlastní framework EasyStudy postavený na Flasku, SQLite a Redis, který nám umožňuje nasazovat a testovat doporučovací systémy v realistických experimentálních podmínkách.

Naše data pocházejí jak z veřejných datasetů (např. z oblasti filmů nebo produktů), tak z dat o uživatelských interakcích, která sbíráme prostřednictvím kontrolovaných experimentů (např. přes platformu Prolific).

Jak AI ovlivňuje vaši každodenní práci? V čem vidíte největší přínosy a naopak největší rizika spojená s AI ve vědeckém prostředí?

Začnu riziky, která jsou spojená především s nekvalitními recenzními posudky (peer reviews). Některé posudky, které jsem v poslední době viděl, mi přišly překvapivě povrchní nebo příliš obecné. To by mohlo negativně ovlivnit celý proces recenzního řízení a potenciálně s sebou nese i riziko úniku informací. Některé konference a vědecké platformy proto nedávno začaly takové využití AI buď zakazovat, nebo různým způsobem regulovat.

V podobném duchu, ale z jiného pohledu – pokud autory vybavíme nástroji AI, může se zvýšit počet příspěvků posílaných na jednotlivé konference. To by mohlo vést k nedostatku lidských recenzentů, kteří by byli schopni všechny příspěvky posoudit bez snížení kvality.

Pokud jde o výhody, oprava gramatiky a přeformulování textu jsou z pohledu člověka, který nepíše v rodném jazyce, rozhodně velmi užitečné. V dnešní době také tyto nástroje často používám namísto vyhledávače, alespoň v některých případech. Kromě toho mi pomáhají i při programování. Celkově AI mou práci rozhodně ovlivňuje tím, že zvyšuje mou produktivitu.

Spolupracujete na svém výzkumu s kolegy z jiných univerzit, výzkumných institucí nebo s partnery z praxe? Pokud ano, jak tato spolupráce vypadá?

Ano, nejvýznamnější je spolupráce s Dr. Ludovico Borattem z Univerzity v Cagliari v Itálii, se kterým spolupracujeme od přelomu let 2022/2023.

Spolupráce začala jako nápad na společný článek mezi mým školitelem Dr. Ladislavem Peškou a Dr. Borattem, protože jsme pracovali ve stejné oblasti vícekriteriálního doporučování. Od té doby se výrazně rozšířila a jejím výsledkem je již sedm společně publikovaných článků, přičemž na dalších se momentálně pracuje.

Vzhledem k tomu, že působíme na různých místech, spolupracujeme obvykle virtuálně. Pravidelně se scházíme, abychom diskutovali o nových nápadech, budoucích projektech a pokroku v rozdělané práci. Osobně se pak potkáváme na konferencích v našem oboru.

Kromě toho spolupracuji také s kolegy z Maastrichtské univerzity a Univerzity v Sarajevu.

Jaký by byl ideální scénář pro uplatnění výsledků vašeho výzkumu v reálném světě a jaké kroky by byly potřeba k tomu, aby se tak stalo? Jak byste nakonec měřil úspěch takové implementace?

V obecnější rovině prosazuji doporučovací systémy, které jsou nejen optimalizované, ale také interpretovatelné, ovladatelné a v souladu s očekáváním uživatelů.

V praxi by to mohlo znamenat systémy, kde uživatelé mohou přímo ovlivňovat chování doporučení, nebo systémy, které neoptimalizují pouze pro krátkodobý zájem (např. kliknutí), ale pro dlouhodobější spokojenost a důvěru.

Příspěvky svého výzkumu vnímám jako postupné kroky k tomuto cíli. Například námi představený algoritmus RLProp umožňuje přímou kontrolu nad podílem různých kritérií ve výstupech doporučení. Klíčovým dalším krokem je zlepšení škálovatelnosti a robustnosti, aby bylo možné tyto metody nasadit ve velkých průmyslových systémech.

Úspěch by se měl nakonec měřit nejen tradičními metrikami, ale také dlouhodobou spokojeností uživatelů, jejich důvěrou a tím, jak chování systému odpovídá jejich očekáváním.

Jaké technické znalosti (hard skills) a jaké interpersonální dovednosti (soft skills) budou podle vašeho názoru za pět let nejzásadnější pro mladé vědce v informatice?

Necítím se na to, abych na tuto otázku odpověděl obecně pro celou informatiku, takže se zaměřím na svůj obor. Pokud jde o tvrdé dovednosti, je to vždy velmi těžké předvídat, protože často vidíme posuny jak v technologiích (např. PyTorch vs. TensorFlow), tak v přístupech. Byli jsme svědky silného důrazu na doporučovací modely založené na hlubokém učení, pak přišel posun k mělkým nebo lineárním autokodérům, poté k LLM a nyní roste zájem o řídké autokodéry (sparse autoencoders).

Zatímco tyto trendy se mění často, věřím, že předzpracování dat, techniky evaluace (včetně statistické analýzy) a postupy pro replikovatelnost (reproducibility) zůstanou klíčové.

U měkkých dovedností bych vyzdvihl kritické myšlení (ochotu klást si otázku, zda současné přístupy stále dávají smysl, a zpochybňovat status quo, pokud tomu tak není) a prezentační dovednosti. Dělat dobrý výzkum je jedna věc, ale umět ho srozumitelně a poutavě odprezentovat je stejně důležité, ne-li důležitější.

Celkově je tento obor velmi dynamický, takže je těžké přesně předpovědět, co bude mít největší váhu. Možná se ke své odpovědi vrátím za pět let, abych se podíval, jak moc jsem se pletl.

Máte nějaké strategie pro udržení rovnováhy mezi pracovním a osobním životem (work-life balance)? A jak se díváte na flexibilitu práce a duševní zdraví v českém akademickém sektoru?

Pokud jde o flexibilitu na pracovišti a duševní zdraví, moje zkušenost je docela pozitivní. Lidé, se kterými jsem pracoval, byli obecně do svého výzkumu velmi zapálení.

Žádné zvlášť silné strategie pro udržování rovnováhy mezi prací a životem pravděpodobně nemám, protože mým hlavním „zlozvykem“ je tendence stíhat termíny (deadlines), zejména u konferencí a vědeckých časopisů. Pozitivní je, že pracujeme s velkou mírou autonomie a flexibility.

Úskalí spočívá v tom, že s autonomií přichází i zodpovědnost za to, jak s ní naložíme. Pokud je někdo vysoce motivovaný nebo ambiciózní, snadno na sebe vytvoří zbytečný tlak. Myslím, že je důležité to včas rozpoznat a nastavit si hranice, zejména v náročných obdobích, jako jsou uzávěrky konferencí. Z dlouhodobého hlediska je udržení udržitelného tempa stejně důležité jako krátkodobá produktivita.

Co byste poradil někomu, kdo má zájem o vědeckou kariéru v počítačových vědách? A jaké jsou nejčastější mýty o vědecké kariéře, které byste chtěl vyvrátit?

Parafrázoval bych doporučení, které jsem sám dostal na začátku: příliš brzy se nespecializujte. Když se na to dívám retrospektivně, myslím, že je extrémně těžké předpovědět, co bude v následujících X letech důležité, takže mít přiměřeně široké téma vám může pomoci v případě potřeby trochu zkorigovat směr. Také nečekejte na předem definovaná témata – přicházet s vlastními nápady je často ten nejlepší způsob, jak si udržet motivaci.

Častým mýtem, nebo alespoň mýtem, který jsem měl před nástupem na doktorát já, bylo, že výzkum je o samotářské práci na problémech a publikování pouze přelomových výsledků. V realitě jde o vysoce kolektivní činnost a nemusíte produkovat přelomové výsledky, abyste smysluplně přispěli. Velká část výzkumu je inkrementální (postupná), ale přesto hodnotná. V průběhu času mohou mít tyto dílčí příspěvky obrovský dopad.

Odkazy: https://www.mff.cuni.cz/cs/verejnost/aktuality/clanek-doktoranda-matfyzu-ocenen-na-mezinarodni-konferenci

Původní materiál Informatické sekce

Autor: Alena Chrastová

Doporučovací systémy by neměly být černými skříňkami

Patrik Dokoupil