Hudba na Matfyzu? I to je možné

Hudba na Matfyzu? I to je možné

Informatika / rozhovor

„Chtěl jsem ulehčit život dechařům,“ říká Šimon Libřický, student zapojený do Prague Music Computing Group, který spojil hudbu s informatikou a vytvořil model obtížnosti partitury pro saxofon. Jeho bakalářská práce, která se zabývá dosud neřešeným problémem, zaujala nejen na Matfyzu, ale také v zahraničí. Šimon díky ní získal pozvání na prestižní mezinárodní konferenci ISMIR 2025.

Mohl byste nám představit svou práci?

Hudebníkovi, který vybírá, jakou skladbu bude zrovna cvičit, by se hodilo vědět, jak lehká či těžká daná skladba je. Možná ještě užitečnější by bylo mít také zvýrazněné pasáže hudby, na které si je potřeba dát největší pozor. Pro samouky by se hodilo toto dělat automaticky. Pro klavír, housle a kytaru už takové systémy na odhad obtížnosti existují, ale pro dechové nástroje ne.

Za tímto účelem jsem vyrobil model na anotaci skladeb pro tenorový saxofon podle obtížnosti, který nám umožní udělat vizualizaci, jako je na obrázku (textovou anotaci model negeneruje, slouží jen jako vysvětlení pro ne-saxofonisty, proč je to zrovna těžké).

Model pracuje na principu hledání optimální cesty v grafu, kde váhy hran jsou určeny podle maximální rychlosti trylku mezi dvěma prstoklady. Většina práce spočívala právě v odhadování maximálních rychlostí, což nejde bez dat, a proto jsem je musel nahrávat.

Hodně jsem se soustředil na to, aby metodologie a modelová architektura byly snadno přenositelné na jiné dechové nástroje. Modely pro podobné nástroje by se na základě mých poznatků daly vytvořit za výrazně kratší dobu a s výrazně menším úsilím.

Co vás k tématu přivedlo?

Od malička hraju na klarinet a saxofon a skládám hudbu, tak je mi toto téma blízké. Taky se hodí, že model můžu při psaní saxofonových partů sám přímo aplikovat jako automatický „systém varování před možnými chybami“. Na Matfyzu nedávno vznikla výzkumná skupina Prague Music Computing Group, kterou vede MgA. Jan Hajič, PhD. Na přednáškách této skupiny o hudební informatice a digitální muzikologii mi došlo, jak jsou dechové nástroje v celém tomto výzkumném odvětví zanedbané. To mi přišlo jako strašná škoda, tak jsem chtěl napsat práci, která pomocí hudební informatiky ulehčí život i dechařům.

Co je podle vás největším přínosem této práce?

Hlavním přínosem je samotný model, který má i implementaci jako plugin pro Musescore 3.6 (hudební notační software), takže s ním lidé mohou pracovat i v reálných workflows, a ne jen v rámci technického dema.

Ale vedlejších přínosů je mnoho. V rámci tvorby modelu jsem vyrobil úplně nový korpus nahrávek trylků na saxofon, který pak byl použit jako data pro daný model. Byla vytvořena „pipeline“ pro automatické zpracování těchto nahrávek. Analýza nahraných trylků ukázala zajímavé jevy, co se týče rozptylů mezi podobně zkušenými hráči. Také jsme zjistili, jak se dá výkonnost modelu zlepšit zapracováním pedagogických znalostí ze saxofonové literatury.

Důležité bylo ukázat, že i dechové nástroje se dají studovat podobně jako třeba klavír nebo kytara a že se dá udělat docela dost i v situacích, kdy není k dispozici velký počet existujících datasetů.

S jakými technologiemi jste pracoval a jaké metody jste využíval?

Na všechno jsem používal Python, kvůli dostupnosti knihoven na strojové učení (sklearn). Na analýzu frekvencí v audio nahrávkách jsem použil CREPE, což je nejmodernější knihovna na tzv. „fundamental frequency prediction”. Pro převod z analýzy frekvencí do hudební domény jsem využíval librosu, jednu z nejkompletnějších knihoven pro analýzu hudby a audia.

Pro doplňování nenahraných trylků jsem natrénoval relativně malý a jednoduchý multilayer perceptron model. Model na doplňování byl potřeba, jelikož jsem chtěl ukázat, že není potřeba nahrát úplně všechny možné trylky, abychom měli použitelný model. Pracoval jsem navíc s extrémně malým objemem dat, takže složitější modely by nepomohly. Také jsem chtěl ukázat, že s pomocí pedagogických poznatků si vystačíme s menším množstvím dat, což se podařilo.

Co považujete za nejdůležitější výsledek své práce?

Myslím si, že kromě konečného modelu jsou nejdůležitějším příspěvkem do odborné literatury poznatky z nahraných dat, konkrétně závěry, kolik dat je doopravdy potřeba nahrát pro výrobu úspěšného modelu, a že normalizace mezi různými hráči není triviální záležitostí (kvůli chování rozptylu v datech). Tyto poznatky mohou ušetřit spoustu času a úsilí pro ty, kdo chtějí nasbírat vlastní data k podobnému účelu či natrénovat podobný model.

Co bylo během psaní práce nejtěžší? Je něco, co byste zpětně udělal jinak?

Časově nejnáročnější určitě byla akvizice dat. Nahrával jsem s několika saxofonisty/kami z konzervatoří a najít pro to vhodné místo a čas bylo docela obtížné (děkuju moc personálu správy budov, že mi s tím pomohli).

Kdybych měl začít svou práci znovu, tak bych asi od začátku věnoval více pozornosti modularitě kódu. Jak jsem vymýšlel nové pokusy, tak jsem se stále musel vracet a refaktorovat starý kód, aby byl rozšiřitelný.

Jakým způsobem jste ověřoval výsledky své práce?

Jelikož pro saxofon neexistují tzv. „ground truth” datasety obtížnosti, nebylo možné udělat rozsáhlejší evaluaci celého modelu. Vymyslet způsob, jak tato data získat a nahrát, by vyšlo na další samostatnou bakalářskou práci, jelikož by to vyžadovalo se co nejlépe poprat s vrozenou subjektivitou obtížnosti. Přesto však model odpovídá mému vlastnímu pochopení obtížnosti, aspoň co se týká relativních obtížností mezi frázemi.

Evaluace již zmíněné neuronové sítě na doplňování obtížností nenahraných trylků proběhla pomocí standardní křížové validace na nahraných datech. Vždy jsem si „odložil” část nahrávek, na zbylých natrénoval odhadovací síť, a pak změřil přesnost jejích odhadů na té odložené části. Dostal jsem se docela blízko naší teoretické baseline hodnoty, která byla odvozena od úrovně rozptylu v nahraných datech (byť prostor pro zlepšení ještě je).

Máte pocit, že vaše práce může být inspirací pro další studenty nebo odborníky v dané oblasti?

Myslím si, že ano. Na Matfyzu působí spousta muzikantů a je velká škoda, že se více studentů nesnaží tyto dvě části svého života nějak propojit. Já jsem si tuto práci vymyslel sám, protože jsem chtěl dělat něco, co by pro mě bylo užitečné. A tak moje rada pro ty, kteří hledají vedoucího na bakalářskou práci, by byla, aby se nebáli přijít s vlastním nápadem. Vedoucí to určitě ocení a vás zase práce bude daleko více bavit.

Bakalářku jsem s doktorem Hajičem zpracoval do článku, který se dostal na konferenci ISMIR 2025 (International Society for Music Information Retrieval), což je nejprestižnější konference v oboru hudební informatiky (music information retrieval; MIR). Věřím, že i tam budeme moct inspirovat lidi, aby se věnovali dechovým nástrojům.

Jaké jsou vaše plány do budoucna?

Své studium na Matfyzu teď (aspoň na pár let) ukončím a pojedu do Nizozemí studovat bakalářský program jazzové skladby. I přesto se budu snažit dál vymýšlet nové projekty, abych mohl pokračovat v informatice. Obor MIR a digitální muzikologie roste, hlavně díky přístupu k většímu množství nových dat, a já bych se v něm rád dál rozvíjel. Také se plánuju stále angažovat v rámci Prague Music Computing Group – jen málo univerzit na světě má takto rozvinutou skupinu na výzkum průniku informatiky a hudby.


Odkazy:

Repozitář UK
Musician at Matfyz, computer scientist with a saxophone

Další články k tématu