Z kroniky ZetWéŤáckých diplomek

Pro inspiraci novým zájemcům o diplomové práce, i jako hold těm, kteří nám svým zájmem o odborná témata KIZI v posledních letech dělali radost a čest. Zmiňujeme zde jak práce excelentní, tak i „jen“ nadprůměrné, ovšem něčím zajímavé.

Magisterský program KIZI (původně ještě jako „Znalostní technologie“, až posledních 5 let jako „Znalostní a webové technologie“), je v současnosti zhruba rovnoměrně rozkročený mezi dva hlavní tematické shluky: „datový“, zahrnující různé druhy analýz a zpracování dat (nejčastěji s charakterem data miningu), a „programátorský“, tj. vývoj webových aplikací. Zatímco zájem o programátorské diplomky výrazně roste spíše až v posledních letech, v historickém průřezu početně převládají práce „datového“ charakteru. Lze proto říci, že největší část již obhájených diplomek se snažila…

Automaticky vydolovat z rozsáhlých dat užitečné znalosti

Aplikační oblasti i používané metody mohou být velmi různorodé. Kupříkladu, Marek Hlinovský (2019) aplikoval neuronové sítě na predikci odchylek v přenosové síti elektrické energie. Anastasia Borokshinova (2019) se zabývala daty o kriminalitě v USA, na která aplikovala techniky dolování asociačních pravidel. Martin Štefke (2017) využil data miningové nástroje v kontextu praktických úloh business intelligence.

Proces hledání znalostí v datech můžeme automatizovat ještě víc než jen jako jednorázovou aplikaci učícího algoritmu. Jan Podavka (2017) automatizoval spouštění analýz (dat o dopravních nehodách) v data miningovém systému KIZI, LISp-Mineru, pomocí skriptů napsaných v deklarativním jazyce LMCL: jeden uživatelem spuštěný proces pak může zahrnovat celou řadu vzájemně navazujících analýz již aktivovaných automaticky.

Ne všechny zajímavé úlohy v oblasti data miningu ovšem jdou od dat k nalezeným znalostem, ale může to být i naopak. Třeba Ludmila Šejvlová (2017, práce oceněná v soutěži ESOP) experimentovala s generováním trénovacích dat pro cvičné úlohy, tak, aby se v nich známé hypotézy daly s předem odhadnutelným úsilím najít (tzv. reverse mining).

Některé data miningové úlohy jsou ovšem „znalostní a webové“ v tom smyslu, že analyzovaná data pocházejí z prostředí webu. Například Ján Puškár (2019, práce oceněná v soutěži ESOP) aplikoval shlukovou analýzu v rámci marketingové kampaně e-shopu, a podařilo se mu tak významně navýšit konverzní poměr. Václav Půlpán (2019) zase analyzoval, jaký má na konverzní poměr vliv aplikace technik optimalizace webu. Data mining lze uplatnit i nad daty ze sociálních sítí: např. Václav Hykl (2019) velmi zevrubně, pomocí dvou různých frameworků a řady metod (od logistické regrese přes neuronové sítě až k analýze sentimentu), analyzoval tweety týkající se známého výrobce letadel. Josef Kerner (2019) zase pomocí hluboké neuronové sítě trénoval chatboty simulující dialog s návštěvníkem webu.

Nebo si na to dolování dokonce vyrobit vlastní vrtnou soupravu

I to jde. Bohumil Koukal (2017) vyvinul rozsáhlou aplikaci OLAP Recommender kombinující principy data miningu a OLAPu. Jeho diplomová práce se pak dostala do finále prestižní celostátní soutěže ACM SPY, a navíc tam ještě získala zvláštní cenu SAP za „přínos v oblasti podnikových informačních systémů“!

Jiné „vývojářské“ diplomky nespočívají ve vytvoření uceleného nástroje, ale jen jeho komponenty určené pro specifickou fázi datově analytického cyklu. Martin Svatoš (2018) kupříkladu doplnil EasyMiner, další existující dataminingový systém katedry, o komponentu pro předzpracování dat. Přemysl Duben (2017) k EasyMineru naopak doplnil post-processingový nástroj pro odlišení zajímavých a nezajímavých nalezených pravidel. A novou implementaci samotného modelování (tj. dolování) realizoval třeba Jaroslav Flégl (2019). Jednalo se o algoritmus detekce anomálií, který byl následně aplikován na data o síťovém provozu.

Nebo by někoho lákalo pracovat s daty ne jen ve fázi analýzy, ale v celém jejich životním cyklu, někdy označovaném jako ETL (Extract – Transform – Load), a s webem jako jejich cílovou destinací? Pak lze také…

Vysekat si data ze zdrojů na webu, pospojovat je, a publikovat jako sémanticky popsaný dataset

Může jít třeba o data spravovaná některou organizací veřejné správy. Petr Tichý (2019) se takto zaměřil na klíčová data o městě Děčín: vytipoval si vhodné datasety publikované v „legacy“ formátech, navrhl resp. přepoužil pro ně sémantické datové slovníky, data podle nich přetransformoval do formátu propojených dat (RDF), propojil s jinými, nezávisle vzniklými datasety, data zvalidoval a zajistil jejich zveřejnění na webu.

Nebo to mohou být data z akademické sféry. Jiří Netušil (2018) zpracoval data o kvalifikačních pracích z Národního úložiště šedé literatury, a to včetně pokusu o heuristickou deduplikaci osob (autorů, vedoucích a oponentů prací).

Nebo také data „o všem“ – encyklopedická. KIZI dlouhodobě spravuje českou DBpedii – strukturovanou (RDF) verzi české Wikipedie. A právě procesem transformace obsahu Wikipedie do DBpedie se zabýval Martin Karásek (2019): výrazně vylepšil mapovací pravidla, která transformaci zajišťují, a navíc přitom identifikoval a rozebral příčiny, které kompromitují datovou kvalitu (nejen) české DBpedie.

Datové slovníky (neboli též ontologie) pro propojená webová data mohou být dostatečným tématem pro diplomové práce i samy o sobě. Petr Hazuza (2016) vyvinul pro potřeby Konta Bariéry sémantický slovník pojmů z oblasti hodnocení přístupnosti budov a jejich částí pro tělesně postižené. Znalostní model se využívá v projektu Mapy bez bariér. Tomáš Hanzal (2016) se ve své analyticky zaměřené práci zase zabýval různými chápáními pojmu „události“ v existujících datových slovnících. Diplomka se stala základem příspěvku (u něhož byl T. Hanzal hlavním autorem) na prestižní světové konferenci „Formal Ontology in Information Systems“.

Propojená data se ovšem na webu vystavují zejména proto, aby je mohly „konzumovat“ nějaké „inteligentní“ aplikace. Třeba strategická znalostní hra vzniklá v rámci diplomové práce Šárky Turečkové (2015) využívá data z DBpedie k formulaci kvízových otázek, s pomocí kterých se uživatel může vzdělávat v určité oblasti vědění, a souběžně přitom řeší bojové mise na herním plánu. Výběr otázek se řídí heuristickým algoritmem.

Originální webová appka se také počítá

Že by vietnamské večerky a pokročilá e-shopová aplikace nešly dohromady? Práce Viet Bacha Nguyena (2018) završená plnohodnotným praktickým nasazením nás přesvědčila o opaku. Obhajobové komisi ovšem „vzal dech“ třeba také elegantní mobilní nástroj vyvinutý Janem Dočkalem (2019) pro obsluhu antistresové pomůcky („dýchátka“) Breathing Friend.

Webová aplikace nemusí být určena jen pro využití koncovým uživatelem. Jinou variantou diplomové práce s důrazem na webový vývoj je vybavení některé „znalostní“ aplikace (vyvinuté na katedře) komfortním rozhraním. Už zmíněný dataminingový nástroj EasyMiner třeba Petr Heřmanský (2019) vybavil responsivním rozhraním, aby bylo možné data dolovat třeba i „z dlaně“. Pavel Suk (2019) zase vylepšil nástroj LODSight (rovněž vyvinutý na KIZI), určený k vizualizaci schématu RDF datasetů, o pohodlné zobrazování rozsáhlých grafů. Velmi úspěšná byla práce Pavla Červeného (2019), rovněž zaměřená na vizualizaci propojených dat: webová aplikace vyvinutá na zakázku výzkumného centra farmaceutické firmy Merck (MSD Center) poskytuje různé pohledy na souhrny RDF datasetů používaných výzkumníky tohoto centra.

Zaměření oboru ZWT je ovšem velmi flexibilní, pokud jde o spektrum technologií relevantních pro diplomové práce, zejména pokud jsou jádrem technologie netriviální algoritmy. Proto si lze jako téma zvolit i…

Jiné technologie „s prvky inteligence“

Diplomová práce Petra Dušáka (2015) vznikla ve spolupráci s Evropskou kosmickou agenturou. Diplomant v jejím rámci vyvinul modifikaci patentovaného algoritmu pro kompresi časových řad založeného na fraktálovém modelu, a ověřil její pozitivní vliv na míru komprese v rozsáhlém testu na datech z kosmické sondy Rosetta. Hezkým příkladem je také práce Jany Dařílkové (2018, oceněná ESOP), která zmapovala problematiku automatického rozpoznávání mluvené řeči, a otestovala několik dostupných nástrojů se zvláštním přihlédnutím k problematice českého jazyka.