Z kroniky ZetWéŤáckých diplomek (2015-2020)

Pro inspiraci novým zájemcům o diplomové práce, i jako hold těm, kteří nám svým zájmem o odborná témata KIZI v posledních letech dělali radost a čest. Zmiňujeme zde jak práce excelentní, tak i „jen“ nadprůměrné, ovšem něčím zajímavé.

Magisterský program KIZI (původně ještě jako „Znalostní technologie“, až posledních 6 let jako „Znalostní a webové technologie“), je tradičně vnímán jako program zaměřený hlavně na data mining. A opravdu platí, že největší část diplomek se snažila…

Automaticky vydolovat z rozsáhlých dat užitečné znalosti

Aplikační oblasti i používané metody mohou být velmi různorodé. Kupříkladu, Marek Hlinovský (2019) aplikoval neuronové sítě na predikci odchylek v přenosové síti elektrické energie. Anastasia Borokshinova (2019) se zabývala daty o kriminalitě v USA, na která aplikovala techniky dolování asociačních pravidel. Martin Štefke (2017) využil data miningové nástroje v kontextu praktických úloh business intelligence. Práce Jany Dařílkové (2018, oceněná ESOP) zmapovala problematiku automatického rozpoznávání mluvené řeči, a otestovala několik dostupných nástrojů se zvláštním přihlédnutím k problematice českého jazyka

Proces hledání znalostí v datech můžeme automatizovat ještě víc než jen jako jednorázovou aplikaci učícího algoritmu. Jan Podavka (2017) automatizoval spouštění analýz (dat o dopravních nehodách) v data miningovém systému KIZI, LISp-Mineru, pomocí skriptů napsaných v deklarativním jazyce LMCL: jeden uživatelem spuštěný proces pak může zahrnovat celou řadu vzájemně navazujících analýz již aktivovaných automaticky.

Ne všechny zajímavé úlohy v oblasti data miningu ovšem jdou od dat k nalezeným znalostem, ale může to být i naopak. Třeba Ludmila Šejvlová (2017, práce oceněná v soutěži ESOP) experimentovala s generováním trénovacích dat pro cvičné úlohy, tak, aby se v nich známé hypotézy daly s předem odhadnutelným úsilím najít (tzv. reverse mining).

Některé data miningové úlohy jsou ovšem „znalostní a webové“ v tom smyslu, že analyzovaná data pocházejí z prostředí webu. Například Ján Puškár (2019, práce oceněná v soutěži ESOP) aplikoval shlukovou analýzu v rámci marketingové kampaně e-shopu, a podařilo se mu tak významně navýšit konverzní poměr. Václav Půlpán (2019) zase analyzoval, jaký má na konverzní poměr vliv aplikace technik optimalizace webu. Data mining lze uplatnit i nad daty ze sociálních sítí: např. Václav Hykl (2019) velmi zevrubně, pomocí dvou různých frameworků a řady metod (od logistické regrese přes neuronové sítě až k analýze sentimentu), analyzoval tweety týkající se známého výrobce letadel. Josef Kerner (2019) zase pomocí hluboké neuronové sítě trénoval chatboty simulující dialog s návštěvníkem webu.

Jednou z aktuálních oblastí, do kterých se „analytické“ diplomky na KIZI (ve spolupráci s dalšími subjekty, např. CI VŠE nebo CESNET) významně zaměřují, je bezpečnost síťového provozu. Ondřej Doležal (2020) uskutečnil rozsáhlý projekt nasazení honeypotů do sítě a výsledky důkladně statisticky vyhodnotil.

Nebo si na to dolování dokonce vyrobit vlastní vrtnou soupravu

I to jde. Bohumil Koukal (2017) vyvinul rozsáhlou aplikaci OLAP Recommender kombinující principy data miningu a OLAPu. Jeho diplomová práce se pak dostala do finále prestižní celostátní soutěže ACM SPY, a navíc tam ještě získala zvláštní cenu SAP za „přínos v oblasti podnikových informačních systémů“! Inovativní a pro praxi velmi přínosný je také nástroj Maldox vyvinutý Jiřím Poláčkem (2020) pro pravidlovou analýzu škodlivého kódu v kancelářských dokumentech.

Jiné „vývojářské“ diplomky nespočívají ve vytvoření uceleného nástroje, ale jen jeho komponenty určené pro specifickou fázi datově analytického cyklu. Martin Svatoš (2018) kupříkladu doplnil EasyMiner, další existující dataminingový systém katedry, o komponentu pro předzpracování dat. Přemysl Duben (2017) k EasyMineru naopak doplnil post-processingový nástroj pro odlišení zajímavých a nezajímavých nalezených pravidel. A novou implementaci samotného modelování (tj. dolování) realizoval třeba Jaroslav Flégl (2019). Jednalo se o algoritmus detekce anomálií, který byl následně aplikován na data o síťovém provozu. Son Tung Pham (2020) zase úspěšně vylepšil hierarchický klasifikátor textů pomocí sémantické expanze – rozšíření vektorové reprezentace vstupních dokumentů.

Některé nástroje mohou být i specializované na určitou oblast. DP Petra Dušáka (2015) vznikla ve spolupráci s Evropskou kosmickou agenturou. Diplomant v jejím rámci vyvinul modifikaci patentovaného algoritmu pro kompresi časových řad založeného na fraktálovém modelu, a ověřil její pozitivní vliv na míru komprese v rozsáhlém testu na datech z kosmické sondy Rosetta. Jan Havelka (2020) vytvořil software pro extrakci dat (pomocí běžného scrapingu, ale i OCR) z různých webových zdrojů týkajících se insolvence firem. Data takto získaná mohou být následně využita statistickým prediktorem odhadujícím riziko vzniku insolvence firmy. Štěpán Zechovský (2020) navrhl nový algoritmus pro řízení zásob v oblasti automobilové výroby, kombinující tradiční matematický model se simulačním přístupem.

Nebo by někoho lákalo pracovat s daty ne jen ve fázi analýzy, ale v celém jejich životním cyklu, někdy označovaném jako ETL (Extract – Transform – Load), a s webem jako jejich cílovou destinací? Pak lze také…

Vysekat si data ze zdrojů na webu, pospojovat je, a publikovat jako sémanticky popsaný dataset

Může jít třeba o data spravovaná některou organizací veřejné správy. Petr Tichý (2019) se takto zaměřil na klíčová data o městě Děčín: vytipoval si vhodné datasety publikované v „legacy“ formátech, navrhl resp. přepoužil pro ně sémantické datové slovníky, data podle nich přetransformoval do formátu propojených dat (RDF), propojil s jinými, nezávisle vzniklými datasety, data zvalidoval a zajistil jejich zveřejnění na webu.

Nebo to mohou být data z akademické sféry. Jiří Netušil (2018) zpracoval data o kvalifikačních pracích z Národního úložiště šedé literatury, a to včetně pokusu o heuristickou deduplikaci osob (autorů, vedoucích a oponentů prací).

Nebo také data „o všem“ – encyklopedická. KIZI dlouhodobě spravuje českou DBpedii – strukturovanou (RDF) verzi české Wikipedie. A právě procesem transformace obsahu Wikipedie do DBpedie se zabýval Martin Karásek (2019): výrazně vylepšil mapovací pravidla, která transformaci zajišťují, a navíc přitom identifikoval a rozebral příčiny, které kompromitují datovou kvalitu (nejen) české DBpedie. Další český Wikimedia zdroj, Wikislovník, pak do RDF kreativně převedl a demonstrační vyhledávací aplikací opatřil Martin Lukáš (2020).

Datové slovníky (neboli též ontologie) pro propojená webová data mohou být dostatečným tématem pro diplomové práce i samy o sobě. Petr Hazuza (2016) vyvinul pro potřeby Konta Bariéry sémantický slovník pojmů z oblasti hodnocení přístupnosti budov a jejich částí pro tělesně postižené. Znalostní model se využívá v projektu Mapy bez bariér. Tomáš Hanzal (2016) se ve své analyticky zaměřené práci zase zabýval různými chápáními pojmu „události“ v existujících datových slovnících. Diplomka se stala základem příspěvku (u něhož byl T. Hanzal hlavním autorem) na prestižní světové konferenci „Formal Ontology in Information Systems“ (FOIS 2016).

Souvisejícím problémem je ověřování kvality existujících znalostních grafů. David Fuchs (2020) to pro DBpedii, a také pro Wikidata, uskutečnil dvěma různými způsoby: jednak na úrovni kvantitativní analýzy propojenosti dat, jednak hlubším prozkoumáním situací, kdy je určitý objekt popsán sadou dat, která neodpovídá jeho sémantickému typu.

Propojená data se ovšem na webu vystavují zejména proto, aby je mohly „konzumovat“ nějaké „inteligentní“ aplikace. Třeba strategická znalostní hra vzniklá v rámci diplomové práce Šárky Turečkové (2015) využívá data z DBpedie k formulaci kvízových otázek, s pomocí kterých se uživatel může vzdělávat v určité oblasti vědění, a souběžně přitom řeší bojové mise na herním plánu. Výběr otázek se řídí heuristickým algoritmem.

Originální webová appka se také počítá

Že by vietnamské večerky a pokročilá e-shopová aplikace nešly dohromady? Práce Viet Bacha Nguyena (2018) završená plnohodnotným praktickým nasazením nás přesvědčila o opaku. Obhajobové komisi ovšem „vzal dech“ třeba také elegantní mobilní nástroj vyvinutý Janem Dočkalem (2019) pro obsluhu antistresové pomůcky („dýchátka“) Breathing Friend. K reálnému využití pro katedru samotnou i další zájemce směřuje i nástroj pro vyhledávání expertů na dané téma, Expinder, vytvořený Tomášem Kiezlerem (2020). Aplikace Deany Marekové (2020) zase umožňuje vyhledat nemovitosti, a to napříč dvěma různými realitními portály.

Webová aplikace nemusí být určena jen pro využití koncovým uživatelem. Jinou variantou diplomové práce s důrazem na webový vývoj je vybavení některé „znalostní“ aplikace (vyvinuté na katedře) komfortním rozhraním. Už zmíněný dataminingový nástroj EasyMiner třeba Petr Heřmanský (2019) vybavil responsivním rozhraním, aby bylo možné data dolovat třeba i „z dlaně“. Pavel Suk (2019) zase vylepšil nástroj LODSight (rovněž vyvinutý na KIZI), určený k vizualizaci schématu RDF datasetů, o pohodlné zobrazování rozsáhlých grafů.

Tomáš Morkus (2020) vytvořil aplikaci pro převod mezi dvěma grafickými jazyky pro reprezentaci konceptuálních (ontologických) modelů, PURO a OntoUML; aplikace byla s dobrým ohlasem prezentována v demo sekci hlavní evropské konference o znalostním inženýrství (EKAW2020).

Velmi úspěšná byla práce Pavla Červeného (2019), rovněž zaměřená na vizualizaci propojených dat: webová aplikace vyvinutá na zakázku výzkumného centra farmaceutické firmy Merck (MSD Center) poskytuje různé pohledy na souhrny RDF datasetů používaných výzkumníky tohoto centra.

Na další zápisy do kroniky se těšíme!