Z kroniky ZetWéŤáckých diplomek (2017-2021)

Pro inspiraci novým zájemcům o diplomové práce, i jako hold těm, kteří nám svým zájmem o odborná témata KIZI v posledních letech dělali radost a čest. Zmiňujeme zde jak práce excelentní, tak i „jen“ nadprůměrné, ovšem něčím zajímavé.

Magisterský program KIZI „Znalostní a webové technologie“, je tradičně vnímán jako program zaměřený hlavně na data mining. A opravdu platí, že největší část diplomek se snažila…

Automaticky vydolovat z rozsáhlých dat užitečné znalosti

Aplikační oblasti i používané metody mohou být velmi různorodé. Kupříkladu, Marek Hlinovský (2019) aplikoval neuronové sítě na predikci odchylek v přenosové síti elektrické energie. Anastasia Borokshinova (2019) se zabývala daty o kriminalitě v USA, na která aplikovala techniky dolování asociačních pravidel. Juraj Szücs (2021) zase daty o dopravních nehodách, na která se mu osvědčila logistická regrese. Martin Štefke (2017) využil data miningové nástroje v kontextu praktických úloh business intelligence. Práce Jany Dařílkové (2018, oceněná ESOP) zmapovala problematiku automatického rozpoznávání mluvené řeči, a otestovala několik dostupných nástrojů se zvláštním přihlédnutím k problematice českého jazyka.

Proces hledání znalostí v datech můžeme automatizovat ještě víc než jen jako jednorázovou aplikaci učícího algoritmu. Jan Podavka (2017) automatizoval spouštění analýz (dat o dopravních nehodách) v data miningovém systému KIZI, LISp-Mineru, pomocí skriptů napsaných v deklarativním jazyce LMCL: jeden uživatelem spuštěný proces pak může zahrnovat celou řadu vzájemně navazujících analýz již aktivovaných automaticky.

Ne všechny zajímavé úlohy v oblasti data miningu ovšem jdou od dat k nalezeným znalostem, ale může to být i naopak. Třeba Ludmila Šejvlová (2017, práce oceněná v soutěži ESOP) experimentovala s generováním trénovacích dat pro cvičné úlohy, tak, aby se v nich známé hypotézy daly s předem odhadnutelným úsilím najít (tzv. reverse mining).

Některé data miningové úlohy jsou ovšem „znalostní a webové“ v tom smyslu, že analyzovaná data pocházejí z prostředí webu. Například Ján Puškár (2019, práce oceněná v soutěži ESOP) aplikoval shlukovou analýzu v rámci marketingové kampaně e-shopu, a podařilo se mu tak významně navýšit konverzní poměr. Václav Půlpán (2019) zase analyzoval, jaký má na konverzní poměr vliv aplikace technik optimalizace webu. Data mining lze uplatnit i nad daty ze sociálních sítí: např. Václav Hykl (2019) velmi zevrubně, pomocí dvou různých frameworků a řady metod (od logistické regrese přes neuronové sítě až k analýze sentimentu), analyzoval tweety týkající se známého výrobce letadel. Josef Kerner (2019) zase pomocí hluboké neuronové sítě trénoval chatboty simulující dialog s návštěvníkem webu.

Jednou z aktuálních oblastí, do kterých se „analytické“ diplomky na KIZI (ve spolupráci s dalšími subjekty, např. CI VŠE nebo CESNET) významně zaměřují, je bezpečnost síťového provozu. Ondřej Doležal (2020) uskutečnil rozsáhlý projekt nasazení honeypotů do sítě a výsledky důkladně statisticky vyhodnotil.

Nebo si na to dolování dokonce vyrobit vlastní vrtnou soupravu

I to jde. Bohumil Koukal (2017) vyvinul rozsáhlou aplikaci OLAP Recommender kombinující principy data miningu a OLAPu. Jeho diplomová práce se pak dostala do finále prestižní celostátní soutěže ACM SPY, a navíc tam ještě získala zvláštní cenu SAP za „přínos v oblasti podnikových informačních systémů“! Inovativní a pro praxi velmi přínosný je také nástroj Maldox vyvinutý Jiřím Poláčkem (2020) pro pravidlovou analýzu škodlivého kódu v kancelářských dokumentech, a podobně i software vyvinutý Šimonem Daleckým (2021) pro shlukování investičních fondů do modelových portfolií.

Jiné „vývojářské“ diplomky nespočívají ve vytvoření uceleného nástroje, ale jen jeho komponenty určené pro specifickou fázi datově analytického cyklu. Martin Svatoš (2018) kupříkladu doplnil EasyMiner, další existující dataminingový systém katedry, o komponentu pro předzpracování dat. Přemysl Duben (2017) k EasyMineru naopak doplnil post-processingový nástroj pro odlišení zajímavých a nezajímavých nalezených pravidel. A novou implementaci samotného modelování (tj. dolování) realizoval třeba Jaroslav Flégl (2019). Jednalo se o algoritmus detekce anomálií, který byl následně aplikován na data o síťovém provozu.

Son Tung Pham (2020) zase úspěšně vylepšil hierarchický klasifikátor textů pomocí sémantické expanze – rozšíření vektorové reprezentace vstupních dokumentů, a Jiří Filip (2021) na základě důkladné analýzy optimalizoval algoritmus tzv. interpretovatelných rozhodovacích množin; článek popisující jeho implementaci byl vyhlášen jako nejlepší v rámci tzv. Rule Challenge konané při světové konferenci o pravidlových systémech, RuleML. Václav Motyka (2021) nově implementoval, v prostředí RapidMiner, algoritmus strojového učení KEx, pocházející z KIZI.

Některé nástroje mohou být i specializované na určitou oblast. Jan Havelka (2020) vytvořil software pro extrakci dat (pomocí běžného scrapingu, ale i OCR) z různých webových zdrojů týkajících se insolvence firem. Data takto získaná mohou být následně využita statistickým prediktorem odhadujícím riziko vzniku insolvence firmy. Štěpán Zechovský (2020) navrhl nový algoritmus pro řízení zásob v oblasti automobilové výroby, kombinující tradiční matematický model se simulačním přístupem

Specifickou výzvu představuje dolování z dat v podobě volného textu. Sára Juranková (2021) ukázala – zřejmě jako jedna z prvních na světě – že je možné z textů recenzí vědeckých článků automaticky, metodami analýzy sentimentu, odhadnout jejich výsledné hodnocení, a to dokonce i na úrovni dílčích kritérií, např. inovativnosti nebo důvěryhodnosti. Z diplomky vznikl článek pro významný mezinárodní workshop „Sentiment Analysis & Linguistic Linked Data“ (SALLD); Sára se vedle toho podílela i na příspěvku na světové konferenci ISWC 2020, kde byla ukázána možná navazující aplikace automatické analýzy posudků: vizualizace většího počtu posudků metaforou „automobilových závodů“. A někomu dokonce nestačí jeden typ dat, třeba Jindřichu Bukovi (2021), který se pokusil predikovat úspěšnost projektů ve startovačích (HitHit a Startovač) na základě „sentimentu“ textů projektů i strukturovaných dat o nich.

Data mining ovšem nestačí jen implementovat, ale algoritmy a nástroje je třeba testovat a přizpůsobit pro uživatele. Oboje bylo cílem Ondřeje Popka (2021), který důkladně otestoval a opatřil dokumentací systém OptiMiner – komerční reimplementaci nástroje KIZI LISp-Miner.

Nebo by někoho lákalo pracovat s daty ne jen ve fázi analýzy, ale v celém jejich životním cyklu, někdy označovaném jako ETL (Extract – Transform – Load), a s webem jako jejich cílovou destinací? Pak lze také…

Vysekat si data ze zdrojů na webu, pospojovat je, a publikovat jako sémanticky popsaný dataset

Může jít třeba o data spravovaná některou organizací veřejné správy. Petr Tichý (2019) se takto zaměřil na klíčová data o městě Děčín: vytipoval si vhodné datasety publikované v „legacy“ formátech, navrhl resp. přepoužil pro ně sémantické datové slovníky, data podle nich přetransformoval do formátu propojených dat (RDF), propojil s jinými, nezávisle vzniklými datasety, data zvalidoval a zajistil jejich zveřejnění na webu.

Nebo to mohou být data z akademické sféry. Jiří Netušil (2018) zpracoval data o kvalifikačních pracích z Národního úložiště šedé literatury, a to včetně pokusu o heuristickou deduplikaci osob (autorů, vedoucích a oponentů prací).

Nebo také data „o všem“ – encyklopedická. KIZI dlouhodobě spravuje českou DBpedii – strukturovanou (RDF) verzi české Wikipedie. A právě procesem transformace obsahu Wikipedie do DBpedie se zabýval Martin Karásek (2019): výrazně vylepšil mapovací pravidla, která transformaci zajišťují, a navíc přitom identifikoval a rozebral příčiny, které kompromitují datovou kvalitu (nejen) české DBpedie. Další český Wikimedia zdroj, Wikislovník, pak do RDF kreativně převedl a demonstrační vyhledávací aplikací opatřil Martin Lukáš (2020).

Souvisejícím problémem je prozkoumávání a ověřování kvality existujících znalostních grafů. David Fuchs (2020) to pro DBpedii, a také pro Wikidata, tedy dva nejznámější veřejné znalostní grafy, uskutečnil dvěma různými způsoby: jednak na úrovni kvantitativní analýzy propojenosti dat, jednak hlubším prozkoumáním situací, kdy je určitý objekt popsán sadou dat, která neodpovídá jeho sémantickému typu. Pozornosti neunikl ani nejslavnější korporátní znalostní graf, Google Knowledge Graph. Martin Škára (2021) vyvinul nástroj KG Viewer, s pomocí kterého si z GKG můžete poloautomaticky vytáhnout, zobrazit a uložit (v RDF) menší fragmenty jako základ vlastního grafu. Příspěvek o nástroji vzbudil pozitivní ohlas na světové konferenci o sémantickém webu, ISWC.

Při velmi dobré konstelaci může vzniknout i komplexní znalostní aplikace pro nasazení v komerčním prostředí. Anastasia Shuvalova (2021) vyvinula řešení pro usnadnění správy požadavků ve velké zasilatelské firmě, složené z ontologie, souboru deklarativních pravidel a nadstavbové webové aplikace. Ohlas byl velmi pozitivní, a vedl k celkovému zvýšení zájmu o znalostní technologie ve firmě.

Jak data mining, tak znalostní grafy dnes mimo jiné tvoří „back-end“ aplikací spadajících do oblasti umělé inteligence. Někoho ale může pro změnu lákat…

Prozkoumat, jak inteligentně se dnes aplikace dokážou chovat navenek

Do toho se pustila Barbora Pešková (2021), která s pomocí prostředí IBM Watson navrhla a otestovala tři varianty chatbota s různou mírou inteligence pro úlohu doporučování hudebních nosičů.

Originální webová appka se počítá i sama o sobě

Základem pro dobrou diplomku může být i webová aplikace jako taková, pokud je zpracovaná moderně a kvalitně. Podívejme se na konkrétní příklady.

Že by vietnamské večerky a pokročilá e-shopová aplikace nešly dohromady? Práce Viet Bacha Nguyena (2018, nyní již doktoranda a člena katedry) završená plnohodnotným praktickým nasazením nás přesvědčila o opaku. Jinou pěknou „gastronomickou“ aplikací je nástroj Adama Řezníčka (2021) pro tvorbu jídelníčků ve školní jídelně. Na „duševní stravu“ naopak myslela Veronika Hniličková (2021) se svým vylepšením mobilní aplikace Booxy, doporučující knihy. Aplikace Deany Marekové (2020) zase umožňuje vyhledat nemovitosti, a to napříč dvěma různými realitními portály.

Více adrenalinu je pak spojeno s diplomkou Martina Auterského (2021): díky jeho systému pro administraci sim-racingových lig dnes mohou „virtuální žihadla“ svištět lépe než dřív. Obhajobové komisi ovšem „vzal dech“ třeba také elegantní mobilní nástroj vyvinutý Janem Dočkalem (2019) pro obsluhu antistresové pomůcky („dýchátka“) Breathing Friend. K reálnému využití pro katedru samotnou i další zájemce směřuje i nástroj pro vyhledávání expertů na dané téma, Expinder, vytvořený Tomášem Kiezlerem (2020).

Webová aplikace nemusí být určena jen pro využití koncovým uživatelem. Jinou variantou diplomové práce s důrazem na webový vývoj je vybavení některé „znalostní“ aplikace (často vyvinuté přímo na katedře) komfortním rozhraním. Už zmíněný dataminingový nástroj EasyMiner třeba Petr Heřmanský (2019) vybavil responsivním rozhraním, aby bylo možné data dolovat třeba i „z dlaně“. Pavel Suk (2019) zase vylepšil nástroj LODSight (rovněž vyvinutý na KIZI), určený k vizualizaci schématu RDF datasetů, o pohodlné zobrazování rozsáhlých grafů.

Tomáš Morkus (2020) vytvořil aplikaci pro převod mezi dvěma grafickými jazyky pro reprezentaci konceptuálních (ontologických) modelů, PURO a OntoUML; aplikace byla s dobrým ohlasem prezentována v demo sekci hlavní evropské konference o znalostním inženýrství (EKAW2020).

Velmi úspěšná byla práce Pavla Červeného (2019), rovněž zaměřená na vizualizaci propojených dat: webová aplikace vyvinutá na zakázku výzkumného centra farmaceutické firmy Merck (MSD Center) poskytuje různé pohledy na souhrny RDF datasetů používaných výzkumníky tohoto centra.

Katedra se v menší míře zabývá i problematikou komunikačních sítí. Tam směřovala prakticky velmi dobře využitelná webová aplikace Moniky Dokoupilové (2021) pro monitorování kvality síťových linek pomocí vizualizace síťových statistik.

Na další zápisy do kroniky se těšíme!

 

PS: Můžete se podívat také na archivní verzi kroniky, obsahující i starší práce obhájené ještě na oboru ZT jako předchůdci ZWT, od r. 2015, a naopak neobsahující nejnovější práce z r. 2021.