Okruhy otázek k SZZ: Znalostní a webové technologie (ZWT)

1. Předmět SZZ Znalostní technologie (4IZ410 + 4IZ430 + 4IZ450 + 4IZ460)

  1. Entropie a kódování (Shannonovská míra informace a entropie, vlastnosti kódů, konstrukce optimálních kódů, samoopravné kódy, přenos zpráv komunikačním systémem se šumem).
  2. Konstrukce rozhodovacích stromů (rozhodovací tabulky a jejich vlastnosti, vztah střední délky a entropie, optimální rozhodovací strom, různé algoritmy konstrukce rozhodovacích stromů).
  3. Výroková, predikátová a deskripční logika (základní pojmy, pravdivost formulí, axiomy, odvozovací pravidla, metody odvozování, dokazatelnost, rezoluční princip, automatické dokazování).
  4. Fuzzy množiny a fuzzy logika (fuzzy množiny, fuzzy relace, fuzzy regulace, fuzzy logické spojky, axiomatizace fuzzy výrokové logiky, Lukasiewiczova, součinová a Gödelova logika).
  5. Bayesovské sítě (reprezentace podmíněných nezávislostí, inference v Bayesovských sítích, pseudobayesovská inference v expertních systémech).
  6. Řešení úloh a rozhodovací problém (stavový prostor a jeho prohledávání, rozhodování za rizika a neurčitosti).
  7. Strojové učení a adaptace (základní principy a metody, učení a adaptace, teoretické problémy strojového učení).
  8. Multiagentní systémy (reaktivní agenty, deliberartivní agenty, interakce mezi agenty).
  9. Proces a úlohy dobývání znalostí (definice dobývání znalostí, metodika CRISP-DM a další standardy, úlohy klasifikace, predikce, segmentace, hledání asociací).
  10. Zdroje dobývání znalostí (databáze, statistické metody, strojové učení).
  11. Metody dobývání znalostí (rozhodovací stromy, asociační pravidla, rozhodovací pravidla, neuronové sítě, genetické algoritmy, bayesovské metody, učení založené na instancích, kombinování klasifikačních modelů).
  12. Způsoby hodnocení modelů získaných metodami dobývání znalostí (matice záměn, správnost a chyba učení, přesnost a úplnost, sensitivita a specificita, ROC křivky).
  13. Metody předzpracování dat pro algoritmy dobývání znalostí (sampling, selekce atributů, transformace atributů, diskretizace, seskupování hodnot atributů, ošetření chybějících hodnot).
  14. Metoda GUHA a GUHA procedury (procedura ASSOC, GUHA procedury pro práci s dvojicemi asociačních pravidel, s histogramy a dvojicemi kategoriálních atributů, procedura MCluster-Miner).
  15. Observační kalkuly (třídy 4ft-kvantifikátorů, dedukční pravidla, práce s neúplnou informací).

Literatura:

2. Předmět SZZ Webové technologie (4IZ421 + 4IZ440 + 4IZ470)

  1. Zásady tvorby a zpracování informačních fondů (podstata informačního procesu, typologie dokumentů, informační analýza – identifikační, obsahová, indexování, selekční jazyky a jejich význam pro vyhledávání, vlivy globalizace a automatizace).
  2. Metody vyhledávání v automatizovaných informačních fondech (booleovský model, vektorový model, metody měření podobnosti).
  3. Klasifikování a shlukování informačních fondů (podstata procesů klasifikování a shlukování, podobnosti a rozdíly, metody automatizace, využitelnost výsledků).
  4. Základní problémy počítačového zpracování přirozeného jazyka (potřeba slovníků, implementace morfologické, syntaktické a sémantické analýzy, zpracování homonymie) a jejich vztah k automatizaci informačních systémů.
  5. Automatizace tvorby a využívání tezaurů v informačních systémech.
  6. Jazyk a datový model RDF, serializace RDF.
  7. Dotazovací jazyk SPARQL a jeho vyjadřovací možnosti.
  8. Struktura a způsob využívání slovníků pro propojená data (linked data), možnosti odvozování v jazyce RDFS.
  9. Principy linked data a způsoby vystavování dat v RDF na webu.
  10. Využívání propojených dat na webu v různých věcných oblastech (encyklopedická data, data veřejné správy, elektronické obchodování, podniková integrace, vyhledávače); sklízení sémantických dat z webu (WebDataCommons).
  11. Tvorba propojených dat (linked data) ze strukturovaných i nestrukturovaných dat, proces ETL pro linked data (extrakce, linkování atd.), tvorba aplikací nad propojenými daty.
  12. Předzpracování textových informací prostředky analýzy přirozeného jazyka (tokenizace, POS, koreference, syntaktická analýza, tezaurové transformace).
  13. Ruční tvorba extrakčních modelů – regulární výrazy a jazyk JAPE. Rozpoznávání a linkování pojmenovaných entit.
  14. Extrakce strukturovaných záznamů z textu: wrapperový (založený na DOM resp. rendering) a statistický (HMM, CRF) přístup. Evaluace extrakce informací.
  15. Extrakce relací z webu – doménově specifická (vzory Hearstové, DIPRE), otevřená extrakce (OpenIE, Watson).
  16. Dolování ze struktury webu (WSM): algoritmy PageRank a HITS. Využití personalizace při WSM. Globální webgraf.
  17. Dolování z uživatelského přístupu k webu (WUM). Analýza clickstreamů. Webová analytika v praxi.

Literatura:


Copyright (C) 2000 - 2017 University of Economics in Prague