Informace o projektu

Informace o projektu
semANT - Sémantický Průzkumník Textového Kulturního Dědictví

Kód projektu
DH23P03OVV060
Období řešení
3/2023 - 12/2027
Investor / Programový rámec / typ projektu
Ministerstvo kultury ČR
Fakulta / Pracoviště MU
Fakulta sociálních studií
Klíčová slova
digital library; topic identification; semantic document search; content exploration; content visualization
Spolupracující organizace
Moravská zemská knihovna Brno
Vysoké učení technické v Brně

Fondy českých knihoven a archivů obsahují obrovské množství digitalizovaných dokumentů. Možnosti jejich online prezentace a vyhledávání se v posledních letech výrazně zlepšují. Velká část digitalizovaných tištěných dokumentů je již zpracována pomocí OCR, a je tedy fulltextově dohledatelná. Již také existují nástroje pro automatický přepis starých tisků i ručně psaných dokumentů a jejich kompletní zpracování je nyní jen otázkou času.
Samotné fulltextové vyhledávání, které se v knihovních systémech využívá, je ovšem nejjednodušší možné. Dokáže většinou vyhledat různé tvary slova, ale neumí pracovat s významem. Najít dokumenty k určitému tématu je tedy velmi pracné. Oproti tomu i současné webové vyhledávače s významy slov pracují a umožňují tak najít texty, které sice neobsahují přesný hledaný výraz, ale obecněji hledanému tématu odpovídají.
Hlavním cílem tohoto projektu je proto zlepšit možnosti vyhledávání ve fulltextové reprezentaci digitalizovaných dokumentů na úrovni významu textu a zlepšit možnosti přirozené navigace mezi tematicky podobnými dokumenty. Uživatelům poskytneme fulltextové vyhledávání rozšířené o pochopení významu dotazů, možnost vyhledávat podle částí textu (například odstavců) s možností současně specifikovat téma, které ho v daném textu zajímá. Systém bude pracovat s automaticky identifikovanými tématy, ale umožní uživatelům definovat vlastní témata na základě příkladů z textů.
Schopnosti identifikace témat v textech v projektu využijeme rovněž pro přehledové vizualizace frekvence výskytů témat a jejich vzájemné interakce. Bude tak možné sledovat vývoj témat v čase, jejich návaznost a proměny či jejich propojení se známými pojmenovanými entitami jako jsou místa a osoby.
Výsledky projektu bude využívat jednak laická veřejnost při rutinní práci s knihovními systémy, jednak vědecká komunita pro kvalitnější analýzu textových dat. Zároveň doufáme, že části projektu najdou uplatnění v softwaru pro mediální analýzu současných médií a sociálních sítí.

Cíle udržitelného rozvoje

Masarykova univerzita se hlásí k cílům udržitelného rozvoje OSN, jejichž záměrem je do roku 2030 zlepšit podmínky a kvalitu života na naší planetě.

Cíl udržitelného rozvoje č.  4 – Kvalitní vzdělání

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info