Hyphenation Pattern Generation for UNICODE

Základní údaje

Originální název Generování vzorů dělení slov v UNICODE
Autoři

Další údaje

Citace ANTOŠ, David a Petr SOJKA. Generování vzorů dělení slov v UNICODE. In Sborník druhého semináře o Linuxu a TeXu, SLT 2001. Brno: Konvoj, 2001. s. 23-32. ISBN 80-7302-009-2.
Originální název čeština
Obor Využití počítačů, robotika a její aplikace
WWW
Druh Článek ve sborníku
Klíčová slova patterns;UNICODE;finite automata;natural language processing;language engineering

Anotace

Článek popisuje techniku vzorů jako prostředek pro získávání informace z~rozsáhlých dat a zpětné rozpoznávání. Typickou aplikací této techniky je dělení slov. Dosud chybí generátor vzorů dělení pro systém $\Omega$ (pro UNICODE) a rozšíření programu PATGEN, omezeného osmibitovým ASCII, není únosné. Proto vyvíjíme knihovnu PATLIB pro obecnou manipulaci se vzory a na ní postavíme generátor vzorů dělení slov v~UNICODE. Popíšeme architekturu připravovaného systému a dále méně známou datovou strukturu dynamic packed trie, kterou lze výhodně použít pro efektivní ukládání konečných jazyků s výstupy. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s~více typy dělících bodů a o automatické potlačování ligatur na švech složených~slov.

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info