Publication details

 

Generování vzorů dělení slov v UNICODE

Basic information
Original title:Generování vzorů dělení slov v UNICODE
Title in English:Hyphenation Pattern Generation for UNICODE
Authors:David Antoš, Petr Sojka
Further information
Citation:ANTOŠ, David a Petr SOJKA. Generování vzorů dělení slov v UNICODE. In Sborník druhého semináře o Linuxu a TeXu, SLT 2001. Brno: Konvoj, 2001. s. 23-32. ISBN 80-7302-009-2.Export BibTeX
@inproceedings{347632,
author = {Antoš, David and Sojka, Petr},
address = {Brno},
booktitle = {Sborník druhého semináře o Linuxu a TeXu, SLT 2001},
keywords = {patterns;UNICODE;finite automata;natural language processing;language engineering},
language = {cze},
location = {Brno},
isbn = {80-7302-009-2},
pages = {23-32},
publisher = {Konvoj},
title = {Generování vzorů dělení slov v UNICODE},
url = {http://www.cstug.cz/slt/01/sltproc.html},
year = {2001}
}
Original language:Czech
Field:Use of computers, robotics and its application
WWW:link to a new windowhttp://www.cstug.cz/slt/01/sltproc.html
Type:Article in Proceedings
Keywords:patterns;UNICODE;finite automata;natural language processing;language engineering

Článek popisuje techniku vzorů jako prostředek pro získávání informace z~rozsáhlých dat a zpětné rozpoznávání. Typickou aplikací této techniky je dělení slov. Dosud chybí generátor vzorů dělení pro systém $\Omega$ (pro UNICODE) a rozšíření programu PATGEN, omezeného osmibitovým ASCII, není únosné. Proto vyvíjíme knihovnu PATLIB pro obecnou manipulaci se vzory a na ní postavíme generátor vzorů dělení slov v~UNICODE. Popíšeme architekturu připravovaného systému a dále méně známou datovou strukturu dynamic packed trie, kterou lze výhodně použít pro efektivní ukládání konečných jazyků s výstupy. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s~více typy dělících bodů a o automatické potlačování ligatur na švech složených~slov.

Pattern generation technique is described, together with design of software library for pattern handling PATLIB.

Related projects: