Publication details
Generování vzorů dělení slov v UNICODE
| Basic information | |
|---|---|
| Original title: | Generování vzorů dělení slov v UNICODE |
| Title in English: | Hyphenation Pattern Generation for UNICODE |
| Authors: | David Antoš, Petr Sojka |
| Further information | |
|---|---|
| Citation: | ANTOŠ, David and Petr SOJKA. Generování vzorů dělení slov v
UNICODE (Hyphenation Pattern Generation for UNICODE). In
Sborník druhého semináře o Linuxu a TeXu, SLT 2001. Brno:
Konvoj, 2001. p. 23 -32. ISBN 80 -7302 -009 -2.Export BibTeX |
| Original language: | Czech |
| Field: | Use of computers, robotics and its application |
| WWW: | http://www.cstug.cz/slt/01/sltproc.html |
| Type: | Article in Proceedings |
| Keywords: | patterns;UNICODE;finite automata;natural language processing;language engineering |
Článek popisuje techniku vzorů jako prostředek pro získávání informace z~rozsáhlých dat a zpětné rozpoznávání. Typickou aplikací této techniky je dělení slov. Dosud chybí generátor vzorů dělení pro systém $\Omega$ (pro UNICODE) a rozšíření programu PATGEN, omezeného osmibitovým ASCII, není únosné. Proto vyvíjíme knihovnu PATLIB pro obecnou manipulaci se vzory a na ní postavíme generátor vzorů dělení slov v~UNICODE. Popíšeme architekturu připravovaného systému a dále méně známou datovou strukturu dynamic packed trie, kterou lze výhodně použít pro efektivní ukládání konečných jazyků s výstupy. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s~více typy dělících bodů a o automatické potlačování ligatur na švech složených~slov.
Pattern generation technique is described, together with design of software library for pattern handling PATLIB.
Related projects:
- Natural Language Processing Laboratory (with applications supporting education of people with limited sight)
- Human-computer interaction, dialog systems and assistive technologies












http://www.cstug.cz/slt/01/sltproc.html