Informace o projektu

Velké jazykové korpusy a jejich automatická analýza

Kód projektu
GA405/03/0913
Období řešení
1/2003 - 12/2005
Investor/Program
Grantová agentura ČR
Programový rámec / typ projektu
Standardní projekty
Fakulta/Pracoviště MU
Fakulta informatiky
Klíčová slova
Very Large Corpora; Natural Language Processing; Statistical Methods in NLP
Spolupracujici organizace
Matematicko-fyzikální fakulta UK
Odpovědná osoba prof. RNDr. Jan Hajič, Dr.
Univerzita Karlova v Praze

Jazykové korpusy jsou nezastupitelnou součástí lingvistického výzkumu. Používají se za různým účelem, od jednoduchého vyhledávání daných slov až po přímé využití pro tzv. trénování v metodách automatického strojového učení; tyto metody se používají např. pro pravděpodobnostní jazykové modelování či automatickou počítačovou analýzu vět přirozeného jazyka. Použitelnost a užitečnost jazykových textových a řečových korpusů (včetně vícejazyčných) je umocněna jejich lingvistickou analýzou (anotováním). Anotace může odrážet jak formu, strukturu i funkci jazykových jednotek obsažených v anotovaném textu.Základním cílem projektu je obohatit naše dosavadní znalosti o jazykovém systému obecně a češtině zvlášť, a to ve smyslu vyvinutí takových metod (zejména metod statistického strojového učení a metod symbolických, a jejich kombinací), aby bylo možno s vysokou přesností analyzovat velké jazykové korpusy jak psaného, tak mluveného textu. Bude se přitom využívat výsledků dosažených v předchozích projektech a grantech s obdobnou tématikou (především data a metody). Role velkých jazykových korpusů přitom bude dvojí: jako zdroj materiálu pro vývoj těchto metod, a jako cílový materiál, na kterém budou nově vyvinuté metody vyzkoušeny a aplikovány. Anotované korpusy tak budou moci být využity např. pro tvorbu nových slovníků, které jsou pro češtinu již nezbytně potřeba. Výsledky projektu budou publikovány, a to včetně vytvořených programových nástrojů a dat.

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info