Recent Czech Web Corpora

Informace o publikaci

Autoři	SUCHOMEL Vít
Rok publikování	2012
Druh	Článek ve sborníku
Konference	6th Workshop on Recent Advances in Slavonic Natural Language Processing
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
www	https://nlp.fi.muni.cz/raslan/2012/paper11.pdf
Obor	Jazykověda
Klíčová slova	web corpora; czech corpus
Popis	We introduce the largest Czech text corpus for language research – czTenTen12 with 5.4 billion tokens. A brief comparison with other recent Czech corpora follows.
Související projekty:	Temporální aspekty znalostí a informací Analýza přirozeného jazyka v prostředí internetu Projekt LINDAT-Clarin - Vybudování a provoz českého uzlu pan-evropské infrastruktury pro výzkum

Jak na přijímačky