Informace o publikaci

chared: Character Encoding Detection with a Known Language

Logo poskytovatele
Logo poskytovatele
Autoři

POMIKÁLEK Jan SUCHOMEL Vít

Rok publikování 2011
Druh Článek ve sborníku
Konference RASLAN 2011
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www https://nlp.fi.muni.cz/raslan/2011/paper16.pdf
Obor Informatika
Klíčová slova character encoding; character encoding detection; charset; Unicode
Popis chared je systém, který dokáže detekovat kódování znaků textu dokumentu, za předpokladu, že jazyk dokumentu je znám. Systém podporuje širokou škálu jazyků a nejčastěji používaná kódování znaků. Článek vysvětluje detaily algoritmu, popisuje proces vytváření modelů pro různé jazyky a prezentuje výsledky vyhodnocení na kolekci webových stránek.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info