Informace o publikaci

Morfologické značkování korpusu soukromé korespondence

Autoři

HLAVÁČKOVÁ Dana SEDLÁČEK Radek

Rok publikování 2006
Druh Článek ve sborníku
Konference Varia XIV.
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Jazykověda
Popis Na FF MU v Brně byl, v rámci grantového projektu, vytvořen jazykový korpus, který obsahuje 2000 klasických dopisů a 1000 e-mailů od 3000 různých pisatelů. Do konce roku 2005 by měl být korpus přístupný jednak na CD, jednak jako součást ČNK. V příspěvku se věnujeme automatickému morfologickému značkování korpusu a především úpravám stávajícího analyzátoru ajka (Sedláček – Smrž, 2001), který byl vytvořen na FI MU v Brně a je primárně určen pro analýzu spisovné češtiny. Morfologické značkování je prováděno prozatím pouze na části obsahující klasické dopisy, tj. na Korpusu soukromé korespondence (KSK) o velikosti přes 900 000 slovních výskytů. Zpracovávaný korpus kromě spisovných tvarů slov obsahuje také množství výrazů z oblasti obecné češtiny a různých dialektů s převahou středomoravského interdialektu. Analyzátor ajka je doplňován o variantní tvary především z důvodu snížení podílu ručního značkování.

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info