Project information
Harvesting big text data for under-resourced languages (HaBiT)

Project Identification

7F14047

Project Period

6/2014 - 4/2017

Investor / Pogramme / Project type

Ministry of Education, Youth and Sports of the CR

Czech-Norwegian Research Programme (CZ09)

MU Faculty or unit

Faculty of Informatics

Cooperating Organization

Norwegian University of Science and Technology

Cílem projektu je získat z webu velká textová data (korpusy) pro jazyky s nedostatečnými zdroji, mezi něž patří norština, zčásti čeština a také některé etiopské jazyky (amharština, afaan oromština, tigrinština, somálština). Data budou anotována, parsována tak, aby byla použitelná pro různé aplikace v oblasti počítačového zpracování přirozeného jazyka, např. extrakce informací, strojový překlad a další. Konsorcium bude tvořeno jedním norským týmem (NTNU Trondheim a přidruženou Universitou v Oslo), které se budou věnovat zpracování vzniklých korpusů, a jedním českým týmem (MU Brno), který využije iiž svých existujících nástrojů pro budování korpusů z webu. Projekt bude koordinován brněnským týmem.
Jedním cílem projektu bude vytvoření velkého norského korpusu čítajícího miliardy slovních tvarů s použitím nástrojů vyvinutých v rámci spolupráce s NTNU v EU projektu PRESEMT ("PRESEMT: Pattern REcognition-based Statistically Enhanced MT", 2010-2012). Za druhé, NTNU spolupracuje s Universitou v Oslo a dvěma etiopskými universitami v projektu na podporujícím budování jazykových zdrojů a fundovaném organizací Norad ("Linguistic Capacity Building – tools for the inclusive development of Ethiopia", NORHED 2013-2018). Je tedy přirozené propojit tyto aktivity a zahrnout zpracování čtyř velkých etiopských jazyků do předkládaného projektu: projekt HaBiT tak může podpořit a posílit projekt NORHED
důkladným testováním technologií a tím adresovat témata evaluace a verifikace a také splnit společenskou výzvu pro informační technologie (ICT). Takto získáme relevantní přidanou hodnotu rovněž po politické stránce díky kooperaci s méně rozvinutou zemí. Za třetí, budou vytvořeny aplikace pro povrchové zpracování češtiny a norštiny a aspoň jednoho etiopského jazyka, umožňující vyčlenění a zkoumání mnohoznačnosti slov v korpusech, tj. indukci slovních významů a také tvorbu vícevektorových prostorů a paralelních multilinguálních prostorů pro desambiguaci významů slov při překladu.

Publications

Total number of publications: 41

2017

Corpus Annotation Tool

RYCHLÝ Pavel

Software

Year: 2017
HaBiT system

PALA Karel HORÁK Aleš RYCHLÝ Pavel SUCHOMEL Vít BAISA Vít JAKUBÍČEK Miloš KOVÁŘ Vojtěch NEVĚŘILOVÁ Zuzana RAMBOUSEK Adam GAMBÄCK Björn SIKDAR Utpal BUNGUM Lars

Software

Year: 2017
Walking the tightrope between linguistics and language engineering

JAKUBÍČEK Miloš BAISA Vít BUŠTA Jan KOVÁŘ Vojtěch MICHELFEIT Jan RYCHLÝ Pavel SUCHOMEL Vít

Chapter in a book

, year: 2017

2016

Annotated Amharic Corpora

RYCHLÝ Pavel SUCHOMEL Vít

Paper in proceedings

Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, year: 2016
Annotation of Czech Texts with Language Mixing

NEVĚŘILOVÁ Zuzana

Paper in proceedings

Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, year: 2016
AQA: Automatic Question Answering System for Czech

MEDVEĎ Marek HORÁK Aleš

Paper in proceedings

Text, Speech, and Dialogue 19th International Conference, TSD 2016 Brno, Czech Republic, September 12–16, 2016 Proceedings, year: 2016
Czech Grammar Agreement Dataset for Evaluation of Language Models

BAISA Vít

Paper in proceedings

RASLAN 2016 Recent Advances in Slavonic Natural Language Processing, year: 2016
DSL Shared task 2016: Perfect Is The Enemy of Good Language Discrimination Through Expectation-Maximization and Chunk-based Language Model

HERMAN Ondřej SUCHOMEL Vít BAISA Vít RYCHLÝ Pavel

Paper in proceedings

Proceedings of the Third Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial3), year: 2016
English-French Document Alignment Based on Keywords and Statistical Translation

MEDVEĎ Marek KOVÁŘ Vojtěch JAKUBÍČEK Miloš

Paper in proceedings

Proceedings of the First Conference on Machine Translation, Volume 2: Shared Task Papers, year: 2016
European Union Language Resources in Sketch Engine

BAISA Vít MICHELFEIT Jan MEDVEĎ Marek JAKUBÍČEK Miloš

Paper in proceedings

Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), year: 2016

10 reasons why you will fall in love with MU

Ask our ambassador

Read about research at MU

Project information
Harvesting big text data for under-resourced languages (HaBiT)

Publications

2017

Corpus Annotation Tool

HaBiT system

Walking the tightrope between linguistics and language engineering

2016

Annotated Amharic Corpora

Annotation of Czech Texts with Language Mixing

AQA: Automatic Question Answering System for Czech

Czech Grammar Agreement Dataset for Evaluation of Language Models

DSL Shared task 2016: Perfect Is The Enemy of Good Language Discrimination Through Expectation-Maximization and Chunk-based Language Model

English-French Document Alignment Based on Keywords and Statistical Translation

European Union Language Resources in Sketch Engine

10 reasons why you will fall in love with MU

Ask our ambassador

Read about research at MU

Project informationHarvesting big text data for under-resourced languages (HaBiT)

Publications

2017

2016

Project information
Harvesting big text data for under-resourced languages (HaBiT)