Informace o publikaci
Automatic Web Page Classification
Název česky | Automatické určení domény a klíčových slov stránky |
---|---|
Autoři | |
Rok publikování | 2008 |
Druh | Článek ve sborníku |
Konference | Recent Advances in Slavonic Natural Language Processing |
Fakulta / Pracoviště MU | |
Citace | |
www | https://nlp.fi.muni.cz/raslan/2008/papers/6.pdf |
Obor | Informatika |
Klíčová slova | automatic classification; machine learning; thesaurus |
Popis | Cílem této práce je navrhnout a otestovat přístup, který umožní automatickou klasifikaci webových stránek do domén a určení klíčových slov stránky. Klasifikace stránek je založena na použití strojového učení. Hlavním problémem je však malý rozsah webových stránek, který užití metod strojového učení znesnadňuje. V práci jsou navrženy dva přístupy, které se snaží tento nedostatek minimalizovat. Prvním z nich je zohledňování širšího kontextu webové stránky, to znamená, že se analyzují i stránky, umístěné ve stejné internetové doméně, které jsou ze zkoumané stránky odkazovány. Druhou metodou je shlukování termů dokumentu na základě jejich podobného gramatického kontextu. Pro tyto účely je vytvořen poměrně rozsáhlý thesaurus a z něho shlukový slovník. |
Související projekty: |