Informace o publikaci

Effects of Selected Basic Algorithm Parameters and Data Features on Text Categorization by Support Vector Machines

Název česky Vplyv vybraných základných parametrov a dátových atribútov na textovú kategorizáciu pomocou Support Vector Machines
Autoři

HUDÍK Tomáš ŽIŽKA Jan

Rok publikování 2005
Druh Článek ve sborníku
Konference Znalosti 2005, sborník příspěvků
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
Obor Informatika
Klíčová slova text categorization; support vector machines
Popis Tento článok popisuje výsledky získané z testovanie vplyvu vybraných dôležitých parametrov Support Vector Machines (SVM) aplikovaných na klasifikáciu textov Hlavným cieľom bolo zistiť, či výsledky získané štandardnými verejne dostupnými dátovými množinami (tradičné Reuters textové dokumenty a 20Newsgroups) môžu byť aplikované na skutočné medicínske texty získané z internetu používané lekármi. Výskum sa toež zameral na vlastnosti ako podobnosť dokumentov, vyváženosť kategórií, prítomnosť bežných slov a množstvo dokumentov. Výsledky testov ukazujú, že môťu nastať problémy s nastavením parametriv pre niektoré prirodzené dáta. Špeciálne medicínske dokumenty dávali zlé výsledky pretože skutočné kategórie neboli dobre vyvážené a dokumnety v rôznych kategóriách sa vzájomne prekrývali. Výsledok - SVM nedokáže vždy nájsť vhodnú deliacu nadrovinu na rozdiel od 'bezproblémových' dátových množín ako Reuters, či 20Newsgroups
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info