Informace o publikaci

Reproducible experiments with Learned Metric Index Framework

Autoři	SLANINÁKOVÁ Terézia ANTOL Matej OĽHA Jaroslav DOHNAL Vlastislav LADRA Susana MARTÍNEZ-PRIETO Miguel A.
Rok publikování	2023
Druh	Článek v odborném periodiku
Časopis / Zdroj	Information systems
Fakulta / Pracoviště MU	Fakulta informatiky
Citace
www	https://www.sciencedirect.com/science/article/pii/S0306437923000911
Doi	http://dx.doi.org/10.1016/j.is.2023.102255
Klíčová slova	Reproducible paper;Index structures;Learned index;Unstructured data;Content-based search;Metric space
Popis	Tato práce je doprovodným reprodukovatelným článkem předchozího článku (Antol a kol., 2021), ve kterém jsme představili alternativu k tradičnímu paradigmatu vyhledávání podobnosti v metrických prostorech nazvanou Learned Metric Index. Inspirováni pokrokem v naučeném indexování strukturovaných dat jsme použili modely strojového učení, které nahradily rozhodování v podobnostním indexu pomocí pivotů, a postavili tak vyhledávání podle podobnosti jako klasifikační problém. Tato implementace se ukázala být více než konkurenceschopná s konvenčními metodami, pokud jde o rychlost a úplnost odpovědi, což dokazuje, že tento koncept je životaschopný. Cílem této publikace je zveřejnit náš zdrojový kód, datové sady a experimenty. Za tímto účelem vytváříme kolekci softwarových knihoven pro Python3, reprodukovatelných experimentálních souborů YAML a základních souborů JSON, které jsou sdruženy v obrazu Docker - Learned Metric Index Framework (LMIF) - který lze spustit pomocí libovolného operačního systému kompatibilního s Dockerem na procesoru s pokročilými vektorovými rozšířeními (AVX). Představujeme protokol reprodukovatelnosti našich experimentů s využitím LMIF a poskytujeme bližší pohled na experimentální proces. Dále představujeme nové experimentální výsledky spuštěním zde zavedeného protokolu reprodukovatelnosti a diskutujeme rozdíly s výsledky uvedenými v naší primární práci (Antol et al., 2021). Nakonec předkládáme argument, že tyto výsledky lze považovat za slabě reprodukovatelné (v obou metrikách výkonnosti), protože poukazují na stejné závěry odvozené v primární práci. [Překlad s pomocí deepl.com]
Související projekty:	Centrum excelence pro kyberkriminalitu, kyberbezpečnost a ochranu kritických informačních infrastruktur e-Infrastruktura CZ Rozvoj technik pro zpracování dat pro podporu vyhledávání, analýz a vizualizací rozsáhlých datových souborů s využitím umělé inteligence Naučené indexy pro podobností hledání