Informace o publikaci

Document Engineering for a Digital Library: PDF recompression using JBIG2 and other optimization of PDF documents

Název česky Dokumentové inženýrství pro digitální knihovnu: rekomprese PDF s JBIG2 a další optimalizace PDF dokumentů
Autoři

SOJKA Petr HATLAPATKA Radim

Rok publikování 2010
Druh Článek ve sborníku
Konference Proceedings of DocEng 2010 conference
Fakulta / Pracoviště MU

Fakulta informatiky

Citace
www
Doi http://dx.doi.org/10.1145/1860559.1860563
Obor Informatika
Klíčová slova Authoring tools and systems; Categorization; Classification; Document presentation; Representations/Standards; Character recognition; Digital mathematical library; Digitisation workflow
Popis Tento článek popisuje několik inovativních nástrojů a transformací dokumentů, které byli vyvinuty v rámci digitální matematické knihovny DML-CZ. Jako hlavní výsledek tohoto článku je prezentován námi vyvinutý nástroj pro PDF rekompresi, který využívá enkodér jbig2enc. Dohromady s dalšími programy, především pdfsizeopt.py, který vyvinul Péter Szabó, jsme byli schopni snížít velikost PDF a nároky na jejich přenos o 62 %: použitím obou nástrojů jsme snížíli velikost PDF dokumentů na 38 % z původní velikosti. V tomto článku krátce popisujeme další nástroje vyvinuté v rámci digitální knihovny. Mezi hlavní vedlejší produkty tohoto projektu patří dávkové podepisování PDF documentů, metriky vyhledávání podobností u dokumentů, které používají čtyři různé metody, process validace [meta]dat a OCR nástroje pro matematiku. Tento způsob tvorby dokumentů spolu s Google Scholar optimalizací indexace, vedlo k úspěšné obsluze digitalizovaných a born-digital vědeckých matematických dokumentů pro veřejnost v DML-CZ a bude dále nasazeno také v projektu evropské digitální matematické knihovny EuDML.
Související projekty:

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info