A könyvtár részére vettünk egy új szkennert, HP Scanjet G2710-es típusszámút, a cél az volt, hogy kereshető PDF-be lehessen dokumentumokat beolvasni, a HP saját szoftverével ez Win alatt működik is, egyetlen szépséghiba, hogy ha többoldalas dokumentumot olvas be az ember, akkor a beolvasás után már nem lehet rendezgetni a kapott oldalakat, mielőtt a program végrehajtaná a karakterfelismerést.
De persze nem ezért írok. Szerettem volna Ubuntu alatt is beüzemelni az eszközt. Bár az XSane alapból nem kezeli, de a következő bejegyzés jóvoltából megoldottam a kérdést:
http://tom.knaupp.com/2008/06/11/hp-scanjet-g2710-ubuntu-804-hardy-heron/
Következő lépés a gscan2pdf program telepítése Synapticcal. Ahhoz, hogy a karakterfelsimerést is végrehajthassuk, kell a gocr nevű parancssoros ocr program is, amit a gscan2pdf fog üzemeltetni, tehát nem kell semmit sem gépelgetni terminálban.
Sok oldalt is be lehet olvasni egymás után, majd szükség esetén forgatni, levágni a fölös részeket, majd végrehajtani a karakterfelismerést. Ezzel egyetlen gond van: magyar nyelvi fájlokat nem találtam hozzá sajnos, de az alapértelmezett német segítségével is felismer szavakat, ha nem ékezetesek.
A kapott pdf fájlban természetesen a fel nem ismert szavak is olvashatók lesznek, mert kétrétegű pdf keletkezik (a második rétegben található felismert szöveg a keresést segíti, amúgy az eredeti dokumentum képeződik le).
Természetesen a gscan2pdf program bármilyen, az Ubuntu által felismert szkennerrel működik!
szoda