Én írtam a témáról a blogomba:
http://ubuntu.hu/blog/szoda/szkenneles-keresheto-pdf-be
Amit éppen aktuálisan szkennelsz, azzal hellyel-közzel működik, de ha korábban szkennelt szövegről van szó, akkor nem. Win alatt több pénzes program is létezik, ami utólag is feldolgozza a képet (pl. Recognita), linux alá gocr, ocrad, tesseract ingyenesek (Synapticból feltehető), és ha kitanulmányozod a kezelésüket, nyilván működnek is, mivel pl. a gscan2pdf is a gocr-t működteti.
Nagy hiányosságuk azonban, hogy a magyart nem ismerik.
Az általam a blogban említett szkennerhez (a HP-k egy részéhez ezt adják is alapból) nagyon jó programot adnak Win alá - persze az is csak az aktuálisan beolvasottat dolgozza fel.
Amúgy Linux alá is vannak fizetős ocr porgramok, neten csomót találhatsz...
szoda