Kuinka muunnos kannattaisi tehdä, että ei tarvitsisi kirjoittaa kaikkia sivuja teksturilla uudelleen ja muuttaa sitä kautta PDF:ksi?
Jos haluat nimenomaan tekstimuotoisen dokumentin, jotta esimerkiksi nimiä ja muuta tekstiä voi valita ja kopioida dokumentista tietokoneella, OCR-ohjelmalla voi yrittää muuntaa skannatun kuvan tekstiksi. Kaaviot tosin voivat olla hankalia tekstintunnistusohjelmille etenkin, jos niissä on paljon graafisia elementtejä.
OCRFeeder on toimiva peruskäyttöliittymä erilaisille avoimille tekstintunnistusohjelmille. Niistä Tesseract-ocr toimii yleensä parhaiten. Asenna siis Ubuntun pakettilähteistä tesseract-ocr, tesseract-ocr-fin (tai muut tarvittavat kielipaketit) ja ocrfeeder.
Tools -> OCR Engines, valitse
Tesseract ja paina Muokkaa. Lisää
Engine arguments -riville kieliasetus
-l fin:
$IMAGE $FILE -l fin > /dev/null 2> /dev/null; cat $FILE.txt; rm $FILE $FILE.txt
Paina OK.
Skannaus kannattaa tehdä n. 300 dpi:n tarkkuudella. Monet ohjelmat toimivat parhaiten tietyllä koolla ja 300 dpi:stä ylöspäin tarkkuudesta on vain haittaa. Tunnistetun tekstin voi sitten kopioida tekstinkäsittelyohjelmaan jatkokäsittelyä varten.