Mitähän tekemistä OCR:llä ja skannauksella PDF-tiedostoksi on keskenään? MInun vajavaisen ymmärrykseni mukaan skannattu PDF-tiedosto on paremminkin kuvatiedosto kuin muokattavissa oleva tekstitiedosto. OCR-softalla skannataan, ainakin allekirjoittanut, teksti käsittelyn mahdollistavaksi tekstitiedostoksi.
PDF-muotoon skannaus onnistuu myös linuxilla ja XSanella oikein mainiosti. Teen tuota lähes päivittäin kun silloin ei tarvitse juosta missään liikkeissä valokopioiden perässä.
Nuo nykyskannereitten mukana tulevat ohjelmat skannaavat tekstin pdf-tieodostoksi niin että teksti niissä on todellakin tekstiä, eikä kuvia. Kuvat tulevat kuviksi ja tekstit tekstiksti tuloksena tulevassa pdf:ssä. Ja siinä on siis tekemistä tuolla OCR:llä.
Esim. Canonin skannereissa (ja varmasti HPnkin) tulee mukana windowsille ja OS X:lle (muttei valitettavasti linuxille) sovellus, missä voi toimintoa vain hiirellä klikkaamalla skannata skannerista dokumentin kunnon pdf-tiedostoksi koneelle. Tai saman voi tehdä myös skannerissa olevaa nappia painamalla. Homma menee tosi yksinkertaisesti ja tulos on hyvä.
Hienoa jos tuota samanlaista toiminnallisuutta saadaan myös linux-käyttäjille.