Kirjoittaja Aihe: Tekstintunnistus Linuxissa kehittyy - Tesseract OCR 2.03 julkaistu (Luettu 8709 kertaa)

rhino · « **Vastaus #20 :** 19.01.09 - klo:22.07 »

Lainaus käyttäjältä: eap - 19.01.09 - klo:21.58

Mitähän tekemistä OCR:llä ja skannauksella PDF-tiedostoksi on keskenään? MInun vajavaisen ymmärrykseni mukaan skannattu PDF-tiedosto on paremminkin kuvatiedosto kuin muokattavissa oleva tekstitiedosto. OCR-softalla skannataan, ainakin allekirjoittanut, teksti käsittelyn mahdollistavaksi tekstitiedostoksi.

PDF-muotoon skannaus onnistuu myös linuxilla ja XSanella oikein mainiosti. Teen tuota lähes päivittäin kun silloin ei tarvitse juosta missään liikkeissä valokopioiden perässä.

Nuo nykyskannereitten mukana tulevat ohjelmat skannaavat tekstin pdf-tieodostoksi niin että teksti niissä on todellakin tekstiä, eikä kuvia. Kuvat tulevat kuviksi ja tekstit tekstiksti tuloksena tulevassa pdf:ssä. Ja siinä on siis tekemistä tuolla OCR:llä.

Esim. Canonin skannereissa (ja varmasti HPnkin) tulee mukana windowsille ja OS X:lle (muttei valitettavasti linuxille) sovellus, missä voi toimintoa vain hiirellä klikkaamalla skannata skannerista dokumentin kunnon pdf-tiedostoksi koneelle. Tai saman voi tehdä myös skannerissa olevaa nappia painamalla. Homma menee tosi yksinkertaisesti ja tulos on hyvä.
Hienoa jos tuota samanlaista toiminnallisuutta saadaan myös linux-käyttäjille.

Ubuntu Suomen keskustelualueet

Uutiset:

Kirjoittaja Aihe: Tekstintunnistus Linuxissa kehittyy - Tesseract OCR 2.03 julkaistu (Luettu 8709 kertaa)

rhino

Vs: Tekstintunnistus Linuxissa kehittyy - Tesseract OCR 2.03 julkaistu