Kirjoittaja Aihe: Tekstintunnistus Linuxissa kehittyy - Tesseract OCR 2.03 julkaistu  (Luettu 9525 kertaa)

rhino

  • Käyttäjä
  • Viestejä: 229
  • Windows♥SUSE♥Ubuntu♥etc
    • Profiili
Mitähän tekemistä OCR:llä ja skannauksella PDF-tiedostoksi on keskenään? MInun vajavaisen ymmärrykseni mukaan skannattu PDF-tiedosto on paremminkin kuvatiedosto kuin muokattavissa oleva tekstitiedosto. OCR-softalla skannataan, ainakin allekirjoittanut, teksti käsittelyn mahdollistavaksi tekstitiedostoksi.

PDF-muotoon skannaus onnistuu myös linuxilla ja XSanella oikein mainiosti. Teen tuota lähes päivittäin kun silloin ei tarvitse juosta missään liikkeissä valokopioiden perässä.

Nuo nykyskannereitten mukana tulevat ohjelmat skannaavat tekstin pdf-tieodostoksi niin että teksti niissä on todellakin tekstiä, eikä kuvia. Kuvat tulevat kuviksi ja tekstit tekstiksti tuloksena tulevassa pdf:ssä. Ja siinä on siis tekemistä tuolla OCR:llä.

Esim. Canonin skannereissa (ja varmasti HPnkin) tulee mukana windowsille ja OS X:lle (muttei valitettavasti linuxille) sovellus, missä voi toimintoa vain hiirellä klikkaamalla skannata skannerista dokumentin kunnon pdf-tiedostoksi koneelle. Tai saman voi tehdä myös skannerissa olevaa nappia painamalla. Homma menee tosi yksinkertaisesti ja tulos on hyvä.
Hienoa jos tuota samanlaista toiminnallisuutta saadaan myös linux-käyttäjille.
« Viimeksi muokattu: 19.01.09 - klo:22.43 kirjoittanut rhino »
rhino=sarvikuono (zulu nkombe/ubejane, swahili kifaru) Etelä-Afrikassakin uhanalainen, ahdistelijoilleen ärhäkkä otus.
ZULU http://www.codezulu.com/isizulu.asp  SWAHILI http://www.pbs.org/wonders/Episodes/Epi2/2_cult1a.htm
NO MORE BLACK≠WHITE, http://fi.wikipedia.org/wiki/Apartheid IS PAST