Kirjoittaja Aihe: Tekstintunnistus Linuxissa kehittyy - Tesseract OCR 2.03 julkaistu  (Luettu 9544 kertaa)

Aum

  • Käyttäjä
  • Viestejä: 16
    • Profiili

Tesseract on erittäin lupaava tekstintunnistus, eli OCR (Optical Character Recognition) projekti. Projekti on alunperin HP:n vuosina 1985-1995 kehittämä ja sittemin googlen tukemaksi opensource-projektiksi siirtynyt systeemi. Tällä hetkellä se on paras saatavilla olevista opensource OCR vaihtoehdoista, mutta siihen sopivat käyttöliittymät puuttuvat vielä suurilta osin.  OCRopus (viimeisin versio 0.3.1) pyrkii täydentämään tätä aukkoa.

Kielituki löytyy tällä hetkellä seuraaville: englanti, ranska, italia, saksa, espanja ja hollanti. Olisi hienoa saada tähän opensource OCR-softaan suomenkielen tuki mukaan.

Tesseract OCR
http://code.google.com/p/tesseract-ocr/

OCRopus
http://code.google.com/p/ocropus/

snifi

  • Vieras
*poistin*
« Viimeksi muokattu: 19.01.09 - klo:15.05 kirjoittanut snifi »

Tommi S.

  • Käyttäjä
  • Viestejä: 240
    • Profiili
Mihin tekstintunnistusohjelmaa tarvitaan?

Voi laittaa esim. kirjan skanneriin, ja tekstintunnistusohjelmalla siitä saadaan tekstiä, jota voi esim. tekstieditorilla muokata ym.
Ilman tekstintunnistusohjelmaa skanneri tuottaa vain kuvan, jota voi korkeintaan käsitellä piirto-ohjelmalla ym.

jori52

  • Käyttäjä
  • Viestejä: 2047
    • Profiili
Mihin tekstintunnistusohjelmaa tarvitaan?

Voi laittaa esim. kirjan skanneriin, ja tekstintunnistusohjelmalla siitä saadaan tekstiä, jota voi esim. tekstieditorilla muokata ym.
Ilman tekstintunnistusohjelmaa skanneri tuottaa vain kuvan, jota voi korkeintaan käsitellä piirto-ohjelmalla ym.

Parhaimmillaan joskus tulevaisuudessa voi toimia myös skannatun käsinkirjoitetun tekstin saattaminen muokattavaksi.

Terveisin jori52
Linux counter #348392
 Asus G750JW ja ubuntu 13.10

snifi

  • Vieras
*poistin*
« Viimeksi muokattu: 19.01.09 - klo:15.05 kirjoittanut snifi »

Ryppy

  • Käyttäjä
  • Viestejä: 837
    • Profiili
Kysyin tuota vähän siinä mielessä, että itselleni tuollainen tekstintunnistusjärjestelmä edustaa lähinnä paluuta keskiajalle. Kaikki kirjathan ovat jo yhteen kertaan kirjoitettu. Kaikki teksti on olemassaolevana vähintään jonkin tietokoneen sisällä. Sellainen joka ei ole, on luultavimmin arvotonta ja vanhentunutta. Mieluisia teoksia taas voi kirjoitella vaikka kymmensormijärjestelmän harjoituksena. Käytännössä kaikki kopioitavaksi tarvittava teksti voidaan pyytää valmiiksi digitaalisessa muodossa. Käsinkirjoittaminen on lähes häviämässä. Minusta näille voimavaroille, jotka tähän projektiin uhrataan, löytyisi parempaakin käyttöä.


Et voi olla tosissasi  :o

Ei kaikkea lukemisen arvoista ole vielä digisoitu.
Poistuu taka vasemmalle - - -

snifi

  • Vieras
*poistin*

« Viimeksi muokattu: 19.01.09 - klo:15.06 kirjoittanut snifi »

Tommi S.

  • Käyttäjä
  • Viestejä: 240
    • Profiili
Ei kaikkea lukemisen arvoista ole vielä digisoitu.

Käytännössä on. Suurimmasta osasta kirjoja on otettu vähintään uusintapainos viimeisten kymmenten vuotten aikana, ja jos kirjasta ei aikaisempaa versiota ole tietokoneella, niin viimeistään tuossa vaiheessa kustantaja sellaisen tekee.

Mutta arvaatko millä työkalulla se kustantaja sen tietokoneversion tekee? Voihan tietenkin olla että siellä kustantajan luostarissa istuu munkit rivissä näpyttelemässä käsin niitä kirjoja, mutta minusta se kyllä kuulostaa ihan paluulta keskiajalle. Usein vielä vanhoista kirjoista otetuissa uusissa painoksissa on vain otettu valokopio vanhan kirjan sivuista, eikä sitä tekstiä ole digitoitu.

Googlen rahoitus tuolle projektille ehkä liittyy siihen Googlen tavoitteeseen skannata kaikki maailman kirjat. Käytännössähän esim. kaikki project gutenbergin kirjat on jossain vaiheessa skannattu ja tulkittu tekstintunnistusohjelmalla.

Tuxer

  • Käyttäjä
  • Viestejä: 657
  • Debian 7.0, Sailfish
    • Profiili
    • opendimension.org
Lainaus
Jos ei ole todella teknokratiahakuinen ihminen, niin ainakaan minun on hyvin vaikea kuvitella mitään käyttöä sille, että istutaan skannerin ääressä ja yritetään saada kone ymmärtämään kirjan sivuilla olevaa tekstiä. Mihin sellaista kukaan tarvitsee? Teksti on joka tapauksessa tekijänoikeuksien alainen, ja jos sitä käyttää omiin julkaisuihin, niin kovin pitkiä tekstejä ei ole sen vuoksi edes lupa uudelleenjulkaista.

Et voi olla tosissasi.
"Menehän Tonttu Tomera tarkastamaan ollaanko korsuissa kiltisti."
Fingerpori

snifi

  • Vieras
*poistin*
« Viimeksi muokattu: 19.01.09 - klo:15.06 kirjoittanut snifi »

gdm

  • Sitä saa mitä tilaa...
  • Käyttäjä
  • Viestejä: 4363
    • Profiili
    • Keskustelualueiden säännöt
Jos sinulla on ajatuksia siitä, miten tämä hyödyttää tavallista ihmistä, niin kuulisin mielelläni.


Tapaukset joissa ihminen kirjoittaa käsin tekstin raakaversion, niin helpottaa tuollaiset työkalut.


Mutta samalle linjalle, onko puheentunnistus myös huono vai hyvä asia ;)
Lisää [Ratkaistu] aloitusviestiin jos ongelmasi selviää!
Saamasi tuki on ilmaista, joten älä vaadi tai uhkaile saadaksesi apua!

UbunTux

  • Käyttäjä
  • Viestejä: 2046
  • KubunTux
    • Profiili
Miksi yli 70 vuotta vanha materiaali olisi vättämättä ummehtunutta?
Eiköhän näitäkin versioita ole, jossa teksti ja kuva yhdessä. Siirrettävyys on ainakin parempi, vaikka ei  kaiketi täydellinen. Mitään kaavakokoelmia tuskin kannattaa OCR:llä lähteä lukemaan...

Itse olen käyttänyt OCR:ää DVD:n  tekstotyksien rippauksessa rumat kuvat kauniiseen tekstimuotoon.  :P
KDE neon
Uudempaa KDE:tä Ubuntulla

moonstone

  • Vieras
Minun mielestä tuo on tärkeä softa. Jos vaikka mulla olisi 1000 valokuvaa(tai kuvakaappausta, laskua, kirjan sivua jne.) koneella, joissa kaikissa esiintyisi jotain luettavaa tekstiä, olisi helppo vaan luetuttaa ne tuon OCR softan läpi saadakseen niistä ne tekstit talteen.

Seuraavaksi sitten vaan puheentunnistussoftaa kehiin. Se olisi vieläkin tärkeämpi.

Tuxer

  • Käyttäjä
  • Viestejä: 657
  • Debian 7.0, Sailfish
    • Profiili
    • opendimension.org
Lainaus
Et voi olla tosissasi.

Toivoisin vähän paremmin perusteltuja mielipiteitä, eikä pelkkää toisen näykkimistä.


Sorry, ei ollut tarkoitus ivailla. Olen vain ehkä ollut liikaa tekemisissä erilaisten digitointiprojektien kanssa jossa skannataan esim. vanhoja asiakirjoja, luetteloita yms. Sitä taustaa vasten vain tuo kysymys vaikutti niin omituiselta.

Ja siis joskus alunperin digitaalisesta dokumentista on jäänyt jäljelle vain paperikopio. Silloin OCR pelastaa, jos se halutaan takaisin tekstiksi.
"Menehän Tonttu Tomera tarkastamaan ollaanko korsuissa kiltisti."
Fingerpori

Tommi S.

  • Käyttäjä
  • Viestejä: 240
    • Profiili
Mutta arvaatko millä työkalulla se kustantaja sen tietokoneversion tekee? Voihan tietenkin olla että siellä kustantajan luostarissa istuu munkit rivissä näpyttelemässä käsin niitä kirjoja, mutta minusta se kyllä kuulostaa ihan paluulta keskiajalle. Usein vielä vanhoista kirjoista otetuissa uusissa painoksissa on vain otettu valokopio vanhan kirjan sivuista, eikä sitä tekstiä ole digitoitu.

Tällaisen käytön tekstintunnistusohjelmalle periaatteessa ymmärrän. Jos tällainen johtaisi kirjojen hinnan yleiseen alenemiseen, niin kehitys olisi ihan suotavaa, mutta yleinen taipumus on, että taittokustannusten pieneneminen päätyy yksinomaan kustantajan pussiin.  Jos sinulla on ajatuksia siitä, miten tämä hyödyttää tavallista ihmistä, niin kuulisin mielelläni.

Jos sinulla on ajatuksia siitä miten OCR-ohjelmien kehitysen lopettaminen hyödyttää tavallista ihmistä, kuulisin mielelläni. Tähän mennessähän tavallinen ihminen pääsee hyötymään esim. gutenbergin ilmaisista kirjoista ihan OCR-ohjelmistojen ansiosta.

Googlen rahoitus tuolle projektille ehkä liittyy siihen Googlen tavoitteeseen skannata kaikki maailman kirjat. Käytännössähän esim. kaikki project gutenbergin kirjat on jossain vaiheessa skannattu ja tulkittu tekstintunnistusohjelmalla.

Tästä olen myös kuullut. Gutenbergin kokoelma on sinällään hieno ajatus, mutta sen ongelma ovat pitkät tekijänoikeusajat. Kun kirjailijan kuoleman jälkeen täytyy vielä odottaa 70 vuotta tekijänoikeuksien vanhenemista, on seuraus, että käytännössä kaikki vapaasti saatavilla oleva teksti on tavattoman vanhaa. Se ei ole kovin miellyttävä asia.

Googlehan on ilmoittanut, että sen aikomus on skannata kirjat omiin tarkoituksiinsa, mikäli tekijänoikeuksia niille ei saada. Tämäkin on yhteisen hyvän kannalta aika kyseenalainen lähtökohta.

Eihän se gutenbergin vanha kirjallisuus muutu yhtään sen miellyttävämmäksi sillä että OCR-ohjelmistojen kehitys lopetetaan. Eikä googlen tarkoitusperien yhteensopivuus yhteisen hyvän kanssa myöskään muutu mihinkään sillä että OCR-ohjelmistojen kehitys lopetetaan.

Merike

  • Käyttäjä
  • Viestejä: 47
    • Profiili
Lainaus
Kun kirjailijan kuoleman jälkeen täytyy vielä odottaa 70 vuotta tekijänoikeuksien vanhenemista, on seuraus, että käytännössä kaikki vapaasti saatavilla oleva teksti on tavattoman vanhaa. Se ei ole kovin miellyttävä asia.
Sinusta siis Shakespearen töillä saisi heittää vesilintua? Tai muilla maailmankirjallisuuden merkkiteoksilla? Myös niille vaatimattomammille kirjallisilla tuotoksilla on arvoa, vaikka 70 vuotta vanhempia olisivatkin, jos ei taiteellisessa mielessä niin historian dokumentaationa ja tutkimusaineistona.

eap

  • Käyttäjä
  • Viestejä: 240
  • si fallor sum
    • Profiili
Tavallista ihmistä OCR voi hyödyttää monellakin tavalla. Omasta kokemuspiiristäni voisin ottaa esimerkiksi jonkin periferian kylähistorian koostamisen. Sellaisessa on hyvin suuri apu kun erilaisten seurojen ja yhteisöjen pöytäkirjoja, lehtiä, toimintakertomuksia yms. voi digitoida tekstitiedostoiksi, joista voi tehdä erilaisia hakuja ja ottaa lainauksia. Tuollaisia asiakirjoja saattaa kertyä tuhansia sivuja ja lyhyidenkin lainausten näpytteleminen meikäläisen kaksisormisysteemillä on liian työlästä. Erityisen hyödyllistä on juuri noiden hakujen mahdollisuus.

Meitä suku- ja kylähistorioitsijoita on kuitenkin melkoinen joukko. Itsekin olen jossakin määrin osallistunut kirkokirjojen skannaukseen kuvatiedostoiksi. Kun vielä saataisiin kehitettyä OCR-softa joka kykenisi tunnistamaan 1600- ja 1700-lukujen pappien käsialaa niin esim. sukututkimus helpottuisi merkittävästi, kuten muukin historian tutkiminen.

Linux user #424871

millaska

  • Käyttäjä
  • Viestejä: 71
    • Profiili
Kysyin tuota vähän siinä mielessä, että itselleni tuollainen tekstintunnistusjärjestelmä edustaa lähinnä paluuta keskiajalle. Kaikki kirjathan ovat jo yhteen kertaan kirjoitettu. Kaikki teksti on olemassaolevana vähintään jonkin tietokoneen sisällä. Sellainen joka ei ole, on luultavimmin arvotonta ja vanhentunutta. Mieluisia teoksia taas voi kirjoitella vaikka kymmensormijärjestelmän harjoituksena. Käytännössä kaikki kopioitavaksi tarvittava teksti voidaan pyytää valmiiksi digitaalisessa muodossa. Käsinkirjoittaminen on lähes häviämässä. Minusta näille voimavaroille, jotka tähän projektiin uhrataan, löytyisi parempaakin käyttöä.

Minulla ainakin tuo tekniikka auttaa elokuvien ja muiden videoiden pikselitekstityksien kääntämisessä tekstimuotoon. Niitä tekstitysformaatteja kun on muitakin kuin vain ascii...

rhino

  • Käyttäjä
  • Viestejä: 229
  • Windows♥SUSE♥Ubuntu♥etc
    • Profiili
OCR on kyllä todella tärkeä ja paljon käytettykin ominaisuus. Windows-puolella on ollut jo iät ja ajat yritys-skannereille noita hyviä OCR-ohjelmia, joilla esim. vain paperimuodossa olevia dokumentteja on muunnettu tiedostomuotoon. Noissa yritys-skannereissahan on paperinsyöttökaukalot joihin nipun skannattavia papereita voi laittaa ja ohjelma skannaa ne kerralla. Nuo ohjelmat ovat toimineet jo iät ja ajat hyvin luotettavasti, tulostettujen dokumenttien skannaus on niille lasten leikkiä, ja ovat pitkään toimineet hyvin myös kohtuuselvästi käsin kirjoitetun tekstin skannauksessa.
Nykyisissä halvoissakin skannereissa tulee mukana OCR-pohjaiset sovellukset, esim. dokumenttien lukemiseen suoraan pdf-muotoon. Ainakin huokeassa Canonin 4400F/8800f -skannerissa tuollainen on mukana ja softat windowsille ja OS X:lle.

Tietokoneiden tai vaikka nykyisten matkapuhelinten käyttöliittymissähän myös käsin kirjoitetun tekstin tunnistus menee tuolla samalla OCR-periaatteella.

Ja monilla on tärkeitä vanhoja lehtileikkeitä yms. tekstiä ajalta, joita dokumentteja ei internetistä löydy ja ne on helppo skannata säilyvämpään ja helpommin arkistoitavaan ja sisältöetsittäväänkin muotoon tekstinlukutoimintaisella skannerilla, joka maksaa nykyään alta satasen.
rhino=sarvikuono (zulu nkombe/ubejane, swahili kifaru) Etelä-Afrikassakin uhanalainen, ahdistelijoilleen ärhäkkä otus.
ZULU http://www.codezulu.com/isizulu.asp  SWAHILI http://www.pbs.org/wonders/Episodes/Epi2/2_cult1a.htm
NO MORE BLACK≠WHITE, http://fi.wikipedia.org/wiki/Apartheid IS PAST

eap

  • Käyttäjä
  • Viestejä: 240
  • si fallor sum
    • Profiili
Mitähän tekemistä OCR:llä ja skannauksella PDF-tiedostoksi on keskenään? MInun vajavaisen ymmärrykseni mukaan skannattu PDF-tiedosto on paremminkin kuvatiedosto kuin muokattavissa oleva tekstitiedosto. OCR-softalla skannataan, ainakin allekirjoittanut, teksti käsittelyn mahdollistavaksi tekstitiedostoksi.

PDF-muotoon skannaus onnistuu myös linuxilla ja XSanella oikein mainiosti. Teen tuota lähes päivittäin kun silloin ei tarvitse juosta missään liikkeissä valokopioiden perässä.

Linux user #424871