Kirjoittaja Aihe: Tekstintunnistus Linuxissa kehittyy - Tesseract OCR 2.03 julkaistu (Luettu 13135 kertaa)

Aum · « : 13.01.09 - klo:18.28 »

Tesseract on erittäin lupaava tekstintunnistus, eli OCR (Optical Character Recognition) projekti. Projekti on alunperin HP:n vuosina 1985-1995 kehittämä ja sittemin googlen tukemaksi opensource-projektiksi siirtynyt systeemi. Tällä hetkellä se on paras saatavilla olevista opensource OCR vaihtoehdoista, mutta siihen sopivat käyttöliittymät puuttuvat vielä suurilta osin. OCRopus (viimeisin versio 0.3.1) pyrkii täydentämään tätä aukkoa.

Kielituki löytyy tällä hetkellä seuraaville: englanti, ranska, italia, saksa, espanja ja hollanti. Olisi hienoa saada tähän opensource OCR-softaan suomenkielen tuki mukaan.

Tesseract OCR
http://code.google.com/p/tesseract-ocr/

OCRopus
http://code.google.com/p/ocropus/

snifi · « **Vastaus #1 :** 13.01.09 - klo:20.16 »

*poistin*

Tommi S. · « **Vastaus #2 :** 13.01.09 - klo:20.20 »

Lainaus käyttäjältä: snifi - 13.01.09 - klo:20.16

Mihin tekstintunnistusohjelmaa tarvitaan?

Voi laittaa esim. kirjan skanneriin, ja tekstintunnistusohjelmalla siitä saadaan tekstiä, jota voi esim. tekstieditorilla muokata ym.
Ilman tekstintunnistusohjelmaa skanneri tuottaa vain kuvan, jota voi korkeintaan käsitellä piirto-ohjelmalla ym.

jori52 · « **Vastaus #3 :** 13.01.09 - klo:21.19 »

Lainaus käyttäjältä: Tommi S. - 13.01.09 - klo:20.20

Lainaus käyttäjältä: snifi - 13.01.09 - klo:20.16
Mihin tekstintunnistusohjelmaa tarvitaan?

Voi laittaa esim. kirjan skanneriin, ja tekstintunnistusohjelmalla siitä saadaan tekstiä, jota voi esim. tekstieditorilla muokata ym.
Ilman tekstintunnistusohjelmaa skanneri tuottaa vain kuvan, jota voi korkeintaan käsitellä piirto-ohjelmalla ym.

Parhaimmillaan joskus tulevaisuudessa voi toimia myös skannatun käsinkirjoitetun tekstin saattaminen muokattavaksi.

Terveisin jori52

snifi · « **Vastaus #4 :** 13.01.09 - klo:21.45 »

*poistin*

Ryppy · « **Vastaus #5 :** 13.01.09 - klo:23.31 »

Lainaus käyttäjältä: snifi - 13.01.09 - klo:21.45

Kysyin tuota vähän siinä mielessä, että itselleni tuollainen tekstintunnistusjärjestelmä edustaa lähinnä paluuta keskiajalle. Kaikki kirjathan ovat jo yhteen kertaan kirjoitettu. Kaikki teksti on olemassaolevana vähintään jonkin tietokoneen sisällä. Sellainen joka ei ole, on luultavimmin arvotonta ja vanhentunutta. Mieluisia teoksia taas voi kirjoitella vaikka kymmensormijärjestelmän harjoituksena. Käytännössä kaikki kopioitavaksi tarvittava teksti voidaan pyytää valmiiksi digitaalisessa muodossa. Käsinkirjoittaminen on lähes häviämässä. Minusta näille voimavaroille, jotka tähän projektiin uhrataan, löytyisi parempaakin käyttöä.

Et voi olla tosissasi

Ei kaikkea lukemisen arvoista ole vielä digisoitu.

snifi · « **Vastaus #6 :** 14.01.09 - klo:00.20 »

*poistin*

Tommi S. · « **Vastaus #7 :** 14.01.09 - klo:10.02 »

Lainaus käyttäjältä: snifi - 14.01.09 - klo:00.20

Lainaus käyttäjältä: Ryppy - 13.01.09 - klo:23.31
Ei kaikkea lukemisen arvoista ole vielä digisoitu.

Käytännössä on. Suurimmasta osasta kirjoja on otettu vähintään uusintapainos viimeisten kymmenten vuotten aikana, ja jos kirjasta ei aikaisempaa versiota ole tietokoneella, niin viimeistään tuossa vaiheessa kustantaja sellaisen tekee.

Mutta arvaatko millä työkalulla se kustantaja sen tietokoneversion tekee? Voihan tietenkin olla että siellä kustantajan luostarissa istuu munkit rivissä näpyttelemässä käsin niitä kirjoja, mutta minusta se kyllä kuulostaa ihan paluulta keskiajalle. Usein vielä vanhoista kirjoista otetuissa uusissa painoksissa on vain otettu valokopio vanhan kirjan sivuista, eikä sitä tekstiä ole digitoitu.

Googlen rahoitus tuolle projektille ehkä liittyy siihen Googlen tavoitteeseen skannata kaikki maailman kirjat. Käytännössähän esim. kaikki project gutenbergin kirjat on jossain vaiheessa skannattu ja tulkittu tekstintunnistusohjelmalla.

Tuxer · « **Vastaus #8 :** 14.01.09 - klo:10.53 »

Lainaus

Jos ei ole todella teknokratiahakuinen ihminen, niin ainakaan minun on hyvin vaikea kuvitella mitään käyttöä sille, että istutaan skannerin ääressä ja yritetään saada kone ymmärtämään kirjan sivuilla olevaa tekstiä. Mihin sellaista kukaan tarvitsee? Teksti on joka tapauksessa tekijänoikeuksien alainen, ja jos sitä käyttää omiin julkaisuihin, niin kovin pitkiä tekstejä ei ole sen vuoksi edes lupa uudelleenjulkaista.

Et voi olla tosissasi.

snifi · « **Vastaus #9 :** 14.01.09 - klo:11.38 »

*poistin*

gdm · « **Vastaus #10 :** 14.01.09 - klo:11.42 »

Lainaus käyttäjältä: snifi - 14.01.09 - klo:11.38

Jos sinulla on ajatuksia siitä, miten tämä hyödyttää tavallista ihmistä, niin kuulisin mielelläni.

Tapaukset joissa ihminen kirjoittaa käsin tekstin raakaversion, niin helpottaa tuollaiset työkalut.

Mutta samalle linjalle, onko puheentunnistus myös huono vai hyvä asia

UbunTux · « **Vastaus #11 :** 14.01.09 - klo:12.10 »

Miksi yli 70 vuotta vanha materiaali olisi vättämättä ummehtunutta?
Eiköhän näitäkin versioita ole, jossa teksti ja kuva yhdessä. Siirrettävyys on ainakin parempi, vaikka ei kaiketi täydellinen. Mitään kaavakokoelmia tuskin kannattaa OCR:llä lähteä lukemaan...

Itse olen käyttänyt OCR:ää DVD:n tekstotyksien rippauksessa rumat kuvat kauniiseen tekstimuotoon.

moonstone · « **Vastaus #12 :** 14.01.09 - klo:12.13 »

Minun mielestä tuo on tärkeä softa. Jos vaikka mulla olisi 1000 valokuvaa(tai kuvakaappausta, laskua, kirjan sivua jne.) koneella, joissa kaikissa esiintyisi jotain luettavaa tekstiä, olisi helppo vaan luetuttaa ne tuon OCR softan läpi saadakseen niistä ne tekstit talteen.

Seuraavaksi sitten vaan puheentunnistussoftaa kehiin. Se olisi vieläkin tärkeämpi.

Tuxer · « **Vastaus #13 :** 14.01.09 - klo:12.16 »

Lainaus

Lainaus käyttäjältä: Ari Häyrinen - 14.01.09 - klo:10.53
Et voi olla tosissasi.

Toivoisin vähän paremmin perusteltuja mielipiteitä, eikä pelkkää toisen näykkimistä.

Sorry, ei ollut tarkoitus ivailla. Olen vain ehkä ollut liikaa tekemisissä erilaisten digitointiprojektien kanssa jossa skannataan esim. vanhoja asiakirjoja, luetteloita yms. Sitä taustaa vasten vain tuo kysymys vaikutti niin omituiselta.

Ja siis joskus alunperin digitaalisesta dokumentista on jäänyt jäljelle vain paperikopio. Silloin OCR pelastaa, jos se halutaan takaisin tekstiksi.

Tommi S. · « **Vastaus #14 :** 14.01.09 - klo:12.20 »

Lainaus käyttäjältä: snifi - 14.01.09 - klo:11.38

Lainaus käyttäjältä: Tommi S. - 14.01.09 - klo:10.02
Mutta arvaatko millä työkalulla se kustantaja sen tietokoneversion tekee? Voihan tietenkin olla että siellä kustantajan luostarissa istuu munkit rivissä näpyttelemässä käsin niitä kirjoja, mutta minusta se kyllä kuulostaa ihan paluulta keskiajalle. Usein vielä vanhoista kirjoista otetuissa uusissa painoksissa on vain otettu valokopio vanhan kirjan sivuista, eikä sitä tekstiä ole digitoitu.

Tällaisen käytön tekstintunnistusohjelmalle periaatteessa ymmärrän. Jos tällainen johtaisi kirjojen hinnan yleiseen alenemiseen, niin kehitys olisi ihan suotavaa, mutta yleinen taipumus on, että taittokustannusten pieneneminen päätyy yksinomaan kustantajan pussiin. Jos sinulla on ajatuksia siitä, miten tämä hyödyttää tavallista ihmistä, niin kuulisin mielelläni.

Jos sinulla on ajatuksia siitä miten OCR-ohjelmien kehitysen lopettaminen hyödyttää tavallista ihmistä, kuulisin mielelläni. Tähän mennessähän tavallinen ihminen pääsee hyötymään esim. gutenbergin ilmaisista kirjoista ihan OCR-ohjelmistojen ansiosta.

Lainaus käyttäjältä: snifi - 14.01.09 - klo:11.38

Lainaus käyttäjältä: Tommi S. - 14.01.09 - klo:10.02
Googlen rahoitus tuolle projektille ehkä liittyy siihen Googlen tavoitteeseen skannata kaikki maailman kirjat. Käytännössähän esim. kaikki project gutenbergin kirjat on jossain vaiheessa skannattu ja tulkittu tekstintunnistusohjelmalla.

Tästä olen myös kuullut. Gutenbergin kokoelma on sinällään hieno ajatus, mutta sen ongelma ovat pitkät tekijänoikeusajat. Kun kirjailijan kuoleman jälkeen täytyy vielä odottaa 70 vuotta tekijänoikeuksien vanhenemista, on seuraus, että käytännössä kaikki vapaasti saatavilla oleva teksti on tavattoman vanhaa. Se ei ole kovin miellyttävä asia.

Googlehan on ilmoittanut, että sen aikomus on skannata kirjat omiin tarkoituksiinsa, mikäli tekijänoikeuksia niille ei saada. Tämäkin on yhteisen hyvän kannalta aika kyseenalainen lähtökohta.

Eihän se gutenbergin vanha kirjallisuus muutu yhtään sen miellyttävämmäksi sillä että OCR-ohjelmistojen kehitys lopetetaan. Eikä googlen tarkoitusperien yhteensopivuus yhteisen hyvän kanssa myöskään muutu mihinkään sillä että OCR-ohjelmistojen kehitys lopetetaan.

Merike · « **Vastaus #15 :** 14.01.09 - klo:12.33 »

Lainaus

Kun kirjailijan kuoleman jälkeen täytyy vielä odottaa 70 vuotta tekijänoikeuksien vanhenemista, on seuraus, että käytännössä kaikki vapaasti saatavilla oleva teksti on tavattoman vanhaa. Se ei ole kovin miellyttävä asia.

Sinusta siis Shakespearen töillä saisi heittää vesilintua? Tai muilla maailmankirjallisuuden merkkiteoksilla? Myös niille vaatimattomammille kirjallisilla tuotoksilla on arvoa, vaikka 70 vuotta vanhempia olisivatkin, jos ei taiteellisessa mielessä niin historian dokumentaationa ja tutkimusaineistona.

eap · « **Vastaus #16 :** 14.01.09 - klo:13.07 »

Tavallista ihmistä OCR voi hyödyttää monellakin tavalla. Omasta kokemuspiiristäni voisin ottaa esimerkiksi jonkin periferian kylähistorian koostamisen. Sellaisessa on hyvin suuri apu kun erilaisten seurojen ja yhteisöjen pöytäkirjoja, lehtiä, toimintakertomuksia yms. voi digitoida tekstitiedostoiksi, joista voi tehdä erilaisia hakuja ja ottaa lainauksia. Tuollaisia asiakirjoja saattaa kertyä tuhansia sivuja ja lyhyidenkin lainausten näpytteleminen meikäläisen kaksisormisysteemillä on liian työlästä. Erityisen hyödyllistä on juuri noiden hakujen mahdollisuus.

Meitä suku- ja kylähistorioitsijoita on kuitenkin melkoinen joukko. Itsekin olen jossakin määrin osallistunut kirkokirjojen skannaukseen kuvatiedostoiksi. Kun vielä saataisiin kehitettyä OCR-softa joka kykenisi tunnistamaan 1600- ja 1700-lukujen pappien käsialaa niin esim. sukututkimus helpottuisi merkittävästi, kuten muukin historian tutkiminen.

millaska · « **Vastaus #17 :** 19.01.09 - klo:12.03 »

Lainaus käyttäjältä: snifi - 13.01.09 - klo:21.45

Kysyin tuota vähän siinä mielessä, että itselleni tuollainen tekstintunnistusjärjestelmä edustaa lähinnä paluuta keskiajalle. Kaikki kirjathan ovat jo yhteen kertaan kirjoitettu. Kaikki teksti on olemassaolevana vähintään jonkin tietokoneen sisällä. Sellainen joka ei ole, on luultavimmin arvotonta ja vanhentunutta. Mieluisia teoksia taas voi kirjoitella vaikka kymmensormijärjestelmän harjoituksena. Käytännössä kaikki kopioitavaksi tarvittava teksti voidaan pyytää valmiiksi digitaalisessa muodossa. Käsinkirjoittaminen on lähes häviämässä. Minusta näille voimavaroille, jotka tähän projektiin uhrataan, löytyisi parempaakin käyttöä.

Minulla ainakin tuo tekniikka auttaa elokuvien ja muiden videoiden pikselitekstityksien kääntämisessä tekstimuotoon. Niitä tekstitysformaatteja kun on muitakin kuin vain ascii...

rhino · « **Vastaus #18 :** 19.01.09 - klo:20.51 »

OCR on kyllä todella tärkeä ja paljon käytettykin ominaisuus. Windows-puolella on ollut jo iät ja ajat yritys-skannereille noita hyviä OCR-ohjelmia, joilla esim. vain paperimuodossa olevia dokumentteja on muunnettu tiedostomuotoon. Noissa yritys-skannereissahan on paperinsyöttökaukalot joihin nipun skannattavia papereita voi laittaa ja ohjelma skannaa ne kerralla. Nuo ohjelmat ovat toimineet jo iät ja ajat hyvin luotettavasti, tulostettujen dokumenttien skannaus on niille lasten leikkiä, ja ovat pitkään toimineet hyvin myös kohtuuselvästi käsin kirjoitetun tekstin skannauksessa.
Nykyisissä halvoissakin skannereissa tulee mukana OCR-pohjaiset sovellukset, esim. dokumenttien lukemiseen suoraan pdf-muotoon. Ainakin huokeassa Canonin 4400F/8800f -skannerissa tuollainen on mukana ja softat windowsille ja OS X:lle.

Tietokoneiden tai vaikka nykyisten matkapuhelinten käyttöliittymissähän myös käsin kirjoitetun tekstin tunnistus menee tuolla samalla OCR-periaatteella.

Ja monilla on tärkeitä vanhoja lehtileikkeitä yms. tekstiä ajalta, joita dokumentteja ei internetistä löydy ja ne on helppo skannata säilyvämpään ja helpommin arkistoitavaan ja sisältöetsittäväänkin muotoon tekstinlukutoimintaisella skannerilla, joka maksaa nykyään alta satasen.

eap · « **Vastaus #19 :** 19.01.09 - klo:21.58 »

Mitähän tekemistä OCR:llä ja skannauksella PDF-tiedostoksi on keskenään? MInun vajavaisen ymmärrykseni mukaan skannattu PDF-tiedosto on paremminkin kuvatiedosto kuin muokattavissa oleva tekstitiedosto. OCR-softalla skannataan, ainakin allekirjoittanut, teksti käsittelyn mahdollistavaksi tekstitiedostoksi.

PDF-muotoon skannaus onnistuu myös linuxilla ja XSanella oikein mainiosti. Teen tuota lähes päivittäin kun silloin ei tarvitse juosta missään liikkeissä valokopioiden perässä.

Ubuntu Suomen keskustelualueet

Uutiset:

Kirjoittaja Aihe: Tekstintunnistus Linuxissa kehittyy - Tesseract OCR 2.03 julkaistu (Luettu 13135 kertaa)

snifi

snifi

snifi

snifi

moonstone