Kirjoittaja Aihe: PDF-filen muunnos tekstitiedostoksi ?  (Luettu 2753 kertaa)

oh1xe

  • Käyttäjä
  • Viestejä: 365
    • Profiili
PDF-filen muunnos tekstitiedostoksi ?
« : 27.07.11 - klo:20.49 »
Nyt olisi 140 sivunen PDF documentti, joka pitäisi kääntää suomeksi.
Googlelta saisin apua, mutta miten saisin PDF filen teksitiedostoksi, jonka voisin copy/pastata Googen kääntäjään?.

Työpaikalla on wanha scanneri joka osaa paperista lukea muistaakseni ja tehdä tekstifileen, mutta tämä PDF file pitäisi ensin printata ja sitten scannata... Olisiko mahdollista oikaista tässä kohtaa?

-päätteellä komento: pdftotext 1.pdf 1.txt
teki fileen, mutta sisältö puuttui....

-kokeilin myös nettiohjeen mukaan lähettää itselleni Gmailiin, josta pitäis saada avattua HTML docuna, mutta eipä sellaista mahdollisuutta ollut.

-kokeilin myös ladata Google Docseihin jossa muunnos pitäisi onnistua, mutta 2MB kokoraja tuli ilmeisesti vastaan ?

-latailin sovelusvalikoimasta pari sovellusta, mutta niitäpä ei näy edes sovelluksissa, Mistähän tämä johtuu ja mistä näitä sovelluksi voisin etsiä, nimeä en tietenkään enää muista  :'(
« Viimeksi muokattu: 27.07.11 - klo:21.56 kirjoittanut oh1xe »

retu

  • Käyttäjä
  • Viestejä: 949
    • Profiili
Vs: PDF-filen muunnos tekstitiedostoksi ?
« Vastaus #1 : 27.07.11 - klo:22.39 »
Mistä se pdf on peräisin? Onko scannattu papereista? Avaa se vaikka evince:llä ja kokeile voitko valita tekstiä hiirellä maalaamalla. Jollet, se sisältää alkuperäiset asiakirjat kuvina etkä siksi saa tekstiä ulos pdftotext-komennolla. Joudut silloin käyttämään tekstintunnistus ohjelmaa kuvien konvertointiin. Dokumentin sivut saat halutessasi purettua erillisiksi kuvatiedostoiksi pdfimages komennolla.

JarTak

  • Käyttäjä
  • Viestejä: 333
    • Profiili
Vs: PDF-filen muunnos tekstitiedostoksi ?
« Vastaus #2 : 29.07.11 - klo:02.57 »
Itse suomensin aikoinaan pdf tiedoston Googlen translatorilla siten, että menin vain Google translatoriin. Sieltä klikkasin käännä asiakirja kohtaa. Tämän jälkeen ilmestyy selaa nappula, josta sitten valitset haluamasi dokumentin omalta tietokoneeltasi. Kokeileppa toimisiko noin.

Marko5

  • Käyttäjä
  • Viestejä: 39
    • Profiili
Vs: PDF-filen muunnos tekstitiedostoksi ?
« Vastaus #3 : 29.07.11 - klo:07.20 »
Pilko pdf-tiedosto pienemmiksi tiedostoiksi  Pdftk-ohjelmalla. Samalla ohjelmalla voit pilkkomisen jälkeen luoda sitten sopivia kokonaisuuksia.

Käsittelyiden jälkeen voit lisätä tiedostot Google Documentsiin, joka lukee pdf tiedostot tekstiksi. Käyttää apuna OCR tekniikkaa tekstimuutoksessa.



oh1xe

  • Käyttäjä
  • Viestejä: 365
    • Profiili
Vs: PDF-filen muunnos tekstitiedostoksi ?
« Vastaus #4 : 02.08.11 - klo:08.49 »
Kylllä se on scannattu huoltomanuaalista.
Yritin asentaa Pdftk Ubuntun sovellusvalikoimasta, hetken se siellä oli mutta ei asentunut, seuraavaksi tuli teksi että pakettia ei enää ole!
No, päätteellähän kaikki pelaa? -vaan tuli tällanen bumerangi:

js@WorkStation-670:~$ sudo apt-get install pdftk
Luetaan pakettiluetteloita... Valmis
Muodostetaan riippuvuussuhteiden puu      
Luetaan tilatiedot... Valmis        
E: Pakettia pdftk ei löydy
js@WorkStation-670:~$

-no laitoin vielä Google Translatoriin PDF fileen, nyt kelpasi, mutta ulos tuli vain "sivu1 sivu45" teksti, ei muuta.

Yritän seuraavaksi tulostaa ja scannata virman scannerilla, joka osaa lukea...

Kiitos vastanneille  :)
« Viimeksi muokattu: 02.08.11 - klo:08.54 kirjoittanut oh1xe »

mrl586

  • Käyttäjä
  • Viestejä: 4638
    • Profiili
Vs: PDF-filen muunnos tekstitiedostoksi ?
« Vastaus #5 : 02.08.11 - klo:11.36 »
universe käytössä?
Koodia: [Valitse]
mrl586@COMPAQ:~$ apt-cache search pdftk
pdftk - tool for manipulating PDF documents
mrl586@COMPAQ:~$ apt-cache policy pdftk
pdftk:
  Asennettu: (ei mitään)
  Ehdokas:   1.44-3
  Versiotaulukko:
     1.44-3 0
        500 http://archive.ubuntu.com/ubuntu/ oneiric/universe amd64 Packages