Itselleni kyseinen tarkkuus riittää, vaikka Ei:n tilalle saattaakin tulla Fi, ja jotain muitakin bugeja muunnoksessa tulee...
Kunpa se vain jäisikin siihen, mutta ensinnäkin lähetyksen laatu on vaihdellut ja toisekseen Tesseract menettää pelin välillä aivan totaalisesti. Tämä on esimerkiksi olevinaan repla Lannistumaton Luke -elokuvasta:
llun.-
DllUQUSGQÖllSÖll
Jos tiedät, mitä tuossa sanotaan, olet aika fakiiri
(Tässä on käynyt niin, että PNG-kuva on negatiivi: valkoiset ääriviivakirjaimet mustalla taustalla ja sisuksella. Tesseract ei osaa ääriviivakirjaimia lukea ollenkaan. Tekstissä sanottiin: ”Kyllä, pomo.<rivinvaihto> – Miksi se ei ole poissa siitä?”)
Kokonaisuudessaan tällainen käsittelyprosessi on aika monimutkainen pelkän leikkauksen vuoksi. Itse ehkä käyttäisin ennemmin ohjelmaa, joka leikkaa TS-tallenteen sellaisenaan ja säilyttää alkuperäisen DVB-tekstityksen, jolloin myös tekstityksen laatu säilyy hyvänä.
Näinhän se on, mutta niin kuin sanoin, en tiennyt näistä rajoitteista, kun aloin ProjectX:ää tähän käyttää.
vaatinee hieman syvällisempää perehtymistä Tesseractiin tai johonkin paremmin tarkoitukseen sopivaan OCR-moottoriin.
Minulla on kyllä parempikin OCR, ikivanha kräkätty kopio ABBYY FineReader Pro’sta, jota olen ajanut WinXP-virtuaalikoneessa. Siinä ongelma on tallennus: FineReader haluaa väen väkisin tehdä yhden ison tiedoston eikä edes osoita replojen rajoja mitenkään. Tesseractia voi kuitenkin ajaa silmukassa komentoriviltä. ABBYYn Linux-komentoriviohjelma ei viimeksi tarkistaessani ollut ladattavissa, ja muutenkin siinä on
tiedostomäärään perustuva käyttörajoitus, mikä tämmöisessä hommassa olisi aivan pöhköä – yhdestä elokuvasta tulee heti luettavaksi toista tuhatta pientä parin rivin tiedostoa!
Täytyy kokeilla noita ffmpeg-loitsuja.
Muoks: Ensimmäinen ffmpeg-loitsu (.mkv-tiedostoksi) antoi virheilmoituksen:
[matroska @ 0x559f7c3d67e0] Timestamps are unset in a packet for stream 0. This is deprecated and will stop working in the future. Fix your code to set the timestamps properly
[matroska @ 0x559f7c3d67e0] Can't write packet with unknown timestamp
av_interleaved_write_frame(): Invalid argument
.ts-tiedostoksi kopiointi onnistui ja meni vilkkaasti läpi. Kokeillaan mitä Kodi sanoo.