Edellisessä videossa koko idea oli tekstissä ja sen ääniasussa. Sitä ei jaksanut katsoa, sitä piti kuunnella. Musavideo jatkaa samaa rataa, vaikka esiintyjä onkin elävä. Tekstiä ja ääntä on helpompi käsitellä mekaanisesti kuin kuvaa.
En sanoisi ihan noinkaan. Jos ajatellaan sitä reaaliaikaista kääntämistä, niin kuvan puolesta referenssi on näkyvissä kokoajan ja aiemmin mainittu "framegen" tyyppinen tekniikka pystyisi jo hyvin generoimaan tekstin tilalle hyvin lähelle oikeat pikselit, onhan mm. esim. kanavalogojen sumentaminen ollut juttu vuosikymmeniä kotitietokoneilla ja sehän on oikeastaan pelkää interpolointia ja silti tulos yllättävän hyvä.
Kaikki tekniikka on jo käytännössä olemassa, kyse on vain prosessointitehosta. Netti suorastaan tulvii monenlaista demoa. Väitän edelleen, että kaukana ei olla siitä, että tämä on mahdollista reaaliajassa ja niin, että prosessointi ei isommin häiritse käyttäjää.
Tässä vaiheessa aloin mielenkiinnosta selaileen aiheesta ja mielenkiinnosta kysyin Geminiltä teoriasta ja sieltä tulikin hyvin odotetun tyyppinen vastaus, että kaikki tekniikat on tosiaan olemassa ja erityisesti OCR ja kontekstin ymmärtävät kielimallit on jo olemassa ja niihin perustuvia kääntäjiä on jo nyt olemassa ja linkkasi RSTGameTranslation projektin
https://thanhkeke97.github.io/RSTGameTranslation/joka oikeasti näyttää toimivan aika kivasti ainakin heidän YT demossa.
https://www.youtube.com/watch?v=PFrWheMeT5kLisäksi ilmeisesti Googlen Veo ja Sora osaa jo kuvasta hahmottaa esim. 3D objektit, eli sekin osalta tuo taustan "ennakointi" on jo täysin mahdollista esim. peleissä. Vain "in-painting" vaatii suorituskykyä niin paljon, että esim. peleissä se ei vielä ole mahdollinen. Vaan tätä en tiennyt, että videon osalta tuo on jo mahdollista, no ei ehkä enää voi sanoa kuluttajaraudalla, mutta silti. Aika mielenkiintoinen projekti, jossa videota muokataan rajusti reaaliajassa uusimmilla Nvidian korteilla
https://www.youtube.com/watch?v=RaNay3x0FmkPyysin arvioimaan, että minkälaista rautaa voisi vaatia videon OCR, käännös ja kohtuullinen in-painting laatu ja arvioi, että RTX 4090 voisi selvitä noin 720p videosta noin 30fps, eli sehän olisi jo ihan ok minusta.
Lisäksi tekoäly pääsi yllättämään kyselyissäni ja huomautti, että tämä varmaankin tulee olemaan tulevaisuutta ja että se ei ole välttämättä kaukana, koska tulossa on paljon NPU tekniikkaa toimiin taustalla ja mm. nvidia ilmeisesti tekee juuri projekteja liittyen tähän "in-painting" tekniikkaan ja huomautti, että tämä voisi olla mielenkiintoinen tekniikka soveltaa kääntää esim. Kanji merkit pystysuunnasta länsimaiseksi reaaliajassa. Pakko myöntää, että tuo tuli täysin puskista ja olisi aika villi jos/kun siinä onnistutaan.
Lisäksi aika realistisesti huomautti, että NPU voisi tulevaisuudessa prosessoida kuvaa tämän tyyppisessä käytössä ja etsiä mm. tekstiä näytöltä, että prosessointitehoa säästyisi mahdollisimman paljon, eikä koko kuva-alaa siis tarvisi prosessoida jatkuvasti, vaan ohjata se vaikka näytönohjaimelle vain jos tekstiä löytyy. CPU voisi periaatteessa ajaa vaikka llmama tai mistral kielimallia, että käännöksen konteksti pysyy järkevänä, juuri kuten oli puhetta aiemmin ja GPU sitten tosiaan hoitaa tuon "in-painting" ja häivyttää alkuperäiset tekstit ja piirtää uuden käännöksen päälle.
Sitten tekoäly vielä antoi kyllä oikein hyvän pointin, että esim. pelien osalta tämä reaaliaikakäännös olisi ihan triviaali jos Ai pääsisi suoraan pelimoottorin muistiin ja/tai DirectX/Vulkan kutsuihin, niin in-paintingiä ei tarvisi tehdä lainkaan ja suorituskyky riittäisi helposti käännöksiin ja kuvanlaatu olisi täysin virheetön, jos teksti siis otetaan pelissä aina omaksi tasoksi, eikä ole kirjoitettu vaikkapa pelimaailman objekteihin, kuten aika monesti on. Ei varmaan olisi lainkaan huono ajatus tehdä jonkinlaista omaa standardia nykyään tätä varten. Eipä ole moinen käynyt mielessä.
Se vain jyrää toi tekniikka niin vauhdilla eteenpäin, että perässä on vaikea pysyä. Varsinkin jos tuo nvidian demo on oikeasti reaaliajassa mahdollinen juttu jo nyt, niin ehkä "universaali käännin" ei olekaan kohta enää niin scifiä.
Kaikkea sitä. Toi OmnimatteZero 🤯