Kirjoittaja Aihe: Mikä on totuus AI:n takana...  (Luettu 1158 kertaa)

AimoE

  • Käyttäjä
  • Viestejä: 2951
    • Profiili
Vs: Mikä on totuus AI:n takana...
« Vastaus #20 : 22.02.26 - klo:20.33 »
Vielä lisätäkseni tähän, niin katsoppas ihan mielenkiinnosta tämä video. Biisin tekijä on sitä mieltä, että tekoälyn versio onkin parempi mitä hänen. Tuli yllätetyksi, koska ajatteli tehdä videon siitä huono tekoäly vielä on.
https://www.youtube.com/watch?v=ZxYAtL0D50A

Edellisessä videossa koko idea oli tekstissä ja sen ääniasussa. Sitä ei jaksanut katsoa, sitä piti kuunnella. Musavideo jatkaa samaa rataa, vaikka esiintyjä onkin elävä. Tekstiä ja ääntä on helpompi käsitellä mekaanisesti kuin kuvaa.

Kuuloaistimukset käsitellään liskoaivoissa, mutta näköaistimukset muokkaavat aivoja niin paljon, että vain pikkuvauva voi oppia näkemään. Kun ihminen sokeutuu myöhemmässä elämässä ja elää täysin sokeana useamman vuoden, mikään leikkaus tms. ei voi enää palauttaa näkökykyä vaikka silmät olisivat terveet. Aivot näkevät vain valoa ja varjoa, mutta eivät pysty tunnistamaan muuta. Sokeiden vuosien aikana aivojen näköalueet muokkautuvat uuteen käyttöön, eikä niitä enää voi muokata näköaistin käyttöön. Vain vastasyntyneen vauvan aivot kykenevät siihen.

[[Neurologi Oliver Sacks kertoi eräässä kirjassaan juuri tästä. Eräs mies oli sokeutunut ja tottunut siihen jo. Sitten auttamishaluiset sukulaiset järjestivät hänet leikkaukseen jossa silmät korjattiin, mutta miehen aivot eivät kyenneet käsittelemään sitä mitä silmät kertoivat. Ennen leikkausta hän koki itsensä terveeksi, leikkauksen jälkeen hän oli yhtäkkiä vammainen. Se oli valtava romahdus itsetunnossa.]]

qwertyy

  • Käyttäjä
  • Viestejä: 6207
    • Profiili
Vs: Mikä on totuus AI:n takana...
« Vastaus #21 : tänään kello 00:39 »
Edellisessä videossa koko idea oli tekstissä ja sen ääniasussa. Sitä ei jaksanut katsoa, sitä piti kuunnella. Musavideo jatkaa samaa rataa, vaikka esiintyjä onkin elävä. Tekstiä ja ääntä on helpompi käsitellä mekaanisesti kuin kuvaa.
En sanoisi ihan noinkaan. Jos ajatellaan sitä reaaliaikaista kääntämistä, niin kuvan puolesta referenssi on näkyvissä kokoajan ja aiemmin mainittu "framegen" tyyppinen tekniikka pystyisi jo hyvin generoimaan tekstin tilalle hyvin lähelle oikeat pikselit, onhan mm. esim. kanavalogojen sumentaminen ollut juttu vuosikymmeniä kotitietokoneilla ja sehän on  oikeastaan pelkää interpolointia ja silti tulos yllättävän hyvä.

Kaikki tekniikka on jo käytännössä olemassa, kyse on vain prosessointitehosta. Netti suorastaan tulvii monenlaista demoa. Väitän edelleen, että kaukana ei olla siitä, että tämä on mahdollista reaaliajassa ja niin, että prosessointi ei isommin häiritse käyttäjää.

Tässä vaiheessa aloin mielenkiinnosta selaileen aiheesta ja mielenkiinnosta kysyin Geminiltä teoriasta ja sieltä tulikin hyvin odotetun tyyppinen vastaus, että kaikki tekniikat on tosiaan olemassa ja erityisesti OCR ja kontekstin ymmärtävät kielimallit on jo olemassa ja niihin perustuvia kääntäjiä on jo nyt olemassa ja linkkasi RSTGameTranslation projektin
https://thanhkeke97.github.io/RSTGameTranslation/
joka oikeasti näyttää toimivan aika kivasti ainakin heidän YT demossa.
https://www.youtube.com/watch?v=PFrWheMeT5k

Lisäksi ilmeisesti Googlen Veo ja Sora osaa jo kuvasta hahmottaa esim. 3D objektit, eli sekin osalta tuo taustan "ennakointi" on jo täysin mahdollista esim. peleissä. Vain "in-painting" vaatii suorituskykyä niin paljon, että esim. peleissä se ei vielä ole mahdollinen. Vaan tätä en tiennyt, että videon osalta tuo on jo mahdollista, no ei ehkä enää voi sanoa kuluttajaraudalla, mutta silti. Aika mielenkiintoinen projekti, jossa videota muokataan rajusti reaaliajassa uusimmilla Nvidian korteilla  :o
https://www.youtube.com/watch?v=RaNay3x0Fmk

Pyysin arvioimaan, että minkälaista rautaa voisi vaatia videon OCR, käännös ja kohtuullinen in-painting laatu ja arvioi, että RTX 4090 voisi selvitä noin 720p videosta noin 30fps, eli sehän olisi jo ihan ok minusta.

Lisäksi tekoäly pääsi yllättämään kyselyissäni ja huomautti, että tämä varmaankin tulee olemaan tulevaisuutta ja että se ei ole välttämättä kaukana, koska tulossa on paljon NPU tekniikkaa toimiin taustalla ja mm. nvidia ilmeisesti tekee juuri projekteja liittyen tähän "in-painting" tekniikkaan ja huomautti, että tämä voisi olla mielenkiintoinen tekniikka soveltaa kääntää esim. Kanji merkit pystysuunnasta länsimaiseksi reaaliajassa. Pakko myöntää, että tuo tuli täysin puskista ja olisi aika villi jos/kun siinä onnistutaan.

Lisäksi aika realistisesti huomautti, että NPU voisi tulevaisuudessa prosessoida kuvaa tämän tyyppisessä käytössä ja etsiä mm. tekstiä näytöltä, että prosessointitehoa säästyisi mahdollisimman paljon, eikä koko kuva-alaa siis tarvisi prosessoida jatkuvasti, vaan ohjata se vaikka näytönohjaimelle vain jos tekstiä löytyy. CPU voisi periaatteessa ajaa vaikka llmama tai mistral kielimallia, että käännöksen konteksti pysyy järkevänä, juuri kuten oli puhetta aiemmin ja GPU sitten tosiaan hoitaa tuon "in-painting" ja häivyttää alkuperäiset tekstit ja piirtää uuden käännöksen päälle.

Sitten tekoäly vielä antoi kyllä oikein hyvän pointin, että esim. pelien osalta tämä reaaliaikakäännös olisi ihan triviaali jos Ai pääsisi suoraan pelimoottorin muistiin ja/tai DirectX/Vulkan kutsuihin, niin in-paintingiä ei tarvisi tehdä lainkaan ja suorituskyky riittäisi helposti käännöksiin ja kuvanlaatu olisi täysin virheetön, jos teksti siis otetaan pelissä aina omaksi tasoksi, eikä ole kirjoitettu vaikkapa pelimaailman objekteihin, kuten aika monesti on. Ei varmaan olisi lainkaan huono ajatus tehdä jonkinlaista omaa standardia nykyään tätä varten. Eipä ole moinen käynyt mielessä.

Se vain jyrää toi tekniikka niin vauhdilla eteenpäin, että perässä on vaikea pysyä. Varsinkin jos tuo nvidian demo on oikeasti reaaliajassa mahdollinen juttu jo nyt, niin ehkä "universaali käännin" ei olekaan kohta enää niin scifiä.

Kaikkea sitä. Toi OmnimatteZero 🤯