Ubuntu Suomen keskustelualueet

Ubuntun käyttö => Ohjelmointi, palvelimet ja muu edistyneempi käyttö => Aiheen aloitti: peran - 28.10.05 - klo:21.55

Otsikko: Tekstitiedostot UTF8;ksi
Kirjoitti: peran - 28.10.05 - klo:21.55
Kuinkahan saadaan muutettua Windows-ympäristön ääkköset UTF-8:n ääkkösiksi.

Löytyykö valmista ohjelmaa, joka muutaisi ääkköset, vai pitääkö sen yrittää vääntää C:llä.

Laitoin tämän tänne, koska varmasti monilla kuten itselläkin, ongelmana on Win/Linux-ympäristön ääkkösiä sisältävän ohjelman siirto toiseen ympäristöön.

Itse tarvitsen muunnokset molempiin suuntiin, koska sama ohjelman pitää kääntyä sekä Windows- että Linux-ympäristössä.

Jokohan Windows Vitsi (vai mikä se nyt oli) vihdoin siirtyy UTF-8:aan.

Se mikä on varmaa:Pidän toistaiseksi merkistöni UTF-8:na.

Mielellään ohjelma saisi toimia konsolista käsin.

PHP:llä osaisin ton tehdä suoraan, C:llä en. Toisaalta, jos olis valmis ohjelma, niin ei tartteis koodata bugista viritystä.
Otsikko: Re: Tekstitiedostot UTF8;ksi
Kirjoitti: Timo Jyrinki - 28.10.05 - klo:22.54
Kuinkahan saadaan muutettua Windows-ympäristön ääkköset UTF-8:n ääkkösiksi.

Löytyykö valmista ohjelmaa, joka muutaisi ääkköset, vai pitääkö sen yrittää vääntää C:llä.

Esim.
Koodia: [Valitse]
iconv -f ISO8859-1 -t UTF-8 input.txt -o output.txt (tai -f WINDOWS-1252 vai mikä se yksi paljon käytetty onkaan joka ei ole edes ISO8859-1(5)-standardien mukainen). Suosittelen varovaisuutta, eli ennen kun alat tekemään skriptiä joka käsittelee kaiken niin teet varmuuskopiot tiedostoista yms. Itse ainakin olen onnistunut väärillä optioilla / tiedostoilla tekemään pientä tuhoa :)

No, on sitten työkalu myös ihan tätä tarkoitusta varten, eli valmiiksi ohjelmavarastoista löytyvä paketti utf8-migration-tool - jos joku on tuota käyttänyt (itse siirryin UTF-8:iin ja lopullisesti pois Windowsista jo pari vuotta sitten) niin kertokoon siitä enemmän.
Otsikko: Re: Tekstitiedostot UTF8;ksi
Kirjoitti: peran - 28.10.05 - klo:23.24
Esim.
Koodia: [Valitse]
iconv -f ISO8859-1 -t UTF-8 input.txt -o output.txt (tai -f WINDOWS-1252 vai mikä se yksi paljon käytetty onkaan joka ei ole edes ISO8859-1(5)-standardien mukainen). Suosittelen varovaisuutta, eli ennen kun alat tekemään skriptiä joka käsittelee kaiken niin teet varmuuskopiot tiedostoista yms. Itse ainakin olen onnistunut väärillä optioilla / tiedostoilla tekemään pientä tuhoa :)
Kiitos, pitääpäs kokeilla.  :)

No, on sitten työkalu myös ihan tätä tarkoitusta varten, eli valmiiksi ohjelmavarastoista löytyvä paketti utf8-migration-tool - jos joku on tuota käyttänyt (itse siirryin UTF-8:iin ja lopullisesti pois Windowsista jo pari vuotta sitten) niin kertokoon siitä enemmän.
Jep, tämän minäkin löysin Synapticilla, mutten tiennyt miten sitä käytetään, ja unohtupa mainita se alkuperäisessäkin viestissä.

BTW. Nämä merkistöongelmat ovat olleet mukana koko PC-historian ajan. Amiga/DOS-aikaan ongelmana olivat 7/8-bittiset ääkköset, Windowsin mukana tuli taas uudet ääkköset, ja nyt tämä UTF-8:n, jonka jälkeen ei toivottavasti tarvitse enään kärsiä eri merkistöistä.
Otsikko: Re: Tekstitiedostot UTF8;ksi
Kirjoitti: mikk0 - 28.10.05 - klo:23.26
Myös rivinvaihdot ovat ongelmallisia, sillä DoS (Denial of Service  ;)) ja Windows käyttävät erilaisia rivinvaihtoja kuin unix.

Jollei iconv muuta näitä automaattisesti. niin ohjelma nimeltä tr hoitaa homman. Tämä on valmiina asennettuna ja man-sivu kertonee kaiken tarpeellisen.

Mikko
Otsikko: Re: Tekstitiedostot UTF8;ksi
Kirjoitti: mrl586 - 07.11.05 - klo:02.37
Windows XP:n Muistio osaa koodata tekstin UTF8-muotoon.
Otsikko: Re: Tekstitiedostot UTF8;ksi
Kirjoitti: JPK1990 - 22.12.05 - klo:17.25
onko teksitiedostoissa muutens minkäänlaista tietoa koodauksesta? kakistakaa ulos!  :)
Otsikko: Re: Tekstitiedostot UTF8;ksi
Kirjoitti: janne - 22.12.05 - klo:17.36
onko teksitiedostoissa muutens minkäänlaista tietoa koodauksesta?

sen varran mitä käytetyistä merkeistä voi päätellä. tekstitiedosto ei sisällä kuin niitä merkkejä joita sinne on kirjoitettu, ei headeria eikä mitään. kurkkaa vaikka hexaeditorilla jotain tekstitiedostoa jos et usko.
Otsikko: Re: Tekstitiedostot UTF8;ksi
Kirjoitti: JPK1990 - 22.12.05 - klo:19.13
onko teksitiedostoissa muutens minkäänlaista tietoa koodauksesta?

sen varran mitä käytetyistä merkeistä voi päätellä. tekstitiedosto ei sisällä kuin niitä merkkejä joita sinne on kirjoitettu, ei headeria eikä mitään. kurkkaa vaikka hexaeditorilla jotain tekstitiedostoa jos et usko.
aika jännää mutta loogista.