Kirjoittaja Aihe: Tekstitiedostot UTF8;ksi  (Luettu 8107 kertaa)

peran

  • Vieras
Tekstitiedostot UTF8;ksi
« : 28.10.05 - klo:21.55 »
Kuinkahan saadaan muutettua Windows-ympäristön ääkköset UTF-8:n ääkkösiksi.

Löytyykö valmista ohjelmaa, joka muutaisi ääkköset, vai pitääkö sen yrittää vääntää C:llä.

Laitoin tämän tänne, koska varmasti monilla kuten itselläkin, ongelmana on Win/Linux-ympäristön ääkkösiä sisältävän ohjelman siirto toiseen ympäristöön.

Itse tarvitsen muunnokset molempiin suuntiin, koska sama ohjelman pitää kääntyä sekä Windows- että Linux-ympäristössä.

Jokohan Windows Vitsi (vai mikä se nyt oli) vihdoin siirtyy UTF-8:aan.

Se mikä on varmaa:Pidän toistaiseksi merkistöni UTF-8:na.

Mielellään ohjelma saisi toimia konsolista käsin.

PHP:llä osaisin ton tehdä suoraan, C:llä en. Toisaalta, jos olis valmis ohjelma, niin ei tartteis koodata bugista viritystä.

Timo Jyrinki

  • Sr. Member
  • ****
  • Viestejä: 1255
    • Profiili
    • kotisivu
Re: Tekstitiedostot UTF8;ksi
« Vastaus #1 : 28.10.05 - klo:22.54 »
Kuinkahan saadaan muutettua Windows-ympäristön ääkköset UTF-8:n ääkkösiksi.

Löytyykö valmista ohjelmaa, joka muutaisi ääkköset, vai pitääkö sen yrittää vääntää C:llä.

Esim.
Koodia: [Valitse]
iconv -f ISO8859-1 -t UTF-8 input.txt -o output.txt (tai -f WINDOWS-1252 vai mikä se yksi paljon käytetty onkaan joka ei ole edes ISO8859-1(5)-standardien mukainen). Suosittelen varovaisuutta, eli ennen kun alat tekemään skriptiä joka käsittelee kaiken niin teet varmuuskopiot tiedostoista yms. Itse ainakin olen onnistunut väärillä optioilla / tiedostoilla tekemään pientä tuhoa :)

No, on sitten työkalu myös ihan tätä tarkoitusta varten, eli valmiiksi ohjelmavarastoista löytyvä paketti utf8-migration-tool - jos joku on tuota käyttänyt (itse siirryin UTF-8:iin ja lopullisesti pois Windowsista jo pari vuotta sitten) niin kertokoon siitä enemmän.

peran

  • Vieras
Re: Tekstitiedostot UTF8;ksi
« Vastaus #2 : 28.10.05 - klo:23.24 »
Esim.
Koodia: [Valitse]
iconv -f ISO8859-1 -t UTF-8 input.txt -o output.txt (tai -f WINDOWS-1252 vai mikä se yksi paljon käytetty onkaan joka ei ole edes ISO8859-1(5)-standardien mukainen). Suosittelen varovaisuutta, eli ennen kun alat tekemään skriptiä joka käsittelee kaiken niin teet varmuuskopiot tiedostoista yms. Itse ainakin olen onnistunut väärillä optioilla / tiedostoilla tekemään pientä tuhoa :)
Kiitos, pitääpäs kokeilla.  :)

No, on sitten työkalu myös ihan tätä tarkoitusta varten, eli valmiiksi ohjelmavarastoista löytyvä paketti utf8-migration-tool - jos joku on tuota käyttänyt (itse siirryin UTF-8:iin ja lopullisesti pois Windowsista jo pari vuotta sitten) niin kertokoon siitä enemmän.
Jep, tämän minäkin löysin Synapticilla, mutten tiennyt miten sitä käytetään, ja unohtupa mainita se alkuperäisessäkin viestissä.

BTW. Nämä merkistöongelmat ovat olleet mukana koko PC-historian ajan. Amiga/DOS-aikaan ongelmana olivat 7/8-bittiset ääkköset, Windowsin mukana tuli taas uudet ääkköset, ja nyt tämä UTF-8:n, jonka jälkeen ei toivottavasti tarvitse enään kärsiä eri merkistöistä.

mikk0

  • Käyttäjä
  • Viestejä: 555
    • Profiili
Re: Tekstitiedostot UTF8;ksi
« Vastaus #3 : 28.10.05 - klo:23.26 »
Myös rivinvaihdot ovat ongelmallisia, sillä DoS (Denial of Service  ;)) ja Windows käyttävät erilaisia rivinvaihtoja kuin unix.

Jollei iconv muuta näitä automaattisesti. niin ohjelma nimeltä tr hoitaa homman. Tämä on valmiina asennettuna ja man-sivu kertonee kaiken tarpeellisen.

Mikko

Mikko Saarinen

mrl586

  • Käyttäjä
  • Viestejä: 4638
    • Profiili
Re: Tekstitiedostot UTF8;ksi
« Vastaus #4 : 07.11.05 - klo:02.37 »
Windows XP:n Muistio osaa koodata tekstin UTF8-muotoon.

JPK1990

  • Vieras
Re: Tekstitiedostot UTF8;ksi
« Vastaus #5 : 22.12.05 - klo:17.25 »
onko teksitiedostoissa muutens minkäänlaista tietoa koodauksesta? kakistakaa ulos!  :)

janne

  • Käyttäjä
  • Viestejä: 5150
    • Profiili
Re: Tekstitiedostot UTF8;ksi
« Vastaus #6 : 22.12.05 - klo:17.36 »
onko teksitiedostoissa muutens minkäänlaista tietoa koodauksesta?

sen varran mitä käytetyistä merkeistä voi päätellä. tekstitiedosto ei sisällä kuin niitä merkkejä joita sinne on kirjoitettu, ei headeria eikä mitään. kurkkaa vaikka hexaeditorilla jotain tekstitiedostoa jos et usko.
Janne

JPK1990

  • Vieras
Re: Tekstitiedostot UTF8;ksi
« Vastaus #7 : 22.12.05 - klo:19.13 »
onko teksitiedostoissa muutens minkäänlaista tietoa koodauksesta?

sen varran mitä käytetyistä merkeistä voi päätellä. tekstitiedosto ei sisällä kuin niitä merkkejä joita sinne on kirjoitettu, ei headeria eikä mitään. kurkkaa vaikka hexaeditorilla jotain tekstitiedostoa jos et usko.
aika jännää mutta loogista.