Hei!
En ole ihan aloittelija linuxin käytössä, mutta aikojen saatossa kertyneiden tiedostojen merkistökoodaus on asia, jossa kaipaisin jonkun asiantuntevan vääntämänä jonkin verran rautalankaa.
Kysymykseni ovat kahta laatua:
- Käytännön kysymykset liittyen breezystä dapperiin vaihdon jälkeisiin ääkkösongelmiin.
- Teoreettiset kysymykset merkistökoodaukseen ja UTF8:aan liittyen yleensä.
Koetan esittää kysymykseni mahdollisimman selkeässä muodossa. Aluksi vähän taustaa, kysymykset lopussa.
Taustaksi:
- Käytän (K)ubuntu Dapperia, aiemmin käytin (K)ubuntu Breezyä, jolta ajalta minulla on tallessa mm. tekstitiedostoja ja .rtf- sekä kasa muissa organisaatioissa windows-koneilla tuotettuja .doc-tiedostoja.
- Jossain kiintolevyn hämärissä sopukoissa on tallessa vielä dos-aikaisia tiedostoja, sekä sen aikaisia dos- ja windows-koneilla tuotettuja dokumentteja.
- Ongelmana on se, että paitsi tiedostojen
nimissä (myös hakemistojen nimet), myös niiden
sisällössä huomaa väärät koodaukset. (Nimien osalta - OOo:han ei edes löydä tällaisen polun päässä olevia tiedostoja.)
Käytän siis suurinpiirtein standardiasennusta (ja KDE:ssä suomea), käytössä on siis ohjelmasta riippuen sekakielinen suomi-englanti-asennus, breezyssäkään en mitään erityisiä asetuksia locale:n suhteen tietääkseni tehnyt. Locale-asetusten suhteen olen siis suhteellisen tietämätön (vaikka aina eri käyttöjärjestelmien välillä seilatessa olen ongelmiin törmännytkin), koska olen salaa toivonut, että voisin selvitä joutumatta perehtymään niihin ihan pultti & mutteri -tasolla (huoh...).
Dapperissa käytössä joka tapauksessa on UTF8 - käsky
locale antaa seuraavan tulosteen:
LANG=fi_FI.UTF-8
LANGUAGE=fi_FI:fi:en_GB:en
LC_CTYPE="fi_FI.UTF-8"
LC_NUMERIC="fi_FI.UTF-8"
LC_TIME="fi_FI.UTF-8"
LC_COLLATE="fi_FI.UTF-8"
LC_MONETARY="fi_FI.UTF-8"
LC_MESSAGES="fi_FI.UTF-8"
LC_PAPER="fi_FI.UTF-8"
LC_NAME="fi_FI.UTF-8"
LC_ADDRESS="fi_FI.UTF-8"
LC_TELEPHONE="fi_FI.UTF-8"
LC_MEASUREMENT="fi_FI.UTF-8"
LC_IDENTIFICATION="fi_FI.UTF-8"
LC_ALL=
Lähimmäksi aihetta forum-haussa osuivat nämä aiheet:
http://forum.ubuntu-fi.org/index.php?topic=4321.0http://forum.ubuntu-fi.org/index.php?topic=11797.0Lisäksi tietysti tiedän Finnish HowTo:n:
http://www.arska.org/finnish-howto/html/Ja UTF-8:n perustiedot löytyvät täältä:
http://en.wikipedia.org/wiki/UTF-8No niin, nyt niitä kysymyksiä. Näillä on siis kaksi tarkoitusta - ensinnä selvittää käytännön pulmia, ja toiseksi lisätä ymmärrystä taustalla toimivista mekanismeista (pultit & mutterit).
1. Tiedostojen uudelleen nimeäminen ratkaisee ongelman
nimien osalta. Onko tähän olemassa käytännöllistä automatiikkaa, joka tunnistaa, mitkä tiedostot vaativat uudelleen nimeämistä?
2. Tiedostojen
sisällön osalta - koskevatko koodausongelmat pelkästään tekstitiedostoja ja html:ää & vastaavia (eli mitä)?
3a. Toisin sanoen, ovatko .rtf- ja .doc-muotoiset tiedostot vapaita tästä väärän sisällön ongelmasta? (Luulin törmänneeni johonkin koodausongelmaan tällaisenkin osalta, mutta nyt testatessani OOo avasi kyllä vanhatkin tiedostot oikein, kunhan ne eivät olleet väärin nimetyn polun takana, mistä se ei niitä löydä.)
3b. Vai onko näissäkin aina jokin koodaus, mutta uusin OOo vain osaa automaattisesti lukea ne sisään oikealla koodauksella?
4a. Asiallinen työkalu nykysysteemissä virheellisenä näkyvien tiedostojen (sisällön!) käsittelyyn lienee
recode?
4b. Recode käsittelee ilmeisesti yhden tiedoston kerrallaan? (Ts. jos haluaa käsitellä useampia, täytyy ne syöttää sille esim. jollain skriptillä?)
5a. Mistä tiedän,
mikä koodaus tiedostossa alunperin on? (Tarvitseeko minun tietää se? Oletettavasti eli ymmärtääkseni tarvitsee.)
5b. Jos tarvitsee, mikä olisi käytännöllinen tapa lukea tiedostoa eri koodauksilla, jotta näen, mikä osuu oikeaan?
6. Onko kenelläkään kokemuksia tiedostojen käsittelystä ohjelmalla
utf8-migration-tool? Toimiiko se, ja onko se käytännöllinen?
Vastauksista jo etukäteen kiittäen.
kko
EDIT: Itseasiassa tiedostojen merkistökoodauksia ja niiden muuntamista koskeva HOWTO eli opas, joka vastaisi näihin kysymyksiin, olisi kyllä ihan aiheellinen. Lisäsin sitä koskevan toiveen Oppaat-foorumille:
http://forum.ubuntu-fi.org/index.php?topic=5743.msg91128#msg91128.