... massiivisen tekstikorpuksen muuttaminen tietokannaksi ei ole aivan yksinkertaista.
Taitaa kuitenkin mennä vähän sivuraiteille.
Jatketaan nyt tätäkin raidetta. Tässähän tietotekniikka tulee apuun. Millä tavalla voisi tekstitiedoston muuttaa tietokannaksi? Luulis että tällaista on tehty paljonkin. Tietokantoja käyttäviä sanakirjaohjelmia kyllä on olemassa. Vaikkapa Ubuntun valikoimasta löytyvä online-sanakirjaohjelma WordNet ja Artha.
Yleensä käytän pikku skriptiä joka noukkii tekstin seasta passelit palat ja tuuppaa tauluun. Tai ainakin kirjoittaa inserttilauseet, jotka voi oikolukea ja tarvittaessa viimeistellä.
Kuinka helppoa sen skriptin laatiminen on, riippuu taas tekstitiedoston rakenteesta ja kuinka kurinalaisesti teksti on jäsennelty.
Ne minkä kanssa eniten olen puuhastellut olivat joko xml -tagein jäsennelty tai sitten sovitut avainsanat joiden avulla sai palasteltua.
Kiitos ajatuksista. Sanakirjan tekstissä on WordPerfect DOS -ajalta periytyvin kirjapainomerkein tagattu hakusana, vieraskieliset vastineet, etymologia ja muut tarpeelliset luonnehdinnat erilleen selityksestä.
Otin asian uudelleen keskusteluun firman tietotekniikan puolen kanssa. Minulla on muun alan koulutus.
LibreOfficen jähmeydestä isojen tiedostojen kanssa: se avaa ne aivan vikkelästi, mutta tekstinkäsittely, kuten tekstinpätkien maalaus, kopiointi ja liittäminen, sanahaku jne. vaativat odottelua.