Moi
Olis tarve yhdenmukaistaa dataa, joka muodostuu pääsiassa tekstistä.
Nykyisellään käytän regexiä ja manuaalisesti tekemääni sanastoa "stemming" vaiheessa.
Kiinnostaisi kuitenkin hyödyntää esim. Pythonin nltk, voikko ja omirfi kirjastoja.
Ei vain ole kokemusta näistä ja luonnollisesti ne tyypilliset ja kätevät toiminnot kiinnostaisi.
Ongelmat, kun ovat varmasti pitkälti samoja, kun aletaan tekstiä "harmonisoimaan" ja yhtenäistämään sekä yksinkertaistamaan.
Sitä en vielä saanut selville, että miten nuo tukevat lyhenteitä/akronyymejä?
esim. vrk, pv, kk? Osaako ne jotenkin ilmaista/luokitella, että parsittu sana on ajanmääre tmv?