Kirjoittaja Aihe: Datan/tekstin analysointi ja jalostaminen (Luettu 2981 kertaa)

JA5U · « : 09.03.19 - klo:09.04 »

Moi

Olis tarve yhdenmukaistaa dataa, joka muodostuu pääsiassa tekstistä.
Nykyisellään käytän regexiä ja manuaalisesti tekemääni sanastoa "stemming" vaiheessa.

Kiinnostaisi kuitenkin hyödyntää esim. Pythonin nltk, voikko ja omirfi kirjastoja.
Ei vain ole kokemusta näistä ja luonnollisesti ne tyypilliset ja kätevät toiminnot kiinnostaisi.
Ongelmat, kun ovat varmasti pitkälti samoja, kun aletaan tekstiä "harmonisoimaan" ja yhtenäistämään sekä yksinkertaistamaan.

Sitä en vielä saanut selville, että miten nuo tukevat lyhenteitä/akronyymejä?
esim. vrk, pv, kk? Osaako ne jotenkin ilmaista/luokitella, että parsittu sana on ajanmääre tmv?

Ubuntu Suomen keskustelualueet

Uutiset:

Kirjoittaja Aihe: Datan/tekstin analysointi ja jalostaminen (Luettu 2981 kertaa)

JA5U

Datan/tekstin analysointi ja jalostaminen