Kirjoittaja Aihe: [RATKAISTU] Yksinkertainen data-analyysi Pythonilla  (Luettu 3195 kertaa)

JA5U

  • Käyttäjä
  • Viestejä: 462
    • Profiili
Moi

Löytyy siis dataa, joka on jaettu kahteen sarakkeeseen A ja B. Olkoot siis avain-arvo-pari A=X, B=Y.
Nyt haluaisin laskea samanlaisten A ja B sarakkeiden yhdistelmien määrät ja piirtää niistä yksinkertaisen kuvion, joka osoittaa eri yhdistelmien määrän pienimmästä suurimpaan.

Olisiko kyse "kahden sarakkeen ryhmittelystä" tai "kahden sarakkeen kombinaatiosta" vai mikä olisi oikea tapa kuvata tätä?
Ja löytyykö siihen hyviä kirjastoja?
« Viimeksi muokattu: 31.08.18 - klo:11.03 kirjoittanut JA5U »

Tomin

  • Palvelimen ylläpitäjä
  • Käyttäjä / moderaattori+
  • Viestejä: 11440
    • Profiili
    • Tomin kotisivut
Vs: Yksinkertainen data-analyysi Pythonilla
« Vastaus #1 : 31.08.18 - klo:09.48 »
Pandasin pitäisi osata. Jotain tuon suuntaista tein sillä viime talven aikana. Mielestäni ihan kaikkea ei ollut niin hirveän helppo tehdä, mutta ehkä käytin sitä jotenkin väärin. ::)
Automaattinen allekirjoitus:
Lisäisitkö [RATKAISTU] ketjun ensimmäisen viestin aiheeseen ongelman ratkettua, kiitos.

JA5U

  • Käyttäjä
  • Viestejä: 462
    • Profiili
Vs: Yksinkertainen data-analyysi Pythonilla
« Vastaus #2 : 31.08.18 - klo:10.00 »
Pandasin pitäisi osata. Jotain tuon suuntaista tein sillä viime talven aikana. Mielestäni ihan kaikkea ei ollut niin hirveän helppo tehdä, mutta ehkä käytin sitä jotenkin väärin. ::)
Meinaa olla terminologia hukassa enkä tiedä, että mitä tuolta hakisi.
Googlella koitin haeskella, mutten ainakaan valituilla avainsanoilla löytänyt vastausta.

Käsitykseni mukaan tuo on kuitenkin aika tavanomainen "data wrangling method" ja so. voisi kuvitella olevan melko päällimmäisenä jossain dokumentaatiossa.
Tai sitten se on niin perustietoa, ettei sitä mainita missään...

EDIT: Mahdollinen Stackoverflow vastaus: https://stackoverflow.com/questions/35268817/unique-combinations-of-values-in-selected-columns-in-pandas-data-frame-and-count - täytyy testata
« Viimeksi muokattu: 31.08.18 - klo:10.03 kirjoittanut JA5U »

JA5U

  • Käyttäjä
  • Viestejä: 462
    • Profiili
Vs: Yksinkertainen data-analyysi Pythonilla
« Vastaus #3 : 31.08.18 - klo:11.03 »
Ei vielä kovin havainnollinen, mutta data on kunnossa:
Koodia: [Valitse]
import numpy as np
import pandas as pd

df1 = pd.read_csv('colors.csv')
totals = df1.groupby(['A','B']).size().reset_index().rename(columns={0:'count'})
print(totals.to_string())

Lisää yhden uuden sarakkeen 'count' ja esittää siinä eri A-B yhdistelmien summan.