Ubuntu Suomen keskustelualueet

Ubuntun käyttö => Ohjelmointi, palvelimet ja muu edistyneempi käyttö => Aiheen aloitti: JA5U - 31.08.18 - klo:09.30

Otsikko: [RATKAISTU] Yksinkertainen data-analyysi Pythonilla
Kirjoitti: JA5U - 31.08.18 - klo:09.30: Moi

Löytyy siis dataa, joka on jaettu kahteen sarakkeeseen A ja B. Olkoot siis avain-arvo-pari A=X, B=Y.
Nyt haluaisin laskea samanlaisten A ja B sarakkeiden yhdistelmien määrät ja piirtää niistä yksinkertaisen kuvion, joka osoittaa eri yhdistelmien määrän pienimmästä suurimpaan.

Olisiko kyse "kahden sarakkeen ryhmittelystä" tai "kahden sarakkeen kombinaatiosta" vai mikä olisi oikea tapa kuvata tätä?
Ja löytyykö siihen hyviä kirjastoja?
Otsikko: Vs: Yksinkertainen data-analyysi Pythonilla
Kirjoitti: Tomin - 31.08.18 - klo:09.48: Pandasin (https://pandas.pydata.org/pandas-docs/stable/) pitäisi osata. Jotain tuon suuntaista tein sillä viime talven aikana. Mielestäni ihan kaikkea ei ollut niin hirveän helppo tehdä, mutta ehkä käytin sitä jotenkin väärin. ::)
Otsikko: Vs: Yksinkertainen data-analyysi Pythonilla
Kirjoitti: JA5U - 31.08.18 - klo:10.00: Lainaus käyttäjältä: Tomin - 31.08.18 - klo:09.48
Pandasin (https://pandas.pydata.org/pandas-docs/stable/) pitäisi osata. Jotain tuon suuntaista tein sillä viime talven aikana. Mielestäni ihan kaikkea ei ollut niin hirveän helppo tehdä, mutta ehkä käytin sitä jotenkin väärin. ::)
Meinaa olla terminologia hukassa enkä tiedä, että mitä tuolta hakisi.
Googlella koitin haeskella, mutten ainakaan valituilla avainsanoilla löytänyt vastausta.

Käsitykseni mukaan tuo on kuitenkin aika tavanomainen "data wrangling method" ja so. voisi kuvitella olevan melko päällimmäisenä jossain dokumentaatiossa.
Tai sitten se on niin perustietoa, ettei sitä mainita missään...

EDIT: Mahdollinen Stackoverflow vastaus: https://stackoverflow.com/questions/35268817/unique-combinations-of-values-in-selected-columns-in-pandas-data-frame-and-count - täytyy testata
Otsikko: Vs: Yksinkertainen data-analyysi Pythonilla
Kirjoitti: JA5U - 31.08.18 - klo:11.03: Ei vielä kovin havainnollinen, mutta data on kunnossa:
Koodia: [Valitse]
import numpy as np import pandas as pd df1 = pd.read_csv('colors.csv') totals = df1.groupby(['A','B']).size().reset_index().rename(columns={0:'count'}) print(totals.to_string())
Lisää yhden uuden sarakkeen 'count' ja esittää siinä eri A-B yhdistelmien summan.