Gaur egun, munduko baliabiderik baliotsuena jada ez da petrolioa, datuak baizik. Bisualizazioa tresna garrantzitsuagoa bihurtzen ari da milaka milioi datu-lerroei zentzua emateko. Datuak interpretatzeko erraza den irudikapen grafiko batean itzultzean, datuen bistaratzeak datuen kontaketan laguntzen du, informazio garrantzitsua, ereduak eta kanpo-egoerak nabarmenduz. Hala ere, datuek eta grafikoek elkarrekin lan egin behar dute: analisi bikainak istorio bikainarekin integratzeko artea da. Blog honetan, "Sea Born" erakutsiko dizugu, Python-en idatzitako bistaratze-tresna ezagunenetako bat.
Bistaratzeko tresnak
Bisualizazio tresnak erabiltzen ditugu joerak, ereduak, outliers eta aldagaien arteko erlazioa ikusteko. Eskaera handiko trebetasuna da batez ere datu zientzietako karrerarako.
Itsasoa
Seaborn matplotlib oinarritutako Python datuen bistaratzeko liburutegia da. Goi-mailako interfaze bat eskaintzen du grafiko estatistiko erakargarri eta informatiboak marrazteko.
Seaborn marrazteko funtzioak:
Itsasoan, 3 lursail kategoria ditugu
-
Lursail kategorikoak.
-
Banaketa-lursailak.
-
Erlazio-lursailak.
Lursail kategorikoak
Seaborn-en grafiko kategorikoko funtzioak erabiltzen ditugu aldagai kategoriko baten joerak ikusteko edo bi aldagaien arteko erlazioa gutxienez kategoriako batekin ikusteko.
Kontatzeko lursaila:
- Kategoria bakoitzeko behaketen zenbaketak erakusten ditu aldagai kategorikotik. Besterik gabe, aldagaiaren kategoria bakoitzeko behaketa kopurua zenbatu dugu
seaborn.catplot(kind = 'count',
data = dataset,
x = 'variable')
Tabernako lursaila:
-
Aldagai jarraitu baten joeraren estimazio bat adierazten du laukizuzenaren altuerarekin aldagai kategoriko baten kategoria bakoitzeko. Beraz, marrazketa-funtzioak bi aldagai hartzen ditu sarrera gisa, bat etengabekoa eta bestea kategorikoa. Aldagai_1 kategoria bakoitzeko, aldagai_2 joera kalkulatuko dugu.
-
Joera batez bestekoa, bariantza izan daiteke edo funtzio pertsonalizaturen bat gainditu dezakezu...
seaborn.catplot(kind = 'bar',**data = dataset,**
x = 'variable_1',**y = 'variable_2',**
estimator = np.mean)**
Lursaila:
- Strip plot datuak bistaratzeko grafiko sinple eta zuzenenetako bat da, aldagai jarraitu baten balioak adierazten dituzten puntuak marraztu besterik ez dugu egiten. 1. aldagaiaren kategoria bakoitzeko, 2. aldagaiaren balioak marraztuko ditugu.
seaborn.catplot(kind = 'strip',
data = dataset,
x = 'variable_1',
y = 'variable_2',
jitter = 0.15)
Lursaila:
-
Swarm lursaila strip plotaren oso antzekoa da, funtzionalitate bera baitu. Desberdintasun bakarra puntuak nola bistaratzen dituen da. Banden grafikoan, datu-puntuak gainjarri daitezke ausaz x ardatzean jartzen direnez, swarm grafikoan ziurtatzen dugu puntuak ez direla gainjarri egingo elkarren gainean pilatuz.
-
Hemen eragozpena da datu-puntu asko baditugu, ezinezkoa izango litzateke horiek ez gainjartzea, beraz, algoritmoak datu-puntu batzuk ezabatuko ditu gainjarri ez daitezen.
seaborn.catplot(kind = 'swarm',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Kutxatila:
-
Kutxa grafikoa aldagai kategoriko baten kategoria bakoitzeko aldagai jarraitu baten banaketa irudikatzeko erabiltzen da. Nahiz eta sinplea den arren, informazio asko ematen du:
-
Kuartilen balioak:
Kutxak marra horizontal bat dauka barruan, mediana adierazten duena. Goiko marra horizontala goiko kuartilak dira, behean dagoena beheko kuartilak.
- Kanpokoak:
Kontuan izan koadrotik kanpo puntu batzuk daudela, puntu horiek kanpokoak adierazten dituzte
seaborn.catplot(kind = 'box',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Biolina argumentua:
Banaketa-koadroa marraztu beharrean, biolin grafikoak aldagai kategorikoaren kategoria bakoitzeko aldagai jarraituaren benetako banaketa irudikatuko du KDE (kernel dentsitatearen estimazioa) erabiliz.
seaborn.catplot(kind = 'violin',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Banaketa lursailak:
Seaborn-en banaketa grafikoaren funtzioak erabiltzen ditugu aldagai jarraituen banaketa ikusteko.
Bere argumentua:
Hist grafikoak aldagai jarraituen banaketa adierazten du binak erabiliz.
seaborn.distplot(kind = 'hist',
data = dataset,
x = 'variable',
bins = 20)
KDE grafikoa:
Kde grafikoak datuen benetako banaketa adierazten du, Kernel-en dentsitatearen estimazioa erabiliz.
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable')
Bi aldagai jarraituen banaketa bi aldagaia irudikatzeko ere erabil daiteke.
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable_1',
y = 'variable_2')
ECDF lursaila:
ECDF grafikoak aldagai jarraitu baten banaketa enpiriko metatua adierazten du.
seaborn.distplot(kind = 'ecdf',
data = dataset,
x = 'variable')
Erlazio-lursailak:
Seaborn-en erlaziozko grafiko-funtzioak erabiltzen ditugu aldagai jarraituen arteko erlazioa ikusteko.
Sakabanatze diagrama:
- Bi aldagai jarraituen arteko erlazioa erakusten du, datu-puntu guztiak marraztuz besterik gabe.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Lerroaren grafikoa:
- Aldagaien arteko erlazioa funtzio jarraitu gisa adierazten du.
seaborn.relplot(kind = 'line',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Funtzionalitate gehiago:
Konturatuko zinen grafiko-funtzio guztietan gehienez bi aldagai erabili ditugula grafiko bakoitzeko, baina zer gertatzen da gure bistaratzean aldagai gehiago sartu nahi baditugu? Zorionez, Seaborn arduratu zen horretaz:
Tinta:
- Hue erabiliz gure bistaratzeko kategorikoa den 3. aldagai bat sartu dezakegu kolore kodeketa erabiliz, esan nahi du 3. aldagai honen kategoria bereko datu-puntuek kolore bera izango dutela.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3')
Tamaina:
- Tamaina ñabarduraren antzekoa da, baina koloreen kodeketaren ordez tamaina kodeketa erabiltzen du. Esan nahi du 3. aldagaiaren kategoria berekoak diren datu puntuek tamaina esklusibo bera izango dutela. Tamaina ezberdinek kategoria desberdinak esan nahi dituzte.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
size = 'variable_3',
sizes = [50, 100])
Estiloa:
- Hue eta Tamainaren ia gauza bera. Esan nahi du 3. aldagaiaren kategoria bereko datu-puntuek estilo berezi bera izango dutela. Puntu-estilo bat puntua, izarra, gurutzea, triangelua... izan daiteke markatzaileak.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
style = 'variable_3',
markers = ['X', '*'])
Aldagai kategoriko berri bat ere sar dezakegu grafiko anitzak erabiliz, grafiko bakoitza aldagai kategorikoko kategoria batekoa da:
Col:
Figura asko sortuko ditu horizontalki 3. aldagaiaren kategoriei dagokienez.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
col = 'variable_3')
Errenkada:
Bertikalki zifra asko sortuko ditu 3. aldagaiaren kategoriei dagokienez.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
row = 'variable_3')
Hue eta Size ere erabil ditzakegu grafiko berean, 4 aldagai irudikatzeko, edo baita Hue eta Style eta Col, 5 aldagai erabiltzeko grafiko berean! Gehienez 7 aldagai erabil ditzakegu (aldagaia 1, aldagaia 2, Hue, Size, Style, Col, Row) lursail berean, baina oso kargatutako lursail bat emango digu, hain nahasia eta oso zaila da interpretatzen, batzuetan ez. batere informatiboa.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3',
size = 'variable_4')
Ondorioa:
Argitalpen honetan, seaborn-en berri izan dugu, bere 3 funtzio grafikoen kategoriak: Kategorikoak, Banaketa eta Erlazio grafikoak, eta kategoria bakoitzerako grafiko-funtzio bakoitza azaldu dugu, dena python kodearekin batera.
Ikusi gure Data Science Bootcamp gai honi buruz gehiago jakiteko!