Datuen bistaratzea Python-en Seaborn-ekin

python
datuen bistaratzea
seaborn
Datuen bistaratzea Python-en Seaborn-ekin cover image

Gaur egun, munduko baliabiderik baliotsuena jada ez da petrolioa, datuak baizik. Bisualizazioa tresna garrantzitsuagoa bihurtzen ari da milaka milioi datu-lerroei zentzua emateko. Datuak interpretatzeko erraza den irudikapen grafiko batean itzultzean, datuen bistaratzeak datuen kontaketan laguntzen du, informazio garrantzitsua, ereduak eta kanpo-egoerak nabarmenduz. Hala ere, datuek eta grafikoek elkarrekin lan egin behar dute: analisi bikainak istorio bikainarekin integratzeko artea da. Blog honetan, "Sea Born" erakutsiko dizugu, Python-en idatzitako bistaratze-tresna ezagunenetako bat.

Bistaratzeko tresnak

Bisualizazio tresnak erabiltzen ditugu joerak, ereduak, outliers eta aldagaien arteko erlazioa ikusteko. Eskaera handiko trebetasuna da batez ere datu zientzietako karrerarako.

Itsasoa

Seaborn matplotlib oinarritutako Python datuen bistaratzeko liburutegia da. Goi-mailako interfaze bat eskaintzen du grafiko estatistiko erakargarri eta informatiboak marrazteko.

Seaborn marrazteko funtzioak:

Itsasoan, 3 lursail kategoria ditugu

  • Lursail kategorikoak.

  • Banaketa-lursailak.

  • Erlazio-lursailak.


Lursail kategorikoak

Seaborn-en grafiko kategorikoko funtzioak erabiltzen ditugu aldagai kategoriko baten joerak ikusteko edo bi aldagaien arteko erlazioa gutxienez kategoriako batekin ikusteko.

Kontatzeko lursaila:

  • Kategoria bakoitzeko behaketen zenbaketak erakusten ditu aldagai kategorikotik. Besterik gabe, aldagaiaren kategoria bakoitzeko behaketa kopurua zenbatu dugu
seaborn.catplot(kind = 'count',
                data = dataset,
                x    = 'variable')

Count plot

Tabernako lursaila:

  • Aldagai jarraitu baten joeraren estimazio bat adierazten du laukizuzenaren altuerarekin aldagai kategoriko baten kategoria bakoitzeko. Beraz, marrazketa-funtzioak bi aldagai hartzen ditu sarrera gisa, bat etengabekoa eta bestea kategorikoa. Aldagai_1 kategoria bakoitzeko, aldagai_2 joera kalkulatuko dugu.

  • Joera batez bestekoa, bariantza izan daiteke edo funtzio pertsonalizaturen bat gainditu dezakezu...

seaborn.catplot(kind = 'bar',**data = dataset,**
                x    = 'variable_1',**y    = 'variable_2',**
                estimator = np.mean)**

Bar Plot

Lursaila:

  • Strip plot datuak bistaratzeko grafiko sinple eta zuzenenetako bat da, aldagai jarraitu baten balioak adierazten dituzten puntuak marraztu besterik ez dugu egiten. 1. aldagaiaren kategoria bakoitzeko, 2. aldagaiaren balioak marraztuko ditugu.

Strip Plot

seaborn.catplot(kind = 'strip',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                jitter = 0.15)

Lursaila:

  • Swarm lursaila strip plotaren oso antzekoa da, funtzionalitate bera baitu. Desberdintasun bakarra puntuak nola bistaratzen dituen da. Banden grafikoan, datu-puntuak gainjarri daitezke ausaz x ardatzean jartzen direnez, swarm grafikoan ziurtatzen dugu puntuak ez direla gainjarri egingo elkarren gainean pilatuz.

  • Hemen eragozpena da datu-puntu asko baditugu, ezinezkoa izango litzateke horiek ez gainjartzea, beraz, algoritmoak datu-puntu batzuk ezabatuko ditu gainjarri ez daitezen.

Swarm Plot

seaborn.catplot(kind = 'swarm',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Kutxatila:

  • Kutxa grafikoa aldagai kategoriko baten kategoria bakoitzeko aldagai jarraitu baten banaketa irudikatzeko erabiltzen da. Nahiz eta sinplea den arren, informazio asko ematen du:

  • Kuartilen balioak:

Kutxak marra horizontal bat dauka barruan, mediana adierazten duena. Goiko marra horizontala goiko kuartilak dira, behean dagoena beheko kuartilak.

  • Kanpokoak:

Kontuan izan koadrotik kanpo puntu batzuk daudela, puntu horiek kanpokoak adierazten dituzte

Box Plot

seaborn.catplot(kind = 'box',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Biolina argumentua:

Banaketa-koadroa marraztu beharrean, biolin grafikoak aldagai kategorikoaren kategoria bakoitzeko aldagai jarraituaren benetako banaketa irudikatuko du KDE (kernel dentsitatearen estimazioa) erabiliz.

Violin Plot

seaborn.catplot(kind = 'violin',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Banaketa lursailak:

Seaborn-en banaketa grafikoaren funtzioak erabiltzen ditugu aldagai jarraituen banaketa ikusteko.

Bere argumentua:

Hist grafikoak aldagai jarraituen banaketa adierazten du binak erabiliz.

Hist Plot

seaborn.distplot(kind = 'hist',
                 data = dataset,
                 x    = 'variable',
                 bins = 20)

KDE grafikoa:

Kde grafikoak datuen benetako banaketa adierazten du, Kernel-en dentsitatearen estimazioa erabiliz.

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable')

Bi aldagai jarraituen banaketa bi aldagaia irudikatzeko ere erabil daiteke.

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable_1',
                 y    = 'variable_2')

ECDF lursaila:

ECDF grafikoak aldagai jarraitu baten banaketa enpiriko metatua adierazten du.

ECDF Plot

seaborn.distplot(kind = 'ecdf',
                 data = dataset,
                 x    = 'variable')

Erlazio-lursailak:

Seaborn-en erlaziozko grafiko-funtzioak erabiltzen ditugu aldagai jarraituen arteko erlazioa ikusteko.

Sakabanatze diagrama:

  • Bi aldagai jarraituen arteko erlazioa erakusten du, datu-puntu guztiak marraztuz besterik gabe.

Scatter Plot

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Lerroaren grafikoa:

  • Aldagaien arteko erlazioa funtzio jarraitu gisa adierazten du.

Line Plot

seaborn.relplot(kind = 'line',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Funtzionalitate gehiago:

Konturatuko zinen grafiko-funtzio guztietan gehienez bi aldagai erabili ditugula grafiko bakoitzeko, baina zer gertatzen da gure bistaratzean aldagai gehiago sartu nahi baditugu? Zorionez, Seaborn arduratu zen horretaz:

Tinta:

  • Hue erabiliz gure bistaratzeko kategorikoa den 3. aldagai bat sartu dezakegu kolore kodeketa erabiliz, esan nahi du 3. aldagai honen kategoria bereko datu-puntuek kolore bera izango dutela.

Hue

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3')

Tamaina:

  • Tamaina ñabarduraren antzekoa da, baina koloreen kodeketaren ordez tamaina kodeketa erabiltzen du. Esan nahi du 3. aldagaiaren kategoria berekoak diren datu puntuek tamaina esklusibo bera izango dutela. Tamaina ezberdinek kategoria desberdinak esan nahi dituzte.

Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                size = 'variable_3',
                sizes = [50, 100])

Estiloa:

  • Hue eta Tamainaren ia gauza bera. Esan nahi du 3. aldagaiaren kategoria bereko datu-puntuek estilo berezi bera izango dutela. Puntu-estilo bat puntua, izarra, gurutzea, triangelua... izan daiteke markatzaileak.

Style

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                style = 'variable_3',
                markers = ['X', '*'])

Aldagai kategoriko berri bat ere sar dezakegu grafiko anitzak erabiliz, grafiko bakoitza aldagai kategorikoko kategoria batekoa da:

Col:

Figura asko sortuko ditu horizontalki 3. aldagaiaren kategoriei dagokienez.

Col

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                col  = 'variable_3')

Errenkada:

Bertikalki zifra asko sortuko ditu 3. aldagaiaren kategoriei dagokienez.

Row

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                row  = 'variable_3')

Hue eta Size ere erabil ditzakegu grafiko berean, 4 aldagai irudikatzeko, edo baita Hue eta Style eta Col, 5 aldagai erabiltzeko grafiko berean! Gehienez 7 aldagai erabil ditzakegu (aldagaia 1, aldagaia 2, Hue, Size, Style, Col, Row) lursail berean, baina oso kargatutako lursail bat emango digu, hain nahasia eta oso zaila da interpretatzen, batzuetan ez. batere informatiboa.

Hue & Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3',
                size = 'variable_4')

Ondorioa:

Argitalpen honetan, seaborn-en berri izan dugu, bere 3 funtzio grafikoen kategoriak: Kategorikoak, Banaketa eta Erlazio grafikoak, eta kategoria bakoitzerako grafiko-funtzio bakoitza azaldu dugu, dena python kodearekin batera.

Ikusi gure Data Science Bootcamp gai honi buruz gehiago jakiteko!


Career Services background pattern

Lanbide Zerbitzuak

Contact Section background image

Jarrai gaitezen harremanetan

Code Labs Academy © 2024 Eskubide guztiak erreserbatuta.