Datavisualisering in Python met Seaborn

luislang
datavisualisering
seegebore
Datavisualisering in Python met Seaborn cover image

Deesdae is die wêreld se waardevolste hulpbron nie meer olie nie, maar data. Visualisering word 'n belangriker hulpmiddel om sin te maak uit die miljarde rye data. Deur data te vertaal in 'n grafiese voorstelling wat maklik is om te interpreteer, help datavisualisering in die datastorievertelling deur relevante inligting, patrone en uitskieters uit te lig. Die data en die grafika moet egter saamwerk: Dit is die kuns om goeie analise met goeie storievertelling te integreer. In hierdie blogpos sal ons vir jou "Sea Born" wys, een van die bekendste visualiseringsinstrumente wat in Python geskryf is.

Visualiseringsinstrumente

Ons gebruik visualiseringsinstrumente om die neigings, patrone, uitskieters en die verband tussen veranderlikes te visualiseer. Dit is 'n baie gewilde vaardigheid, veral vir 'n datawetenskap-loopbaan.

Seegebore

Seaborn is 'n Python-datavisualiseringsbiblioteek gebaseer op matplotlib. Dit bied 'n hoëvlak-koppelvlak om aantreklike en insiggewende statistiese grafika te teken.

Seegebore plotfunksies:

In Seaborn het ons 3 kategorieë erwe

  • Kategoriese erwe.

  • Verspreidingserwe.

  • Relasionele erwe.


Kategoriese plotte

Ons gebruik die kategoriese plotfunksies van seegebore om die neigings van 'n kategoriese veranderlike te visualiseer of om die verwantskap tussen twee veranderlikes met ten minste een kategoriese een te visualiseer.

Tel plot:

  • Toon die tellings van waarnemings van elke kategorie vanaf die kategoriese veranderlike. Ons tel eenvoudig die aantal waarnemings van elke kategorie van die veranderlike
seaborn.catplot(kind = 'count',
                data = dataset,
                x    = 'variable')

Count plot

Kroeg plot:

  • Verteenwoordig 'n skatting van neiging van 'n kontinue veranderlike met die hoogte van reghoek vir elke kategorie van 'n kategoriese veranderlike. Die plotfunksie neem dus twee veranderlikes as invoer, een wat kontinu is en een wat kategories is. Vir elke kategorie vanaf veranderlike_1, bereken ons die neiging van veranderlike_2.

  • Die neiging kan die gemiddelde, die variansie wees, of jy kan 'n pasgemaakte funksie slaag ...

seaborn.catplot(kind = 'bar',**data = dataset,**
                x    = 'variable_1',**y    = 'variable_2',**
                estimator = np.mean)**

Bar Plot

Strook plot:

  • Strokplot is een van die eenvoudigste en mees reguit plotte in datavisualisering, ons teken bloot punte wat die waardes van 'n kontinue veranderlike verteenwoordig. Vir elke kategorie van Veranderlike 1 sal ons die waardes van Veranderlike 2 teken.

Strip Plot

seaborn.catplot(kind = 'strip',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                jitter = 0.15)

Swerm plot:

  • Swerm plot is so soortgelyk aan die strook plot, aangesien dit presies dieselfde funksionaliteit het. Die enigste verskil is in hoe dit die punte vertoon. Terwyl dit in strookplot is, kan datapunte oorvleuel aangesien hulle lukraak op die x-as geplaas word, in swermplot maak ons ​​seker dat punte nie sal oorvleuel deur hulle bo-op mekaar te stapel nie.

  • Die nadeel hier is dat as ons baie datapunte het, dit onmoontlik sou wees om dit nie te oorvleuel nie, so die algoritme sal sommige datapunte uitvee om nie te oorvleuel nie.

Swarm Plot

seaborn.catplot(kind = 'swarm',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Box plot:

  • Box plot word gebruik om die verspreiding van 'n kontinue veranderlike vir elke kategorie van 'n kategoriese veranderlike voor te stel. Alhoewel dit redelik eenvoudig is, lewer dit baie inligting op:

  • Die waardes van die kwartiele:

Die boks het 'n horisontale lyn binne, wat die mediaan verteenwoordig. Die horisontale lyn hierbo is die boonste kwartiele, die een onder dit is die onderste kwartiele.

  • Die uitskieters:

Let daarop dat daar 'n paar punte buite die boks is, hierdie punte verteenwoordig die uitskieters

Box Plot

seaborn.catplot(kind = 'box',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Viool plot:

In plaas daarvan om die verspreidingskassie te plot, sal vioolplot die werklike verspreiding van die kontinue veranderlike vir elke kategorie van die kategoriese veranderlike plot met behulp van KDE (Kernel Density Estimation)

Violin Plot

seaborn.catplot(kind = 'violin',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Verspreidingserwe:

Ons gebruik die verspreidingsplotfunksies van seegebore om die verspreiding van kontinue veranderlikes te visualiseer.

Sy plot:

Die hist plot verteenwoordig die verspreiding van kontinue veranderlikes met behulp van bins.

Hist Plot

seaborn.distplot(kind = 'hist',
                 data = dataset,
                 x    = 'variable',
                 bins = 20)

KDE plot:

Kde plot verteenwoordig die werklike verspreiding van die data, deur gebruik te maak van die Kernel Digtheid Skatting.

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable')

Dit kan ook gebruik word om die tweeveranderlike verspreiding van twee kontinue veranderlikes voor te stel.

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable_1',
                 y    = 'variable_2')

ECDF plot:

ECDF plot verteenwoordig die empiriese kumulatiewe verspreiding van 'n kontinue veranderlike.

ECDF Plot

seaborn.distplot(kind = 'ecdf',
                 data = dataset,
                 x    = 'variable')

Relasionele erwe:

Ons gebruik die relasionele plotfunksies van seegebore om die verwantskap tussen kontinue veranderlikes te visualiseer.

Verspreidingsplot:

  • Dit wys die verwantskap tussen twee kontinue veranderlikes deur eenvoudig al die datapunte te plot.

Scatter Plot

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Lyn plot:

  • Stel die verwantskap tussen veranderlikes as 'n kontinue funksie voor.

Line Plot

seaborn.relplot(kind = 'line',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Meer funksies:

Jy het dalk opgemerk dat ons in al die plotfunksies 'n maksimum van twee veranderlikes per plot gebruik het, maar wat as ons meer veranderlikes in ons visualisering wil invoer? Gelukkig het Seaborn daarvoor gesorg:

Tint:

  • Deur gebruik te maak van kleur kan ons 'n 3de veranderlike bekendstel wat kategories is vir ons visualisering deur kleurkodering te gebruik, dit beteken dat die datapunte wat aan dieselfde kategorie van hierdie 3de veranderlike behoort dieselfde kleur sal hê.

Hue

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3')

Grootte:

  • Grootte is soortgelyk aan kleur, maar gebruik grootte-kodering in plaas van kleurkodering. Dit beteken dat die datapunte wat aan dieselfde kategorie van die 3de veranderlike behoort dieselfde unieke grootte sal hê. Verskillende groottes beteken verskillende kategorieë.

Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                size = 'variable_3',
                sizes = [50, 100])

Styl:

  • Byna dieselfde ding as Hue en Size, dit beteken dat die datapunte wat aan dieselfde kategorie van die 3de veranderlike behoort dieselfde unieke styl sal hê. 'n Puntstyl kan 'n punt, ster, kruis, driehoek wees, … ons noem dit merkers.

Style

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                style = 'variable_3',
                markers = ['X', '*'])

Ons kan ook 'n nuwe kategoriese veranderlike bekendstel deur veelvoude plotte, elke plot behoort aan 'n kategorie van die kategorie kategoriese veranderlike:

Kol:

Sal baie figure horisontaal skep met betrekking tot die 3de veranderlike se kategorieë.

Col

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                col  = 'variable_3')

Ry:

Sal baie figure vertikaal skep met betrekking tot die 3de veranderlike se kategorieë.

Row

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                row  = 'variable_3')

Ons kan ook Hue en Size in dieselfde plot gebruik om 4 veranderlikes voor te stel, of selfs Hue and Style en Col, om 5 veranderlikes in dieselfde plot te gebruik! Ons kan tot 7 veranderlikes (veranderlike 1, veranderlike 2, Hue, Size, Style, Col, Row) in dieselfde plot gebruik, maar dit sal vir ons 'n baie gelaaide plot gee wat so morsig en uiters moeilik is om te interpreteer, soms nie enigsins insiggewend.

Hue & Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3',
                size = 'variable_4')

Gevolgtrekking:

In hierdie pos het ons geleer oor seegebore, sy 3 kategorieë plotfunksies: Kategoriese, Verspreiding en Relasionele plotte, en ons het elke plotfunksie vir elke kategorie verduidelik, alles saam met die luislangkode.

Kyk na ons Data Science Bootcamp om meer oor hierdie onderwerp te wete te kom!


Career Services background pattern

Loopbaandienste

Contact Section background image

Kom ons bly in kontak

Code Labs Academy © 2024 Alle regte voorbehou.