Datu vizualizācija Python ar Seaborn

python
datu vizualizācija
seaborn
Datu vizualizācija Python ar Seaborn cover image

Mūsdienās pasaules vērtīgākais resurss vairs nav nafta, bet gan dati. Vizualizācija kļūst par svarīgāku rīku, lai izprastu miljardiem datu rindu. Pārvēršot datus viegli interpretējamā grafiskā attēlojumā, datu vizualizācija palīdz datu stāstīšanai, izceļot attiecīgo informāciju, modeļus un novirzes. Tomēr datiem un grafikai ir jādarbojas kopā: tā ir māksla apvienot lielisku analīzi ar lielisku stāstu. Šajā emuāra ierakstā mēs jums parādīsim "Sea Born", kas ir viens no vispazīstamākajiem Python rakstītajiem vizualizācijas rīkiem.

Vizualizācijas rīki

Mēs izmantojam vizualizācijas rīkus, lai vizualizētu tendences, modeļus, novirzes un attiecības starp mainīgajiem. Tā ir ļoti pieprasīta prasme, īpaši datu zinātnes karjerai.

Seaborn

Seaborn ir Python datu vizualizācijas bibliotēka, kuras pamatā ir matplotlib. Tas nodrošina augsta līmeņa saskarni pievilcīgas un informatīvas statistikas grafikas zīmēšanai.

Jūras zīmēšanas funkcijas:

Jūrā mums ir 3 zemes gabalu kategorijas

  • Kategoriski sižeti.

  • Sadales zemes gabali.

  • Attiecību sižeti.


Kategoriski sižeti

Mēs izmantojam jūras piedzimšanas kategoriskās diagrammas funkcijas, lai vizualizētu kategoriskā mainīgā tendences vai vizualizētu attiecības starp diviem mainīgajiem ar vismaz vienu kategorisko.

Skatīt sižetu:

  • Parāda katras kategorijas novērojumu skaitu no kategorijas mainīgā. Mēs vienkārši saskaitām katras mainīgā kategorijas novērojumu skaitu
seaborn.catplot(kind = 'count',
                data = dataset,
                x    = 'variable')

Count plot

Bāra gabals:

  • Apzīmē nepārtraukta mainīgā ar taisnstūra augstumu tendences novērtējumu katrai kategoriskā mainīgā kategorijai. Tātad diagrammas funkcija kā ievadi izmanto divus mainīgos, vienu nepārtrauktu un otru kategorisku. Katrai kategorijai no mainīgā_1 mēs aprēķinām mainīgā_2 tendenci.

  • Tendence var būt vidējā vērtība, novirze vai arī jūs varat nodot kādu pielāgotu funkciju…

seaborn.catplot(kind = 'bar',**data = dataset,**
                x    = 'variable_1',**y    = 'variable_2',**
                estimator = np.mean)**

Bar Plot

Sloksnes sižets:

  • Sloksnes diagramma ir viena no vienkāršākajām un vienkāršākajām datu vizualizācijas diagrammām, mēs vienkārši uzzīmējam punktus, kas attēlo nepārtraukta mainīgā vērtības. Katrai 1. mainīgā kategorijai mēs uzzīmēsim 2. mainīgā vērtības.

Strip Plot

seaborn.catplot(kind = 'strip',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                jitter = 0.15)

Bara gabals:

  • Swarm gabals ir tik līdzīgs sloksnes gabalam, jo ​​tam ir tieši tāda pati funkcionalitāte. Vienīgā atšķirība ir tajā, kā tas parāda punktus. Kamēr joslas diagrammā datu punkti var pārklāties, jo tie ir nejauši novietoti uz x ass, spieta diagrammā mēs nodrošinām, ka punkti nepārklāsies, saliekot tos vienu virs otra.

  • Trūkums ir tāds, ka, ja mums ir daudz datu punktu, nebūtu iespējams tos nepārklāt, tāpēc algoritms izdzēsīs dažus datu punktus, lai tie nepārklātos.

Swarm Plot

seaborn.catplot(kind = 'swarm',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Kastes sižets:

  • Kastes diagramma tiek izmantota, lai attēlotu nepārtraukta mainīgā sadalījumu katrai kategoriskā mainīgā kategorijai. Lai gan tas ir diezgan vienkārši, tas sniedz daudz informācijas:

  • Kvartiļu vērtības:

Kastītes iekšpusē ir horizontāla līnija, kas apzīmē mediānu. Horizontālā līnija augšpusē ir augšējās kvartiles, bet zem tās ir apakšējās kvartiles.

  • Ārpuses:

Ņemiet vērā, ka daži punkti ir ārpus lodziņa, šie punkti ir novirzes

Box Plot

seaborn.catplot(kind = 'box',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Vijoles sižets:

Tā vietā, lai attēlotu sadales lodziņu, vijoles grafiks attēlo nepārtrauktā mainīgā faktisko sadalījumu katrai kategoriskā mainīgā kategorijai, izmantojot KDE (kodola blīvuma novērtējums).

Violin Plot

seaborn.catplot(kind = 'violin',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Izplatības gabali:

Mēs izmantojam jūras izcelsmes sadalījuma diagrammas funkcijas, lai vizualizētu nepārtraukto mainīgo sadalījumu.

Viņa sižets:

Hist diagramma attēlo nepārtraukto mainīgo sadalījumu, izmantojot tvertnes.

Hist Plot

seaborn.distplot(kind = 'hist',
                 data = dataset,
                 x    = 'variable',
                 bins = 20)

KDE sižets:

Kde diagramma attēlo faktisko datu sadalījumu, izmantojot kodola blīvuma novērtējumu.

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable')

To var arī izmantot, lai attēlotu divu nepārtrauktu mainīgo divfaktoru sadalījumu.

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable_1',
                 y    = 'variable_2')

ECDF sižets:

ECDF diagramma attēlo nepārtraukta mainīgā empīrisko kumulatīvo sadalījumu.

ECDF Plot

seaborn.distplot(kind = 'ecdf',
                 data = dataset,
                 x    = 'variable')

Attiecību sižeti:

Mēs izmantojam jūras izcelsmes relāciju diagrammas funkcijas, lai vizualizētu attiecības starp nepārtrauktiem mainīgajiem.

Izkliedes diagramma:

  • Tas parāda attiecības starp diviem nepārtrauktiem mainīgajiem, vienkārši uzzīmējot visus datu punktus.

Scatter Plot

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Līnijas grafiks:

  • Attēlo attiecības starp mainīgajiem kā nepārtrauktu funkciju.

Line Plot

seaborn.relplot(kind = 'line',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Citas funkcijas:

Iespējams, esat ievērojuši, ka visās diagrammas funkcijās mēs esam izmantojuši ne vairāk kā divus mainīgos vienā diagrammā, bet ko darīt, ja mēs vēlamies savā vizualizācijā ieviest vairāk mainīgo? Par laimi Seaborn par to parūpējās:

Nokrāsa:

  • Izmantojot nokrāsu, mēs varam ieviest 3. mainīgo, kas ir kategorisks mūsu vizualizācijai, izmantojot krāsu kodējumu, tas nozīmē, ka datu punktiem, kas pieder vienai šī 3. mainīgā kategorijai, būs tāda pati krāsa.

Hue

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3')

Izmērs:

  • Izmērs ir līdzīgs nokrāsai, taču krāsu kodējuma vietā tiek izmantots izmēra kodējums. Tas nozīmē, ka datu punktiem, kas pieder vienai un tai pašai 3. mainīgā kategorijai, būs vienāds unikālais izmērs. Dažādi izmēri nozīmē dažādas kategorijas.

Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                size = 'variable_3',
                sizes = [50, 100])

Stils:

  • Gandrīz tas pats, kas nokrāsa un izmērs. Tas nozīmē, ka datu punktiem, kas pieder vienai un tai pašai 3. mainīgā kategorijai, būs tāds pats unikālais stils. Punktu stils var būt punkts, zvaigzne, krusts, trīsstūris, … mēs tos saucam par marķieriem.

Style

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                style = 'variable_3',
                markers = ['X', '*'])

Mēs varam arī ieviest jaunu kategorisko mainīgo, izmantojot daudzkārtējos diagrammas, katrs paraugs pieder kategorijai no kategorijas kategoriskā mainīgā:

Kol:

Izveidos daudzus skaitļus horizontāli attiecībā uz 3. mainīgā kategorijām.

Col

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                col  = 'variable_3')

Rinda:

Izveidos daudzus skaitļus vertikāli attiecībā uz 3. mainīgā kategorijām.

Row

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                row  = 'variable_3')

Mēs varam arī izmantot nokrāsu un izmēru vienā un tajā pašā diagrammā, lai attēlotu 4 mainīgos, vai pat nokrāsu un stilu un kolu, lai vienā diagrammā izmantotu 5 mainīgos! Mēs varam izmantot līdz pat 7 mainīgajiem (mainīgais 1, mainīgais 2, Hue, Size, Style, Col, Row ) vienā un tajā pašā grafikā, taču tas mums iegūs ļoti uzlādētu grafiku, kas ir tik nekārtīgs un ārkārtīgi grūti interpretējams, dažreiz ne. vispār informatīvi.

Hue & Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3',
                size = 'variable_4')

Secinājums:

Šajā ziņojumā mēs uzzinājām par jūras piedzimšanu, tās 3 diagrammu funkciju kategorijām: kategorisko, sadalījuma un relāciju diagrammām, kā arī izskaidrojām katras kategorijas attēlošanas funkciju, kā arī pitona kodu.

Apskatiet mūsu Data Science Bootcamp, lai uzzinātu vairāk par šo tēmu!


Career Services background pattern

Karjeras pakalpojumi

Contact Section background image

Sazināsimies

Code Labs Academy © 2024 Visas tiesības paturētas.