Vizualizarea datelor în Python cu Seaborn

Actualizat la September 03, 2024 6 minute de citit

În zilele noastre, cea mai valoroasă resursă a lumii nu mai este petrolul, ci datele. Vizualizarea devine un instrument mai important pentru a înțelege miliardele de rânduri de date. Prin traducerea datelor într-o reprezentare grafică care este ușor de interpretat, vizualizarea datelor ajută la povestirea datelor prin evidențierea informațiilor relevante, a modelelor și a valorii aberante. Cu toate acestea, datele și grafica trebuie să funcționeze împreună: este arta de a integra o analiză excelentă cu o poveste grozavă. În această postare pe blog, vă vom arăta „Sea Born”, unul dintre cele mai cunoscute instrumente de vizualizare scrise în Python.

Instrumente de vizualizare

Folosim instrumente de vizualizare pentru a vizualiza tendințele, modelele, valorile aberante și relația dintre variabile. Este o abilitate foarte solicitată, mai ales pentru o carieră în știința datelor.

Seaborn

Seaborn este o bibliotecă de vizualizare a datelor Python bazată pematplotlib. Oferă o interfață de nivel înalt pentru desenarea graficelor statistice atractive și informative.

Funcții de plotare Seaborn:

În seaborn, avem 3 categorii de parcele

Parcele categoriale.
Parcele de distribuție.
Slocuri relaționale.

Slocuri categoriale

Folosim funcțiile de reprezentare categorială ale seaborn pentru a vizualiza tendințele unei variabile categoriale sau pentru a vizualiza relația dintre două variabile cu cel puțin una categorială.

Complot de numărare:

Afișează numărul de observații pentru fiecare categorie din variabila categorială. Numărăm pur și simplu numărul de observații din fiecare categorie a variabilei

seaborn.catplot(kind = 'count',
                data = dataset,
                x    = 'variable')

Count plot

Parcela de bar:

Reprezintă o estimare a tendinței unei variabile continue cu înălțimea dreptunghiului pentru fiecare categorie a unei variabile categoriale. Deci, funcția de plotare ia ca intrare două variabile, una care este continuă și una care este categorică. Pentru fiecare categorie din variabila_1, calculăm tendința variabilei_2.
Tendința poate fi media, varianța sau puteți trece o funcție personalizată...

seaborn.catplot(kind = 'bar',**data = dataset,**
                x    = 'variable_1',**y    = 'variable_2',**
                estimator = np.mean)**

Bar Plot

Strip plot:

Strip plot este unul dintre cele mai simple și mai directe diagrame în vizualizarea datelor, pur și simplu desenăm puncte care reprezintă valorile unei variabile continue. Pentru fiecare categorie de Variabila 1, vom desena valorile Variabilei 2.

Strip Plot

seaborn.catplot(kind = 'strip',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                jitter = 0.15)

Complot roi:

Slot plot este atât de asemănător cu diagrama strip, deoarece are exact aceeași funcționalitate. Singura diferență este în modul în care afișează punctele. În timp ce în diagrama cu bandă, punctele de date se pot suprapune, deoarece sunt plasate aleatoriu pe axa x, în diagrama roi ne asigurăm că punctele nu se vor suprapune prin stivuirea lor una peste alta.
Dezavantajul aici este că dacă avem o mulțime de puncte de date, ar fi imposibil să nu le suprapunem, așa că algoritmul va șterge unele puncte de date pentru a nu se suprapune.

Swarm Plot

seaborn.catplot(kind = 'swarm',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Box plot:

Box plot este utilizat pentru a reprezenta distribuția unei variabile continue pentru fiecare categorie a unei variabile categoriale. Chiar dacă este destul de simplu, oferă o mulțime de informații:
Valorile quartilelor:

Cutia are o linie orizontală în interior, care reprezintă mediana. Linia orizontală de deasupra este quartilele superioare, cea de sub ea este quartilele inferioare.

Valorile aberante:

Observați că există câteva puncte în afara casetei, aceste puncte reprezintă valorile aberante

Box Plot

seaborn.catplot(kind = 'box',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Complot pentru vioară:

În loc să grafice caseta de distribuție, graficul viorii va reprezenta un grafic distribuția reală a variabilei continue pentru fiecare categorie a variabilei categoriale folosind KDE (Estimarea densității nucleului)

Violin Plot

seaborn.catplot(kind = 'violin',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Parcele de distribuție:

Folosim funcțiile de grafică a distribuției ale seaborn pentru a vizualiza distribuția variabilelor continue.

Complotul său:

Diagrama hist reprezintă distribuția variabilelor continue folosind bins.

Hist Plot

seaborn.distplot(kind = 'hist',
                 data = dataset,
                 x    = 'variable',
                 bins = 20)

Intel KDE:

Diagrama Kde reprezintă distribuția reală a datelor, folosind Estimarea Densității Kernelului.

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable')

Poate fi folosit și pentru a reprezenta distribuția bivariată a două variabile continue.

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable_1',
                 y    = 'variable_2')

Complot ECDF:

Graficul ECDF reprezintă distribuția cumulativă empirică a unei variabile continue.

ECDF Plot

seaborn.distplot(kind = 'ecdf',
                 data = dataset,
                 x    = 'variable')

Parcele relaționale:

Folosim funcțiile de reprezentare relațională ale seaborn pentru a vizualiza relația dintre variabilele continue.

Diplomă de dispersie:

Arată relația dintre două variabile continue, prin simpla reprezentare a tuturor punctelor de date.

Scatter Plot

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Diplomă pe linii:

Reprezintă relația dintre variabile ca o funcție continuă.

Line Plot

seaborn.relplot(kind = 'line',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Mai multe funcționalități:

Poate ați observat că în toate funcțiile de reprezentare am folosit maximum două variabile pe grafic, dar ce se întâmplă dacă dorim să introducem mai multe variabile în vizualizarea noastră? Din fericire, Seaborn s-a ocupat de asta:

Nuanţă:

Folosind hue putem introduce o a treia variabilă care este categorică pentru vizualizarea noastră folosind codificarea culorilor, înseamnă că punctele de date care aparțin aceleiași categorii ale acestei a treia variabile vor avea aceeași culoare.

Hue

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3')

Mărimea:

Dimensiunea este similară cu nuanța, dar folosește codificarea dimensiunii în loc de codificarea culorilor. Înseamnă că punctele de date care aparțin aceleiași categorii a celei de-a 3-a variabile vor avea aceeași dimensiune unică. Mărimi diferite înseamnă categorii diferite.

Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                size = 'variable_3',
                sizes = [50, 100])

Stil:

Aproape același lucru cu Nuanța și dimensiunea, înseamnă că punctele de date care aparțin aceleiași categorii a celei de-a 3-a variabile vor avea același stil unic. Un stil de punct poate fi un punct, stea, cruce, triunghi, … le numim markeri.

Style

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                style = 'variable_3',
                markers = ['X', '*'])

De asemenea, putem introduce o nouă variabilă categorială folosind diagrame multiple, fiecare diagramă aparținând unei categorii din variabila categorială:

Col:

Va crea multe cifre pe orizontală în raport cu categoriile celei de-a treia variabile.

Col

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                col  = 'variable_3')

Rând:

Va crea multe cifre pe verticală în raport cu categoriile celei de-a treia variabile.

Row

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                row  = 'variable_3')

De asemenea, putem folosi Hue și Size în același grafic, pentru a reprezenta 4 variabile, sau chiar Hue și Style și Col, pentru a folosi 5 variabile în același grafic! Putem folosi până la 7 variabile (variabilă 1, variabilă 2, Hue, Size, Style, Col, Row) în aceeași parcelă, dar ne va oferi un complot foarte încărcat, care este atât de dezordonat și extrem de greu de interpretat, uneori nu informativ deloc.

Hue & Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3',
                size = 'variable_4')

Concluzie:

În această postare, am aflat despre seaborn, cele 3 categorii ale sale de funcții de plotare: ploturi categoriale, de distribuție și relaționale și am explicat fiecare funcție de plotare pentru fiecare categorie, împreună cu codul python.

Consultați Data Science Bootcamp pentru a afla mai multe despre acest subiect!