İndi dünyanın ən qiymətli resursu artıq neft deyil, məlumatlardır. Vizuallaşdırma milyardlarla məlumat cərgəsini mənalandırmaq üçün daha vacib bir vasitəyə çevrilir. Verilənləri şərh etmək asan olan qrafik təsvirə çevirməklə, məlumatların vizuallaşdırılması müvafiq məlumatları, nümunələri və kənar göstəriciləri vurğulamaqla məlumat hekayətinə kömək edir. Bununla belə, məlumatlar və qrafika birlikdə işləməlidir: Bu, böyük təhlili möhtəşəm hekayə ilə birləşdirməyin sənətidir. Bu bloq yazısında biz sizə Python-da yazılmış ən məşhur vizuallaşdırma vasitələrindən biri olan "Sea Born"u göstərəcəyik.
Vizuallaşdırma alətləri
Biz trendləri, nümunələri, kənar göstəriciləri və dəyişənlər arasındakı əlaqəni vizuallaşdırmaq üçün Vizuallaşdırma alətlərindən istifadə edirik. Xüsusilə məlumat elmi karyerası üçün çox tələb olunan bir bacarıqdır.
Dənizdə doğulmuş
Seaborn matplotlib əsasında Python məlumat vizuallaşdırma kitabxanasıdır. O, cəlbedici və informativ statistik qrafiklərin çəkilməsi üçün yüksək səviyyəli interfeys təqdim edir.
Dəniz övladının planlaşdırılması funksiyaları:
Dənizdə 3 kateqoriyalı sahəmiz var
-
Kateqorik süjetlər.
-
Paylama sahələri.
-
Əlaqəli süjetlər.
Kateqorik süjetlər
Kateqorik dəyişənin meyllərini vizuallaşdırmaq və ya ən azı bir kateqoriya ilə iki dəyişən arasındakı əlaqəni vizuallaşdırmaq üçün dəniz doğulmasının kateqoriyalı planlama funksiyalarından istifadə edirik.
Süjet sayı:
- Kateqorik dəyişəndən hər bir kateqoriya üzrə müşahidələrin sayını göstərir. Biz sadəcə olaraq dəyişənin hər bir kateqoriyası üzrə müşahidələrin sayını hesablayırıq
seaborn.catplot(kind = 'count',
data = dataset,
x = 'variable')
Bar sahəsi:
-
Kateqorik dəyişənin hər bir kateqoriyası üçün düzbucaqlı hündürlüyü ilə davamlı dəyişənin meylinin təxminini təmsil edir. Beləliklə, qrafik funksiyası giriş kimi iki dəyişən qəbul edir, biri davamlı, digəri isə kateqoriyalı. Dəyişən_1-dən hər bir kateqoriya üçün biz dəyişən_2-nin meylini hesablayırıq.
-
Meyil orta, fərqlilik ola bilər və ya bəzi xüsusi funksiyanı keçə bilərsiniz...
seaborn.catplot(kind = 'bar',**data = dataset,**
x = 'variable_1',**y = 'variable_2',**
estimator = np.mean)**
Zolaq sahəsi:
- Strip plot verilənlərin vizuallaşdırılmasında ən sadə və ən sadə süjetlərdən biridir, biz sadəcə olaraq davamlı dəyişənin dəyərlərini təmsil edən nöqtələr çəkirik. Dəyişən 1-in hər bir kateqoriyası üçün Dəyişən 2-nin qiymətlərini çəkəcəyik.
seaborn.catplot(kind = 'strip',
data = dataset,
x = 'variable_1',
y = 'variable_2',
jitter = 0.15)
Sürü süjeti:
-
Swarm süjeti zolaq sahəsinə çox bənzəyir, çünki o, tam olaraq eyni funksionallığa malikdir. Yeganə fərq xalları necə göstərməsindədir. Zolaqlı süjetdə məlumat nöqtələri təsadüfi olaraq x oxuna qoyulduğu üçün üst-üstə düşə bilər, sürü xəttində nöqtələrin üst-üstə yığılmayacağına əmin oluruq.
-
Buradakı çatışmazlıq ondan ibarətdir ki, əgər çoxlu məlumat nöqtələrimiz varsa, onları üst-üstə düşməmək mümkün olmayacaq, ona görə də alqoritm üst-üstə düşməmək üçün bəzi məlumat nöqtələrini siləcək.
seaborn.catplot(kind = 'swarm',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Qutu sahəsi:
-
Qutu sahəsi kateqoriyalı dəyişənin hər bir kateqoriyası üçün davamlı dəyişənin paylanmasını təmsil etmək üçün istifadə olunur. Olduqca sadə olsa da, çoxlu məlumat verir:
-
Kvartillərin dəyərləri:
Qutunun içərisində medianı təmsil edən üfüqi bir xətt var. Yuxarıdakı üfüqi xətt yuxarı kvartillər, altındakı isə aşağı kvartillərdir.
- Həddindən artıq göstəricilər:
Diqqət yetirin ki, qutunun xaricində bəzi nöqtələr var, bu nöqtələr kənar göstəriciləri təmsil edir
seaborn.catplot(kind = 'box',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Skripka süjeti:
Paylama qutusunun qrafikini çəkmək əvəzinə, skripka süjeti KDE-dən istifadə edərək kateqoriya dəyişənin hər bir kateqoriyası üçün fasiləsiz dəyişənin faktiki paylanmasını təyin edəcək (Lazığın Sıxlığının Təxmini )
seaborn.catplot(kind = 'violin',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Paylanma sahələri:
Davamlı dəyişənlərin paylanmasını vizuallaşdırmaq üçün dənizdə doğulanların paylanma planı funksiyalarından istifadə edirik.
Tarix süjeti:
Hist sahəsi zibil qutularından istifadə edərək davamlı dəyişənlərin paylanmasını təmsil edir.
seaborn.distplot(kind = 'hist',
data = dataset,
x = 'variable',
bins = 20)
KDE süjeti:
Kde planı nüvə sıxlığının təxminindən istifadə edərək məlumatların faktiki paylanmasını əks etdirir.
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable')
O, həmçinin iki davamlı dəyişənin bivariativ paylanmasını təmsil etmək üçün istifadə edilə bilər.
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable_1',
y = 'variable_2')
ECDF süjeti:
ECDF qrafiki davamlı dəyişənin empirik kumulyativ paylanmasını təmsil edir.
seaborn.distplot(kind = 'ecdf',
data = dataset,
x = 'variable')
Əlaqəli süjetlər:
Davamlı dəyişənlər arasındakı əlaqəni vizuallaşdırmaq üçün dənizdə doğulanların relational planlama funksiyalarından istifadə edirik.
Səpələnmə süjeti:
- Bu, sadəcə olaraq bütün məlumat nöqtələrini tərtib etməklə iki davamlı dəyişən arasındakı əlaqəni göstərir.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Xətt süjeti:
- Dəyişənlər arasındakı əlaqəni davamlı funksiya kimi təmsil edir.
seaborn.relplot(kind = 'line',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Daha çox funksiyalar:
Ola bilsin ki, siz qeyd etmişsiniz ki, bütün qrafikləşdirmə funksiyalarında biz hər bir süjet üçün maksimum iki dəyişəndən istifadə edirik, lakin vizualizasiyamızda daha çox dəyişən təqdim etmək istəsək nə olar? Xoşbəxtlikdən Seaborn bununla məşğul oldu:
Rəng:
- Rəng kodlaşdırmasından istifadə edərək vizuallaşdırmamız üçün kateqoriyalı olan 3-cü dəyişəni təqdim edə bilərik, bu o deməkdir ki, bu 3-cü dəyişənin eyni kateqoriyasına aid olan məlumat nöqtələri eyni rəngə sahib olacaq.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3')
Ölçü:
- Ölçü rəngə bənzəyir, lakin rəng kodlaması əvəzinə ölçü kodlaşdırmasından istifadə edir. Bu o deməkdir ki, 3-cü dəyişənin eyni kateqoriyasına aid olan məlumat nöqtələri eyni unikal ölçüyə malik olacaq. Fərqli ölçülər müxtəlif kateqoriyalar deməkdir.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
size = 'variable_3',
sizes = [50, 100])
Üslub:
- Rəng və Ölçü ilə demək olar ki, eyni şeydir, bu o deməkdir ki, 3-cü dəyişənin eyni kateqoriyasına aid olan məlumat nöqtələri eyni unikal üsluba malik olacaq. Nöqtə üslubu nöqtə, ulduz, xaç, üçbucaq ola bilər... biz onlara markerlər deyirik.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
style = 'variable_3',
markers = ['X', '*'])
Biz, həmçinin, kateqoriyalı dəyişənlərdən istifadə edərək yeni kateqoriyalı dəyişən təqdim edə bilərik, hər bir süjet kateqoriya kateqoriyalı dəyişənin kateqoriyasına aiddir:
Col:
3-cü dəyişənin kateqoriyalarına görə üfüqi şəkildə çoxlu rəqəmlər yaradacaq.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
col = 'variable_3')
Sıra:
3-cü dəyişənin kateqoriyalarına görə şaquli olaraq çoxlu rəqəmlər yaradacaq.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
row = 'variable_3')
Biz eyni süjetdə 4 dəyişəni təmsil etmək üçün Hue və Size, hətta eyni süjetdə 5 dəyişəni istifadə etmək üçün Hue və Style və Col-dan istifadə edə bilərik! Eyni süjetdə 7-ə qədər dəyişən (dəyişən 1, dəyişən 2, Rəng, Ölçü, Üslub, Rəng, Sıra) istifadə edə bilərik, lakin bu, bizə çox yüklü bir süjet verəcək ki, o qədər qarışıq və şərh etmək çox çətindir, bəzən yox. ümumiyyətlə məlumatlandırıcıdır.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3',
size = 'variable_4')
Nəticə:
Bu yazıda biz dəniz doğulanları, onun 3 kateqoriyalı planlama funksiyaları haqqında öyrəndik: Kateqorik, Paylama və Əlaqəli süjetlər və biz hər bir kateqoriya üçün hər bir plan qurma funksiyasını piton kodu ilə birlikdə izah etdik.
Bu mövzu haqqında daha çox öyrənmək üçün Data Science Bootcamp ilə tanış olun!