Азыр дүйнөдөгү эң баалуу ресурс мунай эмес, маалыматтар болуп калды. Визуализация миллиарддаган маалыматтар саптарын түшүнүү үчүн маанилүү куралга айланууда. Берилиштерди чечмелөө оңой болгон графикалык көрсөтүүгө которуу менен, маалыматтарды визуализациялоо тиешелүү маалыматты, үлгүлөрдү жана четтөөлөрдү бөлүп көрсөтүү менен маалыматтарды баяндоодо жардам берет. Бирок, маалыматтар жана графика бирге иштеши керек: Бул сонун анализди сонун баяндоо менен бириктирүү искусствосу. Бул блог постунда биз сизге Python тилинде жазылган эң белгилүү визуалдаштыруу куралдарынын бири болгон "Sea Born" көрсөтөбүз.
Визуализация куралдары
Биз тенденцияларды, калыптарды, четтөөлөрдү жана өзгөрмөлөрдүн ортосундагы байланышты визуалдаштыруу үчүн Визуализация куралдарын колдонобуз. Бул өзгөчө маалымат илими карьерасы үчүн талап кылынган чеберчилик.
Seaborn
Seaborn matplotlib негизиндеги Python маалымат визуализация китепканасы. Бул жагымдуу жана маалыматтык статистикалык графиканы тартуу үчүн жогорку деңгээлдеги интерфейсти камсыз кылат.
Деңиз туулгандарынын пландоо функциялары:
Деңизде 3 категориядагы участоктор бар
-
Категориялык участоктор.
-
Бөлүштүрүүчү участоктор.
-
Реляциялык сюжеттер.
Категориялык участоктор
Биз категориялык өзгөрмөнүн тенденцияларын визуализациялоо үчүн же жок дегенде бир категориялуу эки өзгөрмөнүн ортосундагы байланышты визуалдаштыруу үчүн деңиздин категориялык пландоо функцияларын колдонобуз.
Сюжеттин саны:
- Категориялык өзгөрмөдөн ар бир категориядагы байкоолордун санын көрсөтөт. Биз жөн гана өзгөрмөнүн ар бир категориясы боюнча байкоолордун санын санайбыз
seaborn.catplot(kind = 'count',
data = dataset,
x = 'variable')
Бар участогу:
-
Категориялык өзгөрмөнүн ар бир категориясы үчүн тик бурчтуктун бийиктиги менен үзгүлтүксүз өзгөрмөнүн тенденциясын баалоону билдирет. Ошентип, график түзүү функциясы эки өзгөрмөлөрдү киргизүү катары кабыл алат, бири үзгүлтүксүз жана экинчиси категориялык. Variable_1 категориясынын ар бир категориясы үчүн биз өзгөрмө_2нин тенденциясын эсептейбиз.
-
Тенденция орточо, дисперсия болушу мүмкүн же кандайдыр бир өзгөчөлөштүрүлгөн функцияны өткөрүп бере аласыз ...
seaborn.catplot(kind = 'bar',**data = dataset,**
x = 'variable_1',**y = 'variable_2',**
estimator = np.mean)**
Стрит участогу:
- Стрип диаграммасы маалыматтарды визуализациялоодогу эң жөнөкөй жана эң жөнөкөй графиктердин бири, биз жөн гана үзгүлтүксүз өзгөрмөнүн маанилерин билдирген чекиттерди тартабыз. 1 өзгөрмөнүн ар бир категориясы үчүн биз 2 өзгөрмөнүн маанилерин тартабыз.
seaborn.catplot(kind = 'strip',
data = dataset,
x = 'variable_1',
y = 'variable_2',
jitter = 0.15)
Сюжет:
-
Сварм участогу тилке участогуна абдан окшош, анткени ал так эле функцияга ээ. Бир гана айырмасы, ал упайларды көрсөтүүдө. Тасма сюжетинде маалымат чекиттери бири-бирине туш келиши мүмкүн, анткени алар кокусунан x огуна коюлган, ал эми үйрмө сюжетте биз чекиттерди бири-биринин үстүнө тизип, бири-бирине дал келбей турганына ынанабыз.
-
Бул жердеги кемчилик, эгерде бизде маалымат чекиттери көп болсо, аларды каптабоо мүмкүн эмес, ошондуктан алгоритм бири-бирин кайталабоо үчүн кээ бир маалымат чекиттерин жок кылат.
seaborn.catplot(kind = 'swarm',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Куту сюжети:
-
Категориялык өзгөрмөнүн ар бир категориясы үчүн үзгүлтүксүз өзгөрмөнүн бөлүштүрүлүшүн көрсөтүү үчүн кутуча графиги колдонулат. Бул абдан жөнөкөй болсо да, ал көп маалымат берет:
-
Квартилдердин маанилери:
Кутучанын ичинде горизонталдуу сызык бар, ал медиананы билдирет. Жогорудагы горизонталдуу сызык - жогорку квартилдер, анын астындагы - төмөнкү квартилдер.
- Чектөөлөр:
Кутучанын сыртында кээ бир пункттар бар экенине көңүл буруңуз, бул чекиттер четтөөлөрдү билдирет
seaborn.catplot(kind = 'box',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Скрипка сюжети:
Бөлүштүрүү кутучасынын графигин түзүүнүн ордуна, скрипка графиги KDE (Ядро тыгыздыгын баалоо) аркылуу категориялык өзгөрмөнүн ар бир категориясы үчүн үзгүлтүксүз өзгөрмөнүн иш жүзүндө бөлүштүрүлүшүн көрсөтөт.
seaborn.catplot(kind = 'violin',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Бөлүштүрүү участоктору:
Үзгүлтүксүз өзгөрмөлөрдүн бөлүштүрүлүшүн визуализациялоо үчүн биз деңизде туулгандардын бөлүштүрүү графиктерин колдонобуз.
Сюжет:
Hist сюжет бункерлерди колдонуу менен үзгүлтүксүз өзгөрмөлөрдүн бөлүштүрүлүшүн билдирет.
seaborn.distplot(kind = 'hist',
data = dataset,
x = 'variable',
bins = 20)
KDE сюжети:
Kde сюжети ядронун тыгыздыгын баалоону колдонуу менен маалыматтардын иш жүзүндө бөлүштүрүлүшүн билдирет.
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable')
Ал ошондой эле эки үзгүлтүксүз өзгөрмөлөрдүн бивариаттуу бөлүштүрүлүшүн көрсөтүү үчүн колдонулушу мүмкүн.
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable_1',
y = 'variable_2')
ECDF сюжети:
ECDF схемасы үзгүлтүксүз өзгөрмөнүн эмпирикалык кумулятивдик бөлүштүрүлүшүн билдирет.
seaborn.distplot(kind = 'ecdf',
data = dataset,
x = 'variable')
Мамилелер:
Үзгүлтүксүз өзгөрмөлөр ортосундагы байланышты визуалдаштыруу үчүн биз деңиздин реляциялык пландоо функцияларын колдонобуз.
Тарашуу сюжети:
- Бул эки үзгүлтүксүз өзгөрмөнүн ортосундагы байланышты, бардык маалымат чекиттерин жөн гана график менен көрсөтөт.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Сиздик сюжет:
- Өзгөрмөлөрдүн ортосундагы байланышты үзгүлтүксүз функция катары көрсөтөт.
seaborn.relplot(kind = 'line',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Көбүрөөк функциялар:
Сиз бардык график түзүү функцияларында биз ар бир сюжетке эң көп дегенде эки өзгөрмө колдонгонубузду байкагандырсыз, бирок визуализациябызга көбүрөөк өзгөрмөлөрдү киргизгибиз келсе эмне болот? Бактыга жараша, Seaborn буга кам көргөн:
Төң:
- Реңктин жардамы менен биз түс коддоо аркылуу визуализациябызга категориялык 3-өзгөрмө киргизе алабыз, бул бул 3-өзгөрмөнүн бир категориясына кирген маалымат чекиттери бирдей түскө ээ болот дегенди билдирет.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3')
Өлчөмү:
- Өлчөмү түскө окшош, бирок түстүү коддоонун ордуна өлчөмдү коддоону колдонот. Бул 3-өзгөрмөнүн бир категориясына кирген маалымат чекиттери бирдей уникалдуу өлчөмгө ээ болот дегенди билдирет. Ар кандай өлчөмдөр ар кандай категорияларды билдирет.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
size = 'variable_3',
sizes = [50, 100])
Стиль:
- Реңк жана Өлчөм менен дээрлик бирдей, 3-өзгөрмөнүн бир категориясына кирген маалымат чекиттери бирдей уникалдуу стилге ээ болот дегенди билдирет. Чекиттин стили чекит, жылдыз, кайчылаш, үч бурчтук болушу мүмкүн, ... биз аларды маркерлер деп атайбыз.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
style = 'variable_3',
markers = ['X', '*'])
Ошондой эле, биз жаңы категориялык өзгөрмөнү көбөйтүүчү сюжеттерди колдонуу менен киргизсек болот, ар бир сюжет категория категориялык өзгөрмөнүн категориясына кирет:
Кол:
3-өзгөрмө категорияларына карата горизонталдуу көптөгөн фигураларды түзөт.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
col = 'variable_3')
Катар:
3-өзгөрмө категорияларына карата вертикалдуу көптөгөн фигураларды түзөт.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
row = 'variable_3')
Биз ошондой эле бир эле сюжетте 4 өзгөрмөлөрдү көрсөтүү үчүн Hue жана Size колдонсок болот, ал тургай, бир эле сюжетте 5 өзгөрмө колдонуу үчүн Hue жана Style жана Col! Биз бир эле сюжетте 7 өзгөрмө (1 өзгөрмө, 2 өзгөрмө, Реңк, Өлчөм, Стиль, Кол, Катар) колдоно алабыз, бирок ал бизге өтө башаламан жана чечмелөө өтө кыйын, кээде эмес, өтө заряддуу сюжетти берет. дегеле маалыматтык.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3',
size = 'variable_4')
Жыйынтык:
Бул постто биз деңиз туулганы, анын пландоо функцияларынын 3 категориясы жөнүндө билдик: Категориялык, Бөлүштүрүүчү жана Реляциялык сюжеттер жана ар бир категория үчүн ар бир пландоо функциясын питон коду менен бирге түшүндүрүп бердик.
Бул тема тууралуу көбүрөөк билүү үчүн биздин Data Science Bootcamp караңыз!