Մեր օրերում աշխարհի ամենաթանկ ռեսուրսն այլևս նավթը չէ, այլ տվյալները։ Վիզուալիզացիան դառնում է ավելի կարևոր գործիք տվյալների միլիարդավոր տողերը հասկանալու համար: Տվյալները հեշտ մեկնաբանվող գրաֆիկական ներկայացման միջոցով թարգմանելով՝ տվյալների վիզուալիզացիան օգնում է տվյալների պատմվածքին՝ ընդգծելով համապատասխան տեղեկատվությունը, օրինաչափությունները և արտաքուստները: Այնուամենայնիվ, տվյալները և գրաֆիկան պետք է աշխատեն միասին. դա հիանալի վերլուծությունը հիանալի պատմվածքի հետ համատեղելու արվեստն է: Այս բլոգի գրառման մեջ մենք ձեզ ցույց կտանք «Sea Born»-ը՝ Python-ով գրված ամենահայտնի վիզուալիզացիայի գործիքներից մեկը:
Վիզուալիզացիայի գործիքներ
Մենք օգտագործում ենք Վիզուալիզացիայի գործիքներ՝ միտումները, օրինաչափությունները, արտաքուստները և փոփոխականների միջև փոխհարաբերությունները պատկերացնելու համար: Դա մեծ պահանջարկ ունեցող հմտություն է հատկապես տվյալների գիտության կարիերայի համար:
Ծովածին
Seaborn-ը Python տվյալների վիզուալիզացիայի գրադարան է՝ հիմնված matplotlib վրա։ Այն ապահովում է բարձր մակարդակի ինտերֆեյս՝ գրավիչ և տեղեկատվական վիճակագրական գրաֆիկա նկարելու համար:
**Ծովային գծագրման գործառույթներ.
Seaborn-ում մենք ունենք 3 կատեգորիայի հողամասեր
-
Կատեգորիկ սյուժեներ.
-
Բաշխիչ հողամասեր.
-
Հարաբերական սյուժեներ.
Կատեգորիկ սյուժեներ
Մենք օգտագործում ենք seaborn-ի կատեգորիկ գծագրման գործառույթները՝ կատեգորիկ փոփոխականի միտումները պատկերացնելու կամ երկու փոփոխականների միջև հարաբերությունը առնվազն մեկ կատեգորիկ մեկի հետ պատկերացնելու համար:
Հաշվի սյուժեն:
- Ցույց է տալիս յուրաքանչյուր կատեգորիայի դիտարկումների քանակը կատեգորիկ փոփոխականից: Մենք պարզապես հաշվում ենք փոփոխականի յուրաքանչյուր կատեգորիայի դիտարկումների քանակը
seaborn.catplot(kind = 'count',
data = dataset,
x = 'variable')
Բար հողամաս:
-
Ներկայացնում է ուղղանկյունի բարձրությամբ շարունակական փոփոխականի տենդենցի գնահատումը կատեգորիկ փոփոխականի յուրաքանչյուր կատեգորիայի համար: Այսպիսով, գծագրման ֆունկցիան ընդունում է երկու փոփոխական՝ որպես մուտքագրում, մեկը՝ շարունակական, և մեկը՝ կատեգորիկ։ variable_1-ից յուրաքանչյուր կատեգորիայի համար մենք հաշվարկում ենք variable_2-ի միտումը:
-
Միտումը կարող է լինել միջինը, շեղումը, կամ կարող եք փոխանցել որոշ հատուկ գործառույթ…
seaborn.catplot(kind = 'bar',**data = dataset,**
x = 'variable_1',**y = 'variable_2',**
estimator = np.mean)**
Սթրիփ հողամաս:
- Շերտապատկերը տվյալների վիզուալիզացիայի ամենապարզ և պարզ գծապատկերներից մեկն է, մենք պարզապես գծում ենք կետեր, որոնք ներկայացնում են շարունակական փոփոխականի արժեքները: Փոփոխական 1-ի յուրաքանչյուր կատեգորիայի համար մենք գծում ենք 2-րդ փոփոխականի արժեքները:
seaborn.catplot(kind = 'strip',
data = dataset,
x = 'variable_1',
y = 'variable_2',
jitter = 0.15)
Swarm հողամաս:
-
Swarm plot-ը շատ նման է ստրիպ սյուժեին, քանի որ այն ունի ճիշտ նույն ֆունկցիոնալությունը: Միակ տարբերությունն այն է, թե ինչպես է այն ցուցադրում միավորները: Շերտի գծապատկերում տվյալների կետերը կարող են համընկնել, քանի որ դրանք պատահականորեն դրված են x առանցքի վրա, երամակային գծապատկերում մենք համոզվում ենք, որ կետերը չեն համընկնում դրանք իրար վրա դնելով:
-
Այստեղ թերությունն այն է, որ եթե մենք ունենք շատ տվյալների կետեր, անհնար կլինի դրանք չհամընկնել, ուստի ալգորիթմը կջնջի որոշ տվյալների կետեր, որպեսզի չհամընկնեն:
seaborn.catplot(kind = 'swarm',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Տուփի հողամաս:
-
Տուփի գծապատկերն օգտագործվում է շարունակական փոփոխականի բաշխումը կատեգորիկ փոփոխականի յուրաքանչյուր կատեգորիայի համար ներկայացնելու համար: Չնայած այն բավականին պարզ է, այն տալիս է շատ տեղեկատվություն.
-
Քառորդների արժեքները.
Տուփը ներսում ունի հորիզոնական գիծ, որը ներկայացնում է միջինը: Վերևի հորիզոնական գիծը վերին քառորդներն են, իսկ ներքևում՝ ստորին քառորդները։
- Արտաքին ցուցանիշները.
Ուշադրություն դարձրեք, որ վանդակից դուրս կան որոշ կետեր, այս կետերը ներկայացնում են ծայրամասերը
seaborn.catplot(kind = 'box',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Ջութակի սյուժեն:
Բաշխման տուփը գծելու փոխարեն, ջութակի սյուժեն կգծի շարունակական փոփոխականի իրական բաշխումը դասակարգային փոփոխականի յուրաքանչյուր կատեգորիայի համար՝ օգտագործելով KDE (միջուկի խտության գնահատում)
seaborn.catplot(kind = 'violin',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Բաշխման հողամասեր:
Մենք օգտագործում ենք ծովային բաշխման գծագրման ֆունկցիաները՝ շարունակական փոփոխականների բաշխումը պատկերացնելու համար:
Պատմության սյուժեն:
Պատմական գծապատկերը ներկայացնում է շարունակական փոփոխականների բաշխումը աղբարկղերի միջոցով:
seaborn.distplot(kind = 'hist',
data = dataset,
x = 'variable',
bins = 20)
KDE սյուժեն:
Kde-ի գծապատկերը ներկայացնում է տվյալների իրական բաշխումը` օգտագործելով միջուկի խտության գնահատումը:
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable')
Այն կարող է օգտագործվել նաև երկու շարունակական փոփոխականների երկփոփոխական բաշխումը ներկայացնելու համար:
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable_1',
y = 'variable_2')
ECDF սյուժեն:
ECDF սյուժեն ներկայացնում է շարունակական փոփոխականի էմպիրիկ կուտակային բաշխումը:
seaborn.distplot(kind = 'ecdf',
data = dataset,
x = 'variable')
Հարաբերական սյուժեներ:
Մենք օգտագործում ենք seaborn-ի հարաբերական գծագրման ֆունկցիաները՝ շարունակական փոփոխականների միջև կապը պատկերացնելու համար:
Ցրված սյուժեն:
- Այն ցույց է տալիս փոխհարաբերությունները երկու շարունակական փոփոխականների միջև՝ պարզապես գծագրելով տվյալների բոլոր կետերը:
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Գծի սյուժեն:
- Ներկայացնում է փոփոխականների միջև կապը որպես շարունակական ֆունկցիա:
seaborn.relplot(kind = 'line',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Ավելի շատ գործառույթներ.
Դուք կարող եք նկատել, որ բոլոր գծագրման գործառույթներում մենք օգտագործում ենք առավելագույնը երկու փոփոխական յուրաքանչյուր գծապատկերում, բայց ի՞նչ, եթե մենք ցանկանում ենք ավելի շատ փոփոխականներ ներմուծել մեր վիզուալիզացիայի մեջ: Բարեբախտաբար, Seaborn-ը հոգացել է այդ մասին.
Գույնը:
- Օգտագործելով երանգը, մենք կարող ենք ներմուծել 3-րդ փոփոխական, որը կատեգորիկ է մեր վիզուալիզացիայի համար՝ օգտագործելով գունային կոդավորումը, դա նշանակում է, որ տվյալների կետերը, որոնք պատկանում են այս 3-րդ փոփոխականի նույն կատեգորիային, կունենան նույն գույնը:
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3')
Չափս:
- Չափը նման է երանգին, բայց օգտագործում է չափի կոդավորում՝ գունային կոդավորման փոխարեն: Դա նշանակում է, որ 3-րդ փոփոխականի նույն կատեգորիային պատկանող տվյալների կետերը կունենան նույն եզակի չափը։ Տարբեր չափերը նշանակում են տարբեր կատեգորիաներ:
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
size = 'variable_3',
sizes = [50, 100])
Ոճը:
- Գրեթե նույնը, ինչ Hue-ն և Size-ը, դա նշանակում է, որ 3-րդ փոփոխականի նույն կատեգորիային պատկանող տվյալների կետերը կունենան նույն յուրահատուկ ոճը: Կետային ոճը կարող է լինել կետ, աստղ, խաչ, եռանկյուն, … մենք դրանք անվանում ենք մարկեր:
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
style = 'variable_3',
markers = ['X', '*'])
Մենք կարող ենք նաև ներմուծել նոր դասակարգային փոփոխական՝ օգտագործելով բազմակի սյուժեները, յուրաքանչյուր սյուժեն պատկանում է կատեգորիայի կատեգորիայի փոփոխականից.
Սկ.:
Կստեղծի բազմաթիվ թվեր հորիզոնական՝ 3-րդ փոփոխականի կատեգորիաների նկատմամբ:
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
col = 'variable_3')
Տող:
Կստեղծի բազմաթիվ թվեր ուղղահայաց՝ 3-րդ փոփոխականի կատեգորիաների նկատմամբ:
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
row = 'variable_3')
Մենք կարող ենք նաև օգտագործել Hue-ը և Size-ը նույն գծապատկերում՝ 4 փոփոխական ներկայացնելու համար, կամ նույնիսկ Hue-ը և Style-ը և Col-ը, նույն գծապատկերում 5 փոփոխական օգտագործելու համար: Մենք կարող ենք օգտագործել մինչև 7 փոփոխական (փոփոխական 1, փոփոխական 2, երանգ, չափ, ոճ, սյուն, տող) նույն սյուժեում, բայց դա մեզ կտա շատ լիցքավորված սյուժե, որն այնքան խառնաշփոթ է և չափազանց դժվար է մեկնաբանել, երբեմն ոչ: ընդհանրապես տեղեկատվական:
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3',
size = 'variable_4')
Եզրակացություն:
Այս գրառման մեջ մենք իմացանք seaborn-ի, նրա գծագրման գործառույթների 3 կատեգորիաների մասին՝ Կատեգորիկ, Բաշխում և Հարաբերական սյուժեներ, և մենք բացատրեցինք յուրաքանչյուր կատեգորիայի գծագրման ֆունկցիան՝ python կոդի հետ միասին:
Ստուգեք մեր Data Science Bootcamp՝ այս թեմայի մասին ավելին իմանալու համար: