Տվյալների պատկերացում Python-ում Seaborn-ով

python
տվյալների վիզուալիզացիա
ծովածին
Տվյալների պատկերացում Python-ում Seaborn-ով cover image

Մեր օրերում աշխարհի ամենաթանկ ռեսուրսն այլևս նավթը չէ, այլ տվյալները։ Վիզուալիզացիան դառնում է ավելի կարևոր գործիք տվյալների միլիարդավոր տողերը հասկանալու համար: Տվյալները հեշտ մեկնաբանվող գրաֆիկական ներկայացման միջոցով թարգմանելով՝ տվյալների վիզուալիզացիան օգնում է տվյալների պատմվածքին՝ ընդգծելով համապատասխան տեղեկատվությունը, օրինաչափությունները և արտաքուստները: Այնուամենայնիվ, տվյալները և գրաֆիկան պետք է աշխատեն միասին. դա հիանալի վերլուծությունը հիանալի պատմվածքի հետ համատեղելու արվեստն է: Այս բլոգի գրառման մեջ մենք ձեզ ցույց կտանք «Sea Born»-ը՝ Python-ով գրված ամենահայտնի վիզուալիզացիայի գործիքներից մեկը:

Վիզուալիզացիայի գործիքներ

Մենք օգտագործում ենք Վիզուալիզացիայի գործիքներ՝ միտումները, օրինաչափությունները, արտաքուստները և փոփոխականների միջև փոխհարաբերությունները պատկերացնելու համար: Դա մեծ պահանջարկ ունեցող հմտություն է հատկապես տվյալների գիտության կարիերայի համար:

Ծովածին

Seaborn-ը Python տվյալների վիզուալիզացիայի գրադարան է՝ հիմնված matplotlib վրա։ Այն ապահովում է բարձր մակարդակի ինտերֆեյս՝ գրավիչ և տեղեկատվական վիճակագրական գրաֆիկա նկարելու համար:

**Ծովային գծագրման գործառույթներ.

Seaborn-ում մենք ունենք 3 կատեգորիայի հողամասեր

  • Կատեգորիկ սյուժեներ.

  • Բաշխիչ հողամասեր.

  • Հարաբերական սյուժեներ.


Կատեգորիկ սյուժեներ

Մենք օգտագործում ենք seaborn-ի կատեգորիկ գծագրման գործառույթները՝ կատեգորիկ փոփոխականի միտումները պատկերացնելու կամ երկու փոփոխականների միջև հարաբերությունը առնվազն մեկ կատեգորիկ մեկի հետ պատկերացնելու համար:

Հաշվի սյուժեն:

  • Ցույց է տալիս յուրաքանչյուր կատեգորիայի դիտարկումների քանակը կատեգորիկ փոփոխականից: Մենք պարզապես հաշվում ենք փոփոխականի յուրաքանչյուր կատեգորիայի դիտարկումների քանակը
seaborn.catplot(kind = 'count',
                data = dataset,
                x    = 'variable')

Count plot

Բար հողամաս:

  • Ներկայացնում է ուղղանկյունի բարձրությամբ շարունակական փոփոխականի տենդենցի գնահատումը կատեգորիկ փոփոխականի յուրաքանչյուր կատեգորիայի համար: Այսպիսով, գծագրման ֆունկցիան ընդունում է երկու փոփոխական՝ որպես մուտքագրում, մեկը՝ շարունակական, և մեկը՝ կատեգորիկ։ variable_1-ից յուրաքանչյուր կատեգորիայի համար մենք հաշվարկում ենք variable_2-ի միտումը:

  • Միտումը կարող է լինել միջինը, շեղումը, կամ կարող եք փոխանցել որոշ հատուկ գործառույթ…

seaborn.catplot(kind = 'bar',**data = dataset,**
                x    = 'variable_1',**y    = 'variable_2',**
                estimator = np.mean)**

Bar Plot

Սթրիփ հողամաս:

  • Շերտապատկերը տվյալների վիզուալիզացիայի ամենապարզ և պարզ գծապատկերներից մեկն է, մենք պարզապես գծում ենք կետեր, որոնք ներկայացնում են շարունակական փոփոխականի արժեքները: Փոփոխական 1-ի յուրաքանչյուր կատեգորիայի համար մենք գծում ենք 2-րդ փոփոխականի արժեքները:

Strip Plot

seaborn.catplot(kind = 'strip',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                jitter = 0.15)

Swarm հողամաս:

  • Swarm plot-ը շատ նման է ստրիպ սյուժեին, քանի որ այն ունի ճիշտ նույն ֆունկցիոնալությունը: Միակ տարբերությունն այն է, թե ինչպես է այն ցուցադրում միավորները: Շերտի գծապատկերում տվյալների կետերը կարող են համընկնել, քանի որ դրանք պատահականորեն դրված են x առանցքի վրա, երամակային գծապատկերում մենք համոզվում ենք, որ կետերը չեն համընկնում դրանք իրար վրա դնելով:

  • Այստեղ թերությունն այն է, որ եթե մենք ունենք շատ տվյալների կետեր, անհնար կլինի դրանք չհամընկնել, ուստի ալգորիթմը կջնջի որոշ տվյալների կետեր, որպեսզի չհամընկնեն:

Swarm Plot

seaborn.catplot(kind = 'swarm',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Տուփի հողամաս:

  • Տուփի գծապատկերն օգտագործվում է շարունակական փոփոխականի բաշխումը կատեգորիկ փոփոխականի յուրաքանչյուր կատեգորիայի համար ներկայացնելու համար: Չնայած այն բավականին պարզ է, այն տալիս է շատ տեղեկատվություն.

  • Քառորդների արժեքները.

Տուփը ներսում ունի հորիզոնական գիծ, ​​որը ներկայացնում է միջինը: Վերևի հորիզոնական գիծը վերին քառորդներն են, իսկ ներքևում՝ ստորին քառորդները։

  • Արտաքին ցուցանիշները.

Ուշադրություն դարձրեք, որ վանդակից դուրս կան որոշ կետեր, այս կետերը ներկայացնում են ծայրամասերը

Box Plot

seaborn.catplot(kind = 'box',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Ջութակի սյուժեն:

Բաշխման տուփը գծելու փոխարեն, ջութակի սյուժեն կգծի շարունակական փոփոխականի իրական բաշխումը դասակարգային փոփոխականի յուրաքանչյուր կատեգորիայի համար՝ օգտագործելով KDE (միջուկի խտության գնահատում)

Violin Plot

seaborn.catplot(kind = 'violin',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Բաշխման հողամասեր:

Մենք օգտագործում ենք ծովային բաշխման գծագրման ֆունկցիաները՝ շարունակական փոփոխականների բաշխումը պատկերացնելու համար:

Պատմության սյուժեն:

Պատմական գծապատկերը ներկայացնում է շարունակական փոփոխականների բաշխումը աղբարկղերի միջոցով:

Hist Plot

seaborn.distplot(kind = 'hist',
                 data = dataset,
                 x    = 'variable',
                 bins = 20)

KDE սյուժեն:

Kde-ի գծապատկերը ներկայացնում է տվյալների իրական բաշխումը` օգտագործելով միջուկի խտության գնահատումը:

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable')

Այն կարող է օգտագործվել նաև երկու շարունակական փոփոխականների երկփոփոխական բաշխումը ներկայացնելու համար:

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable_1',
                 y    = 'variable_2')

ECDF սյուժեն:

ECDF սյուժեն ներկայացնում է շարունակական փոփոխականի էմպիրիկ կուտակային բաշխումը:

ECDF Plot

seaborn.distplot(kind = 'ecdf',
                 data = dataset,
                 x    = 'variable')

Հարաբերական սյուժեներ:

Մենք օգտագործում ենք seaborn-ի հարաբերական գծագրման ֆունկցիաները՝ շարունակական փոփոխականների միջև կապը պատկերացնելու համար:

Ցրված սյուժեն:

  • Այն ցույց է տալիս փոխհարաբերությունները երկու շարունակական փոփոխականների միջև՝ պարզապես գծագրելով տվյալների բոլոր կետերը:

Scatter Plot

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Գծի սյուժեն:

  • Ներկայացնում է փոփոխականների միջև կապը որպես շարունակական ֆունկցիա:

Line Plot

seaborn.relplot(kind = 'line',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Ավելի շատ գործառույթներ.

Դուք կարող եք նկատել, որ բոլոր գծագրման գործառույթներում մենք օգտագործում ենք առավելագույնը երկու փոփոխական յուրաքանչյուր գծապատկերում, բայց ի՞նչ, եթե մենք ցանկանում ենք ավելի շատ փոփոխականներ ներմուծել մեր վիզուալիզացիայի մեջ: Բարեբախտաբար, Seaborn-ը հոգացել է այդ մասին.

Գույնը:

  • Օգտագործելով երանգը, մենք կարող ենք ներմուծել 3-րդ փոփոխական, որը կատեգորիկ է մեր վիզուալիզացիայի համար՝ օգտագործելով գունային կոդավորումը, դա նշանակում է, որ տվյալների կետերը, որոնք պատկանում են այս 3-րդ փոփոխականի նույն կատեգորիային, կունենան նույն գույնը:

Hue

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3')

Չափս:

  • Չափը նման է երանգին, բայց օգտագործում է չափի կոդավորում՝ գունային կոդավորման փոխարեն: Դա նշանակում է, որ 3-րդ փոփոխականի նույն կատեգորիային պատկանող տվյալների կետերը կունենան նույն եզակի չափը։ Տարբեր չափերը նշանակում են տարբեր կատեգորիաներ:

Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                size = 'variable_3',
                sizes = [50, 100])

Ոճը:

  • Գրեթե նույնը, ինչ Hue-ն և Size-ը, դա նշանակում է, որ 3-րդ փոփոխականի նույն կատեգորիային պատկանող տվյալների կետերը կունենան նույն յուրահատուկ ոճը: Կետային ոճը կարող է լինել կետ, աստղ, խաչ, եռանկյուն, … մենք դրանք անվանում ենք մարկեր:

Style

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                style = 'variable_3',
                markers = ['X', '*'])

Մենք կարող ենք նաև ներմուծել նոր դասակարգային փոփոխական՝ օգտագործելով բազմակի սյուժեները, յուրաքանչյուր սյուժեն պատկանում է կատեգորիայի կատեգորիայի փոփոխականից.

Սկ.:

Կստեղծի բազմաթիվ թվեր հորիզոնական՝ 3-րդ փոփոխականի կատեգորիաների նկատմամբ:

Col

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                col  = 'variable_3')

Տող:

Կստեղծի բազմաթիվ թվեր ուղղահայաց՝ 3-րդ փոփոխականի կատեգորիաների նկատմամբ:

Row

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                row  = 'variable_3')

Մենք կարող ենք նաև օգտագործել Hue-ը և Size-ը նույն գծապատկերում՝ 4 փոփոխական ներկայացնելու համար, կամ նույնիսկ Hue-ը և Style-ը և Col-ը, նույն գծապատկերում 5 փոփոխական օգտագործելու համար: Մենք կարող ենք օգտագործել մինչև 7 փոփոխական (փոփոխական 1, փոփոխական 2, երանգ, չափ, ոճ, սյուն, տող) նույն սյուժեում, բայց դա մեզ կտա շատ լիցքավորված սյուժե, որն այնքան խառնաշփոթ է և չափազանց դժվար է մեկնաբանել, երբեմն ոչ: ընդհանրապես տեղեկատվական:

Hue & Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3',
                size = 'variable_4')

Եզրակացություն:

Այս գրառման մեջ մենք իմացանք seaborn-ի, նրա գծագրման գործառույթների 3 կատեգորիաների մասին՝ Կատեգորիկ, Բաշխում և Հարաբերական սյուժեներ, և մենք բացատրեցինք յուրաքանչյուր կատեգորիայի գծագրման ֆունկցիան՝ python կոդի հետ միասին:

Ստուգեք մեր Data Science Bootcamp՝ այս թեմայի մասին ավելին իմանալու համար:


Career Services background pattern

Կարիերայի ծառայություններ

Contact Section background image

Եկեք մնանք կապի մեջ

Code Labs Academy © 2024 Բոլոր իրավունքները պաշտպանված են.