Seaborn ile Python'da Veri Görselleştirme

python
veri görselleştirme
seaborn
Seaborn ile Python'da Veri Görselleştirme cover image

Günümüzde dünyanın en değerli kaynağı artık petrol değil, veridir. Milyarlarca satırlık veriyi anlamlandırmak için görselleştirme daha önemli bir araç haline geliyor. Verileri yorumlanması kolay bir grafiksel gösterime dönüştüren veri görselleştirme, ilgili bilgileri, kalıpları ve aykırı değerleri vurgulayarak veri öyküsü anlatımına yardımcı olur. Ancak veriler ve grafikler birlikte çalışmalıdır: Bu, harika analizleri harika hikaye anlatımıyla bütünleştirme sanatıdır. Bu blog yazısında size Python'da yazılmış en bilinen görselleştirme araçlarından biri olan "Sea Born"u göstereceğiz.

Görselleştirme araçları

Trendleri, kalıpları, aykırı değerleri ve değişkenler arasındaki ilişkiyi görselleştirmek için Görselleştirme araçlarını kullanırız. Özellikle veri bilimi kariyeri için oldukça talep gören bir beceridir.

Denizdoğumu

Seaborn,matplotlib tabanlı bir Python veri görselleştirme kütüphanesidir. Çekici ve bilgilendirici istatistiksel grafiklerin çizilmesi için üst düzey bir arayüz sağlar.

Deniz doğuşunu çizme işlevleri:

Seaborn'da 3 kategoride arsamız var

  • Kategorik araziler.

  • Dağıtım grafikleri.

  • İlişkisel grafikler.


Kategorik grafikler

Kategorik bir değişkenin eğilimlerini görselleştirmek veya en az bir kategorik değişkenle iki değişken arasındaki ilişkiyi görselleştirmek için deniz doğuşunun kategorik çizim fonksiyonlarını kullanırız.

Sayı grafiği:

  • Kategorik değişkenden her bir kategorinin gözlem sayısını gösterir. Değişkenin her bir kategorisinin gözlem sayısını sayarız
seaborn.catplot(kind = 'count',
                data = dataset,
                x    = 'variable')

Count plot

Çubuk grafiği:

  • Kategorik bir değişkenin her bir kategorisi için dikdörtgenin yüksekliği ile sürekli bir değişkenin eğilim tahminini temsil eder. Yani çizim fonksiyonu girdi olarak iki değişken alır; biri sürekli, diğeri kategorik. Değişken_1'deki her kategori için değişken_2'nin eğilimini hesaplıyoruz.

  • Eğilim ortalama, varyans olabilir veya bazı özel işlevleri iletebilirsiniz…

seaborn.catplot(kind = 'bar',**data = dataset,**
                x    = 'variable_1',**y    = 'variable_2',**
                estimator = np.mean)**

Bar Plot

Şerit grafiği:

  • Şerit grafiği, veri görselleştirmedeki en basit ve en anlaşılır grafiklerden biridir; yalnızca sürekli bir değişkenin değerlerini temsil eden noktalar çizeriz. Değişken 1'in her kategorisi için Değişken 2'nin değerlerini çizeriz.

Strip Plot

seaborn.catplot(kind = 'strip',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                jitter = 0.15)

Sürü planı:

  • Swarm grafiği şerit grafiğine çok benzer, çünkü tamamen aynı işlevselliğe sahiptir. Tek fark noktaları nasıl gösterdiğidir. Şerit grafiğinde veri noktaları x eksenine rastgele yerleştirildiği için üst üste gelebilir, sürü grafiğinde ise noktaları üst üste istifleyerek üst üste gelmemesini sağlıyoruz.

  • Buradaki dezavantaj, çok fazla veri noktamız varsa, bunların örtüşmemesinin imkansız olmasıdır, bu nedenle algoritma, örtüşmemek için bazı veri noktalarını silecektir.

Swarm Plot

seaborn.catplot(kind = 'swarm',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Kutu grafiği:

  • Kutu grafiği, kategorik bir değişkenin her bir kategorisi için sürekli bir değişkenin dağılımını temsil etmek için kullanılır. Oldukça basit olmasına rağmen pek çok bilgi sağlar:

  • Çeyreklerin değerleri:

Kutunun içinde ortancayı temsil eden yatay bir çizgi vardır. Yukarıdaki yatay çizgi üst çeyrekleri, altındaki ise alt çeyrekleri gösterir.

  • Aykırı değerler:

Kutunun dışında bazı noktalar olduğuna dikkat edin; bu noktalar aykırı değerleri temsil eder

Box Plot

seaborn.catplot(kind = 'box',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Keman konusu:

Keman grafiği, dağıtım kutusunu çizmek yerine, KDE (Çekirdek Yoğunluğu Tahmini) kullanarak kategorik değişkenin her kategorisi için sürekli değişkenin gerçek dağılımını çizecektir.

Violin Plot

seaborn.catplot(kind = 'violin',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Dağıtım grafikleri:

Sürekli değişkenlerin dağılımını görselleştirmek için deniz doğuşunun dağılım çizim fonksiyonlarını kullanıyoruz.

Geçmiş konusu:

Hist grafiği, kutular kullanılarak sürekli değişkenlerin dağılımını temsil eder.

Hist Plot

seaborn.distplot(kind = 'hist',
                 data = dataset,
                 x    = 'variable',
                 bins = 20)

KDE grafiği:

Kde grafiği, Çekirdek Yoğunluğu Tahminini kullanarak verilerin gerçek dağılımını temsil eder.

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable')

Ayrıca iki sürekli değişkenin iki değişkenli dağılımını temsil etmek için de kullanılabilir.

KDE Plot

seaborn.distplot(kind = 'kde',
                 data = dataset,
                 x    = 'variable_1',
                 y    = 'variable_2')

ECDF grafiği:

ECDF grafiği, sürekli bir değişkenin ampirik kümülatif dağılımını temsil eder.

ECDF Plot

seaborn.distplot(kind = 'ecdf',
                 data = dataset,
                 x    = 'variable')

İlişkisel grafikler:

Sürekli değişkenler arasındaki ilişkiyi görselleştirmek için deniz doğuşunun ilişkisel çizim fonksiyonlarını kullanıyoruz.

Dağılım grafiği:

  • Tüm veri noktalarını basitçe çizerek iki sürekli değişken arasındaki ilişkiyi gösterir.

Scatter Plot

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Çizgi grafiği:

  • Değişkenler arasındaki ilişkiyi sürekli bir fonksiyon olarak temsil eder.

Line Plot

seaborn.relplot(kind = 'line',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2')

Daha fazla işlevsellik:

Tüm çizim fonksiyonlarında çizim başına maksimum iki değişken kullandığımızı fark etmiş olabilirsiniz, peki ya görselleştirmemizde daha fazla değişken eklemek istiyorsak? Neyse ki Seaborn bununla ilgilendi:

Renk:

  • Hue kullanarak, renk kodlaması kullanarak görselleştirmemize kategorik olan 3. bir değişkeni tanıtabiliriz, bu, bu 3. değişkenin aynı kategorisine ait veri noktalarının aynı renge sahip olacağı anlamına gelir.

Hue

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3')

Boyut:

  • Boyut, renk tonuna benzer ancak renk kodlaması yerine boyut kodlamasını kullanır. Bu, 3. değişkenin aynı kategorisine ait veri noktalarının aynı benzersiz boyuta sahip olacağı anlamına gelir. Farklı boyutlar farklı kategoriler anlamına gelir.

Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                size = 'variable_3',
                sizes = [50, 100])

Stil:

  • Ton ve Boyut ile hemen hemen aynı şeydir, 3. değişkenin aynı kategorisine ait veri noktalarının aynı benzersiz stile sahip olacağı anlamına gelir. Nokta stili nokta, yıldız, çarpı, üçgen olabilir… biz bunlara işaretleyici diyoruz.

Style

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                style = 'variable_3',
                markers = ['X', '*'])

Çoklu grafikleri kullanarak yeni bir kategorik değişken de tanıtabiliriz; her grafik, kategori kategorik değişkenindeki bir kategoriye aittir:

Sütun:

  1. değişkenin kategorilerine göre yatay olarak birçok şekil oluşturacağız.

Col

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                col  = 'variable_3')

Sıra:

  1. değişkenin kategorilerine göre dikey olarak birçok şekil oluşturacağız.

Row

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                row  = 'variable_3')

Aynı grafikte 4 değişkeni temsil etmek için Ton ve Boyut'u, hatta aynı çizimde 5 değişkeni kullanmak için Ton ve Stil ve Col'u da kullanabiliriz! Aynı grafikte 7'ye kadar değişken (değişken 1, değişken 2, Ton, Boyut, Stil, Sütun, Satır) kullanabiliriz, ancak bu bize çok karmaşık ve yorumlanması son derece zor olan, bazen anlaşılmayan, çok yüklü bir çizim verecektir. kesinlikle bilgilendirici.

Hue & Size

seaborn.relplot(kind = 'scatter',
                data = dataset,
                x    = 'variable_1',
                y    = 'variable_2',
                hue  = 'variable_3',
                size = 'variable_4')

Çözüm:

Bu yazıda seaborn'u ve 3 kategorideki çizim fonksiyonlarını öğrendik: Kategorik, Dağıtım ve İlişkisel grafikler ve her kategori için her çizim fonksiyonunu python koduyla birlikte açıkladık.

Bu konu hakkında daha fazla bilgi edinmek için Veri Bilimi Eğitim Kampımıza göz atın!


Career Services background pattern

Kariyer Hizmetleri

Contact Section background image

İletişimde kalalım

Code Labs Academy © 2024 Her hakkı saklıdır.