Günümüzde dünyanın en değerli kaynağı artık petrol değil, veridir. Milyarlarca satırlık veriyi anlamlandırmak için görselleştirme daha önemli bir araç haline geliyor. Verileri yorumlanması kolay bir grafiksel gösterime dönüştüren veri görselleştirme, ilgili bilgileri, kalıpları ve aykırı değerleri vurgulayarak veri öyküsü anlatımına yardımcı olur. Ancak veriler ve grafikler birlikte çalışmalıdır: Bu, harika analizleri harika hikaye anlatımıyla bütünleştirme sanatıdır. Bu blog yazısında size Python'da yazılmış en bilinen görselleştirme araçlarından biri olan "Sea Born"u göstereceğiz.
Görselleştirme araçları
Trendleri, kalıpları, aykırı değerleri ve değişkenler arasındaki ilişkiyi görselleştirmek için Görselleştirme araçlarını kullanırız. Özellikle veri bilimi kariyeri için oldukça talep gören bir beceridir.
Denizdoğumu
Seaborn,matplotlib tabanlı bir Python veri görselleştirme kütüphanesidir. Çekici ve bilgilendirici istatistiksel grafiklerin çizilmesi için üst düzey bir arayüz sağlar.
Deniz doğuşunu çizme işlevleri:
Seaborn'da 3 kategoride arsamız var
-
Kategorik araziler.
-
Dağıtım grafikleri.
-
İlişkisel grafikler.
Kategorik grafikler
Kategorik bir değişkenin eğilimlerini görselleştirmek veya en az bir kategorik değişkenle iki değişken arasındaki ilişkiyi görselleştirmek için deniz doğuşunun kategorik çizim fonksiyonlarını kullanırız.
Sayı grafiği:
- Kategorik değişkenden her bir kategorinin gözlem sayısını gösterir. Değişkenin her bir kategorisinin gözlem sayısını sayarız
seaborn.catplot(kind = 'count',
data = dataset,
x = 'variable')
Çubuk grafiği:
-
Kategorik bir değişkenin her bir kategorisi için dikdörtgenin yüksekliği ile sürekli bir değişkenin eğilim tahminini temsil eder. Yani çizim fonksiyonu girdi olarak iki değişken alır; biri sürekli, diğeri kategorik. Değişken_1'deki her kategori için değişken_2'nin eğilimini hesaplıyoruz.
-
Eğilim ortalama, varyans olabilir veya bazı özel işlevleri iletebilirsiniz…
seaborn.catplot(kind = 'bar',**data = dataset,**
x = 'variable_1',**y = 'variable_2',**
estimator = np.mean)**
Şerit grafiği:
- Şerit grafiği, veri görselleştirmedeki en basit ve en anlaşılır grafiklerden biridir; yalnızca sürekli bir değişkenin değerlerini temsil eden noktalar çizeriz. Değişken 1'in her kategorisi için Değişken 2'nin değerlerini çizeriz.
seaborn.catplot(kind = 'strip',
data = dataset,
x = 'variable_1',
y = 'variable_2',
jitter = 0.15)
Sürü planı:
-
Swarm grafiği şerit grafiğine çok benzer, çünkü tamamen aynı işlevselliğe sahiptir. Tek fark noktaları nasıl gösterdiğidir. Şerit grafiğinde veri noktaları x eksenine rastgele yerleştirildiği için üst üste gelebilir, sürü grafiğinde ise noktaları üst üste istifleyerek üst üste gelmemesini sağlıyoruz.
-
Buradaki dezavantaj, çok fazla veri noktamız varsa, bunların örtüşmemesinin imkansız olmasıdır, bu nedenle algoritma, örtüşmemek için bazı veri noktalarını silecektir.
seaborn.catplot(kind = 'swarm',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Kutu grafiği:
-
Kutu grafiği, kategorik bir değişkenin her bir kategorisi için sürekli bir değişkenin dağılımını temsil etmek için kullanılır. Oldukça basit olmasına rağmen pek çok bilgi sağlar:
-
Çeyreklerin değerleri:
Kutunun içinde ortancayı temsil eden yatay bir çizgi vardır. Yukarıdaki yatay çizgi üst çeyrekleri, altındaki ise alt çeyrekleri gösterir.
- Aykırı değerler:
Kutunun dışında bazı noktalar olduğuna dikkat edin; bu noktalar aykırı değerleri temsil eder
seaborn.catplot(kind = 'box',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Keman konusu:
Keman grafiği, dağıtım kutusunu çizmek yerine, KDE (Çekirdek Yoğunluğu Tahmini) kullanarak kategorik değişkenin her kategorisi için sürekli değişkenin gerçek dağılımını çizecektir.
seaborn.catplot(kind = 'violin',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Dağıtım grafikleri:
Sürekli değişkenlerin dağılımını görselleştirmek için deniz doğuşunun dağılım çizim fonksiyonlarını kullanıyoruz.
Geçmiş konusu:
Hist grafiği, kutular kullanılarak sürekli değişkenlerin dağılımını temsil eder.
seaborn.distplot(kind = 'hist',
data = dataset,
x = 'variable',
bins = 20)
KDE grafiği:
Kde grafiği, Çekirdek Yoğunluğu Tahminini kullanarak verilerin gerçek dağılımını temsil eder.
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable')
Ayrıca iki sürekli değişkenin iki değişkenli dağılımını temsil etmek için de kullanılabilir.
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable_1',
y = 'variable_2')
ECDF grafiği:
ECDF grafiği, sürekli bir değişkenin ampirik kümülatif dağılımını temsil eder.
seaborn.distplot(kind = 'ecdf',
data = dataset,
x = 'variable')
İlişkisel grafikler:
Sürekli değişkenler arasındaki ilişkiyi görselleştirmek için deniz doğuşunun ilişkisel çizim fonksiyonlarını kullanıyoruz.
Dağılım grafiği:
- Tüm veri noktalarını basitçe çizerek iki sürekli değişken arasındaki ilişkiyi gösterir.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Çizgi grafiği:
- Değişkenler arasındaki ilişkiyi sürekli bir fonksiyon olarak temsil eder.
seaborn.relplot(kind = 'line',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Daha fazla işlevsellik:
Tüm çizim fonksiyonlarında çizim başına maksimum iki değişken kullandığımızı fark etmiş olabilirsiniz, peki ya görselleştirmemizde daha fazla değişken eklemek istiyorsak? Neyse ki Seaborn bununla ilgilendi:
Renk:
- Hue kullanarak, renk kodlaması kullanarak görselleştirmemize kategorik olan 3. bir değişkeni tanıtabiliriz, bu, bu 3. değişkenin aynı kategorisine ait veri noktalarının aynı renge sahip olacağı anlamına gelir.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3')
Boyut:
- Boyut, renk tonuna benzer ancak renk kodlaması yerine boyut kodlamasını kullanır. Bu, 3. değişkenin aynı kategorisine ait veri noktalarının aynı benzersiz boyuta sahip olacağı anlamına gelir. Farklı boyutlar farklı kategoriler anlamına gelir.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
size = 'variable_3',
sizes = [50, 100])
Stil:
- Ton ve Boyut ile hemen hemen aynı şeydir, 3. değişkenin aynı kategorisine ait veri noktalarının aynı benzersiz stile sahip olacağı anlamına gelir. Nokta stili nokta, yıldız, çarpı, üçgen olabilir… biz bunlara işaretleyici diyoruz.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
style = 'variable_3',
markers = ['X', '*'])
Çoklu grafikleri kullanarak yeni bir kategorik değişken de tanıtabiliriz; her grafik, kategori kategorik değişkenindeki bir kategoriye aittir:
Sütun:
- değişkenin kategorilerine göre yatay olarak birçok şekil oluşturacağız.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
col = 'variable_3')
Sıra:
- değişkenin kategorilerine göre dikey olarak birçok şekil oluşturacağız.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
row = 'variable_3')
Aynı grafikte 4 değişkeni temsil etmek için Ton ve Boyut'u, hatta aynı çizimde 5 değişkeni kullanmak için Ton ve Stil ve Col'u da kullanabiliriz! Aynı grafikte 7'ye kadar değişken (değişken 1, değişken 2, Ton, Boyut, Stil, Sütun, Satır) kullanabiliriz, ancak bu bize çok karmaşık ve yorumlanması son derece zor olan, bazen anlaşılmayan, çok yüklü bir çizim verecektir. kesinlikle bilgilendirici.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3',
size = 'variable_4')
Çözüm:
Bu yazıda seaborn'u ve 3 kategorideki çizim fonksiyonlarını öğrendik: Kategorik, Dağıtım ve İlişkisel grafikler ve her kategori için her çizim fonksiyonunu python koduyla birlikte açıkladık.
Bu konu hakkında daha fazla bilgi edinmek için Veri Bilimi Eğitim Kampımıza göz atın!