Saat ini, sumber daya paling berharga di dunia bukan lagi minyak, melainkan data. Visualisasi menjadi alat yang lebih penting untuk memahami miliaran baris data. Dengan menerjemahkan data ke dalam representasi grafis yang mudah diinterpretasikan, visualisasi data membantu penyampaian data dengan menyoroti informasi, pola, dan outlier yang relevan. Namun, data dan grafik harus bekerja sama: Ini adalah seni mengintegrasikan analisis yang hebat dengan penceritaan yang hebat. Dalam postingan blog ini, kami akan menunjukkan kepada Anda "Sea Born", salah satu alat visualisasi paling terkenal yang ditulis dengan Python.
Alat visualisasi
Kami menggunakan alat Visualisasi untuk memvisualisasikan tren, pola, outlier, dan hubungan antar variabel. Ini adalah keterampilan yang sangat dibutuhkan terutama untuk karir ilmu data.
lahir di laut
Seaborn adalah pustaka visualisasi data Python berdasarkanmatplotlib. Ini menyediakan antarmuka tingkat tinggi untuk menggambar grafik statistik yang menarik dan informatif.
Fungsi plot Seaborn:
Di seaborn, kami memiliki 3 kategori plot
-
Plot kategorikal.
-
Plot distribusi.
-
Plot relasional.
Plot kategorikal
Kami menggunakan fungsi plot kategoris dari seaborn untuk memvisualisasikan kecenderungan suatu variabel kategori atau untuk memvisualisasikan hubungan antara dua variabel dengan setidaknya satu variabel kategorikal.
Hitung plot:
- Menampilkan jumlah observasi setiap kategori dari variabel kategori. Kita cukup menghitung jumlah observasi setiap kategori variabel
seaborn.catplot(kind = 'count',
data = dataset,
x = 'variable')
Plot batang:
-
Merupakan perkiraan kecenderungan suatu variabel kontinu dengan tinggi persegi panjang untuk setiap kategori variabel kategori. Jadi fungsi plotting mengambil dua variabel sebagai masukan, satu variabel kontinu dan satu lagi kategorikal. Untuk setiap kategori dari variabel_1, kita menghitung kecenderungan variabel_2.
-
Kecenderungannya dapat berupa mean, varians, atau Anda dapat meneruskan beberapa fungsi khusus…
seaborn.catplot(kind = 'bar',**data = dataset,**
x = 'variable_1',**y = 'variable_2',**
estimator = np.mean)**
Plot strip:
- Strip plot adalah salah satu plot yang paling sederhana dan lugas dalam visualisasi data, kita cukup menggambar titik-titik yang mewakili nilai-nilai variabel kontinu. Untuk setiap kategori Variabel 1, kita akan menggambar nilai-nilai Variabel 2.
seaborn.catplot(kind = 'strip',
data = dataset,
x = 'variable_1',
y = 'variable_2',
jitter = 0.15)
Plot kawanan:
-
Swarm plot sangat mirip dengan strip plot, karena fungsinya sama persis. Perbedaannya hanya pada cara menampilkan poin. Sedangkan pada plot strip, titik-titik data mungkin tumpang tindih karena ditempatkan secara acak pada sumbu x, pada plot gerombolan kami memastikan bahwa titik-titik tersebut tidak tumpang tindih dengan menumpuknya di atas satu sama lain.
-
Kekurangannya disini adalah jika kita mempunyai banyak titik data, tidak mungkin tidak tumpang tindih, sehingga algoritma akan menghapus beberapa titik data agar tidak tumpang tindih.
seaborn.catplot(kind = 'swarm',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Plot kotak:
-
Plot kotak digunakan untuk merepresentasikan distribusi variabel kontinu untuk setiap kategori variabel kategori. Meskipun cukup sederhana, ini menghasilkan banyak informasi:
-
Nilai kuartil:
Kotak tersebut memiliki garis horizontal di dalamnya, yang mewakili median. Garis horizontal di atas adalah kuartil atas, dan garis di bawahnya adalah kuartil bawah.
- Pencilan:
Perhatikan bahwa ada beberapa titik di luar kotak, titik-titik ini mewakili outlier
seaborn.catplot(kind = 'box',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Plot biola:
Alih-alih memplot kotak distribusi, plot biola akan memplot distribusi aktual dari variabel kontinu untuk setiap kategori variabel kategori menggunakan KDE (Kernel Density Estimation)
seaborn.catplot(kind = 'violin',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Plot distribusi:
Kami menggunakan fungsi plot distribusi seaborn untuk memvisualisasikan distribusi variabel kontinu.
Plot sejarah:
Plot hist mewakili distribusi variabel kontinu menggunakan bin.
seaborn.distplot(kind = 'hist',
data = dataset,
x = 'variable',
bins = 20)
plot KDE:
Plot Kde mewakili distribusi data sebenarnya, menggunakan Estimasi Kepadatan Kernel.
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable')
Ini juga dapat digunakan untuk mewakili distribusi bivariat dari dua variabel kontinu.
seaborn.distplot(kind = 'kde',
data = dataset,
x = 'variable_1',
y = 'variable_2')
plot ECDF:
Plot ECDF mewakili distribusi kumulatif empiris dari variabel kontinu.
seaborn.distplot(kind = 'ecdf',
data = dataset,
x = 'variable')
Plot relasional:
Kami menggunakan fungsi plot relasional dari seaborn untuk memvisualisasikan hubungan antara variabel kontinu.
Plot sebar:
- Ini menunjukkan hubungan antara dua variabel kontinu, hanya dengan memplot semua titik data.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Plot garis:
- Mewakili hubungan antar variabel sebagai fungsi kontinu.
seaborn.relplot(kind = 'line',
data = dataset,
x = 'variable_1',
y = 'variable_2')
Fungsi lainnya:
Anda mungkin telah memperhatikan bahwa dalam semua fungsi pembuatan plot, kita telah menggunakan maksimal dua variabel per plot, namun bagaimana jika kita ingin memasukkan lebih banyak variabel dalam visualisasi kita? Untungnya Seaborn menangani hal itu:
Warna:
- Dengan menggunakan hue kita dapat memperkenalkan variabel ke-3 yang bersifat kategorikal ke visualisasi kita menggunakan pengkodean warna, artinya titik data yang termasuk dalam kategori yang sama dari variabel ke-3 ini akan memiliki warna yang sama.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3')
Ukuran:
- Ukuran mirip dengan rona, tetapi menggunakan pengkodean ukuran, bukan pengkodean warna. Artinya titik data yang termasuk dalam kategori yang sama pada variabel ke-3 akan memiliki ukuran unik yang sama. Ukuran yang berbeda berarti kategori yang berbeda.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
size = 'variable_3',
sizes = [50, 100])
Gaya:
- Hampir sama dengan Hue dan Size, Artinya titik data yang termasuk dalam kategori yang sama dari variabel ke-3 akan memiliki gaya unik yang sama. Gaya titik bisa berupa titik, bintang, salib, segitiga,… kita menyebutnya penanda.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
style = 'variable_3',
markers = ['X', '*'])
Kita juga dapat memperkenalkan variabel kategori baru menggunakan beberapa plot, setiap plot termasuk dalam kategori dari variabel kategori kategori:
Kol:
Akan membuat banyak angka secara horizontal sehubungan dengan kategori variabel ke-3.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
col = 'variable_3')
Baris:
Akan membuat banyak angka secara vertikal sehubungan dengan kategori variabel ke-3.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
row = 'variable_3')
Kita juga dapat menggunakan Hue dan Size dalam plot yang sama, untuk mewakili 4 variabel, atau bahkan Hue dan Style dan Col, untuk menggunakan 5 variabel dalam plot yang sama! Kita dapat menggunakan hingga 7 variabel (variabel 1, variabel 2, Hue, Size, Style, Col, Row) dalam plot yang sama, namun ini akan memberi kita plot yang sangat bermuatan yang sangat berantakan dan sangat sulit untuk diinterpretasikan, terkadang tidak informatif sama sekali.
seaborn.relplot(kind = 'scatter',
data = dataset,
x = 'variable_1',
y = 'variable_2',
hue = 'variable_3',
size = 'variable_4')
Kesimpulan:
Pada postingan kali ini, kita mempelajari tentang seaborn, 3 kategori fungsi plottingnya: Plot Kategorikal, Distribusi, dan Relasional, dan kami menjelaskan setiap fungsi plotting untuk setiap kategori, beserta kode pythonnya.
Kunjungi Kamp Pelatihan Ilmu Data kami untuk mempelajari topik ini lebih lanjut!