Penurunan Gradien dan Penurunan Gradien Stokastik dalam Pembelajaran Mesin

Penurunan Gradien vs SGD
Algoritma Pengoptimalan dalam Pembelajaran Mesin
Pelatihan Model Efisien
Menjelajahi Penurunan Gradien dan SGD: Algoritma Utama untuk Optimasi Pembelajaran Mesin cover image

Penurunan gradien dan penurunan gradien stokastik (SGD) adalah algoritme pengoptimalan yang digunakan untuk meminimalkan fungsi, biasanya dikaitkan dengan meminimalkan kesalahan dalam model.

Perbedaan utama antara keduanya adalah sebagai berikut:

Penurunan Gradien (GD)

  • Dalam penurunan gradien standar, algoritme menghitung gradien fungsi biaya menggunakan seluruh kumpulan data pelatihan.

  • Ini memperbarui parameter model dengan mengambil langkah-langkah yang sebanding dengan negatif gradien seluruh kumpulan data.

  • Metode ini menjamin konvergensi seminimal mungkin (mengingat kondisi tertentu seperti konveksitas dan kecepatan pembelajaran yang sesuai) namun dapat memakan biaya komputasi yang mahal untuk kumpulan data yang besar.

Penurunan Gradien Stokastik (SGD)

  • Dalam penurunan gradien stokastik, algoritme memperbarui parameter model menggunakan gradien fungsi biaya untuk setiap contoh pelatihan individual.

  • Ini sering melakukan pembaruan berdasarkan contoh pelatihan tunggal atau kecil, sehingga jauh lebih cepat daripada penurunan gradien untuk kumpulan data besar.

  • Namun, karena pembaruan yang berisik, SGD memiliki lebih banyak fluktuasi dan belum tentu menyatu ke titik minimum absolut; ia menyatu ke area yang mendekati minimum, berosilasi di sekitarnya.

Kapan menggunakan salah satu dari yang lain:

  • Penurunan Gradien (GD): Cocok bila kumpulan data relatif kecil dan dapat dimasukkan ke dalam memori. Jika fungsi biaya lancar dan berperilaku baik, GD dapat melakukan konvergensi secara efisien hingga minimum.

  • Penurunan Gradien Stochastic (SGD): Lebih disukai ketika berurusan dengan kumpulan data besar ketika komputasi gradien untuk seluruh kumpulan data menjadi mahal secara komputasi. Hal ini juga berguna dalam skenario di mana fungsi biaya memiliki banyak nilai minimum lokal, karena gangguan SGD dalam pembaruan mungkin membantu keluar dari nilai minimum lokal yang dangkal. Selain itu, SGD umumnya digunakan dalam pelatihan jaringan neural karena kumpulan datanya yang luas dan ruang parameter berdimensi tinggi.

Selain itu, variasi seperti penurunan gradien batch mini, yang menyeimbangkan manfaat GD dan SGD dengan mempertimbangkan subkumpulan data untuk setiap pembaruan, sering kali digunakan dalam praktik. Pilihan antara algoritma ini sering kali bergantung pada sumber daya komputasi, ukuran kumpulan data, dan karakteristik masalah spesifik.


Career Services background pattern

Layanan Karir

Contact Section background image

Mari tetap berhubungan

Code Labs Academy © 2024 Semua hak dilindungi undang-undang.