Giới thiệu
Hãy tưởng tượng rằng chúng ta có một hàm và chúng ta muốn tìm giá trị tối thiểu của nó. Bạn sẽ làm gì?
Đơn giản phải không? Ta chỉ cần giải phương trình sau:
Vấn đề là việc tìm ra công thức của không phải lúc nào cũng dễ dàng vì chúng có xu hướng cực kỳ phức tạp, đặc biệt là trong học sâu nơi chúng ta xử lý các hàm phức tạp. Vì vậy, chúng ta cần tìm một phương pháp khác có thể cung cấp cho chúng ta giá trị tối thiểu của hàm mà không cần tìm công thức đạo hàm .
Hãy xây dựng trực giác
Giả sử chúng ta có hàm f với đồ thị tương ứng:
Hãy bắt đầu với một điểm ngẫu nhiên . Mục tiêu là di chuyển điểm này và làm cho nó ngày càng gần sao cho x*. Vì vậy, vấn đề có thể được chia thành hai phần:
-
Chúng ta nên di chuyển điểm theo hướng nào? Trái hay phải?
-
Chúng ta nên di chuyển nó bao nhiêu?
Phương hướng
Hãy xây dựng một số trực giác để trả lời câu hỏi đầu tiên. Hãy xem xét điểm sau:
Lưu ý rằng:
-
khi điểm ở bên phải điểm tối ưu thì đường tiếp tuyến của nó đi lên.
-
khi điểm ở bên phải điểm tối ưu thì đường tiếp tuyến của nó đi xuống.
Hướng của một đường được xác định bởi dấu của độ dốc của nó:
-
Một đường đi lên độ dốc là dương.
-
Một đường đi xuống độ dốc là âm.
Lưu ý rằng: \
Độ dốc của tiếp tuyến của hàm số tại một điểm không lớn hơn đạo hàm tại điểm đó :
Vì vậy, để trả lời câu hỏi "Chúng ta nên di chuyển ?":
-
ở bên phải Chúng ta cần di chuyển sang trái.
-
sang bên trái của Chúng ta cần di chuyển sang bên phải.
##Các bước
Bây giờ là câu hỏi thứ hai, Chúng ta nên di chuyển bao nhiêu?
Hãy xem các ví dụ sau:
Chúng ta có thể kết luận rằng:
-
gần với => Độ dốc của tiếp tuyến nhỏ => nhỏ.
-
ở xa => Độ dốc của tiếp tuyến lớn => lớn.
Bằng cách trả lời cả hai câu hỏi, chúng tôi kết luận rằng chỉ kiến thức về đạo hàm tại điểm mới có thể cung cấp cho chúng tôi nhiều hiểu biết sâu sắc về hướng và khoảng cách của điểm tối ưu .
Giảm dần độ dốc
Giảm dần độ dốc là công thức của câu trả lời cho hai câu hỏi trước. Đó là một thuật toán lặp tối ưu hóa xấp xỉ tối thiểu của hàm bắt đầu từ điểm ban đầu ngẫu nhiên . Thuật toán được phát biểu như sau:
Ở đâu:
-
không lớn hơn đạo hàm của tại điểm .
-
là hằng số dương xác định mức độ lớn của các bước.
Lưu ý rằng:
-
nằm ở bên phải của => => => di chuyển sang trái.
-
nằm ở bên trái của => => => di chuyển sang phải.
-
gần với => gần với => Cập nhật nhỏ cho .
Câu đố
-
Khi nào việc giảm độ dốc dừng lặp lại:
-
Khi đủ nhỏ.
-
Khi gần với .
-
Khi . XXX
-
Chúng ta chọn như thế nào:
-
Chúng tôi chọn ngẫu nhiên. XXX
-
Chúng ta lấy nó ở lân cận .
-
Tùy vào vấn đề.
-
Tại sao chúng ta cần giảm độ dốc:
-
Vì máy tính không đủ mạnh để tính đạo hàm.
-
Bởi vì việc tìm ra công thức đạo hàm của các mô hình deep learning cực kỳ khó khăn. XXX
-
Bởi vì hàm có nhiều cực tiểu cục bộ.