Механізм самоуважності в нейронних мережах

Оновлено на May 30, 2024 3 хвилини читають

Самоувага — це фундаментальний механізм, який використовується в нейронних мережах, особливо помітний у трансформаторних моделях, що дозволяє їм ефективно обробляти послідовні дані. Це дозволяє моделі по-різному зважувати різні слова чи елементи в послідовності, більше зосереджуючись на відповідних частинах під час обчислення.

Компоненти самоуважності

Запити, Ключі та Значення: під час самоконтролю вхідна послідовність перетворюється на три вектори: запит, ключ і значення. Ці вектори отримують із вхідної послідовності через лінійні перетворення, що генерує ці компоненти, які використовуватимуться для обчислення балів уваги.
Показники уваги: після отримання цих векторів показники уваги обчислюються шляхом вимірювання схожості між Вектором запиту і Ключовими векторами * всіх елементів у послідовності*. Зазвичай це робиться за допомогоюскалярного добуткуз подальшиммасштабуваннямі застосуваннямфункції softmax, щоб отримати вагові значення для кожного елемента.
Зважена сума: отримані ваги уваги використовуються для зважування векторів значень. Зважена сума цих значень, заснована на їхніх відповідних вагах уваги, дає результат рівня самоуважності.
Увага кількох головок: щоб охопити різні зв’язки між словами чи елементами, паралельно виконується декілька наборів перетворень запитів, ключів і значень, що призводить до кількох наборів вагових коефіцієнтів уваги та вихідних векторів. Потім вони з’єднуються і знову перетворюються для отримання остаточного результату.

Полегшення вивчення довгострокових залежностей

Самоувага чудово фіксує довготривалі залежності в послідовностях завдяки своїй здатності безпосередньо моделювати взаємодію між усіма елементами послідовності. Традиційні архітектури, такі як рекурентні нейронні мережі (RNN), страждають від проблем із зникненням або вибухом градієнта, що обмежує їхню здатність вивчати довгострокові залежності. З іншого боку, самоувага може вловлювати зв’язки між віддаленими словами чи елементами без цих проблем, що робить його ефективнішим у розумінні контексту та зв’язків у послідовності.

Переваги перед традиційними архітектурами

Паралелізація: самоувага дозволяє паралельно обчислювати показники уваги для всіх елементів у послідовності, що робить його ефективнішим, ніж послідовна обробка в RNN.
Залежності на великій відстані: на відміну від мереж RNN, яким важко фіксувати залежності на великих відстанях через їх послідовний характер, самоувага може ефективно фіксувати ці залежності.
Зменшена довжина шляху: самоувага безпосередньо з’єднує всі елементи в послідовності, зменшуючи довжину шляху між віддаленими елементами, забезпечуючи кращий градієнтний потік під час тренування.

Обмеження та обчислювальні складності

Квадратична складність: самоувага передбачає попарне порівняння між усіма елементами в послідовності, що призводить до квадратичного збільшення обчислень у міру збільшення довжини послідовності. Це може бути обчислювально дорогим для дуже довгих послідовностей.
Вимоги до пам’яті: завдяки своїм механізмам самоконтролю трансформатори часто вимагають більше пам’яті порівняно з простішими архітектурами, такими як CNN або RNN.
Маскування уваги: робота з послідовностями змінної довжини вимагає використання масок уваги для обробки відступів, що може ускладнити модель і процес навчання.

Незважаючи на ці обмеження, самоувага виявилася дуже ефективним механізмом у задачах обробки природної мови, і поточні дослідження спрямовані на вирішення його обчислювальних складностей для ще кращої ефективності та масштабованості.