Инновационный подход Jamba к генеративному искусственному интеллекту от AI21 Labs

Обновлено на November 19, 2024 2 Прочнет минуты

Jamba, новая модель искусственного интеллекта, созданная AI21 Labs, преодолевает типичные контекстные ограничения, присущие генеративным моделям искусственного интеллекта, требуя при этом меньше вычислительной мощности. Отрасль движется к моделям со значительными возможностями обработки контекста, которые улучшают согласованность в ходе более длительных обсуждений, но часто достигаются за счет более высоких требований к обработке. Или Даган, руководитель продукта в AI21 Labs, утверждает, что более эффективная стратегия достижима, и иллюстрирует это своей последней моделью Jamba.

Контекстные окна моделей ИИ необходимы для сохранения потока диалога и анализа данных. Окна большего размера лучше улавливают и поддерживают поток разговора, тогда как окна меньшего размера быстро заставляют забыть о недавних взаимодействиях. Jamba от AI21 Labs — это передовая модель создания и анализа текста, которая может обрабатывать большие объемы данных и охватывать множество языков, конкурируя по мощности с такими известными моделями, как Gemini от Google и ChatGPT от OpenAI.

Одной из примечательных особенностей Jamba является его способность управлять до 140 000 токенов на одном высокопроизводительном графическом процессоре — это примерно эквивалентно 210-страничному роману. По сравнению с Meta’s Llama 2, которая управляет меньшим контекстным окном с меньшими требованиями к памяти, эти возможности существенно больше.

Jamba уникален своей архитектурой, которая сочетает в себе модели пространства состояний (SSM), обеспечивающие эффективность вычислений при работе с длинными последовательностями данных, с преобразователями, известными своими сложными рассуждениями. В то время как SSM, такие как модель с открытым исходным кодом Mamba, повышают эффективность и пропускную способность модели в более длительных контекстах, преобразователи превосходно определяют релевантность входящих данных. Это делает Jamba в три раза более эффективной, чем модели-трансформеры аналогичного размера.

Jamba — это новаторский пример использования SSM в крупномасштабных коммерческих моделях, обещающий повышение производительности и эффективности. Он был предоставлен исследователям по лицензии с открытым исходным кодом с намерением добавить меры безопасности и усовершенствования в последующих выпусках. По словам Дагана, Jamba способна полностью изменить производительность моделей на одном графическом процессоре, что станет крупным прорывом в эффективности и дизайне ИИ.

Обеспечьте свое будущее в области искусственного интеллекта и больших данных с помощью практического курса Code Labs Academy N_O_T_R_T_E_0.*