Jamba, новая мадэль штучнага інтэлекту, створаная AI21 Labs, пераадольвае тыповыя кантэкстныя абмежаванні, якія маюць генератыўныя мадэлі штучнага інтэлекту, і пры гэтым патрабуе меншай вылічальнай магутнасці. Індустрыя рухаецца да мадэляў са значнымі магчымасцямі апрацоўкі кантэксту, якія паляпшаюць узгодненасць падчас працяглых абмеркаванняў, але часта прыходзяць за кошт больш высокіх патрабаванняў да апрацоўкі. Або Даган, кіраўнік прадукту ў AI21 Labs, сцвярджае, што больш эфектыўная стратэгія дасягальная, і ілюструе гэта сваёй апошняй мадэллю Jamba.
Кантэкстныя вокны мадэляў штучнага інтэлекту неабходныя для захавання патоку дыялогу і аналізу даных. Вялікія вокны лепш захопліваюць і падтрымліваюць паток размовы, у той час як меншыя прымушаюць хутка забываць нядаўнія ўзаемадзеянні. Jamba ад AI21 Labs - гэта перадавая мадэль стварэння і аналізу тэксту, якая можа апрацоўваць вялікія аб'ёмы даных і ахопліваць мноства моў, канкуруючы па магутнасці з такімі вядомымі мадэлямі, як Gemini Google і ChatGPT OpenAI.
Адной прыкметнай асаблівасцю Jamba з'яўляецца яго здольнасць кіраваць да 140 000 токенаў на адным высакакласным графічным працэсары - гэта прыкладна эквівалент 210-старонкавага рамана. У параўнанні з Llama 2 ад Meta, якая кіруе меншым кантэкстным акном з меншымі патрабаваннямі да памяці, гэтая магчымасць значна большая.
Jamba унікальная дзякуючы сваёй архітэктуры, якая спалучае ў сабе мадэлі прасторы станаў (SSM), якія забяспечваюць эфектыўнасць вылічэнняў з доўгімі паслядоўнасцямі даных, з трансфарматарамі, вядомымі сваімі складанымі развагамі. У той час як SSM, такія як мадэль Mamba з адкрытым зыходным кодам, паляпшаюць эфектыўнасць і прапускную здольнасць мадэлі ў больш працяглых кантэкстах, трансфарматары выдатна спраўляюцца з вызначэннем актуальнасці ўваходных даных. Гэта робіць Jamba ў тры разы больш эфектыўным, чым мадэлі трансфарматараў аналагічнага памеру.
Jamba з'яўляецца наватарскім прыкладам выкарыстання SSM у буйнамаштабных камерцыйных мадэлях, які абяцае палепшаную прадукцыйнасць і эфектыўнасць. Ён быў даступны даследчыкам па ліцэнзіі з адкрытым зыходным кодам з мэтай дадання мер бяспекі і паляпшэнняў у наступных выпусках. Джамба, па словах Дагана, мае магчымасць цалкам трансфармаваць прадукцыйнасць мадэлі на адзіночных графічных працэсарах, што стала б сур'ёзным прарывам у эфектыўнасці і дызайне штучнага інтэлекту.
Забяспечце сваю будучыню ў галіне штучнага інтэлекту і вялікіх даных з дапамогай практычнага Code Labs Academy Навучальнага кэмпа па навуцы даных і штучнага інтэлекту.