Вялікія перавагі невялікіх мадэляў штучнага інтэлекту для тэхналагічных гігантаў
Абноўлены на September 24, 2024 3 Прачытаныя хвіліны

У пагоні за паўтарэннем чалавечага інтэлекту ў цэнтры ўвагі гонкі ўзбраенняў штучнага інтэлекту першапачаткова было стварэнне масіўных мадэляў, навучаных на шырокіх наборах даных. Аднак у апошні час адбыўся прыкметны зрух: тэхналагічныя гіганты і стартапы ўсё часцей накіроўваюць сваю ўвагу на больш аптымізаванае і спецыялізаванае праграмнае забеспячэнне штучнага інтэлекту, якое з’яўляецца больш танным і хуткім.
Гэтыя моўныя мадэлі меншага і сярэдняга памеру, спецыяльна распрацаваныя для канкрэтных задач і навучаныя з меншай колькасцю даных, набылі значную папулярнасць. У адрозненне ад сваіх больш буйных аналагаў, іх можна распрацаваць менш чым за 10 мільёнаў долараў і выкарыстоўваць менш за 10 мільярдаў параметраў. Для параўнання, GPT-4o OpenAI, адна з найбуйнейшых мадэляў, патрабавала больш за 100 мільёнаў долараў на стварэнне і выкарыстоўвала больш за адзін трыльён параметраў. Меншы памер гэтых мадэляў азначае меншыя патрабаванні да вылічальнай магутнасці і зніжэнне коштаў за запыт.
Напрыклад, Microsoft зрабіла акцэнт на сямействе невялікіх мадэляў Phi. Сацья Надэла, генеральны дырэктар Microsoft, сцвярджае, што гэтыя мадэлі складаюць 1/100 памеру мадэлі, якая стаіць за ChatGPT OpenAI, але яны могуць спраўляцца са шматлікімі задачамі з параўнальнай эфектыўнасцю. Юсуф Мехдзі, галоўны камерцыйны дырэктар Microsoft, узмацняе патрэбу ў розных мадэлях для розных задач, спасылаючыся на больш высокія, чым чакалася, выдаткі, звязаныя з выкарыстаннем вялікіх мадэляў. Акрамя таго, Microsoft нядаўна прадставіла наўтбукі AI, якія выкарыстоўваюць шматлікія мадэлі AI для пошуку і стварэння відарысаў. Гэтыя мадэлі працуюць на самой прыладзе, не залежачы ад шырокіх хмарных суперкампутараў, як у выпадку з ChatGPT.
Іншыя карпарацыі, такія як Google, і стартапы AI, такія як Mistral, Anthropic і Cohere, таксама выпусцілі меншыя мадэлі. Акрамя таго, Apple прадставіла планы па інтэграцыі невялікіх мадэляў для павышэння хуткасці і бяспекі працы AI на тэлефонах.
OpenAI, вядомая тым, што выступае за вялікія мадэлі, выпусціла больш даступную версію сваёй флагманскай мадэлі і мае намер засяродзіцца на распрацоўцы меншых мадэляў у будучыні. Вялікія мадэлі апынуліся празмернымі для такіх задач, як абагульненне дакументаў або стварэнне малюнкаў, падобна выкарыстанню бака для простага паходу за прадуктамі. З іншага боку, меншыя мадэлі могуць прапанаваць параўнальную прадукцыйнасць пры значна меншым кошце. Гэтыя мадэлі часта прыстасаваны для выканання канкрэтных задач, такіх як кіраванне юрыдычнымі дакументамі або ўнутраная сувязь. Ёаў Шохам з AI21 Labs сцвярджае, што невялікія мадэлі з’яўляюцца больш эканамічна мэтазгоднымі для шырокага выкарыстання, каштуюць толькі долю таго, што пацягне за сабой вялікія мадэлі, даючы адказы на пытанні.
Прадпрыемствы ахвотна выкарыстоўваюць гэтыя невялікія мадэлі для павышэння эфектыўнасці і зніжэння выдаткаў. Напрыклад, Experian перайшла на меншыя мадэлі для сваіх чат-ботаў са штучным інтэлектам і дасягнула такой жа прадукцыйнасці, як і ў больш буйных мадэляў, але пры меншых выдатках. Клара Шы з Salesforce падкрэслівае практычнасць меншых мадэляў, паколькі мадэлі часта прыводзяць да празмерных выдаткаў і праблем з затрымкай.
З моманту выпуску GPT-4 ад OpenAI не было істотных поспехаў у распрацоўцы вялікіх мадэляў, што прывяло да стагнацыі прагрэсу. Такім чынам, намаганні былі перанакіраваны на павышэнне эфектыўнасці меншых мадэляў. Себасцьян Бубек з Microsoft заўважае бягучую паўзу ў буйных распрацоўках і заахвочвае намаганні па павышэнню эфектыўнасці.
Нягледзячы на гэты зрух, вялікія мадэлі па-ранейшаму маюць каштоўнасць для складаных задач. Такія кампаніі, як Apple і Microsoft, працягваюць уключаць такія вялікія мадэлі, як як ChatGPT у іх прадукты, хоць гэтыя інтэграцыі звычайна складаюць толькі частку іх агульных ініцыятыў ІІ. Гэты прагрэс азначае трансфармацыю штучнага інтэлекту з футурыстычных дэманстрацый у практычную рэкламу.