Meta paljastaa Llama 3.1 405B:n: Viime vuosien suurimman avoimen lähdekoodin tekoälymallin

Päivitetty July 24, 2024 2 minuutteja luetaan

Llama 3.1 405B, avoimen lähdekoodin tekoälymalli, jossa on 405 miljardia parametria, on suurin malli, jonka Metaon julkaistu tähän mennessä. Se ei ole suurin malli kokonaisuudessaan, mutta se on suurin avoimen lähdekoodin malli, joka on julkaistu viime aikoina. Uusia menetelmiä hyödyntäen Llama 3.1 405B, joka on koulutettu 16 000 Nvidia H100 -grafiikkasuorittimeen, voi kilpailla huippuluokan mallien kanssa, kuten Anthropicin Claude 3.5 Sonnet ja OpenAI:n GPT-4o. Malli voidaan ladata ja käyttää pilvilaskenta-alustoilla, kuten Google Cloud, AWS ja Azure. Se on myös integroitu chatboteihin Yhdysvalloissa WhatsAppin ja Meta.ai:n avulla.

Vaikka Llama 3.1 405B on rajoitettu tekstipohjaisiin toimintoihin, se voi suorittaa monenlaisia tehtäviä, mukaan lukien koodauksen ja monikielisten asiakirjojen yhteenvedon (englanniksi, saksaksi, ranskaksi, italiaksi, portugaliksi, hindiksi, espanjaksi ja thai). Vaikka nämä eivät tällä hetkellä ole julkisesti saatavilla, Meta työskentelee aktiivisesti multimodaalisten Llama-mallien parissa käsitelläkseen valokuvia, videoita ja puhetta. Mallia vahvistettiin synteettisellä tiedolla, mikä on tavallista, mutta herättää kysymyksiä mahdollisesta harhasta, ja sen jälkeen sitä harjoitettiin 15 biljoonan tokenin jalostetulla otoksella.

Malli pystyy käsittelemään tehokkaasti pidempiä syötteitä ja pitämään keskustelukontekstin 128 000 tunnuksen kontekstiikkunan ansiosta. Llama 3.1 8B ja Llama 3.1 70B ovat pienempiä malleja, jotka voivat myös hyödyntää kolmannen osapuolen työkaluja ja API-liittymiä parantaakseen mukautumiskykyään tämän laajennetun kontekstikyvyn lisäksi. Nämä mallit voivat kommunikoida Python tulkin kanssa koodin tarkistamista varten, Brave Searchin ja Wolfram Alphan kanssa matemaattisia kysymyksiä varten.

Meta haluaa luoda kehittäjäekosysteemin Llaman ympärille, jotta siitä tulisi generatiivisen tekoälyn pilari. Joitakin rajoituksia suurempien kehittäjien käyttöönotolle, uusi lisenssi antaa kehittäjille mahdollisuuden käyttää mallitulosteita kolmannen osapuolen generatiivisten mallien kehittämiseen. Helpottaakseen hienosäätöä, synteettisen datan tuottamista ja kehittyneiden sovellusten kehittämistä Meta julkaisee myös uusia turvatyökaluja ja Llama Stack API:n.

Toimitusjohtaja Mark Zuckerberg painottaa voimakkaasti tekoälyn saatavuuden demokratisoimista ja vahvistaa Metan tekoälyteknologiat alan normeiksi. Yli 300 miljoonaa Llama-mallia on ladattu ja 20 000 muunnelmamallia on tehty oikeudellisista ongelmista ja tietokäytäntöjen aiheuttamista huolista huolimatta.

Näitä malleja skaalattaessa syntyy energiaongelmia, koska harjoittelu rasittaa sähköverkkoja. Koska Meta aikoo rakentaa tulevaisuudessa entistä suurempia malleja, näiden ongelmien ratkaiseminen on välttämätöntä. Llama 3.1 405B:n julkaisun myötä Meta on ottanut merkittävän askeleen kohti tekoälystrategiaansa, jonka tavoitteena on työntää generatiivisen tekoälyn rajoja ja haastaa kilpailijat.