A Meta bemutatta a Llama 3.1 405B-t: az elmúlt évek legnagyobb nyílt forráskódú mesterséges intelligencia modelljét

Frissítve a September 03, 2024 -en 2 percek olvasása

A Llama 3.1 405B, egy nyílt forráskódú mesterséges intelligencia modell 405 milliárd paraméterrel, a legnagyobb modell, amelyet Meta eddig megjelent. Összességében nem ez a legnagyobb modell, de ez a legnagyobb nyílt forráskódú modell, amelyet a közelmúltban elérhetővé tettek. Az új módszereket alkalmazó Llama 3.1 405B, amely 16 000 Nvidia H100 GPU-ra lett kiképezve, felveheti a versenyt az olyan csúcskategóriás szabadalmaztatott modellekkel, mint az Anthropic Claude 3.5 Sonnetje és az OpenAI GPT-4o. A modell letölthető és felhőalapú számítástechnikai platformokon használható, beleértve a Google Cloudot, az AWS-t és az Azure-t. Az Egyesült Államok chatbotjaiba is integrálva van a WhatsApp és a Meta.ai segítségével.

Bár a szöveg alapú tevékenységekre korlátozódik, a Llama 3.1 405B a feladatok széles skáláját képes végrehajtani, beleértve a kódolást és a többnyelvű dokumentumok összefoglalását (angol, német, francia, olasz, portugál, hindi, spanyol és thai nyelven). Bár ezek jelenleg nem nyilvánosak, a Meta aktívan dolgozik a multimodális Llama modelleken, hogy kezelje a fényképeket, videókat és beszédet. A modellt szintetikus adatokkal erősítették meg, ami szokásos, de kérdéseket vet fel a lehetséges torzítással kapcsolatban, majd egy 15 billió token finomított mintájára képezték ki.

A 128 000 tokenből álló kontextusablaknak köszönhetően a modell hatékonyan kezeli a hosszabb bemeneteket, és megtartja a beszélgetési kontextust. A Llama 3.1 8B és a Llama 3.1 70B kisebb modellek, amelyek harmadik féltől származó eszközöket és API-kat is használhatnak, hogy növeljék alkalmazkodóképességüket a kibővített környezeti képesség mellett. Ezek a modellek képesek kommunikálni a Python értelmezővel a kódellenőrzés érdekében, a Brave Search-val és a Wolfram Alpha-val a matematikai kérdésekhez.

A Meta egy fejlesztői ökoszisztémát szeretne létrehozni Llama körül, hogy az a generatív mesterséges intelligencia oszlopává váljon. A nagyobb fejlesztők számára történő telepítésre vonatkozó bizonyos korlátozások mellett az új licenc lehetővé teszi a fejlesztők számára, hogy a modellkimeneteket harmadik féltől származó generatív modellek fejlesztésére használják. A finomhangolás, a szintetikus adatok előállításának és a kifinomult alkalmazások fejlesztésének megkönnyítése érdekében a Meta új biztonsági eszközöket és a [Llama Stack API-t] is kiad.](https://github.com/meta-llama/llama-agentic-system)

Mark Zuckerberg vezérigazgató nagy hangsúlyt fektet az AI-hoz való hozzáférés demokratizálására, miközben a Meta mesterséges intelligencia technológiáit iparági normává alakítja. Több mint 300 millió láma modellt töltöttek le, és 20 000 változatot készítettek, a jogi problémák és az adatkezelési gyakorlat miatti aggodalmak ellenére.

Energetikai nehézségek merülnek fel e modellek méretezésekor, mivel a képzés megterheli az elektromos hálózatokat. Mivel a Meta a jövőben még nagyobb modelleket kíván építeni, ezeknek a nehézségeknek a megoldása elengedhetetlen lesz. A Llama 3.1 405B kiadásával a Meta jelentős lépést tett mesterségesintelligencia-stratégiája felé, amelynek célja a generatív mesterséges intelligencia határainak feszegetése és a versenytársak kihívása.