Jamba, un nuovo modello di intelligenza artificiale creato da AI21 Labs, supera i tipici vincoli di contesto che hanno i modelli di intelligenza artificiale generativa richiedendo meno potenza di elaborazione. L’industria si sta muovendo verso modelli con significative capacità di elaborazione del contesto, che migliorano la coerenza nelle discussioni più lunghe ma spesso vanno a scapito di maggiori esigenze di elaborazione. Oppure Dagan, responsabile del prodotto presso AI21 Labs, afferma che è possibile realizzare una strategia più efficace e la illustra con il loro modello più recente, Jamba.
Le finestre di contesto dei modelli di intelligenza artificiale sono essenziali per preservare il flusso del dialogo e dell'analisi dei dati. Le finestre più grandi sono più efficaci nel catturare e sostenere il flusso della conversazione, mentre quelle più piccole fanno rapidamente dimenticare le interazioni recenti. Jamba di AI21 Labs è un modello di creazione e analisi di testi all'avanguardia in grado di gestire grandi quantità di dati e coprire numerose lingue, rivaleggiando con la potenza di modelli ben noti come Gemini di Google e ChatGPT di OpenAI.
Una caratteristica degna di nota di Jamba è la sua capacità di gestire fino a 140.000 token su una singola GPU di fascia alta, più o meno l'equivalente di un romanzo di 210 pagine. Rispetto a Llama 2 di Meta, che gestisce una finestra di contesto più piccola con meno requisiti di memoria, questa capacità è sostanzialmente maggiore.
Jamba è unico per la sua architettura, che combina modelli dello spazio degli stati (SSM), che forniscono efficienza di calcolo con lunghe sequenze di dati, con trasformatori riconosciuti per il loro ragionamento complicato. Mentre gli SSM, come il modello open source Mamba, migliorano l'efficienza e il rendimento del modello in contesti più lunghi, i trasformatori sono eccellenti nel determinare la pertinenza dei dati in ingresso. Ciò rende Jamba tre volte più efficiente rispetto ai modelli di trasformatori di dimensioni simili.
Jamba è un esempio pionieristico dell’uso dell’SSM in modelli commerciali su larga scala che promette prestazioni ed efficienza migliorate. È stato reso disponibile ai ricercatori con una licenza open source con l'intenzione di aggiungere misure di sicurezza e miglioramenti nelle versioni successive. Jamba, secondo Dagan, ha la capacità di trasformare completamente le prestazioni del modello su singole GPU, il che rappresenterebbe un importante passo avanti nell'efficienza e nella progettazione dell'intelligenza artificiale.
Proteggi il tuo futuro nel campo dell'intelligenza artificiale e dei big data con il [Bootcamp pratico su data science e intelligenza artificiale] di Code Labs Academy(/courses/data-science-and-ai).