El enfoque innovador de Jamba para la IA generativa de AI21 Labs

El enfoque innovador de Jamba para la IA generativa de AI21 Labs

Jamba, un nuevo modelo de inteligencia artificial creado por AI21 Labs, supera las limitaciones de contexto típicas que tienen los modelos de IA generativa y al mismo tiempo requiere menos potencia de procesamiento. La industria está avanzando hacia modelos con importantes capacidades de procesamiento de contexto, que mejoran la coherencia en discusiones más largas, pero que con frecuencia se obtienen a expensas de mayores demandas de procesamiento. O Dagan, líder de producto de AI21 Labs, afirma que se puede lograr una estrategia más eficaz y lo ilustra con su modelo más reciente, Jamba.

Las ventanas de contexto de los modelos de IA son esenciales para preservar el flujo de diálogo y análisis de datos. Las ventanas más grandes capturan y mantienen mejor el flujo de la conversación, mientras que las más pequeñas hacen que uno olvide rápidamente las interacciones recientes. Jamba de AI21 Labs es un modelo de análisis y creación de texto de vanguardia que puede manejar grandes cantidades de datos y cubrir numerosos idiomas, rivalizando con el poder de modelos conocidos como Gemini de Google y ChatGPT de OpenAI.

Una característica notable de Jamba es su capacidad para gestionar hasta 140.000 tokens en una única GPU de alta gama, aproximadamente el equivalente a una novela de 210 páginas. En comparación con Llama 2 de Meta, que gestiona una ventana de contexto más pequeña con menos requisitos de memoria, esta capacidad es sustancialmente mayor.

Jamba es único debido a su arquitectura, que combina modelos de espacio de estados (SSM), que brindan eficiencia informática con largas secuencias de datos, con transformadores reconocidos por su complicado razonamiento. Si bien los SSM, como el modelo de código abierto Mamba, mejoran la eficiencia y el rendimiento del modelo en contextos más largos, los transformadores son excelentes para determinar la relevancia de los datos entrantes. Esto hace que Jamba sea tres veces más eficiente que los modelos de transformadores de tamaño similar.

Jamba es un ejemplo pionero del uso de SSM en modelos comerciales a gran escala que promete un mejor rendimiento y eficiencia. Se puso a disposición de los investigadores bajo una licencia de código abierto con la intención de agregar medidas de seguridad y mejoras en versiones posteriores. Jamba, según Dagan, tiene la capacidad de transformar completamente el rendimiento del modelo en GPU individuales, lo que supondría un gran avance en la eficiencia y el diseño de la IA.


Asegure su futuro en IA y big data con el [Curso de entrenamiento en ciencia de datos e IA] práctico de Code Labs Academy(/courses/data-science-and-ai).

Code Labs Academy © 2025 Todos los derechos reservados.