O enfoque innovador de Jamba para a IA xerativa de AI21 Labs

O enfoque innovador de Jamba para a IA xerativa de AI21 Labs

Jamba, un novo modelo de intelixencia artificial creado por AI21 Labs, supera as limitacións típicas do contexto que teñen os modelos xerativos de intelixencia artificial mentres requiren menos potencia de procesamento. A industria está avanzando cara a modelos con capacidades significativas de procesamento de contexto, que melloran a coherencia en discusións máis longas, pero que adoitan ser a costa de demandas de procesamento máis altas. Ou Dagan, o xefe de produto de AI21 Labs, afirma que se pode conseguir unha estratexia máis eficaz e ilustra co seu modelo máis recente, Jamba.

As fiestras de contexto dos modelos de IA son esenciais para preservar o fluxo de diálogo e análise de datos. As fiestras máis grandes son mellores para capturar e manter o fluxo da conversa, mentres que as máis pequenas fan que se esqueza rapidamente as interaccións recentes. Jamba de AI21 Labs é un modelo de creación e análise de texto de vangarda que pode manexar grandes cantidades de datos e cubrir numerosos idiomas, rivalizando co poder de modelos coñecidos como Gemini de Google e ChatGPT de OpenAI.

Unha característica notable de Jamba é a súa capacidade de xestionar ata 140.000 tokens nunha única GPU de gama alta, aproximadamente o equivalente a unha novela de 210 páxinas. En comparación co Llama 2 de Meta, que xestiona unha ventá de contexto máis pequena con menos requisitos de memoria, esta capacidade é substancialmente maior.

Jamba é único pola súa arquitectura, que combina modelos espaciais de estados (SSM), que proporcionan eficiencia informática con longas secuencias de datos, con transformadores recoñecidos polo seu complicado razoamento. Aínda que os SSM, como o modelo de código aberto Mamba, melloran a eficiencia e o rendemento do modelo en contextos máis longos, os transformadores son excelentes para determinar a relevancia dos datos entrantes. Isto fai que Jamba sexa tres veces máis eficiente que os modelos de transformadores de tamaño similar.

Jamba é un exemplo pioneiro do uso de SSM en modelos comerciais a gran escala que promete un rendemento e eficiencia mellorados. Púxose a disposición dos investigadores baixo unha licenza de código aberto coa intención de engadir medidas de seguridade e melloras en versións posteriores. Jamba, segundo Dagan, ten a capacidade de transformar completamente o rendemento do modelo en GPU únicas, o que sería un gran avance na eficiencia e no deseño da IA.


Asegura o teu futuro en IA e big data co Code Labs Academy práctico Data Science and AI Bootcamp.

Code Labs Academy © 2025 Todos os dereitos reservados.