Meta presenta Llama 3.1 405B: el modelo de IA de código abierto más grande de los últimos años

Actualizado en July 24, 2024 3 minutos leer

Llama 3.1 405B, un modelo de IA de código abierto con 405 mil millones de parámetros, es el modelo más grande que Meta se ha publicado hasta el momento. No es el modelo más grande en general, pero sí el modelo de código abierto más grande que ha estado disponible recientemente. Utilizando nuevas metodologías, Llama 3.1 405B, entrenado en 16.000 GPU Nvidia H100, puede rivalizar con modelos propietarios de primer nivel como Claude 3.5 Sonnet de Anthropic y GPT-4o de OpenAI. El modelo se puede descargar y utilizar en plataformas de computación en la nube, incluidas Google Cloud, AWS y Azure. También está integrado en chatbots en Estados Unidos mediante WhatsApp y Meta.ai.

Aunque está restringido a actividades basadas en texto, Llama 3.1 405B puede ejecutar una amplia gama de tareas, incluida la codificación y el resumen de documentos multilingües (en inglés, alemán, francés, italiano, portugués, hindi, español y tailandés). Si bien actualmente no son de acceso público, Meta está trabajando activamente en modelos Llama multimodales para manejar fotos, videos y voz. El modelo se reforzó con datos sintéticos, lo cual es habitual pero plantea dudas sobre posibles sesgos, y luego se entrenó con una muestra refinada de 15 billones de tokens.

El modelo puede manejar eficazmente entradas más largas y mantener el contexto de la conversación gracias a su ventana de contexto de 128.000 tokens. Llama 3.1 8B y Llama 3.1 70B son modelos más pequeños que también pueden utilizar herramientas y API de terceros para aumentar su adaptabilidad además de tener esta capacidad de contexto ampliada. Estos modelos pueden comunicarse con un intérprete Python para verificar el código, Brave Search y Wolfram Alpha para preguntas matemáticas.

Meta quiere crear un ecosistema de desarrolladores en torno a Llama para que se convierta en un pilar de la IA generativa. Con algunas limitaciones de implementación para desarrolladores más grandes, la nueva licencia les permite utilizar resultados de modelos para desarrollar modelos generativos de terceros. Para facilitar el ajuste, la producción de datos sintéticos y el desarrollo de aplicaciones sofisticadas, Meta también está lanzando nuevas herramientas de seguridad y la Llama Stack API.

El director ejecutivo, Mark Zuckerberg, pone un fuerte énfasis en democratizar el acceso a la IA y al mismo tiempo establecer las tecnologías de IA de Meta como normas de la industria. Se han descargado más de 300 millones de modelos de Llama y se han creado 20.000 modelos variantes, a pesar de los problemas legales y las preocupaciones sobre las prácticas de datos.

Al ampliar estos modelos surgen dificultades energéticas, ya que la formación ejerce presión sobre las redes eléctricas. Dado que Meta tiene la intención de construir modelos aún más grandes en el futuro, será esencial resolver estas dificultades. Con el lanzamiento de Llama 3.1 405B, Meta ha dado un paso significativo hacia su estrategia de IA, cuyo objetivo es ampliar los límites de la IA generativa y desafiar a los competidores.