Grandes beneficios de los pequeños modelos de IA para los gigantes tecnológicos

Grandes beneficios de los pequeños modelos de IA para los gigantes tecnológicos

En la búsqueda de replicar la inteligencia humana, el foco de la carrera armamentista de inteligencia artificial se centró inicialmente en la creación de modelos masivos entrenados en extensos conjuntos de datos. Sin embargo, ha habido un cambio notable en los últimos tiempos, ya que los gigantes tecnológicos y las nuevas empresas dirigen cada vez más su atención hacia un software de inteligencia artificial más optimizado y especializado, que es más barato y más rápido.

Estos modelos de lenguaje más pequeños y medianos, especialmente diseñados para tareas específicas y entrenados con menos datos, han ganado una popularidad significativa. A diferencia de sus homólogos más grandes, pueden desarrollarse por un coste inferior a 10 millones de dólares y utilizar menos de 10 mil millones de parámetros. A modo de comparación, GPT-4o de OpenAI, uno de los modelos más grandes, requirió más de 100 millones de dólares para construir y utilizó más de un billón de parámetros. El tamaño más pequeño de estos modelos se traduce en menores requisitos de potencia computacional y precios reducidos por consulta.

Por ejemplo, Microsoft ha puesto énfasis en su familia Phi de modelos pequeños. Satya Nadella, director ejecutivo de Microsoft, afirma que estos modelos tienen un tamaño 1/100 del modelo detrás de ChatGPT de OpenAI, pero pueden manejar muchas tareas con una eficiencia comparable. Yusuf Mehdi, director comercial de Microsoft, refuerza la necesidad de contar con modelos distintos para diferentes tareas, citando los costos más altos de lo previsto asociados con el funcionamiento de modelos grandes. Además, Microsoft ha introducido recientemente computadoras portátiles con IA que utilizan numerosos modelos de IA para búsqueda y generación de imágenes. Estos modelos funcionan en el propio dispositivo sin depender de grandes supercomputadoras basadas en la nube, como es el caso de ChatGPT.

Otras corporaciones como Google y nuevas empresas de inteligencia artificial como Mistral, Anthropic y Cohere también han lanzado modelos más pequeños. Además, Apple ha revelado planes para integrar modelos pequeños para mejorar la velocidad y seguridad de las operaciones de IA en los teléfonos.

OpenAI, conocida por defender modelos grandes, ha lanzado una versión más asequible de su modelo estrella y tiene la intención de centrarse en el desarrollo de modelos más pequeños en el futuro. Los modelos grandes resultan excesivos para tareas como el resumen de documentos o la generación de imágenes, similar al uso de un tanque para un simple viaje de compras. Los modelos más pequeños, por el contrario, pueden ofrecer un rendimiento comparable a un coste significativamente menor. Estos modelos suelen estar diseñados para tareas específicas como la gestión de documentos legales o comunicaciones internas. Yoav Shoham de AI21 Labs afirma que los modelos pequeños son más viables económicamente para un uso generalizado, ya que cuestan sólo una fracción de lo que implicarían los modelos grandes y, al mismo tiempo, proporcionan respuestas a las preguntas.

Las empresas están adoptando fácilmente estos modelos más pequeños para mejorar la eficiencia y reducir costos. Por ejemplo, Experian hizo la transición a modelos más pequeños para sus chatbots de IA y logró un rendimiento similar al de los modelos más grandes, pero a un costo reducido. Clara Shih, de Salesforce, destaca la practicidad de los modelos más pequeños, ya que los modelos a menudo generan gastos excesivos y problemas de latencia.

Desde el lanzamiento de GPT-4 por parte de OpenAI, no ha habido avances significativos en el desarrollo de modelos grandes, lo que ha resultado en un estancamiento del progreso. En consecuencia, los esfuerzos se han reorientado hacia la mejora de la eficiencia de los modelos más pequeños. Sébastien Bubeck de Microsoft observa una pausa reciente en el gran desarrollo y alienta los esfuerzos para mejorar el rendimiento.

A pesar de este cambio, los modelos grandes siguen siendo valiosos para tareas avanzadas. Empresas como Apple y Microsoft siguen incorporando grandes modelos como como ChatGPT en sus productos, aunque estas integraciones generalmente representan solo una fracción de sus iniciativas generales de IA. Esta progresión significa la transformación de la IA de demostraciones futuristas a comerciales prácticos.

Code Labs Academy © 2025 Todos los derechos reservados.