Grandes vantaxes dos pequenos modelos de IA para xigantes tecnolóxicos

Grandes vantaxes dos pequenos modelos de IA para xigantes tecnolóxicos

Na procura de replicar a intelixencia humana, o foco da carreira armamentística da intelixencia artificial centrouse inicialmente na creación de modelos masivos adestrados en conxuntos de datos extensos. Non obstante, houbo un cambio notable nos últimos tempos, con xigantes tecnolóxicos e startups que dirixían cada vez máis a súa atención cara a un software de IA máis simplificado e especializado, máis barato e rápido.

Estes modelos de linguaxe de tamaño pequeno e medio, especialmente deseñados para tarefas específicas e adestrados con menos datos, gañaron unha popularidade significativa. A diferenza dos seus homólogos máis grandes, pódense desenvolver por un custo inferior aos 10 millóns de dólares e utilizar menos de 10.000 millóns de parámetros. A modo de comparación, GPT-4o de OpenAI, un dos modelos máis grandes, requiriu máis de 100 millóns de dólares para construír e utilizar máis dun billón de parámetros. O menor tamaño destes modelos tradúcese en menores requisitos de potencia computacional e prezos reducidos por consulta.

Por exemplo, Microsoft fixo fincapé na súa familia Phi de modelos pequenos. Satya Nadella, CEO de Microsoft, afirma que estes modelos son 1/100 do tamaño do modelo detrás do ChatGPT de OpenAI, aínda que poden xestionar moitas tarefas cunha eficiencia comparable. Yusuf Mehdi, director comercial de Microsoft, reforza a necesidade de modelos distintos para diferentes tarefas, citando os custos superiores aos previstos asociados á execución de modelos grandes. Ademais, Microsoft presentou recentemente ordenadores portátiles con intelixencia artificial que utilizan numerosos modelos de intelixencia artificial para a busca e a xeración de imaxes. Estes modelos funcionan no propio dispositivo sen depender de grandes supercomputadoras baseadas na nube, como é o caso de ChatGPT.

Outras corporacións como Google e startups de intelixencia artificial como Mistral, Anthropic e Cohere tamén lanzaron modelos máis pequenos. Ademais, Apple presentou plans para integrar pequenos modelos para mellorar a velocidade e a seguridade das operacións de intelixencia artificial nos teléfonos.

OpenAI, coñecida por defender modelos grandes, lanzou unha versión máis accesible do seu modelo emblemático e pretende centrarse no desenvolvemento de modelos máis pequenos no futuro. Os modelos grandes resultan excesivos para tarefas como o resumo de documentos ou a xeración de imaxes, de xeito similar ao uso dun tanque para unha simple viaxe de compras. Os modelos máis pequenos, por outra banda, poden ofrecer un rendemento comparable a un custo significativamente menor. Estes modelos adoitan adaptarse a tarefas específicas como a xestión de documentos legais ou comunicacións internas. Yoav Shoham de AI21 Labs afirma que os modelos pequenos son económicamente máis factibles para o seu uso xeneralizado, custando só unha fracción do que implicarían os modelos grandes mentres proporcionan respostas ás preguntas.

As empresas están a adoptar facilmente estes modelos máis pequenos para mellorar a eficiencia e reducir os custos. Por exemplo, Experian fixo a transición a modelos máis pequenos para os seus chatbots de intelixencia artificial e logrou un rendemento similar aos modelos máis grandes pero cun custo reducido. Clara Shih de Salesforce destaca a practicidade dos modelos máis pequenos, xa que os modelos adoitan provocar gastos excesivos e problemas de latencia.

Desde o lanzamento de GPT-4 por parte de OpenAI, non houbo avances significativos no desenvolvemento de grandes modelos, o que provocou un estancamento do progreso. En consecuencia, os esforzos foron reorientados cara a mellorar a eficiencia dos modelos máis pequenos. Sébastien Bubeck de Microsoft observa unha pausa actual no gran desenvolvemento e anima os esforzos para mellorar a eficiencia.

A pesar deste cambio, os modelos grandes aínda teñen valor para tarefas avanzadas. Empresas como Apple e Microsoft continúan incorporando grandes modelos como como ChatGPT nos seus produtos, aínda que estas integracións normalmente representan só unha fracción das súas iniciativas xerais de IA. Esta progresión significa a transformación da IA ​​de demostracións futuristas a comerciais prácticos.

Code Labs Academy © 2025 Todos os dereitos reservados.