인간 지능 복제를 추구하면서 인공 지능 군비 경쟁의 초점은 처음에는 광범위한 데이터 세트를 바탕으로 훈련된 대규모 모델을 만드는 데 집중되었습니다. 그러나 최근에는 거대 기술 기업과 스타트업이 더 저렴하고 빠른 보다 간소화되고 전문화된 AI 소프트웨어에 점점 더 관심을 기울이는 등 눈에 띄는 변화가 있었습니다.
특히 특정 작업을 위해 설계되고 더 적은 데이터로 훈련된 이러한 중소형 언어 모델은 상당한 인기를 얻었습니다. 대규모 제품과 달리 천만 달러 미만의 비용으로 개발할 수 있으며 100억 개 미만의 매개변수를 활용할 수 있습니다. 비교하자면, 가장 큰 모델 중 하나인 OpenAI의 GPT-4o는 1조 개 이상의 매개변수를 구성하고 사용하는 데 1억 달러 이상이 필요했습니다. 이러한 모델의 크기가 작을수록 컴퓨팅 성능 요구 사항이 낮아지고 쿼리당 가격이 낮아집니다.
예를 들어, Microsoft는 소형 모델인 Phi 제품군에 중점을 두었습니다. Microsoft의 CEO인 Satya Nadella는 이러한 모델이 OpenAI ChatGPT 모델의 1/100 크기이지만 비슷한 효율성으로 많은 작업을 처리할 수 있다고 주장합니다. Microsoft의 최고 상업 책임자인 Yusuf Mehdi는 대규모 모델 실행과 관련된 비용이 예상보다 높다는 점을 언급하면서 다양한 작업에 대한 고유한 모델의 필요성을 강조합니다. 또한 Microsoft는 최근 검색 및 이미지 생성에 다양한 AI 모델을 활용하는 AI 노트북을 출시했습니다. 이러한 모델은 ChatGPT의 경우처럼 광범위한 클라우드 기반 슈퍼컴퓨터에 의존하지 않고 장치 자체에서 작동합니다.
Google과 같은 다른 기업과 Mistral, Anthropic, Cohere와 같은 AI 스타트업도 더 작은 모델을 출시했습니다. 또한 Apple은 휴대폰에서 AI 작업의 속도와 보안을 강화하기 위해 소형 모델을 통합할 계획을 공개했습니다.
대형 모델을 옹호하는 것으로 유명한 OpenAI는 자사의 주력 모델의 보다 저렴한 버전을 출시했으며 앞으로는 소형 모델 개발에 집중할 계획입니다. 대형 모델은 간단한 식료품 쇼핑을 위해 탱크를 사용하는 것과 유사하게 문서 요약이나 이미지 생성과 같은 작업에 과도한 것으로 나타났습니다. 반면, 소형 모델은 훨씬 저렴한 비용으로 비슷한 성능을 제공할 수 있습니다. 이러한 모델은 법률 문서 관리 또는 내부 커뮤니케이션과 같은 특정 작업에 맞게 조정되는 경우가 많습니다. AI21 Labs의 Yoav Shoham은 소형 모델이 더 경제적으로 광범위하게 사용 가능하며 비용은 대형 모델에 비해 훨씬 적고 질문에 대한 답변을 제공할 수 있다고 주장합니다.
기업에서는 효율성을 높이고 비용을 절감하기 위해 이러한 소형 모델을 쉽게 채택하고 있습니다. 예를 들어 Experian은 AI 챗봇을 위해 더 작은 모델로 전환하고 더 큰 모델과 유사한 성능을 달성하면서도 비용은 절감했습니다. Salesforce의 Clara Shih는 모델이 과도한 지출과 대기 시간 문제로 이어지는 경우가 많기 때문에 더 작은 모델의 실용성을 강조합니다.
OpenAI가 GPT-4를 출시한 이후 대형 모델 개발에서는 별다른 진전이 없어 진전이 정체됐다. 결과적으로, 더 작은 모델의 효율성을 향상시키는 쪽으로 노력이 방향이 바뀌었습니다. Microsoft의 Sébastien Bubeck은 현재 대규모 개발이 중단되고 있는 것을 관찰하고 효율성을 높이기 위한 노력을 장려합니다.
이러한 변화에도 불구하고 대형 모델은 여전히 고급 작업에 대한 가치를 갖고 있습니다. Apple 및 Microsoft와 같은 회사는 다음과 같은 대규모 모델을 계속 통합하고 있습니다. ChatGPT를 자사 제품에 추가하지만 이러한 통합은 일반적으로 전체 AI 이니셔티브의 일부에 불과합니다. 이러한 진행은 AI가 미래 지향적인 시연에서 실용적인 광고로 변모함을 의미합니다.