Bei dem Bestreben, menschliche Intelligenz zu reproduzieren, lag der Schwerpunkt des Wettrüstens im Bereich der künstlichen Intelligenz zunächst auf der Erstellung massiver Modelle, die auf umfangreichen Datensätzen trainiert wurden. Allerdings hat es in jüngster Zeit einen bemerkenswerten Wandel gegeben, da Technologiegiganten und Startups ihre Aufmerksamkeit zunehmend auf schlankere und spezialisiertere KI-Software richten, die billiger und schneller ist.
Diese kleineren und mittelgroßen Sprachmodelle, die speziell für bestimmte Aufgaben entwickelt und mit weniger Daten trainiert werden, erfreuen sich großer Beliebtheit. Im Gegensatz zu ihren größeren Gegenstücken können sie für weniger als 10 Millionen US-Dollar entwickelt werden und nutzen weniger als 10 Milliarden Parameter. Zum Vergleich: OpenAIs GPT-4o, eines der größten Modelle, erforderte über 100 Millionen US-Dollar für die Konstruktion und verwendete mehr als eine Billion Parameter. Die geringere Größe dieser Modelle führt zu geringeren Anforderungen an die Rechenleistung und geringeren Preisen pro Abfrage.
Beispielsweise hat Microsoft den Schwerpunkt auf seine Phi-Familie kleiner Modelle gelegt. Satya Nadella, CEO von Microsoft, behauptet, dass diese Modelle ein Hundertstel der Größe des Modells hinter ChatGPT von OpenAI haben, dennoch viele Aufgaben mit vergleichbarer Effizienz bewältigen können. Yusuf Mehdi, Chief Commercial Officer von Microsoft, unterstreicht die Notwendigkeit unterschiedlicher Modelle für unterschiedliche Aufgaben und verweist auf die höher als erwarteten Kosten, die mit dem Betrieb großer Modelle verbunden sind. Darüber hinaus hat Microsoft kürzlich KI-Laptops eingeführt, die zahlreiche KI-Modelle für die Suche und Bildgenerierung nutzen. Diese Modelle laufen auf dem Gerät selbst, ohne auf umfangreiche cloudbasierte Supercomputer angewiesen zu sein, wie es bei ChatGPT der Fall ist.
Auch andere Konzerne wie Google und KI-Startups wie Mistral, Anthropic und Cohere haben kleinere Modelle herausgebracht. Darüber hinaus hat Apple Pläne zur Integration kleiner Modelle bekannt gegeben, um die Geschwindigkeit und Sicherheit von KI-Vorgängen auf Telefonen zu erhöhen.
OpenAI, das dafür bekannt ist, sich für große Modelle einzusetzen, hat eine günstigere Version seines Flaggschiffmodells auf den Markt gebracht und beabsichtigt, sich in Zukunft auf die Entwicklung kleinerer Modelle zu konzentrieren. Große Modelle erweisen sich für Aufgaben wie die Zusammenfassung von Dokumenten oder die Generierung von Bildern als übertrieben, ähnlich wie die Verwendung eines Tanks für einen einfachen Lebensmitteleinkauf. Kleinere Modelle hingegen können eine vergleichbare Leistung zu deutlich geringeren Kosten bieten. Diese Modelle sind häufig auf bestimmte Aufgaben wie die Verwaltung von Rechtsdokumenten oder die interne Kommunikation zugeschnitten. Yoav Shoham von AI21 Labs behauptet, dass kleine Modelle für den breiten Einsatz wirtschaftlicher sind, da sie nur einen Bruchteil dessen kosten, was große Modelle kosten würden, und gleichzeitig Antworten auf Fragen liefern.
Unternehmen übernehmen diese kleineren Modelle gerne, um die Effizienz zu steigern und die Kosten zu senken. Beispielsweise ist Experian für seine KI-Chatbots auf kleinere Modelle umgestiegen und erzielte eine ähnliche Leistung wie größere Modelle, jedoch zu geringeren Kosten. Clara Shih von Salesforce betont die Praktikabilität kleinerer Modelle, da Modelle häufig zu übermäßigen Ausgaben und Latenzproblemen führen.
Seit der Veröffentlichung von GPT-4 durch OpenAI gab es keine wesentlichen Fortschritte bei der Entwicklung großer Modelle, was zu einer Stagnation des Fortschritts führte. Folglich wurden die Bemühungen auf die Verbesserung der Effizienz kleinerer Modelle verlagert. Sébastien Bubeck von Microsoft beobachtet eine aktuelle Pause in der großen Entwicklung und ermutigt zu Bemühungen zur Effizienzsteigerung.
Trotz dieser Verschiebung sind große Modelle für anspruchsvollere Aufgaben immer noch wertvoll. Unternehmen wie Apple und Microsoft integrieren weiterhin große Modelle wie z als ChatGPT in ihre Produkte integrieren, obwohl diese Integrationen normalerweise nur einen Bruchteil ihrer gesamten KI-Initiativen ausmachen. Dieser Fortschritt bedeutet den Wandel der KI von futuristischen Demonstrationen zu praktischen Werbespots.