Στην επιδίωξη της αναπαραγωγής της ανθρώπινης νοημοσύνης, το επίκεντρο της κούρσας εξοπλισμών τεχνητής νοημοσύνης επικεντρώθηκε αρχικά στη δημιουργία τεράστιων μοντέλων εκπαιδευμένων σε εκτεταμένα σύνολα δεδομένων. Ωστόσο, έχει σημειωθεί μια αξιοσημείωτη αλλαγή τα τελευταία χρόνια, με τους τεχνολογικούς γίγαντες και τις νεοφυείς επιχειρήσεις να στρέφουν όλο και περισσότερο την προσοχή τους προς ένα πιο βελτιωμένο και εξειδικευμένο λογισμικό τεχνητής νοημοσύνης που είναι φθηνότερο και ταχύτερο.
Αυτά τα μικρότερα και μεσαίου μεγέθους μοντέλα γλώσσας, ειδικά σχεδιασμένα για συγκεκριμένες εργασίες και εκπαιδευμένα με λιγότερα δεδομένα, έχουν αποκτήσει σημαντική δημοτικότητα. Σε αντίθεση με τους μεγαλύτερους ομολόγους τους, μπορούν να αναπτυχθούν με κόστος κάτω από 10 εκατομμύρια δολάρια και να χρησιμοποιούν λιγότερες από 10 δισεκατομμύρια παραμέτρους. Για σύγκριση, το GPT-4o της OpenAI, ένα από τα μεγαλύτερα μοντέλα, απαιτούσε πάνω από 100 εκατομμύρια δολάρια για την κατασκευή και χρησιμοποίησε περισσότερες από ένα τρισεκατομμύριο παραμέτρους. Το μικρότερο μέγεθος αυτών των μοντέλων μεταφράζεται σε χαμηλότερες απαιτήσεις υπολογιστικής ισχύος και μειωμένες τιμές ανά ερώτημα.
Για παράδειγμα, η Microsoft έχει δώσει έμφαση στην οικογένεια μικρών μοντέλων Phi. Ο Satya Nadella, Διευθύνων Σύμβουλος της Microsoft, ισχυρίζεται ότι αυτά τα μοντέλα είναι το 1/100 του μεγέθους του μοντέλου πίσω από το ChatGPT του OpenAI, ωστόσο μπορούν να χειριστούν πολλές εργασίες με συγκρίσιμη αποτελεσματικότητα. Ο Yusuf Mehdi, Chief Commercial Officer της Microsoft, ενισχύει την ανάγκη για ξεχωριστά μοντέλα για διαφορετικές εργασίες, αναφέροντας το υψηλότερο από το αναμενόμενο κόστος που σχετίζεται με τη λειτουργία μεγάλων μοντέλων. Επιπλέον, η Microsoft παρουσίασε πρόσφατα φορητούς υπολογιστές τεχνητής νοημοσύνης που χρησιμοποιούν πολλά μοντέλα τεχνητής νοημοσύνης για αναζήτηση και δημιουργία εικόνων. Αυτά τα μοντέλα λειτουργούν στην ίδια τη συσκευή χωρίς να βασίζονται σε εκτεταμένους υπερυπολογιστές που βασίζονται σε cloud, όπως συμβαίνει με το ChatGPT.
Άλλες εταιρείες όπως η Google και οι νεοσύστατες εταιρείες τεχνητής νοημοσύνης όπως οι Mistral, Anthropic και Cohere έχουν επίσης κυκλοφορήσει μικρότερα μοντέλα. Επιπλέον, η Apple αποκάλυψε σχέδια για την ενσωμάτωση μικρών μοντέλων για τη βελτίωση της ταχύτητας και της ασφάλειας των λειτουργιών τεχνητής νοημοσύνης σε τηλέφωνα.
Η OpenAI, γνωστή για την υποστήριξη μεγάλων μοντέλων, κυκλοφόρησε μια πιο προσιτή έκδοση του κορυφαίου μοντέλου της και σκοπεύει να επικεντρωθεί στην ανάπτυξη μικρότερων μοντέλων στο μέλλον. Τα μεγάλα μοντέλα αποδεικνύονται υπερβολικά για εργασίες όπως η σύνοψη εγγράφων ή η δημιουργία εικόνων, παρόμοια με τη χρήση δεξαμενής για ένα απλό ταξίδι για ψώνια. Τα μικρότερα μοντέλα, από την άλλη πλευρά, μπορούν να προσφέρουν συγκρίσιμες επιδόσεις με σημαντικά χαμηλότερο κόστος. Αυτά τα μοντέλα είναι συχνά προσαρμοσμένα για συγκεκριμένες εργασίες, όπως διαχείριση νομικών εγγράφων ή εσωτερικές επικοινωνίες. Ο Yoav Shoham της AI21 Labs βεβαιώνει ότι τα μικρά μοντέλα είναι πιο οικονομικά εφικτά για ευρεία χρήση, κοστίζοντας μόνο ένα κλάσμα από αυτό που θα συνεπάγονταν τα μεγάλα μοντέλα, παρέχοντας απαντήσεις σε ερωτήσεις.
Οι επιχειρήσεις υιοθετούν εύκολα αυτά τα μικρότερα μοντέλα για να βελτιώσουν την αποτελεσματικότητα και να μειώσουν το κόστος. Για παράδειγμα, η Experian μεταπήδησε σε μικρότερα μοντέλα για τα chatbot AI και πέτυχε παρόμοια απόδοση με μεγαλύτερα μοντέλα, αλλά με μειωμένο κόστος. Η Clara Shih της Salesforce τονίζει την πρακτικότητα των μικρότερων μοντέλων, καθώς τα μοντέλα συχνά οδηγούν σε υπερβολικές δαπάνες και προβλήματα καθυστέρησης.
Από την κυκλοφορία του GPT-4 από την OpenAI, δεν υπήρξαν σημαντικές εξελίξεις στην ανάπτυξη μεγάλων μοντέλων, με αποτέλεσμα τη στασιμότητα της προόδου. Κατά συνέπεια, οι προσπάθειες έχουν ανακατευθυνθεί προς τη βελτίωση της αποδοτικότητας μικρότερων μοντέλων. Ο Sébastien Bubeck από τη Microsoft παρατηρεί μια τρέχουσα παύση στη μεγάλη ανάπτυξη και ενθαρρύνει τις προσπάθειες για τη βελτίωση της αποτελεσματικότητας.
Παρά αυτή τη μετατόπιση, τα μεγάλα μοντέλα εξακολουθούν να έχουν αξία για προηγμένες εργασίες. Εταιρείες όπως η Apple και η Microsoft συνεχίζουν να ενσωματώνουν μεγάλα μοντέλα όπως ως ChatGPT στα προϊόντα τους, αν και αυτές οι ενσωματώσεις αντιπροσωπεύουν συνήθως μόνο ένα κλάσμα των συνολικών πρωτοβουλιών τεχνητής νοημοσύνης τους. Αυτή η εξέλιξη σηματοδοτεί τη μετατροπή της τεχνητής νοημοσύνης από φουτουριστικές επιδείξεις σε πρακτικές διαφημίσεις.