Η Meta αποκαλύπτει το Llama 3.1 405B: Το μεγαλύτερο μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα τα τελευταία χρόνια

Ενημερώθηκε για το July 24, 2024 3 λεπτά ανάγνωση

Το Llama 3.1 405B, ένα μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα με 405 δισεκατομμύρια παραμέτρους, είναι το μεγαλύτερο μοντέλο του Meta έχει κυκλοφορήσει μέχρι στιγμής. Δεν είναι το μεγαλύτερο μοντέλο συνολικά, αλλά είναι το μεγαλύτερο μοντέλο ανοιχτού κώδικα που έχει διατεθεί πρόσφατα. Χρησιμοποιώντας νέες μεθοδολογίες, το Llama 3.1 405B, εκπαιδευμένο σε 16.000 GPU Nvidia H100, μπορεί να ανταγωνιστεί κορυφαία ιδιόκτητα μοντέλα όπως το Claude 3.5 Sonnet της Anthropic και το GPT-4o του OpenAI. Το μοντέλο μπορεί να ληφθεί και να χρησιμοποιηθεί σε πλατφόρμες υπολογιστικού νέφους, συμπεριλαμβανομένων των Google Cloud, AWS και Azure. Είναι επίσης ενσωματωμένο σε chatbots στις Ηνωμένες Πολιτείες χρησιμοποιώντας το WhatsApp και το Meta.ai.

Αν και περιορίζεται σε δραστηριότητες που βασίζονται σε κείμενο, το Llama 3.1 405B μπορεί να εκτελέσει ένα ευρύ φάσμα εργασιών, συμπεριλαμβανομένης της κωδικοποίησης και της σύνοψης πολύγλωσσων εγγράφων (στα Αγγλικά, Γερμανικά, Γαλλικά, Ιταλικά, Πορτογαλικά, Χίντι, Ισπανικά και Ταϊλανδικά). Αν και δεν είναι προς το παρόν δημόσια προσβάσιμα, η Meta εργάζεται ενεργά σε πολυτροπικά μοντέλα Llama για τη διαχείριση φωτογραφιών, βίντεο και ομιλίας. Το μοντέλο ενισχύθηκε με συνθετικά δεδομένα, κάτι που είναι σύνηθες, αλλά εγείρει ερωτήματα σχετικά με πιθανή μεροληψία, και στη συνέχεια εκπαιδεύτηκε σε ένα εκλεπτυσμένο δείγμα 15 τρισεκατομμυρίων μαρκών.

Το μοντέλο μπορεί να χειριστεί αποτελεσματικά μεγαλύτερες εισόδους και να διατηρήσει το πλαίσιο συνομιλίας χάρη στο παράθυρο περιβάλλοντος με 128.000 διακριτικά. Το Llama 3.1 8B και το Llama 3.1 70B είναι μικρότερα μοντέλα που μπορούν επίσης να χρησιμοποιήσουν εργαλεία και API τρίτων για να αυξήσουν την προσαρμοστικότητά τους εκτός από αυτήν την ικανότητα διευρυμένου περιβάλλοντος. Αυτά τα μοντέλα μπορούν να επικοινωνούν με έναν διερμηνέα Python για έλεγχο κώδικα, Brave Search και Wolfram Alpha για μαθηματικές ερωτήσεις.

Η Meta θέλει να δημιουργήσει ένα οικοσύστημα προγραμματιστών γύρω από το Llama, ώστε να γίνει ένας πυλώνας γενετικής τεχνητής νοημοσύνης. Με ορισμένους περιορισμούς στην ανάπτυξη για μεγαλύτερους προγραμματιστές, η νέα άδεια επιτρέπει στους προγραμματιστές να χρησιμοποιούν εξόδους μοντέλων για την ανάπτυξη μοντέλων παραγωγής τρίτων. Προκειμένου να διευκολυνθεί η τελειοποίηση, η παραγωγή συνθετικών δεδομένων και η ανάπτυξη εξελιγμένων εφαρμογών, η Meta κυκλοφορεί επίσης νέα εργαλεία ασφαλείας και το Llama Stack API.

Ο διευθύνων σύμβουλος Mark Zuckerberg δίνει μεγάλη έμφαση στον εκδημοκρατισμό της πρόσβασης στην τεχνητή νοημοσύνη, καθιερώνοντας παράλληλα τις τεχνολογίες AI της Meta ως κανόνες της βιομηχανίας. Έχουν ληφθεί πάνω από 300 εκατομμύρια μοντέλα Llama και έχουν κατασκευαστεί 20.000 παραλλαγμένα μοντέλα, παρά τα νομικά ζητήματα και τις ανησυχίες σχετικά με τις πρακτικές δεδομένων.

Προκύπτουν ενεργειακές δυσκολίες κατά την κλιμάκωση αυτών των μοντέλων, καθώς η εκπαίδευση επιβαρύνει τα δίκτυα ισχύος. Δεδομένου ότι η Meta σκοπεύει να κατασκευάσει ακόμη μεγαλύτερα μοντέλα στο μέλλον, η επίλυση αυτών των δυσκολιών θα είναι απαραίτητη. Με την κυκλοφορία του Llama 3.1 405B, η Meta έκανε ένα σημαντικό βήμα προς τη στρατηγική της για την τεχνητή νοημοσύνη, η οποία στοχεύει να ξεπεράσει τα όρια της γενετικής τεχνητής νοημοσύνης και να προκαλέσει τους ανταγωνιστές της.