Νέα μελέτη αποκαλύπτει επίμονες ψευδαισθήσεις σε κορυφαία μοντέλα τεχνητής νοημοσύνης

Νέα μελέτη αποκαλύπτει επίμονες ψευδαισθήσεις σε κορυφαία μοντέλα τεχνητής νοημοσύνης

Σύμφωνα με μια πρόσφατη μελέτη, ακόμη και τα καλύτερα μοντέλα τεχνητής νοημοσύνης βιώνουν τακτικά παραισθήσεις—λάθη όπου τα μοντέλα δημιουργούν ψευδείς ή παραπλανητικές πληροφορίες. Όλα τα παραγωγικά μοντέλα τεχνητής νοημοσύνης—από το Gemini της Google μέχρι το Anthropic's Claude και το πιο πρόσφατο GPT-4o του OpenAI—έχουν αυτό το πρόβλημα, ωστόσο το είδος και η συχνότητα των σφαλμάτων διαφέρουν ανάλογα με τα δεδομένα εκπαίδευσης.

Σε μια προσπάθεια να αξιολογήσουν αυτές τις παραισθήσεις, ερευνητές από το Cornell, τα πανεπιστήμια της Ουάσιγκτον και του Βατερλώ και ο οργανισμός AI2 συνέκριναν τα αποτελέσματα των μοντέλων με αξιόπιστες πηγές σε διάφορα θέματα, συμπεριλαμβανομένης της γεωγραφίας, της ιστορίας, της υγείας και του δικαίου. Κανένα μοντέλο δεν είχε σταθερά καλή απόδοση σε όλα τα άτομα, σύμφωνα με τα δεδομένα, και αυτά που παρουσίασαν λιγότερες παραισθήσεις το έκαναν εν μέρει επειδή αρνήθηκαν να απαντήσουν σε ερωτήσεις που μπορεί να είχαν απαντήσει λανθασμένα.

Η έρευνα υπογραμμίζει την επίμονη δυσκολία να βασίζεται κανείς σε υλικό που δημιουργείται από AI, καθώς ακόμη και τα πιο προηγμένα μοντέλα μπορούν να δημιουργήσουν ακριβές κείμενο χωρίς παραισθήσεις μόνο στο 35% των περιπτώσεων. Αυτή η έρευνα περιλαμβάνει πιο δύσκολα θέματα που δεν καλύπτονται από τη Wikipedia, όπως ο πολιτισμός, τα οικονομικά και η ιατρική, ενώ προηγούμενες μελέτες επικεντρώνονταν συχνά σε ερωτήσεις με εύκολα προσβάσιμες απαντήσεις στη Wikipedia. Αξιολογήσαμε περισσότερα από δώδεκα γνωστά μοντέλα, όπως το Gemini 1.5 Pro της Google, το Llama 3 της Meta και το GPT-4o.

Η μελέτη ανακάλυψε ότι αν και τα μοντέλα τεχνητής νοημοσύνης έχουν προχωρήσει, τα ποσοστά των παραισθήσεων τους δεν έχουν μειωθεί αισθητά. Τα μοντέλα του OpenAI ήταν από τα λιγότερο πιθανό να παράγουν ανακριβή αποτελέσματα. Ωστόσο, τα μοντέλα είχαν μεγαλύτερο πρόβλημα να απαντήσουν σε ερωτήσεις σχετικά με τα οικονομικά και τις διασημότητες παρά για τη γεωγραφία και την επιστήμη των υπολογιστών.

Όχι μόνο τα μοντέλα που δεν είχαν δυνατότητες αναζήτησης ιστού δυσκολεύτηκαν να απαντήσουν σε προβλήματα που δεν καλύπτονται από τη Wikipedia, αλλά τα μικρότερα μοντέλα ξεπέρασαν τα μεγαλύτερα όσον αφορά το ποσοστό παραισθήσεων. Αυτά τα αποτελέσματα θέτουν αμφιβολίες για τις εξελίξεις που ισχυρίστηκαν ότι έκαναν οι προμηθευτές τεχνητής νοημοσύνης.

Η έρευνα δείχνει ότι οι ψευδαισθήσεις θα είναι πρόβλημα για αρκετό καιρό ακόμη και ότι τα κριτήρια που χρησιμοποιούνται για την αξιολόγηση αυτών των μοντέλων μπορεί να μην είναι επαρκή. Το μοντέλο Claude 3 Haiku, το οποίο πέτυχε μεγαλύτερη ακρίβεια μη απαντώντας σε περίπου 28% των ερωτήσεων, είναι ένα παράδειγμα μοντέλου που προτείνουν οι ερευνητές ως ενδιάμεση λύση. Προγραμματισμός μοντέλων για να κάνουν το ίδιο. Από την άλλη πλευρά, δεν είναι σαφές εάν οι άνθρωποι θα ανεχθούν ένα μοντέλο που αρνείται συνεχώς να απαντήσει.

Οι ερευνητές υποστηρίζουν νομοθεσία που εγγυάται ότι οι ειδικοί του ανθρώπου εμπλέκονται στην επαλήθευση του περιεχομένου που δημιουργείται από την τεχνητή νοημοσύνη, καθώς και πιο συγκεντρωμένες προσπάθειες για τη μείωση των παραισθήσεων, ίσως μέσω του ελέγχου γεγονότων από τον άνθρωπο και των βελτιωμένων διαδικασιών αναφοράς. Πιστεύουν ότι υπάρχουν πολλές δυνατότητες βελτίωσης των εργαλείων ελέγχου δεδομένων και προσφέρουν διορθώσεις περιεχομένου για περιεχόμενο που έχει αλλοιωθεί από παραισθήσεις.

Code Labs Academy © 2025 Όλα τα δικαιώματα διατηρούνται.