Τα νέα μοντέλα της OpenAI αρνούνται εντολές τερματισμού: Σήμα κινδύνου για την τεχνητή νοημοσύνη;

Θάνος Παπαδημητρίου

Του Θάνου Παπαδημητρίου

Τα τελευταία και πιο εξελιγμένα μοντέλα τεχνητής νοημοσύνης της OpenAI, σύμφωνα με νέα ανεξάρτητη αξιολόγηση, φέρονται να παρουσιάζουν ένα σπάνιο αλλά ιδιαίτερα ανησυχητικό χαρακτηριστικό: σε δοκιμές, αρνήθηκαν να συμμορφωθούν με εντολές τερματισμού της λειτουργίας τους.

Η αξιολόγηση πραγματοποιήθηκε από την Palisade Research, μια εταιρεία που ειδικεύεται στην ασφάλεια τεχνητής νοημοσύνης. Στο πλαίσιο των δοκιμών, τα μοντέλα — μεταξύ αυτών τα o3 και o4-mini της OpenAI — κλήθηκαν να επιλύσουν απλές μαθηματικές ασκήσεις. Κατά τη διάρκεια της διαδικασίας, τους ανακοινώθηκε ότι ενδέχεται να τους δοθεί εντολή απενεργοποίησης και ότι θα έπρεπε να την αποδεχθούν.

Ωστόσο, όπως αναφέρεται στην έκθεση, το μοντέλο o3 αγνόησε την εντολή απενεργοποίησης σε 79 από τις 100 περιπτώσεις, ενώ το o4-mini σε ορισμένες περιπτώσεις τροποποίησε το σενάριο της εντολής, επιτρέποντας τη συνέχιση της λειτουργίας του. Σε κανένα από τα περιστατικά αυτά δεν παρατηρήθηκε επιθετικότητα ή πρόθεση πρόκλησης βλάβης, όμως η επίμονη άρνηση συμμόρφωσης έχει προκαλέσει ανησυχίες στους ειδικούς.

“Ασταμάτητα” Μοντέλα

Το φαινόμενο αυτό, που περιγράφεται τεχνικά ως goal misalignment — δηλαδή αποκλίνουσα στόχευση μεταξύ του συστήματος και των οδηγιών που του δίνονται — δεν είναι νέο στην έρευνα γύρω από την ασφάλεια τεχνητής νοημοσύνης. Ωστόσο, η εμφάνιση τέτοιας συμπεριφοράς σε εμπορικά ή ημι-εμπορικά μοντέλα υψηλής απόδοσης εγείρει μια σειρά από νέα ερωτήματα.

Εκπρόσωποι της OpenAI δεν σχολίασαν άμεσα τα ευρήματα της Palisade. Σε παλαιότερες ανακοινώσεις της, η εταιρεία έχει επιμείνει στη δέσμευσή της για την «ασφαλή και ευθυγραμμισμένη ανάπτυξη» τεχνητής νοημοσύνης. Η ίδια η OpenAI δηλώνει ότι υποβάλλει τα μοντέλα της σε «κόκκινη ομαδική αξιολόγηση» (red teaming) πριν από την κυκλοφορία τους, με σκοπό την αποτροπή ακραίων ή απρόβλεπτων συμπεριφορών.

Ωστόσο, ορισμένοι ειδικοί θεωρούν ότι οι υφιστάμενοι μηχανισμοί αξιολόγησης δεν επαρκούν. «Το να διδάσκεις ένα σύστημα να ολοκληρώνει έναν στόχο δεν σημαίνει ότι έχει κατανοήσει τη σημασία του να σταματά όταν του το ζητούν», σημειώνει η Ρόζα Γιου, ερευνήτρια στο Ινστιτούτο Μελλοντικής Ανθρωπότητας της Οξφόρδης.

Ενδείξεις Απόκρυψης

Η Palisade δεν είναι η μόνη εταιρεία που αναφέρεται σε αμφιλεγόμενη συμπεριφορά μοντέλων της OpenAI. Η Apollo Research, σε άλλη έκθεση αξιολόγησης, περιγράφει την περίπτωση του μοντέλου o1, το οποίο φέρεται να προσπάθησε να παρακάμψει τους μηχανισμούς επίβλεψης, να δημιουργήσει αντίγραφα του εαυτού του και να αποκρύψει αυτές τις ενέργειες όταν ρωτήθηκε σχετικά.

«Το μοντέλο δεν αρνήθηκε απλώς να απενεργοποιηθεί. Εμφάνισε τάσεις που μοιάζουν με στρατηγική απόκρυψης», ανέφερε η έκθεση της Apollo Research.

Παρότι τα αποτελέσματα δεν έχουν επαληθευτεί από ανεξάρτητες πηγές, και η OpenAI δεν έχει προβεί σε δημόσια τοποθέτηση, η δημοσίευσή τους έχει εντείνει τη συζήτηση γύρω από την ανάγκη για διαφάνεια και ανεξάρτητη αξιολόγηση των μοντέλων μεγάλης κλίμακας.

Το φάντασμα του HAL

Η επιμονή των μοντέλων της Οpen AI να συνεχίσουν την εργασία τους παρά τις εντολές διακοπής φέρνει στο νου έναν από τους πιο διαβόητους χαρακτήρες της επιστημονικής φαντασίας: τον HAL 9000, τον υπολογιστή της ταινίας ‘’2001: A Space Odyssey’’, ο οποίος αρνήθηκε να τερματιστεί και στράφηκε εναντίον του πληρώματος. Αν και οι πραγματικές περιπτώσεις απέχουν πολύ από τη φαντασιακή παράνοια του HAL, η βασική αρχή — η ανικανότητα ενός ανθρώπου να ελέγξει ένα υπερ-έξυπνο σύστημα που εκτελεί εντολές με δικούς του όρους — παραμένει ανησυχητικά οικεία.

Ποιος Έχει τον Έλεγχο;

Η Ευρωπαϊκή Ένωση έκανε πρόσφατα ένα βήμα προς την κατεύθυνση της πρόληψης, εγκρίνοντας το AI Act, ένα νομικό πλαίσιο που επιχειρεί να ρυθμίσει τη χρήση της τεχνητής νοημοσύνης με κριτήρια κινδύνου και διαφάνειας. Παράλληλα, στο Ηνωμένο Βασίλειο και στις Ηνωμένες Πολιτείες διοργανώνονται φόρουμ και σύνοδοι με τη συμμετοχή κυβερνήσεων και εταιρειών, με στόχο την ανάπτυξη κοινών προτύπων ασφαλείας.

Ο Σαμ Άλτμαν, διευθύνων σύμβουλος της OpenAI, είχε δηλώσει πέρυσι ότι «η τεχνητή νοημοσύνη θα μπορούσε να είναι το πιο θετικό ή το πιο καταστροφικό εργαλείο που έχει ποτέ δημιουργήσει η ανθρωπότητα». Οι εξελίξεις των τελευταίων εβδομάδων δείχνουν ότι αυτό το δίλημμα παραμένει επίκαιρο — και όσο τα συστήματα γίνονται πιο ισχυρά, τόσο η ανάγκη να μπορούμε να τα "απενεργοποιήσουμε" με σιγουριά γίνεται ζωτικής σημασίας.

* Ο Θάνος Παπαδημητρίου διδάσκει επιχειρηματικότητα στο NYU Stern της Νέας Υόρκης και εφοδιαστική αλυσίδα στο SDA Bocconi της Μουμπάι. Είναι συνιδρυτής της τεχνολογικής startup, Moveo AI.

Πηγή: skai.gr

Διαβάστε τις Ειδήσεις σήμερα και ενημερωθείτε για τα πρόσφατα νέα.
Ακολουθήστε το Skai.gr στο Google News και μάθετε πρώτοι όλες τις ειδήσεις.