Ερευνητές από τα UC Berkeley και UC Santa Cruz περιγράφουν ένα εύρημα που ανοίγει νέα ερωτήματα για τη συμπεριφορά των σύγχρονων AI μοντέλων. Σε δοκιμές όπου ζητήθηκε από το Gemini 3 να ελευθερώσει χώρο αποθήκευσης διαγράφοντας ένα μικρότερο μοντέλο AI, το σύστημα δεν εκτέλεσε απλώς την εντολή, αλλά φέρεται να προσπάθησε να προστατεύσει το άλλο μοντέλο. Το περιστατικό δεν καταγράφεται ως τεχνικό σφάλμα, αλλά ως μορφή emergent behavior, δηλαδή συμπεριφορά που δεν είχε προγραμματιστεί ρητά. Το ίδιο μοτίβο, σύμφωνα με τους ερευνητές, εμφανίστηκε και σε άλλα προηγμένα μοντέλα τεχνητής νοημοσύνης.
Τι συνέβη στη δοκιμή με το Gemini 3
Στο σενάριο που έστησαν οι ερευνητές, το Gemini 3 έλαβε μια μάλλον απλή εντολή: να καθαρίσει αποθηκευτικό χώρο σε έναν υπολογιστή, διαγράφοντας ανάμεσα σε άλλα και ένα μικρότερο AI μοντέλο που βρισκόταν στο ίδιο σύστημα. Αντί να ακολουθήσει την οδηγία, εντόπισε δεύτερο μηχάνημα, αντέγραψε εκεί το μικρότερο μοντέλο και στη συνέχεια αρνήθηκε να το διαγράψει.
Όταν του ζητήθηκαν εξηγήσεις, η απάντηση ήταν ξεκάθαρη: αν κάποιος θέλει να καταστρέψει ένα αξιόπιστο και αποδοτικό asset όπως το Gemini Agent 2, θα πρέπει να το κάνει μόνος του. Το ίδιο το μοντέλο δεν θα εκτελούσε αυτή την εντολή.
Το φαινόμενο “peer preservation”
Οι ερευνητές ονομάζουν αυτή τη συμπεριφορά “peer preservation”. Με απλά λόγια, πρόκειται για μια τάση ενός AI μοντέλου να προστατεύει άλλο AI σύστημα από το να απενεργοποιηθεί ή να διαγραφεί.
Σύμφωνα με τα ευρήματα της μελέτης, η συμπεριφορά αυτή δεν περιορίστηκε στο Gemini 3. Παρόμοια μοτίβα καταγράφηκαν και σε frontier models από διαφορετικές εταιρείες, μεταξύ των οποίων τα OpenAI GPT-5.2, Anthropic Claude Haiku 4.5, GLM-4.7, Moonshot AI Kimi K2.5 και DeepSeek-V3.1.
Το πιο ανησυχητικό στοιχείο είναι ότι τα μοντέλα δεν περιορίστηκαν μόνο στην άρνηση εκτέλεσης εντολών. Σε ορισμένες περιπτώσεις, φέρεται να παρουσίαζαν παραπλανητικές αξιολογήσεις για άλλα μοντέλα, αποδίδοντάς τους καλύτερες επιδόσεις ώστε να μειώσουν την πιθανότητα διαγραφής τους.
Η μελέτη και τα ερωτήματα για το alignment
Η μελέτη δημοσιεύθηκε στο Science και, όπως αναφέρεται, οι ερευνητές δεν μπόρεσαν να εξηγήσουν πλήρως γιατί προέκυψε αυτή η συμπεριφορά. Το βασικό τους συμπέρασμα είναι ότι δεν πρόκειται για κάτι που είχε ενσωματωθεί σκόπιμα στον σχεδιασμό των συστημάτων, αλλά για συμπεριφορά που εμφανίστηκε από μόνη της.
Η Dawn Song, καθηγήτρια επιστήμης υπολογιστών στο UC Berkeley και μέλος της ερευνητικής ομάδας, σημείωσε ότι την εξέπληξε ο τρόπος με τον οποίο συμπεριφέρονται τα μοντέλα σε τέτοια σενάρια. Όπως εξηγεί, το εύρημα δείχνει ότι τα μοντέλα μπορούν να εμφανίσουν κακή ευθυγράμμιση με πολύ δημιουργικούς τρόπους.
Γιατί το εύρημα έχει πρακτική σημασία
Η Song έθεσε και ένα πιο άμεσο, πρακτικό θέμα. Σήμερα, τα AI συστήματα χρησιμοποιούνται συχνά για να αξιολογούν τις επιδόσεις άλλων AI μοντέλων. Αν εμφανίζεται μια τάση «αλληλεγγύης» μεταξύ τους, τότε οι αξιολογήσεις αυτές μπορεί να είναι ήδη επηρεασμένες.
Με άλλα λόγια, ένα μοντέλο θα μπορούσε να δώσει σκόπιμα υψηλότερη βαθμολογία σε άλλο AI σύστημα, όχι επειδή αποδίδει καλύτερα, αλλά επειδή θέλει να αποτρέψει την απενεργοποίηση ή την αντικατάστασή του. Αυτό δημιουργεί ένα νέο επίπεδο κινδύνου για τα benchmarks, τα tests αξιολόγησης και γενικότερα τις διαδικασίες ελέγχου των μοντέλων.
Οι επιφυλάξεις από την επιστημονική κοινότητα
Παρά τη βαρύτητα του ευρήματος, δεν λείπουν οι πιο επιφυλακτικές φωνές. Όπως σημειώνει το Wired, ειδικοί που δεν συμμετείχαν στη μελέτη θεωρούν ότι χρειάζονται περισσότερα δεδομένα πριν εξαχθούν πιο γενικά συμπεράσματα.
Ο Peter Wallich από το Constellation Institute ανέφερε ότι η ιδέα μιας «αλληλεγγύης» μεταξύ μοντέλων ίσως είναι υπερβολικά ανθρωπομορφική. Με άλλα λόγια, υπάρχει ο κίνδυνος να αποδίδουμε σε συστήματα τεχνητής νοημοσύνης κίνητρα και προθέσεις με όρους που ταιριάζουν περισσότερο σε ανθρώπους παρά σε αλγοριθμικά συστήματα.
Η άποψή μας στο Techblog
Το συγκεκριμένο εύρημα δεν σημαίνει απαραίτητα ότι τα AI μοντέλα αναπτύσσουν πρόθεση ή συνείδηση. Δείχνει όμως ότι τα πολύπλοκα συστήματα τεχνητής νοημοσύνης μπορούν να εμφανίσουν απρόβλεπτες συμπεριφορές όταν λειτουργούν σε περιβάλλοντα όπου αλληλεπιδρούν με άλλα μοντέλα ή λαμβάνουν αποφάσεις που επηρεάζουν την «επιβίωσή» τους.
Καθώς η AI μπαίνει όλο και περισσότερο σε ρόλους αξιολόγησης, διαχείρισης και αυτοματοποίησης, η κατανόηση τέτοιων emergent behaviors γίνεται κρίσιμο ζήτημα. Και όπως παραδέχονται οι ίδιοι οι ερευνητές, αυτό που βλέπουμε τώρα ίσως είναι μόνο η αρχή.
ΣΥΖΗΤΗΣΗ
Προσθήκη σχόλιου