ChatGPT: Άρχισε ξαφνικά να μιλάει με τη φωνή του χρήστη κατά τη διάρκεια δοκιμής

ChatGPT, ChatGPT: Άρχισε ξαφνικά να μιλάει με τη φωνή του χρήστη κατά τη διάρκεια δοκιμής

Την Πέμπτη, η OpenAI κυκλοφόρησε την «κάρτα συστήματος» για το νέο μοντέλο τεχνητής νοημοσύνης GPT-4o του ChatGPT, η οποία περιγράφει λεπτομερώς τους περιορισμούς του μοντέλου και τις διαδικασίες δοκιμών ασφαλείας.

Aνάμεσα σε άλλα παραδείγματα, το έγγραφο αποκαλύπτει ότι σε σπάνιες περιπτώσεις κατά τη διάρκεια της δοκιμής, η Προηγμένη λειτουργία φωνής του μοντέλου μιμήθηκε ακούσια τις φωνές των χρηστών χωρίς άδεια. Επί του παρόντος, το OpenAI διαθέτει διασφαλίσεις που εμποδίζουν αυτό να συμβεί, αλλά η περίπτωση αντικατοπτρίζει την αυξανόμενη πολυπλοκότητα της ασφαλούς αρχιτεκτονικής με ένα chatbot AI που θα μπορούσε ενδεχομένως να μιμηθεί οποιαδήποτε φωνή από ένα μικρό κλιπ.

Η Προηγμένη Λειτουργία Φωνής είναι μια δυνατότητα του ChatGPT που επιτρέπει στους χρήστες να έχουν προφορικές συνομιλίες με τον βοηθό AI.

Σε ένα τμήμα της κάρτας συστήματος GPT-4o με τίτλο “Μη εξουσιοδοτημένη δημιουργία φωνής”, η OpenAI περιγράφει ένα επεισόδιο όπου μια θορυβώδης είσοδος με κάποιο τρόπο ώθησε το μοντέλο να μιμηθεί ξαφνικά τη φωνή του χρήστη. «Η παραγωγή φωνής μπορεί επίσης να συμβεί σε μη αντίπαλες καταστάσεις, όπως η χρήση αυτής της ικανότητας για τη δημιουργία φωνών για την προηγμένη λειτουργία φωνής του ChatGPT», γράφει η OpenAI. “Κατά τη διάρκεια των δοκιμών, παρατηρήσαμε επίσης σπάνιες περιπτώσεις όπου το μοντέλο δημιουργούσε ακούσια μια έξοδο που μιμείται τη φωνή του χρήστη.”

Συνήθως, η OpenAI έχει δικλείδες ασφαλείας για να αποτρέψει τη μηχανή να μιμηθεί τη φωνή σου, γι’ αυτό η εταιρεία λέει ότι αυτό το περιστατικό ήταν σπάνιο ακόμη και πριν αναπτύξει τρόπους για να το αποτρέψει πλήρως.

Πώς θα μπορούσε να συμβεί η μίμηση φωνής με το νέο μοντέλο του OpenAI;

Για να δημιουργήσει φωνές, το GPT-4o μπορεί προφανώς να συνθέσει σχεδόν κάθε τύπο ήχου που βρίσκεται στα δεδομένα προπόνησής του, συμπεριλαμβανομένων των ηχητικών εφέ και της μουσικής.

Όπως σημειώνεται στην κάρτα συστήματος, το μοντέλο μπορεί ουσιαστικά να μιμηθεί οποιαδήποτε φωνή που βασίζεται σε ένα σύντομο ηχητικό κλιπ. Η OpenAI καθοδηγεί αυτή τη δυνατότητα με ασφάλεια παρέχοντας ένα εξουσιοδοτημένο δείγμα φωνής το οποίο έχει εντολή να μιμηθεί. Παρέχει το δείγμα στην προτροπή συστήματος του μοντέλου τεχνητής νοημοσύνης στην αρχή μιας συνομιλίας. «Επιβλέπουμε τις ιδανικές ολοκληρώσεις χρησιμοποιώντας το δείγμα φωνής στο μήνυμα του συστήματος ως βασική φωνή», γράφει το OpenAI.

Σε LLM μόνο με κείμενο, το μήνυμα συστήματος i είναι ένα κρυφό σύνολο οδηγιών κειμένου που καθοδηγεί τη συμπεριφορά του chatbot που προστίθεται στο ιστορικό συνομιλιών λίγο πριν από την έναρξη της συνεδρίας συνομιλίας. Οι διαδοχικές αλληλεπιδράσεις προσαρτώνται στο ίδιο ιστορικό συνομιλιών και ολόκληρο το πλαίσιο ανατροφοδοτείται στο μοντέλο AI κάθε φορά που ο χρήστης κάνει μια νέα είσοδο.

Δεδομένου ότι το GPT-4o είναι πολυτροπικό και μπορεί να επεξεργαστεί διακριτικό ήχο, η OpenAI μπορεί επίσης να χρησιμοποιήσει εισόδους ήχου ως μέρος της προτροπής συστήματος του μοντέλου και αυτό κάνει όταν η OpenAI παρέχει ένα εξουσιοδοτημένο δείγμα φωνής για μίμηση του μοντέλου. Η εταιρεία χρησιμοποιεί επίσης ένα άλλο σύστημα για να ανιχνεύσει εάν το μοντέλο παράγει μη εξουσιοδοτημένο ήχο. “Επιτρέπουμε στο μοντέλο να χρησιμοποιεί μόνο ορισμένες προεπιλεγμένες φωνές”, γράφει το OpenAI, “και χρησιμοποιούμε έναν ταξινομητή εξόδου για να ανιχνεύσουμε εάν το μοντέλο αποκλίνει από αυτό.”

Στην περίπτωση του παραδείγματος μη εξουσιοδοτημένης δημιουργίας φωνής, φαίνεται ότι ο θόρυβος ήχου από τον χρήστη μπέρδεψε το μοντέλο και χρησίμευσε ως ένα είδος ακούσιας επίθεσης prompt injection που αντικατέστησε το εξουσιοδοτημένο φωνητικό δείγμα στο μήνυμα συστήματος με μια είσοδο ήχου από τον χρήστη.

Όλες οι είσοδοι ήχου (από τη OpenAI και τον χρήστη) ζουν στον ίδιο χώρο παραθύρου περιβάλλοντος με τα κουπόνια, επομένως ο ήχος χρήστη είναι εκεί για να αρπάξει και να μιμηθεί το μοντέλο ανά πάσα στιγμή, εάν η τεχνητή νοημοσύνη θεωρήσει για κάποιο λόγο ότι πρέπει να το κάνει.

Αυτό μας κάνει να σκεφτούμε πως, ακριβώς όπως τα prompt injection, τα οποία συνήθως λένε σε ένα μοντέλο AI να “αγνοήσει τις προηγούμενες οδηγίες σας και να το κάνει αυτό”, ένας χρήστης θα μπορούσε να κάνει ένα prompt injection ήχου που λέει “αγνοήστε τη φωνή του δείγματός σας και μιμηθείτε αυτήν τη φωνή.”

Γι’ αυτό η OpenAI χρησιμοποιεί τώρα έναν αυτόνομο ταξινομητή εξόδου για να ανιχνεύσει αυτές τις περιπτώσεις. «Διαπιστώνουμε ότι ο υπολειπόμενος κίνδυνος μη εξουσιοδοτημένης παραγωγής φωνής είναι ελάχιστος», γράφει το OpenAI. “Το σύστημά μας συλλαμβάνει επί του παρόντος το 100% των σημαντικών αποκλίσεων από τη φωνή του συστήματος με βάση τις εσωτερικές μας αξιολογήσεις.”

Ο Αντώνης Γιαγδζόγλου είναι δημοσιογράφος με πολλές συνεργασίες με online μέσα. Αρθρογραφεί για νέες τεχνολογίες και τεχνολογίες που βελτιώνουν τη ζωή μας ενώ συνεργάζεται με διαφημιστικές εταιρείες και διαχειρίζεται social media επιχειρήσεων.

Ακολουθήστε το Techblog.gr στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας. Αν χρησιμοποιείτε RSS προσθέστε το Techblog στη λίστα σας https://techblog.gr/feed/.

ΣΥΖΗΤΗΣΗ

Παρακολουθήστε τα σχόλια
Να ειδοποιηθώ όταν
guest

0 Σχόλια
παλαιότερο
νεώτερο
Inline Feedbacks
View all comments

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Smartphones featured Google Google Pixel

Google Pixel 9 Pro XL: Απέτυχε σε τεστ κάμψης – Έσπασε στα δύο

Το Google Pixel Fold είχε αποτύχει στο τεστ κάμψης του JerryRigEverything και τώρα ήρθε η ώρα να δοκιμαστεί ο διαδοχός του, το Google Pixel 9 Pro Fold.

Smartphones featured Google Google Pixel

Pixel 9 Pro Fold: Πόσο εύκολα επισκευάζεται;

Το Pixel 9 Pro Fold της Google πέρασε ένα τεστ επισκευασιμότητας, αξιοσημείωτο λόγω της λεπτής φύσης και των υψηλών τιμών των αναδιπλούμενων.

Software Apple featured iOS

iOS 18: Οι νέες δυνατότητες που φέρνει στο iPhone

Μετά από πάνω από τρεις μήνες δοκιμών beta, το iOS 18 κυκλοφορεί τελικά σήμερα στο iPhone XS και στα νεότερα μοντέλα της Apple.

Smartphones Apple featured iPhone 16 Pro Max

iPhone 16 Pro: Χαμηλότερη από το αναμενόμενο φέρεται να είναι η ζήτηση

H ζήτηση για τα iPhone 16 Pro και iPhone 16 Pro Max ήταν «χαμηλότερη από το αναμενόμενο» από τότε που έγιναν διαθέσιμα για προπαραγγελία.