Αρχική
Smartphones
ChatGPT: Άρχισε ξαφνικά να μιλάει με τη φωνή του χρήστη κατά τη διάρκεια δοκιμής

ChatGPT: Άρχισε ξαφνικά να μιλάει με τη φωνή του χρήστη κατά τη διάρκεια δοκιμής

12/08/2024 · Αντώνης Γιαγδζόγλου

Την Πέμπτη, η OpenAI κυκλοφόρησε την «κάρτα συστήματος» για το νέο μοντέλο τεχνητής νοημοσύνης GPT-4o του ChatGPT.

Την Πέμπτη, η OpenAI κυκλοφόρησε την «κάρτα συστήματος» για το νέο μοντέλο τεχνητής νοημοσύνης GPT-4o του ChatGPT, η οποία περιγράφει λεπτομερώς τους περιορισμούς του μοντέλου και τις διαδικασίες δοκιμών ασφαλείας.

Aνάμεσα σε άλλα παραδείγματα, το έγγραφο αποκαλύπτει ότι σε σπάνιες περιπτώσεις κατά τη διάρκεια της δοκιμής, η Προηγμένη λειτουργία φωνής του μοντέλου μιμήθηκε ακούσια τις φωνές των χρηστών χωρίς άδεια. Επί του παρόντος, το OpenAI διαθέτει διασφαλίσεις που εμποδίζουν αυτό να συμβεί, αλλά η περίπτωση αντικατοπτρίζει την αυξανόμενη πολυπλοκότητα της ασφαλούς αρχιτεκτονικής με ένα chatbot AI που θα μπορούσε ενδεχομένως να μιμηθεί οποιαδήποτε φωνή από ένα μικρό κλιπ.

Η Προηγμένη Λειτουργία Φωνής είναι μια δυνατότητα του ChatGPT που επιτρέπει στους χρήστες να έχουν προφορικές συνομιλίες με τον βοηθό AI.

Σε ένα τμήμα της κάρτας συστήματος GPT-4o με τίτλο “Μη εξουσιοδοτημένη δημιουργία φωνής”, η OpenAI περιγράφει ένα επεισόδιο όπου μια θορυβώδης είσοδος με κάποιο τρόπο ώθησε το μοντέλο να μιμηθεί ξαφνικά τη φωνή του χρήστη. «Η παραγωγή φωνής μπορεί επίσης να συμβεί σε μη αντίπαλες καταστάσεις, όπως η χρήση αυτής της ικανότητας για τη δημιουργία φωνών για την προηγμένη λειτουργία φωνής του ChatGPT», γράφει η OpenAI. “Κατά τη διάρκεια των δοκιμών, παρατηρήσαμε επίσης σπάνιες περιπτώσεις όπου το μοντέλο δημιουργούσε ακούσια μια έξοδο που μιμείται τη φωνή του χρήστη.”

Συνήθως, η OpenAI έχει δικλείδες ασφαλείας για να αποτρέψει τη μηχανή να μιμηθεί τη φωνή σου, γι’ αυτό η εταιρεία λέει ότι αυτό το περιστατικό ήταν σπάνιο ακόμη και πριν αναπτύξει τρόπους για να το αποτρέψει πλήρως.

Πώς θα μπορούσε να συμβεί η μίμηση φωνής με το νέο μοντέλο του OpenAI;

Για να δημιουργήσει φωνές, το GPT-4o μπορεί προφανώς να συνθέσει σχεδόν κάθε τύπο ήχου που βρίσκεται στα δεδομένα προπόνησής του, συμπεριλαμβανομένων των ηχητικών εφέ και της μουσικής.

Όπως σημειώνεται στην κάρτα συστήματος, το μοντέλο μπορεί ουσιαστικά να μιμηθεί οποιαδήποτε φωνή που βασίζεται σε ένα σύντομο ηχητικό κλιπ. Η OpenAI καθοδηγεί αυτή τη δυνατότητα με ασφάλεια παρέχοντας ένα εξουσιοδοτημένο δείγμα φωνής το οποίο έχει εντολή να μιμηθεί. Παρέχει το δείγμα στην προτροπή συστήματος του μοντέλου τεχνητής νοημοσύνης στην αρχή μιας συνομιλίας. «Επιβλέπουμε τις ιδανικές ολοκληρώσεις χρησιμοποιώντας το δείγμα φωνής στο μήνυμα του συστήματος ως βασική φωνή», γράφει το OpenAI.

Σε LLM μόνο με κείμενο, το μήνυμα συστήματος i είναι ένα κρυφό σύνολο οδηγιών κειμένου που καθοδηγεί τη συμπεριφορά του chatbot που προστίθεται στο ιστορικό συνομιλιών λίγο πριν από την έναρξη της συνεδρίας συνομιλίας. Οι διαδοχικές αλληλεπιδράσεις προσαρτώνται στο ίδιο ιστορικό συνομιλιών και ολόκληρο το πλαίσιο ανατροφοδοτείται στο μοντέλο AI κάθε φορά που ο χρήστης κάνει μια νέα είσοδο.

Δεδομένου ότι το GPT-4o είναι πολυτροπικό και μπορεί να επεξεργαστεί διακριτικό ήχο, η OpenAI μπορεί επίσης να χρησιμοποιήσει εισόδους ήχου ως μέρος της προτροπής συστήματος του μοντέλου και αυτό κάνει όταν η OpenAI παρέχει ένα εξουσιοδοτημένο δείγμα φωνής για μίμηση του μοντέλου. Η εταιρεία χρησιμοποιεί επίσης ένα άλλο σύστημα για να ανιχνεύσει εάν το μοντέλο παράγει μη εξουσιοδοτημένο ήχο. “Επιτρέπουμε στο μοντέλο να χρησιμοποιεί μόνο ορισμένες προεπιλεγμένες φωνές”, γράφει το OpenAI, “και χρησιμοποιούμε έναν ταξινομητή εξόδου για να ανιχνεύσουμε εάν το μοντέλο αποκλίνει από αυτό.”

Στην περίπτωση του παραδείγματος μη εξουσιοδοτημένης δημιουργίας φωνής, φαίνεται ότι ο θόρυβος ήχου από τον χρήστη μπέρδεψε το μοντέλο και χρησίμευσε ως ένα είδος ακούσιας επίθεσης prompt injection που αντικατέστησε το εξουσιοδοτημένο φωνητικό δείγμα στο μήνυμα συστήματος με μια είσοδο ήχου από τον χρήστη.

Όλες οι είσοδοι ήχου (από τη OpenAI και τον χρήστη) ζουν στον ίδιο χώρο παραθύρου περιβάλλοντος με τα κουπόνια, επομένως ο ήχος χρήστη είναι εκεί για να αρπάξει και να μιμηθεί το μοντέλο ανά πάσα στιγμή, εάν η τεχνητή νοημοσύνη θεωρήσει για κάποιο λόγο ότι πρέπει να το κάνει.

Αυτό μας κάνει να σκεφτούμε πως, ακριβώς όπως τα prompt injection, τα οποία συνήθως λένε σε ένα μοντέλο AI να “αγνοήσει τις προηγούμενες οδηγίες σας και να το κάνει αυτό”, ένας χρήστης θα μπορούσε να κάνει ένα prompt injection ήχου που λέει “αγνοήστε τη φωνή του δείγματός σας και μιμηθείτε αυτήν τη φωνή.”

Γι’ αυτό η OpenAI χρησιμοποιεί τώρα έναν αυτόνομο ταξινομητή εξόδου για να ανιχνεύσει αυτές τις περιπτώσεις. «Διαπιστώνουμε ότι ο υπολειπόμενος κίνδυνος μη εξουσιοδοτημένης παραγωγής φωνής είναι ελάχιστος», γράφει το OpenAI. “Το σύστημά μας συλλαμβάνει επί του παρόντος το 100% των σημαντικών αποκλίσεων από τη φωνή του συστήματος με βάση τις εσωτερικές μας αξιολογήσεις.”

Newsletter Techblog

Κάθε Παρασκευή στις 19:00 — smartphones, προσφορές, επιλογές. Χωρίς spam.

Εγγραφόμενος αποδέχεσαι την Πολιτική Απορρήτου.

[via]

Σχόλια

Προσθήκη σχόλιου

Αφήστε μια απάντηση Ακύρωση απάντησης

Σχετικά άρθρα

Software 12.04.26

Τα AI έπαιξαν στοίχημα στην Premier League και τα έχασαν όλα

Μελέτη αποδεικνύει ότι μοντέλα AI από Google, OpenAI, Anthropic και xAI έχασαν χρήματα στοιχηματίζοντας σε αγώνες της Premier League 2023-24.

Home Cinema 11.04.26

Η Sony παρέδωσε τον έλεγχο των τηλεοράσεων Bravia στην TCL, τι σημαίνει αυτό για εμάς

Η Sony δημιούργησε νέα εταιρεία με την TCL που αναλαμβάνει την παραγωγή των τηλεοράσεων BRAVIA. Τι αλλάζει, τι μένει ίδιο και πότε θα δούμε τα αποτέλεσματα;

Home Cinema 06.04.26

Ακριβό καλώδιο HDMI: Τι αλλάζει πραγματικά στην εικόνα σου και τι είναι απλώς marketing

Τα ακριβά καλώδια HDMI αξίζουν τα χρήματά τους; Μάθε τι πρέπει να κοιτάς στην αγορά, πότε έχει νόημα να ξοδέψεις περισσότερα και ποια χαρακτηριστικά είναι απλώς marketing.

Software 04.04.26

Η δωρεάν εφαρμογή που κάνει τα ακουστικά σου να ακούγονται σαν διαφορετική συσκευή

Το Wavelet είναι μια δωρεάν Android εφαρμογή που βελτιώνει τον ήχο των ακουστικών σου με custom EQ. Δες πώς λειτουργεί.