ChatGPT featured

ChatGPT: Άρχισε ξαφνικά να μιλάει με τη φωνή του χρήστη κατά τη διάρκεια δοκιμής

Δευτέρα, 12/08/2024 · Αντώνης Γιαγδζόγλου ChatGPT featured

Την Πέμπτη, η OpenAI κυκλοφόρησε την «κάρτα συστήματος» για το νέο μοντέλο τεχνητής νοημοσύνης GPT-4o του ChatGPT, η οποία περιγράφει λεπτομερώς τους περιορισμούς του μοντέλου και τις διαδικασίες δοκιμών ασφαλείας.

Aνάμεσα σε άλλα παραδείγματα, το έγγραφο αποκαλύπτει ότι σε σπάνιες περιπτώσεις κατά τη διάρκεια της δοκιμής, η Προηγμένη λειτουργία φωνής του μοντέλου μιμήθηκε ακούσια τις φωνές των χρηστών χωρίς άδεια. Επί του παρόντος, το OpenAI διαθέτει διασφαλίσεις που εμποδίζουν αυτό να συμβεί, αλλά η περίπτωση αντικατοπτρίζει την αυξανόμενη πολυπλοκότητα της ασφαλούς αρχιτεκτονικής με ένα chatbot AI που θα μπορούσε ενδεχομένως να μιμηθεί οποιαδήποτε φωνή από ένα μικρό κλιπ.

Η Προηγμένη Λειτουργία Φωνής είναι μια δυνατότητα του ChatGPT που επιτρέπει στους χρήστες να έχουν προφορικές συνομιλίες με τον βοηθό AI.

Σε ένα τμήμα της κάρτας συστήματος GPT-4o με τίτλο “Μη εξουσιοδοτημένη δημιουργία φωνής”, η OpenAI περιγράφει ένα επεισόδιο όπου μια θορυβώδης είσοδος με κάποιο τρόπο ώθησε το μοντέλο να μιμηθεί ξαφνικά τη φωνή του χρήστη. «Η παραγωγή φωνής μπορεί επίσης να συμβεί σε μη αντίπαλες καταστάσεις, όπως η χρήση αυτής της ικανότητας για τη δημιουργία φωνών για την προηγμένη λειτουργία φωνής του ChatGPT», γράφει η OpenAI. “Κατά τη διάρκεια των δοκιμών, παρατηρήσαμε επίσης σπάνιες περιπτώσεις όπου το μοντέλο δημιουργούσε ακούσια μια έξοδο που μιμείται τη φωνή του χρήστη.”

Συνήθως, η OpenAI έχει δικλείδες ασφαλείας για να αποτρέψει τη μηχανή να μιμηθεί τη φωνή σου, γι’ αυτό η εταιρεία λέει ότι αυτό το περιστατικό ήταν σπάνιο ακόμη και πριν αναπτύξει τρόπους για να το αποτρέψει πλήρως.

Πώς θα μπορούσε να συμβεί η μίμηση φωνής με το νέο μοντέλο του OpenAI;

Για να δημιουργήσει φωνές, το GPT-4o μπορεί προφανώς να συνθέσει σχεδόν κάθε τύπο ήχου που βρίσκεται στα δεδομένα προπόνησής του, συμπεριλαμβανομένων των ηχητικών εφέ και της μουσικής.

Όπως σημειώνεται στην κάρτα συστήματος, το μοντέλο μπορεί ουσιαστικά να μιμηθεί οποιαδήποτε φωνή που βασίζεται σε ένα σύντομο ηχητικό κλιπ. Η OpenAI καθοδηγεί αυτή τη δυνατότητα με ασφάλεια παρέχοντας ένα εξουσιοδοτημένο δείγμα φωνής το οποίο έχει εντολή να μιμηθεί. Παρέχει το δείγμα στην προτροπή συστήματος του μοντέλου τεχνητής νοημοσύνης στην αρχή μιας συνομιλίας. «Επιβλέπουμε τις ιδανικές ολοκληρώσεις χρησιμοποιώντας το δείγμα φωνής στο μήνυμα του συστήματος ως βασική φωνή», γράφει το OpenAI.

Σε LLM μόνο με κείμενο, το μήνυμα συστήματος i είναι ένα κρυφό σύνολο οδηγιών κειμένου που καθοδηγεί τη συμπεριφορά του chatbot που προστίθεται στο ιστορικό συνομιλιών λίγο πριν από την έναρξη της συνεδρίας συνομιλίας. Οι διαδοχικές αλληλεπιδράσεις προσαρτώνται στο ίδιο ιστορικό συνομιλιών και ολόκληρο το πλαίσιο ανατροφοδοτείται στο μοντέλο AI κάθε φορά που ο χρήστης κάνει μια νέα είσοδο.

Δεδομένου ότι το GPT-4o είναι πολυτροπικό και μπορεί να επεξεργαστεί διακριτικό ήχο, η OpenAI μπορεί επίσης να χρησιμοποιήσει εισόδους ήχου ως μέρος της προτροπής συστήματος του μοντέλου και αυτό κάνει όταν η OpenAI παρέχει ένα εξουσιοδοτημένο δείγμα φωνής για μίμηση του μοντέλου. Η εταιρεία χρησιμοποιεί επίσης ένα άλλο σύστημα για να ανιχνεύσει εάν το μοντέλο παράγει μη εξουσιοδοτημένο ήχο. “Επιτρέπουμε στο μοντέλο να χρησιμοποιεί μόνο ορισμένες προεπιλεγμένες φωνές”, γράφει το OpenAI, “και χρησιμοποιούμε έναν ταξινομητή εξόδου για να ανιχνεύσουμε εάν το μοντέλο αποκλίνει από αυτό.”

Στην περίπτωση του παραδείγματος μη εξουσιοδοτημένης δημιουργίας φωνής, φαίνεται ότι ο θόρυβος ήχου από τον χρήστη μπέρδεψε το μοντέλο και χρησίμευσε ως ένα είδος ακούσιας επίθεσης prompt injection που αντικατέστησε το εξουσιοδοτημένο φωνητικό δείγμα στο μήνυμα συστήματος με μια είσοδο ήχου από τον χρήστη.

Όλες οι είσοδοι ήχου (από τη OpenAI και τον χρήστη) ζουν στον ίδιο χώρο παραθύρου περιβάλλοντος με τα κουπόνια, επομένως ο ήχος χρήστη είναι εκεί για να αρπάξει και να μιμηθεί το μοντέλο ανά πάσα στιγμή, εάν η τεχνητή νοημοσύνη θεωρήσει για κάποιο λόγο ότι πρέπει να το κάνει.

Αυτό μας κάνει να σκεφτούμε πως, ακριβώς όπως τα prompt injection, τα οποία συνήθως λένε σε ένα μοντέλο AI να “αγνοήσει τις προηγούμενες οδηγίες σας και να το κάνει αυτό”, ένας χρήστης θα μπορούσε να κάνει ένα prompt injection ήχου που λέει “αγνοήστε τη φωνή του δείγματός σας και μιμηθείτε αυτήν τη φωνή.”

Γι’ αυτό η OpenAI χρησιμοποιεί τώρα έναν αυτόνομο ταξινομητή εξόδου για να ανιχνεύσει αυτές τις περιπτώσεις. «Διαπιστώνουμε ότι ο υπολειπόμενος κίνδυνος μη εξουσιοδοτημένης παραγωγής φωνής είναι ελάχιστος», γράφει το OpenAI. “Το σύστημά μας συλλαμβάνει επί του παρόντος το 100% των σημαντικών αποκλίσεων από τη φωνή του συστήματος με βάση τις εσωτερικές μας αξιολογήσεις.”

[via]

Αντώνης Γιαγδζόγλου

5890

Ο Αντώνης Γιαγδζόγλου είναι δημοσιογράφος με πολλές συνεργασίες με online μέσα. Αρθρογραφεί για νέες τεχνολογίες και τεχνολογίες που βελτιώνουν τη ζωή μας ενώ συνεργάζεται με διαφημιστικές εταιρείες και διαχειρίζεται social media επιχειρήσεων.

Ακολουθήστε το Techblog.gr στο Google News για να μάθετε πρώτοι όλες τις ειδήσεις τεχνολογίας. Αν χρησιμοποιείτε RSS προσθέστε το Techblog στη λίστα σας https://techblog.gr/feed/.

ΣΥΖΗΤΗΣΗ

Παρακολουθήστε τα σχόλια

0 Σχόλια

παλαιότερο

νεώτερο

Inline Feedbacks

View all comments

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

Smartphones featured iOS iPhone

iPhone 16: Είναι η ασύρματη ανάκτηση υλικολογισμικού προάγγελος ενός iPhone χωρίς θύρες;

Τετάρτη, 18/09/2024 · Αντώνης Γιαγδζόγλου

Με το iOS 18, το iPhone 16 απέκτησε τη δυνατότητα ασύρματης ανάκτησης λογισμικού και αυτό ανοίγει το δρόμο για ένα μελλοντικό iPhone χωρίς καθόλου θύρες.

Smartphones featured Xiaomi

Xiaomi 14T και 14T Pro θα προσφέρουν τη λειτουργία Circle to Search

Τετάρτη, 18/09/2024 · Αντώνης Γιαγδζόγλου

Το Circle to Search κυκλοφόρησε τον Ιανουάριο στη σειρά Galaxy S24 της Samsung και στη συνέχεια κυκλοφόρησε από την Google για τα δικά της Pixel.

Smartphones featured Galaxy Samsung

Samsung Galaxy S25+: Αυτές είναι οι πρώτες εικόνες του flagship smartphone – Και είναι πολύ οικείες

Τετάρτη, 18/09/2024 · Αντώνης Γιαγδζόγλου

Τα πρώτα renders του Samsung Galaxy S25+ είναι γεγονός και μας δίνουν μια ιδέα του πως θα μοιάζει το επερχόμενο flagship μοντέλο της εταιρείας.

Smartphones Apple featured iPhone 16 Pro Max

iPhone 16 Pro: Το πρώτο unboxing βίντεο δείχνει τις διαφορές από το iPhone 15 Pro

Τρίτη, 17/09/2024 · Αντώνης Γιαγδζόγλου

Παρά το ότι η σειρά iPhone 16 θα γίνει διαθέσιμη την Παρασκευή, κάποιος έχει ήδη στα χέρια του το iPhone 16 Pro και ανέβασε unboxing βίντεο.

ChatGPT: Άρχισε ξαφνικά να μιλάει με τη φωνή του χρήστη κατά τη διάρκεια δοκιμής

Αντώνης Γιαγδζόγλου

ΣΥΖΗΤΗΣΗ

ΔΙΑΒΑΣΤΕ ΕΠΙΣΗΣ

iPhone 16: Είναι η ασύρματη ανάκτηση υλικολογισμικού προάγγελος ενός iPhone χωρίς θύρες;

Xiaomi 14T και 14T Pro θα προσφέρουν τη λειτουργία Circle to Search

Samsung Galaxy S25+: Αυτές είναι οι πρώτες εικόνες του flagship smartphone – Και είναι πολύ οικείες

iPhone 16 Pro: Το πρώτο unboxing βίντεο δείχνει τις διαφορές από το iPhone 15 Pro

ΠΡΟΣΦΑΤΕΣ ΔΗΜΟΣΙΕΥΣΕΙΣ

Samsung Galaxy S25+: Αυτή θα είναι η χωρητικότητα της μπαταρίας του

IFA 2024: Συνέντευξη με τον Randy Xu, TCL και τη Jeannette Baasner, Microsoft

vivo T3 Ultra: Ντεμπούτο για το εξαιρετικά λεπτό smartphone με Dimensity 9200+

Αποκτήστε Office 2021 Professional Plus με 27,25€ και εξοικονομήστε έως και 90%

vivo X200 Pro: Επιβεβαιώθηκε το chipset και η ταχύτητα φόρτισης

IFA 2024: Συνέντευξη με τον Stefan Streit, TCL και Duncan McCue, Bang & Olufsen