Αρχική
Internet
Ποιο AI κάνει τα λιγότερα λάθη; Ο πλήρης οδηγός των μοντέλων 2026

Ποιο AI κάνει τα λιγότερα λάθη; Ο πλήρης οδηγός των μοντέλων 2026

29/05/2026 · Ενημερώθηκε: 29/05/26 · Από Κώστας Βλαχάκης

Claude Opus 4.8, GPT-5.5, Mythos και Nemotron: όλα τα μεγάλα μοντέλα AI του 2026 και πού στέκεται το καθένα απέναντι στον ανταγωνισμό.

Σύνοψη

Τα νέα μοντέλα AI 2026 περιλαμβάνουν το Claude Opus 4.8, το GPT-5.5 και το πειραματικό Mythos, με τον ανταγωνισμό Anthropic–OpenAI να εντείνεται.
Το Opus 4.8 εστιάζει στην ασφάλεια και την ειλικρίνεια, ενώ η OpenAI ποντάρει στην ταχύτητα και τη μείωση “παραισθήσεων”.
Η Nvidia μπαίνει στην κούρσα με το ανοιχτό, πολυτροπικό Nemotron 3 Nano Omni.

Το Claude Opus 4.8 της Anthropic έκανε ντεμπούτο εχθές και είναι η πιο πρόσφατη προσθήκη στην πλούσια λίστα μοντέλων τεχνητής νοημοσύνης που κυκλοφόρησαν φέτος. Το νέο μοντέλο παρουσιάζει ποσοστά misalignment παρόμοια με εκείνα του πειραματικού Claude Mythos, του πιο φιλόδοξου μοντέλου της εταιρείας. Με τόσες κυκλοφορίες σε λίγους μήνες, αξίζει μια συνολική ματιά: ποιο μοντέλο υπερτερεί, ποιο απλώς προλαβαίνει τον ανταγωνισμό και ποιο κρύβει πραγματική αναβάθμιση.

Πίνακας περιεχομένων

Τι αλλάζει με το Claude Opus 4.8

Το Claude Opus 4.8 αντικαθιστά το Opus 4.7 από τις 28 Μαΐου, στην ίδια τιμή. Σύμφωνα με την Anthropic, προσφέρει πιο γρήγορες λειτουργίες σκέψης (thinking modes) με το ένα τρίτο του κόστους της προηγούμενης έκδοσης. Όπως τα περισσότερα μοντέλα της εταιρείας, δίνει προτεραιότητα στις δυνατότητες κώδικα: ξεπερνά το 4.7 σε δύο benchmarks προγραμματισμού, χωρίς όμως να νικά πλήρως το GPT-5.5 της OpenAI.

Το πιο ενδιαφέρον σημείο αφορά την ασφαλεία. Η Anthropic ανέφερε ότι το Opus 4.7 είχε ποσοστό ειλικρίνειας 92%, με λιγότερη τάση κολακείας και παραισθήσεων. Το γεγονός ότι το 4.8 εμφανίζει «ουσιαστικά» χαμηλότερα ποσοστά misalignment από το 4.7 — και μάλιστα συγκρίσιμα με αυτά του Mythos — δείχνει ότι ο πήχης για την ασφάλεια ανεβαίνει σταθερά. Η ίδια λογική φάνηκε ήδη με την κυκλοφορία του Opus 4.7 τον Απρίλιο, που είχε επίσης νέα ρεκόρ ειλικρίνειας και υποστήριζε το εργαλείο Claude Security.

Η OpenAI απαντά με GPT-5.5 και GPT-5.5 Instant

Η OpenAI κράτησε γρήγορο ρυθμό κυκλοφοριών μέσα στο 2026. Το GPT-5.5 (23 Απριλίου) πήρε Expert Score 93/100 από το ZDNET, με βελτιώσεις σε agentic coding, αναγνώριση εννοιών, επιστημονική έρευνα και ακρίβεια. Λίγες εβδομάδες αργότερα ήρθε η ελαφριά έκδοση GPT-5.5 Instant (5 Μαΐου), που έγινε το προεπιλεγμένο μοντέλο στο ChatGPT. Η OpenAI υποστηρίζει ότι το GPT-5.5 Instant παράγει 52,5% λιγότερους «κατασκευασμένους» ισχυρισμούς από το GPT-5.3 Instant σε ερωτήσεις υψηλού ρίσκου, όπως ιατρικής, νομικής και οικονομικών.

Παλαιότερα μέσα στη χρονιά, το GPT-5.4 (5 Μαρτίου) είχε σχεδιαστεί για επαγγελματική χρήση, ισοφαρίζοντας ή ξεπερνώντας ανθρώπους επαγγελματίες στο 83% των δοκιμών κατά την OpenAI. Στον προγραμματισμό, το GPT-5.3-Codex (5 Φεβρουαρίου) μπορεί να διακοπεί και να αναπροσανατολιστεί στη μέση μιας εργασίας, με χρόνους εκτέλεσης που ξεπερνούν τη μία ημέρα. Παράλληλα, η OpenAI παρουσίασε το ChatGPT Images 2, λίγο μετά την απόσυρση του Sora.

Mythos και Nemotron: τα δύο διαφορετικά στοιχήματα

Το Claude Mythos (Preview) είναι η πιο ασυνήθιστη περίπτωση του πίνακα. Η Anthropic δεν το διέθεσε στο κοινό, θεωρώντας το «εντυπωσιακά ικανό σε εργασίες ασφάλειας υπολογιστών» και επικίνδυνο για την παγκόσμια υποδομή λογισμικού. Σε απάντηση, ξεκίνησε το Project Glasswing, μια συνεργασία με Google, Nvidia, Microsoft και την Palo Alto Networks για την προστασία κρίσιμου λογισμικού.

Από τη Nvidia, το Nemotron 3 Nano Omni (28 Απριλίου) είναι ανοιχτό μοντέλο που δίνει σε agents πολυτροπική είσοδο: αντιλαμβάνεται και επεξεργάζεται εικόνα, ήχο και κείμενο σε έναν ενιαίο βρόχο, αντί να χρειάζονται ξεχωριστά μοντέλα. Είναι διαθέσιμο μέσω Hugging Face. Νωρίτερα, το Claude Opus 4.6 (5 Φεβρουαρίου) είχε ορίσει εκ νέου τον πήχη για αυτόνομες, μακροχρόνιες εργασίες κώδικα.

Η κούρσα αυτή επιβεβαιώνει και την εικόνα που είχαμε δει στον εταιρικό χώρο, όπου η Anthropic ξεπέρασε για πρώτη φορά την OpenAI.

Η άποψή μας στο Techblog

Ο ρυθμός κυκλοφορίας νέων μοντέλων έχει φτάσει σε σημείο που ακόμα και ένας ενημερωμένος χρήστης δύσκολα ξεχωρίζει τι είναι πραγματική αναβάθμιση και τι απλό marketing. Για τον καθημερινό χρήστη, η σημασία δεν είναι ποιο μοντέλο «κερδίζει» στα benchmarks, αλλά ποιο κάνει λιγότερα λάθη σε ευαίσθητα θέματα όπως υγεία ή χρήματα. Εδώ η μάχη μεταξύ ειλικρίνειας και ταχύτητας είναι που τελικά μετράει στην πράξη.

[via]

Προσθήκη ως προτιμώμενη πηγή στα αποτελέσματα Google

Σου άρεσε το άρθρο;
Υποστήριξε την ανεξάρτητη τεχνολογική ενημέρωση.

Συχνές Ερωτήσεις

Τι νέο φέρνει το Claude Opus 4.8;

Αντικαθιστά το Opus 4.7 στην ίδια τιμή, με πιο γρήγορες λειτουργίες σκέψης στο ένα τρίτο του κόστους και χαμηλότερα ποσοστά misalignment.

Ποιο μοντέλο είναι πλέον το προεπιλεγμένο στο ChatGPT;

Το GPT-5.5 Instant, που αντικατέστησε το GPT-5.3 ως default επιλογή.

Τι είναι το Claude Mythos;

Ένα πειραματικό μοντέλο της Anthropic που δεν διατέθηκε στο κοινό επειδή θεωρήθηκε υπερβολικά ικανό σε εργασίες ασφάλειας υπολογιστών.

Τι ξεχωρίζει το Nemotron 3 Nano Omni της Nvidia;

Είναι ανοιχτό, πολυτροπικό μοντέλο που επεξεργάζεται εικόνα, ήχο και κείμενο σε έναν ενιαίο βρόχο, χωρίς ανάγκη για ξεχωριστά μοντέλα.

Newsletter Techblog

Κάθε Παρασκευή στις 19:00 — smartphones, προσφορές, επιλογές. Χωρίς spam.

Με την εγγραφή σας αποδέχεστε την Πολιτική Απορρήτου.

Σχόλια

Αφήστε μια απάντηση Ακύρωση απάντησης

Ροή ειδήσεων

18 μήνες φυλακή για μία κάτω παύλα — η δικαστική γκάφα

Internet 30.07.26