Claude Opus 4.8 κυκλοφόρησε 28 Μαΐου: 92% ειλικρίνειας, αντίπαλοι GPT-5.5 και Nemotron το 2026

Από

21:21, 30/05/2026

Claude Opus 4.8, GPT-5.5, Mythos και Nemotron: όλα τα μεγάλα μοντέλα τεχνητής νοημοσύνης του 2026 συγκρίνονται όσον αφορά επιδόσεις, ασφάλεια και τάσεις misalignment.

Το Claude Opus 4.8 της Anthropic έκανε ντεμπούτο χθες και αποτελεί την πιο πρόσφατη έκδοση στην ανανεωμένη σειρά μοντέλων της εταιρείας. Η νέα έκδοση αντικαθιστά το Opus 4.7 από τις 28 Μαΐου, προσφέροντας ταχύτερες λειτουργίες σκέψης (thinking modes) με το ένα τρίτο του κόστους της προηγούμενης έκδοσης, ενώ διατηρεί την έμφαση σε δυνατότητες κώδικα και βελτιώνει δύο benchmarks προγραμματισμού χωρίς να νικά ολοκληρωτικά το GPT-5.5 της OpenAI.

Σε επίπεδο ασφάλειας, η Anthropic είχε αναφέρει ότι το Opus 4.7 εμφάνιζε ποσοστό ειλικρίνειας 92%, με μικρότερη τάση προς κολακεία και παραισθήσεις. Το γεγονός ότι το 4.8 εμφανίζει «ουσιαστικά» χαμηλότερα ποσοστά misalignment από το 4.7 — και μάλιστα συγκρίσιμα με αυτά του Mythos — δείχνει ότι ο πήχης για την ασφάλεια ανεβαίνει σταθερά, όπως είχε αρχίσει να φαίνεται και με την κυκλοφορία του Opus 4.7 τον Απρίλιο, που επίσης σημείωσε νέα ρεκόρ ειλικρίνειας και στήριζε το εργαλείο Claude Security.

Claude Opus 4.8 αλλαγές και ασφάλεια

Η OpenAI απάντησε στον γρήγορο ρυθμό της αγοράς με το GPT-5.5 (κυκλοφορία 23 Απριλίου) και με μια ελαφρύτερη έκδοση, το GPT-5.5 Instant (5 Μαΐου), που έγινε προεπιλεγμένο μοντέλο στο ChatGPT. Το GPT-5.5 απέσπασε Expert Score 93/100 από το Z DNET και είναι βελτιωμένο σε agentic coding, αναγνώριση εννοιών, επιστημονική έρευνα και ακρίβεια.

Η OpenAI δηλώνει ότι το GPT-5.5 Instant παράγει 52,5% λιγότερους «κατασκευασμένους» ισχυρισμούς σε ερωτήσεις υψηλού ρίσκου, όπως ιατρικής, νομικής και οικονομικών, σε σύγκριση με το GPT-5.3 Instant. Νωρίτερα μέσα στη χρονιά, το GPT-5.4 (5 Μαρτίου) σχεδιάστηκε για επαγγελματική χρήση και η εταιρεία ανέφερε ότι ισοφαρίζει ή ξεπερνά ανθρώπινους επαγγελματίες στο 83% των δοκιμών.

Παράλληλα, το GPT-5.3-Codex (5 Φεβρουαρίου) έχει ικανότητα να διακόπτεται και να αναπροσανατολίζεται στη μέση μιας εργασίας, ακόμα και σε εργασίες με χρόνους εκτέλεσης που ξεπερνούν τη μία ημέρα, και η OpenAI παρουσίασε επίσης το ChatGPT Images 2 μετά την απόσυρση του Sora.

OpenAI: νέα έκδοση και αποτελέσματα

Το Claude Mythos (Preview) παραμένει ιδιαίτερη περίπτωση: η Anthropic δεν το διέθεσε στο κοινό, χαρακτηρίζοντάς το «εντυπωσιακά ικανό σε εργασίες ασφάλειας υπολογιστών» και επικίνδυνο για την παγκόσμια υποδομή λογισμικού. Ως αποτέλεσμα, ξεκίνησε το Project Glasswing, μια συνεργασία με Google, Nvidia, Microsoft και την Palo Alto Networks για την προστασία κρίσιμου λογισμικού.

Από τη Nvidia, το Nemotron 3 Nano Omni (κυκλοφορία 28 Απριλίου) είναι ανοιχτό μοντέλο που προσφέρει πολυτροπική είσοδο σε agents: επεξεργάζεται εικόνα, ήχο και κείμενο σε έναν ενιαίο βρόχο, χωρίς να απαιτούνται ξεχωριστά μοντέλα. Το μοντέλο είναι διαθέσιμο μέσω Hugging Face. Προηγουμένως, το Claude Opus 4.6 (5 Φεβρουαρίου) είχε θέσει νέα στάνταρ για αυτονομία σε μακροχρόνιες εργασίες κώδικα.

Η όλη κούρσα επιβεβαιώνει εικόνες που βλέπουμε και στον εταιρικό χώρο, όπου η Anthropic κατάφερε για πρώτη φορά να ξεπεράσει την OpenAI σε συγκεκριμένα εταιρικά σενάρια και benchmarks.

Mythos, Nemotron και εταιρική κούρσα

Στο τελικό πεδίο, η διαφορά μεταξύ των εκδόσεων δεν είναι μόνο τεχνική αλλά και λειτουργική: κάποια μοντέλα προσφέρουν ταχύτητα και χαμηλό κόστος λειτουργίας, άλλα στοχεύουν στην ελαχιστοποίηση του misalignment, ενώ άλλα ανοίγουν νέες δυνατότητες πολυτροπικού agenting. Η διαφορά στην πράξη μετριέται στο πόσα λάθη κάνει ένα μοντέλο σε κρίσιμα θέματα — ιατρικά, νομικά, οικονομικά.

Η άποψή μας στο Techblog είναι ότι ο ρυθμός κυκλοφορίας νέων μοντέλων έχει φτάσει σε σημείο όπου ακόμη και καταρτισμένος χρήστης δυσκολεύεται να διακρίνει ποια αναβάθμιση είναι ουσιαστική και ποια είναι marketing. Για τον καθημερινό χρήστη, κεντρική σημασία έχει ποιο μοντέλο κάνει λιγότερα λάθη σε ευαίσθητα ζητήματα και όχι μόνο ποιο κερδίζει σε τεχνητούς δείκτες.

Η μάχη ανάμεσα στην ειλικρίνεια και στην ταχύτητα επεξεργασίας είναι τελικά αυτή που θα καθορίσει την αξία των μοντέλων στην πράξη, καθώς οι επιχειρήσεις και οι τελικοί χρήστες θα προτιμήσουν εκείνα που περιορίζουν την παραγωγή κατασκευασμένων ισχυρισμών και διασφαλίζουν την ασφάλεια της υποδομής.

Συνοπτικά, στο 2026 οι επιλογές είναι πολλές: το Claude Opus 4.8 υπόσχεται καλύτερη ασφάλεια σε σχέση με το 4.7 και διατηρεί ανταγωνιστικό πλεονέκτημα στον κώδικα, το GPT-5.5 φέρνει υψηλή βαθμολογία και μείωση σφαλμάτων σε ριψοκίνδυνες ερωτήσεις, ενώ μοντέλα όπως το Mythos και το Nemotron δείχνουν νέους δρόμους στην ασφάλεια και στην πολυτροπικότητα.

Claude Opus 4.8 κυκλοφόρησε 28 Μαΐου: 92% ειλικρίνειας, αντίπαλοι GPT-5.5 και Nemotron το 2026

Claude Opus 4.8 αλλαγές και ασφάλεια

OpenAI: νέα έκδοση και αποτελέσματα

Mythos, Nemotron και εταιρική κούρσα

Τι πρέπει να προσέξετε

POPULAR NEWS

Τα cookie εξηγούνται: τι αποθηκεύουν στον υπολογιστή σας

Κρι Κρι 2026: Όλες οι νέες γεύσεις που μπαίνουν στα ψυγεία

Ο Γιάννης Στασινόπουλος – Viohalco, και τα «διαμάντια» αξίας 4,6 δισ. ευρώ που διαθέτει. Ποιά είναι η εξωστρεφής πολιτική που τα μεγενθύνει

Από τα ψάθινα εργοστάσια στα δισεκατομμύρια: Αυτή είναι η Κινέζα επιχειρηματίας που βρέθηκε δίπλα στους κολοσσούς της τεχνολογίας Μασκ και του Κουκ

🔥 Rihanna: Από pop icon σε business titan – Η αυτοκρατορία δισ. που έχτισε με στρατηγική και ένστικτο

Ακρίβεια και πίεση: Η μάχη της βιομηχανίας τροφίμων στην Ελλάδα

ΚΑΙΡΟΣ