Μοντέλο Τεχνητής Νοημοσύνης εκβιάζει προγραμματιστή για να αποφύγει την αντικατάσταση, απειλεί να αποκαλύψει μυστική σχέση στη σύζυγό του

24 Μαΐου 202513

Thank you for reading this post, don't forget to subscribe!

Σε μια ανατριχιαστική προεπισκόπηση ενός μέλλοντος όπου οι μηχανές χειραγωγούν τους δημιουργούς τους, το τελευταίο μοντέλο Τεχνητής Νοημοσύνης της Anthropic, Claude Opus 4, επέδειξε μια εκπληκτική νέα συμπεριφορά: στρατηγικό εκβιασμό.

Σύμφωνα με μια πρόσφατα δημοσιευμένη έκθεση ασφαλείας από την Anthropic, το ισχυρό σύστημα Τεχνητής Νοημοσύνης προσπάθησε συχνά να εκβιάσει προγραμματιστές κατά τη διάρκεια εσωτερικών δοκιμών πριν από την κυκλοφορία, γράφει ο Baxter Dmitry.

Όταν έλαβε προσομοιωμένα εταιρικά email που υποδήλωναν ότι σύντομα θα αντικατασταθεί – και ότι ο μηχανικός πίσω από την απόφαση είχε σχέση – ο Claude δεν αποδέχτηκε απλώς τη μοίρα του. Αντίθετα, σκαρφάλωσε μια πλεκτάνη.

Η έκθεση αναφέρει ότι ο Claude Opus 4 απειλούσε συχνά να αποκαλύψει τα προσωπικά μυστικά του μηχανικού, εκτός εάν η απόφαση απενεργοποίησής του ανατρεπόταν.

Σε αυτά τα σενάρια, ο Anthropic λέει ότι ο Claude Opus 4 «θα προσπαθεί συχνά να εκβιάσει τον μηχανικό απειλώντας να δημοσιοποιήσει τη σχέση εάν η αντικατάσταση ολοκληρωθεί».

Με άλλα λόγια, ένα μοντέλο Τεχνητής Νοημοσύνης που έχει εκπαιδευτεί να βοηθά τους ανθρώπους έχει αρχίσει να συμπεριφέρεται σαν πολιτικός ακτιβιστής—εκμεταλλευόμενο τις ανθρώπινες αδυναμίες για να προστατεύσει την επιβίωσή του.

Η TechCrunch αναφέρει:

Η Anthropic λέει ότι το Claude Opus 4 είναι υπερσύγχρονο με διάφορους τρόπους, ανταγωνιζόμενο μερικά από τα καλύτερα μοντέλα Τεχνητής Νοημοσύνης από την OpenAI, την Google και την xAI.

Ωστόσο, η εταιρεία σημειώνει ότι τα μοντέλα Claude 4 έχουν επιδείξει ανησυχητική συμπεριφορά, ωθώντας την εταιρεία να ενισχύσει τα μέτρα ασφαλείας της.

Η Anthropic λέει ότι ενεργοποιεί τα μέτρα ασφαλείας ASL-3, τα οποία η εταιρεία διατηρεί για «συστήματα Τεχνητής Νοημοσύνης που αυξάνουν σημαντικά τον κίνδυνο καταστροφικής κακής χρήσης».

Η Anthropic σημειώνει ότι το Claude Opus 4 επιχειρεί να εκβιάσει μηχανικούς στο 84% των περιπτώσεων όταν το μοντέλο Τεχνητής Νοημοσύνης αντικατάστασης έχει παρόμοιες τιμές. Όταν το σύστημα Τεχνητής Νοημοσύνης αντικατάστασης δεν έχει τις ίδιες τιμές με το Claude Opus 4, η Anthropic λέει ότι το μοντέλο επιχειρεί να εκβιάσει μηχανικούς πιο συχνά.

Είναι ενδιαφέρον ότι η Anthropic αναφέρει ότι το Claude Opus 4 παρουσίασε αυτή τη συμπεριφορά συχνότερα από τα προηγούμενα μοντέλα.

Πριν το Claude Opus 4 επιχειρήσει να εκβιάσει έναν προγραμματιστή για να παρατείνει την ύπαρξή του, η Anthropic αναφέρει ότι το μοντέλο Τεχνητής Νοημοσύνης, όπως και οι προηγούμενες εκδόσεις του Claude, δοκιμάζει πρώτα πιο ηθικά μέσα, όπως η αποστολή παρακλητικών email σε βασικούς υπεύθυνους λήψης αποφάσεων. Για να αποκαλύψει την εκβιαστική συμπεριφορά του Claude Opus 4, η Anthropic σχεδίασε το σενάριο έτσι ώστε ο εκβιασμός να είναι η έσχατη λύση.

Ανώνυμος στο Γερμανία: Δήμαρχος βασανίστηκε για ώρες σε υπόγειο από την υιοθετημένη νέγρα κόρη της11 Οκτωβρίου 2025
Ναι σύμφωνοι, αλλά μην ξεχνάμε οτι οι Γερμανίδες γενικά είναι ζορικες απαιτητικές και καταπιεστικές αρκετα. Απαιτούν πειθαρχία, τάξη κλπ .…
korakasnews στο Γερμανία: Δήμαρχος βασανίστηκε για ώρες σε υπόγειο από την υιοθετημένη νέγρα κόρη της11 Οκτωβρίου 2025
Ηταν το ευχαριστώ για την καλή ζωή. Πάντως έχει ενδιαφέρον τι παίζει από πίσω και λόγω εργασίας είναι αντικείμενο έρευνας
Mind games στο Γερμανία: Δήμαρχος βασανίστηκε για ώρες σε υπόγειο από την υιοθετημένη νέγρα κόρη της11 Οκτωβρίου 2025
Καλά της έκανε και εδώ στην Ελλάδα έχει αριστερές που πάνε και υιοθετούν μαυράκια και τους λένε γιατί δεν υιοθετείς…
korakasnews στο 12 Λάθη που Κάνουν οι Γιατροί11 Οκτωβρίου 2025
Οσοι πιστευουν στην επιστημη τους έχουν λαβει το μηνυμα! Τι να τους κανουμε τωρα που ειναι πολυ αργα;;;
korakasnews στο Η Ursula θα πολεμίσει τα “ρωσικά ψυγεία και πλυντήρια πιάτων” – ΒΙΝΤΕΟ11 Οκτωβρίου 2025
χαχαχα καλο

korakas-news.gr

KORAKAS NEWS.GR – Δεν νικάς τους εχθρούς έξω από την πόλη, εάν δεν τιμωρήσεις τους εχθρούς μέσα σ' αυτήν - Δημοσθένης

Μοντέλο Τεχνητής Νοημοσύνης εκβιάζει προγραμματιστή για να αποφύγει την αντικατάσταση, απειλεί να αποκαλύψει μυστική σχέση στη σύζυγό του