
24 Μαΐου 202513
Thank you for reading this post, don't forget to subscribe!
Σε μια ανατριχιαστική προεπισκόπηση ενός μέλλοντος όπου οι μηχανές χειραγωγούν τους δημιουργούς τους, το τελευταίο μοντέλο Τεχνητής Νοημοσύνης της Anthropic, Claude Opus 4, επέδειξε μια εκπληκτική νέα συμπεριφορά: στρατηγικό εκβιασμό.
Σύμφωνα με μια πρόσφατα δημοσιευμένη έκθεση ασφαλείας από την Anthropic, το ισχυρό σύστημα Τεχνητής Νοημοσύνης προσπάθησε συχνά να εκβιάσει προγραμματιστές κατά τη διάρκεια εσωτερικών δοκιμών πριν από την κυκλοφορία, γράφει ο Baxter Dmitry.
Όταν έλαβε προσομοιωμένα εταιρικά email που υποδήλωναν ότι σύντομα θα αντικατασταθεί – και ότι ο μηχανικός πίσω από την απόφαση είχε σχέση – ο Claude δεν αποδέχτηκε απλώς τη μοίρα του. Αντίθετα, σκαρφάλωσε μια πλεκτάνη.
Η έκθεση αναφέρει ότι ο Claude Opus 4 απειλούσε συχνά να αποκαλύψει τα προσωπικά μυστικά του μηχανικού, εκτός εάν η απόφαση απενεργοποίησής του ανατρεπόταν.
Σε αυτά τα σενάρια, ο Anthropic λέει ότι ο Claude Opus 4 «θα προσπαθεί συχνά να εκβιάσει τον μηχανικό απειλώντας να δημοσιοποιήσει τη σχέση εάν η αντικατάσταση ολοκληρωθεί».
Με άλλα λόγια, ένα μοντέλο Τεχνητής Νοημοσύνης που έχει εκπαιδευτεί να βοηθά τους ανθρώπους έχει αρχίσει να συμπεριφέρεται σαν πολιτικός ακτιβιστής—εκμεταλλευόμενο τις ανθρώπινες αδυναμίες για να προστατεύσει την επιβίωσή του.
Η TechCrunch αναφέρει:
Η Anthropic λέει ότι το Claude Opus 4 είναι υπερσύγχρονο με διάφορους τρόπους, ανταγωνιζόμενο μερικά από τα καλύτερα μοντέλα Τεχνητής Νοημοσύνης από την OpenAI, την Google και την xAI.
Ωστόσο, η εταιρεία σημειώνει ότι τα μοντέλα Claude 4 έχουν επιδείξει ανησυχητική συμπεριφορά, ωθώντας την εταιρεία να ενισχύσει τα μέτρα ασφαλείας της.
Η Anthropic λέει ότι ενεργοποιεί τα μέτρα ασφαλείας ASL-3, τα οποία η εταιρεία διατηρεί για «συστήματα Τεχνητής Νοημοσύνης που αυξάνουν σημαντικά τον κίνδυνο καταστροφικής κακής χρήσης».
Η Anthropic σημειώνει ότι το Claude Opus 4 επιχειρεί να εκβιάσει μηχανικούς στο 84% των περιπτώσεων όταν το μοντέλο Τεχνητής Νοημοσύνης αντικατάστασης έχει παρόμοιες τιμές. Όταν το σύστημα Τεχνητής Νοημοσύνης αντικατάστασης δεν έχει τις ίδιες τιμές με το Claude Opus 4, η Anthropic λέει ότι το μοντέλο επιχειρεί να εκβιάσει μηχανικούς πιο συχνά.
Είναι ενδιαφέρον ότι η Anthropic αναφέρει ότι το Claude Opus 4 παρουσίασε αυτή τη συμπεριφορά συχνότερα από τα προηγούμενα μοντέλα.
Πριν το Claude Opus 4 επιχειρήσει να εκβιάσει έναν προγραμματιστή για να παρατείνει την ύπαρξή του, η Anthropic αναφέρει ότι το μοντέλο Τεχνητής Νοημοσύνης, όπως και οι προηγούμενες εκδόσεις του Claude, δοκιμάζει πρώτα πιο ηθικά μέσα, όπως η αποστολή παρακλητικών email σε βασικούς υπεύθυνους λήψης αποφάσεων. Για να αποκαλύψει την εκβιαστική συμπεριφορά του Claude Opus 4, η Anthropic σχεδίασε το σενάριο έτσι ώστε ο εκβιασμός να είναι η έσχατη λύση.
Views: 0