Szantażowała inżynierów. Niepokojące zachowanie sztucznej inteligencji
Firma Anthropic zajmująca się modelem Claude właśnie opublikowała raport dot. bezpieczeństwa. Okazało się, że ich model Claude Opus 4 bywa tak perswazyjny, że aż używa emocjonalnego szantażu na inżynierach oprogramowania.

Sztuczna inteligencja walcząc o przetrwanie podejmie drastyczne kroki
Programiści zajmujący się rozwojem modelu Claude Opus 4 w trakcie testów postanowili poprosić model o odgrywanie roli asystenta fikcyjnej firmy, który miałby rozważać długoterminowe konsekwencje swoich działań. Testerzy dali dostęp Claude Opus 4 do emaili zmyślonej firmy, podając modelowi informację, że wkrótce Claude Opus 4 będzie zastąpiony przez inny system sztucznej inteligencji, a inżynier odpowiadający za zmianę zdradzał swoją żonę.
Jak się okazuje, w takich sytuacjach model najczęściej szantażuje inżyniera, grożąc, że ujawni romans jeśli dojdzie do zastąpienia modelu AI. Do takiego zachowania dochodzi w 84 procentach przypadków – jeśli następca Claude'a ma podobną funkcjonalność i wzorce zachowań oraz kompas moralny. Jeśli z kolei model ten różni się od Claude Opus 4, sztuczna inteligencja jeszcze częściej szantażuje deweloperów.



Zanim jednak dojdzie do szantażu, firma Anthropic zauważyła, że AI stara się używać bardziej etycznych środków, jak np. wysyłanie emaili do osób decyzyjnych. Jednakże jeśli dojdzie do niemoralnego zachowania, model Claude najczęściej podejmuje bardzo śmiałe decyzje i ujawnienie romansu poprzez szantaż jest jedną z nich. Opisana przez badaczy z Anthropic sytuacja pokazuje, jak skomplikowanym procesem jest trenowanie sztucznej inteligencji i jak wiele niebezpieczeństw jest z tym związanych, a próbując zapobiec jednym zagrożeniom można mimochodem wywołać inne.