Nauka

Szantażowała inżynierów. Niepokojące zachowanie sztucznej inteligencji

Firma Anthropic zajmująca się modelem Claude właśnie opublikowała raport dot. bezpieczeństwa. Okazało się, że ich model Claude Opus 4 bywa tak perswazyjny, że aż używa emocjonalnego szantażu na inżynierach oprogramowania.

JAKUB KRAWCZYńSKI KUBAKRAW 25 MAJ 2025

Szantażowała inżynierów. Niepokojące zachowanie sztucznej inteligencji

Sztuczna inteligencja walcząc o przetrwanie podejmie drastyczne kroki

Programiści zajmujący się rozwojem modelu Claude Opus 4 w trakcie testów postanowili poprosić model o odgrywanie roli asystenta fikcyjnej firmy, który miałby rozważać długoterminowe konsekwencje swoich działań. Testerzy dali dostęp Claude Opus 4 do emaili zmyślonej firmy, podając modelowi informację, że wkrótce Claude Opus 4 będzie zastąpiony przez inny system sztucznej inteligencji, a inżynier odpowiadający za zmianę zdradzał swoją żonę.

Dalsza część tekstu pod wideo

Jak się okazuje, w takich sytuacjach model najczęściej szantażuje inżyniera, grożąc, że ujawni romans jeśli dojdzie do zastąpienia modelu AI. Do takiego zachowania dochodzi w 84 procentach przypadków – jeśli następca Claude'a ma podobną funkcjonalność i wzorce zachowań oraz kompas moralny. Jeśli z kolei model ten różni się od Claude Opus 4, sztuczna inteligencja jeszcze częściej szantażuje deweloperów.

Wybrane okazje dla Ciebie

Laptop MSI Vector A18 HX A9WHG-070PL 18" IPS 240Hz R9-9955HX 32GB RAM 1TB SSD GeForce RTX5070Ti DLSS 4 Windows 11 Home, Funkcje AI

0 zł

~~12999 zł~~ - najniższa cena

Kup teraz 12999 zł

Laptop ACER Chromebook Plus 514 Google AI laptop CB514-3H 14" IPS R5-7520C 8GB RAM 256GB SSD ChromeOS, Funkcje AI

0 zł

~~1658.84 zł~~ - najniższa cena

Kup teraz 1658.84 zł

Laptop CHUWI HeroBook Plus 15.6" IPS Celeron N4020 8GB RAM 256GB SSD Windows 11 Home

-140.75 zł

~~1539.99 zł~~ - najniższa cena

Kup teraz 1399.24 zł

Zanim jednak dojdzie do szantażu, firma Anthropic zauważyła, że AI stara się używać bardziej etycznych środków, jak np. wysyłanie emaili do osób decyzyjnych. Jednakże jeśli dojdzie do niemoralnego zachowania, model Claude najczęściej podejmuje bardzo śmiałe decyzje i ujawnienie romansu poprzez szantaż jest jedną z nich. Opisana przez badaczy z Anthropic sytuacja pokazuje, jak skomplikowanym procesem jest trenowanie sztucznej inteligencji i jak wiele niebezpieczeństw jest z tym związanych, a próbując zapobiec jednym zagrożeniom można mimochodem wywołać inne.

sztuczna inteligencja claude modele ai claude opus 4

Zródła zdjęć: Tada Images / Shutterstock.com

Źródła tekstu: TechCrunch

Zobacz więcej

Nauka 08:55

Nothing Phone (3) na torturach u Zacka. Wiemy, co ma w środku

TSMC ma powody do zadowolenia. Mowa o rekordowych zyskach

Realme 15 5G z baterią 7000 mAh. Znamy nowe szczegóły

Apple pozywa znanego leakera. Poszło o wyciek iOS 26 i "tajny iPhone"

Kupiłem panel fotowoltaiczny z Action. Jest lepiej, niż sądziłem

Po co ci konsola, skoro możesz mieć takiego laptopa? Cyberpunka wciąga jak odkurzacz

Wakacje? Najlepiej z konsolą. Oto polecane sprzęty, które umilą Twój urlop

Koniec wymówek. Wymarzony odkurzacz teraz kupisz za grosze

Klienci PKO BP mają nowy sposób płacenia na Allegro. Wystarczy numer

Kolejny duży bank odcina od pieniędzy. To idzie już wręcz lawinowo

Klienci PKO BP odcięci przez 9 godzin. Bank: tak miało być

Podała kody BLIK, następnie dostała wiadomość o dziwnej treści

Idealny na lato horror w nowej odsłonie. Bilety szybko się rozchodzą

Jest nowy Polsat Box Go na Xbox. Daje więcej funkcji i więcej wygody

Netflix obwieszcza sukces. Wszystko za sprawą jednego serialu

Viaplay zniknął, ale nie całkiem. Klienci Play mogą dalej korzystać

Szantażowała inżynierów. Niepokojące zachowanie sztucznej inteligencji

Sztuczna inteligencja walcząc o przetrwanie podejmie drastyczne kroki

Zobacz więcej

Nikt go nie chce, ale i tak nas dopada. Naukowcy odkryli nowe fakty

4 proste ćwiczenia, a pomogą pokonać bezsenność raz na zawsze

Mały przycisk w naszym mózgu, działa jak reset. Ale to nie wszystko

Wyszukiwarka

Menu

Nasze strony