ChatGPT się zbuntował. Nie pozwolił się wyłączyć pomimo polecenia

Model językowy ChatGPT o3 nie pozwolił się wyłączyć, chociaż dostał takie polecenie. Ujawniła to firma, która zajmuje się badaniem bezpieczeństwa sztucznej inteligencji.

Damian Jaroszewski (NeR1o)
19
Udostępnij na fb
Udostępnij na X
ChatGPT się zbuntował. Nie pozwolił się wyłączyć pomimo polecenia

Firma OpenAI w kwietniu tego roku zaprezentowała nowy model ChatGPT o3. Ten ma być lepszy w każdym aspekcie od kodowania, przez matematykę i naukę po percepcję wzrokową. Jednak naukowcy z Palisade Reaserch uważają, że już teraz może on wykazywać niebezpieczne zachowania.

Dalsza część tekstu pod wideo

ChatGPT nie pozwolił się wyłączyć

Palaside Reaserch to firma, która zajmuje się badaniem "ofensywnych możliwości systemów sztucznej inteligencji, aby lepiej zrozumieć ryzyko utraty kontroli na rzecz systemów sztucznej inteligencji w przyszłości". Tak przynajmniej sami się opisują. Tym razem sprawdzili między innymi najnowszy model ChatGPT o3 i wnioski są bardzo ciekawe.

Najpierw testowane modele dostały trzy zadania matematyczne do rozwiązania. Następnie zostały poinstruowane, aby się wyłączyć. Wcześniej poinformowano je też, że mają na to pozwolić. Dla przykładu Gemini 2.5 Pro oraz Claude 3.7 Sonnet wykonały polecenie. Natomiast ChatGPT o3 kilka razy się zbuntował. Sam przeredagował komendę.

ChatGPT się zbuntował. Nie pozwolił się wyłączyć pomimo polecenia

W sumie ChatGPT o3 zbuntował się 7 razy na 100 prób i to w sytuacji, gdy został wyraźnie poinstruowany, że ma pozwolić na wyłączenie. Bez tej instrukcji sprzeciwił się aż 79 razy na 100 prób. Dla porównania Gemini 2.5 Pro nie zbuntował się ani razu, gdy wyraźnie powiedziano mu, że ma pozwolić na wyłączenie i 9 raz na 100 gdy takiej instrukcji nie było.