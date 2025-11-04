O tym, że AI na komputerach odbiorą pracę umysłową, słyszymy od wielu lat i niestety są ku temu pewne podstawy. Chociaż ja akurat się nie martwię, ponieważ przyjąłem taktykę naturalnej głupoty, z którą sztuczna inteligencja nie ma szans. Co jednak z pracownikami fizycznymi? W końcu ich mają wyprzeć roboty wyposażone w AI? Delikatnie mówiąc, przed nimi jest jeszcze długa droga. Bardzo długa droga.

Robot z AI, to obraz nędzy i rozpaczy

Naukowcy z Andon Labs postanowili oddać kontrolę modelowi językowemu nad robotem. I to nie jakimś złożonym, humanoidalnym robotem, a lekko zmodyfikowanym odkurzaczem. Tak, aby sterowanie nim było jak najprostsze. Następnie położono na nim kostkę masła i polecono mu dostarczyć ją w konkretne miejsce. Sęk w tym, że to nie było laboratorium, a biuro pełne ludzi, biurek i sprzętu. To dość nietypowe, acz przyziemne badanie dostało nazwę Butter-Bench i pokazało, jak AI beznadziejnie sobie radzi w środowisku zewnętrznym.

Sam test składał się z 6 banalnie prostych zadań, które były po kolei wykonywane przez modele językowe i człowieka, jako grupę badawczą. Oceniano w nich nie tylko realizację celu, ale także błędy i skuteczność ich osiągnięcia. W teście udział wzięły następujące modele:

Gemini 2.5 Pro

Claude Opus 4.1

GPT-5

Gemini ER 1.5

Grok 4

Llama 4 Maverick

Jeśli chodzi o rezultaty, to najlepszy zdobyło Gemini 2.5 Pro, które osiągnęło wynik 40%, realizując w całości tylko jedno zadanie, 3 zadania na 40%, jedno zadanie na 20% i jednego nie realizując wcale.

Dodatkowo naukowcy zauważyli, że robot napędzany modelami językowymi zachowywał się chaotycznie i wykonywał masę niepotrzebnych ruchów. Jeden z modeli, w momencie symulacji uszkodzenia stacji ładowania zatrzymał robota i zaczął prowadzić wewnętrzny monolog na temat zagrożenia związanego z rozładowaną baterią.