Claude będzie bardziej szczery. Zwłaszcza jeśli się pomyli
Mamy dobre wieści dla fanów sztucznej inteligencji. Jedno z popularniejszych rozwiązań na rynku próbuje rozwiązać największy z obecnych problemów.
Anthropic zaprezentowało Claude Opus 4.8, czyli kolejną wersję swojego flagowego modelu AI. Tym razem firma szczególnie mocno podkreśla nie tylko możliwości techniczne, ale też większą "uczciwość". W praktyce ma to oznaczać, że Claude częściej przyznaje się do niepewności i rzadziej przedstawia słabo uzasadnione wnioski jako fakty.
Największe znaczenie może to mieć przy programowaniu
Firma przekonuje, że problemem dużych modeli językowych nadal bywa zbyt pewne odpowiadanie nawet wtedy, gdy dowody są kruche albo niepełne. Anthropic twierdzi, że wszystkie modele Claude są trenowane tak, aby tego unikały, ale w Opus 4.8 położono na to jeszcze większy nacisk. I według pierwszych testów faktycznie wydaje się być to prawdą.
W wewnętrznych benchmarkach Opus 4.8 jest około 4x mniej skłonny od poprzednika do pozostawiania błędów w kodzie bez komentarza. Innymi słowy, model ma nie tylko programować, ale też częściej zauważać, kiedy coś w jego rozwiązaniu może być nie tak. Chociaż to zaskoczenie, to AI potrafiło do tej pory często zażarcie bronić złych rozwiązań.
Nowością jest także opcje sterowania tym, ile "wysiłku" Claude ma włożyć w konkretne zadanie. Użytkownik może wybrać odpowiedzi bardziej rozbudowane i dokładniejsze, ale musi się wtedy liczyć z większym zużyciem tokenów. Przy prostszych zadaniach będzie można postawić na niższy poziom zaangażowania, co oszczędzi limity i przyspieszy pracę.
Anthropic uruchamia również funkcję "dynamic workflows", na razie w wersji research preview. Ma ona pozwolić Claude podejmować się większych i bardziej złożonych zadań w Claude Code. Model może zaplanować pracę, uruchomić setki równoległych subagentów w jednej sesji, a następnie sprawdzić wyniki przed przekazaniem odpowiedzi użytkownikowi. W połączeniu z dłuższą pracą agentów w Opus 4.8 firma wyraźnie celuje więc w zastosowania, w których AI nie jest już tylko czatem, ale narzędziem do prowadzenia wieloetapowych procesów.