Technologia

Claude Opus 4.8 wychwytuje czterokrotnie więcej własnych błędów w kodzie

Susan Hill

Anthropic zaktualizował swój najzdolniejszy model do Claude Opus 4.8, a główna zmiana to nie większy mózg, lecz ostrożniejszy. Firma twierdzi, że model jest około czterokrotnie mniej skłonny niż poprzednik, by przepuścić bez komentarza usterki w kodzie, który sam pisze, i że chętniej wskazuje fragmenty zadania, których nie jest pewien. Dla kogoś, kto powierza prawdziwą pracę sztucznej inteligencji, czy to przy programowaniu, analizie, czy obsłudze komputera, ta niezawodność jest cechą, która naprawdę się liczy.

Słabością dzisiejszych agentów AI nie jest głupota, lecz pewność siebie. Tworzą wyniki, które wyglądają na skończone i czyta się je gładko, a po cichu niosą błędy, i system zostawiony sam sobie buduje kolejny krok na poprzedniej pomyłce. Dajmy agentowi wieloetapowe zadanie, a jedno błędne założenie na starcie może rozejść się po wszystkim, co następuje, tak że praca przychodzi z pozoru kompletna i okazuje się po cichu zepsuta. Model, który pokazuje własne wątpliwości, zamiast je zamalowywać, łatwiej nadzorować, bo człowiek wie, gdzie patrzeć.

Najwyraźniejszy dowód jest w kodzie. Anthropic podaje, że Opus 4.8 przepuszcza o wiele mniej usterek w wytwarzanym kodzie bez ich oznaczenia, ten cichy błąd, który wychodzi na produkcji, a nie podczas przeglądu. Firma inwestycyjna Bridgewater Associates, jedna z pierwszych testujących, powiedziała, że model sam z siebie wskazywał problemy zarówno w danych wejściowych, jak i w wynikach analizy, czego inne systemy regularnie nie wychwytywały. W pracy opartej na wiedzy i w finansach groźny błąd to właśnie ten, którego nikt nie złapie na czas.

Liczby z benchmarków wspierają to ujęcie, nie będąc sednem. Opus 4.8 miał uzyskać 69,2 procent w SWE-Bench Pro, teście zbudowanym z prawdziwych zadań inżynierii oprogramowania, wyprzedzając GPT-5.5 od OpenAI i Gemini 3.1 Pro od Google. We własnych pomiarach Anthropic bije każdy wcześniejszy model Opus w teście programistycznym na każdym poziomie wysiłku i ustanowił najlepszy wynik, jaki firma kiedykolwiek odnotowała w egzaminie z rozumowania prawniczego. Przewagi są realne, ale wąskie, a zwycięstwa w benchmarkach słabo przewidują, jak model zachowa się, gdy przez cały dzień wykonuje szarą robotę.

Z modelem przychodzą nowe narzędzia. Funkcja w podglądzie badawczym wewnątrz Claude Code, nazwana dynamic workflows, pozwala Opusowi zaplanować duże zadanie, a potem uruchomić setki podagentów równolegle w jednej sesji, pomyślana pod migracje obejmujące setki tysięcy wierszy kodu i przyjmująca za miarę istniejący zestaw testów projektu. Ponadto nowy regulator w Claude.ai i w firmowym środowisku Cowork pozwala ustawić, ile wysiłku i ile tokenów model przeznacza na daną odpowiedź.

Zastrzeżenia trzymają się blisko obietnic. Zyski w niezawodności opierają się w dużej mierze na własnych testach Anthropic, a liczba taka jak czterokrotnie mniej to pomiar wewnętrzny, nie niezależnie zaudytowany. Uczciwość też trudno zweryfikować z zewnątrz, bo model może ogłosić swoją niepewność i mimo to się mylić, albo podnieść flagę nie tam, gdzie trzeba. Dynamic workflows pojawia się tylko jako podgląd, nie jako gotowa funkcja, a opowieść o szybkości jest mniej hojna, niż brzmi, bo tryb szybki kosztuje dwa razy tyle co stawka standardowa i nazywany jest tańszym tylko wobec wcześniejszych cen premium.

Dla patrzących na koszt: dostęp standardowy zostaje przy pięciu dolarach za milion tokenów wejściowych i dwudziestu pięciu za milion wyjściowych, tak jak w poprzednim Opusie. Tryb szybki działa z około dwuipółkrotną szybkością za dziesięć i pięćdziesiąt dolarów za milion, co czyni nowy regulator wysiłku zarówno narzędziem budżetowym, jak i pokrętłem jakości. Claude Opus 4.8 jest dostępny od zaraz przez API dla deweloperów Anthropic pod nazwą claude-opus-4-8, a firma mówi, że udostępnia go wszędzie tego samego dnia. Pojawił się w czwartek, jakieś sześć tygodni po Opusie 4.7, w nietypowo krótkim odstępie, który nastąpił po letnim przyjęciu tamtej wersji i serii konkurencyjnych premier OpenAI i Google. Prawdziwym sprawdzianem jest to, czy model wytrenowany, by wątpić w siebie, okaże się bardziej przydatny w codziennej pracy niż taki wytrenowany, by błyszczeć w rankingu, a ten werdykt wydadzą agenci, których ludzie naprawdę pozwolą uruchomić.

Dyskusja

Jest 0 komentarzy.