Claude Fable 5 sam nauczył się znajdować luki — i trafił do wszystkich

Przez 27 lat pojedyncza luka tkwiła nietknięta w OpenBSD, jednym z systemów operacyjnych, którym ufają banki, zapory sieciowe i serwery stojące za codziennymi witrynami. Każdy, kto zdołał połączyć się z maszyną przez sieć, mógł ją unieruchomić, a przez niemal trzy dekady nikt tego nie zauważył. Model Anthropic o nazwie Mythos zauważył. Teraz ten model ma publiczną twarz: Anthropic udostępnił Claude Fable 5, pierwszą wersję swojego najsprawniejszego systemu, do której każdy może się zapisać.

Tym, co czyni Fable 5 wartym uwagi, nie jest miejsce w rankingu. Chodzi o to, że model pod spodem czyta oprogramowanie tak, jak doświadczony audytor czyta umowę, aż odnajdzie tę jedną klauzulę, która łamie wszystko. W ramach programu badawczego, który Anthropic nazywa Project Glasswing, wersja wstępna przeszła przez ponad tysiąc projektów open source, ten wolny i współdzielony kod napędzający większość internetu, i zgłosiła ponad 23.000 problemów. Ponad 10.000 z nich było na tyle poważnych, by zaklasyfikować je jako wysokie lub krytyczne.

Szczegół, który zaniepokoił nawet samych badaczy Anthropic, jest taki, że nikt nie nauczył modelu tej umiejętności. Firma utrzymuje, że zdolność znajdowania i wykorzystywania słabości nigdy nie była celem treningu: pojawiła się sama, w miarę jak model coraz lepiej rozumował o kodzie. FFmpeg to najjaśniejszy przykład. Luka kryła się od 16 lat w tym oprogramowaniu do przetwarzania wideo, silniku stojącym za niezliczonymi aplikacjami streamingowymi i odtwarzaczami, zaszyta w linii kodu, którą automatyczne narzędzia testowe uruchomiły pięć milionów razy, ani razu nie dostrzegając zagrożenia. Model dostrzegł.

Dla większości ludzi nic z tego nie wygląda na nic. Oprogramowanie, które przejrzał Mythos, to niewidzialna infrastruktura: silnik przeglądarki, jądro systemu operacyjnego, biblioteka multimedialna ukryta we wnętrzu telefonu. Ale niewidzialność jest właśnie problemem. Ujawnione luki przetrwały dlatego, że żyły w kodzie zbyt starym, zbyt nudnym albo zbyt głębokim, by ktokolwiek wciąż go odczytywał. Narzędzie, które potrafi czytać to wszystko od nowa, niestrudzenie, zmienia szanse tych, którzy utrzymują fundamenty internetu, a w niewłaściwych rękach także tych, którzy chcieliby je zaatakować.

Takie liczby znaczą coś dopiero wobec miary. W CyberGym, teście sprawdzającym, czy model potrafi odtworzyć prawdziwą lukę bezpieczeństwa, silnik Mythos w Fable osiąga 83,1 procent wobec 66,6 procent wcześniejszego Claude Opus 4.6: mniej więcej różnica między sprawnym młodszym analitykiem a specjalistą, który rzadko się myli. Postępy nie kończą się na bezpieczeństwie. Firma analityczna Hex podała, że Fable był pierwszym modelem, który przekroczył 90 procent w jej wewnętrznym teście, a pierwsi użytkownicy opisują podobne skoki w tworzeniu oprogramowania, analizie danych i projektowaniu interfejsów.

Potem przychodzi zwrot. Publiczny Fable 5 nie zrobi właśnie tego, co czyni go niezwykłym. Anthropic odgrodził cztery obszary, cyberbezpieczeństwo, biologię, chemię i technikę kopiowania zwaną destylacją, i gdy zapytanie się do nich zbliża, Fable po cichu przekazuje rozmowę starszemu i bezpieczniejszemu Claude Opus 4.8. Firma twierdzi, że zdarza się to rzadko, a wczesne dane pokazują, że co najmniej 95 procent sesji działa w całości na samym Fable. Efektem jest nietypowy produkt: najsprawniejszy model, jaki Anthropic wypuścił, celowo powstrzymany przed użyciem swojej najostrzejszej umiejętności.

Ten projekt pozostawia pytania, na które premiera nie odpowiada do końca. Bariera, która ustępuje w 5 procentach przypadków, wciąż jest barierą ze szwami, a granica między wyjaśnieniem, jak działa oprogramowanie, a wyjaśnieniem, jak je złamać, rzadko bywa czysta. Anthropic zapewnia, że zewnętrzny program nagród za błędy działał ponad 1.000 godzin, nie znajdując uniwersalnego sposobu na obejście ograniczeń, ale to liczby samej firmy, niesprawdzone przez żaden zewnętrzny organ. Jest też koszt, który większość poczuje najpierw: Fable 5 kosztuje 10 dolarów za milion tokenów wejścia i 50 za milion wyjścia, przybliżone jednostki, którymi model nalicza czytanie i pisanie, dwukrotność ceny Opus 4.8. A każdy, kto go używa, oddaje coś cichszego, bo Anthropic przechowuje teraz 30 dni danych użycia nawet u klientów, którzy zwykle płacą za brak retencji, nazywając to obroną przed nadużyciem.

Na razie dostęp zależy od tego, jak już korzystasz z Claude’a. Programiści sięgają po Fable 5 od razu przez interfejs programistyczny Anthropic, a osobna wersja, Mythos 5, trafiła do niewielkiej grupy zawczasu zatwierdzonych organizacji, obok branżowej koalicji obejmującej Apple, Google, Microsoft, Nvidię i Linux Foundation, które łatają to, co model znajdzie, zanim zdążą atakujący. Anthropic przeznaczył 100 milionów dolarów w kredytach na model i 4 miliony w bezpośrednich darowiznach dla grup bezpieczeństwa open source wykonujących tę naprawę.

Szersze wdrożenie idzie według kalendarza. Subskrybenci planów Pro, Max, Team i Enterprise na stanowisko otrzymują Fable 5 bez dopłaty do 22 czerwca; od 23 czerwca korzystanie czerpie z kredytów. Czy bariery wytrzymają, gdy napierać na nie będą miliony nowych użytkowników, to część wciąż nierozstrzygnięta. Fakt bardziej zdumiewający — już tak. Maszyna potrafi dziś czytać kod leżący pod nowoczesnym życiem i znajdować pęknięcia, które przez pokolenie umknęły wszystkim, a pytanie, które po tym następuje, nie brzmi już, czy potrafi, lecz kto ma prawo ją o to poprosić.

Tagi: cyberbezpieczeństwo, Anthropic, tech-en1, modele AI, Project Glasswing, Claude Fable 5