Dwa punkty za Opus 4.6, pięć razy taniej: Gemini 3.5 Flash zmienia rachunek

Google wypuścił w poniedziałek Gemini 3.5 Flash w cenie 1,50 dolara za milion tokenów wejściowych i 9 dolarów za milion wyjściowych. Nowy model utrzymuje ponad 280 tokenów wyjściowych na sekundę, zachowuje to samo okno kontekstu o pojemności miliona tokenów co poprzednik i ląduje na Artificial Analysis Intelligence Index z wynikiem 55 — dziewięć punktów powyżej Gemini 3 Flash. We wtorek rano wątek na r/Anthropic miał już wykres tuż obok Claude Opus 4.6 i zadawał pytanie, wokół którego rynek krąży od sześciu miesięcy: od którego momentu dwa punkty przewagi w benchmarku przestają być warte pięciokrotnej ceny?

Intelligence Index agreguje koszyk publicznych ewaluacji — rozumowanie, wiedzę, programowanie, matematykę i wykonywanie zadań agentowych — do jednej noty od 1 do 100. Claude Opus 4.6 w trybie rozumowania adaptacyjnego siedzi na 57. Gemini 3.5 Flash, wydany 19 maja, siedzi na 55. Skok o dziewięć punktów między wersjami to największy pojedynczy postęp, jaki Flash kiedykolwiek zanotował, na tyle duży, że nowy model dorównuje teraz poprzedniemu Sonnetowi Anthropic na surowej inteligencji za ułamek kosztu Sonneta.

Ramowanie „mądrzejszy” użyte w wątku Reddita przesadza różnicę na korzyść Flasha. Na samym Intelligence Indeksie Opus 4.6 prowadzi nadal o dwa punkty. Wykres, który rozsadził wątek, to nie odizolowany Intelligence Index. To widok efektywność-inteligencji wobec kosztu, w którym oś wykonuje inną robotę, a Flash 3.5 nie tylko bije Opus 4.6. Stoi w klasie, w której nikogo innego w pobliżu nie ma.

Opus 4.6 kasuje około 6,25 dolara za milion tokenów wejściowych i 25 za milion wyjściowych. Flash kasuje 1,50 i 9. Dla obciążenia czatowego ważonego dwa do jednego na korzyść wyjścia efektywny stosunek leży bliżej 4,5x niż okrągłego „pięć razy” z tytułu. Zaokrąglenie jest uczciwe. Tempo pogarsza obraz dla okrętu flagowego: Flash 3.5 trzyma ponad 280 tokenów wyjściowych na sekundę, a Opus 4.6 w trybie maksymalnego wysiłku rozumowania porusza się około jednej dziesiątej tego tempa na tej samej baterii testów. Dla produktów, w których użytkownik patrzy w migający kursor — asystentów kodu, agentów wsparcia, dowolnego flow interaktywnego — opóźnienie jest cechą, której cena nie odkupuje.

Rok temu argument za kupnem najdroższego modelu mieścił się w jednej linijce. Skok jakościowy do następnego progu był na tyle duży, że różnica w cenie była błędem zaokrąglenia wobec dostarczanej wartości. Wykres, który wątek wkleił, to inny wykres. Krańcowy koszt ostatnich dwóch punktów inteligencji stał się całą decyzją cenową dla obciążeń produkcyjnych, a błąd zaokrąglenia ląduje teraz bliżej 4,75 dolara z każdych wydanych sześciu.

Istnieje czysty argument za trzymaniem Opus 4.6 w stosie. Rozumowanie z długim kontekstem nad setkami stron, pętle agenta, w których błędy nakładają się krok po kroku, analiza dokumentów, w której dwa punkty różnicy w nocie zagregowanej ukrywają znacznie większe specyficzne przewagi. Opus pozostaje modelem, po który inżynier sięga, gdy tryb porażki brzmi „odpowiedź była zła”, a nie „odpowiedź przyszła za późno”. Udział obciążeń produkcyjnych wyglądających w ten sposób kurczy się. Nie jest zerowy i jest dokładnie tym pasmem, w którym 25 dolarów za milion zarabia na siebie.

Tury czatowe, które ruszają większość fakturowanej masy tokenów — redagowanie, streszczanie, klasyfikowanie, tłumaczenie, autouzupełnianie kodu, rozumowanie skierowane do klienta — wszystkie mieszczą się w zasięgu Flasha. Pytanie, które zespoły inżynierskie zadają sobie co kwartał, nie brzmi już „który model jest najlepszy”. Brzmi „który model daje najwięcej za dolara przy akceptowalnym opóźnieniu”. Tę drugą odpowiedź Flash wygrywa teraz marżą, która nie wymaga subtelnej interpretacji.

Drugorzędne ramowanie z wątku, że wszędzie panuje konsensus, iż Opus 4.6 jest lepszy od 4.7, zasługuje na łagodniejsze potraktowanie. Jest anegdotyczne. Dwie ostatnie wersje Opus od Anthropic dostały podzielone recenzje w ocenach kodu i rygorze użycia narzędzi: część zespołów raportuje regresje w długich pętlach agenta na 4.7, inne raportują czyste wygrane na identycznych obciążeniach. Obie obserwacje mogą być prawdziwe jednocześnie, gdy zachowanie modelu jest dostrajane na wielu osiach między wersjami pomocniczymi. Oba modele mieszczą się też w niespełna jednym punkcie od siebie w publicznym indeksie, więc podział społeczności wygląda bardziej na kwestię gustu niż możliwości. Czego nie ma w sporze, to fakt, że cena żadnego z dwóch Opusów się nie rusza.

Głębszy sygnał z rozmowy na Reddicie to to, o co użytkownicy się nie kłócili. Nikt w wątku nie bronił ceny Opusa na zasadach ogólnych. Obrony, które padały, były specyficzne dla obciążenia. „Opus wciąż mnie wygrywa w tej pętli agenta”. „Opus zostaje w naszym pipelinie przeglądu dokumentów”. To prawda, ale są to obrony obciążenia, nie obrony okrętu flagowego. Okręt flagowy powinien wygrywać na rozkładzie, a nie na jednym konkretnym pasie.

Dwa punkty różnicy w inteligencji. Pięciokrotna cena. Sześciokrotna przewaga w prędkości w drugą stronę. Okno kontekstu o pojemności miliona tokenów po 1,50 dolara za milion wejścia. Wejście multimodalne, Elo na zadaniach agentowych powyżej 1650, dziewięćdziesiąt procent zniżki na wejście trzymane w cache. Odpowiedź Anthropic w następnym kwartale opowie własną historię. Trudniejszy do napisania, w maju 2026, jest argument, z którym handlowiec musi wejść na spotkanie z klientem.

Tagi: tech-en1, Anthropic, Google, AI, Artificial Analysis, benchmarki LLM