Technologia

Nowy model głosowy OpenAI rozumuje w środku tej samej pętli dźwięku, a cisza, która zdradzała AI, znika

Susan Hill

Pauza zdradza. Do tej pory AI głosowa działała tak — przepisywała wypowiedź, przesyłała tekst do modelu językowego, otrzymywała odpowiedź i syntetyzowała ją z powrotem do dźwięku. Każdy krok kosztuje czas. Użytkownik słyszy ciszę, wie, że po drugiej stronie coś się przetwarza, czuje szew. Nowy GPT-Realtime-2 od OpenAI sprasowuje ten cały pipeline do jednego modelu, w którym rozumowanie zachodzi wewnątrz samej pętli dźwięku — i szew znika.

OpenAI uruchomiło w tym tygodniu trzy nowe modele audio w swoim Realtime API — GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper. Tytuł nosi pierwszy. Firma opisuje go jako pierwszy model głosowy z „rozumowaniem klasy GPT-5″, zbudowany tak, by jeden model obsługiwał dźwięk wchodzący i wychodzący, a myślenie było wplecione w rozmowę zamiast wciśnięte między kroki transkrypcji i syntezy. Liczby na poparcie są konkretne. Wynik w Big Bench Audio podskoczył z 81,4 procent do 96,6 procent względem poprzedniego modelu odniesienia. Audio MultiChallenge wzrosło z 34,7 procent do 48,5 procent. Okno kontekstu rozrosło się z 32 000 tokenów do 128 000 — wystarczająco miejsca, by pomieścić pełną historię klienta podczas jednej rozmowy.

Strukturalne przesunięcie trudniej dostrzec w benchmarkach. Przez trzy lata każdy, kto stawiał agenta głosowego na produkcję, musiał szyć stack ręcznie — Whisper albo Deepgram do transkrypcji, LLM do rozumowania, ElevenLabs albo Cartesia do głosu, i prompting, żeby zatuszować latencję. Każdy przeskok między elementami kosztował milisekundy i ostrość. Użytkownik słyszał wstawione przez skrypt „chwila, sprawdzę to”, potem nic, gdy model myślał, w końcu odpowiedź. GPT-Realtime-2 dostarcza te rusztowania jako natywne zachowanie. Preambuły pozwalają agentowi powiedzieć „chwila, sprawdzę to” w trakcie wywoływania narzędzi, żeby użytkownik nie siedział w ciszy. Równoległe wywołania narzędzi pozwalają modelowi wystrzelić kilka żądań do backendu jednocześnie i opowiedzieć, które jest w toku. Zachowanie przy odzyskiwaniu wyłapuje awarie i wyciąga je na wierzch, zamiast zamrażać rozmowę.

Powierzchnia sterowania, jaka otwiera się dla deweloperów, to najciekawsza część. „Wysiłek rozumowania” jest konfigurowalny — minimal, low, medium, high i xhigh — z low jako domyślnym, żeby utrzymać niską latencję przy prostych zapytaniach. Agent, który odpowiada „o której zamykacie?”, nie potrzebuje rozumowania klasy GPT-5. Agent, który prowadzi klienta przez spór reklamacyjny, potrzebuje. Ten sam model można poinstruować, jak mocno ma myśleć w danej turze, co stanowi realną zmianę względem poprzedniego modelu, w którym głębokość rozumowania była stała, a deweloper wybierał między szybko i mądrze już na etapie wdrożenia.

Sceptycyzm ma swoje miejsce. „Rozumowanie klasy GPT-5″ to linia marketingowa, nie weryfikowalne oświadczenie — bez niezależnych benchmarków na realistycznym dialogu porównanie pozostaje wewnętrzne. Agenci głosowi mają osobny tryb awarii, który benchmarki łapią słabo — moment, w którym agent mówi coś błędnego spokojnym, naturalnym głosem. Lepsze rozumowanie pomaga, ale nie eliminuje tego problemu. Liczy się też cena. GPT-Realtime-2 kosztuje 32 dolary za milion tokenów audio na wejściu i 64 za milion na wyjściu. GPT-Realtime-Translate idzie po 0,034 dolara za minutę, GPT-Realtime-Whisper po 0,017. Dość tanio, żeby obsłużyć call center o dużym wolumenie. Nie aż tak tanio, by używać go w konsumenckich produktach konwersacyjnych bez przemyślenia długości każdej sesji.

Kontekst wdrożeń opowiada resztę. Zillow uruchomiło wyszukiwarkę nieruchomości przez głos tego samego dnia. Deutsche Telekom rozprzestrzenił wsparcie głosowe z tłumaczeniem na żywo w czternastu europejskich rynkach. Oba przypadki to dokładnie ten scenariusz, dla którego OpenAI ustawia cenę — długie, transakcyjne, gęste kontekstem rozmowy, w których użytkownik czerpie korzyść z agenta naprawdę rozumującego, a nie tylko wyciągającego informację. Priceline buduje systemy, w których podróżujący zarządzają rezerwacjami hotelowymi i śledzą opóźnienia lotów wyłącznie głosem. Wzór za nazwiskami, które OpenAI rzuca pierwsze, jest jasny — to klienci, których wcześniejsze systemy głosowe działały najgorzej — call centers, linie wsparcia, podróże transakcyjne. Miejsca, w których użytkownik dziś wrzeszczy „operator” do telefonu.

Modele są dostępne w Realtime API już teraz. Aktualizacje głosowe dla ChatGPT pozostają w drodze — „Bądźcie czujni, gotujemy”, powiedziało OpenAI. Sam Altman ujął premierę wokół zmiany w zachowaniu — użytkownicy coraz częściej sięgają po głos w rozmowie z AI, gdy chcą „wyrzucić” dużo kontekstu. Jeśli ten wzór się utrzyma, dystans między AI głosową a tekstową zaczyna się zacierać — a szew, który zdradzał AI w telefonie, staje się trudniejszy do usłyszenia.

Dyskusja

Jest 0 komentarzy.