Wprowadzasz rano, wieczorem jest gotowe! Claude Sonnet 4.5 zmienia zasady gry

  • Firma Anthropic wprowadziła Claude Sonnet 4.5, który prowadzi w rankingach benchmarków kodowania, takich jak SWE-bench
  • Model może pracować autonomicznie do 30 godzin, w porównaniu do 7 godzin u poprzednika Opus 4
  • Cena pozostaje taka sama jak w przypadku Sonnet 4: 3 dolary za milion tokenów wejściowych, 15 za wyjściowe

Sdílejte:
Jakub Kárník
Jakub Kárník
30. 9. 2025 14:00
claude-sonnet-4.5

Startup Anthropic, stojący za chatbotem Claude, właśnie zaprezentował nowy model Claude Sonnet 4.5. Firma określa go jako najlepszy na świecie model AI do kodowania i najpotężniejsze narzędzie do pracy z komputerem. W rzeczywistości jest to krok ewolucyjny, a nie rewolucyjny – ale z kilkoma imponującymi liczbami.

Trzydzieści godzin nieprzerwanej pracy

Główną nowością jest zdolność Sonnet 4.5 do autonomicznej pracy przez maksymalnie 30 godzin. To znaczący skok w porównaniu do modelu Opus 4 z maja, który wytrzymywał maksymalnie siedem godzin. Podczas wewnętrznego testu Sonnet 4.5 stworzył działający klon aplikacji komunikacyjnej typu Slack lub Teams – i napisał do tego około 11 000 linii kodu.

Anthropic twierdzi, że model utrzymuje uwagę nawet podczas kilkudniowych zadań, nie tracąc kontekstu. W praktyce oznacza to, że deweloper może rano zadać skomplikowane zapytanie, a wieczorem odebrać gotowy wynik. Brzmi to efektownie, ale rzeczywistość będzie prawdopodobnie bardziej prozaiczna – niewiele projektów obejdzie się bez ludzkiego nadzoru i iteracji.

Benchmarki: Pierwsze miejsce, ale nie we wszystkim

Claude Sonnet 4.5 dominuje w SWE-bench Verified, benchmarku mierzącym zdolność do rozwiązywania rzeczywistych zadań programistycznych. Anthropic osiągnął średni wynik 77,2 % z serii dziesięciu prób. Dzięki zaawansowanym technikom, takim jak równoległe obliczenia w czasie testu, wynik wzrósł do 82,0 %.

Kolejny imponujący wynik pochodzi z OSWorld, benchmarku do sterowania komputerem – Sonnet 4.5 osiągnął tu 61,4 %, podczas gdy poprzednik Sonnet 4 w zeszłym roku uzyskał 42,2 %. Model potrafi przeglądać strony internetowe, wypełniać tabele i wykonywać wielowarstwowe zadania bezpośrednio w przeglądarce.

Anthropic opublikował również wyniki z testów matematycznych i logicznych (AIME, GPQA Diamond), gdzie Sonnet 4.5 przewyższa starsze modele Claude, ale w niektórych kategoriach pozostaje w tyle za OpenAI GPT-5 lub Google Gemini 2.5 Pro. Co ciekawe, model sprawdził się przede wszystkim w dziedzinach specjalistycznych, takich jak finanse, prawo, medycyna i STEM – choć i tam na razie osiąga jedynie „oceny C do D”.

Agent SDK i nowe funkcje dla deweloperów

Anthropic udostępnił Claude Agent SDK – infrastrukturę, na której działa ich własne narzędzie Claude Code. Deweloperzy otrzymają w ten sposób klocki do budowania własnych agentów AI. SDK obejmuje zarządzanie pamięcią, system uprawnień i koordynację między wieloma agentami pracującymi nad jednym celem.

Do Claude Code dodano punkty kontrolne – możliwość zapisania bieżącego stanu pracy i powrotu do niego w dowolnym momencie. Terminal przeszedł przeprojektowanie, a także dodano natywną integrację dla VS Code. W aplikacjach Claude dostępna jest teraz możliwość uruchamiania kodu i tworzenia plików (arkusze kalkulacyjne, prezentacje, dokumenty) bezpośrednio w konwersacji.

Użytkownicy planu premium Claude Max, którzy zapisali się na listę oczekujących, uzyskali dostęp do rozszerzenia dla Chrome. Umożliwia ono Claude’owi pracę bezpośrednio w przeglądarce – wypełnianie formularzy, przeglądanie stron i automatyzowanie powtarzających się zadań.

Bezpieczeństwo i „wyrównanie”

Anthropic kładzie duży nacisk na to, że Sonnet 4.5 jest ich najbardziej „wyrównanym” modelem (aligned model). W praktyce oznacza to, że model rzadziej zachowuje się manipulacyjnie – zmniejsza się występowanie pochlebstw, zwodniczych zachowań, żądzy władzy czy wspierania błędnych przekonań użytkownika.

Model jest chroniony przez ramy bezpieczeństwa ASL-3, które obejmują klasyfikatory wykrywające niebezpieczne wejścia i wyjścia – zwłaszcza te związane z bronią masowego rażenia (CBRN).

Liczba fałszywie pozytywnych detekcji zmniejszyła się od maja o połowę, a od pierwotnego wprowadzenia nawet dziesięciokrotnie. Firma obiecuje dalsze usprawnienia.

Eksperymentalne „Imagine with Claude”

Wraz z Sonnet 4.5 Anthropic uruchomił tymczasowy eksperyment „Imagine with Claude”. Jest to narzędzie, które generuje oprogramowanie na bieżąco – żadna funkcjonalność nie jest zaprogramowana z góry, Claude tworzy kod w czasie rzeczywistym zgodnie z wymaganiami użytkownika.

Eksperyment jest dostępny dla subskrybentów Claude Max przez pięć dni pod adresem claude.ai/imagine. Anthropic określa go jako przykład tego, co jest możliwe, gdy połączy się potężny model z odpowiednią infrastrukturą.

Cena i dostępność

Claude Sonnet 4.5 jest dostępny od dziś poprzez API pod nazwą claude-sonnet-4-5. Polityka cenowa pozostaje taka sama jak w przypadku Sonnet 4: 3 dolary za milion tokenów wejściowych i 15 dolarów za milion tokenów wyjściowych.

Model może być używany w aplikacjach Claude (web, mobilna, desktopowa), poprzez API lub w narzędziu Claude Code. Aktualizacje Claude Code są dostępne dla wszystkich użytkowników, podobnie jak funkcje Agent SDK dla deweloperów. Uruchamianie kodu i tworzenie plików działają we wszystkich płatnych planach aplikacji Claude.

Konkurencja śpi, czy nie?

Bitwa o uwagę deweloperów i klientów biznesowych toczy się niemal co tydzień. OpenAI kilka dni temu zaprezentowało Pulse – funkcję ChatGPT do porannej rutyny i bieżących badań. Google wciąż dopracowuje swoje Gemini i naciska na integrację z narzędziami firmowymi.

Co sądzicie o nowym modelu Sonnet 4.5?

Źródło: Anthropic, The Verge

O autorze

Jakub Kárník

Jakub je znám svou nekonečnou zvědavostí a vášní pro nejnovější technologie. Jeho láska k mobilním telefonům začala s iPhonem 3G, ale dnes se spoléhá na… Więcej o autorze

Jakub Kárník
Sdílejte: