Wprowadzasz rano, wieczorem jest gotowe! Claude Sonnet 4.5 zmienia zasady gry Firma Anthropic wprowadziła Claude Sonnet 4.5, który prowadzi w rankingach benchmarków kodowania, takich jak SWE-bench Model może pracować autonomicznie do 30 godzin, w porównaniu do 7 godzin u poprzednika Opus 4 Cena pozostaje taka sama jak w przypadku Sonnet 4: 3 dolary za milion tokenów wejściowych, 15 za wyjściowe Sdílejte: Jakub Kárník Publikováno: 30. 9. 2025 14:00 Startup Anthropic, stojący za chatbotem Claude, właśnie zaprezentował nowy model Claude Sonnet 4.5. Firma określa go jako najlepszy na świecie model AI do kodowania i najpotężniejsze narzędzie do pracy z komputerem. W rzeczywistości jest to krok ewolucyjny, a nie rewolucyjny – ale z kilkoma imponującymi liczbami. Trzydzieści godzin nieprzerwanej pracy Benchmarki: Pierwsze miejsce, ale nie we wszystkim Agent SDK i nowe funkcje dla deweloperów Bezpieczeństwo i „wyrównanie” Eksperymentalne „Imagine with Claude” Cena i dostępność Konkurencja śpi, czy nie? Trzydzieści godzin nieprzerwanej pracy Główną nowością jest zdolność Sonnet 4.5 do autonomicznej pracy przez maksymalnie 30 godzin. To znaczący skok w porównaniu do modelu Opus 4 z maja, który wytrzymywał maksymalnie siedem godzin. Podczas wewnętrznego testu Sonnet 4.5 stworzył działający klon aplikacji komunikacyjnej typu Slack lub Teams – i napisał do tego około 11 000 linii kodu. Anthropic twierdzi, że model utrzymuje uwagę nawet podczas kilkudniowych zadań, nie tracąc kontekstu. W praktyce oznacza to, że deweloper może rano zadać skomplikowane zapytanie, a wieczorem odebrać gotowy wynik. Brzmi to efektownie, ale rzeczywistość będzie prawdopodobnie bardziej prozaiczna – niewiele projektów obejdzie się bez ludzkiego nadzoru i iteracji. Benchmarki: Pierwsze miejsce, ale nie we wszystkim Claude Sonnet 4.5 dominuje w SWE-bench Verified, benchmarku mierzącym zdolność do rozwiązywania rzeczywistych zadań programistycznych. Anthropic osiągnął średni wynik 77,2 % z serii dziesięciu prób. Dzięki zaawansowanym technikom, takim jak równoległe obliczenia w czasie testu, wynik wzrósł do 82,0 %. Kolejny imponujący wynik pochodzi z OSWorld, benchmarku do sterowania komputerem – Sonnet 4.5 osiągnął tu 61,4 %, podczas gdy poprzednik Sonnet 4 w zeszłym roku uzyskał 42,2 %. Model potrafi przeglądać strony internetowe, wypełniać tabele i wykonywać wielowarstwowe zadania bezpośrednio w przeglądarce. Anthropic opublikował również wyniki z testów matematycznych i logicznych (AIME, GPQA Diamond), gdzie Sonnet 4.5 przewyższa starsze modele Claude, ale w niektórych kategoriach pozostaje w tyle za OpenAI GPT-5 lub Google Gemini 2.5 Pro. Co ciekawe, model sprawdził się przede wszystkim w dziedzinach specjalistycznych, takich jak finanse, prawo, medycyna i STEM – choć i tam na razie osiąga jedynie „oceny C do D”. Agent SDK i nowe funkcje dla deweloperów Anthropic udostępnił Claude Agent SDK – infrastrukturę, na której działa ich własne narzędzie Claude Code. Deweloperzy otrzymają w ten sposób klocki do budowania własnych agentów AI. SDK obejmuje zarządzanie pamięcią, system uprawnień i koordynację między wieloma agentami pracującymi nad jednym celem. Do Claude Code dodano punkty kontrolne – możliwość zapisania bieżącego stanu pracy i powrotu do niego w dowolnym momencie. Terminal przeszedł przeprojektowanie, a także dodano natywną integrację dla VS Code. W aplikacjach Claude dostępna jest teraz możliwość uruchamiania kodu i tworzenia plików (arkusze kalkulacyjne, prezentacje, dokumenty) bezpośrednio w konwersacji. Użytkownicy planu premium Claude Max, którzy zapisali się na listę oczekujących, uzyskali dostęp do rozszerzenia dla Chrome. Umożliwia ono Claude’owi pracę bezpośrednio w przeglądarce – wypełnianie formularzy, przeglądanie stron i automatyzowanie powtarzających się zadań. Bezpieczeństwo i „wyrównanie” Anthropic kładzie duży nacisk na to, że Sonnet 4.5 jest ich najbardziej „wyrównanym” modelem (aligned model). W praktyce oznacza to, że model rzadziej zachowuje się manipulacyjnie – zmniejsza się występowanie pochlebstw, zwodniczych zachowań, żądzy władzy czy wspierania błędnych przekonań użytkownika. Model jest chroniony przez ramy bezpieczeństwa ASL-3, które obejmują klasyfikatory wykrywające niebezpieczne wejścia i wyjścia – zwłaszcza te związane z bronią masowego rażenia (CBRN). Liczba fałszywie pozytywnych detekcji zmniejszyła się od maja o połowę, a od pierwotnego wprowadzenia nawet dziesięciokrotnie. Firma obiecuje dalsze usprawnienia. Eksperymentalne „Imagine with Claude” Wraz z Sonnet 4.5 Anthropic uruchomił tymczasowy eksperyment „Imagine with Claude”. Jest to narzędzie, które generuje oprogramowanie na bieżąco – żadna funkcjonalność nie jest zaprogramowana z góry, Claude tworzy kod w czasie rzeczywistym zgodnie z wymaganiami użytkownika. Eksperyment jest dostępny dla subskrybentów Claude Max przez pięć dni pod adresem claude.ai/imagine. Anthropic określa go jako przykład tego, co jest możliwe, gdy połączy się potężny model z odpowiednią infrastrukturą. Cena i dostępność Claude Sonnet 4.5 jest dostępny od dziś poprzez API pod nazwą claude-sonnet-4-5. Polityka cenowa pozostaje taka sama jak w przypadku Sonnet 4: 3 dolary za milion tokenów wejściowych i 15 dolarów za milion tokenów wyjściowych. Model może być używany w aplikacjach Claude (web, mobilna, desktopowa), poprzez API lub w narzędziu Claude Code. Aktualizacje Claude Code są dostępne dla wszystkich użytkowników, podobnie jak funkcje Agent SDK dla deweloperów. Uruchamianie kodu i tworzenie plików działają we wszystkich płatnych planach aplikacji Claude. Konkurencja śpi, czy nie? Bitwa o uwagę deweloperów i klientów biznesowych toczy się niemal co tydzień. OpenAI kilka dni temu zaprezentowało Pulse – funkcję ChatGPT do porannej rutyny i bieżących badań. Google wciąż dopracowuje swoje Gemini i naciska na integrację z narzędziami firmowymi. Co sądzicie o nowym modelu Sonnet 4.5? Źródło: Anthropic, The Verge O autorze Jakub Kárník Jakub je znám svou nekonečnou zvědavostí a vášní pro nejnovější technologie. Jeho láska k mobilním telefonům začala s iPhonem 3G, ale dnes se spoléhá na… Więcej o autorze Sdílejte: AI Anthropic ChatGPT Claude