Trendy

Google właśnie pokazał Gemini Omni! Tworzy filmy, które zapierają dech w piersiach

Google na konferencji I/O 2026 zaprezentował nowy generatywny model Gemini Omni, na razie skupiony na tworzeniu wideo
Model przyjmuje dowolną kombinację danych wejściowych – tekst, obraz, wideo i ścieżkę dźwiękową – i tworzy z nich jeden wynikowy klip
Wariant Omni Flash jest już dziś dostępny dla subskrybentów Google AI Plus i wyższych, a na YouTube Shorts za darmo

Sdílejte:

Jakub Kárník

Publikováno: 20. 5. 2026 12:00

We wrześniu ubiegłego roku Google pokazał model Nano Banana, który szybko stał się jednym z najczęściej używanych narzędzi do edycji zdjęć za pomocą sztucznej inteligencji. Ludzie używali go do odnawiania starych zdjęć rodzinnych, przekształcania szkiców w fotorealistyczne obrazy lub wizualizowania pomysłów projektowych. W tym roku Google przenosi tę samą zasadę na wyższy poziom – nadchodzi Gemini Omni, model zdolny do zastosowania tej samej logiki do wideo.

Edycja wideo za pomocą konwersacji, nie suwaków
Fizyka, wiedza i wizualne wyjaśnienia
Własny awatar i ostrożność z głosem
Gdzie i kiedy wypróbować Omni

Omni to nowa rodzina modeli generatywnych od Google, którą firma zaprezentowała na konferencji Google I/O 2026. Pierwszy przedstawiciel – Gemini Omni Flash – od dziś zaczyna być stopniowo udostępniany użytkownikom aplikacji Gemini, platformy Google Flow, a także twórcom na YouTube Shorts. Drugi i potężniejszy model oznaczony jako Omni Pro Google na razie tylko wspomniał, szczegóły zostaną ujawnione stopniowo.

Edycja wideo za pomocą konwersacji, nie suwaków

Główną nowością Omni nie jest samo generowanie wideo – to potrafią konkurencyjne modele typu OpenAI Sora, Runway czy Meta Movie Gen już od dłuższego czasu. Google kładzie nacisk na edycję konwersacyjną. Użytkownik wprowadza klip wideo i w naturalny sposób opisuje, co ma się z nim stać: zmienić otoczenie, dodać postać, dostosować ruch kamery. Każda kolejna instrukcja nawiązuje do poprzedniej, scena pamięta kontekst, a postacie pozostają wizualnie spójne.

W opublikowanych przykładach, na przykład, polecenie „zrób tę rzeźbę z baniek” przekształca marmurową rzeźbę w pływającą strukturę z baniek mydlanych, bez konieczności ręcznego maskowania czegokolwiek. Inny przykład pokazuje, jak po dotknięciu ręką lustro zamienia się w ruchomą ciecz, a ramię postaci w materiał odblaskowy. Całą tę pracę wcześniej wykonywali specjaliści w studiach, często z budżetami rzędu tysięcy dolarów za jedno ujęcie.

Fizyka, wiedza i wizualne wyjaśnienia

Google podczas prezentacji Omni wielokrotnie podkreślał, że model nie tylko tworzy sceny wizualnie przekonujące, ale także rozumie, jak powinny się zachowywać. Ulepszono zdolności modelu do pracy z grawitacją, energią kinetyczną i dynamiką płynów. W jednym z przykładów kulka toczy się po zakrzywionej ścieżce w stylu reakcji łańcuchowej – ruch i efekty dźwiękowe każdego odbicia odpowiadają rzeczywistości.

Drugim filarem jest połączenie z tym, co Gemini „wie” o świecie. Omni potrafi stworzyć krótki wizualny wyjaśniacz złożonej problematyki – jednym z prezentowanych przykładów jest animacja poklatkowa w stylu plastelinowym, która wyjaśnia proces zwijania białek (protein folding). Z krótkiego zadania tekstowego może więc powstać treść, której ręczne wykonanie zajęłoby dni.

To podejście nawiązuje do długoterminowych wysiłków Google’a w celu zbudowania tzw. world model – modelu, który rozumie świat jako spójną całość, a nie jako sekwencję przypadkowych pikseli. Tę samą filozofię firma stosuje również w eksperymentalnym modelu Genie, który generuje interaktywne środowiska gier. Genie pozostaje jednak dostępny tylko dla subskrybentów najwyższego planu AI Ultra.

Własny awatar i ostrożność z głosem

Omni potrafi również wstawić do filmów cyfrowego bliźniaka użytkownika. Funkcja Avatar tworzy na podstawie podanych próbek cyfrową wersję osoby, która w wynikowych filmach mówi jej głosem. Podobną drogę obrało w zeszłym roku OpenAI w swojej – w międzyczasie już anulowanej – samodzielnej aplikacji Sora.

Możliwości manipulacji dźwiękiem Google celowo ograniczył. Edycja mowy w wideo – czyli przepisanie tego, co ktoś mówi – jest technicznie możliwa, ale Google nie uwzględnił jej w pierwszej wersji. Jako powód podaje, że musi najpierw ustalić zasady, które zapobiegną nadużyciom (typowo deepfake). Dźwięk jako referencja wejściowa działa na razie tylko w postaci próbek głosu, kolejne wejścia dźwiękowe mają zostać dodane w najbliższych miesiącach.

Wszystkie filmy stworzone za pomocą modelu Omni zawierają niewidzialny cyfrowy znak wodny SynthID. Jego obecność można zweryfikować w aplikacji Gemini, w Gemini zintegrowanym z przeglądarką Chrome oraz poprzez Wyszukiwarkę Google. Celem jest umożliwienie każdemu szybkie rozpoznania, czy jest to treść generowana przez AI.

Gdzie i kiedy wypróbować Omni

Gemini Omni Flash jest dostępny od dziś dla wszystkich subskrybentów Google AI Plus, Pro i Ultra, zarówno w aplikacji Gemini, jak i na platformie Google Flow. Dla użytkowników YouTube Shorts i aplikacji YouTube Create model jest dostępny za darmo, stopniowo będzie wdrażany w ciągu tego tygodnia. Dla deweloperów i klientów biznesowych Google otworzy dostęp przez API w ciągu kilku tygodni.

Wypróbujesz Gemini Omni do tworzenia własnych filmów?

Źródło: Google Blog

O autorze

Jakub Kárník

Jakub je znám svou nekonečnou zvědavostí a vášní pro nejnovější technologie. Jeho láska k mobilním telefonům začala s iPhonem 3G, ale dnes se spoléhá na… Więcej o autorze

Sdílejte: