Grok Imagine 1.5: testuję nowy model wideo — wrażenia i porównanie

Wyszedł Grok Imagine 1.5 — świeży model wideo od xAI z natywnym dźwiękiem i lip-synciem. Od razu przepuściłem go przez swój pipeline na scenie, którą celowo trzymam w trudnej wersji, i postawiłem obok te modele, między którymi zwykle wybieram: Seedance 2.0, Kling v3 i Veo 3.1. Dalej — moje wrażenia z Grokiem i uczciwe porównanie.

Kontekst z pierwszej części: tam wybierałem scenarzystę — wywołanie LLM, które zamienia pomysł w shot-listę. Scenarzysta tylko opisuje kadr słowami; rysuje go kolejna warstwa — model wideo. I to właśnie jego testuję.

Scena i jak ją katowałem

Scena jest głupawa i celowo trudna. Dwie kreskówkowe rybki w stylu Pixara: różowa dziewczynka i niebieski chłopak. Ona oskarża go o zdradę, uderza go płetwą w twarz — z ust wylatuje mu robak — i zalewa się łzami. Kamera się oddala i okazuje się, że obie siedzą w maleńkim akwarium na półce w suchym pokoju. Kwestie po angielsku, dźwięk i lip-sync natywne dla modelu, 10 sekund, pion.

Dlaczego akurat ona. Ta scena uderza od razu w kilka czułych miejsc:

Dialog na dwie postacie, gdzie druga musi odpowiedzieć, a nie stać jak słup.
Akcja fizyczna, którą łatwo odczytać błędnie: policzek kontra pocałunek.
Emocja, którą ma być słychać, a nie tylko widać.
Późny zwrot — odjazd kamery, który wywraca całą scenę do góry nogami.

Jeśli model to udźwignie, udźwignie prawie wszystko. Wejście dla wszystkich jest takie samo: ten sam prompt, ta sama klatka startowa, oceniam na oko — własne.

Wszystkie cztery klipy są po angielsku i to celowo. Angielski ciągną wszystkie modele, więc na nim najuczciwiej porównać je w równych warunkach: widać ruch, kamerę i dźwięk, a nie to, kto lepiej nauczył się języka. Rosyjski to osobna historia i wrócę do niej niżej.

Od razu uczciwie: to jedna komiczna scena, a generowanie jest stochastyczne — ten sam prompt za każdym razem daje trochę inny dubel. Więc to drogowskaz, a nie pomiar. Bardziej „na takim materiale wziąłbym właśnie ten” niż dokładne procenty.

Grok Imagine 1.5 — to, co testuję

Grok Imagine 1.5: 480p za $0.08/s, natywny dźwięk i lip-sync.

Najtańszy z czwórki: 480p za osiem centów na sekundę. Bit odegrał jak trzeba — policzek, odpowiedź drugiej rybki, ryk. Zwrot działa, ale pod jednym warunkiem: trzeba wprost wpisać suchy pokój, inaczej Grok otacza akwarium… kolejną wodą. Z kotwicami — półka, okno, zabawki — odjazd ląduje w prawdziwym pokoju.

Natywny dźwięk z lip-synciem od ręki, a cena śmieszna. Dla mnie to złoty środek — jakości wystarcza na większość zadań, a płacić za każdy projekt nie żal. Uważam, że na Groka można przejść z Klinga: zamyka to samo, taniej i ze swoimi plusami.

I osobno o rosyjskim, wybiegając naprzód: z całej czwórki Grok udźwiękawia go najlepiej — czysto, bez obcego akcentu. Do rosyjskich klipów to mój wybór.

Seedance 2.0 — najlepszy ruch

Seedance 2.0: najlepszy ruch na tym klipie, mocny angielski dźwięk.

Najlepszy ruch z całej czwórki na tym klipie — policzek, lecący robak, fizyka komedii. Detalizacja i emocje też ma mocniejsze niż Kling. Angielski dźwięk mocny. Ale ma dwie wady. Pierwsza: Seedance czasem rozumie prompt zbyt dosłownie i wtedy scena wygląda nienaturalnie — u Klinga jest z tym płynniej. Druga: z rosyjskim u Seedance już nie wszystko gra (więcej niżej). Kilku postaci osobnymi referencjami nie ustawisz — działa od klatki startowej. Sufit 15 sekund.

Pod względem obrazu wyprzedził tu Groka. Jeśli scena jest angielska i ważny jest w niej ruch — to pierwszy kandydat.

Kling v3 — kamera i multipostać

Kling v3: najlepsza kamera, kilka postaci, do 15 sekund — ale łzy wyszły takie sobie.

Najlepsza kamera i atmosfera z czwórki. Potrafi kilka postaci przez elements, przyjmuje swój format mowy [postać, ton], ciągnie do 15 sekund. Sam Kling jest już lekko przestarzały, ale jakościowo wciąż bardzo mocny. Minus — subtelne efekty wyszły mniej naturalnie: łzy wyglądały nie najlepiej. I rosyjski: formalnie go obsługuje, ale wymawia z wyraźnym obcym akcentem, do dubbingu się nie nadaje.

To ten model, po który sięgam dla kinowej kamery, kilku bohaterów albo klipu dłuższego niż dziesięć sekund.

Veo 3.1 (fast) — nie do tego

Veo 3.1 (fast): ruch 3/10, sufit 8 sekund, surowy filtr, najdroższy ze wszystkich.

Tu nie dowiózł. Ruch — 3/10, zwrot brzydki. Sufit 8 sekund, surowy filtr treści i najdroższy ze wszystkich. Do szybkiej komediowej akcji i dużych odjazdów kamery — pudło. Może swoje odbije na spokojnych realistycznych kadrach bez przemocy, ale to już inny materiał.

Gdzie ostatecznie wypada Grok

Jednego zwycięzcy nie ma — wszystko zależy od treści. Właśnie dlatego w pipelinie wybór modelu stoi na każdy projekt, a nie jest zaszyty jeden na wszystko. Gdzie wpadł Grok Imagine 1.5 i gdzie go wyprzedzają:

Angielska komedia na jednego-dwóch bohaterów z kwestiami — Seedance albo Grok: najlepszy lip-sync i efekty. Seedance wygrywa detalizacją i emocjami (ale czasem bierze prompt zbyt dosłownie), Grok — tani i niezawodny domyślny wybór.
Rosyjski dialog — Grok, i tu jest poza konkurencją: brzmi czysto. Kling i Seedance mają z rosyjskim problemy — wyraźny obcy akcent, do dubbingu się nie nadaje; Grok brzmi czysto.
Kinowa kamera, atmosfera, dwie-trzy postacie, dłużej niż dziesięć sekund — Kling: lekko przestarzały, ale jakość wciąż mocna.
Veo — nie pod szybką komedię i nie pod zwroty na odjeździe. Ma swoje scenariusze, nie te.

A ponad wszystkim — lekcja z pierwszej części: to wywołanie działa na każdym projekcie, więc patrzę na jakość za dolara, a nie na bezwzględne maksimum. Groka za osiem centów na sekundę w roli modelu bazowego trudno przegadać.

Dlaczego scena w ogóle wyszła

Najbardziej przydatny jest tu nawet nie sam model, a prompt, który zmusza każdy z nich do odegrania bitu. Oto, co z tego wyniosłem.

Policzek, a nie pocałunek. Model dopowiada dwuznaczność swoim priorem: dwie mordki obok siebie plus „przysuwa się do” — wychodzi pocałunek. Trzeba było wpisać wprost: „uderza w policzek, głowa odskakuje w bok, NIE pocałunek”. I jeszcze subtelniej — opis postaci ma być tylko o wyglądzie. Jedno „lekki uśmiech, spokojnie płynie” w kotwicy charakteru i wściekły policzek renderuje się jak czułe zbliżenie.

Druga postać musi reagować. Zagubione „Co?! Nikogo tu więcej nie ma!” niebieskiej rybki — to jest właśnie puenta, i to ona uruchamia zwrot. Milczący, nieruchomy drugi bohater wygląda na martwego.

Dźwięk trzeba nazwać słowem. „Ryczy na cały głos, wielkie kreskówkowe łzy”, a nie „płacze” — inaczej natywny dźwięk modelu może zamilknąć.

Jeden zwrot na dziesięć sekund. Kiedy wepchnąłem do klipu wszystko naraz — oskarżenie, policzek, łzy, akwarium, stół, pokój, okno, dom i przelatującego jastrzębia — model pomieszał kolejność: jastrząb znalazł się wewnątrz pokoju. Działa jeden późny odjazd w swoim oknie czasowym (5–10 s). Wielostopniowe zwroty to już kilka osobnych scen.

Zwrot potrzebuje suchych kotwic. Od podwodnej klatki startowej model domyślnie otacza akwarium kolejną wodą. Trzeba forsować: „woda TYLKO wewnątrz szkła, na zewnątrz sucha sypialnia” plus konkretne przedmioty — półka, zabawki, okno. Z kotwicami odjazd trafia do pokoju, bez nich zostaje pod wodą.

To stochastyka, przetaczaj. Na tym samym promptcie policzek wychodził raz wyraźnie, raz miałko, a raz w ogóle się nie zdarzał. Prompt zadaje rozkład, a nie wynik. Nie ma co gonić determinizmu sformułowaniami — prościej przetoczyć dubel. A jeśli potrzebna jest gwarancja (jak z przeciekającą pierwszą klatką z pierwszej części) — daje ją deterministyczny kod, a nie większy model.

W skrócie

Jeśli całkiem krótko — oto mój rozkład po aspektach (oceny 1–5, subiektywnie i na tym materiale):

Aspekt	Grok	Seedance	Kling	Veo
Ruch	4	5	4	2
Detalizacja i emocje	3	5	4	2
Kamera	3	4	5	2
Naturalność	4	3	5	2
Dźwięk i lip-sync	5	4	3	2
Wielojęzyczność	5	2	2	—
Multipostać	—	—	✓	—
Maks. długość	15s	15s	15s	8s
Cena	tanio	średnio	średnio	drogo

Więc co do Grok Imagine 1.5: dla mnie to złoty środek — natywny dźwięk, lip-sync, osiem centów na sekundę — i godna zamiana Klinga, ku której się skłaniam. Na angielskiej scenie Seedance wyprzedził go w ruchu i daje lepszą detalizację i emocje, ale czasem bierze prompt zbyt dosłownie, a cena Groka przeważa. Po rosyjsku Grok jest po prostu najlepszy: Kling i Seedance mają z nim problemy. Dalej już zależnie od treści: angielska komedia — Seedance; kamera i kilku bohaterów — Kling (lekko przestarzały, ale wciąż mocny); Veo na razie odłożyłem. Jednego zwycięzcy nie ma, dlatego wybór modelu w pipelinie jest przywiązany do projektu.