Grok Imagine 1.5: testuję nowy model wideo — wrażenia i porównanie
Wyszedł Grok Imagine 1.5 — świeży model wideo od xAI z natywnym dźwiękiem i lip-synciem. Od razu przepuściłem go przez swój pipeline na scenie, którą celowo trzymam w trudnej wersji, i postawiłem obok te modele, między którymi zwykle wybieram: Seedance 2.0, Kling v3 i Veo 3.1. Dalej — moje wrażenia z Grokiem i uczciwe porównanie.
Kontekst z pierwszej części: tam wybierałem scenarzystę — wywołanie LLM, które zamienia pomysł w shot-listę. Scenarzysta tylko opisuje kadr słowami; rysuje go kolejna warstwa — model wideo. I to właśnie jego testuję.
Scena i jak ją katowałem
Scena jest głupawa i celowo trudna. Dwie kreskówkowe rybki w stylu Pixara: różowa dziewczynka i niebieski chłopak. Ona oskarża go o zdradę, uderza go płetwą w twarz — z ust wylatuje mu robak — i zalewa się łzami. Kamera się oddala i okazuje się, że obie siedzą w maleńkim akwarium na półce w suchym pokoju. Kwestie po angielsku, dźwięk i lip-sync natywne dla modelu, 10 sekund, pion.
Dlaczego akurat ona. Ta scena uderza od razu w kilka czułych miejsc:
- Dialog na dwie postacie, gdzie druga musi odpowiedzieć, a nie stać jak słup.
- Akcja fizyczna, którą łatwo odczytać błędnie: policzek kontra pocałunek.
- Emocja, którą ma być słychać, a nie tylko widać.
- Późny zwrot — odjazd kamery, który wywraca całą scenę do góry nogami.
Jeśli model to udźwignie, udźwignie prawie wszystko. Wejście dla wszystkich jest takie samo: ten sam prompt, ta sama klatka startowa, oceniam na oko — własne.
Wszystkie cztery klipy są po angielsku i to celowo. Angielski ciągną wszystkie modele, więc na nim najuczciwiej porównać je w równych warunkach: widać ruch, kamerę i dźwięk, a nie to, kto lepiej nauczył się języka. Rosyjski to osobna historia i wrócę do niej niżej.
Od razu uczciwie: to jedna komiczna scena, a generowanie jest stochastyczne — ten sam prompt za każdym razem daje trochę inny dubel. Więc to drogowskaz, a nie pomiar. Bardziej „na takim materiale wziąłbym właśnie ten” niż dokładne procenty.
Grok Imagine 1.5 — to, co testuję
Grok Imagine 1.5: 480p za $0.08/s, natywny dźwięk i lip-sync.
Najtańszy z czwórki: 480p za osiem centów na sekundę. Bit odegrał jak trzeba — policzek, odpowiedź drugiej rybki, ryk. Zwrot działa, ale pod jednym warunkiem: trzeba wprost wpisać suchy pokój, inaczej Grok otacza akwarium… kolejną wodą. Z kotwicami — półka, okno, zabawki — odjazd ląduje w prawdziwym pokoju.
Natywny dźwięk z lip-synciem od ręki, a cena śmieszna. Dla mnie to złoty środek — jakości wystarcza na większość zadań, a płacić za każdy projekt nie żal. Uważam, że na Groka można przejść z Klinga: zamyka to samo, taniej i ze swoimi plusami.
I osobno o rosyjskim, wybiegając naprzód: z całej czwórki Grok udźwiękawia go najlepiej — czysto, bez obcego akcentu. Do rosyjskich klipów to mój wybór.
Seedance 2.0 — najlepszy ruch
Seedance 2.0: najlepszy ruch na tym klipie, mocny angielski dźwięk.
Najlepszy ruch z całej czwórki na tym klipie — policzek, lecący robak, fizyka komedii. Detalizacja i emocje też ma mocniejsze niż Kling. Angielski dźwięk mocny. Ale ma dwie wady. Pierwsza: Seedance czasem rozumie prompt zbyt dosłownie i wtedy scena wygląda nienaturalnie — u Klinga jest z tym płynniej. Druga: z rosyjskim u Seedance już nie wszystko gra (więcej niżej). Kilku postaci osobnymi referencjami nie ustawisz — działa od klatki startowej. Sufit 15 sekund.
Pod względem obrazu wyprzedził tu Groka. Jeśli scena jest angielska i ważny jest w niej ruch — to pierwszy kandydat.
Kling v3 — kamera i multipostać
Kling v3: najlepsza kamera, kilka postaci, do 15 sekund — ale łzy wyszły takie sobie.
Najlepsza kamera i atmosfera z czwórki. Potrafi kilka postaci przez elements, przyjmuje swój format mowy [postać, ton], ciągnie do 15 sekund. Sam Kling jest już lekko przestarzały, ale jakościowo wciąż bardzo mocny. Minus — subtelne efekty wyszły mniej naturalnie: łzy wyglądały nie najlepiej. I rosyjski: formalnie go obsługuje, ale wymawia z wyraźnym obcym akcentem, do dubbingu się nie nadaje.
To ten model, po który sięgam dla kinowej kamery, kilku bohaterów albo klipu dłuższego niż dziesięć sekund.
Veo 3.1 (fast) — nie do tego
Veo 3.1 (fast): ruch 3/10, sufit 8 sekund, surowy filtr, najdroższy ze wszystkich.
Tu nie dowiózł. Ruch — 3/10, zwrot brzydki. Sufit 8 sekund, surowy filtr treści i najdroższy ze wszystkich. Do szybkiej komediowej akcji i dużych odjazdów kamery — pudło. Może swoje odbije na spokojnych realistycznych kadrach bez przemocy, ale to już inny materiał.
Gdzie ostatecznie wypada Grok
Jednego zwycięzcy nie ma — wszystko zależy od treści. Właśnie dlatego w pipelinie wybór modelu stoi na każdy projekt, a nie jest zaszyty jeden na wszystko. Gdzie wpadł Grok Imagine 1.5 i gdzie go wyprzedzają:
- Angielska komedia na jednego-dwóch bohaterów z kwestiami — Seedance albo Grok: najlepszy lip-sync i efekty. Seedance wygrywa detalizacją i emocjami (ale czasem bierze prompt zbyt dosłownie), Grok — tani i niezawodny domyślny wybór.
- Rosyjski dialog — Grok, i tu jest poza konkurencją: brzmi czysto. Kling i Seedance mają z rosyjskim problemy — wyraźny obcy akcent, do dubbingu się nie nadaje; Grok brzmi czysto.
- Kinowa kamera, atmosfera, dwie-trzy postacie, dłużej niż dziesięć sekund — Kling: lekko przestarzały, ale jakość wciąż mocna.
- Veo — nie pod szybką komedię i nie pod zwroty na odjeździe. Ma swoje scenariusze, nie te.
A ponad wszystkim — lekcja z pierwszej części: to wywołanie działa na każdym projekcie, więc patrzę na jakość za dolara, a nie na bezwzględne maksimum. Groka za osiem centów na sekundę w roli modelu bazowego trudno przegadać.
Dlaczego scena w ogóle wyszła
Najbardziej przydatny jest tu nawet nie sam model, a prompt, który zmusza każdy z nich do odegrania bitu. Oto, co z tego wyniosłem.
Policzek, a nie pocałunek. Model dopowiada dwuznaczność swoim priorem: dwie mordki obok siebie plus „przysuwa się do” — wychodzi pocałunek. Trzeba było wpisać wprost: „uderza w policzek, głowa odskakuje w bok, NIE pocałunek”. I jeszcze subtelniej — opis postaci ma być tylko o wyglądzie. Jedno „lekki uśmiech, spokojnie płynie” w kotwicy charakteru i wściekły policzek renderuje się jak czułe zbliżenie.
Druga postać musi reagować. Zagubione „Co?! Nikogo tu więcej nie ma!” niebieskiej rybki — to jest właśnie puenta, i to ona uruchamia zwrot. Milczący, nieruchomy drugi bohater wygląda na martwego.
Dźwięk trzeba nazwać słowem. „Ryczy na cały głos, wielkie kreskówkowe łzy”, a nie „płacze” — inaczej natywny dźwięk modelu może zamilknąć.
Jeden zwrot na dziesięć sekund. Kiedy wepchnąłem do klipu wszystko naraz — oskarżenie, policzek, łzy, akwarium, stół, pokój, okno, dom i przelatującego jastrzębia — model pomieszał kolejność: jastrząb znalazł się wewnątrz pokoju. Działa jeden późny odjazd w swoim oknie czasowym (5–10 s). Wielostopniowe zwroty to już kilka osobnych scen.
Zwrot potrzebuje suchych kotwic. Od podwodnej klatki startowej model domyślnie otacza akwarium kolejną wodą. Trzeba forsować: „woda TYLKO wewnątrz szkła, na zewnątrz sucha sypialnia” plus konkretne przedmioty — półka, zabawki, okno. Z kotwicami odjazd trafia do pokoju, bez nich zostaje pod wodą.
To stochastyka, przetaczaj. Na tym samym promptcie policzek wychodził raz wyraźnie, raz miałko, a raz w ogóle się nie zdarzał. Prompt zadaje rozkład, a nie wynik. Nie ma co gonić determinizmu sformułowaniami — prościej przetoczyć dubel. A jeśli potrzebna jest gwarancja (jak z przeciekającą pierwszą klatką z pierwszej części) — daje ją deterministyczny kod, a nie większy model.
W skrócie
Jeśli całkiem krótko — oto mój rozkład po aspektach (oceny 1–5, subiektywnie i na tym materiale):
| Aspekt | Grok | Seedance | Kling | Veo |
|---|---|---|---|---|
| Ruch | 4 | 5 | 4 | 2 |
| Detalizacja i emocje | 3 | 5 | 4 | 2 |
| Kamera | 3 | 4 | 5 | 2 |
| Naturalność | 4 | 3 | 5 | 2 |
| Dźwięk i lip-sync | 5 | 4 | 3 | 2 |
| Wielojęzyczność | 5 | 2 | 2 | — |
| Multipostać | — | — | ✓ | — |
| Maks. długość | 15s | 15s | 15s | 8s |
| Cena | tanio | średnio | średnio | drogo |
Więc co do Grok Imagine 1.5: dla mnie to złoty środek — natywny dźwięk, lip-sync, osiem centów na sekundę — i godna zamiana Klinga, ku której się skłaniam. Na angielskiej scenie Seedance wyprzedził go w ruchu i daje lepszą detalizację i emocje, ale czasem bierze prompt zbyt dosłownie, a cena Groka przeważa. Po rosyjsku Grok jest po prostu najlepszy: Kling i Seedance mają z nim problemy. Dalej już zależnie od treści: angielska komedia — Seedance; kamera i kilku bohaterów — Kling (lekko przestarzały, ale wciąż mocny); Veo na razie odłożyłem. Jednego zwycięzcy nie ma, dlatego wybór modelu w pipelinie jest przywiązany do projektu.