Grok Imagine 1.5: тэстую новую відэамадэль — досвед і параўнанне
Выйшла Grok Imagine 1.5 — свежая відэамадэль xAI з родным гукам і ліпсінкам. Я адразу прагнаў яе праз свой пайплайн на сцэне, якую адмыслова трымаю складанай, і паставіў побач тыя мадэлі, паміж якімі звычайна выбіраю: Seedance 2.0, Kling v3 і Veo 3.1. Далей — мой досвед з Grok і сумленнае параўнанне.
Кантэкст з першай часткі: там я выбіраў сцэнарыста — выклік LLM, які ператварае ідэю ў шот-ліст. Сцэнарыст толькі апісвае кадр словамі; малюе яго наступны слой — відэамадэль. Вось яе я і тэстую.
Сцэна і як я яе ганяў
Сцэна дурная і знарок складаная. Дзве мультяшныя рыбкі ў стылі Pixar: ружовая дзяўчынка і сіні хлопчык. Яна абвінавачвае яго ў здрадзе, б'е плаўніком па твары — у яго з рота вылятае чарвяк, — і раве ў тры ручаі. Камера ад'язджае, і высвятляецца, што яны ўдваіх у малюпасенькім акварыуме на паліцы ў сухім пакоі. Рэплікі па-англійску, гук і ліпсінк родныя для мадэлі, 10 секунд, вертыкаль.
Чаму менавіта яна. Гэтая сцэна б'е адразу па некалькіх балючых месцах:
- Дыялог на два персанажы, дзе другі мусіць адказаць, а не стаяць слупом.
- Фізічнае дзеянне, якое лёгка прачытаць няправільна: поўха супраць пацалунка.
- Эмоцыя, якую мусіць быць чутна, а не толькі відаць.
- Позні разварот — ад'езд камеры, які перакульвае ўсю сцэну.
Калі мадэль цягне гэта, яна цягне амаль што заўгодна. Уваход для ўсіх аднолькавы: той самы промпт, той самы стартавы кадр, суджу на вока — свой.
Усе чатыры кліпы — на англійскай, і гэта знарок. Англійскую цягнуць усе мадэлі, таму на ёй сумленней за ўсё параўноўваць іх у роўных умовах: відаць рух, камеру і гук, а не тое, хто лепш вывучыў мову. Руская — асобная гісторыя, і да яе я вярнуся ніжэй.
Адразу сумленна: гэта адна камічная сцэна, а генерацыя стахастычная — адзін і той самы промпт кожны раз дае крыху іншы дубль. Так што гэта арыенцір, а не замер. Хутчэй «на такім матэрыяле я б узяў вось гэтую», чым дакладныя працэнты.
Grok Imagine 1.5 — тое, што я тэстую
Grok Imagine 1.5: 480p за $0.08/с, родны гук і ліпсінк.
Самая танная з чатырох: 480p за восем цэнтаў у секунду. Біт адыграла як трэба — поўха, адказ другой рыбкі, роў. Разварот працуе, але пры адной умове: трэба відавочна прапісаць сухі пакой, інакш Grok акружае акварыум… яшчэ вадой. З якарамі — паліца, акно, цацкі — ад'езд прызямляецца ў рэальны пакой.
Родны гук з ліпсінкам з скрынкі, і цана смешная. Для мяне гэта залатая сярэдзіна — якасці хапае на большасць задач, а плаціць за кожны праект не шкада. Я лічу, што на Grok можна пераходзіць з Kling: закрывае тое самае, танней і са сваімі плюсамі.
І асобна пра рускую, забягаючы наперад: з усіх чатырох Grok агучвае яе лепш за ўсіх — чыста, без чужога акцэнту. Для рускіх ролікаў гэта мой выбар.
Seedance 2.0 — лепшы рух
Seedance 2.0: лепшы рух на гэтым кліпе, моцны англійскі гук.
Лепшы рух з усіх чатырох на гэтым кліпе — поўха, чарвяк у палёце, фізіка камедыі. Дэталізацыя і эмоцыі ў яго таксама мацнейшыя, чым у Kling. Англійскі гук добры. Але ёсць два мінусы. Першы: Seedance часам разумее промпт занадта літаральна, і тады сцэна выглядае ненатуральна — у Kling з гэтым раўней. Другі: з рускай у Seedance ужо не ўсё ок (падрабязней ніжэй). Некалькі персанажаў асобнымі спасылкамі не задасі — працуе ад стартавага кадра. Столь — 15 секунд.
Па карцінцы тут ён Grok абышоў. Калі сцэна англійская і ў ёй важны рух — гэта першы кандыдат.
Kling v3 — камера і мультыперсанаж
Kling v3: лепшая камера, некалькі персанажаў, да 15 секунд — але слёзы выйшлі так сабе.
Лепшая камера і атмасфера з чатырох. Умее некалькі персанажаў праз elements, прымае свой фармат маўлення [персанаж, тон] і цягне да 15 секунд. Сам Kling ужо крыху ўстарэў, але па якасці ўсё яшчэ вельмі моцны. Мінус — тонкія эфекты выйшлі менш натуральнымі: слёзы выглядалі не вельмі. І руская: фармальна падтрымлівае, але вымаўляе з прыкметным чужым акцэнтам, для агучкі не падыходзіць.
Гэта тая мадэль, да якой я іду па кінематаграфічную камеру, некалькі герояў ці кліп даўжэйшы за дзесяць секунд.
Veo 3.1 (fast) — не для гэтага
Veo 3.1 (fast): рух 3/10, столь 8 секунд, строгі фільтр, даражэй за ўсіх.
Тут не выцягнула. Рух — 3/10, разварот непрыгожы. Столь 8 секунд, строгі фільтр кантэнту, і даражэй за ўсіх. Для хуткай камедыйнай руханіны і вялікіх ад'ездаў камеры — міма. Магчыма, сваё яна возьме на спакойных рэалістычных кадрах без гвалту, але гэта ўжо іншы матэрыял.
Дзе ў выніку Grok
Адзінага пераможцы няма — усё залежыць ад кантэнту. Уласна, таму ў пайплайне выбар мадэлі стаіць на кожны праект, а не зашыты адзін на ўсё. Куды лягла Grok Imagine 1.5 і дзе яе абыходзяць:
- Англійская камедыя на аднаго-двух герояў з рэплікамі — Seedance ці Grok: лепшы ліпсінк і эфекты. Seedance выйграе па дэталізацыі і эмоцыях (але часам літараліць), Grok — танны і надзейны дэфолт.
- Рускі дыялог — Grok, тут ён па-за канкурэнцыяй: гучыць чыста. У Kling і Seedance з рускай праблемы — прыкметны чужы акцэнт, для агучкі не падыходзіць.
- Кінематаграфічная камера, атмасфера, два-тры персанажы, даўжэй за дзесяць секунд — Kling: крыху ўстарэў, але якасць усё яшчэ моцная.
- Veo — не пад хуткую камедыю і не пад развароты на ад'ездзе. У яе свае сцэнарыі, не гэтыя.
І паверх усяго — урок з першай часткі: гэты выклік працуе на кожным праекце, таму я гляджу на якасць за долар, а не на абсалютны максімум. Grok за восем цэнтаў у секунду ў ролі базавай мадэлі пераспрачаць цяжка.
Чаму сцэна наогул атрымалася
Самае карыснае тут — нават не самі мадэлі, а промпт, які прымушае любую з іх адыграць біт. Вось што я вынес.
Поўха, а не пацалунак. Мадэль дабудоўвае неадназначнасць сваім прыёрам: дзве морды побач плюс «цягнецца да» — выходзіць пацалунак. Давялося прапісаць напрост: «б'е па шчацэ, галава матляецца ўбок, НЕ пацалунак». І яшчэ танчэй — апісанне персанажа мусіць быць толькі пра знешнасць. Адно «лёгкая ўсмешка, спакойна плыве» ў анкеры характару, і злая поўха рэндзерыцца як пяшчотнае збліжэнне.
Другі персанаж абавязаны рэагаваць. Разгубленае «Што?! Тут больш нікога няма!» сіняй рыбкі — гэта і ёсць панчлайн, і ён жа запускае разварот. Маўклівы нерухомы другі герой выглядае мёртвым.
Гук трэба назваць словам. «Раве ў голас, буйныя мультяшныя слёзы», а не «плача» — інакш родны гук мадэлі можа прамаўчаць.
Адзін разварот на дзесяць секунд. Калі я ўпіхнуў у кліп усё адразу — абвінавачанне, поўху, слёзы, акварыум, стол, пакой, акно, дом і ястраба, які пралятае, — мадэль зблытала парадак: ястраб апынуўся ўнутры пакоя. Працуе адзін позні ад'езд у сваім акне часу (5–10 с). Шматступеньчатыя развароты — гэта ўжо некалькі асобных сцэн.
Развароту патрэбныя сухія якары. Ад падводнага стартавага кадра мадэль па змаўчанні акружае акварыум яшчэ вадой. Даводзіцца форсаваць: «вада ТОЛЬКІ ўнутры шкла, звонку сухая спальня» плюс канкрэтныя прадметы — паліца, цацкі, акно. З якарамі ад'езд трапляе ў пакой, без іх застаецца пад вадой.
Гэта стахастыка, перакочвай. На адным і тым самым промпце поўха выходзіла то выразнай, то вялай, то наогул не здаралася. Промпт задае размеркаванне, а не вынік. Не трэба даганяць дэтэрмінізм фармулёўкамі — прасцей перакаціць дубль. А патрэбна гарантыя (як з працёкшым першым кадрам з першай часткі) — яе дае дэтэрмінаваны код, а не мадэль большая.
Коратка
Калі зусім коратка — вось мой расклад па аспектах (адзнакі 1–5, суб'ектыўна і на гэтым матэрыяле):
| Аспект | Grok | Seedance | Kling | Veo |
|---|---|---|---|---|
| Рух | 4 | 5 | 4 | 2 |
| Дэталізацыя і эмоцыі | 3 | 5 | 4 | 2 |
| Камера | 3 | 4 | 5 | 2 |
| Натуральнасць | 4 | 3 | 5 | 2 |
| Гук і ліпсінк | 5 | 4 | 3 | 2 |
| Шматмоўнасць | 5 | 2 | 2 | — |
| Мультыперсанаж | — | — | ✓ | — |
| Макс. даўжыня | 15с | 15с | 15с | 8с |
| Цана | танна | сярэдне | сярэдне | дорага |
Так што па Grok Imagine 1.5: для мяне гэта залатая сярэдзіна — родны гук, ліпсінк, восем цэнтаў у секунду — і годная замена Kling, да якой я схіляюся. На англійскай сцэне Seedance абышоў яе па руху і дае лепш дэталізацыю і эмоцыі, але часам занадта літараліць, а цана Grok пераважвае. На рускай Grok проста лепшы: у Kling і Seedance з ёй праблемы. Далей па кантэнце: англійская камедыя — Seedance; камера і некалькі герояў — Kling (крыху ўстарэў, але ўсё яшчэ моцны); Veo пакуль адклаў. Адзінага пераможцы няма, таму выбар мадэлі ў пайплайне прывязаны да праекта.