← Назад Harupa
2026-06-18RU EN UA BY PL

Grok Imagine 1.5: тэстую новую відэамадэль — досвед і параўнанне

Выйшла Grok Imagine 1.5 — свежая відэамадэль xAI з родным гукам і ліпсінкам. Я адразу прагнаў яе праз свой пайплайн на сцэне, якую адмыслова трымаю складанай, і паставіў побач тыя мадэлі, паміж якімі звычайна выбіраю: Seedance 2.0, Kling v3 і Veo 3.1. Далей — мой досвед з Grok і сумленнае параўнанне.

Кантэкст з першай часткі: там я выбіраў сцэнарыста — выклік LLM, які ператварае ідэю ў шот-ліст. Сцэнарыст толькі апісвае кадр словамі; малюе яго наступны слой — відэамадэль. Вось яе я і тэстую.

Сцэна і як я яе ганяў

Сцэна дурная і знарок складаная. Дзве мультяшныя рыбкі ў стылі Pixar: ружовая дзяўчынка і сіні хлопчык. Яна абвінавачвае яго ў здрадзе, б'е плаўніком па твары — у яго з рота вылятае чарвяк, — і раве ў тры ручаі. Камера ад'язджае, і высвятляецца, што яны ўдваіх у малюпасенькім акварыуме на паліцы ў сухім пакоі. Рэплікі па-англійску, гук і ліпсінк родныя для мадэлі, 10 секунд, вертыкаль.

Чаму менавіта яна. Гэтая сцэна б'е адразу па некалькіх балючых месцах:

Калі мадэль цягне гэта, яна цягне амаль што заўгодна. Уваход для ўсіх аднолькавы: той самы промпт, той самы стартавы кадр, суджу на вока — свой.

Усе чатыры кліпы — на англійскай, і гэта знарок. Англійскую цягнуць усе мадэлі, таму на ёй сумленней за ўсё параўноўваць іх у роўных умовах: відаць рух, камеру і гук, а не тое, хто лепш вывучыў мову. Руская — асобная гісторыя, і да яе я вярнуся ніжэй.

Адразу сумленна: гэта адна камічная сцэна, а генерацыя стахастычная — адзін і той самы промпт кожны раз дае крыху іншы дубль. Так што гэта арыенцір, а не замер. Хутчэй «на такім матэрыяле я б узяў вось гэтую», чым дакладныя працэнты.

Grok Imagine 1.5 — тое, што я тэстую

Grok Imagine 1.5: 480p за $0.08/с, родны гук і ліпсінк.

Самая танная з чатырох: 480p за восем цэнтаў у секунду. Біт адыграла як трэба — поўха, адказ другой рыбкі, роў. Разварот працуе, але пры адной умове: трэба відавочна прапісаць сухі пакой, інакш Grok акружае акварыум… яшчэ вадой. З якарамі — паліца, акно, цацкі — ад'езд прызямляецца ў рэальны пакой.

Родны гук з ліпсінкам з скрынкі, і цана смешная. Для мяне гэта залатая сярэдзіна — якасці хапае на большасць задач, а плаціць за кожны праект не шкада. Я лічу, што на Grok можна пераходзіць з Kling: закрывае тое самае, танней і са сваімі плюсамі.

І асобна пра рускую, забягаючы наперад: з усіх чатырох Grok агучвае яе лепш за ўсіх — чыста, без чужога акцэнту. Для рускіх ролікаў гэта мой выбар.

Seedance 2.0 — лепшы рух

Seedance 2.0: лепшы рух на гэтым кліпе, моцны англійскі гук.

Лепшы рух з усіх чатырох на гэтым кліпе — поўха, чарвяк у палёце, фізіка камедыі. Дэталізацыя і эмоцыі ў яго таксама мацнейшыя, чым у Kling. Англійскі гук добры. Але ёсць два мінусы. Першы: Seedance часам разумее промпт занадта літаральна, і тады сцэна выглядае ненатуральна — у Kling з гэтым раўней. Другі: з рускай у Seedance ужо не ўсё ок (падрабязней ніжэй). Некалькі персанажаў асобнымі спасылкамі не задасі — працуе ад стартавага кадра. Столь — 15 секунд.

Па карцінцы тут ён Grok абышоў. Калі сцэна англійская і ў ёй важны рух — гэта першы кандыдат.

Kling v3 — камера і мультыперсанаж

Kling v3: лепшая камера, некалькі персанажаў, да 15 секунд — але слёзы выйшлі так сабе.

Лепшая камера і атмасфера з чатырох. Умее некалькі персанажаў праз elements, прымае свой фармат маўлення [персанаж, тон] і цягне да 15 секунд. Сам Kling ужо крыху ўстарэў, але па якасці ўсё яшчэ вельмі моцны. Мінус — тонкія эфекты выйшлі менш натуральнымі: слёзы выглядалі не вельмі. І руская: фармальна падтрымлівае, але вымаўляе з прыкметным чужым акцэнтам, для агучкі не падыходзіць.

Гэта тая мадэль, да якой я іду па кінематаграфічную камеру, некалькі герояў ці кліп даўжэйшы за дзесяць секунд.

Veo 3.1 (fast) — не для гэтага

Veo 3.1 (fast): рух 3/10, столь 8 секунд, строгі фільтр, даражэй за ўсіх.

Тут не выцягнула. Рух — 3/10, разварот непрыгожы. Столь 8 секунд, строгі фільтр кантэнту, і даражэй за ўсіх. Для хуткай камедыйнай руханіны і вялікіх ад'ездаў камеры — міма. Магчыма, сваё яна возьме на спакойных рэалістычных кадрах без гвалту, але гэта ўжо іншы матэрыял.

Дзе ў выніку Grok

Адзінага пераможцы няма — усё залежыць ад кантэнту. Уласна, таму ў пайплайне выбар мадэлі стаіць на кожны праект, а не зашыты адзін на ўсё. Куды лягла Grok Imagine 1.5 і дзе яе абыходзяць:

І паверх усяго — урок з першай часткі: гэты выклік працуе на кожным праекце, таму я гляджу на якасць за долар, а не на абсалютны максімум. Grok за восем цэнтаў у секунду ў ролі базавай мадэлі пераспрачаць цяжка.

Чаму сцэна наогул атрымалася

Самае карыснае тут — нават не самі мадэлі, а промпт, які прымушае любую з іх адыграць біт. Вось што я вынес.

Поўха, а не пацалунак. Мадэль дабудоўвае неадназначнасць сваім прыёрам: дзве морды побач плюс «цягнецца да» — выходзіць пацалунак. Давялося прапісаць напрост: «б'е па шчацэ, галава матляецца ўбок, НЕ пацалунак». І яшчэ танчэй — апісанне персанажа мусіць быць толькі пра знешнасць. Адно «лёгкая ўсмешка, спакойна плыве» ў анкеры характару, і злая поўха рэндзерыцца як пяшчотнае збліжэнне.

Другі персанаж абавязаны рэагаваць. Разгубленае «Што?! Тут больш нікога няма!» сіняй рыбкі — гэта і ёсць панчлайн, і ён жа запускае разварот. Маўклівы нерухомы другі герой выглядае мёртвым.

Гук трэба назваць словам. «Раве ў голас, буйныя мультяшныя слёзы», а не «плача» — інакш родны гук мадэлі можа прамаўчаць.

Адзін разварот на дзесяць секунд. Калі я ўпіхнуў у кліп усё адразу — абвінавачанне, поўху, слёзы, акварыум, стол, пакой, акно, дом і ястраба, які пралятае, — мадэль зблытала парадак: ястраб апынуўся ўнутры пакоя. Працуе адзін позні ад'езд у сваім акне часу (5–10 с). Шматступеньчатыя развароты — гэта ўжо некалькі асобных сцэн.

Развароту патрэбныя сухія якары. Ад падводнага стартавага кадра мадэль па змаўчанні акружае акварыум яшчэ вадой. Даводзіцца форсаваць: «вада ТОЛЬКІ ўнутры шкла, звонку сухая спальня» плюс канкрэтныя прадметы — паліца, цацкі, акно. З якарамі ад'езд трапляе ў пакой, без іх застаецца пад вадой.

Гэта стахастыка, перакочвай. На адным і тым самым промпце поўха выходзіла то выразнай, то вялай, то наогул не здаралася. Промпт задае размеркаванне, а не вынік. Не трэба даганяць дэтэрмінізм фармулёўкамі — прасцей перакаціць дубль. А патрэбна гарантыя (як з працёкшым першым кадрам з першай часткі) — яе дае дэтэрмінаваны код, а не мадэль большая.

Коратка

Калі зусім коратка — вось мой расклад па аспектах (адзнакі 1–5, суб'ектыўна і на гэтым матэрыяле):

АспектGrokSeedanceKlingVeo
Рух4542
Дэталізацыя і эмоцыі3542
Камера3452
Натуральнасць4352
Гук і ліпсінк5432
Шматмоўнасць522
Мультыперсанаж
Макс. даўжыня15с15с15с
Цанатаннасярэднесярэднедорага

Так што па Grok Imagine 1.5: для мяне гэта залатая сярэдзіна — родны гук, ліпсінк, восем цэнтаў у секунду — і годная замена Kling, да якой я схіляюся. На англійскай сцэне Seedance абышоў яе па руху і дае лепш дэталізацыю і эмоцыі, але часам занадта літараліць, а цана Grok пераважвае. На рускай Grok проста лепшы: у Kling і Seedance з ёй праблемы. Далей па кантэнце: англійская камедыя — Seedance; камера і некалькі герояў — Kling (крыху ўстарэў, але ўсё яшчэ моцны); Veo пакуль адклаў. Адзінага пераможцы няма, таму выбар мадэлі ў пайплайне прывязаны да праекта.