Grok Imagine 1.5: тестую нову відеомодель — досвід і порівняння

Вийшла Grok Imagine 1.5 — свіжа відеомодель xAI з рідним звуком і ліпсинком. Я одразу прогнав її через свій пайплайн на сцені, яку навмисно тримаю складною, і поставив поряд ті моделі, між якими зазвичай обираю: Seedance 2.0, Kling v3 і Veo 3.1. Далі — мій досвід з Grok і чесне порівняння.

Контекст із першої частини: там я обирав сценариста — виклик LLM, який перетворює ідею на шот-лист. Сценарист лише описує кадр словами; малює його наступний шар — відеомодель. Ось її я і тестую.

Сцена і як я її ганяв

Сцена дурнувата і навмисно складна. Дві мультяшні рибки в стилі Pixar: рожева дівчинка і синій хлопчик. Вона звинувачує його у зраді, б'є плавником по обличчю — у нього з рота вилітає черв'як, — і реве в три струмки. Камера від'їжджає, і виявляється, що вони вдвох у крихітному акваріумі на полиці в сухій кімнаті. Репліки англійською, звук і ліпсинк рідні для моделі, 10 секунд, вертикаль.

Чому саме вона. Ця сцена б'є одразу по кількох болючих місцях:

Діалог на два персонажі, де другий має відповісти, а не стояти стовпом.
Фізична дія, яку легко прочитати неправильно: ляпас проти поцілунку.
Емоція, яку має бути чутно, а не лише видно.
Пізній розворот — від'їзд камери, що перевертає всю сцену.

Якщо модель тягне це, вона тягне майже будь-що. Вхід для всіх однаковий: той самий промпт, той самий стартовий кадр, суджу на око — своє.

Усі чотири кліпи — англійською, і це навмисно. Англійську тягнуть усі моделі, тому нею найчесніше порівнювати їх у рівних умовах: видно рух, камеру і звук, а не те, хто краще вивчив мову. Російська — окрема історія, і до неї я повернуся нижче.

Одразу чесно: це одна комічна сцена, а генерація стохастична — той самий промпт щоразу дає трохи інший дубль. Тож це орієнтир, а не замір. Радше «на такому матеріалі я б узяв ось цю», ніж точні відсотки.

Grok Imagine 1.5 — те, що я тестую

Grok Imagine 1.5: 480p за $0.08/с, рідний звук і ліпсинк.

Найдешевша з чотирьох: 480p за вісім центів на секунду. Біт відіграла як треба — ляпас, відповідь другої рибки, рев. Розворот працює, але за однієї умови: треба явно прописати суху кімнату, інакше Grok оточує акваріум… ще водою. З якорями — полиця, вікно, іграшки — від'їзд приземляється в реальну кімнату.

Рідний звук з ліпсинком із коробки, і ціна смішна. Для мене це золота середина — якості вистачає на більшість задач, а платити за кожен проєкт не шкода. Я вважаю, що на Grok можна переходити з Kling: закриває те саме, дешевше і зі своїми плюсами.

І окремо про російську, забігаючи наперед: з усіх чотирьох Grok озвучує її найкраще — чисто, без чужого акценту. Для російських роликів це мій вибір.

Seedance 2.0 — найкращий рух

Seedance 2.0: найкращий рух на цьому кліпі, сильний англійський звук.

Найкращий рух з усіх чотирьох на цьому кліпі — ляпас, летючий черв'як, фізика комедії. Деталізація та емоції в нього теж сильніші, ніж у Kling. Англійський звук хороший. Але є два мінуси. Перший: Seedance іноді розуміє промпт надто буквально, і тоді сцена виглядає неприродно — у Kling із цим рівніше. Другий: з російською в Seedance уже не все ок (докладніше нижче). Кілька персонажів окремими посиланнями не задаси — працює від стартового кадру. Стеля 15 секунд.

За картинкою тут він Grok обійшов. Якщо сцена англійська і в ній важливий рух — це перший кандидат.

Kling v3 — камера і мультиперсонаж

Kling v3: найкраща камера, кілька персонажів, до 15 секунд — але сльози вийшли так собі.

Найкраща камера й атмосфера з чотирьох. Уміє кілька персонажів через elements, приймає свій формат мовлення [персонаж, тон] і тягне до 15 секунд. Сам Kling уже трохи застарів, але за якістю все ще дуже сильний. Мінус — тонкі ефекти вийшли менш природними: сльози виглядали не дуже. І російська: формально підтримує, але вимовляє з помітним нерідним акцентом, для озвучки не годиться.

Це та модель, до якої я йду по кінематографічну камеру, кількох героїв чи кліп довший за десять секунд.

Veo 3.1 (fast) — не для цього

Veo 3.1 (fast): рух 3/10, стеля 8 секунд, суворий фільтр, дорожча за всіх.

Тут не витягла. Рух — 3/10, розворот негарний. Стеля 8 секунд, суворий фільтр контенту, і дорожча за всіх. Для швидкого комедійного руху і великих від'їздів камери — повз. Можливо, своє вона візьме на спокійних реалістичних кадрах без насильства, але це вже інший матеріал.

Де в підсумку Grok

Єдиного переможця немає — усе залежить від контенту. Власне, тому в пайплайні вибір моделі стоїть на кожен проєкт, а не зашитий один на все. Куди лягла Grok Imagine 1.5 і де її обходять:

Англійська комедія на одного-двох героїв з репліками — Seedance або Grok: найкращий ліпсинк і ефекти. Seedance виграє за деталізацією та емоціями (але іноді буквалить), Grok — дешевий і надійний дефолт.
Російський діалог — Grok, тут він поза конкуренцією: звучить чисто. У Kling і Seedance з російською проблеми — помітний нерідний акцент, для озвучки не годиться.
Кінематографічна камера, атмосфера, два-три персонажі, довше за десять секунд — Kling: трохи застарів, але якість усе ще сильна.
Veo — не під швидку комедію і не під розвороти на від'їзді. У неї свої сценарії, не ці.

І поверх усього — урок із першої частини: цей виклик працює на кожному проєкті, тому я дивлюся на якість за долар, а не на абсолютний максимум. Grok за вісім центів на секунду в ролі базової моделі переспорити важко.

Чому сцена взагалі вийшла

Найкорисніше тут — навіть не самі моделі, а промпт, який змушує будь-яку з них відіграти біт. Ось що я виніс.

Ляпас, а не поцілунок. Модель добудовує неоднозначність своїм пріором: дві морди поруч плюс «тягнеться до» — виходить поцілунок. Довелося прописати прямо: «б'є по щоці, голова мотається вбік, НЕ поцілунок». І ще тонше — опис персонажа має бути тільки про зовнішність. Одне «легка усмішка, спокійно пливе» в анкорі характеру, і злий ляпас рендериться як ніжне зближення.

Другий персонаж зобов'язаний реагувати. Розгублене «Що?! Тут більше нікого немає!» синьої рибки — це і є панчлайн, і він же запускає розворот. Мовчазний нерухомий другий герой виглядає мертвим.

Звук треба назвати словом. «Реве на голос, великі мультяшні сльози», а не «плаче» — інакше рідний звук моделі може промовчати.

Один розворот на десять секунд. Коли я впхнув у кліп усе одразу — звинувачення, ляпас, сльози, акваріум, стіл, кімнату, вікно, дім і пролітаючого яструба, — модель переплутала порядок: яструб опинився всередині кімнати. Працює один пізній від'їзд у своєму вікні часу (5–10 с). Багатоступеневі розвороти — це вже кілька окремих сцен.

Розвороту потрібні сухі якорі. Від підводного стартового кадру модель за замовчуванням оточує акваріум ще водою. Доводиться форсувати: «вода ТІЛЬКИ всередині скла, зовні суха спальня» плюс конкретні предмети — полиця, іграшки, вікно. З якорями від'їзд потрапляє в кімнату, без них лишається під водою.

Це стохастика, перекочуй. На тому самому промпті ляпас виходив то чітким, то млявим, то взагалі не траплявся. Промпт задає розподіл, а не результат. Не треба наздоганяти детермінізм формулюваннями — простіше перекотити дубль. А потрібна гарантія (як із протеклим першим кадром із першої частини) — її дає детермінований код, а не модель побільше.

Коротко

Якщо зовсім коротко — ось мій розклад за аспектами (оцінки 1–5, суб'єктивно і на цьому матеріалі):

Аспект	Grok	Seedance	Kling	Veo
Рух	4	5	4	2
Деталізація та емоції	3	5	4	2
Камера	3	4	5	2
Природність	4	3	5	2
Звук і ліпсинк	5	4	3	2
Багатомовність	5	2	2	—
Мультиперсонаж	—	—	✓	—
Макс. довжина	15с	15с	15с	8с
Ціна	дешево	середньо	середньо	дорого

Тож по Grok Imagine 1.5: для мене це золота середина — рідний звук, ліпсинк, вісім центів на секунду — і гідна заміна Kling, до якої я схиляюся. На англійській сцені Seedance обійшов її за рухом і дає кращу деталізацію та емоції, але іноді надто буквалить, а ціна Grok переважує. Російською Grok просто найкращий: у Kling і Seedance із нею проблеми. Далі по контенту: англійська комедія — Seedance; камера і кілька героїв — Kling (трохи застарів, але все ще сильний); Veo поки відклав. Єдиного переможця немає, тому вибір моделі в пайплайні прив'язаний до проєкту.