Grok Imagine 1.5: тестую нову відеомодель — досвід і порівняння
Вийшла Grok Imagine 1.5 — свіжа відеомодель xAI з рідним звуком і ліпсинком. Я одразу прогнав її через свій пайплайн на сцені, яку навмисно тримаю складною, і поставив поряд ті моделі, між якими зазвичай обираю: Seedance 2.0, Kling v3 і Veo 3.1. Далі — мій досвід з Grok і чесне порівняння.
Контекст із першої частини: там я обирав сценариста — виклик LLM, який перетворює ідею на шот-лист. Сценарист лише описує кадр словами; малює його наступний шар — відеомодель. Ось її я і тестую.
Сцена і як я її ганяв
Сцена дурнувата і навмисно складна. Дві мультяшні рибки в стилі Pixar: рожева дівчинка і синій хлопчик. Вона звинувачує його у зраді, б'є плавником по обличчю — у нього з рота вилітає черв'як, — і реве в три струмки. Камера від'їжджає, і виявляється, що вони вдвох у крихітному акваріумі на полиці в сухій кімнаті. Репліки англійською, звук і ліпсинк рідні для моделі, 10 секунд, вертикаль.
Чому саме вона. Ця сцена б'є одразу по кількох болючих місцях:
- Діалог на два персонажі, де другий має відповісти, а не стояти стовпом.
- Фізична дія, яку легко прочитати неправильно: ляпас проти поцілунку.
- Емоція, яку має бути чутно, а не лише видно.
- Пізній розворот — від'їзд камери, що перевертає всю сцену.
Якщо модель тягне це, вона тягне майже будь-що. Вхід для всіх однаковий: той самий промпт, той самий стартовий кадр, суджу на око — своє.
Усі чотири кліпи — англійською, і це навмисно. Англійську тягнуть усі моделі, тому нею найчесніше порівнювати їх у рівних умовах: видно рух, камеру і звук, а не те, хто краще вивчив мову. Російська — окрема історія, і до неї я повернуся нижче.
Одразу чесно: це одна комічна сцена, а генерація стохастична — той самий промпт щоразу дає трохи інший дубль. Тож це орієнтир, а не замір. Радше «на такому матеріалі я б узяв ось цю», ніж точні відсотки.
Grok Imagine 1.5 — те, що я тестую
Grok Imagine 1.5: 480p за $0.08/с, рідний звук і ліпсинк.
Найдешевша з чотирьох: 480p за вісім центів на секунду. Біт відіграла як треба — ляпас, відповідь другої рибки, рев. Розворот працює, але за однієї умови: треба явно прописати суху кімнату, інакше Grok оточує акваріум… ще водою. З якорями — полиця, вікно, іграшки — від'їзд приземляється в реальну кімнату.
Рідний звук з ліпсинком із коробки, і ціна смішна. Для мене це золота середина — якості вистачає на більшість задач, а платити за кожен проєкт не шкода. Я вважаю, що на Grok можна переходити з Kling: закриває те саме, дешевше і зі своїми плюсами.
І окремо про російську, забігаючи наперед: з усіх чотирьох Grok озвучує її найкраще — чисто, без чужого акценту. Для російських роликів це мій вибір.
Seedance 2.0 — найкращий рух
Seedance 2.0: найкращий рух на цьому кліпі, сильний англійський звук.
Найкращий рух з усіх чотирьох на цьому кліпі — ляпас, летючий черв'як, фізика комедії. Деталізація та емоції в нього теж сильніші, ніж у Kling. Англійський звук хороший. Але є два мінуси. Перший: Seedance іноді розуміє промпт надто буквально, і тоді сцена виглядає неприродно — у Kling із цим рівніше. Другий: з російською в Seedance уже не все ок (докладніше нижче). Кілька персонажів окремими посиланнями не задаси — працює від стартового кадру. Стеля 15 секунд.
За картинкою тут він Grok обійшов. Якщо сцена англійська і в ній важливий рух — це перший кандидат.
Kling v3 — камера і мультиперсонаж
Kling v3: найкраща камера, кілька персонажів, до 15 секунд — але сльози вийшли так собі.
Найкраща камера й атмосфера з чотирьох. Уміє кілька персонажів через elements, приймає свій формат мовлення [персонаж, тон] і тягне до 15 секунд. Сам Kling уже трохи застарів, але за якістю все ще дуже сильний. Мінус — тонкі ефекти вийшли менш природними: сльози виглядали не дуже. І російська: формально підтримує, але вимовляє з помітним нерідним акцентом, для озвучки не годиться.
Це та модель, до якої я йду по кінематографічну камеру, кількох героїв чи кліп довший за десять секунд.
Veo 3.1 (fast) — не для цього
Veo 3.1 (fast): рух 3/10, стеля 8 секунд, суворий фільтр, дорожча за всіх.
Тут не витягла. Рух — 3/10, розворот негарний. Стеля 8 секунд, суворий фільтр контенту, і дорожча за всіх. Для швидкого комедійного руху і великих від'їздів камери — повз. Можливо, своє вона візьме на спокійних реалістичних кадрах без насильства, але це вже інший матеріал.
Де в підсумку Grok
Єдиного переможця немає — усе залежить від контенту. Власне, тому в пайплайні вибір моделі стоїть на кожен проєкт, а не зашитий один на все. Куди лягла Grok Imagine 1.5 і де її обходять:
- Англійська комедія на одного-двох героїв з репліками — Seedance або Grok: найкращий ліпсинк і ефекти. Seedance виграє за деталізацією та емоціями (але іноді буквалить), Grok — дешевий і надійний дефолт.
- Російський діалог — Grok, тут він поза конкуренцією: звучить чисто. У Kling і Seedance з російською проблеми — помітний нерідний акцент, для озвучки не годиться.
- Кінематографічна камера, атмосфера, два-три персонажі, довше за десять секунд — Kling: трохи застарів, але якість усе ще сильна.
- Veo — не під швидку комедію і не під розвороти на від'їзді. У неї свої сценарії, не ці.
І поверх усього — урок із першої частини: цей виклик працює на кожному проєкті, тому я дивлюся на якість за долар, а не на абсолютний максимум. Grok за вісім центів на секунду в ролі базової моделі переспорити важко.
Чому сцена взагалі вийшла
Найкорисніше тут — навіть не самі моделі, а промпт, який змушує будь-яку з них відіграти біт. Ось що я виніс.
Ляпас, а не поцілунок. Модель добудовує неоднозначність своїм пріором: дві морди поруч плюс «тягнеться до» — виходить поцілунок. Довелося прописати прямо: «б'є по щоці, голова мотається вбік, НЕ поцілунок». І ще тонше — опис персонажа має бути тільки про зовнішність. Одне «легка усмішка, спокійно пливе» в анкорі характеру, і злий ляпас рендериться як ніжне зближення.
Другий персонаж зобов'язаний реагувати. Розгублене «Що?! Тут більше нікого немає!» синьої рибки — це і є панчлайн, і він же запускає розворот. Мовчазний нерухомий другий герой виглядає мертвим.
Звук треба назвати словом. «Реве на голос, великі мультяшні сльози», а не «плаче» — інакше рідний звук моделі може промовчати.
Один розворот на десять секунд. Коли я впхнув у кліп усе одразу — звинувачення, ляпас, сльози, акваріум, стіл, кімнату, вікно, дім і пролітаючого яструба, — модель переплутала порядок: яструб опинився всередині кімнати. Працює один пізній від'їзд у своєму вікні часу (5–10 с). Багатоступеневі розвороти — це вже кілька окремих сцен.
Розвороту потрібні сухі якорі. Від підводного стартового кадру модель за замовчуванням оточує акваріум ще водою. Доводиться форсувати: «вода ТІЛЬКИ всередині скла, зовні суха спальня» плюс конкретні предмети — полиця, іграшки, вікно. З якорями від'їзд потрапляє в кімнату, без них лишається під водою.
Це стохастика, перекочуй. На тому самому промпті ляпас виходив то чітким, то млявим, то взагалі не траплявся. Промпт задає розподіл, а не результат. Не треба наздоганяти детермінізм формулюваннями — простіше перекотити дубль. А потрібна гарантія (як із протеклим першим кадром із першої частини) — її дає детермінований код, а не модель побільше.
Коротко
Якщо зовсім коротко — ось мій розклад за аспектами (оцінки 1–5, суб'єктивно і на цьому матеріалі):
| Аспект | Grok | Seedance | Kling | Veo |
|---|---|---|---|---|
| Рух | 4 | 5 | 4 | 2 |
| Деталізація та емоції | 3 | 5 | 4 | 2 |
| Камера | 3 | 4 | 5 | 2 |
| Природність | 4 | 3 | 5 | 2 |
| Звук і ліпсинк | 5 | 4 | 3 | 2 |
| Багатомовність | 5 | 2 | 2 | — |
| Мультиперсонаж | — | — | ✓ | — |
| Макс. довжина | 15с | 15с | 15с | 8с |
| Ціна | дешево | середньо | середньо | дорого |
Тож по Grok Imagine 1.5: для мене це золота середина — рідний звук, ліпсинк, вісім центів на секунду — і гідна заміна Kling, до якої я схиляюся. На англійській сцені Seedance обійшов її за рухом і дає кращу деталізацію та емоції, але іноді надто буквалить, а ціна Grok переважує. Російською Grok просто найкращий: у Kling і Seedance із нею проблеми. Далі по контенту: англійська комедія — Seedance; камера і кілька героїв — Kling (трохи застарів, але все ще сильний); Veo поки відклав. Єдиного переможця немає, тому вибір моделі в пайплайні прив'язаний до проєкту.