Grok Imagine 1.5: тестирую новую видеомодель — опыт и сравнение
Вышла Grok Imagine 1.5 — свежая видеомодель xAI с родным звуком и липсинком. Я сразу прогнал её через свой пайплайн на сцене, которую специально держу сложной, и поставил рядом те модели, между которыми обычно выбираю: Seedance 2.0, Kling v3 и Veo 3.1. Дальше — мой опыт с Grok и честное сравнение.
Контекст из первой части: там я выбирал сценариста — вызов LLM, который превращает идею в шот-лист. Сценарист только описывает кадр словами; рисует его следующий слой — видеомодель. Вот её я и тестирую.
Сцена и как я её гонял
Сцена дурацкая и нарочно сложная. Две мультяшные рыбки в стиле Pixar: розовая девочка и синий мальчик. Она обвиняет его в измене, бьёт плавником по лицу — у него изо рта вылетает червяк, — и ревёт в три ручья. Камера отъезжает, и оказывается, что они вдвоём в крошечном аквариуме на полке в сухой комнате. Реплики на английском, звук и липсинк родные для модели, 10 секунд, вертикаль.
Почему именно она. Эта сцена бьёт сразу по нескольким больным местам:
- Диалог на два персонажа, где второй должен ответить, а не стоять столбом.
- Физическое действие, которое легко прочитать неправильно: пощёчина против поцелуя.
- Эмоция, которую должно быть слышно, а не только видно.
- Поздний разворот — отъезд камеры, который переворачивает всю сцену.
Если модель тянет это, она тянет почти что угодно. Вход для всех одинаковый: тот же промпт, тот же стартовый кадр, сужу на глаз — свой.
Все четыре клипа — на английском, и это намеренно. Английский тянут все модели, поэтому на нём честнее всего сравнивать их в равных условиях: видно движение, камеру и звук, а не то, кто лучше выучил язык. Русский — отдельная история, и к ней я вернусь ниже.
И сразу честно: это одна комичная сцена, а генерация стохастична — один и тот же промпт каждый раз даёт чуть другой дубль. Так что это ориентир, а не замер. Скорее «на таком материале я бы взял вот эту», чем точные проценты.
Grok Imagine 1.5 — то, что я тестирую
Grok Imagine 1.5: 480p за $0.08/с, родной звук и липсинк.
Самая дешёвая из четырёх: 480p за восемь центов в секунду. Бит отыграла как надо — пощёчина, ответ второй рыбки, рёв. Разворот работает, но при одном условии: нужно явно прописать сухую комнату, иначе Grok окружает аквариум… ещё водой. С якорями — полка, окно, игрушки — отъезд приземляется в реальную комнату.
Родной звук с липсинком из коробки, и цена смешная. Для меня это золотая середина — качества хватает на большинство задач, а платить за каждый проект не жалко. Я считаю, что на Grok можно переходить с Kling: закрывает то же самое, дешевле и со своими плюсами.
И отдельно про русский, забегая вперёд: из всех четырёх Grok озвучивает его лучше всех — чисто, без чужого акцента. Для русских роликов это мой выбор.
Seedance 2.0 — лучшее движение
Seedance 2.0: лучшее движение на этом клипе, сильный английский звук.
Лучшее движение из всех четырёх на этом клипе — пощёчина, летящий червяк, физика комедии. Детализация и эмоции у него тоже сильнее, чем у Kling. Английский звук хороший. Но есть два минуса. Первый: Seedance иногда понимает промпт слишком буквально, и тогда сцена выглядит неестественно — у Kling с этим ровнее. Второй: с русским у Seedance уже не всё ок (подробнее ниже). Несколько персонажей отдельными ссылками не задаёшь — работает от стартового кадра. Потолок 15 секунд.
По картинке здесь он Grok обошёл. Если сцена английская и в ней важно движение — это первый кандидат.
Kling v3 — камера и мультиперсонаж
Kling v3: лучшая камера, несколько персонажей, до 15 секунд — но слёзы вышли так себе.
Лучшая камера и атмосфера из четырёх. Умеет несколько персонажей через elements, принимает свой формат речи [персонаж, тон] и тянет до 15 секунд. Сам Kling уже чуть устарел, но по качеству всё ещё очень силён. Минус — тонкие эффекты вышли менее естественными: слёзы выглядели не очень. И русский: формально поддерживает, но произносит с заметным неродным акцентом, для озвучки не годится.
Это та модель, к которой я иду за кинематографичной камерой, несколькими героями или клипом длиннее десяти секунд.
Veo 3.1 (fast) — не для этого
Veo 3.1 (fast): движение 3/10, потолок 8 секунд, строгий фильтр, дороже всех.
Тут не вывезла. Движение — 3/10, разворот некрасивый. Потолок 8 секунд, строгий фильтр контента, и дороже всех. Для быстрой комедийной движухи и больших отъездов камеры — мимо. Возможно, своё она возьмёт на спокойных реалистичных кадрах без насилия, но это уже другой материал.
Где в итоге Grok
Единого победителя нет — всё зависит от контента. Собственно, поэтому в пайплайне выбор модели стоит на каждый проект, а не зашит один на всё. Куда легла Grok Imagine 1.5 и где её обходят:
- Английская комедия на одного-двух героев с репликами — Seedance или Grok: лучший липсинк и эффекты. Seedance выигрывает по детализации и эмоциям (но иногда буквалит), Grok — дешёвый и надёжный дефолт.
- Русский диалог — Grok, тут он вне конкуренции: звучит чисто. У Kling и Seedance с русским проблемы — заметный неродной акцент, для озвучки не годится.
- Кинематографичная камера, атмосфера, два-три персонажа, длиннее десяти секунд — Kling: чуть устарел, но качество всё ещё сильное.
- Veo — не под быструю комедию и не под развороты на отъезде. У неё свои сценарии, не эти.
И поверх всего — урок из первой части: этот вызов работает на каждом проекте, поэтому я смотрю на качество за доллар, а не на абсолютный максимум. Grok за восемь центов в секунду в роли базовой модели переспорить трудно.
Почему сцена вообще получилась
Самое полезное тут — даже не сами модели, а промпт, который заставляет любую из них отыграть бит. Вот что я вынес.
Пощёчина, а не поцелуй. Модель достраивает неоднозначность своим приором: две морды рядом плюс «тянется к» — выходит поцелуй. Пришлось прописать прямо: «бьёт по щеке, голова мотается вбок, НЕ поцелуй». И ещё тоньше — описание персонажа должно быть только про внешность. Одно «лёгкая улыбка, спокойно плывёт» в анкоре характера, и злая пощёчина рендерится как нежное сближение.
Второй персонаж обязан реагировать. Растерянное «Что?! Тут больше никого нет!» синей рыбки — это и есть панчлайн, и он же запускает разворот. Молчащий неподвижный второй герой выглядит мёртвым.
Звук надо назвать словом. «Ревёт в голос, крупные мультяшные слёзы», а не «плачет» — иначе родной звук модели может промолчать.
Один разворот на десять секунд. Когда я впихнул в клип всё сразу — обвинение, пощёчину, слёзы, аквариум, стол, комнату, окно, дом и пролетающего ястреба, — модель перепутала порядок: ястреб оказался внутри комнаты. Работает один поздний отъезд в своём окне времени (5–10 с). Многоступенчатые развороты — это уже несколько отдельных сцен.
Развороту нужны сухие якоря. От подводного стартового кадра модель по умолчанию окружает аквариум ещё водой. Приходится форсировать: «вода ТОЛЬКО внутри стекла, снаружи сухая спальня» плюс конкретные предметы — полка, игрушки, окно. С якорями отъезд попадает в комнату, без них остаётся под водой.
Это стохастика, перекатывай. На одном и том же промпте пощёчина выходила то чёткой, то вялой, то вообще не случалась. Промпт задаёт распределение, а не результат. Не надо догонять детерминизм формулировками — проще перекатить дубль. А нужна гарантия (как с протёкшим первым кадром из первой части) — её даёт детерминированный код, а не модель побольше.
Коротко
Если совсем коротко — вот мой расклад по аспектам (оценки 1–5, субъективно и на этом материале):
| Аспект | Grok | Seedance | Kling | Veo |
|---|---|---|---|---|
| Движение | 4 | 5 | 4 | 2 |
| Детализация и эмоции | 3 | 5 | 4 | 2 |
| Камера | 3 | 4 | 5 | 2 |
| Естественность | 4 | 3 | 5 | 2 |
| Звук и липсинк | 5 | 4 | 3 | 2 |
| Мультиязык | 5 | 2 | 2 | — |
| Мультиперсонаж | — | — | ✓ | — |
| Макс. длина | 15с | 15с | 15с | 8с |
| Цена | дёшево | средне | средне | дорого |
Так что по Grok Imagine 1.5: для меня это золотая середина — родной звук, липсинк, восемь центов в секунду — и достойная замена Kling, к которой я склоняюсь. На английской сцене Seedance обошёл её по движению и даёт лучше детализацию и эмоции, но иногда слишком буквалит, а цена Grok перевешивает. На русском Grok просто лучший: у Kling и Seedance с ним проблемы. Дальше по контенту: английская комедия — Seedance; камера и несколько героев — Kling (чуть устарел, но всё ещё силён); Veo пока отложил. Единого победителя нет, поэтому выбор модели в пайплайне привязан к проекту.