← Назад Harupa
2026-06-23RU EN UA BY PL

Сторіборд до відео: бачу весь ролик заздалегідь — і правлю сценарій, поки це дешево

Найдешевше місце полагодити ролик — поки він ще не ролик. Раніше я цього не розумів: гнав ідею у відео майже навпростець. Згенерую хвилину дорогого відео — і лише там бачу, що сцена не читається. Далі переробка, час, гроші. Тепер між сценаристом і відеомоделлю в мене стоїть іще один шар — розкадровка. Він усе й змінив.

У першій частині я обирав сценариста — виклик LLM, який з ідеї в один рядок збирає шот-лист на кожну сцену. У другій — відеомодель, яка цей шот-лист оживляє. Між ними був провал: сценарист віддає текст, відеомодель одразу малює фінальне відео, а весь високорівневий ролик у голові я не бачу — лише окремі описи кадрів. Розкадровка цей провал закрила.

Що це за шар

Розкадровка — це олівцевий сторіборд за шот-листом: ті самі сцени, але намальовані. Не фінальне відео, а швидкий чорно-білий накид: що в кадрі, хто говорить, куди рухається. Одна картинка на весь ролик. Я дивлюся на неї — і вперше бачу свою ідею цілком, до того як витратив бодай секунду генерації відео.

Звучить як дрібниця. Насправді це різниця між «сподіваюся, вийде» і «бачу, що вийде».

Як це еволюціонувало

Одразу так не запрацювало. Сторіборд пройшов чотири стадії, і кожна додавала те, чого мені бракувало, щоб «побачити» ролик.

Стадія 1. Тільки ключові кадри

Спершу я просив по одному кадру на сцену — стартову позу. Отримував охайні картинки і майже нічого не розумів. Персонаж є, руху немає. Куди він іде, що робить, чим сцена закінчується — незрозуміло.

Стадія 1: по одному ключовому кадру на сцену — персонаж є, руху немає

Три сцени, по одному кадру. Видно героя й оточення, але ритму ролика не видно.

Стадія 2. Рух: START → PEAK

Тоді я розбив кожну сцену на два кадри — початок (START) і пік (PEAK) — і поставив між ними стрілку. Одразу почав читатися рух: робот сидить → робот зазирає в кухоль. Балони я поки лишив порожніми, як заготовки: місце під репліку вже видно, тексту ще немає.

Стадія 2: два кадри START→PEAK зі стрілкою, балони порожні

Усередині сцени з'явився рух. Порожні балони — місця під репліки.

Стадія 3. Репліки на місцях

Далі я попросив вписати точні репліки — ті самі, що видав сценарист. «Empty... again?!», підпис-наратор «It had waited all night for this.», фінальне «...worth it.». Ось тут ролик уперше зазвучав у голові: читаю сторіборд зліва направо, згори вниз — і програю всю сцену з діалогом. Слабку репліку чи провислий біт тепер видно очима, а не вгадуєш.

Стадія 3: точні репліки вписані в балони та підпис-наратор

Репліки з шот-листа на місцях. Ролик читається цілком — зі звуком у голові.

Стадія 4. Каст

Останнє, чого бракувало, — керований каст. Один герой ще нічого, та щойно в кадрі двоє, модель починає їх плутати: то кіт рудий, то сірий, то взагалі інший. Я додав у промпт другого персонажа і вузьку смугу CASTING праворуч — міні-портрети героїв. А щоб вони не пливли від кадру до кадру, дав моделі референси на вхід:

Референси персонажів на вхід: робот і кіт

Вхід каста: два референси. За ними модель тримає зовнішність героїв у всіх кадрах.

Результат — сторіборд, де робот і кіт упізнавані від першого кадру до останнього, а збоку висить «каст», як у справжній препродакшн-розкадровці.

Стадія 4: другий герой плюс смуга CASTING праворуч

Двоє героїв, обидва стабільні між кадрами, і смуга CASTING праворуч.

Навіщо мені це

Я тепер бачу весь високорівневий ролик до генерації відео. І це дає одне, але велике: я правлю сценарій, поки це дешево.

Що я ловлю на сторіборді:

Будь-яку з цих штук на готовому відео я лагодив би перегенерацією — це час і гроші. На сторіборді я міняю рядок у шот-листі й перезбираю картинку за копійки. Це мій дешевий передперегляд усього ролика і точка, де сценарій ще пластичний.

Промпти

Весь сторіборд тримається на одному промпті до image-моделі. Ось база — варіант без каста, один герой (переноси рядків додав для читабельності, текст промпта дослівний):

Hand-drawn graphite pencil storyboard, monochrome grayscale,
professional film pre-production look, soft pencil shading on
off-white paper. NO color.

Draw a speech balloon or a narrator caption box ONLY on panels
explicitly marked below; where text is specified, render that EXACT
text accurately and legibly. A speech balloon is rounded with a tail
to a character; a narrator caption box is a plain rectangle along the
panel bottom, never attached to a character.

LAYOUT: 3 horizontal rows stacked top-to-bottom, ONE ROW PER SCENE.
Put ONLY the scene number (SC1, SC2, …) in the left margin of each row.
Inside each row draw the panels left-to-right at equal size, with a
small hand-drawn arrow pointing from each panel to the next so the
motion reads as a left-to-right progression. Beneath each panel write
its phase word EXACTLY ONCE: only START under the left panel and PEAK
under the right panel. Do NOT write any other words, numbers or labels
on or inside the panels. Keep every character visually consistent
across all panels.

SC1 (5s): START — a small round robot sits slumped at a wooden desk at
dawn, holding an empty white mug, its screen-face dim; PEAK — it lifts
the mug and peers inside, two wide surprised eyes lighting up. On the
PEAK panel draw a speech balloon with a tail to the character: «Empty...
again?!».

SC2 (5s): START — the robot rolls up to a tall chrome coffee machine,
reaching for a big red button; PEAK — it jabs the button, the machine
shudders and rattles, steam bursting from its seams. On the START panel
draw a narrator caption box along the bottom edge (a plain rectangle,
not a speech balloon): «It had waited all night for this.».

SC3 (5s): START — the robot leans in close to the machine's spout,
screen-face hopeful; PEAK — a jet of coffee sprays it full in the face,
its screen-face freezing into a flat line. On the PEAK panel draw a
speech balloon with a tail to the character: «...worth it.».

Що тут робить роботу:

Щоб додати другого героя, я дописав до того ж промпта каст. У шапку — що персонажів тепер двоє і обидва мають лишатися впізнаваними. У кожну сцену додав дії кота: спить на столі, дріботить поруч, сидить і дивиться. А праворуч — смуга CASTING з референсами:

There are two recurring characters, a small round robot and a fluffy
cat; keep BOTH visually consistent across every panel.

On the right edge, a narrow vertical CASTING strip separated by a thin
line, with a small reference headshot of each main character drawn in
the same graphite pencil style; use the attached reference images for
the characters' appearance.

Далі — що з цього виходить у різних моделей.

Бонус: чим малювати сторіборд

Один і той самий сторіборд я прогнав через чотири image-моделі у двох варіантах промпта: без каста (один робот) і з кастом (робот, кіт і смуга CASTING). Вимоги для всіх однакові — грейскейл, точні репліки, сітка START→PEAK. Дивився на чотири речі: чи дотримується модель інструкцій (грейскейл, наратив), чи тримає точний текст, чи не пливе каст між кадрами і наскільки живий малюнок.

Без каста: один герой

Без каста, Nano Banana Pro: чиста сітка, рух читається

Nano Banana Pro: чиста сітка, рух читається, текст на місці.

Без каста, GPT Image 2: багата графіка, репліки без ялинок

GPT Image 2: найбагатша графіка — фактура олівця, фон, деталі. Репліки лише без ялинок.

Без каста, Seedream 4.5: кнопка червона замість грейскейла

Seedream 4.5: малюнок симпатичний, але кнопка — червона. Промпт просив грейскейл і «NO color» — модель це порушила.

З кастом: робот і кіт

Тут складніше: двоє героїв, їх треба тримати однаковими в усіх кадрах, плюс відмалювати смугу CASTING за референсами.

З кастом, Nano Banana 2: обидва герої стабільні, каст на місці, точний текст

Nano Banana 2: обидва герої стабільні, каст на місці, репліки дослівно з ялинками. На цій моделі я зараз і працюю.

З кастом, GPT Image 2: краща деталізація, але кадр щільніший

GPT Image 2: деталізація найкраща з усіх — але репліки знову без ялинок, і кадр помітно щільніший.

З кастом, Nano Banana Pro: чисто, каст тримає

Nano Banana Pro: чисто й охайно, каст тримає. З мого досвіду — повільніше й дорожче за решту.

З кастом, Seedream 4.5: на фіналі робот зник, репліку віддали коту

Seedream 4.5: а ось тут критична помилка. На фінальному кадрі робот узагалі зник, а його репліку «...worth it.» віддали коту. Жарт про облитого кавою робота зламано — головного героя в панчлайні немає.

Короткий підсумок

МодельСильнеСлабкеДе в мене
Nano Banana 2Стабільний каст, дослівний текст з ялинками, чиста розкадровкаРобочий вибір зараз
GPT Image 2Найкраща деталізація і фактураРепліки без ялинок, кадр щільнішийПорекомендую, якщо вийде дешевше за Nano Banana 2
Nano Banana ProЧисто, каст тримаєЗ досвіду повільніше й дорожчеЗапас, коли не шкода часу
Seedream 4.5Приємний «скетчевий» стильКритичні помилки: червона кнопка замість грейскейла, губить героя і віддає репліку не томуПовз — помилки ламають сцену

Висновок простий. Для розкадровки мені найважливіше, щоб модель рівно робила, що просять: тримала грейскейл, точний текст і каст. За цим критерієм Nano Banana 2 у мене зараз у проді — вона не помиляється на головному. GPT Image 2 малює найкрасивіше, і якщо виявиться дешевшою, я порекомендую її за деталізацію. Nano Banana Pro — міцний запас, але повільніше й дорожче. Seedream 4.5 відклав: стиль приємний, але критичні помилки на сцені мені дорожчі за красу.

Що в підсумку вийшло

Розкадровку я перевірив, пару реплік у сценарії поправив — і віддав сцену відеомоделі. Тій самій Seedance 2.0, на якій зупинився в другій частині. Ось результат: той самий робот, той самий кіт, ті самі біти — тільки вже в кольорі і зі звуком.

Від сірого олівцевого плану до готового кадру. Сценарій я узгодив іще на сторіборді — відеомоделі лишилося тільки відмалювати.

Де це в серії

Склався ланцюжок. У першій частині я обирав сценариста — він задає стелю якості тексту. У другій — відеомодель, вона його виконує. Розкадровка стала між ними: шар, де я нарешті бачу весь ролик заздалегідь і можу його поправити, поки правка коштує копійки. Раніше я довіряв пайплайну наосліп. Тепер дивлюся й вирішую.