Storyboard przed wideo: widzę cały klip z wyprzedzeniem — i poprawiam scenariusz, póki to tanie

Najtaniej naprawia się klip wtedy, gdy nie jest jeszcze klipem. Wcześniej tego nie rozumiałem: pchałem pomysł w wideo niemal na wprost. Wygeneruję minutę drogiego wideo — i dopiero tam widzę, że scena się nie czyta. Potem przeróbka, czas, pieniądze. Teraz między scenarzystą a modelem wideo mam jeszcze jedną warstwę — storyboard. To on wszystko zmienił.

W pierwszej części wybierałem scenarzystę — wywołanie LLM, które z pomysłu w jednej linijce składa shot list na każdą scenę. W drugiej — model wideo, który ten shot list ożywia. Między nimi była dziura: scenarzysta oddaje tekst, model wideo od razu rysuje finalne wideo, a całego klipu na poziomie ogólnym w głowie nie widzę — tylko osobne opisy kadrów. Storyboard tę dziurę zamknął.

Co to za warstwa

Storyboard to ołówkowa rozrysówka po shot liście: te same sceny, ale narysowane. Nie finalne wideo, a szybki czarno-biały szkic: co jest w kadrze, kto mówi, dokąd się to porusza. Jeden obrazek na cały klip. Patrzę na niego — i po raz pierwszy widzę swój pomysł w całości, zanim wydałem choćby sekundę na generację wideo.

Brzmi jak drobiazg. W praktyce to różnica między „mam nadzieję, że wyjdzie” a „widzę, że wyjdzie”.

Jak to ewoluowało

Od razu tak nie zadziałało. Storyboard przeszedł cztery stadia, i każde dokładało to, czego mi brakowało, żeby „zobaczyć” klip.

Stadium 1. Tylko kluczowe kadry

Najpierw prosiłem o jeden kadr na scenę — pozę startową. Dostawałem porządne obrazki i prawie nic z nich nie rozumiałem. Postać jest, ruchu nie ma. Dokąd idzie, co robi, czym scena się kończy — nie wiadomo.

Stadium 1: jeden kluczowy kadr na scenę — postać jest, ruchu nie ma

Trzy sceny, po jednym kadrze. Widać bohatera i otoczenie, ale rytmu klipu nie widać.

Stadium 2. Ruch: START → PEAK

Wtedy rozbiłem każdą scenę na dwa kadry — początek (START) i szczyt (PEAK) — i postawiłem między nimi strzałkę. Od razu zaczął się czytać ruch: robot siedzi → robot zagląda do kubka. Dymki na razie zostawiłem puste, jako zaślepki: miejsce na kwestię już widać, tekstu jeszcze nie ma.

Stadium 2: dwa kadry START→PEAK ze strzałką, dymki puste

Wewnątrz sceny pojawił się ruch. Puste dymki — miejsca na kwestie.

Stadium 3. Kwestie na miejscach

Dalej poprosiłem o wpisanie dokładnych kwestii — tych samych, które wydał scenarzysta. «Empty... again?!», podpis narratora «It had waited all night for this.», finalne «...worth it.». I tu klip po raz pierwszy zabrzmiał mi w głowie: czytam storyboard od lewej do prawej, z góry na dół — i odtwarzam całą scenę z dialogiem. Słabą kwestię albo obwisły bit teraz widzę oczami, a nie zgaduję.

Stadium 3: dokładne kwestie wpisane w dymki i podpis narratora

Kwestie z shot listy na miejscach. Klip czyta się w całości — z dźwiękiem w głowie.

Stadium 4. Casting

Ostatnie, czego brakowało — sterowalny casting. Jeden bohater jeszcze ujdzie, ale gdy tylko w kadrze są dwaj, model zaczyna ich mylić: raz kot jest rudy, raz szary, raz w ogóle inny. Dodałem do promptu drugą postać i wąski pasek CASTING po prawej — mini-portrety bohaterów. A żeby nie pływali z kadru na kadr, podałem modelowi referencje na wejściu:

Referencje postaci na wejściu: robot i kot

Wejście castingu: dwie referencje. Po nich model trzyma wygląd bohaterów we wszystkich kadrach.

W efekcie storyboard, na którym robot i kot są rozpoznawalni od pierwszego kadru do ostatniego, a z boku wisi „casting”, jak w prawdziwej rozrysówce pre-produkcyjnej.

Stadium 4: drugi bohater plus pasek CASTING po prawej

Dwaj bohaterowie, obaj stabilni między kadrami, i pasek CASTING po prawej.

Po co mi to

Teraz widzę cały klip na poziomie ogólnym przed generacją wideo. I to daje jedną rzecz, ale dużą: poprawiam scenariusz, póki jest to tanie.

Co wyłapuję na storyboardzie:

pusty bit — scena jest, a w środku nic się nie dzieje;
nie tę kwestię — tekst jest płaski albo mówi nie ta postać;
utratę bohatera — ktoś wypadł z kadru w najważniejszym momencie;
rozjechany casting — postać „popłynęła” z wyglądu.

Każdą z tych rzeczy na gotowym wideo naprawiałbym przez regenerację — to czas i pieniądze. Na storyboardzie zmieniam linijkę w shot liście i przebudowuję obrazek za grosze. To mój tani podgląd całego klipu i punkt, w którym scenariusz jest jeszcze plastyczny.

Prompty

Cały storyboard stoi na jednym prompcie do modelu obrazu. Oto baza — wariant bez castingu, jeden bohater (przejścia do nowej linii dodałem dla czytelności, tekst promptu jest dosłowny):

Hand-drawn graphite pencil storyboard, monochrome grayscale,
professional film pre-production look, soft pencil shading on
off-white paper. NO color.

Draw a speech balloon or a narrator caption box ONLY on panels
explicitly marked below; where text is specified, render that EXACT
text accurately and legibly. A speech balloon is rounded with a tail
to a character; a narrator caption box is a plain rectangle along the
panel bottom, never attached to a character.

LAYOUT: 3 horizontal rows stacked top-to-bottom, ONE ROW PER SCENE.
Put ONLY the scene number (SC1, SC2, …) in the left margin of each row.
Inside each row draw the panels left-to-right at equal size, with a
small hand-drawn arrow pointing from each panel to the next so the
motion reads as a left-to-right progression. Beneath each panel write
its phase word EXACTLY ONCE: only START under the left panel and PEAK
under the right panel. Do NOT write any other words, numbers or labels
on or inside the panels. Keep every character visually consistent
across all panels.

SC1 (5s): START — a small round robot sits slumped at a wooden desk at
dawn, holding an empty white mug, its screen-face dim; PEAK — it lifts
the mug and peers inside, two wide surprised eyes lighting up. On the
PEAK panel draw a speech balloon with a tail to the character: «Empty...
again?!».

SC2 (5s): START — the robot rolls up to a tall chrome coffee machine,
reaching for a big red button; PEAK — it jabs the button, the machine
shudders and rattles, steam bursting from its seams. On the START panel
draw a narrator caption box along the bottom edge (a plain rectangle,
not a speech balloon): «It had waited all night for this.».

SC3 (5s): START — the robot leans in close to the machine's spout,
screen-face hopeful; PEAK — a jet of coffee sprays it full in the face,
its screen-face freezing into a flat line. On the PEAK panel draw a
speech balloon with a tail to the character: «...worth it.».

Co tu robi robotę:

grayscale i „NO color” — to szkic pre-produkcyjny, kolor tylko przeszkadza;
LAYOUT — twardo zadaje siatkę: rząd na scenę, dwa kadry, strzałka, podpisy START/PEAK i żadnych innych zbędnych napisów;
balloon vs caption box — kwestia bohatera rysowana jest dymkiem z ogonkiem, tekst zza kadru — plamką na dole; model nie powinien ich mylić;
dokładny tekst w „cudzysłowach ostrokątnych” — kwestie proszę wpisać dosłownie, w guillemetach, żeby później sprawdzać je z shot listą okiem.

Żeby dodać drugiego bohatera, dopisałem do tego samego promptu casting. W nagłówku — że postaci są teraz dwie i obie mają pozostać rozpoznawalne. Do każdej sceny dodałem akcje kota: śpi na biurku, drepcze obok, siedzi i patrzy. A po prawej — pasek CASTING z referencjami:

There are two recurring characters, a small round robot and a fluffy
cat; keep BOTH visually consistent across every panel.

On the right edge, a narrow vertical CASTING strip separated by a thin
line, with a small reference headshot of each main character drawn in
the same graphite pencil style; use the attached reference images for
the characters' appearance.

Dalej — co z tego wychodzi u różnych modeli.

Bonus: czym rysować storyboard

Ten sam storyboard przepuściłem przez cztery modele obrazu w dwóch wariantach promptu: bez castingu (jeden robot) i z castingiem (robot, kot i pasek CASTING). Wymagania dla wszystkich są jednakowe — grayscale, dokładne kwestie, siatka START→PEAK. Patrzyłem na cztery rzeczy: czy model trzyma się instrukcji (grayscale, narracja), czy utrzymuje dokładny tekst, czy casting nie pływa między kadrami i jak żywy jest rysunek.

Bez castingu: jeden bohater

Bez castingu, Nano Banana Pro: czysta siatka, ruch się czyta

Nano Banana Pro: czysta siatka, ruch się czyta, tekst na miejscu.

Bez castingu, GPT Image 2: bogata grafika, kwestie bez guillemetów

GPT Image 2: najbogatsza grafika — faktura ołówka, tło, detale. Tylko kwestie bez guillemetów.

Bez castingu, Seedream 4.5: przycisk czerwony zamiast grayscale

Seedream 4.5: rysunek jest sympatyczny, ale przycisk — czerwony. Prompt prosił o grayscale i „NO color” — model to złamał.

Z castingiem: robot i kot

Tu trudniej: dwaj bohaterowie, których trzeba trzymać jednakowymi we wszystkich kadrach, plus narysować pasek CASTING po referencjach.

Z castingiem, Nano Banana 2: obaj bohaterowie stabilni, casting na miejscu, dokładny tekst

Nano Banana 2: obaj bohaterowie stabilni, casting na miejscu, kwestie dosłownie z guillemetami. Na tym modelu teraz pracuję.

Z castingiem, GPT Image 2: najlepsza detalizacja, ale kadr gęstszy

GPT Image 2: detalizacja najlepsza ze wszystkich — ale kwestie znów bez guillemetów, i kadr jest zauważalnie gęstszy.

Z castingiem, Nano Banana Pro: czysto, casting się trzyma

Nano Banana Pro: czysto i porządnie, casting się trzyma. Z mojego doświadczenia — wolniejszy i droższy od reszty.

Z castingiem, Seedream 4.5: na finale robot zniknął, kwestię oddano kotu

Seedream 4.5: a tu błąd krytyczny. Na finalnym kadrze robot w ogóle zniknął, a jego kwestię «...worth it.» oddano kotu. Żart o oblanym kawą robocie jest zepsuty — głównego bohatera nie ma w puencie.

Krótkie podsumowanie

Model	Mocne	Słabe	Gdzie u mnie
Nano Banana 2	Stabilny casting, dosłowny tekst z guillemetami, czysta rozrysówka	—	Roboczy wybór na teraz
GPT Image 2	Najlepsza detalizacja i faktura	Kwestie bez guillemetów, gęstszy kadr	Polecę, jeśli wyjdzie taniej niż Nano Banana 2
Nano Banana Pro	Czysto, casting się trzyma	Z doświadczenia wolniejszy i droższy	Rezerwa, gdy nie żal czasu
Seedream 4.5	Przyjemny „szkicowy” styl	Błędy krytyczne: czerwony przycisk zamiast grayscale, gubi bohatera i oddaje kwestię nie temu	Odpada — błędy psują scenę

Wniosek jest prosty. Przy rozrysówce najważniejsze jest dla mnie, żeby model robił dokładnie to, o co się prosi: trzymał grayscale, dokładny tekst i casting. Według tego kryterium Nano Banana 2 mam teraz na produkcji — nie myli się w tym, co najważniejsze. GPT Image 2 rysuje najładniej ze wszystkich, i jeśli okaże się tańszy, polecę go za detalizację. Nano Banana Pro to solidna rezerwa, ale wolniejsza i droższa. Seedream 4.5 odłożyłem: styl przyjemny, ale błędy krytyczne w scenie są dla mnie droższe niż uroda.

Co z tego wyszło

Storyboard sprawdziłem, poprawiłem parę kwestii w scenariuszu — i oddałem scenę modelowi wideo. Temu samemu Seedance 2.0, na którym zatrzymałem się w drugiej części. Oto wynik: ten sam robot, ten sam kot, te same bity — tylko już w kolorze i z dźwiękiem.

Od szarego ołówkowego planu do gotowej klatki. Scenariusz zatwierdziłem jeszcze na storyboardzie — modelowi wideo zostało tylko narysować.

Gdzie to w serii

Złożył się łańcuch. W pierwszej części wybierałem scenarzystę — to on zadaje sufit jakości tekstu. W drugiej — model wideo, który go wykonuje. Storyboard stanął między nimi: warstwa, w której wreszcie widzę cały klip z wyprzedzeniem i mogę go poprawić, póki poprawka kosztuje grosze. Wcześniej ufałem pipeline'owi na ślepo. Teraz patrzę i decyduję.