Як выбраць LLM для прадакшэну: сляпая крос-вендарная ацэнка
Найноўшая, самая разрэкламаваная мадэль перамагла ў той адзінай метрыцы, якую я пачаў вымяраць, — і апынулася на апошнім месцы ва ўсім, што сапраўды мела значэнне. Дзеля гэтага сказа я ўвогуле і пішу гэты тэкст.
Я трымаю аўтаматызаваны канвеер, які ператварае ідэю ў адзін радок («дзве мультяшныя рыбкі раўніва сварацца») у гатовае вертыкальнае відэа. У яго аснове — адзін выклік LLM, які я называю сцэнарыстам: з сюжэту і складу персанажаў ён выдае структураваны спіс кадраў для кожнай сцэны — апісанне першага кадра, рух камеры, вымаўлены дыялог, эмацыйныя акцэнты і пералік аб'ектаў, якія мусяць заставацца схаванымі да наўмыснага раскрыцця.
У гэтага аднаго выкліку ёсць дзве ўласцівасці, праз якія варта над ім кропатліва працаваць:
- Гэта столь якасці. Кожны наступны этап — выява, відэа, голас — толькі візуалізуе тое, што вырашыў сцэнарыст. Плоскі дыялог ці расплывістае апісанне ніжэй па канвееры ўжо не выратаваць.
- Ён выконваецца на кожным праекце. Таму яго цана за выклік памнажаецца на ўсю нагрузку.
Складзіце адно з другім — і пытанне перастае быць «якая мадэль найлепшая» і становіцца «якая мадэль дае найбольш якасці за долар». І ці не пакідае танны фаварыт на стале тую якасць, за якую варта даплаціць.
Што да гэтага падштурхнула
Дзве прэтэнзіі да фаварыта, таннага GPT-5.4-mini. Першая — уцечка ў першы кадр: для камедыйнага раскрыцця з ад'ездам камеры — дзве рыбкі сварацца, а потым камера ад'язджае і паказвае, што яны ў крыхотным акварыуме, у доме, пад вадой, а міма праляцеў ястраб — мадэль упісала раскрыццё проста ў пачатковы кадр. Кульмінацыю сапсавана, першы кадр перагружаны. Другая — бедны дыялог: функцыянальны, але плоскі, прычым часта гаварыў толькі адзін персанаж.

Баг наглядна: GPT-5.4-mini упісаў усё раскрыццё-ад'езд прама ў адкрывальны кадр — дом, пакой, ястраб і крыхотны акварыум бачныя разам. Панчлайн сапсаваны яшчэ да пачатку сцэны.
Я мог бы памяняць мадэль на адчуваннях. Замест гэтага я правёў ацэнку, бо цана гэтага выкліку памнажаецца на кожнае відэа, якое я калі-небудзь зраблю.
Метад (вось гэта і ёсць тая частка, якую можна перавыкарыстаць)
Сумленны ўваход. Я не пісаў сінтэтычны тэставы промпт. Я ўзнавіў дакладна тыя паведамленні, якія канвеер дасылае ў прадакшэне: сістэмны промпт прыкладна на 12 000 токенаў, які нясе сюжэт, персанажаў і ўсе правілы напісання, плюс крыхотны промпт карыстальніка («згенеруй спіс кадраў для 1 сцэны») і строгі кантракт вываду ў JSON. Усе мадэлі атрымлівалі байт у байт ідэнтычны кантэнт; адаптаваўся пад вендара толькі механізм структураванага вываду.
Чатыры мадэлі ўздоўж восі кошту: танны фаварыт (GPT-5.4-mini), найноўшы поўны GPT (GPT-5.5), Claude вышэйшага ўзроўню (Opus 4.8) і Claude сярэдняга ўзроўню (Sonnet 4.6).
Два інструменты. Дэтэрмінаваны сканер уцечак, які механічна правярае палі пры t=0 на схаваныя словы, незаяўленыя назоўнікі-«чужынцы» і фармулёўкі раскрыцця (бал: 10 мінус штрафы). І сляпая крос-вендарная панэль суддзяў: два суддзі ад розных вендараў (адзін Opus, адзін GPT-5.5) ацэньвалі чатыры вынікі ананімізавана — з перапазнакамі A/B/C/D, прычым ніводнаму суддзі не казалі, якая мадэль што напісала і які з вынікаў яго ўласны, — па шасці вымярэннях: дыялог, апісанне, рух, эмоцыя, дысцыпліна першага кадра і звязнасць.
Два суддзі ад розных вендараў засцерагаюць ад густу якой-небудзь адной мадэлі; ананімізацыя ўваходаў не дае суддзі ліслівіць уласнай працы.
Што адбылося
Раўнд 1, вузкі тэст на ўцечку. На свежай выбарцы ўсе чатыры мадэлі набралі 10/10 — чыста — супраць 0/10 у рэальнага прадакшэн-кадра. Той самы фаварыт, што даў уцечку ў прадакшэне, тут з таго ж промпта выдаў чысты кадр.
Гэта першы ўрок, і яго лёгка прапусціць: баг быў стахастычны, а не дэфект мадэлі. Пры звычайнай тэмпературы сэмплавання збой носіць імавернасны характар. Адзін праход не можа развесці мадэлі па гэтай восі — і ніводная замена мадэлі не гарантуе чыстага кадра.
Раўнд 2, поўная сляпая ацэнка. Паколькі вузкі тэст насыціўся, я ацэньваў увесь вынік. Сумарныя балы панэлі з 60:
- Claude Opus 4.8 — 49.5
- Claude Sonnet 4.6 — 49.0
- GPT-5.4-mini (фаварыт) — 40.5
- GPT-5.5 — 34.0
Абодва суддзі незалежна паставілі дзве мадэлі Claude наверх, а GPT-5.5 — апошнім. Дэталь, праз якую я гэтаму паверыў: суддзя на GPT-5.5 паставіў мадэлі ўласнага вендара на апошняе месца. Ніякай прыхільнасці да сваіх — калі што, наадварот.
Тое, што іх развяло, было канкрэтным. Дзве найлепшыя напісалі сапраўдны двухбаковы абмен — адна рыбка абвінавачвае, другая адказвае («Я ж проста еў…», прывязваючы апраўданне да чарвяка ў роце) — плюс прыдатную для анімацыі фізічную камедыю («ляпае плаўніком па твары, чарвяк вылятае»). Абедзве мадэлі GPT далі аднабаковае абвінавачванне і пакінулі другога персанажа без дзеяння.
І кульмінацыя ўсяго даследавання: GPT-5.5, найноўшы флагман, выйграў вузкую метрыку ўцечкі, але прыйшоў апошнім у агульным заліку. Ён утрымаў першы кадр чыстым — а потым перанёс раскрыццё ў іншае поле, якое сканер не правяраў. Прайшоў проксі і ўсё роўна сапсаваў жарт.

Чысты першы кадр на Sonnet 4.6: толькі два персанажы. Чарвяк у роце рыбкі-клоўна — тая самая адгаворка, якую абыгрывае дыялог: дэталь гісторыі, а не ўцёклае раскрыццё.
Аптымізацыя адной метрыкі можа актыўна выбіраць горшы прадукт. Адзінае, што гэта злавіла, — погляд на ўвесь вынік цалкам, усляпую.
Рашэнне «якасць супраць кошту»
Вось дзеля гэтага раздзела даследаванне і існуе. Вымерана на жывым выкліку: адна сцэна на Sonnet 4.6 спажыла прыкладна 12k токенаў на ўваходзе + прыкладна 1.3k на вывадзе — уваход дамінуе праз фіксаваны сістэмны промпт, вывад расце з колькасцю сцэн. Прыкладныя суадносіны на праект для відэа з 6 сцэн (перад тым як называць лічбы, пераправерце актуальныя цэны вендараў — трывалае тут менавіта суадносіны):
- GPT-5.4-mini — прыкладна 1× (самы танны), якасць 40.5
- Sonnet 4.6 — прыкладна 15× ад фаварыта, якасць 49.0
- Opus 4.8 — прыкладна 5× ад Sonnet, якасць 49.5
- GPT-5.5 — той самы ўзровень, што Sonnet, якасць 34.0
Прачытайце гэта трыма спосабамі:
- Самы танны — не бясплатны. Фаварыт прыкладна ў 15× танейшы, але на 8.5 балаў якасці ніжэй — і паколькі сцэнарыст гэта столь, гэты разрыў вылазіць у кожным відэа. Эканомія вяртаецца горшым вынікам.
- Самы дарагі тут не вартуе таго. Opus намінальна №1, але яго перавага ў 0.5 бала над Sonnet — у межах шуму панэлі з двух суддзяў, пры прыкладна 5× кошту за токен — на выкліку, які выконваецца на кожным праекце.
- Найноўшы флагман прайграны па ўсіх фронтах. GPT-5.5 і горшы, і не танейшы. Няма ніводнай працоўнай кропкі, дзе ён правільны выбар. «Найноўшы і самы разрэкламаваны» — гэта не тое самае, што «найлепшы для задачы».
Таму я выкаціў Sonnet 4.6 — калена крывой: прыкладна якасць Opus, моцна вышэй за абодва GPT, прыкладна за пятую частку цаны Opus. Два ўдакладненні трымаюць рахунак сумленным: некрэатыўныя дапаможныя выклікі (валідатар, нармалізатар дыялогу) застаюцца на таннай мадэлі, бо нічога не складаюць; а мадэль сцэнарыста — гэта адна канфігурацыйная канстанта, таму перавесці на Opus або вярнуць назад — змена ў адзін радок.
А баг, з якога ўсё пачалося? Апгрэйд мадэлі зніжае шанцы ўцечкі ў першы кадр, але не можа выключыць выпадак з кубікам. Надзейнае выпраўленне — дэтэрмінаванае: збіраць пачатковы кадр з абмежаваных слотаў (персанажы, іх поза і эмоцыя, толькі навакольная абстаноўка) і выразаць любое раскрыццё ці аб'ект-чужынец у кодзе, незалежна ад мадэлі. Плаціць за большую мадэль, каб купіць надзейнасць, якую можна атрымаць дэтэрмінавана і задарма, — гэта проста перавернутая пастка таннай мадэлі.
Што я хацеў бы, каб вы ўзялі, а не прынялі на веру
Сумленныя абмежаванні: гэты рэйтынг трымаецца на адной генерацыі на мадэль і двух суддзях. Разрыў Opus/Sonnet — гэта шум, лічыце іх роўнымі. Суддзі таксама ўдзельнікі (ананімізацыя і крос-вендарная згода зніжаюць самаперавагу, але не сціраюць яе). Гэта адзін сцэнарый, адзін жанр. Мацнейшае даследаванне праганяе N≥10–20 выбарак на мадэль і паведамляе размеркаванні, а не пунктавыя балы. Нічога з гэтага не перакульвае напрамак выніку, але абмяжоўвае, наколькі жорстка яго можна сцвярджаць.
Часткі, якія пераносяцца, незалежна ад таго, які вендар перамагае ў вашым выпадку:
- Тэстуйце на сваім рэальным промпце, а не на сінтэтычным. Сумленнасць залежыць ад ідэнтычнага, праўдзіва прадакшэн-уваходу.
- Вымярайце холісцічна і ўсляпую. Адна проксі-метрыка рана ці позна выбера горшы прадукт; ананімізаванае крос-вендарнае суддзяванне гэта ловіць.
- Лічыце цану рэальнымі токенамі і параўноўвайце якасць за долар, а не пікавую якасць — асабліва для выкліку, памножанага на ўсю вашу нагрузку.
- Аддзяляйце стахастычныя багі ад якасці мадэлі. Калі дэфект з'яўляецца і знікае паміж праходамі адной і той жа мадэлі, ён імавернасны — выпраўляйце яго ў кодзе, не выкупляйцеся большай мадэллю.
---
Я Дзмітрый Гарупа, fractional CTO, які будуе і выкатвае AI-сістэмы ўласнымі рукамі і апісвае тое, чаму вучыць работа, — напрыклад, як я даў сваім AI-агентам пастаянную памяць паміж сесіямі. Калі вы праводзіце такія ацэнкі ці хочаце паспрачацца з тым, як я правёў гэтую, напішыце мне — самыя вострыя пярэчанні самыя карысныя.