Як выбраць LLM для прадакшэну: сляпая крос-вендарная ацэнка

Найноўшая, самая разрэкламаваная мадэль перамагла ў той адзінай метрыцы, якую я пачаў вымяраць, — і апынулася на апошнім месцы ва ўсім, што сапраўды мела значэнне. Дзеля гэтага сказа я ўвогуле і пішу гэты тэкст.

Я трымаю аўтаматызаваны канвеер, які ператварае ідэю ў адзін радок («дзве мультяшныя рыбкі раўніва сварацца») у гатовае вертыкальнае відэа. У яго аснове — адзін выклік LLM, які я называю сцэнарыстам: з сюжэту і складу персанажаў ён выдае структураваны спіс кадраў для кожнай сцэны — апісанне першага кадра, рух камеры, вымаўлены дыялог, эмацыйныя акцэнты і пералік аб'ектаў, якія мусяць заставацца схаванымі да наўмыснага раскрыцця.

У гэтага аднаго выкліку ёсць дзве ўласцівасці, праз якія варта над ім кропатліва працаваць:

Гэта столь якасці. Кожны наступны этап — выява, відэа, голас — толькі візуалізуе тое, што вырашыў сцэнарыст. Плоскі дыялог ці расплывістае апісанне ніжэй па канвееры ўжо не выратаваць.
Ён выконваецца на кожным праекце. Таму яго цана за выклік памнажаецца на ўсю нагрузку.

Складзіце адно з другім — і пытанне перастае быць «якая мадэль найлепшая» і становіцца «якая мадэль дае найбольш якасці за долар». І ці не пакідае танны фаварыт на стале тую якасць, за якую варта даплаціць.

Што да гэтага падштурхнула

Дзве прэтэнзіі да фаварыта, таннага GPT-5.4-mini. Першая — уцечка ў першы кадр: для камедыйнага раскрыцця з ад'ездам камеры — дзве рыбкі сварацца, а потым камера ад'язджае і паказвае, што яны ў крыхотным акварыуме, у доме, пад вадой, а міма праляцеў ястраб — мадэль упісала раскрыццё проста ў пачатковы кадр. Кульмінацыю сапсавана, першы кадр перагружаны. Другая — бедны дыялог: функцыянальны, але плоскі, прычым часта гаварыў толькі адзін персанаж.

Уцечка ў першы кадр: усё раскрыццё ўціснута ў адкрывальны кадр

Баг наглядна: GPT-5.4-mini упісаў усё раскрыццё-ад'езд прама ў адкрывальны кадр — дом, пакой, ястраб і крыхотны акварыум бачныя разам. Панчлайн сапсаваны яшчэ да пачатку сцэны.

Я мог бы памяняць мадэль на адчуваннях. Замест гэтага я правёў ацэнку, бо цана гэтага выкліку памнажаецца на кожнае відэа, якое я калі-небудзь зраблю.

Метад (вось гэта і ёсць тая частка, якую можна перавыкарыстаць)

Сумленны ўваход. Я не пісаў сінтэтычны тэставы промпт. Я ўзнавіў дакладна тыя паведамленні, якія канвеер дасылае ў прадакшэне: сістэмны промпт прыкладна на 12 000 токенаў, які нясе сюжэт, персанажаў і ўсе правілы напісання, плюс крыхотны промпт карыстальніка («згенеруй спіс кадраў для 1 сцэны») і строгі кантракт вываду ў JSON. Усе мадэлі атрымлівалі байт у байт ідэнтычны кантэнт; адаптаваўся пад вендара толькі механізм структураванага вываду.

Чатыры мадэлі ўздоўж восі кошту: танны фаварыт (GPT-5.4-mini), найноўшы поўны GPT (GPT-5.5), Claude вышэйшага ўзроўню (Opus 4.8) і Claude сярэдняга ўзроўню (Sonnet 4.6).

Два інструменты. Дэтэрмінаваны сканер уцечак, які механічна правярае палі пры t=0 на схаваныя словы, незаяўленыя назоўнікі-«чужынцы» і фармулёўкі раскрыцця (бал: 10 мінус штрафы). І сляпая крос-вендарная панэль суддзяў: два суддзі ад розных вендараў (адзін Opus, адзін GPT-5.5) ацэньвалі чатыры вынікі ананімізавана — з перапазнакамі A/B/C/D, прычым ніводнаму суддзі не казалі, якая мадэль што напісала і які з вынікаў яго ўласны, — па шасці вымярэннях: дыялог, апісанне, рух, эмоцыя, дысцыпліна першага кадра і звязнасць.

Два суддзі ад розных вендараў засцерагаюць ад густу якой-небудзь адной мадэлі; ананімізацыя ўваходаў не дае суддзі ліслівіць уласнай працы.

Што адбылося

Раўнд 1, вузкі тэст на ўцечку. На свежай выбарцы ўсе чатыры мадэлі набралі 10/10 — чыста — супраць 0/10 у рэальнага прадакшэн-кадра. Той самы фаварыт, што даў уцечку ў прадакшэне, тут з таго ж промпта выдаў чысты кадр.

Гэта першы ўрок, і яго лёгка прапусціць: баг быў стахастычны, а не дэфект мадэлі. Пры звычайнай тэмпературы сэмплавання збой носіць імавернасны характар. Адзін праход не можа развесці мадэлі па гэтай восі — і ніводная замена мадэлі не гарантуе чыстага кадра.

Раўнд 2, поўная сляпая ацэнка. Паколькі вузкі тэст насыціўся, я ацэньваў увесь вынік. Сумарныя балы панэлі з 60:

Claude Opus 4.8 — 49.5
Claude Sonnet 4.6 — 49.0
GPT-5.4-mini (фаварыт) — 40.5
GPT-5.5 — 34.0

Абодва суддзі незалежна паставілі дзве мадэлі Claude наверх, а GPT-5.5 — апошнім. Дэталь, праз якую я гэтаму паверыў: суддзя на GPT-5.5 паставіў мадэлі ўласнага вендара на апошняе месца. Ніякай прыхільнасці да сваіх — калі што, наадварот.

Тое, што іх развяло, было канкрэтным. Дзве найлепшыя напісалі сапраўдны двухбаковы абмен — адна рыбка абвінавачвае, другая адказвае («Я ж проста еў…», прывязваючы апраўданне да чарвяка ў роце) — плюс прыдатную для анімацыі фізічную камедыю («ляпае плаўніком па твары, чарвяк вылятае»). Абедзве мадэлі GPT далі аднабаковае абвінавачванне і пакінулі другога персанажа без дзеяння.

І кульмінацыя ўсяго даследавання: GPT-5.5, найноўшы флагман, выйграў вузкую метрыку ўцечкі, але прыйшоў апошнім у агульным заліку. Ён утрымаў першы кадр чыстым — а потым перанёс раскрыццё ў іншае поле, якое сканер не правяраў. Прайшоў проксі і ўсё роўна сапсаваў жарт.

Чысты першы кадр на Sonnet 4.6: толькі два персанажы

Чысты першы кадр на Sonnet 4.6: толькі два персанажы. Чарвяк у роце рыбкі-клоўна — тая самая адгаворка, якую абыгрывае дыялог: дэталь гісторыі, а не ўцёклае раскрыццё.

Аптымізацыя адной метрыкі можа актыўна выбіраць горшы прадукт. Адзінае, што гэта злавіла, — погляд на ўвесь вынік цалкам, усляпую.

Рашэнне «якасць супраць кошту»

Вось дзеля гэтага раздзела даследаванне і існуе. Вымерана на жывым выкліку: адна сцэна на Sonnet 4.6 спажыла прыкладна 12k токенаў на ўваходзе + прыкладна 1.3k на вывадзе — уваход дамінуе праз фіксаваны сістэмны промпт, вывад расце з колькасцю сцэн. Прыкладныя суадносіны на праект для відэа з 6 сцэн (перад тым як называць лічбы, пераправерце актуальныя цэны вендараў — трывалае тут менавіта суадносіны):

GPT-5.4-mini — прыкладна 1× (самы танны), якасць 40.5
Sonnet 4.6 — прыкладна 15× ад фаварыта, якасць 49.0
Opus 4.8 — прыкладна 5× ад Sonnet, якасць 49.5
GPT-5.5 — той самы ўзровень, што Sonnet, якасць 34.0

Прачытайце гэта трыма спосабамі:

Самы танны — не бясплатны. Фаварыт прыкладна ў 15× танейшы, але на 8.5 балаў якасці ніжэй — і паколькі сцэнарыст гэта столь, гэты разрыў вылазіць у кожным відэа. Эканомія вяртаецца горшым вынікам.
Самы дарагі тут не вартуе таго. Opus намінальна №1, але яго перавага ў 0.5 бала над Sonnet — у межах шуму панэлі з двух суддзяў, пры прыкладна 5× кошту за токен — на выкліку, які выконваецца на кожным праекце.
Найноўшы флагман прайграны па ўсіх фронтах. GPT-5.5 і горшы, і не танейшы. Няма ніводнай працоўнай кропкі, дзе ён правільны выбар. «Найноўшы і самы разрэкламаваны» — гэта не тое самае, што «найлепшы для задачы».

Таму я выкаціў Sonnet 4.6 — калена крывой: прыкладна якасць Opus, моцна вышэй за абодва GPT, прыкладна за пятую частку цаны Opus. Два ўдакладненні трымаюць рахунак сумленным: некрэатыўныя дапаможныя выклікі (валідатар, нармалізатар дыялогу) застаюцца на таннай мадэлі, бо нічога не складаюць; а мадэль сцэнарыста — гэта адна канфігурацыйная канстанта, таму перавесці на Opus або вярнуць назад — змена ў адзін радок.

А баг, з якога ўсё пачалося? Апгрэйд мадэлі зніжае шанцы ўцечкі ў першы кадр, але не можа выключыць выпадак з кубікам. Надзейнае выпраўленне — дэтэрмінаванае: збіраць пачатковы кадр з абмежаваных слотаў (персанажы, іх поза і эмоцыя, толькі навакольная абстаноўка) і выразаць любое раскрыццё ці аб'ект-чужынец у кодзе, незалежна ад мадэлі. Плаціць за большую мадэль, каб купіць надзейнасць, якую можна атрымаць дэтэрмінавана і задарма, — гэта проста перавернутая пастка таннай мадэлі.

Што я хацеў бы, каб вы ўзялі, а не прынялі на веру

Сумленныя абмежаванні: гэты рэйтынг трымаецца на адной генерацыі на мадэль і двух суддзях. Разрыў Opus/Sonnet — гэта шум, лічыце іх роўнымі. Суддзі таксама ўдзельнікі (ананімізацыя і крос-вендарная згода зніжаюць самаперавагу, але не сціраюць яе). Гэта адзін сцэнарый, адзін жанр. Мацнейшае даследаванне праганяе N≥10–20 выбарак на мадэль і паведамляе размеркаванні, а не пунктавыя балы. Нічога з гэтага не перакульвае напрамак выніку, але абмяжоўвае, наколькі жорстка яго можна сцвярджаць.

Часткі, якія пераносяцца, незалежна ад таго, які вендар перамагае ў вашым выпадку:

Тэстуйце на сваім рэальным промпце, а не на сінтэтычным. Сумленнасць залежыць ад ідэнтычнага, праўдзіва прадакшэн-уваходу.
Вымярайце холісцічна і ўсляпую. Адна проксі-метрыка рана ці позна выбера горшы прадукт; ананімізаванае крос-вендарнае суддзяванне гэта ловіць.
Лічыце цану рэальнымі токенамі і параўноўвайце якасць за долар, а не пікавую якасць — асабліва для выкліку, памножанага на ўсю вашу нагрузку.
Аддзяляйце стахастычныя багі ад якасці мадэлі. Калі дэфект з'яўляецца і знікае паміж праходамі адной і той жа мадэлі, ён імавернасны — выпраўляйце яго ў кодзе, не выкупляйцеся большай мадэллю.

---

Я Дзмітрый Гарупа, fractional CTO, які будуе і выкатвае AI-сістэмы ўласнымі рукамі і апісвае тое, чаму вучыць работа, — напрыклад, як я даў сваім AI-агентам пастаянную памяць паміж сесіямі. Калі вы праводзіце такія ацэнкі ці хочаце паспрачацца з тым, як я правёў гэтую, напішыце мне — самыя вострыя пярэчанні самыя карысныя.