← Назад Harupa
2026-06-17RU EN UA BY PL

Як выбраць LLM для прадакшэну: сляпая крос-вендарная ацэнка

Найноўшая, самая разрэкламаваная мадэль перамагла ў той адзінай метрыцы, якую я пачаў вымяраць, — і апынулася на апошнім месцы ва ўсім, што сапраўды мела значэнне. Дзеля гэтага сказа я ўвогуле і пішу гэты тэкст.

Я трымаю аўтаматызаваны канвеер, які ператварае ідэю ў адзін радок («дзве мультяшныя рыбкі раўніва сварацца») у гатовае вертыкальнае відэа. У яго аснове — адзін выклік LLM, які я называю сцэнарыстам: з сюжэту і складу персанажаў ён выдае структураваны спіс кадраў для кожнай сцэны — апісанне першага кадра, рух камеры, вымаўлены дыялог, эмацыйныя акцэнты і пералік аб'ектаў, якія мусяць заставацца схаванымі да наўмыснага раскрыцця.

У гэтага аднаго выкліку ёсць дзве ўласцівасці, праз якія варта над ім кропатліва працаваць:

Складзіце адно з другім — і пытанне перастае быць «якая мадэль найлепшая» і становіцца «якая мадэль дае найбольш якасці за долар». І ці не пакідае танны фаварыт на стале тую якасць, за якую варта даплаціць.

Што да гэтага падштурхнула

Дзве прэтэнзіі да фаварыта, таннага GPT-5.4-mini. Першая — уцечка ў першы кадр: для камедыйнага раскрыцця з ад'ездам камеры — дзве рыбкі сварацца, а потым камера ад'язджае і паказвае, што яны ў крыхотным акварыуме, у доме, пад вадой, а міма праляцеў ястраб — мадэль упісала раскрыццё проста ў пачатковы кадр. Кульмінацыю сапсавана, першы кадр перагружаны. Другая — бедны дыялог: функцыянальны, але плоскі, прычым часта гаварыў толькі адзін персанаж.

Уцечка ў першы кадр: усё раскрыццё ўціснута ў адкрывальны кадр

Баг наглядна: GPT-5.4-mini упісаў усё раскрыццё-ад'езд прама ў адкрывальны кадр — дом, пакой, ястраб і крыхотны акварыум бачныя разам. Панчлайн сапсаваны яшчэ да пачатку сцэны.

Я мог бы памяняць мадэль на адчуваннях. Замест гэтага я правёў ацэнку, бо цана гэтага выкліку памнажаецца на кожнае відэа, якое я калі-небудзь зраблю.

Метад (вось гэта і ёсць тая частка, якую можна перавыкарыстаць)

Сумленны ўваход. Я не пісаў сінтэтычны тэставы промпт. Я ўзнавіў дакладна тыя паведамленні, якія канвеер дасылае ў прадакшэне: сістэмны промпт прыкладна на 12 000 токенаў, які нясе сюжэт, персанажаў і ўсе правілы напісання, плюс крыхотны промпт карыстальніка («згенеруй спіс кадраў для 1 сцэны») і строгі кантракт вываду ў JSON. Усе мадэлі атрымлівалі байт у байт ідэнтычны кантэнт; адаптаваўся пад вендара толькі механізм структураванага вываду.

Чатыры мадэлі ўздоўж восі кошту: танны фаварыт (GPT-5.4-mini), найноўшы поўны GPT (GPT-5.5), Claude вышэйшага ўзроўню (Opus 4.8) і Claude сярэдняга ўзроўню (Sonnet 4.6).

Два інструменты. Дэтэрмінаваны сканер уцечак, які механічна правярае палі пры t=0 на схаваныя словы, незаяўленыя назоўнікі-«чужынцы» і фармулёўкі раскрыцця (бал: 10 мінус штрафы). І сляпая крос-вендарная панэль суддзяў: два суддзі ад розных вендараў (адзін Opus, адзін GPT-5.5) ацэньвалі чатыры вынікі ананімізавана — з перапазнакамі A/B/C/D, прычым ніводнаму суддзі не казалі, якая мадэль што напісала і які з вынікаў яго ўласны, — па шасці вымярэннях: дыялог, апісанне, рух, эмоцыя, дысцыпліна першага кадра і звязнасць.

Два суддзі ад розных вендараў засцерагаюць ад густу якой-небудзь адной мадэлі; ананімізацыя ўваходаў не дае суддзі ліслівіць уласнай працы.

Што адбылося

Раўнд 1, вузкі тэст на ўцечку. На свежай выбарцы ўсе чатыры мадэлі набралі 10/10 — чыста — супраць 0/10 у рэальнага прадакшэн-кадра. Той самы фаварыт, што даў уцечку ў прадакшэне, тут з таго ж промпта выдаў чысты кадр.

Гэта першы ўрок, і яго лёгка прапусціць: баг быў стахастычны, а не дэфект мадэлі. Пры звычайнай тэмпературы сэмплавання збой носіць імавернасны характар. Адзін праход не можа развесці мадэлі па гэтай восі — і ніводная замена мадэлі не гарантуе чыстага кадра.

Раўнд 2, поўная сляпая ацэнка. Паколькі вузкі тэст насыціўся, я ацэньваў увесь вынік. Сумарныя балы панэлі з 60:

Абодва суддзі незалежна паставілі дзве мадэлі Claude наверх, а GPT-5.5 — апошнім. Дэталь, праз якую я гэтаму паверыў: суддзя на GPT-5.5 паставіў мадэлі ўласнага вендара на апошняе месца. Ніякай прыхільнасці да сваіх — калі што, наадварот.

Тое, што іх развяло, было канкрэтным. Дзве найлепшыя напісалі сапраўдны двухбаковы абмен — адна рыбка абвінавачвае, другая адказвае («Я ж проста еў…», прывязваючы апраўданне да чарвяка ў роце) — плюс прыдатную для анімацыі фізічную камедыю («ляпае плаўніком па твары, чарвяк вылятае»). Абедзве мадэлі GPT далі аднабаковае абвінавачванне і пакінулі другога персанажа без дзеяння.

І кульмінацыя ўсяго даследавання: GPT-5.5, найноўшы флагман, выйграў вузкую метрыку ўцечкі, але прыйшоў апошнім у агульным заліку. Ён утрымаў першы кадр чыстым — а потым перанёс раскрыццё ў іншае поле, якое сканер не правяраў. Прайшоў проксі і ўсё роўна сапсаваў жарт.

Чысты першы кадр на Sonnet 4.6: толькі два персанажы

Чысты першы кадр на Sonnet 4.6: толькі два персанажы. Чарвяк у роце рыбкі-клоўна — тая самая адгаворка, якую абыгрывае дыялог: дэталь гісторыі, а не ўцёклае раскрыццё.

Аптымізацыя адной метрыкі можа актыўна выбіраць горшы прадукт. Адзінае, што гэта злавіла, — погляд на ўвесь вынік цалкам, усляпую.

Рашэнне «якасць супраць кошту»

Вось дзеля гэтага раздзела даследаванне і існуе. Вымерана на жывым выкліку: адна сцэна на Sonnet 4.6 спажыла прыкладна 12k токенаў на ўваходзе + прыкладна 1.3k на вывадзе — уваход дамінуе праз фіксаваны сістэмны промпт, вывад расце з колькасцю сцэн. Прыкладныя суадносіны на праект для відэа з 6 сцэн (перад тым як называць лічбы, пераправерце актуальныя цэны вендараў — трывалае тут менавіта суадносіны):

Прачытайце гэта трыма спосабамі:

Таму я выкаціў Sonnet 4.6 — калена крывой: прыкладна якасць Opus, моцна вышэй за абодва GPT, прыкладна за пятую частку цаны Opus. Два ўдакладненні трымаюць рахунак сумленным: некрэатыўныя дапаможныя выклікі (валідатар, нармалізатар дыялогу) застаюцца на таннай мадэлі, бо нічога не складаюць; а мадэль сцэнарыста — гэта адна канфігурацыйная канстанта, таму перавесці на Opus або вярнуць назад — змена ў адзін радок.

А баг, з якога ўсё пачалося? Апгрэйд мадэлі зніжае шанцы ўцечкі ў першы кадр, але не можа выключыць выпадак з кубікам. Надзейнае выпраўленне — дэтэрмінаванае: збіраць пачатковы кадр з абмежаваных слотаў (персанажы, іх поза і эмоцыя, толькі навакольная абстаноўка) і выразаць любое раскрыццё ці аб'ект-чужынец у кодзе, незалежна ад мадэлі. Плаціць за большую мадэль, каб купіць надзейнасць, якую можна атрымаць дэтэрмінавана і задарма, — гэта проста перавернутая пастка таннай мадэлі.

Што я хацеў бы, каб вы ўзялі, а не прынялі на веру

Сумленныя абмежаванні: гэты рэйтынг трымаецца на адной генерацыі на мадэль і двух суддзях. Разрыў Opus/Sonnet — гэта шум, лічыце іх роўнымі. Суддзі таксама ўдзельнікі (ананімізацыя і крос-вендарная згода зніжаюць самаперавагу, але не сціраюць яе). Гэта адзін сцэнарый, адзін жанр. Мацнейшае даследаванне праганяе N≥10–20 выбарак на мадэль і паведамляе размеркаванні, а не пунктавыя балы. Нічога з гэтага не перакульвае напрамак выніку, але абмяжоўвае, наколькі жорстка яго можна сцвярджаць.

Часткі, якія пераносяцца, незалежна ад таго, які вендар перамагае ў вашым выпадку:

  1. Тэстуйце на сваім рэальным промпце, а не на сінтэтычным. Сумленнасць залежыць ад ідэнтычнага, праўдзіва прадакшэн-уваходу.
  2. Вымярайце холісцічна і ўсляпую. Адна проксі-метрыка рана ці позна выбера горшы прадукт; ананімізаванае крос-вендарнае суддзяванне гэта ловіць.
  3. Лічыце цану рэальнымі токенамі і параўноўвайце якасць за долар, а не пікавую якасць — асабліва для выкліку, памножанага на ўсю вашу нагрузку.
  4. Аддзяляйце стахастычныя багі ад якасці мадэлі. Калі дэфект з'яўляецца і знікае паміж праходамі адной і той жа мадэлі, ён імавернасны — выпраўляйце яго ў кодзе, не выкупляйцеся большай мадэллю.

---

Я Дзмітрый Гарупа, fractional CTO, які будуе і выкатвае AI-сістэмы ўласнымі рукамі і апісвае тое, чаму вучыць работа, — напрыклад, як я даў сваім AI-агентам пастаянную памяць паміж сесіямі. Калі вы праводзіце такія ацэнкі ці хочаце паспрачацца з тым, як я правёў гэтую, напішыце мне — самыя вострыя пярэчанні самыя карысныя.