BridgeMind AI Anthropic шығарған Claude Opus 4.6 құпия түрде функционалдық мүмкіндігін төмендетті деп мәлімдеді, бұл жағдай халлюцинация бойынша бенчмарк қайта сынағаннан кейін белгілі болды. Вирустық сипат алған бұл жазба әдістемесінің кемшіліктеріне байланысты қатаң сынға ұшырады.
Бұл мәлімдеме ЖИ компаниялары шығындарды азайту үшін ақылы модельдерді жасырын түрде әлсіретіп жатыр ма деген тақырыпта кең көлемде пікірталас тудырды.
BridgeMind халлюцинацияларда 98%-ға секіріс тіркеді деп мәлімдеді
BridgeBench кодтау бенчмаркін ұсынатын BridgeMind командасы Claude Opus 4.6-ның халлюцинация бойынша лидербордта екінші орыннан оныншы орынға түскенін жазды. Дәлдігі 83,3%-дан 68,3%-ға дейін құлдырағаны хабарланды.
«CLAUDE OPUS 4.6 әлсіретілді. Мұны BridgeBench дәлелдеді. Өткен аптада Claude Opus 4.6 халлюцинация бенчмаркінде дәлдігі 83,3% болып, #2 орын алды. Бүгін Claude Opus 4.6 қайтадан тестіленді, енді ол лидербордта тек 68,3% дәлдікпен #10 орынға түсті», деп жазды.
Жазба мұны «ұтымды ойлаудың төмендеуінің» дәлелі ретінде көрсетті. Алайда, негізгі деректерге тереңірек үңілгенде, басқа көрініс анық байқалады.
Сарапшылар салыстыру қатты қате деп санайды
Компьютерлік ғылым маманы Пол Калкрафт бұл мәлімдемені «өте нашар ғылыми әдіс» деп бағалап, әдістемедегі маңызды ақауды атап өтті.
«Өте нашар ғылыми әдіс. Сіз Opus-ты бүгін 30 тапсырмада тестіледіңіз, ал алдыңғы көрсеткіш небәрі 6 тапсырмада болған. Ортақ 6 тапсырма бойынша нәтиже: бүгін 85,4%, ал бұрын 87,6%-ға жеткен. Айырмашылық негізінен бір ғана жалғандыққа байланысты, қайталанған жоқ – бұл ЖИ модельдері үшін статистикалық шу аясында», – деп пікір білдірді Калкрафт.
Алғашқы жоғары нәтиже тек алты бенчмарк тапсырмасынан алынған. Жаңа қайта сынау бенчмарк аясын 30 тапсырмаға дейін кеңейтті.
Айқасқан алты тапсырмада көрсеткіш шамамен бірдей қалды, тек 87,6%-дан 85,4%-ға дейін ғана төмендеді.
Бұл аздаған айырмашылық бір тапсырмадағы жалғыз артық жалғандық салдарынан болды. Қайталаусыз өткен сынақта мұндай ауытқулар ЖИ модельдері үшін статистикалық қалыпты жағдайға жатады.
Ірі тілдік модельдер детерминистік емес, сондықтан шағын үлгідегі сәтсіз нәтиже нәтижелерге айтарлықтай әсер етуі ықтимал.
Жалпы наразы көңіл-күй нарративті күшейтуде
Дегенмен, бұл жазба қалың қауымның жүйкесіне тиді. 2026 жылдың ақпан айында іске қосылғаннан бері Claude Opus 4.6-ға қатысты сапаның төмендеуі туралы тұрақты шағымдар айтылып келеді.
Девелоперлер жауаптардың қысқарып, нұсқау орындау қабілетінің әлсіреп, әсіресе шың сағаттарында ұтымды ойлау деңгейінің төмендегенін хабарлайды.
Осы өзгерістің бір бөлігі әдейі жасалған өнімдік өзгерістерге байланысты. Anthropic арнайы бейімделетін ойлау басқаруын енгізді — модельдің ресурсты тұтыну деңгейін өздігінен реттеуге мүмкіндік берді. Кейін әдепкіде орташадан жоғары тереңдіктің орнына орташа күш-жігер деңгейі таңдалды, бұл тиімділікке басымдық берді.
6 800-ден астам Claude Code сессиясын тәуелсіз талдау 2026 жылдың ақпан айының соңына қарай ұтымды ойлаудың шамамен 67%-ға азайғанын көрсетті.
Модель кодты өңдеуге кіріспес бұрын файлды оқу үлесі 6,6-дан 2,0-ге дейін құлдырады. Бұл ол кодпен толық таныспай-ақ түзету жасауға тырысқанын көрсетеді.
AI қолданушылары үшін мұның мағынасы қандай?
Бұл ЖИ индустриясында шиеленістің күшейгенін айғақтайды. Компаниялар өнімді шығарып, оны ауқымды әрі арзан етуге ұмтылады, ал белсенді қолданушылар тұрақты шың өнімділікті күтеді. Осы екі мақсаттың арасындағы айырмашылық сенімге селкеу түсіреді.
Бар деректер негізінде BridgeBench нәтижелері әдейі төмендетуді анық дәлелдей алмайды. Салыстыру мазмұны әркелкі болды, ал ортақ тапсырмалардағы нәтиже қажет көрсеткіштерге айтарлықтай ұқсады.
Дегенмен, қолданушылар наразылығы мүлдем негізсіз емес. Бейімделетін есептеу басқаруы мен қызметтің оңтайландырылуы Claude Opus 4.6-ның шынайы жұмысын өзгертті. Тұрақты нәтиже күтетін девелоперлер үшін мұндай өзгерістер аса маңызды.
Anthropic 13 сәуірге дейінгі мерзімде BridgeBench-ке қатысты нақты мәлімдеме жасаған жоқ.





