Бөлісу

Вирустық BridgeBench жазбасында Claude Opus 4,6 «әлсіретілді» деп айтылып, сыншылар оны нашар ғылым деп атады

Google-де бізді таңдаңыз

Жазған және өңдеген

Lockridge Okoth

Жарияланған:13 Сәуір 2026, 13:13 UTC

Вирустық X жазбада Claude Opus 4,6-ның галлюцинациялары 98%-ға артты деп айтылды.
Сыншылар салыстыру кезінде әртүрлі тест көлемдері пайдаланып, бірдей көрсеткіштер алынбағанын айтты.
Сол-тұрпаттағы талдау ЖИ-дің қалыпты ауытқуы аясында, өзгертулердің ең төмен деңгейде екенін көрсетеді.

#Жасанды интеллект жаңалықтары

#AI туралы түсініктер

#AI компаниялары

BridgeMind AI Anthropic шығарған Claude Opus 4.6 құпия түрде функционалдық мүмкіндігін төмендетті деп мәлімдеді, бұл жағдай халлюцинация бойынша бенчмарк қайта сынағаннан кейін белгілі болды. Вирустық сипат алған бұл жазба әдістемесінің кемшіліктеріне байланысты қатаң сынға ұшырады.

Бұл мәлімдеме ЖИ компаниялары шығындарды азайту үшін ақылы модельдерді жасырын түрде әлсіретіп жатыр ма деген тақырыпта кең көлемде пікірталас тудырды.

BridgeMind халлюцинацияларда 98%-ға секіріс тіркеді деп мәлімдеді

BridgeBench кодтау бенчмаркін ұсынатын BridgeMind командасы Claude Opus 4.6-ның халлюцинация бойынша лидербордта екінші орыннан оныншы орынға түскенін жазды. Дәлдігі 83,3%-дан 68,3%-ға дейін құлдырағаны хабарланды.

«CLAUDE OPUS 4.6 әлсіретілді. Мұны BridgeBench дәлелдеді. Өткен аптада Claude Opus 4.6 халлюцинация бенчмаркінде дәлдігі 83,3% болып, #2 орын алды. Бүгін Claude Opus 4.6 қайтадан тестіленді, енді ол лидербордта тек 68,3% дәлдікпен #10 орынға түсті», деп жазды.

Жазба мұны «ұтымды ойлаудың төмендеуінің» дәлелі ретінде көрсетті. Алайда, негізгі деректерге тереңірек үңілгенде, басқа көрініс анық байқалады.

Сарапшылар салыстыру қатты қате деп санайды

Компьютерлік ғылым маманы Пол Калкрафт бұл мәлімдемені «өте нашар ғылыми әдіс» деп бағалап, әдістемедегі маңызды ақауды атап өтті.

«Өте нашар ғылыми әдіс. Сіз Opus-ты бүгін 30 тапсырмада тестіледіңіз, ал алдыңғы көрсеткіш небәрі 6 тапсырмада болған. Ортақ 6 тапсырма бойынша нәтиже: бүгін 85,4%, ал бұрын 87,6%-ға жеткен. Айырмашылық негізінен бір ғана жалғандыққа байланысты, қайталанған жоқ – бұл ЖИ модельдері үшін статистикалық шу аясында», – деп пікір білдірді Калкрафт.

Алғашқы жоғары нәтиже тек алты бенчмарк тапсырмасынан алынған. Жаңа қайта сынау бенчмарк аясын 30 тапсырмаға дейін кеңейтті.

Айқасқан алты тапсырмада көрсеткіш шамамен бірдей қалды, тек 87,6%-дан 85,4%-ға дейін ғана төмендеді.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Бұл аздаған айырмашылық бір тапсырмадағы жалғыз артық жалғандық салдарынан болды. Қайталаусыз өткен сынақта мұндай ауытқулар ЖИ модельдері үшін статистикалық қалыпты жағдайға жатады.

Ірі тілдік модельдер детерминистік емес, сондықтан шағын үлгідегі сәтсіз нәтиже нәтижелерге айтарлықтай әсер етуі ықтимал.

Жалпы наразы көңіл-күй нарративті күшейтуде

Дегенмен, бұл жазба қалың қауымның жүйкесіне тиді. 2026 жылдың ақпан айында іске қосылғаннан бері Claude Opus 4.6-ға қатысты сапаның төмендеуі туралы тұрақты шағымдар айтылып келеді.

Девелоперлер жауаптардың қысқарып, нұсқау орындау қабілетінің әлсіреп, әсіресе шың сағаттарында ұтымды ойлау деңгейінің төмендегенін хабарлайды.

Осы өзгерістің бір бөлігі әдейі жасалған өнімдік өзгерістерге байланысты. Anthropic арнайы бейімделетін ойлау басқаруын енгізді — модельдің ресурсты тұтыну деңгейін өздігінен реттеуге мүмкіндік берді. Кейін әдепкіде орташадан жоғары тереңдіктің орнына орташа күш-жігер деңгейі таңдалды, бұл тиімділікке басымдық берді.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

6 800-ден астам Claude Code сессиясын тәуелсіз талдау 2026 жылдың ақпан айының соңына қарай ұтымды ойлаудың шамамен 67%-ға азайғанын көрсетті.

Модель кодты өңдеуге кіріспес бұрын файлды оқу үлесі 6,6-дан 2,0-ге дейін құлдырады. Бұл ол кодпен толық таныспай-ақ түзету жасауға тырысқанын көрсетеді.

AI қолданушылары үшін мұның мағынасы қандай?

Бұл ЖИ индустриясында шиеленістің күшейгенін айғақтайды. Компаниялар өнімді шығарып, оны ауқымды әрі арзан етуге ұмтылады, ал белсенді қолданушылар тұрақты шың өнімділікті күтеді. Осы екі мақсаттың арасындағы айырмашылық сенімге селкеу түсіреді.

Бар деректер негізінде BridgeBench нәтижелері әдейі төмендетуді анық дәлелдей алмайды. Салыстыру мазмұны әркелкі болды, ал ортақ тапсырмалардағы нәтиже қажет көрсеткіштерге айтарлықтай ұқсады.

Дегенмен, қолданушылар наразылығы мүлдем негізсіз емес. Бейімделетін есептеу басқаруы мен қызметтің оңтайландырылуы Claude Opus 4.6-ның шынайы жұмысын өзгертті. Тұрақты нәтиже күтетін девелоперлер үшін мұндай өзгерістер аса маңызды.

Anthropic 13 сәуірге дейінгі мерзімде BridgeBench-ке қатысты нақты мәлімдеме жасаған жоқ.

BeInCrypto ұсынған криптовалюта нарығына қатысты ең соңғы талдауды оқу үшін мында басыңыз .

Жауапкершіліктен бас тарту

Біздің веб-сайттағы барлық ақпарат Trust Project нұсқаулығына сәйкес адал ниетпен және тек жалпы ақпарат беру мақсатында жарияланады. Біздің веб-сайттағы ақпаратқа сүйеніп қабылданған кез келген шешімге оқырманның өзі жауапты болады. Қосымша ақпаратты біздің Пайдалану шарттары, Құпиялылық саясаты және Жауапкершіліктен бас тарту ескертпесі беттерінен оқи аласыз.

Келесі оқу

Чарльз Хоскинсонның айтуынша, неге BIP-361 Сатошидің биткоиндарын құтқара алмайды

Жаңалықтар

Технология

17 сағат бұрын

Чарльз Хоскинсонның айтуынша, неге BIP-361 Сатошидің биткоиндарын құтқара алмайды