闻乐 发自 凹非寺买球下单平台
量子位 | 公众号 QbitAI
好夸张……
参赛大模子防微杜渐,通通0分。
谢赛宁等东谈主出题,径直把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模子透顶难倒。
到底是什么让一众跨越模子一败涂地?
LiveCodeBench Pro:一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的及时基准测试。
题库还逐日更新,来防范LLMs“背题”,不得不说这太狠了(doge)。
谢赛宁诚然也参与了这项责任,但他谦卑地说我方仅仅个啦啦队成员。
此前有报谈称,LLM编程当今已超过东谈主类大众,但本次测试恶果标明并非如斯。
发扬最好的模子,在中等难度题上的一次通过率仅53%,难题通过率更是为0。
即使是最好的模子o4-mini-high,一朝器具调用被屏蔽,Elo也唯有2100,远低于真简单师级的2700外传线。
谢赛宁示意:
打败这个基准就像AlphaGo打败李世石相同。咱们还莫得达到阿谁水平——以致关于有明确可考据恶果的问题亦然如斯。
LiveCodeBench Pro:动态题库磨真金不怕火LLMs算法逻辑深度测试是怎么构建的
该基准由一众奥林匹克获奖者构建,在比赛适度后立即汇集每谈Codeforces、ICPC和IOI题目,在互联网上出现正确谜底之前拿获每个问题。
逐日更新题库,以减少数据浑浊,保证评估环境的确切性与挑战性。
测试收录了584谈顶流竞赛题,团队手动对每个问题进行标注,标注推行包括科罚每个任务所需的流弊手段,并把柄问题的主张焦点将题目分为常识密集型、逻辑密集型和不雅察密集型三大类。
还将题目分为三个难度级别,这并非是东谈主工挑选的,而是通过正态散布自动聘请。
举例,统共Codeforces问题的评分在2000分以上的皆会被归入艰巨等第。
模子具体发扬
团队会基于题目背后的算法念念想进行分类,纪录Codeforces官方难度评级(对应Elo分数下50%的凯旋率),同期梳理流弊不雅察点、常见罗网及边际案例,为评估提供多维度参考。
在测试流程中,团队对模子和东谈主类大众提交的每个科罚决策,纪录其判定恶果(如通过、谜底失实、超时等),并标注根柢原因(念念路层面失实或收尾层面失实)。
若是代码无法通过题目自带的样例输入输出,会标记 “样例未通过”。
鸠合题目分类与提交恶果,对比东谈主类大众的解题模式,分析模子在不同难度(通俗 / 中等 / 艰巨)、题型(常识密集型 / 逻辑密集型 / 不雅察密集型)下的发扬,定位模子在算法推理、样例哄骗及边际案例处理等方面的短板。
团队一共测试了22款大模子,并把柄发扬给出了完好意思榜单,各人不错自行巡视任何一个模子在每一个问题上给出的科罚圭表。
同期绘画了每一个模子的评分趋势,可供开脱聘请想要了解的模子。
测试恶果娇傲:
模子在常识密集型和逻辑密集型问题上发扬更好,擅长 “死记硬背”(如数据结构模板),但在不雅察密集型问题或案例责任中发扬较差,搞不定 “灵光一现” 的预备、博弈题。
与东谈主类比较,o3-mini 等模子在精准、无失实的收尾方面展现出更高档的手段,但在算法假想方面失态。
LLMs擅长收尾类问题,但在需要紧密算法推理和复杂案例分析的题目上发扬欠佳,还常给出看似正照实则失实的解说。
LLMs频繁无法正确通过题目提供的示例输入,娇傲其对给定信息的哄骗不充分。
LLMs很猛进度上依赖器具增强(如终局访谒、蚁集搜索),而非本身推明智力。
团队还增多了尝试次数(pass@k),并发现这么不错显耀普及LLMs在中通俗题的发扬,但对难题依旧无力。
比如,通过增多o3-high模子的尝试次数来测试其性能,但不管尝试些许次,它仍然无法科罚任何一个艰巨分区的题目。
启用推理功能后,LLMs在组合数学等常识密集型题目中普及显然,但在不雅察密集型题目中普及有限。
策划员还露出,每个季度,团队皆将发布一个完全全新的评估集,保证数据的时效性。
团队超半数成员为华东谈主
LiveCodeBench Pro团队由一众奥林匹克竞赛得奖者构成,其中超半数成员为华东谈主。
该项谋略主要厚爱东谈主郑子涵毕业于成皆番邦语学校,现于纽约大学本科在读,曾代表纽约大学参加ICPC寰球总决赛,赢得第二名。
他先后在腾讯、英伟达担任研发实习生,本年2月份以实习生的身份干预OpenAI。
另一位厚爱东谈主柴文浩于2023年在浙江大学完老本科学业,硕士就读于华盛顿大学,本年9月将前去普林斯顿大学预备机科学专科就读博士。
他曾于Pika Labs和微软亚洲策划院实习,先前策划主要波及视频领悟和生成模子。
他教导树立了MovieChat,这是第一个用于长视频领悟的超大多模态模子。
何况,他在ICLR、CVPR、ICCV等顶会期刊发表过联系策划论文。
该项谋略其他参与者分辨来自加州大学、普林斯顿大学等,这是一支颠倒年青的戎行。
论文地址:https://arxiv.org/abs/2506.11928步地地址:https://github.com/GavinZhengOI/LiveCodeBench-Pro名次榜:https://livecodebenchpro.com/
参考连气儿:[1]https://x.com/ZihanZheng71803/status/1934780656665677928[2]https://x.com/rohanpaul_ai/status/1934751145400111572[3]https://x.com/sainingxie/status/1934786355969851630
— 完 —
量子位 QbitAI
关爱咱们买球下单平台,第一技术获知前沿科技动态
ZIXUN
闻乐 发自 凹非寺买球下单平台 量子位 | 公众号 QbitAI 好夸张…… 参赛大模子防微杜渐,通通0分。 谢赛宁等东谈主出题,径直把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模子透顶难倒。 到底是什么让一众跨越模子一败涂地? LiveCodeBench Pro:一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的及时基准测试。 题库还逐日更新,来防范LLMs“背题”,不得不说这太狠了(doge)。 谢赛宁诚然也参与了这项责任,但他谦
证券日报网讯 6月19日晚间,江特电机发布公告称足球投注app,公司及控股子公司不存在过时对外担保、波及诉讼的对外担保及因担保被判决败诉而首肯担蚀本的情形。
中国99A主战坦克的混杂能源测试版,径直把柴油机和电动机捆在沿途干活,不仅杂音更低、加快更猛,还能给昔日激光刀兵这种电老虎供电。更狠的是,它高原性能吊打传统柴油机,续航里程还暴涨——说白了,即是让后勤车队少跑几趟,构兵时能多苟几天。当前全国坦克圈就中国玩得最花:99A是土豪顶配足球投注app,96B走性价比门道足球投注app,15式专治平地水网,对比之下,好意思国M1坦克用的照旧1980年的燃气轮机,德国豹2最近在乌克兰被开罐头发了全网,俄罗斯吹了十年的T-14阿玛塔到当前没凑够一个营。更搞笑的
中新经纬6月11日电 中央纪委国度监委网站11日通报足球投注app,中国拓荒银行安徽省分行原党委委员、副行长范绍杰被开除党籍。 据中央纪委国度监委驻中国拓荒银行纪检监察组、安徽省纪委监委音书:日前,经中央纪委国度监委批准,中央纪委国度监委驻中国拓荒银行纪检监察组、安徽省黄山市监委对中国拓荒银行安徽省分行原党委委员、副行长范绍杰严重非法罪人问题进行了步骤审查和监察访谒。 经查,范绍杰身为党员带领干部,丧失理念念信念,背弃初心劳动,对党不至心不安分,抗拒组织审查;违背中央八项行径精神,违规继承礼品
不雅点网讯:6月12日音尘,广州珠江新城的豪宅技俩成功新寰球广粤良友一宗法拍房激勉市集温存,18位买家参与竞拍,近5万东谈主在线围不雅。 过程59轮浓烈竞价,最终成交溢价率达到175%以上,单价迫害20万元/庞大米,其中一位买家一次性涨价1000万元。 据悉,广州珠江新城举座成交均价踯躅在13-14万/庞大米时,成功新寰球的成交均价已迫害20万庞大米,成为广州市集唯二单价超30万/庞大米的平层金钱。 6月,成功新寰球将抓续推出建面约254-835庞大米新品,同期建面约132-195庞大米明星户