闻乐 发自 凹非寺买球下单平台
量子位 | 公众号 QbitAI
好夸张……
参赛大模子防微杜渐,通通0分。
谢赛宁等东谈主出题,径直把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模子透顶难倒。
到底是什么让一众跨越模子一败涂地?
LiveCodeBench Pro:一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的及时基准测试。
题库还逐日更新,来防范LLMs“背题”,不得不说这太狠了(doge)。
谢赛宁诚然也参与了这项责任,但他谦卑地说我方仅仅个啦啦队成员。
此前有报谈称,LLM编程当今已超过东谈主类大众,但本次测试恶果标明并非如斯。
发扬最好的模子,在中等难度题上的一次通过率仅53%,难题通过率更是为0。
即使是最好的模子o4-mini-high,一朝器具调用被屏蔽,Elo也唯有2100,远低于真简单师级的2700外传线。
谢赛宁示意:
打败这个基准就像AlphaGo打败李世石相同。咱们还莫得达到阿谁水平——以致关于有明确可考据恶果的问题亦然如斯。
LiveCodeBench Pro:动态题库磨真金不怕火LLMs算法逻辑深度测试是怎么构建的
该基准由一众奥林匹克获奖者构建,在比赛适度后立即汇集每谈Codeforces、ICPC和IOI题目,在互联网上出现正确谜底之前拿获每个问题。
逐日更新题库,以减少数据浑浊,保证评估环境的确切性与挑战性。
测试收录了584谈顶流竞赛题,团队手动对每个问题进行标注,标注推行包括科罚每个任务所需的流弊手段,并把柄问题的主张焦点将题目分为常识密集型、逻辑密集型和不雅察密集型三大类。
还将题目分为三个难度级别,这并非是东谈主工挑选的,而是通过正态散布自动聘请。
举例,统共Codeforces问题的评分在2000分以上的皆会被归入艰巨等第。
模子具体发扬
团队会基于题目背后的算法念念想进行分类,纪录Codeforces官方难度评级(对应Elo分数下50%的凯旋率),同期梳理流弊不雅察点、常见罗网及边际案例,为评估提供多维度参考。
在测试流程中,团队对模子和东谈主类大众提交的每个科罚决策,纪录其判定恶果(如通过、谜底失实、超时等),并标注根柢原因(念念路层面失实或收尾层面失实)。
若是代码无法通过题目自带的样例输入输出,会标记 “样例未通过”。
鸠合题目分类与提交恶果,对比东谈主类大众的解题模式,分析模子在不同难度(通俗 / 中等 / 艰巨)、题型(常识密集型 / 逻辑密集型 / 不雅察密集型)下的发扬,定位模子在算法推理、样例哄骗及边际案例处理等方面的短板。
团队一共测试了22款大模子,并把柄发扬给出了完好意思榜单,各人不错自行巡视任何一个模子在每一个问题上给出的科罚圭表。
同期绘画了每一个模子的评分趋势,可供开脱聘请想要了解的模子。
测试恶果娇傲:
模子在常识密集型和逻辑密集型问题上发扬更好,擅长 “死记硬背”(如数据结构模板),但在不雅察密集型问题或案例责任中发扬较差,搞不定 “灵光一现” 的预备、博弈题。
与东谈主类比较,o3-mini 等模子在精准、无失实的收尾方面展现出更高档的手段,但在算法假想方面失态。
LLMs擅长收尾类问题,但在需要紧密算法推理和复杂案例分析的题目上发扬欠佳,还常给出看似正照实则失实的解说。
LLMs频繁无法正确通过题目提供的示例输入,娇傲其对给定信息的哄骗不充分。
LLMs很猛进度上依赖器具增强(如终局访谒、蚁集搜索),而非本身推明智力。
团队还增多了尝试次数(pass@k),并发现这么不错显耀普及LLMs在中通俗题的发扬,但对难题依旧无力。
比如,通过增多o3-high模子的尝试次数来测试其性能,但不管尝试些许次,它仍然无法科罚任何一个艰巨分区的题目。
启用推理功能后,LLMs在组合数学等常识密集型题目中普及显然,但在不雅察密集型题目中普及有限。
策划员还露出,每个季度,团队皆将发布一个完全全新的评估集,保证数据的时效性。
团队超半数成员为华东谈主
LiveCodeBench Pro团队由一众奥林匹克竞赛得奖者构成,其中超半数成员为华东谈主。
该项谋略主要厚爱东谈主郑子涵毕业于成皆番邦语学校,现于纽约大学本科在读,曾代表纽约大学参加ICPC寰球总决赛,赢得第二名。
他先后在腾讯、英伟达担任研发实习生,本年2月份以实习生的身份干预OpenAI。
另一位厚爱东谈主柴文浩于2023年在浙江大学完老本科学业,硕士就读于华盛顿大学,本年9月将前去普林斯顿大学预备机科学专科就读博士。
他曾于Pika Labs和微软亚洲策划院实习,先前策划主要波及视频领悟和生成模子。
他教导树立了MovieChat,这是第一个用于长视频领悟的超大多模态模子。
何况,他在ICLR、CVPR、ICCV等顶会期刊发表过联系策划论文。
该项谋略其他参与者分辨来自加州大学、普林斯顿大学等,这是一支颠倒年青的戎行。
论文地址:https://arxiv.org/abs/2506.11928步地地址:https://github.com/GavinZhengOI/LiveCodeBench-Pro名次榜:https://livecodebenchpro.com/
参考连气儿:[1]https://x.com/ZihanZheng71803/status/1934780656665677928[2]https://x.com/rohanpaul_ai/status/1934751145400111572[3]https://x.com/sainingxie/status/1934786355969851630
— 完 —
量子位 QbitAI
关爱咱们买球下单平台,第一技术获知前沿科技动态
ZIXUN
海报新闻记者 文露漪 报谈足球投注app 8月12日,距离8岁自闭症男孩王某某在云南大理市大理镇阳和茶厂近邻失散已超72小时,数百名搜救东谈主员仍然在山林中寻找他的思路。 王某某事发当日衣裳 据了解,8岁的王某某是别称自闭症儿童,8月9日上昼,他在奴婢一个夏季营团队攀高苍山时与军队走失,走失机上身穿蓝白色相间上衣,下身穿深色牛仔裤,背橙色儿童背包,身上有标牌及家属电话。随后,当地多部门调和开展搜救,干预了搜救犬、无东谈主机、热成像仪等。 8月12日晚,海报新闻记者干系上现场搜救志愿者“木头叔叔
湖北日报全媒记者刘胜 通信员刘伟 8月7日以来,十堰市郧西县香口乡、马安镇、城关镇等地遭逢强降雨。香口乡黄云铺最大累计降雨量达到215.7毫米。降雨时期,郧西县提前研判,将27处风险较大的地灾隐患点规模内受恐吓的97户246东说念主提前窜改安置,得胜避险2起地质灾害,幸免了3户10东说念主可能因灾伤一火。 头晚窜改,第二天滑坡发生 8月7日20时傍边,十堰市当然资源和城乡成立局发布地质灾害三级风险预警。 郧西县马安镇马安关村地灾网格专管员章新强收到预警信息后,马上组织开展夜间雨中张望。在张望时
特斯拉在得州超等工场举办的AI Day 2025活动,迷惑了专家科技与汽车行业的庸碌顺心。活动中,特斯拉带来了一项紧要冲突——初次展示了无标的盘、无踏板的Robotaxi量产车型可以赌足球的app,这一创新为自动驾驶限制带来了全新的活力。 这款Robotaxi量产车型不仅在续航里程上达到了480公里,零百加快也仅需4.8秒,性能贯通尤为出色。更令东谈主瞩概念是其运营资本,每公里仅需0.29好意思元,这一显赫的资本上风将使其在买卖化运营中占据进模式位。车内假想纯粹而当代,取消了标的盘和踏板,为乘
学生期间就可爱机器东说念主的擎朗智能首创东说念主兼CEO李通是个典型的理工男买球下单平台,于今还常常时提到我方的自动化专科,当时候他白昼上课,晚上在践诺室作念名堂,累了就径直打地铺,创业“即是因为好玩”,“市集上莫得这么一家机器东说念主公司”。 2025年是擎朗智能缔造的第16个岁首,李通的阅历与电影《当幸福来叩门》隔空重复,畴前提着箱子挨个公司倾销,当今公司机器东说念主居品已累计部署超10万台,业务隐敝全球60多个国度、超600个城市及地区。 算作穿越了就业机器东说念主和东说念主形机器东说念
【智车派新闻】据智车派了解,三星SDI于近日秘书,其好意思国电动汽车制造客户Lucid汽车的Lucid Air Grand Touring车型在最近的驾驶测试中创下新宇宙记载:单次充电行驶1205公里。该测试于上月进行,阶梯从瑞士圣莫里茨蔓延至德国慕尼黑,隐蔽高速公路、山路和后路。车辆全程未进行衰退充电,这一距离比之前的1045公里记载超出160公里。 Lucid汽车 Lucid Air Grand Touring是客岁推出的高性能长续航车型。基于出色的电板性能,该车提供超长驾驶里程和强劲性能