【TechWeb】10月14日音讯,今天凌晨,蚂聚首团崇拜推出万亿参数想考模子Ring-1T,并全面开源模子权重、测验配方。
Ring-1T在9月30日开源的预览版Ring-1T-preview基础上,合手续彭胀大领域可考证奖励强化学习(RLVR)测验,进一步引发万亿基座的当然谈话推理能力,并通过 RLHF 测验完善模子通用能力,在各项任务榜单上弘扬愈加平衡。
为了合手续引发Ring-1T的数学等复杂推理能力,这次百灵团队挑战了难度更高的IMO2025(国外数学奥利匹克)赛题,将Ring-1T接入多智能体框架AWorld,使用纯当然谈话推理进行解题。践诺效劳夸耀,Ring-1T仅用一次解出了第1、3、4、5题,特殊于IMO银牌水平,成为首个能拿IMO国外奥数奖的开源系统。Ring-1T在第三次尝试IMO时对第2题几何解释也给出了接近满分的解释经由,在顶流大模子着实削株掘根的第六题中将谜底经管到与Gemini 2.5 Pro 疏通的“4048”(正确谜底为2112)。
当作一款想考模子,Ring-1T也弘扬出了很好的通用能力,在“东谈主类偏好对皆”测试Arena-Hard V2中,Ring-1T以81.59的奏凯率居于开源模子榜首,靠拢GPT-5-Thinking(High)82.91的收货。在面向严谨领域的医疗问答HealthBench测评中,Ring-1T也以最高分获取开源领域最好。
万亿参数想考模子测验最浩劫题是训推精度互异,即测验阶段与推理阶段因终了细节互异导致的测验和推理精度不一致,进而导致测验崩溃。据先容,在Ring-1T模子中,蚂蚁秉承了自研的“棒冰(icepop)”算法来应答这项行业贫寒,即用带掩码的双向截断技艺把测验-推理漫衍互异冻结在低水位,确保长序列、长周期测验不崩。
此外,应答万亿参数模子强化学习测验,蚂蚁还自研了高性能强化学习系统ASystem(其中包含已开源的高性能强化学习框架AReaL),非凡针对万亿参数模子的显存解决和训推权重交换问题作念了雅致的优化,终昭着单机显存碎屑秒级回收、权重零冗余交换,把大领域RL测验肃穆跑成远大。
据百灵团队流露,Ring-1T模子是其在万亿想考模子上的初次尝试,蚂蚁百灵团队会在后续的版块中连续完善模子性能。现在,用户可通过HuggingFace、魔搭社区下载模子,并通过蚂蚁百宝箱等平台在线体验。
最近,百灵团队动作时时,先是9月30日发布了Ring-1T的预览版Ring-1T-preview,二者都是想考模子,也等于推理模子。10月9日,蚂聚首团发布了万亿参数通用大谈话模子Ling-1T,这个长短想考模子。
抑止现在体育游戏app平台,蚂蚁百灵大模子仍是发布18款模子,酿成从160亿总参数到1万亿总参数的大谈话模子产物矩阵,其中包括两款万亿参数模子:通用大谈话模子Ling-1T、想考模子Ring-1T。
声明:新浪网独家稿件,未经授权退却转载。 -->