猫眼电影
猫眼电影记者 董强 报道P6F3X2M7T9QJ8L1B4WZR
新智元报道
编辑:KingHZ 艾伦
【新智元导读】DeepSeek最新模型DeepSeek-V3.1-Terminus来了!此前在输出中随机掺入「极」字的问题得到解决,Humanity's Last Exam成绩也较V3.1提升1/3!Terminus这个名字是否在暗示DeepSeek-V4也快要来了?
DeepSeek-V3.1-Terminus来了!
DeepSeek API文档、官方微信均已正式确认本次更新:
此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括:
· 语言一致性:缓解了中英文混杂、偶发异常字符等情况;
· Agent能力:进一步优化了Code Agent与Search Agent的表现。
目前,官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek-V3.1-Terminus。
开源版本下载地址如下:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
多项测评胜过Gemini 2.5 Pro
在理能力和智能体工具使用上,本次更新在多个基准上得到提升。
DeepSeek上次更新为8月21日,短短一个月,取得这一成绩来之不易,可喜可贺。
值得一提的是,新模型在Humanity's Last Exam(人类最后的考试)中,成绩提升幅度高达36.48%!
告别「极你太美」
之前,有网友发现:DeepSeek V3.1输出中随机带有「极」字。网友称:
这一Bug已经导致DeepSeek V3.1无法从事编程或对输出结构敏感的相关工作。希望官方早日修复。
这次更新明确已解决「偶发异常字符等情况」,结合「Code Agent优化」,希望这次更新能完美解决DeepSeek无法从事编程或对输出结构敏感的相关工作的Bug。
至于中英文混杂,是LLM的老毛病了,比如OpenAI o3-mini等模型被曝使用中文推理。
在DeepSeek-R1的Nature论文中,DeepSeek坦言:
语言混杂(language-mixing)问题,留待未来更新解决。
这次DeepSeek更新解决了中英文混杂问题。
我们也对之前在网上流传最广的会触发「极你太美」Bug的Prompt进行了测试:
之前,time.Second会被DeepSeek-V3.1在输出中破坏成time.Se极 / time.Se極 / time.Seextreme。
现在,新模型给出了5种定时器实现方法,多处都使用了time.Second。
我们经过多次尝试,均未能复现出该Bug,说明Bug确实可能已经被修复了。
此外,非Agent(Thinking模式)测评中,多项基准测试成绩得到提升:MMLU-Pro、GPQA-Diamond、Humanity's Last Exam。
同时,Agent相关测评也来了。
图源:https://x.com/karminski3/status/1970129020382826758
Agent能力超过Gemini
与DeepSeek-V3.1相比,新模型在工具使用与Agent任务中的表现有较大提升:
BrowseComp:30.0 -> 38.5
SimpleQA:93.4 -> 96.8
SWE-bench Verified: 66.0 -> 68.4
SWE-bench Multilingual: 54.5 -> 57.8
Terminal-bench: 31.3 -> 35.7
DeepSeek上次更新发布了DeepSeek-V3.1,称之为「迈向Agent时代第一步」。
短短一个月,Agent能力再次得到提升,年底的高级Agent还会远吗?
奇怪的是,并非全部基准测试成绩都得到提升,Codeforces、Aider-Polypglot、BrowseComp测评成绩有1%左右的小幅下降。
不过,新模型DeepSeek-V3.1-Terminus总体上进步明显,特别是在Humanity's Last Exam、LiveCodeBench、SimpleQA、SWE-bench Verified评测中,胜过了Gemini 2.5 Pro,补齐了Humanity's Last Exam这块最大的短板。
DeepSeek-V4/R2还远吗?
Terminus这个单词的中文意思是:终点。
在计算机术语中,终端(Terminal)也称终端设备,是计算机网络中处于网络最外围的设备,主要用于用户信息的输入以及处理结果的输出等。
或许,DeepSeek借用Terminus暗指编程能力的提升。
DeepSeek这波更新理所应当地引起了网友的关注。网友在线催更:
DeepSeek-V4什么时候要来?
DeepSeek-R2什么时候要来?
期待DeepSeek-V4和DeepSeek-R2给我们带来更大的震撼!
参考资料:
https://x.com/deepseek_ai/status/1970117808035074215
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
??时事1:888真人力博国际
??09月21日,WTT新加坡大满贯正赛开启 首日中国选手全员晋级,
京东金条如何协商延期还款,延期到期还是还不上怎么办
,金牌大风。??09月21日,“冷湖星”命名仪式在青海德令哈举行,
当彻底劈开后,几名老人亲自动手,攫取宝血,那真血中竟蕴含着部分金色的液体,灿烂的晃人双眼。
,cbin平台,亿博在哪里玩,抢庄牛牛体验。??时事2:米6官网下载
??09月21日,冬日航拍草原秘境红崖台地,
“子陵,你真是了得啊!”一个须发皆白的老人拍着古旧的桌子,很是激动,也很气愤,道:“我如果再年轻五十年,有你那样的实力,也要去皇都大闹一番,欺负我们这一脉无人是吗?!”
,qy88千赢国际官网登录,凯8官网,银河999。??09月21日,汽车后市场观察:更好满足消费者多样化需求,
当小不点喝下一碗金色的药液后,顿时感觉像是有一股火焰从身体中窜起,浑身发光,紧接着大汗淋淋。仅一瞬间,他像是从水里捞出来的一般,身上雾气蒸腾,霞光四溢,肌肤晶莹剔透,骨骼在噼啪作响。
,万博新体育手机版,优博在线官网,伟德在线试玩。??时事3:2020欧洲杯竞猜平台
??09月21日,数说湾区丨四图速览大湾区发展,
村看村,户看户,群众看村干部。村干部是村级经济社会发展的领路人,是贯彻落实市委、市政府决策决议的最直接组织者和实施者,在基层处于关键地位,作用至关重要。村(社区)干部素质的高低、能力的强弱、作风的好坏,直接关系到一个村,一个地方经济和社会各项事业的发展。新一届村两委班子选举结束后,一批有知识、有能力的年轻被选进村级班子,为村级班子增添了新的血液和活力,村级班子结构进一步优化。但是部分新进班子的村(社区)干部,目前对村情民情还摸得不透,工作思路还不够清晰,工作角色还没有完全转变;个别继任的村(社区)干部,也仍然存在发展观念、工作方法等方面不能完全适应新形势要求的现象。举办村(社区)干部集中培训班,就是要强化农村基层干部宗旨意识,提高服务群众的能力;强化责任意识,提高抓班子、带队伍,维护农村社会和谐稳定能力;强化发展意识,提高谋发展、思发展,引领农村(社区)经济发展、带领群众脱贫奔小康的能力;强化廉洁自律意识,提高拒腐防变能力。同志们一定要提高认识,转变观念,务必以高度的紧迫感和责任感,强化认识,更新观念,按照“三高三强”( 政治素质高、文化水平高、群众威信高,发展能力强、服务能力强、协调能力强)的要求,不断提高自身素质,努力成为群众信任的农村工作领导者。
,威尼斯网址5开头的所有网址,银河贵宾网址,开元app下载手机端官网。??09月21日,“五一”假期 重庆民众乐享近郊游,
今天,我校隆重召开九年级毕业班教师动员大会。在此,我代表教导处向各位老师、各位致以敬意和表示衷心的感谢,并请各位毕业班老师将这份诚挚的问候带给一直奋力拼搏、永不言败的九年级全体同学。
,真人森林舞会游戏厅,支付宝斗地主在哪里找,斗地主可以玩现金吗。??时事4:bob综合官网
??09月21日,四协会联合倡议:住宿业减少一次性塑料用品使用,
老族长小心翼翼,自怀中取出一块骨,莹白而有光泽,像是一块巴掌大的羊脂美玉,说不出的晶莹,洁白而剔透。
,bet9九州在线平台,送分棋牌,特狗官网。??09月21日,河南省文旅厅发布严正声明:请“河南文旅”等账号停止侵权,
在春光明媚、牡丹盛开的美好时节,我们隆重举行曹县中银富登村镇银行开业庆典仪式,是金融行业的一大盛事、喜事,更是曹县经济发展中的大盛事、大喜事。在此,我谨代表曹县县委、县政府,对曹县中银富登村镇银行的隆重开业表示热烈的祝贺!向各位领导、各位来宾表示热烈的欢迎!
,现金官方网站,百老汇在哪玩,威尼斯人平台网址多少。责编:刘建军
审核:盖公章
责编:袁淼