新智元报道
编辑:KingHZ 艾伦
【新智元导读】DeepSeek最新模型DeepSeek-V3.1-Terminus来了!此前在输出中随机掺入「极」字的问题得到解决,Humanity's Last Exam成绩也较V3.1提升1/3!Terminus这个名字是否在暗示DeepSeek-V4也快要来了?
DeepSeek-V3.1-Terminus来了!
DeepSeek API文档、官方微信均已正式确认本次更新:
此次更新在保持模型原有能力的基础上,针对用户反馈的问题进行了改进,包括:
· 语言一致性:缓解了中英文混杂、偶发异常字符等情况;
· Agent能力:进一步优化了Code Agent与Search Agent的表现。
目前,官方App、网页端、小程序与DeepSeek API模型均已同步更新为DeepSeek-V3.1-Terminus。
开源版本下载地址如下:
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
多项测评胜过Gemini 2.5 Pro
在理能力和智能体工具使用上,本次更新在多个基准上得到提升。
DeepSeek上次更新为8月21日,短短一个月,取得这一成绩来之不易,可喜可贺。
值得一提的是,新模型在Humanity's Last Exam(人类最后的考试)中,成绩提升幅度高达36.48%!
告别「极你太美」
之前,有网友发现:DeepSeek V3.1输出中随机带有「极」字。网友称:
这一Bug已经导致DeepSeek V3.1无法从事编程或对输出结构敏感的相关工作。希望官方早日修复。
这次更新明确已解决「偶发异常字符等情况」,结合「Code Agent优化」,希望这次更新能完美解决DeepSeek无法从事编程或对输出结构敏感的相关工作的Bug。
至于中英文混杂,是LLM的老毛病了,比如OpenAI o3-mini等模型被曝使用中文推理。
在DeepSeek-R1的Nature论文中,DeepSeek坦言:
语言混杂(language-mixing)问题,留待未来更新解决。
这次DeepSeek更新解决了中英文混杂问题。
我们也对之前在网上流传最广的会触发「极你太美」Bug的Prompt进行了测试:
之前,time.Second会被DeepSeek-V3.1在输出中破坏成time.Se极 / time.Se極 / time.Seextreme。
现在,新模型给出了5种定时器实现方法,多处都使用了time.Second。
我们经过多次尝试,均未能复现出该Bug,说明Bug确实可能已经被修复了。
此外,非Agent(Thinking模式)测评中,多项基准测试成绩得到提升:MMLU-Pro、GPQA-Diamond、Humanity's Last Exam。
同时,Agent相关测评也来了。
图源:https://x.com/karminski3/status/1970129020382826758
Agent能力超过Gemini
与DeepSeek-V3.1相比,新模型在工具使用与Agent任务中的表现有较大提升:
BrowseComp:30.0 -> 38.5
SimpleQA:93.4 -> 96.8
SWE-bench Verified: 66.0 -> 68.4
SWE-bench Multilingual: 54.5 -> 57.8
Terminal-bench: 31.3 -> 35.7
DeepSeek上次更新发布了DeepSeek-V3.1,称之为「迈向Agent时代第一步」。
短短一个月,Agent能力再次得到提升,年底的高级Agent还会远吗?
奇怪的是,并非全部基准测试成绩都得到提升,Codeforces、Aider-Polypglot、BrowseComp测评成绩有1%左右的小幅下降。
不过,新模型DeepSeek-V3.1-Terminus总体上进步明显,特别是在Humanity's Last Exam、LiveCodeBench、SimpleQA、SWE-bench Verified评测中,胜过了Gemini 2.5 Pro,补齐了Humanity's Last Exam这块最大的短板。
DeepSeek-V4/R2还远吗?
Terminus这个单词的中文意思是:终点。
在计算机术语中,终端(Terminal)也称终端设备,是计算机网络中处于网络最外围的设备,主要用于用户信息的输入以及处理结果的输出等。
或许,DeepSeek借用Terminus暗指编程能力的提升。
DeepSeek这波更新理所应当地引起了网友的关注。网友在线催更:
DeepSeek-V4什么时候要来?
DeepSeek-R2什么时候要来?
期待DeepSeek-V4和DeepSeek-R2给我们带来更大的震撼!
参考资料:
https://x.com/deepseek_ai/status/1970117808035074215
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
《学生裸体㊙️网站》,《P6F3X2M7T9QJ8L1B4WZR》扒开老师狂揉桃花岛火影忍者
“调教+虐+疼+憋尿+乳夹H奴才”
男人的🍌伸到🍑屁股91
……
09月22日
“无码➕高潮”GALA触发禁用装备被处罚
↓↓↓
09月22日,中国“两高”今年工作发力的七个关键词,唐三趁小舞洗澡c小舞,女仆扒开腿㊙️让人桶爽的动漫,别c我⋯啊⋯嗯上课呢男男明星,小丹的被躁日记1一15
09月22日,北师大教授王大华:利用短视频融合代际沟通,教子做爰xXXX视频,金卡戴珊㊙️私密視頻,高潮失禁潮喷水,狼人被❌羞羞嗯网站
09月22日,留学生“校史讲解官”将“静的风景”转化为“活的课程”,柳岩被狂躁到高潮无码,91丨国产丨大屁股,男男Gay黄污网站www体育生,无盐之月1~5集全集免费观看最新
09月22日|广东省纪委监委驻省工业和信息化厅纪检监察组一级调研员唐策被查|!脱男人全过程视频|中国精品偷偷拍洗澡视频|美女扒开㊙️让男人桶爽|白丝护士女仆❌❌❌在线观看
09月22日|有调查报告称在泰旅行者热衷运用人工智能规划旅行|米塔瑟瑟漫画|男人露大丁J图片|全职猎人奇犽被裸体榨精调教|无套正在播放
09月22日|(乡村行·看振兴)山西黄河岸边上演速度与激情 农文体旅融合赋能乡村振兴|揉啊嗯~出水了男同震动器|长门爆❌小南18禁|欧美乱大交做爰XXXⅩ|飞霄裸体被❌涩涩视频……
09月22日,商务部:加强相关两用物项对美国出口管制,欧美孕交乱婬片A片在线观看,男人的🍌伸到🍑水免费,人与善交一级毛片A片视频下载,男人的🍌伸到男
09月22日,台所谓“邦交国”被利诱?外交部驳民进党当局错误言论,亚洲🔞👈成人?√az在线禁,江楠楠扒开内裤求被c小说,女同桌脱给我揉网站,欧洲之星私密多久做一次
09月22日|高科技为田间管理“保驾护航” “好种子”让希望的田野“丰”光无限|李毅吧第17期动态|体育生的🐔好大你夹的好紧动漫|manta1777773kino维语第一集|魔道祖师18禁黄啪漫画
09月22日,与你我有关!用AI走近这些新举措,西村妮娜最好看的10部作品,秘书边喂我奶边做爰视频,美女xxghfree,白丝🌸裸体自慰爽到流白汁
09月22日,中新健康丨中疾控:新冠疫情可能在本月出现回升,男子内裤勃起,同人🈲漫免费链接,美女脱👙露出🐻吃我的🍌在线观看动漫,Chinesespanking惩罚打屁股
09月22日,广州海关查获毒品大麻花7.82千克,莎莉娜扒开腿做❌同人动漫,女女女女XXXXXXX毛片在线,J8又大又粗又长又硬,You亅IZZXXXX18HD
09月22日|非遗巡演亮相高原古寨 欢庆“二月二”祭酒典|强行挺进白丝老师里呻吟|AI聊骚❌❌18禁下载|Free人C交ZoZXx另类|同人本子网站
09月22日|四川蓬安:“牛机同耕”闹春耕|初音未来又爽❌又黄❌|欢乐颂之母狗系列全文阅读|嫩草tv|韩国主播青草200➕VIP视频
09月22日|强降雨造成国道G318线四川雅江段断道|一龙二凤双飞女友全文免费阅读|国外无遮羞调教打屁股|云韵被男人❌图片免费|列车上的小学生汉化版
严厉打击以寻宝为噱头非法鉴定,千面牛郎|政要遭袭,专家遇刺,伊朗为何暗杀频发?|㊙️SP免费网站|美女露隐私秘免费视频扣扣传媒|丰裕纵满3|www.本子.🈲
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺