v5.458.2336.63216 安卓漢化版
v4.62.3329 IOS版
v4.620.8995 PC版
v5.967 PC版
v2.194.7578.121402 安卓最新版
v9.105 IOS版
v5.542.1669 PC版
v6.421.9072 PC版
v7.748 PC版
v9.988.7357.382498 安卓最新版
v9.310.392.39352 IOS版
v9.844.1303.179358 最新版
v3.863 安卓免費版
v7.846.3696.941795 最新版
v5.768 安卓最新版
v4.733.3812 安卓漢化版
v2.796.8415 PC版
v3.457.5989.70106 安卓最新版
v3.501.1293.298452 安卓漢化版
v5.243 安卓版
v6.606 安卓版
v2.581.675.126257 安卓免費版
v3.174 最新版
v3.585.7334.144097 安卓版
v7.595.5568.796776 安卓漢化版
v1.889 安卓漢化版
v5.857.2111 安卓漢化版
v1.922.8733 最新版
v9.137.231 PC版
v1.428.6693.896569 IOS版
v1.603 PC版
v7.252.9090 最新版
v2.720 安卓免費版
v7.589.4033 安卓版
v2.905.2135 PC版
v9.964.9840 安卓漢化版
v1.836.1210.677841 安卓版
v7.629.3208 安卓版
v7.797 PC版
v4.687.794.287839 安卓版
v9.499 IOS版
v5.649.9234.428104 安卓免費版
v1.543 安卓漢化版
v4.225.8054.349310 IOS版
v1.125.5718.679456 安卓漢化版
v6.335.1844.522810 最新版
v3.258 最新版
v3.344.9928.817301 安卓版
v5.306.1671.305110 PC版
v3.393.635.25426 安卓最新版
v6.893 安卓漢化版
v6.360.2690.413280 安卓漢化版
v3.256.3711.994656 安卓免費版
v2.734 安卓版
v3.284.1712.844660 安卓版
v4.5.4701.888115 安卓免費版
v9.421.5324.280941 最新版
v1.132.6619 安卓最新版
v8.353.1089.7992 最新版
v9.263 PC版
v5.977.211 安卓最新版
v7.89.6799.320286 安卓免費版
v1.381.9496 安卓最新版
v5.22.7893.327865 安卓最新版
v1.639.6030.851537 安卓免費版
v4.531.8035.509072 安卓最新版
v4.445.9791.976857 IOS版
v2.558.5660.816271 最新版
v6.655.8767.823126 安卓免費版
v5.184.1706.217618 安卓最新版
v2.208.9080.161918 安卓免費版
v3.9.3342.224832 最新版
v9.839.4171 安卓免費版
v8.357.3288 最新版
v1.555.9870.463113 最新版
v4.108.3081.539360 PC版
v4.462 安卓最新版
v4.97 安卓最新版
v9.293.9177 安卓最新版
v9.426.8593 安卓漢化版
折磨白嫩脚心丨ⅤK
机器之心报道
机器之心编辑部
还是熟悉的节奏!
在假期前一天,DeepSeek 果然搞事了。
刚刚,DeepSeek-V3.2-Exp 开源了!
该模型参数量为 685B,HuggingFace 链接:
https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
此外,此次发布竟然也同步公开了论文,公开了 DeepSeek 新的稀疏注意力机制,为我们提供了新万博体育:结束细节:
https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
DeepSeek Sparse Attention(DSA)稀疏注意力机制
在官方介绍中,DeepSeek 表示 DeepSeek-V3.2-Exp 是实验版本。作为迈向下一代架构的过渡,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention,DSA)—— 一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。
DSA 也是 3.2 版本的唯一架构改进。
DeepSeek-V3.2-Exp 的架构,其中 DSA 在 MLA 下实例化。
重点要说的是,DeepSeek 称该实验版本代表了他们对更高效的 Transformer 架构的持续研究,特别注重提高处理扩展文本序列时的计算效率。
在 v3.2 版本中,DeepSeek 稀疏注意力 (DSA) 首次实现了细粒度稀疏注意力,在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。
为了严格评估引入稀疏注意力机制的影响,DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 9 月 22 日刚刚推出的 V3.1-Terminus 进行了对比。在各个领域的公开基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当。
新万博体育:信息,读者们可以查阅 DeepSeek-V3.2-Exp 的 huggingface 介绍。
值得一提的是,智谱的 GLM-4.6 也即将发布,在 Z.ai 官网可以看到,GLM-4.5 标识为上一代旗舰模型。
最后,有一波小节奏。在模型发布前,已经有网友在 Community 里发帖称:国庆是休息日,请给我们关注的同学一点休息时间。
对此,你怎么看?
相关版本
多平台下载
查看所有0条评论>网友评论