(5秒完整评测)权威资料苹果版v25.5.21.43.91.57.75-2265安卓网_新万博体育
权威资料 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件为什么心脏会突感咯噔一下 → 权威资料 v2.659.4700 安卓版

权威资料

权威资料

  • 电脑版下载
猜你喜欢
标签: 权威资料 168网址
详情
介绍
猜你喜欢
相关版本

权威资料截图Q8X2R7L1T4J5M9B6W3

内容详情

权威资料

众所周知,大型语言模型(LLM)的根本运作方式是预测下一个 token(词元),能够保证生成的连贯性和逻辑性,但这既是 LLM 强大能力的「灵魂」所在,也是其枷锁,将导致高昂的计算成本和响应延迟。

可以说,业界「苦」LLM 效率久矣,为了解决这一瓶颈,研究人员进行了多种尝试。

其实从根本上分析,大型语言模型(LLM)的效率是受限于其逐个词元生成的顺序过程。那如果 LLM 预测的不再是「下一个词元」,而是「若干个词元」的话,是不是会带来不一样的效果?

为此,腾讯微信 AI 联合清华大学在新发布论文中提出了一种新方法 ——连续自回归语言模型(CALM),模型不再预测下一个词元,而是预测下一个连续向量。

具体来看,CALM 使用高保真自编码器将 K 个词元压缩成一个连续向量,并能以超过 99.9% 的准确率从中重构原始词元,将语言建模为一系列连续向量,而非离散词元,从而将生成步骤的数量减少了 K 倍。

从效果上来看,这种方法显著改善性能与计算成本之间的权衡,在更低的计算成本下,性能可以与强大的离散基线模型相媲美。更重要的是,这是一种新的范式,为构建超高效语言模型提供了一种强大且可扩展的途径。

论文链接:https://arxiv.org/pdf/2510.27688

而论文一经发布,就引起了业界热议。

有网友认为,「这可能是人工智能领域的下一个重大范式转变」「如果这种模型能够大规模应用,那么现有的所有语言模型都将过时。」

离散词元:LLM 的效率瓶颈

大语言模型(LLMs)的成功与其高昂的计算成本相伴相生。作者认为,其效率问题的根源,在于当前所有模型都遵循的一个基础范式:在离散的词元(token)序列上进行自回归预测。问题的关键并非自回归机制本身,而在于离散词元的内在局限性。这一局限性体现在两个层面:

首先,离散词元的信息密度极低:以一个 32K 大小的词表为例,每个词元所承载的信息量仅为 15 比特 (log2 词表大小)。即使模型拥有强大的推理和表征能力,它在每一步中也只能产出一个信息量极低的单元,这构成了效率的直接瓶颈。其次,该信息密度难以扩展:若要让离散词元承载更丰富的语义(如短语),词表规模将指数级增长,使得模型在计算上几乎不可行。离散表示的本质,为单步生成的信息吞吐量设置了上限。

这揭示了一个根本性的矛盾:模型强大的表征能力,与预测任务的过细粒度之间,形成了「强模型、弱任务」的不匹配。我们拥有了参数规模巨大的模型,其能力却被束缚在一个低效、冗余的生成框架之中。

CALM:从离散词元到连续向量

CALM 的核心思想是将语言建模的基础任务从预测离散的词元,转向预测连续的向量。这一范式转移的可行性基于一个高保真度的自编码器(Autoencoder)。它能将一个由 K 个词元组成的文本块压缩为一个稠密的连续向量,并能以超过 99.9% 的准确率从该向量中重建原始词元。

因此,语言模型只需预测代表下一个文本块的连续向量,即可通过自编码器还原回 K 个词元,从而将自回归生成的总步数减少为原来的 1/K。

然而,从离散到连续的转变,也让一些传统方法失效,带来了一系列技术挑战:

向量表示:如何设计自编码器,以产出既能无损重建、又平滑鲁棒的向量表示,以供下游模型学习?模型训练:向量空间是无限且不可数的,无法直接计算概率分布。如何训练模型来进行向量预测?性能评估:在无法计算概率的情况下,困惑度不再可用。如何准确地评估模型性能?可控生成:温度采样等控制生成多样性的技术依赖于对输出概率的显式调整。对黑盒采样的框架,如何实现类似的控制?

围绕这些挑战,作者建立了一套完整的无似然技术体系,使 CALM 这一新范式得以实现。

自编码器

实现 CALM 框架的基础,是构建一个高保真度的自编码器,用以建立离散词元与连续向量之间的双向映射。它由两部分组成:

编码器:将 K 个词元的文本块压缩为一个连续向量。解码器:将该向量重建为原始的 K 个词元。

这一过程的可行性在于,理论上一个浮点数向量的信息容量远超离散词元。在实践中,作者尝试将 K=4 个词元压缩为向量,仅需 10 个维度便可实现超过 99.9% 的重建准确率。

考虑到,在 CALM 的实际生成流程中,解码器所接收的向量并非来自编码器的「真值」,而是由语言模型预测出的结果。任何生成模型的预测都必然存在误差。如果自编码器只考虑重建,它会学到一个极其「脆弱」的映射,导致微小的预测误差被灾难性地放大,解码出完全无关的文本。

因此,向量表示必须具备鲁棒性(robustness),能够容忍来自预测结果的合理误差。

为实现这一目标,作者的核心策略是将确定性段自编码器升级为变分式的 VAE,使其学习将词元块映射为一个高斯分布,从而平滑向量空间。同时,作者在向量空间上引入 Dropout,迫使自编码器学习一种冗余的、抗干扰的向量表示。

综合这些技术,作者最终构建的自编码器能将 K=4 的词元块映射到一个 128 维的向量中。它能承受标准差约 σ≈0.3 的高斯噪声,同时依然保持超过 99.9% 的重建准确率。

模型训练

通过自编码器,原始的离散词元序列被转换为一个更紧凑的连续向量序列。因此,语言建模的目标也从预测下一个词元,演变为预测这个新序列中的下一个向量:

从离散到连续的转变,带来了一个生成建模上的挑战。标准语言模型依赖 softmax 层计算有限词表上的概率,但这在无限的连续空间中无法实现。

效率是此处的关键。如果取 Diffusion、flow matching 这类模型作为生成头,将需要进行多步迭代生成来预测向量,会抵消 CALM 在减少生成步数上的优势。

因此,生成头最好能具备高质量、单步生成的能力。为此,作者采用了一个基于能量分数(Energy Score)的训练目标。能量分数不依赖于概率密度,而是通过样本间的距离来评估生成分布的质量。对于模型预测的分布 P 和观测到的真值 y,其能量分数为:

该指标巧妙地平衡了两个目标:第一项驱动多样性,鼓励模型生成不同的样本,防止模式坍塌;第二项驱动准确性,使生成结果逼近真实数据。

从统计学角度,能量分数是一种严格准确的评分规则(strictly proper scoring rule),理论上保证了最大化该分数等同于让模型学习真实的数据分布。在实践中,作者通过蒙特卡洛采样来估计能量分数,并将其作为损失函数来训练模型。

在模型结构上,为了使生成头能够产出多样的样本,其预测同时取决于两个输入:来自 Transformer 的确定性隐藏状态(提供上下文),以及一个额外的随机噪声向量(提供随机性)。通过在生成时采样不同的噪声,模型便能从同一个上下文中生成符合条件分布的、多样的输出向量。

性能评估

由于 CALM 框架无法计算显式概率,传统的困惑度(Perplexity)指标不再适用。因此,我们还需要一个无似然(likelihood-free)的评估方法。

作者引入了经典的Brier Score作为解决方案,这一指标最早由气象学家 Glenn W. Brier 在 1950 年提出,用来评估天气预报的准确性,目前已成为评估概率预测校准度(calibration)的标准工具之一。其定义为:

与困惑度类似,Brier 分数的设计使其仅在模型准确拟合数据分布时才能达到最优,这一点可以从其期望值的分解中看出:

尽管 Brier 分数的仍由概率定义,但作者指出,它可以通过蒙特卡洛方法进行无偏估计,且仅需从模型中采样两个样本:

为了构建一个全面的评估指标,作者将 Brier 分数从单个词元扩展到 n-gram,并最终定义了BrierLM,即 n=1 至 4 的 Brier-n 分数的几何平均值。BrierLM 是一个通用的评估指标,同样适用于传统语言模型。

通过在标准 Transformer 模型上进行验证,作者发现BrierLM 与交叉熵损失几乎线性相关(Pearson 相关系数为 - 0.966),表明 BrierLM 可以作为困惑度在无似然场景下的有效替代。

可控生成

最后一个挑战是实现给定温度下的可控生成。传统方法通过调整 logits 来调整输出的概率分布,但对于像 CALM 这样只给出采样器而不提供 logits 的无似然模型,此路不通。

对于更一般的温度 T,作者借鉴伯努利工厂(Bernoulli Factory)理论,将此思想推广为一个通用的拒绝采样算法。

然而,纯粹的拒绝采样算法可能因极高的拒绝率而变得低效。为此,作者进一步提出了一种高效的批处理近似(batch approximation)算法。该算法一次性从模型中采样大量的样本,然后以组合的方式在批内寻找符合条件的重复样本。这种方法极大地提升了样本的利用率。作者证明了该近似算法是渐进无偏的,即随着批处理大小的增加,其输出的样本分布会收敛于精确的目标分布。

实验效果

实验结果显示,CALM 能够建立一个更优的性能 - 计算前沿:例如,一个 371M 参数的 CALM-M 模型,其性能与 281M 的 Transformer 基线相当,但所需的训练 FLOPs 减少了 44%,推理 FLOPs 减少了 34%。这证明 CALM 通过牺牲少量同规模下的性能,换取了显著的计算效率提升,从而能在有限的计算预算下达到更高的性能水平。

实验进一步验证了语义带宽 K 作为一个全新 scale 维度的有效性。作者探究了不同 K 值对模型性能 - 计算权衡的影响。结果显示,随着 K 从 1 增加到 4,模型的计算成本几乎成比例下降,而性能仅有轻微的回落。

这证明了通过提升单步生成的语义密度,是优化语言模型效率的一条高效路径。值得注意的是,当 K=1 时,CALM 的性能落后于其离散基线,这表明 CALM 的架构设计仍有未来优化的空间。

为了验证生成头的设计选择,作者对比了三种连续生成方案:本文使用的能量分数、扩散模型(Diffusion)与流匹配模型(Flow Matching)。实验表明:

扩散模型在该任务上表现不佳。流匹配模型虽然初期收敛更快,但最终的性能上限低于能量模型。能量分数方法不仅达到了最高的性能,且能够在单步内完成高质量生成,而另外两者则依赖于迭代采样。

结语

作者也指出了该框架未来的多个关键研究方向:首先,作为框架基石的自编码器可以被设计得更懂「语义」,而不仅是关注重建;核心生成模型也可以探索更强大的端到端架构与训练目标;在采样层面,需要研究更轻量高效的算法以降低推理开销。

更宏观地,一个重要的方向是建立包含语义带宽 K 的全新缩放定律。

最后,从离散到连续的范式转移,也要求学术界重新改造现有的算法生态,例如如何将强化学习、知识蒸馏等技术适配到这个无似然的框架中。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    伟德体育在哪玩 BBIN体育直播手机版下载 雷速体育官方网站入口 网上世博会 梦幻游戏捕鱼官网下载 历峰国际彩票平台 斗球官网下载ios 凯发娱乐手机登录页 奥博下载 365bet赛事 bt365官方网站注册 优德体育平台APP 澳门街机捕鱼老版本 2026世界杯线上投注 世界杯赌球哪个网站 银河国际电子游戏网址 必发电子网投 贝博BB德甲狼堡体育 ManBetX万博在线试玩 世界杯竞猜投注哪个好 凯发k8ag旗舰厅真人平台 网球比分直播第一 ku游娱乐入口备用 云顶娱乐app手机版 英格兰世界杯球衣购买 永利体育外围官网 必威手机版客户端 立博体育官网的网址 澳门威斯尼斯人棋牌网址 必威官网登录手机号 巴黎人信誉现金 云顶娱乐平台网站是多少 电子老虎机官网下载 bck体育靠谱吗 银河网址平台最新免费 体育万博官网首页 打鱼注册送18 pokertime官方网站入口 亿博体育app官方 足球体育 和记娱乐app下载 宝马会投注登录 百家乐破解 12博官网手机版下载 必威注册彩金 百家乐必胜方法官网 日博娱乐官方 世界杯买球稳赢 ob欧宝官方入口 bob博鱼 沙巴体育网址大全 bob体育官网下载地址 欧博登录 真钱斗牛游戏 浦都娱乐官网 尊龙在线开户 沙巴体育官方网站体 百家乐苹果版 赢咖III登录 天博官方网站入口 M6官方网站 贝博平台首页 pt游戏平台手机版 西甲买球app下载 东方支付平台 在线电玩城 靠谱买球网站 全讯网娱乐 网上直营赌博 体育app AG亚官网 必发在线试玩 云顶娱乐手机登录页 AG捕鱼官网 香港马经 澳门十大娱乐平台APP 博狗手机版投注 ag环亚贵宾厅官网 玩二八杠的游戏平台 世界杯彩票如何投注 大满贯是什么意思 AG真人买球 皇冠国际真人在线娱乐平台 爱游戏体育官网下载 全国几大棋牌游戏平台 韦德网站多少 凯发注册app在线 皇冠网投平台 澳门万利官网 九游会真人第一品牌游戏 雷速 世界杯怎么样投注 什么是反水? 万博maxbextx官网网页登陆 优博网投平台 新百老汇网app下载 Bob综合体育官网pc网页版 篮球世界杯怎么买球 AG真人官网APP ag娱乐官网官方网站 必威手机客户端登入 必威手机官网登入 亚洲bet356手机版网址 梭哈游戏实例 线上彩票平台 百老汇APP安卓 d88尊龙官网入口 博狗可靠吗 世界杯在那里下注 海立方809官网 凯发k8娱乐倒闭了吗 欧宝体育app官方 必赢亚洲官网手机版 手机赌博官方网 188宝金博官网买球 mg网站 bet8九州体育官网 188体育平台网址 在线德扑 乐鱼全站网站登录首页
    热门网络工具