超短裙的诱惑中文字幕一区二区,内容丰富,界面简洁,无论新手还是高手都能轻松上手_新万博体育
超短裙的诱惑中文字幕一区二区 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件坏家伙 → 超短裙的诱惑中文字幕一区二区 v9.477.4631.347422 安卓版

超短裙的诱惑中文字幕一区二区

超短裙的诱惑中文字幕一区二区

  • 电脑版下载
猜你喜欢
标签: 超短裙的诱惑中文字幕一区二区 原神神鹤如夜狂飙
详情
介绍
猜你喜欢
相关版本

内容详情

超短裙的诱惑中文字幕一区二区

机器之心报道

机器之心编辑部

今年 2 月,月之暗面提出了一种名为 MoBA 的注意力机制,即 Mixture of Block Attention,可以直译为「块注意力混合」。

据介绍,MoBA 是「一种将混合专家(MoE)原理应用于注意力机制的创新方法。」该方法遵循「更少结构」原则,并不会引入预定义的偏见,而是让模型自主决定关注哪些位置。

MoBA 在处理长上下文时表现出极强的潜力,它允许 Query 只稀疏地关注少量 Key-Value 块,从而大幅降低计算成本。

然而,目前业界对 MoBA 性能背后的设计原则仍缺乏深入理解,同时也缺少高效的 GPU 实现,这限制了其实际应用。

在这篇论文中,来自MIT、NVIDIA机构的研究者首先建立了一个统计模型,用于分析 MoBA 的内部机制。模型显示,其性能关键取决于路由器是否能够基于 Query-Key 的相似度,准确区分相关块与无关块。研究者进一步推导出一个信噪比,将架构参数与检索准确率建立起形式化联系。

基于这一分析,本文识别出两条主要的改进路径:一是采用更小的块大小,二是在 Key 上应用短卷积,使语义相关信号在块内聚集,从而提升路由准确性。

然而,尽管小块尺寸在理论上更优,但在现有的 GPU 实现中,小块会导致严重的内存访问碎片化和低并行度,速度甚至慢于稠密注意力。

为解决这一矛盾,研究者进一步提出了FlashMoBA,一种硬件友好的 CUDA kernel,可在小块配置下仍然高效地执行 MoBA。

结果显示优化后的 MoBA 在性能上可与密集注意力基线相匹敌。对于小块场景,FlashMoBA 相比 FlashAttention-2 可实现最高 14.7 倍加速。

论文地址:https://arxiv.org/pdf/2511.11571项目地址:https://github.com/mit-han-lab/flash-moba论文标题:OPTIMIZING MIXTURE OF BLOCK ATTENTION

FLASHMOBA:一种面向小块 MoBA 的优化内核

理论模型表明,较小的块尺寸能带来显著的质量提升,但朴素的 GPU 实现效率低下。由月之暗面发布的原始 MoBA 实现,在配置小块尺寸时会遭遇性能瓶颈,这些瓶颈抵消了稀疏性带来的计算节省,导致执行速度比稠密注意力更慢。

研究者推出了 FlashMoBA,这是一种硬件感知的 CUDA 内核,旨在使小块 MoBA 变得实用且高效。

小块带来的性能挑战

小块尺寸引入了几个关键的性能挑战,要在实际部署中应用必须解决这些问题。

首先,在为每个查询收集稀疏、不连续的键值块时,会出现低效的内存访问,导致从 HBM 读取数据时出现非合并内存读取。

FLASHMOBA 内核设计

为了克服这些挑战,FlashMoBA 采用了三个融合内核,以最大限度地减少 HBM 往返次数,并使计算与 GPU 架构相对齐,如图 1 所示。

分块 Top-K 选择

Top-k 选择过程是原始 MoBA 实现中的主要瓶颈,该实现显式生成了完整的分数矩阵并串行处理批次序列。研究者将其替换为Flash TopK(图 1 中的步骤 1),这是一个由融合内核组成的高度优化的三阶段流水线。

最后,一个高效的后处理步骤将以查询为中心的索引重新格式化为以键块为中心的变长布局,以便进行主注意力传递。整个流水线在批次和注意力头之间完全并行化,消除了原始的性能瓶颈。

采用「收集并致密化」策略的前向传播

为了处理 MoBA 的不规则稀疏性,前向内核使用了一种基于两级分块机制的「收集并致密化」策略,详见算法 1。

要区分两种类型的块:

这种两级方法是关键所在,因为在 SRAM 中缓存查询允许在逻辑键块的所有物理图块之间复用数据,从而通过高效的稠密 GEMM(通用矩阵乘法)分摊昂贵的不规则内存访问成本。

带重计算的反向传播

反向传播利用了 FlashAttention-2 的内存高效设计,并实现为三个内核的序列(算法 5)。

主内核在键维度上并行化计算,每个线程块处理一个键块。为了处理稀疏性,它镜像了前向传播的「收集并致密化」策略,使用变长索引收集查询子集并将梯度输出到片上图块中。

遵循 FlashAttention-2 的方法,研究者在反向传播期间重计算注意力分数,以避免将完整的注意力矩阵存储在内存中。虽然键和值的梯度直接写入 HBM,但部分查询梯度需要跨多个键块进行累加,这是通过对高精度全局缓冲区使用原子加法来高效且安全地处理的。

这种设计确保了反向传播在序列长度上保持线性复杂度,这是相对于标准注意力的二次复杂度的一个关键改进。由于反向传播通常构成优化注意力实现的主要性能瓶颈(通常比前向传播慢 2-3 倍),因此我们需要反向内核的高效率对于实现长序列的实际训练至关重要。

实验及结果

本文从零开始预训练模型,并进行可控实验来验证 MoBA 的设计原则。实验共训练了两个模型,所有实验均在 8× H100 80GB GPU 上完成:

340M 参数模型(hidden size 1024,16 heads,中间层规模 2816);1B 参数模型(hidden size 2048,32 heads,中间层规模 8192)。

质量评估结果

本文在语言建模、长上下文检索以及真实任务上对 MoBA 的表现进行了评估。实验结果表明,改进后的模型在多种基准测试中提高了性能。

这一趋势在所有基准和不同模型规模上都保持一致。对 340M 模型来说,将块大小从 512 缩小到原来的 1/4 到 128,可带来如下提升:

语言建模准确率从 44.6% 提升到 45.6%(表 1);RULER 准确率从 38.8% 提升到 63.9%(表 3);LongBench 综合得分从 13.2 提升到 15.3(表 5)。

总体来看,小块尺寸对于 MoBA 达到与密集注意力相当的性能是必要的。

Key Convolution 。Key Convolution 在不同任务中都能带来性能提升,而且具有任务偏好特性。对于 340M 模型:

kconv3 将语言建模准确率从 45.1% 提升到 45.6%(表 1);kconv5 在 64K 长度检索任务中达到 100% 的检索率(表 3);在 LongBench 上,kconv3 得分达到 15.3%(表 5)。

对于 1B 模型:

kconv3 将语言建模准确率提升到 52.7%(表 2);将 RULER 准确率提升到 68.2%(表 4)。

这些结果表明,卷积通过使相关 token 在块内聚集,提升了有效均值差异 ,从而显著提高路由准确性。

注:卷积核宽度 W∈{3,5},分别记作 kconv3 和 kconv5。

稀疏匹配密集注意力机制。在多个基准测试和规模下,MoBA 的表现与密集注意力机制相当甚至更胜一筹。

效率结果

虽然理论上小块尺寸能够带来更高的模型质量,但此前由于 GPU 利用率低下,小块一直难以在实际中使用。FlashMoBA 的出现让这些配置真正变得可行。

端到端性能。图 3 对比了不同序列长度(8K 至 512K token)下的延迟和内存占用。FlashMoBA 在两项指标上都显著优于原始实现。

在 N=64K 且 B=128 的配置下:FlashMoBA 比原始 MoBA 快 7.4 倍,内存占用减少 6.1 倍,原始 MoBA 在 128K 序列就会 OOM(内存溢出),而 FlashMoBA 能扩展到 512K。

随着序列越长、块越小,优势更明显,因为 FlashMoBA 消除了全局 reindex 的开销,在长序列条件下可实现最高 14.7× 快于 FlashAttention-2 的速度。

为了理解 FlashMoBA 的提速来源,图 4 展示了在 N=64K 下前向传播的耗时分布。

原始 MoBA 包含 5 个阶段:(1)计算质心并执行 top-k、(2)全局 reindex、(3)在路由后的索引上执行注意力、(4)局部因果注意力以及(5)合并结果。

其中步骤 (1)、(2)、(5) 占据了超过 70% 的执行时间。

FlashMoBA 则使用两个融合 kernel,这种融合设计将 64K 序列下的前向传播时间降至 49 ms,而 FlashAttention-2 在相同设置下为 99 ms。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    欧美变态另类 免费三级片91 欧美色色大黑吊视频 久久不一样的黄色网站 超碰在线黄色片 尤物在线 91社区国产视频 玉足疯狂 喷水自慰爽日语小舞 九九免费精品视频 国产大毛片在线视频 在线观看亚洲精品91精品 百变小晨1v10 jib鉂宯ai 蜜桃臀被 羞乳免费网站 亚洲黄片大片在线关看 chaopeng免费公开97在线视频 女性坐骑人脸尿了还能活几天 久久精品国产老熟女 女人  脱了裤衩让男人捆 人人人干 亚洲色情久久久久爽爽专区 日韩 欧美 好爽 免费观看黄页网不要钱 思思99er在线视频 好爽 好紧 宝贝揉我奶头电影 欧美黄色精品视频一区二区三区 99热998精品 免费的黄色网站大全 西施被 到爽 高潮痉挛漫画 久久久99囯产一级A片 单依纯被狂c了一整晚 福利页 色色色视频欧美 99riav110 黄视频网站欧美 专看孕妇分娩网站 日韩欧美性爱视频在线观看 女男免费网站黄色 性爱小视频久久 日韩高清av无码免费黄色大片 性爱的视频欧美 国产131在线视频免费观看 激情精品推荐 欧美精品A片黑人交换潮喷 久久 这里 精品 视频 玉足调教 亚洲无码做性视频 性欧美熟妇XXXB厨房乱子 天天操天天射天天拍 美女艳情一二三区在线观看 天天天色色色 麻豆国产精品视频网站 男女性囗交视频 91丝袜无套高潮颤抖 浪小辉抗州全景酒店四人轮杆视频 驷马固定lvk免费下载 欧美做爱久久一区二区三区 国产操逼视频免费播放 欧美国黑人又大又粗 八将榜一大哥免费观看 董卿被黑人玩到高潮 欧洲/一区视频 免费欧美性爱电影 日本免费肏屄视频欧美中文字幕 国产AV激情无码久久小说 18 线上观看 日本e片色视频在线观看 影音先锋无码AV最新资源站 打女光屁股秘 sP网站软件下载 农村激情小说视频 小说 图片 亚洲 欧美日韩国产黄色视频免费在线 白丝空姐被带土强奸喷水一区二区 欧美A片ⅩⅩⅩ在线 澳门欧美性爱 一黄色网大全 黄视频更新资源网站上 进去里 国产 欧美3级性爱 揉胸娇喘吁吁插入啪啪啪后式深处插入网站 欧美与牲交 欧美国产三级天天 三级片中文字幕久久免费 国产普通话对白操屄乱伦视频 免费的日韩精品视频 国内大量偷拍精品视频 激情美女裸体AV黄污 超级97人人公开视频 自拍下一页 性爱视频大全 午夜国产三级片 韩国女人AAA毛片在线 好大好粗视频 99精品全国免费久久 爱爱视频网站 欧美大黄片色呦呦 国产日韩欧美国产 家庭成员之间性乱伦视频 国产毛片网址有吧 国产超碰AV男人的天堂 你懂得的网站 一起干人人操 欧美老妇I激情性l交 日韩18 日韩精品 欧美 在线视频 久艹天堂 韩国悟空电影天堂八戒 永久免费 黑料 AV秘 无码枫花恋 看国产黄大片在线观看91 国产+成+人+亚洲欧洲自线 A片一级特爽高潮视频 欧美黄色AAAAA 露逼视频 99爱免费精品在线 越南一级婬片A片AAA 欧美老妇乱码伦视频上班了 jiizz日本 国产传媒高清无码无套 国产自拍免费视频在线观看
    热门网络工具