(8分钟全面了解)中文字幕在线一本苹果版v2.72.17.96.98.4.42.1-2265安卓网_新万博体育
中文字幕在线一本 最近更新|更新列表|字母检索|下载排行|苹果专区|分类导航

当前位置:首页电脑软件淘宝回应大量用户被免单 → 中文字幕在线一本 v4.240.3051.611413 PC版

中文字幕在线一本

中文字幕在线一本

  • 电脑版下载
猜你喜欢
标签: 中文字幕在线一本 美妇老师呻吟双腿大开
详情
介绍
猜你喜欢
相关版本

内容详情

中文字幕在线一本

机器之心报道

编辑:杜伟

2025 年已接近尾声,这一年里,大模型加速从单点提效工具升级为支撑业务系统的底层基础设施。过程中,推理效率决定了大模型能否真正落地。对于超大规模 MoE 模型,复杂推理链路带来了计算、通信、访存等方面的挑战,亟需行业给出高效可控的推理路径。华为亮出了面向准万亿参数 MoE 推理的完整技术栈:openPangu-Ultra-MoE-718B-V1.1 展现 MoE 架构的模型潜力、包括 Omni Proxy 调度特性、将昇腾硬件算力利用率推至 86% 的 AMLA 技术在内的昇腾亲和加速技术,使得超大规模 MoE 模型具备了走向生产级部署的现实可行性。开源实现:https://gitcode.com/ascend-tribe/ascend-inference-cluster#

如果说过去数年大模型竞争的焦点在训练规模与能力突破上,那么如今,推理效率正迅速成为影响模型能否落地的关键变量。

从任务属性来看,训练侧重于通过新万博体育:算力和数据扩展模型能力,而推理比拼的是谁能以低成本、低延迟将模型稳定运行起来。尤其对于超大规模混合专家(MoE)模型而言,真正的落地挑战来自于计算、通信、访存和并行策略等的最优策略选择。

这些挑战迫使企业必须把推理成本精确到每一次节点通信和每一个算子开销。在高度耦合的推理链路中,调度或资源分配上的微小偏差都可能被放大为延迟上升、吞吐下降,甚至导致部署成本偏离预期。也正因为如此,推理成本是否可控,很大程度上决定了大模型的可用性,并直接影响能否高效进入业务场景。

在大 EP 部署下,MoE 模型能更好地发挥芯片和组网能力,实现更低成本的推理,但是其整个推理体系也会变得异常复杂。每一个算子的极致性能、通信 - 计算的多流并发、节点间通信的极致掩盖、整个系统的协同调度,每一环都可能成为大规模部署中的瓶颈。在国内 token 需求指数级增长的今天,推理效率更需要做到极致,以更好地支撑大模型的商业闭环。

因此,如何以更快、更稳的方式跑通千亿乃至准万亿参数规模的 MoE 模型,让它们具备生产级部署能力,已经成为整个行业迫切需要解决的核心难题。如今,随着推理加速、智能调度和硬件算力释放的系统性演进,这一问题在昇腾硬件上有了清晰的解法

上个月,华为发布并开源了准万亿级 MoE 模型 openPangu-Ultra-MoE-718B-V1.1,它基于昇腾硬件训练,总参数为 718B,激活参数量为 39B,提升了 Agent 工具调用和其他综合能力。与业内所有尝试超大规模 MoE 的团队一样,摆在面前的一大挑战是:让这个「庞然大物」高效地跑起来。这意味着必须要在推理层面做出突破。

一番深挖之下,我们发现该模型的量化版本——openPangu-Ultra-MoE-718B-V1.1-Int8(以下简称 openPangu-Ultra),已经在昇腾硬件上构建起一条完整可行的推理路径。

模型 GitCode 地址:https://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1-Int8

具体来讲,依托开源的 Omni Proxy 调度算法以及极致释放硬件算力的全新 AMLA 算法的昇腾亲和加速技术,openPangu-Ultra 实现了在昇腾硬件上的稳定部署。

昇腾亲和加速技术,

更快更稳跑通准万亿 MoE

此前,超大规模 MoE 部署新万博体育:依赖通用推理框架,如 vLLM、SGLang。虽然能跑起来,但并不擅长,往往在专家路由、All-to-All 通信、节点负载均衡以及专家放置策略等环节难以支撑 EP 百级以上的巨型专家并行规模。

同时,大厂内部自研的 MoE 分布式推理方案大多不开源,不具备可复用性,并且难以迁移到昇腾等硬件平台。更重要的是,在缺乏系统级优化的情况下,MoE 推理受限于通信瓶颈、资源碎片化、硬件利用率低等问题,不仅工程成本高,推理效率也难达到可商业化的要求。

随着近期一系列昇腾亲和加速技术的持续开源,过去依赖深度定制和巨额投入才能跑通的超大规模 MoE 推理出现了新的可能。得益于推理框架与加速套件的深度融合,这些昇腾亲和的加速技术形成了一套完整高效的超大规模 MoE 推理体系

接下来,我们将从框架层面、调度层面到算子层面,逐步解析这套推理体系的关键技术支点。

全链路推理调度特性

先来看框架层面,Omni-Infer 为 vLLM、SGLang 等当前主流的开源大模型推理框架提供了昇腾亲和加速库,在保持上层接口与开发体验一致的前提下,将昇腾硬件的底层能力无缝接入到现有推理链路。这样一来,开发者无需迁移服务架构、无需重写应用逻辑,就能在昇腾硬件上运行大模型。

作为 Omni-Infer 框架层面的重要组成部分, Global Proxy 承载着请求调度与资源优化的核心使命,是超大规模 MoE 模型的高性能推理调度特性,主要负责分布式推理时的请求分发、P/D(Prefill 与 Decode) 调度与并行策略协调,以降低延迟、提升吞吐。在 Omni-Infer V0.3.0 中,Global Proxy 带来了超过 10% 的推理性能提升

推理框架

为了满足后续更复杂的调度需求,Omni-Infer 带来了 Global Proxy 的升级版 ——Omni Proxy,也即第二代请求调度特性。它基于开源的高性能 Web 服务器和反向代理服务器 Nginx 打造,在继承 Global Proxy 算法优势的基础上,通过多项技术创新进一步解决了传统调度器在大模型推理场景下的局限性。

大模型推理请求的独特性主要在于其显著的周期性负载特征、性能感知缺失、KV 缓存匹配以及冗余计算问题

首先大模型推理通常呈长周期性,如 Prefill 秒级、Decode 几十毫秒级,导致新请求在当前批次推理结束前无法进入;其次传统调度器无法准确感知模型运行中的关键指标,如 tokenize 时间、批次大小、调度周期和 KV 缓存利用率,调度决策缺乏数据支撑。此外传统调度器无法对字符串格式的 prompt 请求与实际 KV 缓存状态进行精准匹配,缓存命中率达不到预期。最后多机 P/D 分离部署中 Prefill 和 Decode 节点分别执行相同的 tokenizer 处理,计算资源浪费与延迟开销较高。

传统调度器在应对大模型推理的这些挑战时往往难以提供有效支持,因此亟需效率更高、延迟更低、运行更稳的智能调度方案。

大模型推理响应模式

以全生命周期监控、APC 感知调度、Tokenizer 复用和负载感知的 P/D 协同调度为主线的调度体系下,Omni Proxy 的系统吞吐量和推理效率又提升了一个台阶。

创新 1:通过将每个推理请求拆解为 10 个细粒度的生命周期阶段(如下图),Omni Proxy 实现了基于全链路性能数据的精确请求级调度,最大化 Prefill 与 Decode 资源池的利用率并保持整体负载均衡。

从接收请求、Tokenize、APC 匹配,到 Prefill 等待、调度与执行,再到 Decode 等待、调度与执行、直至完成

创新 2:同时提供 sequential(先 P 后 D、按需分配并拉取 KV)和 parallel(P/D 同步选择、KV 预分配并按层推送)两种模式,以适配 vLLM 与 SGLang 在 P/D 分离场景下截然不同的 KV Cache 传输与协同方式,确保两类框架都能实现高效的 Prefill-Decode 调度。

左为 sequential 模式,右为 parallel 模式

创新 3:通过实时同步 KV 缓存状态、基于 tokenizer 与一致哈希的精准匹配以及多 worker 共享的全局缓存状态,实现 APC 感知的高效 KV 缓存复用与智能调度,减少重复计算与节点传输开销。

APC 感知智能调度流程

创新 4:在上游预先完成对话模板展开与 tokenizer 处理并将结果随请求下传,避免下游节点重复计算,并在 DeepSeek v3 等多机 P/D 分离场景下降低约 30% 的 tokenizer 开销。

Tokenizer 结果复用优化流程

创新 5:通过对请求按长度与等待时间加权排序、结合 APC 优先匹配以及基于负载与预期处理时间的节点选择,Prefill 调度器实现对长短请求的动态平衡以及对上游节点的精准匹配,达到提升吞吐、降低等待和避免过载的效果。

基于负载与等待时间的批处理请求

创新 6:结合主从调度与共享内存的数据聚合机制,在多 worker 架构下实现全局一致的调度决策与低开销的性能同步,确保系统高可用性与扩展性。

分布式架构优化

Omni Proxy 的六大创新点不是零散的功能补丁,而是进行了一次系统性整合升级,打造出一套面向超大规模 MoE 推理的高性能调度基础设施,让模型在推理链路中保持可控的延迟和稳定的吞吐。

全栈推理加速体系

至于推理加速套件,同样不是简单堆叠若干优化模块,而是将推理的核心瓶颈逐层重构:

API Server 与 Scale Out能力让推理服务在昇腾集群中顺畅扩展;序列均衡调度确保不同长度、不同阶段的请求在集群内合理分配,避免出现局部节点拥堵。模型部署侧支持 DeepSeek、Qwen、openPangu 等不同体系、不同架构的大模型,兼容性良好;Omni Placement进一步瞄准 MoE 推理最棘手的问题之一 —— 专家放置与负载均衡,通过 Layer-wise 与 Uneven 机制实现不同层、非均匀分布的大规模专家的高效调度。MTP 与 Fusion Operator,前者提高多 token 并行生成能力,后者通过算子融合减少冗余计算、提升执行效率。

可以看到,从服务扩展、任务调度、专家管理到算子加速,这些组件共同构筑起支撑超大规模 MoE 推理的核心加速体系。

推理加速套件

进一步地,这些推理加速套件连同 Omni Proxy 一起,将并行策略、调度决策、节点通信等分散的环节整合进同一套系统栈,让原本复杂而碎片化的流程被编织成一个真正可落地的推理体系,为昇腾硬件承载准万亿 MoE 推理提供了关键的软件支撑。

不过,框架层面的协同优化只是完成了第一步,想要继续压榨推理潜力,算子层面的创新同样不可缺少。

AMLA 将昇腾硬件 FLOPS 利用率推至 86%

对于准万亿参数的 MoE 模型,推理性能的高低,关键在于芯片算力能否充分释放、算子是否贴合芯片结构、数据流是否高效、通信开销是否构成瓶颈。这些都将直接影响推理的单 token 成本,并进一步决定推理链路的稳定性与可扩展性。

在昇腾硬件上,高效软硬件协同的关键是 AMLA(Ascend MLA)。作为超大规模 MoE 推理极致性能的一大支点,其算力利用率最高可达 86%,这在推理场景下是绝无仅有的

作为一种「以加代乘」的高性能 MLA 算子,AMLA 是昇腾体系中极具代表性的底层创新。通过从数学层面对计算逻辑进行解构,让原本受限的计算在昇腾架构上获得了更加贴合的执行方式。

论文地址:https://arxiv.org/pdf/2509.25224

作为大语言模型的核心,注意力机制在处理不断扩展的超长上下文时面临着越来越大的计算开销与内存压力。为此,DeepSeek 采用的多头潜变量注意力(MLA)方法可以在大幅压缩 KV 缓存的同时保持模型精度。并且,该方法将注意力计算从访存密集转向计算密集,从而非常契合昇腾这类强调高 FLOPS 密度与高能效的硬件。

不过,直接实现的 MLA 受限于巨大输出张量的反复搬运和异构计算单元无法并行利用这两大瓶颈,导致算力无法充分释放。FlashMLA 等更优方案虽可以提升 FLOPS,但因 KV 缓存的重复搬运引入了额外开销。要想 MLA 真正在昇腾硬件上跑满,需要在算子级的数据组织与流水化执行方面有所突破。

此次,AMLA 带来了两项关键创新,在数值 Rescaling 和算子流水化两方面同时发力,让注意力算子在昇腾硬件上具备高效跑满的可能。

首先,AMLA 提出了一种基于 FlashAttention 的全新算法,利用 FP32 和 INT32 在二进制上的对应关系,将原本需要大量浮点乘法的步骤改成只用更轻量的整数加法来完成,从算法层面减少了计算开销以及数据搬运。需要指出的是,它不是对某几个 kernel 做局部优化,而是通过重新构造浮点运算,把乘法拆解并映射为更适合芯片执行的加法模式。完整的 AMLA 算法实现如下所示:

在 FlashAttention 的 Rescaling 步骤中,通常需要读取 FP32 格式的输出块并乘以缩放因子,再写回 GM(全局内存)。这一过程须将数据从 GM 搬运至 UB(向量缓冲区) 进行计算。AMLA 创新性地将这一更新过程利用代替,与此同时,这一操作可转化为对 x 的整数表示的加法运算。这种变换允许使用昇腾硬件支持的原子加法指令,直接在 GM 中完成输出张量的更新。这彻底消除了中间张量在 GM 与 UB 之间的往返搬运,显著降低了访存延迟。

基线 MLA 与 AMLA 的流程对比。

在以加代乘之外,AMLA 又设计了一套结合预加载流水线(Preload Pipeline)层级分块的执行策略。前者通过将计算任务解耦,使负责矩阵运算的 Cube 核与负责 Softmax / 归一化的 Vector 核能够并行工作。结合预加载机制,确保 Cube 核始终处于饱和计算状态(Cube-bound),避免因等待 Vector 核处理而产生的流水线气泡。在 Cube 核内部,AMLA 引入了多级分块策略。通过细粒度的数据切分,实现了数据从高层存储向寄存器搬运的过程与实际计算过程的完全重叠。这种双层流水线优化确保了数据流的连续性,最大化了 FLOPS 利用率。

AMLA 的预加载流水架构

AMLA 的实测结果进一步印证了其含金量,在昇腾硬件上跑出了最高 614 TFLOPS的性能,算力利用率达到理论峰值的 86.8%,远高于当前最好的开源 FlashMLA(在 NVIDIA H800 SXM5 上算力利用率约 66.7%)。

以往大模型推理的天花板往往受限于硬件实际可用算力,而 AMLA 抬升了芯片的性能上限,打破了行业长期停留在 50% 以下的利用率瓶颈,使得昇腾硬件更有效地支撑大模型的推理需求。硬件利用率的提升也将进一步打开系统层面、框架层面乃至模型层面的优化空间,提供更强的可持续优化与扩展潜力。

至此,围绕系统性推理加速、全链路智能调度与底层算子优化,华为打出了一套面向超大规模 MoE 推理的组合拳。

为了让超大规模 MoE 模型的部署不再是业界难题,华为在昇腾硬件上祭出了准万亿参数 openPangu-Ultra 与昇腾亲和加速技术的最佳实践,并在框架层面、调度层面和算子层面进行了一系列技术创新。

其中昇腾亲和加速技术在框架层面提供适配 vLLM、SGLang 等的加速器以及多个加速套件,Omni Proxy 带来了更稳更快的智能调度,AMLA 通过算子优化提升硬件算力利用率。这些技术的组合让准万亿参数 MoE 推理在成本、性能与稳定性之间找到可落地的平衡点,并为其迈向商业可行性奠定了基础。

如今,尽管 Scaling Laws 的边际收益正在放缓,但模型能力仍在上探。同时,推理效率的底座也在系统、算法与硬件协同优化下不断加固。模型能力与推理效率的双向提升让大模型加速走向产业化落地阶段。

随着大模型的价值判断逐步从「能否训练」转向「能否以可控成本长期运行」,行业正在经历一场由推理效率驱动的结构性重构。而 openPangu-Ultra 与昇腾亲和加速技术的结合,为这种重构给出了一个清晰的范本。

相关版本

    多平台下载

    查看所有0条评论>网友评论

    发表评论

    (您的评论需要经过审核才能显示) 网友粉丝QQ群号:766969941

    查看所有0条评论>>

    相关软件
    天天av 呦呦中文色导航 亚洲性交网站 盗摄AV综合网站 在线观看超碰 永久性黄色网址 人人人爽人人人 日韩 码 伊人十八综合在线 美女祼体黄18禁免费网站 日产b站免mv费看的伊 吞噬星空跳软 一本一道中文字幕 海角禁区v4.0.9 中文字幕在线2021一区 黄片一级无码在线嘿嘿 人人人人人搞妇女 黄视频网站一致 黄片我操你 看欧美淫秽的屄 午夜亚洲黄色视频 涩涩图片 那里有免费A片看 三级片在线观看hhh 亚洲精品一级明星换脸同人曲 中文无码乱人伦中文视频乱码 巨大 房乳潮流牛奶 免费 在线看黄免费不卡 色资源网 A级毛片强奸 亚洲性无码不卡免费视频 我想看中国黄色电影黄色网站黄色网黄色视频黄色爱情电影 挺进老妇的肉泬m48w有奶小 九五视频入口 中,欧,亚,美女做A级视频 狠狠插,日日操 国产无码三区无码视频A片看看 国产精品秘 入口66mio PORNO93HD馃槏馃槏鉂o笍 阴抖下载 furry狼人榨精Gay网站 涂山容容羞羞漫画 黑色无码在线 高端黑料 班花趴下让我桶她屁股眼 操碰久久 熊多多u熊互吃熊根视频合集 KTV富婆群交高潮视频 欧美春色 特黄a大片免费视频 中国老妇    2023 女人毛茸骚逼蒂视频 欧洲免费A一级毛片 亚洲国产午夜手机AV片久久 罗丽星克莱尔护士日记英文版 国产老熟女老女人视频 100%裸妆 国产一区视频在线观看免费 欧美日屄视频 扣扣你13 欧美性少妇ⅩⅩⅩⅩ真人作爱HD 4444在线观看视频免费 不卡a片免费在线观看 丝袜高跟怕怕软件 操B一区 我要看久久精品黄色片 欧美日韩特级一级A片外网站色欲 校花沦为农民工泄欲的工具 七七九九色色,, 国产做受cos av蜜乳 肉偿 轮奸 男女交配网站 乱伦激情熟女网 qukanpian官方网站 不卡的色哟哟视频在线 农民人妻偷人乱XXXX 成年人黄色视频欧美 黄色视频另类 人人添人人澡人人澡人人澡 星空传媒电影免费观看 一区二区亚洲欧美 国产精品久久久久精品流畅 国产国产乱老熟视频2021 国产精品黄页 人人人操人人人人人 春谷美雨归来高清在线观看 肏屄在线视频 最近中文字幕大全 插女人网站 wwwcom123A片 使劲干人人草视频在线观看 4444444在线观看免费高清电视剧范冰冰 曰韩视频_区导航 美女被艹视频 在线看黄免费网站 天天操天天日riAV资源 毛片免费播放不卡 无码av无码天堂资源网影音先锋 在线观看A片视频免费播放 国内公厕精品偷拍一区 A片在线观看 91羞羞 轻轻挺进新婚少妇 美女吃鸡巴视频 谁有免费黄色网站? 91大黄鸭裤袜 精品久久久久久中文字幕无碍 胜利女神r18魔改版最新版本更新内容 久久精品国产99国产精品免费看 三级无码99久久久精品 一级毛片对白有叫床声的 扒开内衣强吸乳的游戏手游下载 人人擦人人操 陈冠希摄影集锦Pdf xxx馃埐 日韩福利一区二区视频 女s虐男m跪趴尿骚叫小说免费阅读 亚洲福利诱惑 亚洲综合网23p
    热门网络工具