欧美天天看a片

电脑版下载

52869
9

欧美天天看a片截图Q8X2R7L1T4J5M9B6W3

内容详情

欧美天天看a片

就在一周前，全宇宙最火爆的推理框架 SGLang 官宣支持了 Diffusion 模型，好评如潮。团队成员将原本在大语言模型推理中表现突出的高性能调度与内核优化，扩展到图像与视频扩散模型上，相较于先前的视频和图像生成框架，速度提升最高可达 57%：

模型支持：覆盖主流开源视频和图像生成模型，包括 Wan 系列、Hunyuan、Qwen-Image、Qwen-Image-Edit、Flux 等。

性能加速：在多种工作负载上实现最高57%的推理加速。

多种接口：提供 OpenAI 兼容 API、CLI 和 Python 接口，降低使用门槛。

完整生态：与 FastVideo 团队合作，打造从模型训练到生产部署的端到端解决方案。

Roadmap：https://github.com/sgl-project/sglang/issues/12799Slack 频道：https://sgl-fru7574.slack.com/archives/C09P0HTKE6A官方博客：https://lmsys.org/blog/2025-11-07-sglang-diffusion/GitHub：https://github.com/sgl-project/sglang/tree/main/python/sglang/multimodal_gen

从 LLM 到 Diffusion：

SGLang 的「多模态统一引擎」

过去两年，SGLang 借助高效调度与自研内核，在大模型推理场景建立了「高性能推理引擎」的口碑。

而在图像与视频生成领域，扩散模型（Diffusion Models）逐渐成为领域基石——无论是视频模型 Wan / FastWan / 混元（Hunyuan），还是图像模型 Qwen-Image / Flux，都被广泛应用。

社区中一直有强烈诉求：「能否用同一套高性能基础设施，同时跑 LLM 和扩散模型？」/「我们已经在用 SGLang 推理 LLM，可不可以用同一套引擎，把图像和视频也一起加速？」

SGLang 团队给出了肯定的回答：SGLang Diffusion。

更深层的原因在于，未来的生成式 AI，很可能不再是「单一架构」的世界，而是自回归（AR）+ 扩散（Diffusion）的混合架构：

字节跳动的 Bagel、Meta 的 Transfusion 等等模型：用一套 Transformer 同时做 AR 和 Diffusion。NVIDIA 的 Fast-dLLM v2：让 AR 模型走向并行生成。

要支撑这种「多架构融合」的新时代，需要一个统一的高性能推理底座，能同时处理语言任务与扩散任务。SGLang Diffusion 的目标，是成为面向未来的高性能多模态底座。

ComposedPipelineBase + USP，

赋能高性能推理

具体实现上，SGLang Diffusion 采用了独立优化架构与底层生态共享的策略：

设计专用的生成调度器：实现了独立的调度器（Scheduler），专门针对图像/视频生成的「多步迭代去噪」特性进行任务编排管理，以替代 LLM 的 Token 级调度逻辑。复用深度优化后的高性能算子库：深度集成 sgl-kernel 底层库，覆盖 Attention 等核心算子。

为了适配扩散模型复杂多变的结构，SGLang 团队提出了ComposedPipelineBase。可以理解为把扩散推理过程拆成一个个可复用的 Stage，再用ComposedPipelineBase把它们按需「拼起来」。

典型 Stage 包括：

DenoisingStage：封装扩散过程中的去噪循环；DecodingStage：封装 VAE 解码等步骤；其他可插拔子模块。

这套顶层设计给开发者和有魔改的用户都带来几个明显好处：

组件化：常用功能封装为 Stage，构建新 pipeline 时只需「拼积木复用性：不同模型之间复用同一类 Stage，减少重复代码；可扩展：新增模型仅需接好「接口」，不必重造整条流水线。

为了追求极致性能，SGLang Diffusion 还在扩散推理中引入了先进的并行技术：

USP（Unified Sequence Parallelism）：这是 Ulysses-SP 与 Ring-Attention 的结合，专门加速核心 Transformer Block；CFG-Parallel（Classifier-Free Guidance Parallel）：同时计算条件 / 无条件分支，减少冗余；Tensor Parallel（TP）等常规并行：加速其他模型组件。

注意到，SGLang Diffusion 底层仍由 sgl-kernel 承载，这也为未来引入了量化等高性能内核提供了天然扩展位。

效果展示

为了提供无缝的使用体验，SGLang Diffusion 提供了多种熟悉的接口形式，包括：

命令行界面（CLI）Python 引擎 API兼容 OpenAI 的 API

对于已有基于 OpenAI API 的应用而言，引入 SGLang Diffusion 几乎是「零改动」级别，开发者可以以最小改动将扩散生成能力集成到现有工作流中。

Text-to-Video ｜文本转视频（Wan-AI/Wan2.1）

sglang generate \

--model-path Wan-AI/Wan2.1-T2V-1.3B-Diffusers \

--prompt "A simple, natural shot of an ordinary jeep driving along a quiet forest road. Trees line both sides of the road, sunlight filtering softly through the leaves. The camera follows the jeep from a gentle forward or side angle, with calm, steady motion. Realistic lighting, relaxed atmosphere, and smooth, subtle movement." \

--save-output

Image-to-Video ｜图生视频（Wan-AI/Wan2.1-I2V）

sglang generate --model-path=Wan-AI/Wan2.1-I2V-14B-480P-Diffusers \

--prompt="Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside." \ --image-path="https://github.com/Wan-Video/Wan2.2/blob/990af50de458c19590c245151197326e208d7191/examples/i2v_input.JPG?raw=true" \

--num-gpus 2 --enable-cfg-parallel --save-output

Text-to-Image ｜文生图（FLUX）

sglang generate --model-path black-forest-labs/FLUX.1-dev \

--prompt "A Logo With Bold Large Text: SGL Diffusion" \

--save-output

Text-to-Image ｜文生图（Qwen-Image）

sglang generate --model-path=Qwen/Qwen-Image

--prompt='A cute cat'

--width=720 --height=720

--save-output

Image-to-Image ｜图像编辑（Qwen-Image-Edit）

sglang generate --model-path=Qwen/Qwen-Image-Edit \