GitHub Releases2026年7月2日

SGLang v0.5.14 发布：新增 GLM-5.2、DeepSeek-V4 支持，GB300 吞吐量提升 5 倍

SGLang v0.5.14 正式发布，新增 GLM-5.2、LiquidAI LFM2.5、DeepSeek-V4 等模型支持；针对 GB300 的 DeepSeek-V4 吞吐量提升 5 倍；引入 Waterfill/LPLB MoE 负载均衡及 KDA CuteDSL 预填充内核等多项优化。

事件详情

SGLang 于 2025 年 6 月 26 日发布 v0.5.14 版本（由 Fridge003 在 GitHub 上发布）。本次更新重点新增多款模型支持：GLM-5.2、LiquidAI LFM2.5、Kimi-K2.7-Code、Poolside Laguna-M.1、DiffusionGemma、Zyphra ZAYA1、MiMo-V2-ASR。特别值得关注的是，DeepSeek-V4 在 NVIDIA GB300 上可实现相同交互性条件下 5 倍吞吐量提升。

该版本值得关注的核心改进包括：

•DeepSeek-V4 全面优化：包括 FP8 量化、MLA 解码 padding、MHC 预归一化内核预热等，大幅提升部署效率。

•MoE 负载均衡：引入 Waterfill（共享专家）和 LPLB（线性规划冗余专家副本）两种调度时负载均衡方法，专为 DeepEP 专家并行设计。

•KDA CuteDSL 预填充内核：在 Blackwell SM100 上实现 1.08–1.52 倍速度提升，超越 Triton 路径。

•线性注意力前缀缓存：采用 int8 检查点池压缩递归状态，显著增加缓存容量；滑动窗口中间缓存去重减少一半空间占用。

•MSCCL++ 集成 & MNNVL 全规约融合：自动调优集合通信，支持 TP=8 单节点和 TP=16 双节点。

•AMD GPU 支持：breakable CUDA graph 可在 ROCm/HIP 上运行。

•NVFP4 MoE 量化：为 DeepSeek-V4 在 Blackwell 上提供更高 MoE 吞吐量。

此外，还修复了多项 CUDA graph 交互问题，并新增 Nemotron DP attention + MTP 支持。完整变更请见原始发布说明。

原文链接: https://github.com/sgl-project/sglang/releases/tag/v0.5.14

参考来源

查看原始公告 →

https://github.com/sgl-project/sglang/releases/tag/v0.5.14

事件详情

该版本值得关注的核心改进包括：

•DeepSeek-V4 全面优化：包括 FP8 量化、MLA 解码 padding、MHC 预归一化内核预热等，大幅提升部署效率。

•MoE 负载均衡：引入 Waterfill（共享专家）和 LPLB（线性规划冗余专家副本）两种调度时负载均衡方法，专为 DeepEP 专家并行设计。

•KDA CuteDSL 预填充内核：在 Blackwell SM100 上实现 1.08–1.52 倍速度提升，超越 Triton 路径。

•线性注意力前缀缓存：采用 int8 检查点池压缩递归状态，显著增加缓存容量；滑动窗口中间缓存去重减少一半空间占用。

•MSCCL++ 集成 & MNNVL 全规约融合：自动调优集合通信，支持 TP=8 单节点和 TP=16 双节点。

•AMD GPU 支持：breakable CUDA graph 可在 ROCm/HIP 上运行。

•NVFP4 MoE 量化：为 DeepSeek-V4 在 Blackwell 上提供更高 MoE 吞吐量。

此外，还修复了多项 CUDA graph 交互问题，并新增 Nemotron DP attention + MTP 支持。完整变更请见原始发布说明。

原文链接: https://github.com/sgl-project/sglang/releases/tag/v0.5.14