SGLang v0.5.14 正式发布,新增 GLM-5.2、LiquidAI LFM2.5、DeepSeek-V4 等模型支持;针对 GB300 的 DeepSeek-V4 吞吐量提升 5 倍;引入 Waterfill/LPLB MoE 负载均衡及 KDA CuteDSL 预填充内核等多项优化。
SGLang 于 2025 年 6 月 26 日发布 v0.5.14 版本(由 Fridge003 在 GitHub 上发布)。本次更新重点新增多款模型支持:GLM-5.2、LiquidAI LFM2.5、Kimi-K2.7-Code、Poolside Laguna-M.1、DiffusionGemma、Zyphra ZAYA1、MiMo-V2-ASR。特别值得关注的是,DeepSeek-V4 在 NVIDIA GB300 上可实现相同交互性条件下 5 倍吞吐量提升。
该版本值得关注的核心改进包括:
此外,还修复了多项 CUDA graph 交互问题,并新增 Nemotron DP attention + MTP 支持。完整变更请见原始发布说明。
原文链接: https://github.com/sgl-project/sglang/releases/tag/v0.5.14