GitHub Releases2026年6月14日

SGLang 发布 v0.5.13：新增 Nemotron 3 Ultra、Step-3.7-Flash 等模型支持，Spec V2 成为默认推测解码路径

SGLang v0.5.13 于 6 月 13 日发布，带来大量新模型支持（Nemotron 3 Ultra、Step-3.7-Flash 等）、Spec V2 默认化、CUDA Graph 优化、DeepSeek V4 上下文并行等性能改进。

事件详情

发生了什么

SGLang 于 6 月 13 日发布 v0.5.13 版本。该版本新增多个模型支持：自回归模型包括 Nemotron 3 Ultra（Day-0 支持，有博客）、Step-3.7-Flash、Command A+；扩散模型包括 Cosmos3、LingBot-World、SANA-WM、Ernie-Image、FLUX.2-Klein 4B/9B、Ideogram 4。此外，Spec V2 成为默认推测解码路径，支持 topk > 1 的树形草稿，在 triton、FA3、MLA、aiter 后端生产可用，并废弃 Spec V1。调度器开销降低：通过 FutureMap 统一异步值传递和将 prefill 输入传输移到前向流，减少了每步启动开销并改善了高并发稳定性。CUDA Graph 覆盖增强：Piecewise (PCG) 和 Breakable (BCG) 捕获更多模型以削减每步内核启动开销，现已扩展到 DSA 模型、Kimi-K2.5 和 DeepSeek V4。Qwen 3.5 在 Blackwell GPU 上速度提升，使用新的 FlashInfer Gated DeltaNet 内核。HiCache 用于混合模型默认启用。异构 CPU+GPU EPD 拆分（与 Intel 合作）将 VLM 视觉编码卸载到 Intel Xeon CPU，P99 TTFT 和请求吞吐量提升约 1.3 倍。MoRI 在 AMD Instinct MI355X 上实现 DeepSeek-R1 拆分推理，每百万 token 仅 $0.169，129 tok/s/user。DeepSeek V4 获得上下文并行和稀疏注意内核支持。SGLang-Diffusion 支持实时视频生成与渐进分辨率。

为什么值得关注

SGLang 是一个高性能 LLM 推理引擎，v0.5.13 大幅扩展了模型覆盖面并优化了推理效率。Spec V2 默认化意味着推测解码在生产环境中更稳定、更快；CUDA Graph 改进降低了延迟；对 DeepSeek V4 的上下文并行支持可直接应用于长上下文场景；与 Intel/AMD 的硬件合作展示了跨平台优化能力。这些更新对于部署大规模 LLM 服务的开发者具有实际加速价值。

原文链接: https://github.com/sgl-project/sglang/releases/tag/v0.5.13

参考来源

查看原始公告 →

https://github.com/sgl-project/sglang/releases/tag/v0.5.13

事件详情

发生了什么

为什么值得关注

原文链接: https://github.com/sgl-project/sglang/releases/tag/v0.5.13