SGLang v0.5.13 于 6 月 13 日发布,带来大量新模型支持(Nemotron 3 Ultra、Step-3.7-Flash 等)、Spec V2 默认化、CUDA Graph 优化、DeepSeek V4 上下文并行等性能改进。
发生了什么
SGLang 于 6 月 13 日发布 v0.5.13 版本。该版本新增多个模型支持:自回归模型包括 Nemotron 3 Ultra(Day-0 支持,有博客)、Step-3.7-Flash、Command A+;扩散模型包括 Cosmos3、LingBot-World、SANA-WM、Ernie-Image、FLUX.2-Klein 4B/9B、Ideogram 4。此外,Spec V2 成为默认推测解码路径,支持 topk > 1 的树形草稿,在 triton、FA3、MLA、aiter 后端生产可用,并废弃 Spec V1。调度器开销降低:通过 FutureMap 统一异步值传递和将 prefill 输入传输移到前向流,减少了每步启动开销并改善了高并发稳定性。CUDA Graph 覆盖增强:Piecewise (PCG) 和 Breakable (BCG) 捕获更多模型以削减每步内核启动开销,现已扩展到 DSA 模型、Kimi-K2.5 和 DeepSeek V4。Qwen 3.5 在 Blackwell GPU 上速度提升,使用新的 FlashInfer Gated DeltaNet 内核。HiCache 用于混合模型默认启用。异构 CPU+GPU EPD 拆分(与 Intel 合作)将 VLM 视觉编码卸载到 Intel Xeon CPU,P99 TTFT 和请求吞吐量提升约 1.3 倍。MoRI 在 AMD Instinct MI355X 上实现 DeepSeek-R1 拆分推理,每百万 token 仅 $0.169,129 tok/s/user。DeepSeek V4 获得上下文并行和稀疏注意内核支持。SGLang-Diffusion 支持实时视频生成与渐进分辨率。
为什么值得关注
SGLang 是一个高性能 LLM 推理引擎,v0.5.13 大幅扩展了模型覆盖面并优化了推理效率。Spec V2 默认化意味着推测解码在生产环境中更稳定、更快;CUDA Graph 改进降低了延迟;对 DeepSeek V4 的上下文并行支持可直接应用于长上下文场景;与 Intel/AMD 的硬件合作展示了跨平台优化能力。这些更新对于部署大规模 LLM 服务的开发者具有实际加速价值。
原文链接: https://github.com/sgl-project/sglang/releases/tag/v0.5.13