vLLM 发布 v0.23.0 预发布版本,包含 408 次提交和 200 名贡献者(63 名新)。DeepSeek-V4 获得大规模优化,Model Runner V2 默认支持 Llama/Mistral,Rust 前端新增流式生成等端点,并兼容 Transformers v5。
vLLM 于 6 月 12 日发布了 v0.23.0 预发布版本(从主分支 231 次提交后)。该版本包含 408 次提交,来自 200 名贡献者,其中 63 名为新贡献者。
为什么值得关注: 这是 vLLM 在推理引擎方面的一次重大更新。DeepSeek-V4 从上次引入后获得大量优化,包括稀疏 MLA 元数据解耦、TRTLLM-gen 注意力内核、EPLB 支持 MoE、选择性前缀缓存等,使其在生产环境更加成熟。Model Runner V2 现在默认用于 Llama 和 Mistral 密集模型(之前仅 Qwen3),并加入了 FlashInfer 采样器、可打断 CUDA 图、流水线并行气泡消除等能力,大幅提升推理效率。Rust 前端实验性版本增加了流式生成、动态 LoRA、版本/服务器信息端点以及多种工具解析器,为 API 使用提供更现代的选择。此外,该版本还新增了对 Gemma 4(无编码器 Unified、MTP)、MiMo-V2.5、Step-3.7-Flash 等模型的支持,并正式转向 Transformers v5,弃用 v4 支持。多级 KV 缓存卸载框架也得到增强,支持对象存储二级层和按请求卸载策略。
原文链接: https://github.com/vllm-project/vllm/releases/tag/v0.23.0