GitHub Releases2026年6月14日

vLLM v0.23.0 预发布：DeepSeek-V4 成熟、Model Runner V2 扩展、Rust 前端增强

vLLM 发布 v0.23.0 预发布版本，包含 408 次提交和 200 名贡献者（63 名新）。DeepSeek-V4 获得大规模优化，Model Runner V2 默认支持 Llama/Mistral，Rust 前端新增流式生成等端点，并兼容 Transformers v5。

事件详情

vLLM 于 6 月 12 日发布了 v0.23.0 预发布版本（从主分支 231 次提交后）。该版本包含 408 次提交，来自 200 名贡献者，其中 63 名为新贡献者。

为什么值得关注： 这是 vLLM 在推理引擎方面的一次重大更新。DeepSeek-V4 从上次引入后获得大量优化，包括稀疏 MLA 元数据解耦、TRTLLM-gen 注意力内核、EPLB 支持 MoE、选择性前缀缓存等，使其在生产环境更加成熟。Model Runner V2 现在默认用于 Llama 和 Mistral 密集模型（之前仅 Qwen3），并加入了 FlashInfer 采样器、可打断 CUDA 图、流水线并行气泡消除等能力，大幅提升推理效率。Rust 前端实验性版本增加了流式生成、动态 LoRA、版本/服务器信息端点以及多种工具解析器，为 API 使用提供更现代的选择。此外，该版本还新增了对 Gemma 4（无编码器 Unified、MTP）、MiMo-V2.5、Step-3.7-Flash 等模型的支持，并正式转向 Transformers v5，弃用 v4 支持。多级 KV 缓存卸载框架也得到增强，支持对象存储二级层和按请求卸载策略。

原文链接: https://github.com/vllm-project/vllm/releases/tag/v0.23.0

参考来源

查看原始公告 →

https://github.com/vllm-project/vllm/releases/tag/v0.23.0

← 返回事件追踪

GitHub Releases2026年6月14日

vLLM v0.23.0 预发布：DeepSeek-V4 成熟、Model Runner V2 扩展、Rust 前端增强

事件详情

vLLM 于 6 月 12 日发布了 v0.23.0 预发布版本（从主分支 231 次提交后）。该版本包含 408 次提交，来自 200 名贡献者，其中 63 名为新贡献者。

原文链接: https://github.com/vllm-project/vllm/releases/tag/v0.23.0

参考来源

查看原始公告 →

https://github.com/vllm-project/vllm/releases/tag/v0.23.0