GitHub Releases2026年7月2日

vLLM v0.24.0 发布：支持 MiniMax-M3、DeepSeek-V4 优化，MRv2 及 Rust 前端成熟

vLLM v0.24.0 于 6 月 29 日发布，包含 571 个 commits，新增 MiniMax-M3 模型支持、DeepSeek-V4 性能优化、Model Runner V2 全面扩展、Streaming Parser Engine 以及 Rust 前端新功能，进一步提升推理效率与兼容性。

事件详情

6 月 29 日，vLLM 项目正式发布 v0.24.0 版本。本次更新包含 571 个提交，来自 256 位贡献者（其中 77 位新贡献者），重点涵盖了新模型支持、推理优化以及基础设施完善。

该版本新增了对 MiniMax-M3 模型的支持，并对其进行了 BF16/FP8 索引器、MXFP4 等多方面的优化。DeepSeek-V4 持续成熟，通过 FlashInfer 稀疏索引缓存使得 TTFT 提升 2-4%，预填块规划优化带来 4% 端到端吞吐提升，并增加了集群协作 topK 内核、连续逐块 KV 分配等功能。Model Runner V2 (MRv2) 已默认支持量化模型，并迁移了 Qwen 和 DeepSeek-V2 MoE 模型，同时集成了 DFlash 推测解码和更精确的 FP32 Gumbel 采样。此外，新引入了统一流式解析器引擎，支持 Qwen3、MiniMax-M2、GLM-4.7/5.1/5.2 等多模型的工具调用/推理解析。Diffusion LLMs 方面新增了 DiffusionGemma 支持，并包含 CPU 路径。WideEP/DeepEP v2 集成用于专家并行。Rust 前端更加成熟，新增 API 密钥认证、CORS、tokenize/detokenize 端点、暂停/恢复/取消请求等功能。设备选择方面，vLLM 不再内部设置 CUDA_VISIBLE_DEVICES，改为提供 device_ids 参数。

原文链接: https://github.com/vllm-project/vllm/releases/tag/v0.24.0

参考来源

查看原始公告 →

https://github.com/vllm-project/vllm/releases/tag/v0.24.0

事件详情

原文链接: https://github.com/vllm-project/vllm/releases/tag/v0.24.0