vLLM v0.24.0 于 6 月 29 日发布,包含 571 个 commits,新增 MiniMax-M3 模型支持、DeepSeek-V4 性能优化、Model Runner V2 全面扩展、Streaming Parser Engine 以及 Rust 前端新功能,进一步提升推理效率与兼容性。
6 月 29 日,vLLM 项目正式发布 v0.24.0 版本。本次更新包含 571 个提交,来自 256 位贡献者(其中 77 位新贡献者),重点涵盖了新模型支持、推理优化以及基础设施完善。
该版本新增了对 MiniMax-M3 模型的支持,并对其进行了 BF16/FP8 索引器、MXFP4 等多方面的优化。DeepSeek-V4 持续成熟,通过 FlashInfer 稀疏索引缓存使得 TTFT 提升 2-4%,预填块规划优化带来 4% 端到端吞吐提升,并增加了集群协作 topK 内核、连续逐块 KV 分配等功能。Model Runner V2 (MRv2) 已默认支持量化模型,并迁移了 Qwen 和 DeepSeek-V2 MoE 模型,同时集成了 DFlash 推测解码和更精确的 FP32 Gumbel 采样。此外,新引入了统一流式解析器引擎,支持 Qwen3、MiniMax-M2、GLM-4.7/5.1/5.2 等多模型的工具调用/推理解析。Diffusion LLMs 方面新增了 DiffusionGemma 支持,并包含 CPU 路径。WideEP/DeepEP v2 集成用于专家并行。Rust 前端更加成熟,新增 API 密钥认证、CORS、tokenize/detokenize 端点、暂停/恢复/取消请求等功能。设备选择方面,vLLM 不再内部设置 CUDA_VISIBLE_DEVICES,改为提供 device_ids 参数。
原文链接: https://github.com/vllm-project/vllm/releases/tag/v0.24.0