热议中模型发布
港中文团队提出 Skill 生命周期管理 SLIM,让大模型智能体不再盲目堆积 Skill !
TL;DR · 一句话结论
香港中文大学提出SLIM框架,通过leave-one-skill-out评估技能贡献,动态执行保留、退休、扩展操作,在ALFWorld上成功率87.5,超基线12.5个百分点。
主要内容
- 01SLIM平均超最佳对比方法7.1个百分点。
- 02最终保留21个有效技能,非越多越好。
- 03使用leave-one-skill-out评估技能边际贡献。
- 04支持技能保留、退休、扩展三种操作。
- 05SearchQA上SLIM为41.0,Skill0为39.3。
背景
大模型智能体在复杂任务中常依赖外部技能库,但简单堆积技能会导致检索噪声和上下文干扰,而完全删除技能又会丢失长尾能力。SLIM将技能视为有生命周期的系统,在训练过程中动态调整技能集合,平衡内部模型参数与外部技能的分工。
为什么值得关注
对开发者而言,SLIM提供了一种可实践的技能管理策略,能在不增加模型参数的情况下提升智能体在长流程、工具使用任务中的表现。对AI工具用户,这意味着智能体将更稳定、更少被无关技能干扰,执行复杂任务时更可靠。
🇨🇳
对中国用户与市场
中文开发者可直接参考SLIM方法优化自家智能体(如基于Qwen系列),减少手动调优技能库的工作量。但需注意SLIM目前实验基于Qwen3-4B,换用其他模型或中文场景效果需验证。
继续关注
⚠尚未确定的部分
- ·SLIM的leave-one-skill-out验证在技能数多时计算开销较高。
- ·论文仅测试ALFWorld和SearchQA,泛化性待更多场景验证。
- ·技能退休后若后续任务需要,可能需重新扩展,训练流程稍复杂。
→可采取的行动
- ·尝试在自家智能体训练中引入技能贡献评估机制。
- ·参考SLIM的分阶段管理思路,减少技能库冗余。
- ·关注港中文团队后续方法论简化或开源代码动态。
摘记
SLIM:让模型判断外部能力的去留,在复杂任务中保留真正有用的支撑。
#香港中文大学#SLIM#ALFWorld#SearchQA#Qwen3-4B#GRPO#SkillRL#Skill0#智能体#技能管理
🤖 本文根据 雷峰网 的 RSS 内容整理,并由 AI 辅助提炼要点。完整上下文请以 原文 为准。