TACO – 北航等高校开源的端智能体自进化观测压缩框架
TACO是什么
TACO 是曼彻斯特大学、北京航空航天大学、香港科技大学以及MAP 团队开源的无需训练、即插即用的终端智能体自进化观测压缩框架。框架解决了多轮命令行任务中 shell 输出噪声累积导致的上下文膨胀,自动从交互轨迹中发现并复用压缩规则,保留关键报错同时过滤冗余日志。框架即插即用、免训练,已集成于 Harbor 的 terminus-2。在 TerminalBench 等基准上,为 DeepSeek-V3.2、Qwen3 等模型带来 1%-4% 准确率提升,显著降低长程任务 token 消耗。

TACO的主要功能
- 自进化规则发现:框架自动从多轮终端交互轨迹中扫描原始 shell 输出,识别冗余模式并生成候选压缩规则,无需人工编写固定提示或启发式策略。
- 规则在线精炼与修复:根据任务执行的实时反馈迭代调整规则边界,修复过度压缩或遗漏关键信号的问题,确保报错信息与状态反馈不被误删。
- 全局规则池与跨任务迁移:维护一个持久化的全局规则知识库,使新任务能直接加载并复用先前会话验证过的规则,实现跨仓库、跨命令环境的经验累积。
- 即插即用免训练集成:以插件形式直接嵌入现有终端 Agent(如 Harbor 框架中的 terminus-2),通过命令行参数开启,无需修改模型架构或进行任何微调。
- Token 效率与性能双优化:在过滤低价值终端噪声的同时保留关键环境反馈,使长程多轮任务的 token 消耗线性可控,在 TerminalBench 等基准上提升 1%-4% 的准确率。
TACO的技术原理
- 问题背景:终端 Agent 在多轮任务中将原始 shell 输出完整回填上下文,导致系统日志、进度条等低价值噪声随轮次二次膨胀,淹没关键报错信号并激增 token 成本。
- 三模块架构:框架由规则发现器、规则精炼器和全局规则池组成。发现器监控输出流,对超长且未被覆盖的内容自动生成结构化压缩规则;精炼器根据任务反馈迭代修复规则边界,防止误删关键信息;全局规则池持久化验证后的规则,供新任务直接加载复用。
- 在线运行机制:每轮交互优先匹配全局规则池进行压缩,遇到未覆盖的长输出则触发新规则发现,经当前任务验证后汇入全局池。整个流程由外部规划 LLM 驱动,无需训练数据或模型微调,使压缩策略随终端环境动态演化。
如何使用TACO
- 环境安装:克隆 GitHub 仓库后,在项目根目录执行 pip install -e . 完成依赖安装,TACO 作为 Harbor 框架的 terminus-2 组件直接可用。
- 快速启动:运行 Harbor 命令并指定 terminus-2 agent,传入模型信息与 TACO 专属参数即可启动,项目内 scripts/run_taco_example.sh 提供可直接修改的模板脚本。
- 核心参数配置:通过 --ak 前缀传入 enable_compress=True 开启压缩主开关,enable_self_evo=True 激活在线规则进化,同时配置 compress_base_url、compress_api_key 和 compress_model_name 指向任意 OpenAI 兼容的规划 LLM 端点。
- 常用模式选择:完整体验需同时开启压缩与自进化并配置外部 LLM;若需固定规则做消融实验,追加 freeze_rules=True;若仅使用单任务本地进化而不继承全局规则池,则添加 disable_global_evo=True。
- 运行控制:使用 --ak max_turns=200 等参数设置单任务轮次上限,通过 model_info 传入 JSON 配置 LiteLLM 的输入输出 token 限制,确保长程任务在可控成本内执行。
TACO的核心优势
- 即插即用零训练:无需微调主干大模型或改动 Agent 底层架构,直接通过命令行参数开启压缩与自进化。
- 自进化跨任务迁移:全局规则池让 Agent 在长程多轮任务中持续积累压缩经验,新任务直接继承旧知识。
- 性能与成本双赢:在 TerminalBench 上为 MiniMax-M2.5、DeepSeek-V3.2、Qwen3-Coder-480B 等模型带来 1%-4% 准确率提升,并在相同 token 预算下再提升约 2%-3%。
- 强泛化与低消耗:在 SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench 上均保持或提高成功率,同时显著降低总 token 消耗。
TACO的项目地址
GitHub仓库:https://github.com/multimodal-art-projection/TACO
arXiv技术论文:http://arxiv.org/abs/2604.19572
TACO的同类竞品对比
| 维度 | TACO | SWE-agent | OpenHands |
|---|---|---|---|
| 上下文处理 | 自进化规则压缩,全局知识池跨任务复用 | 保留完整原始终端输出,无智能压缩机制 | 依赖模型原生长上下文或用户自定义提示 |
| 训练依赖 | 完全免训练,即插即用 | 免训练,但需特定 Docker 环境配置 | 免训练,需复杂沙箱与运行时环境 |
| 跨任务迁移 | 全局规则池支持跨仓库/跨会话知识累积 | 单任务会话隔离,历史知识不继承 | 多任务支持,但无结构化压缩规则复用 |
| Token 效率 | 显式过滤冗余噪声,长程任务成本线性可控 | 原始输出回填导致 token 随轮次二次增长 | 长程任务 token 消耗高,易触顶上下文上限 |
| 开源集成 | 开源,深度集成 Harbor 评估框架 | 开源,社区生态成熟 | 开源,通用 Agent 平台 |
TACO的应用场景
- 长程软件工程 Agent:在 SWE-Bench 类多轮代码调试、编译测试中抑制日志与终端输出爆炸,保持上下文清晰。
- 自动化运维与部署:处理大量 shell 返回的冗余系统状态与进程信息,提升 DevOps Agent 的决策稳定性。
- 代码审查与测试分析:过滤无关编译警告与测试通过信息,精准保留关键报错与代码差异。
- 学术研究复现与评测:作为 Harbor 框架的 terminus-2 插件,用于终端 Agent 的 token 效率评估与长程能力基准测试。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675







yuki亭
