TACO – 北航等高校开源的端智能体自进化观测压缩框架

动态 来源:AI工具集 2026-05-10 18:25:40

TACO是什么

TACO 是曼彻斯特大学、北京航空航天大学、香港科技大学以及MAP 团队开源的无需训练、即插即用的终端智能体自进化观测压缩框架。框架解决了多轮命令行任务中 shell 输出噪声累积导致的上下文膨胀,自动从交互轨迹中发现并复用压缩规则,保留关键报错同时过滤冗余日志。框架即插即用、免训练,已集成于 Harbor 的 terminus-2。在 TerminalBench 等基准上,为 DeepSeek-V3.2、Qwen3 等模型带来 1%-4% 准确率提升,显著降低长程任务 token 消耗。

TACO的主要功能

  • 自进化规则发现:框架自动从多轮终端交互轨迹中扫描原始 shell 输出,识别冗余模式并生成候选压缩规则,无需人工编写固定提示或启发式策略。
  • 规则在线精炼与修复:根据任务执行的实时反馈迭代调整规则边界,修复过度压缩或遗漏关键信号的问题,确保报错信息与状态反馈不被误删。
  • 全局规则池与跨任务迁移:维护一个持久化的全局规则知识库,使新任务能直接加载并复用先前会话验证过的规则,实现跨仓库、跨命令环境的经验累积。
  • 即插即用免训练集成:以插件形式直接嵌入现有终端 Agent(如 Harbor 框架中的 terminus-2),通过命令行参数开启,无需修改模型架构或进行任何微调。
  • Token 效率与性能双优化:在过滤低价值终端噪声的同时保留关键环境反馈,使长程多轮任务的 token 消耗线性可控,在 TerminalBench 等基准上提升 1%-4% 的准确率。

TACO的技术原理

  • 问题背景:终端 Agent 在多轮任务中将原始 shell 输出完整回填上下文,导致系统日志、进度条等低价值噪声随轮次二次膨胀,淹没关键报错信号并激增 token 成本。
  • 三模块架构:框架由规则发现器、规则精炼器和全局规则池组成。发现器监控输出流,对超长且未被覆盖的内容自动生成结构化压缩规则;精炼器根据任务反馈迭代修复规则边界,防止误删关键信息;全局规则池持久化验证后的规则,供新任务直接加载复用。
  • 在线运行机制:每轮交互优先匹配全局规则池进行压缩,遇到未覆盖的长输出则触发新规则发现,经当前任务验证后汇入全局池。整个流程由外部规划 LLM 驱动,无需训练数据或模型微调,使压缩策略随终端环境动态演化。

如何使用TACO

  • 环境安装:克隆 GitHub 仓库后,在项目根目录执行 pip install -e . 完成依赖安装,TACO 作为 Harbor 框架的 terminus-2 组件直接可用。
  • 快速启动:运行 Harbor 命令并指定 terminus-2 agent,传入模型信息与 TACO 专属参数即可启动,项目内 scripts/run_taco_example.sh 提供可直接修改的模板脚本。
  • 核心参数配置:通过 --ak 前缀传入 enable_compress=True 开启压缩主开关,enable_self_evo=True 激活在线规则进化,同时配置 compress_base_url、compress_api_key 和 compress_model_name 指向任意 OpenAI 兼容的规划 LLM 端点。
  • 常用模式选择:完整体验需同时开启压缩与自进化并配置外部 LLM;若需固定规则做消融实验,追加 freeze_rules=True;若仅使用单任务本地进化而不继承全局规则池,则添加 disable_global_evo=True。
  • 运行控制:使用 --ak max_turns=200 等参数设置单任务轮次上限,通过 model_info 传入 JSON 配置 LiteLLM 的输入输出 token 限制,确保长程任务在可控成本内执行。

TACO的核心优势

  • 即插即用零训练:无需微调主干大模型或改动 Agent 底层架构,直接通过命令行参数开启压缩与自进化。
  • 自进化跨任务迁移:全局规则池让 Agent 在长程多轮任务中持续积累压缩经验,新任务直接继承旧知识。
  • 性能与成本双赢:在 TerminalBench 上为 MiniMax-M2.5、DeepSeek-V3.2、Qwen3-Coder-480B 等模型带来 1%-4% 准确率提升,并在相同 token 预算下再提升约 2%-3%。
  • 强泛化与低消耗:在 SWE-Bench Lite、CompileBench、DevEval、CRUST-Bench 上均保持或提高成功率,同时显著降低总 token 消耗。

TACO的项目地址

  • GitHub仓库:https://github.com/multimodal-art-projection/TACO

  • arXiv技术论文:http://arxiv.org/abs/2604.19572

TACO的同类竞品对比

维度TACOSWE-agentOpenHands
上下文处理自进化规则压缩,全局知识池跨任务复用保留完整原始终端输出,无智能压缩机制依赖模型原生长上下文或用户自定义提示
训练依赖完全免训练,即插即用免训练,但需特定 Docker 环境配置免训练,需复杂沙箱与运行时环境
跨任务迁移全局规则池支持跨仓库/跨会话知识累积单任务会话隔离,历史知识不继承多任务支持,但无结构化压缩规则复用
Token 效率显式过滤冗余噪声,长程任务成本线性可控原始输出回填导致 token 随轮次二次增长长程任务 token 消耗高,易触顶上下文上限
开源集成开源,深度集成 Harbor 评估框架开源,社区生态成熟开源,通用 Agent 平台

TACO的应用场景

  • 长程软件工程 Agent:在 SWE-Bench 类多轮代码调试、编译测试中抑制日志与终端输出爆炸,保持上下文清晰。
  • 自动化运维与部署:处理大量 shell 返回的冗余系统状态与进程信息,提升 DevOps Agent 的决策稳定性。
  • 代码审查与测试分析:过滤无关编译警告与测试通过信息,精准保留关键报错与代码差异。
  • 学术研究复现与评测:作为 Harbor 框架的 terminus-2 插件,用于终端 Agent 的 token 效率评估与长程能力基准测试。

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接