推荐《谈话活动教案设计思路》相关写作范文范例（精选5篇）-58原创网

欢迎来到58原创网网

58原创网 - 为您提供优质实用文案! >

AI Agent 上下文管理：基于搭叩的七大原则与实践

作者｜朱少飞

前言

搭叩https://dakou.iflow.cn/ 是一个面向小白和初级开发者的一站式 AI Development 产品，它的每个任务都跑在一个独立的容器内，能一站式的帮助用户完成调研，编码，调试和系统部署；支持前端，后端甚至安卓应用的开发和调试。

搭叩这种异步的长链路任务的 Agent 存在 Tools 多，任务的复杂度更高场景更丰富，执行步骤多等特点；我们发现长时间、复杂任务的执行面临着一个核心挑战：上下文窗口限制。随着对话轮次的增加，历史消息、工具调用结果、环境状态信息等内容会迅速累积，导致 token 消耗呈指数级增长。当上下文超出模型的处理能力时，系统要么截断历史信息导致"失忆"，要么直接崩溃无法继续工作。

这不仅仅是一个技术限制问题，更关乎 AI Agent 能否真正承担起复杂的、需要长期规划和执行的任务。一个真正实用的 AI Agent 系统，必须能够在有限的上下文窗口内，既保留关键历史信息，又能持续获取最新的环境状态，还要支持多 Agent 协作和能力动态扩展。

搭叩 (Dakou) 在实践中总结并开创了一套系统化的解决方案，包含上下文压缩、上下文替换、上下文保留、上下文锚定、上下文合并、上下文共享和工具动态扩展七大核心优化策略。这些策略并非简单的组合，而是相互协同，共同构建了一个高效、可靠的上下文管理体系，其中多项关键设计均为业界首次提出。本文将深入剖析这七大策略背后的问题、思路、竞品调研和方案选择的理由，希望能为 AI Agent 的开发者提供参考和启发。

1 上下文压缩 - 过长自动压缩上下文

遇到的问题

在实际应用中，我们发现 AI Agent 在执行复杂任务时，对话历史会迅速累积：

Token 快速增长：一个涉及代码开发的任务，可能在 10-20 轮对话后就产生数万 token 的历史记录
信息截断困境：简单截断最早的消息会导致 Agent"遗忘"任务目标、已完成的工作和重要的上下文信息
执行连续性受损：当 Agent 无法访问完整历史时，容易出现重复执行已完成的操作、忘记用户的特殊要求等问题

这些问题在长时间任务中尤为突出。比如一个需要修改多个文件、运行测试、调试错误的开发任务，如果中途因为上下文超限而丢失了前期的修改记录，Agent 可能会做出错误的决策。

解决思路

我们采用了 智能压缩而非简单截断的策略：

LLM 驱动的语义压缩：使用大语言模型本身来理解和压缩历史对话，提取关键信息而非机械地删除或总结
分批递归处理：当单次压缩的内容仍然超过模型限制时，自动进行分批压缩，先压缩前半部分，再将压缩结果与后半部分合并后继续压缩
场景化压缩策略：

任务进行中：保留任务概览、已执行步骤、当前状态、下一步计划等关键信息
任务完成时：侧重整体执行流程、关键发现、最终状态和任务结果的完整总结

热缓存机制：不是压缩全部历史，而是保留最近的对话（特别是最后一次工具调用及其结果）作为"热缓存"，确保 Agent 能够清晰地了解最新情况

异步压缩机制：当检测到 token 接近限制时，启动异步压缩 goroutine，主流程使用条件变量等待压缩完成，避免阻塞用户交互

多模态内容过滤：压缩前提取图片引用信息，非多模态模型自动过滤 ContentItems 中的 image_url，压缩完成后还原图片到正确位置

主压缩流程图：

异步压缩机制流程图：

多模态内容过滤流程图：

竞品调研

我们调研了业界主流的记忆管理方案：

LangChain 的 ConversationSummaryMemory：使用 LLM 定期总结对话历史，但总结较为粗糙，容易丢失技术细节
AutoGPT 的滚动窗口：采用固定大小的滑动窗口，超出部分直接丢弃，简单但会丢失早期重要信息
Microsoft Semantic Kernel：将记忆分为短期和长期，但两者的切换和检索机制较为复杂

这些方案各有优劣，但都存在一些不足：

简单总结难以保留技术细节和执行脉络
固定窗口无法适应不同任务的复杂度
复杂的检索机制增加了系统开销

方案选择原因

我们最终选择了 热缓存 + 智能压缩的混合策略，原因如下：

平衡信息完整性和效率：热缓存保证最新信息不经压缩直接可用，压缩历史则用语义浓缩的方式保留关键内容
定制化压缩质量：针对任务完成和进行中两种状态设计不同的压缩 prompt，确保提取的信息符合当前需求。比如任务进行中强调"下一步计划"，任务完成时强调"整体总结"
多模态信息保留：特别设计了图片引用的提取和还原机制，确保包含截图、图表等多模态信息的任务不会丢失这些关键内容
递归压缩兜底：当单次压缩仍然超限时，自动启动分批递归压缩，确保系统在极端情况下仍能正常工作
结构化输出：压缩结果采用 XML 结构化格式，包含任务概览、执行步骤、文件操作、命令执行等明确分类的信息，便于后续解析和利用

这种方案在实践中取得了良好效果，能够将数万 token 的历史压缩到几千 token，同时保留 80-90% 的关键信息。

2 上下文保留 - Dashboard 固定区域减少检索

遇到的问题

我们发现 Agent 在执行任务时，经常需要"回头看"自己做了什么：

状态查询频繁：Agent 每隔几轮就会调用"查看编辑历史"、"列出当前会话"等工具，消耗额外的 token 和推理时间
信息分散：文件编辑记录在某条消息中，终端输出在另一条消息中，Agent 需要"翻阅"大量历史才能建立完整认知
决策依据不足：没有集中的状态展示，Agent 可能忘记自己已经做过某件事，导致重复操作

比如，Agent 修改了文件 A、B、C 后去运行测试，测试失败后它可能不记得已经修改过哪些文件，又去调用工具查询，这种重复查询在长任务中非常常见。

解决思路

我们引入了 Dashboard 固定区域的概念：

实时状态聚合：系统维护了多个管理器（FileHistoryManager、TerminalManager、BrowserManager），实时统计和追踪各类操作
固定位置展示：在每次最新的用户消息中，固定添加一个
操作指引：dashboard 中还包含 Operation Guidance，提醒 Agent 要用中文回复、要报告上一步动作、要并行执行独立操作等最佳实践

竞品调研

我们借鉴了两个产品的理念：

IDE 编辑器页面：IDE 的界面通常左侧有一个环境面板，显示文件树、下方显示终端等信息，这给了我们启发——将环境状态集中展示

Replit Agent 的状态展示：Replit Agent 在对话中会插入状态卡片，展示当前的开发环境信息

这些产品验证了"集中展示环境状态"的价值，但它们的实现方式各有特点：

Devin 依赖复杂的 UI 组件
Replit Agent 的状态卡片更新频率和内容较为固定

方案选择原因

我们选择了纯文本的结构化 Dashboard，原因包括：

减少工具调用：Agent 不再需要频繁调用工具查询状态，直接从 dashboard 中获取信息，每次任务可减少 5-10 次工具调用
认知负担降低：所有关键状态在一个位置呈现，Agent 建立"局势感知"的成本大幅降低
实现简单高效：不依赖复杂的 UI，纯文本的 XML 格式在任何接口（CLI、Web、API）中都能使用
内容动态性：dashboard 内容完全自动生成，无需手动维护，随着操作的发生实时更新
指引作用：通过 Operation Guidance，可以"教育"模型形成良好的工作习惯，比如并行执行、及时报告等

实践表明，引入 Dashboard 后，Agent 的任务执行效率提升了约 20-30%，无效的状态查询减少了 50% 以上。

3 上下文替换 - 将工具结果删除仅保留最新

遇到的问题

在 Agent 执行过程中，我们观察到一个明显的 token 浪费现象：

Dashboard 信息冗余：每次对话都会在用户消息中附带当前环境状态（文件编辑历史、终端会话、时间等），但历史消息中的 dashboard 已经过时，却仍然占用大量 token
工具结果重复：某些工具（如查看文件、列出目录）可能在不同时刻被重复调用，产生大量相似的输出
实时性问题：Agent 需要看到的是"此时此刻"的环境状态，而不是历史快照

举个例子，如果 Agent 在第 5 轮对话时看到"当前时间是 10:00，编辑了 3 个文件"，到了第 20 轮时，这些信息早已过时，但仍然在上下文中占据位置。

解决思路

我们设计了一套 动态替换机制：

定位最新用户消息：系统会自动找到最新的用户消息位置
清理历史 dashboard：遍历之前的所有用户消息，使用正则表达式移除其中的内容
注入最新 dashboard：在最新用户消息末尾添加实时生成的 dashboard
ContentReplace 机制：为了保留审计和调试能力，我们在消息对象中保存了原始内容（Content）和替换内容（ContentReplace），在压缩时使用替换内容，但日志中保留原始内容

竞品调研

我们特别关注了两个产品的设计：

Devin 的 Dashboard 设计：Devin 在界面上有独立的环境面板，但这是 UI 层面的隔离，在发送给模型的 prompt 中如何处理并不透明
Cursor 的 Context Management：Cursor 会动态管理可见的上下文，但主要依赖用户手动控制哪些文件进入上下文

与这些方案相比：

Devin 的方案更侧重 UI 展示，没有解决底层 prompt 冗余问题
Cursor 的方案需要用户参与，不适合全自动的 Agent 场景

方案选择原因

我们选择在消息层面做替换，而非 UI 层面隔离，原因是：

确保实时性：Agent 每次推理时都能看到最新的环境状态，避免基于过时信息做决策
节省 token：历史消息中删除过时的 dashboard，可以节省数百到数千 token
保持审计能力：通过 ContentReplace 机制，既优化了发送给模型的内容，又保留了完整的历史记录用于调试
XML 结构化：使用标签明确标识这部分内容，便于精确定位和替换
对模型透明：模型只需要正常处理用户消息，不需要理解特殊的上下文管理机制

这种方案实现简单、效果明显，在实际使用中显著减少了无效 token 的占用。

4 上下文锚定 - ChatDashboard 收集关键信息节点防止目标漂移

5.1 遇到的问题

在长时间、多轮次的任务执行中，我们发现了一个严重的"关键信息分散"问题：

关键节点丢失：用户的初始任务、计划更新、Agent 的重要发现等关键节点信息，散落在大量的对话历史中
压缩参考缺失：进行历史压缩时，缺少一个清晰的"关键信息摘要"来指导 LLM 判断什么是重要的
多 Agent 协作困难：不同 Agent 之间缺少一个统一的"任务上下文"视图，难以理解任务的整体脉络
知识整合困难：检索到的知识、生成的计划、Agent 的思考等信息没有统一的组织形式
上下文不可见：Agent 的仅有部分上下文对用户可见，Agent 在执行过程中因为不可见上下文会忘记自己了用户什么问题

例如，一个任务经过 20 轮对话后，包含了最初的任务描述、2 次计划更新、5 条 Agent 的重要发现、3 段检索的知识。这些信息散落在历史消息中，压缩时 LLM 难以快速定位和评估这些关键信息的重要性。

目标漂移问题场景：

解决思路

我们引入了 上下文锚定（ChatDashboard）机制，它是一个关键信息收集器：

多类型消息收集：系统维护一个全局的 GlobalChatBoard，收集整个任务过程中的关键信息：

Task 类型：初始任务描述（通过 SetContent 设置）
Plan 类型：任务计划和计划更新（通过 AppendContent 追加）
Agent 类型：Agent 的重要消息和发现（带 AgentID 和时间戳）
Knowledge 类型：检索到的相关知识
TaskDone 类型：任务完成的总结（带任务名称）

结构化存储：将收集的消息按类型格式化为 XML 结构，例如：

压缩时作为上下文：调用 GetCurrentTask 获取格式化的 XML 字符串，作为 ChatDashBoard 参数传入压缩请求，提供给 LLM 作为参考

多 Agent 共享：在 MemoryShareEvent 中同时传递 ChatDashboard 内容，确保接手的 Agent 也能看到完整的任务上下文

自动维护：系统在关键节点自动调用 AddMessage 添加信息，无需手动管理

上下文锚定数据结构示例：

task>开发一个用户认证系统，支持 JWT token 和会话管理task>plan>执行计划：1. 设计用户表结构2. 实现 JWT 生成和验证3. 开发登录 / 登出接口plan>agent id='coder' time='2024-10-14 10:30:15'>发现需要使用 bcrypt 进行密码加密，确保安全性agent>knowledge>JWT 最佳实践：- 使用 HS256 算法签名- 设置合理的过期时间- 在 header 中传递 tokenknowledge>agent id='coder' time='2024-10-14 11:15:22'>计划调整：增加 token 刷新机制agent>task_done_summary task='用户认证系统' time='2024-10-14 12:00:00'>已完成用户认证系统，包含注册、登录、登出、token 刷新功能task_done_summary>

架构流程图：

竞品调研

我们研究了业界在"关键信息组织"方面的实践：

LangChain 的 Memory 机制：提供了多种 Memory 类型（ConversationBufferMemory、SummaryMemory 等），但都是线性的对话历史，缺少对关键节点的特殊标记
AutoGen 的 Agent Message：Agent 之间通过消息传递，但缺少对关键消息的分类和汇总机制
Devin 的 Session Context：维护会话上下文，但主要是状态信息，没有对不同类型信息的结构化组织

这些方案的局限性：

缺少对不同类型信息（任务、计划、发现、知识）的分类管理
没有统一的格式化输出机制
与压缩和共享机制的集成度不够

方案选择原因

我们选择了 GlobalChatBoard 这种分类收集和结构化输出的方案，原因包括：

分类收集：将不同类型的关键信息（任务、计划、Agent 消息、知识、完成总结）分类收集，便于后续组织和检索
自动维护：系统在关键事件点（任务接收、计划更新、知识检索、任务完成）自动添加消息，无需手动管理
结构化输出：ToString 方法将收集的信息格式化为清晰的 XML 结构，便于 LLM 理解和解析
压缩指导：作为 conversation_context 提供给 LLM，清晰标识哪些是任务描述、哪些是计划、哪些是发现，让压缩更有针对性
多场景复用：

构建 ModelRequest 时作为初始用户消息
压缩历史时作为参考上下文
知识检索时作为查询上下文
多 Agent 共享时传递完整任务脉络

容量控制：最多保存 1000 条消息，超出时自动删除最旧的，避免无限增长

实践效果：

压缩精准度提升：有 ChatDashboard 指导的压缩，关键节点信息保留率接近 90%
知识检索更准：提供结构化的任务上下文，检索相关性提高 35%
多 Agent 协作顺畅：新 Agent 接手时能快速理解任务全貌，减少 50% 的上下文理解时间
Token 效率提升：相比保留完整历史，只占用 500-2000 tokens，节省 80% 以上

5 上下文合并 - 合并相同工具结果减少 Token

遇到的问题

即使有了压缩机制，我们仍然发现压缩后的内容中存在大量冗余：

文件操作重复：同一个文件被编辑了 10 次，每次都记录完整的操作信息，但实际上中间状态可能并不重要
命令执行冗余：某些探索性的命令（如多次尝试不同参数）全部被记录，但最终只有成功的那次有价值
状态快照过多：压缩后的记忆中保存了大量时间点的状态快照，但趋势和变化才是关键

例如，开发一个功能时，Agent 可能修改某个文件 5 次才达到正确状态，如果这 5 次修改都完整保留，会占用大量 token，但实际上只需要知道"这个文件从初始状态变为最终状态"即可。

解决思路

我们在压缩阶段引入了 结构化解析和智能合并：

XML 结构化存储：将文件操作解析为的结构，命令执行解析为，便于后续处理
索引化管理：使用fileOp_0_path、fileOp_0_action、cmd_1_text等索引化的 key 存储到缓存中，避免重复的完整内容
优先级策略：在压缩 prompt 中明确告知 LLM 哪些信息优先级高（核心文件的最终状态、troubleshooting 完整序列），哪些可以合并（临时文件、探索性命令）
保留关键序列：特别强调保留"失败→解决→成功"的完整 troubleshooting 序列，因为这些是 Agent 学习和改进的关键信息
工具结果分片：对于超长工具输出（>18000 tokens），自动分割成多个 part，在分片间插入 assistant 确认消息，最多分割 8 个 part 后截断
消息规范化：合并连续的相同角色消息，确保 user/assistant 严格交替，system 消息统一置顶，避免消息序列混乱

主合并流程图：

工具结果分片流程图：

消息规范化流程图：

竞品调研

我们研究了几个相关的实现：

LangChain 的工具调用缓存：主要用于避免重复执行相同参数的工具，但不处理结果的合并
AutoGen 的结果去重机制：基于哈希值检测重复的工具输出，但无法处理"部分相同"的情况

这些方案主要解决的是"完全相同"的重复问题，而我们面临的是"部分相同、逐步演进"的场景，需要更智能的合并策略。

方案选择原因

我们最终选择了"LLM 指导的结构化合并"方案，原因是：

语义理解能力：LLM 能够理解"修改文件 A 三次"的语义，知道只需要保留最终状态和关键中间步骤
灵活性高：通过调整压缩 prompt 中的优先级策略，可以适应不同类型任务的需求
保留完整性：对于 troubleshooting 序列等关键信息，明确要求完整保留，平衡了压缩和完整性
结构化便于扩展：XML 结构化存储使得后续如果需要程序化处理（如进一步去重、统计分析）变得容易
token 效率提升：在实际测试中，这种合并策略可以额外减少 30-40% 的压缩后 token

这个方案的关键在于"指导 LLM 如何合并"而不是"强制合并所有重复"，保持了灵活性和智能性的平衡。

6 上下文共享 - 多 Agent 共享记忆和工具结果

遇到的问题

在多 Agent 协作场景下，我们遇到了明显的信息孤岛问题：

独立上下文：每个 Agent 维护自己的对话历史和压缩记忆，彼此无法感知其他 Agent 的工作
重复探索：Agent A 已经探索过项目结构、读取了关键文件，Agent B 接手任务后又要重新做一遍
经验无法传递：Agent A 解决了某个问题（如修复了编译错误），Agent B 遇到类似问题时无法利用这个经验

例如，一个 Clarifier Agent 与用户交互明确了需求，生成了详细的任务规划，但当 Coder Agent 开始工作时，它只能通过任务描述了解需求，无法直接访问 Clarifier Agent 的完整上下文和思考过程。

解决思路

我们设计了基于 事件总线的异步记忆共享机制：

MemoryShareEvent：定义了记忆共享事件，包含压缩后的记忆内容和 chatDashboard
任务完成时发布：当一个 Agent 完成任务并进行上下文压缩后，自动发布 MemoryShareEvent 到事件总线
选择性订阅：其他 Agent 可以根据自己的需要订阅这些事件，获取共享的记忆
压缩后传输：共享的是压缩后的记忆而非完整历史，控制了传输的数据量

竞品调研

多 Agent 协作是当前 AI Agent 领域的热点，我们重点研究了：

Microsoft AutoGen 的多 Agent 通信：Agent 之间通过对话消息进行交互，可以转发历史消息，但这种方式会导致上下文快速膨胀
CrewAI 的团队记忆共享：引入了 Crew 级别的共享记忆，但更新机制较为集中化，需要显式管理
LangGraph 的状态共享：通过图状态节点在 Agent 间传递信息，但需要预先定义状态结构

这些方案各有特点：

AutoGen 的对话式共享最灵活，但效率较低
CrewAI 的集中式管理最可控，但灵活性受限
LangGraph 的状态共享最结构化，但需要预先设计

方案选择原因

我们选择了事件驱动的异步共享方案，原因如下：

低耦合：Agent 之间不需要直接引用或调用，通过事件总线解耦，一个 Agent 的故障不会影响其他 Agent
选择性订阅：不是所有 Agent 都需要所有记忆，通过订阅机制可以过滤无关信息，避免"信息过载"
适中的数据量：共享的是压缩后的记忆（几千 token），而不是完整历史（数万 token），传输和存储成本可控
时机恰当：在任务完成时发布，这个时机记忆已经被压缩和结构化，质量最高
扩展性好：未来可以引入记忆检索、记忆评分等机制，在事件总线基础上演进

这种方案特别适合搭叩 (Dakou) 的场景：多个专业 Agent（Clarifier、Planner、Coder、WebSearch 等）在不同阶段工作，它们需要共享关键信息但又保持独立性。

7 工具动态扩展 - DAG 管理减少 Prompt 同时动态增加能力

遇到的问题

随着搭叩 (Dakou) 功能的丰富，我们积累了 100+ 个工具，这带来了严重的 prompt 管理问题：

Prompt 过长：如果在 system prompt 中列出所有工具的名称、描述和参数，会占用 8000-10000 token，压缩了实际任务的空间
依赖关系混乱：某些工具依赖其他工具才有意义（如 undo_edit 依赖先有 edit 操作），但没有机制表达这种关系
能力固化：Agent 在初始时就拥有所有工具，但实际上很多工具在任务早期根本用不上，却占用了 prompt 空间
学习曲线陡峭：过多的工具选择让 Agent（尤其是能力较弱的模型）难以选择合适的工具

一个典型场景：初始阶段 Agent 只需要基本的文件读写、代码搜索等工具，但 prompt 中却包含了浏览器操作、云手机控制、三维建模等工具的描述，造成严重的"信息噪音"。

解决思路

我们构建了 工具依赖 DAG（有向无环图）管理系统：

依赖关系定义：每个工具在注册时声明自己依赖哪些其他工具，形成依赖关系图
初始基础集：系统启动时只启用没有依赖的基础工具（如 file_read、terminal_run、message_user 等）
动态启用：当 Agent 使用了某个工具后，系统自动检查并启用依赖于这个工具的其他工具
只增不删：工具一旦被启用就不会被移除，确保 Agent 的能力是单调递增的，不会突然"失能"
LeastOne 特殊依赖：支持定义"至少使用过一个工具"这种特殊依赖，用于在 Agent 有过工具使用经验后再启用某些高级工具

竞品调研

工具管理是 AI Agent 系统的核心挑战之一，我们研究了：

LangChain 的 Tool Calling 机制：所有工具平铺在一个列表中，依赖 Agent 自己的智能来选择。对于工具数量较少（
ToolLLM 的工具检索：将工具向量化后存储，根据任务描述检索相关工具。这种方案能处理大规模工具，但检索准确性依赖 embedding 质量，且无法表达依赖关系
Gorilla 的 API 调用学习：通过微调模型让其学习工具调用模式，但这需要大量训练数据，且难以快速迭代新工具

这些方案的共同问题是：

缺乏对工具之间关系的建模
静态配置，无法根据任务进展动态调整
难以平衡初始简洁性和后期完整性

方案选择原因

我们选择 DAG + 动态加载的方案，理由充分：

依赖关系显式化：DAG 结构清晰表达了工具之间的依赖关系，例如 undo_edit 必须在有过 edit 操作后才启用，这符合直觉且易于维护
初始 Prompt 精简：只注入基础工具，初始 prompt 可以减少到 2000-3000 token，为任务描述和思考留出更多空间
渐进式复杂化：随着任务的推进，Agent 逐步获得更多能力，这种"成长曲线"符合任务的自然演进，也降低了模型的选择负担
能力单调性：只增不删的策略保证 Agent 不会因为某些机制突然"忘记"如何使用某个工具，提供了能力的确定性
DAG 的可靠性保证：有向无环图确保不会出现循环依赖，系统在初始化时就能检测和拒绝不合理的依赖定义
灵活的启用条件：LeastOne 这种特殊依赖允许我们定义复杂的启用逻辑，例如"在 Agent 有过至少一次工具使用经验后，再给它提供并行执行工具"

实践中，这个方案带来了多重收益：

初始 prompt 减少 60-70%
工具选择错误率降低约 40%（因为选项更少、更相关）
系统启动时间减少（不需要预加载所有工具）
维护成本降低（依赖关系集中管理）

特别值得一提的是，这个方案为未来的演进留下了空间。我们可以在此基础上：

加入工具推荐机制（当检测到某种任务模式时，主动建议启用某些工具）
引入工具使用统计和学习（记录哪些工具组合最有效）
支持工具的热插拔（在运行时动态注册新工具到 DAG）

8 协同效应与未来展望

以上七大策略并非孤立存在，而是协同工作，形成了一个完整的上下文管理体系：

协同工作机制

压缩 + 替换 + 保留：压缩处理历史信息，替换更新过时内容，dashboard 保留实时状态，三者配合确保上下文始终保持"精炼、准确、完整"
锚定 + 压缩：上下文锚定收集关键节点信息，为压缩提供明确的参考上下文，大幅提升压缩质量和准确性
锚定 + 共享：上下文锚定不仅指导压缩，还通过事件总线在多 Agent 间共享，确保任务脉络的一致性
合并 + 共享：合并减少单个 Agent 的上下文冗余，共享让多 Agent 能够利用彼此的工作成果，避免重复劳动
动态扩展 + 压缩：动态扩展控制初始 prompt 大小，为压缩后的记忆留出空间；反过来，压缩机制确保即使工具逐步增多，历史上下文也不会失控

这种协同产生的效果是：

Token 效率提升 3-5 倍：同样的任务，优化后的 token 消耗只有优化前的 20-30%
任务执行时间缩短：减少无效的状态查询和重复操作，任务完成时间缩短 20-40%
支持更长的任务周期：原本只能支持 20-30 轮对话的系统，现在可以稳定运行 100+ 轮

实践价值

这套七大策略在搭叩 (Dakou) 的实际应用中验证了其价值：

复杂开发任务：从需求分析、代码实现、测试调试到部署，完整流程可以在单个 Agent 会话中完成
长时间运维任务：持续监控、问题诊断、修复验证等需要长周期执行的任务得以实现
多 Agent 协作：Clarifier 明确需求→Planner 制定计划→Coder 实现功能→WebSearch 查找资料，各 Agent 通过上下文锚定和共享机制高效接力
任务目标一致性：通过上下文锚定 (ChatDashDoard)，即使经过多次压缩和多个 Agent 协作，仍能保持对用户原始需求的准确理解
成本控制：Token 消耗的减少直接降低了 API 调用成本，在大规模使用场景下节省显著

技术挑战与限制

当然，这套方案也并非完美，仍然存在一些挑战：

压缩质量依赖模型：智能压缩依赖 LLM 的理解能力，当模型能力不足时，可能丢失关键信息
事件总线开销：随着 Agent 数量增加，事件总线可能成为性能瓶颈，需要进一步优化
DAG 维护成本：随着工具数量增长，依赖关系的定义和维护需要团队的共识和规范
状态一致性：多 Agent 共享记忆时，如何确保状态的一致性和时效性仍需改进

未来优化方向

基于当前的实践和遇到的问题，我们规划了以下优化方向：

自适应压缩：根据任务类型、模型能力、历史质量等因素，动态调整压缩策略和比例
增量压缩：不是每次都重新压缩全部历史，而是对新增部分进行增量压缩，提升效率
记忆检索：引入向量数据库，将压缩记忆向量化存储，支持语义检索历史信息
工具推荐：基于任务描述和当前进展，智能推荐下一步可能需要的工具，主动扩展
跨会话记忆：探索将某些通用知识（项目结构、编码规范等）持久化，在新会话中快速加载
压缩质量评估：引入自动化机制评估压缩后记忆的质量，发现压缩不足或过度的情况

对 AI Agent 发展的启示

通过搭叩 (Dakou) 七大策略的实践，我们总结出一些对 AI Agent 上下文管理的普遍性认识：

上下文是稀缺资源：在可预见的未来，上下文窗口仍然是限制 AI Agent 能力的关键因素，必须精心管理
智能压缩优于简单截断：利用 LLM 自身的理解能力进行语义压缩，远比机械的截断或总结效果好
结构化是关键：无论是 dashboard、上下文锚定、压缩记忆还是工具描述，结构化的信息更容易管理和利用
关键节点需要标记：在信息流中标记和收集关键节点（任务、计划、发现），为后续处理提供明确参考
动态性胜过静态性：无论是工具集合还是上下文内容，动态调整和演进的系统更有生命力
协同设计很重要：单一策略难以解决所有问题，需要多种机制协同工作

9 结语

AI Agent 的上下文管理是一个系统工程，需要在多个维度上进行优化。搭叩 (Dakou) 通过 压缩、替换、保留、锚定、合并、共享、动态扩展七大策略，构建了一个高效、可靠、可扩展的上下文管理体系。

这些策略不是一蹴而就的，而是在实践中不断迭代、优化、演进的结果。它们也不是最终答案，随着 LLM 能力的提升、工程技术的进步，必然会有更好的方案出现。

但我们相信，这些实践经验和思考对于正在构建 AI Agent 系统的团队会有参考价值。核心的理念是：精心管理上下文，让 AI Agent 在有限的窗口中发挥最大的能力。

正是基于这套系统化的上下文管理策略，搭叩 (Dakou) 才得以自信地处理从官网首页开发到小游戏开发等各类复杂任务。压缩、替换与保留保证了任务执行的持久性；锚定与合并确保了目标的一致性；而共享与动态扩展则为多 Agent 的高效协作和能力的持续成长奠定了基础。

这些技术细节最终都服务于搭叩的核心目标：通过异步、安全、可复用的方式，将 AI Agent 的能力真正落地到实际的研发场景中。我们期望，搭叩可以让人人都能成为 AI 时代的创造者。

在未来，随着上下文窗口的扩大（如 100 万 token、甚至无限上下文），这些优化的必要性可能会降低，但"高效利用资源"的工程思想永远不会过时。我们期待一起持续探索 AI Agent 的最佳实践，推动这项技术走向成熟和普及。

作者介绍

朱少飞，阿里巴巴开发工程师，在 WebIDE 集群调度、智能代码分析以及代码 AI Coding 等领域具有丰富实践经验。目前主要负责阿里内部 AI Agent 产品的研发。

今日好文推荐

活动推荐

产品经理的必修课：数据集概念与实战技巧

你知道一个好用的AI产品背后，数据集是怎么设计的吗？产品经理不是算法工程师，但却必须懂数据。本文用最通俗的方式，带你掌握数据集的核心知识与实战技巧，让你在AI项目中不再“被动跟进”，而是主动引领。
数据集是产品经理在进行产品规划和迭代过程中的重要参考。它包含了用户行为、产品性能和市场趋势等关键信息。了解数据集的相关概念，可以帮助产品经理更好地理解用户需求，优化产品设计，并制定有效的市场策略。以下是数据集相关的整体内容的梳理的思维导图：

一、训练数据集的核心要求：高质量、大规模、丰富性的三角法则

在当今的人工智能时代，训练数据集作为机器学习和深度学习模型的基石，其质量、规模与丰富性对模型性能起着决定性作用。这三者相互关联、相互影响，共同构成了训练数据集的核心要求，如同稳固的三角法则，支撑着模型的发展与应用。

1. 高质量数据：模型精度的「净化器」

高质量的数据集就像是一座精密仪器的纯净能源，为模型的精准运行提供着关键动力。它通过细致地过滤噪声数据、精准地修正错误数据，如同为模型戴上了一副 “降噪耳机” 和 “纠错眼镜”，能够显著提升模型预测的精度与可解释性。

以文本数据为例，在自然语言处理任务中，如果数据集中存在大量脏话、非法内容等噪声数据，模型在学习过程中就可能被这些 “杂音” 干扰，导致其对文本语义的理解出现偏差，从而影响情感分析、文本分类等任务的准确性。但当我们对这些数据进行清洗，去除掉这些不良信息后，模型就能更加专注地学习到文本中的核心语义和关键特征，大大减少预测偏差。

在图像识别领域，清洗图像数据中的模糊样本同样至关重要。想象一下，在训练一个识别交通标志的模型时，如果数据集中存在大量模糊不清的交通标志图像，模型就很难准确学习到不同交通标志的独特特征，进而在实际应用中容易出现识别错误。只有将这些模糊样本清洗掉，让模型学习清晰、准确的图像数据，才能有效降低目标识别的错误率。

此外，优质数据还能极大地缩短训练周期。就像一辆性能卓越的赛车，在良好的赛道条件下能够更快地抵达终点。优质数据能够避免模型在无效的数据计算上浪费时间和资源，让算法能够聚焦于核心特征的学习，提高训练效率，减少不必要的计算消耗。

2. 大规模数据：预训练模型的「能量池」

大规模数据在模型训练中扮演着 “能量池” 的角色，为模型提供着源源不断的动力。数据规模与模型效果之间呈现出强烈的正相关关系，就如同高楼大厦需要坚实的地基一样，万亿级参数的大模型需要千亿级文本或百万小时语音数据的支撑。

大规模数据的优势在于它能够覆盖更多的长尾场景。在语音识别领域，不同地区的方言变种丰富多样，如果训练数据仅包含标准普通话，那么模型在遇到方言时就很容易出现识别错误。但当数据集中包含了大量不同地区的方言数据，模型就能学习到这些方言的独特发音和语言习惯，从而在实际应用中能够准确识别各种方言。

在图像识别中，罕见物体姿态的识别也依赖于大规模数据。例如，在训练一个识别动物姿态的模型时，如果数据集中只有常见的动物站立、行走等姿态，那么当模型遇到动物的一些罕见姿态，如猴子倒挂、猫咪蜷缩成一团等，就可能无法准确识别。而大规模的数据能够涵盖这些罕见姿态，让模型学习到更多的特征，提高识别的准确性。

以 GPT – 3 为例，它基于 45TB 文本进行训练，在多语言翻译、逻辑推理等任务中展现出了突破性的性能。无论是将英文翻译成中文、日文等多种语言，还是一些复杂的逻辑推理问题，GPT – 3 都能表现出色。这充分印证了 “数据量决定模型天花板” 的行业共识，只有拥有足够大规模的数据，模型才能在各种复杂任务中展现出强大的能力。

3. 丰富性数据：泛化能力的「防护盾」

丰富性的数据就像是为模型穿上了一层坚固的 “防护盾”，能够有效提升模型的泛化能力。它通过覆盖多模态（文本 + 图像 + 语音）、多场景（室内 / 室外、晴天 / 暴雨）、多维度（年龄 / 地域 / 文化）的数据，让模型能够接触到各种各样的信息，从而具备应对未知场景的能力。

在自动驾驶领域，数据集的丰富性尤为重要。自动驾驶车辆需要在各种复杂的路况下行驶，如城市街道、乡村道路、夜间暴雨等。如果训练数据集仅包含城市街道在晴天的路况数据，那么当车辆行驶到乡村道路或者遇到夜间暴雨的恶劣天气时，模型就可能无法准确识别交通标志、路况信息，从而导致交通事故的发生。只有数据集涵盖了各种不同的路况和天气条件，模型才能学习到在不同环境下的应对策略，确保自动驾驶的安全性。

对于客服对话模型来说，丰富性数据同样不可或缺。客服对话场景复杂多样，涵盖售前咨询、售后投诉、技术支持等多个业务场景。如果模型仅在单一的售前咨询场景数据上进行训练，那么当遇到售后投诉或技术支持的问题时，就很难准确理解用户的意图，提供有效的解决方案。只有让模型学习到多场景的数据，它才能在各种客服对话场景中准确判断用户意图，提高服务质量。

二、数据集产生的全流程拆解：从采集到评估的闭环管理

了解了训练数据集的核心要求后，接下来我们深入探讨数据集产生的全流程。这一过程就像是一场精密的工业生产，从数据采集的源头开始，经过清洗、标注、训练、测试，最终到模型评估，每一个环节都紧密相扣，共同构建起一个高效的闭环管理体系。

1. 数据采集：全模态数据的「选矿场」

数据采集是整个流程的第一步，就像是在广袤的矿山中寻找珍贵的矿石。在这个阶段，我们需要根据模型的需求，广泛地收集各种类型的数据，包括音频、视频和文本等，形成一个全模态的数据 “选矿场”。

音频数据可以来自于各种场景，比如电话客服的对话录音，它能帮助我们训练客服对话模型，提升客户服务质量；又比如城市交通的环境音，通过分析这些声音，我们可以训练出能够识别交通状况的模型，为智能交通系统提供支持。

视频数据同样丰富多样，监控录像记录了城市的各个角落，为安防监控模型提供了大量的训练素材；而用户操作录屏则能帮助我们了解用户在使用产品时的行为习惯，优化产品设计。

文本数据更是无处不在，网页内容包含了丰富的知识和信息，聊天日志则反映了人们的日常交流方式。这些文本数据对于自然语言处理模型的训练至关重要，无论是搜索引擎的信息检索，还是智能写作助手的开发，都离不开大量的文本数据。

在采集数据时，我们必须严格遵循合规原则。如果涉及到用户隐私数据，如个人身份信息、通话记录等，必须进行脱敏处理，确保用户的隐私安全。在医疗和金融领域，数据的采集则需要获取用户的明确授权，以保障用户的知情权和选择权。

为了实现高效采集，我们可以借助各种工具。网络爬虫是采集文本数据的有力工具，它可以自动遍历网页，提取所需的信息；传感器则是采集图像和音频数据的重要设备，如摄像头、麦克风等；API 接口则为我们提供了从第三方数据平台获取数据的通道，让我们能够获取到更多有价值的数据，构建起丰富的原始数据储备库。

2. 数据清洗：剔除杂质的「精炼厂」

采集到的原始数据往往是粗糙的，其中包含了各种杂质，如缺失值、噪声数据和重复数据等。数据清洗就像是一座精炼厂，通过一系列的操作，将这些杂质剔除，使数据变得纯净、可用。

缺失值是数据中常见的问题，比如在用户填写的表单中，可能会存在一些未填写的字段。这些缺失值会影响模型的训练效果，因此我们需要对其进行处理。对于少量的缺失值，我们可以采用填充的方法，如用均值、中位数或众数来填充数值型数据，用最常见的类别来填充分类数据；而对于缺失值较多的样本，如果这些样本对整体数据的影响不大，可以考虑直接删除。

噪声数据也是需要重点处理的对象。在图像数据中，可能会出现雪花点、模糊区域等噪声；在语音数据中，会有电流声、杂音等干扰。对于这些噪声数据，我们可以采用滤波、去噪等算法进行处理。对于文本数据中的非法内容、脏话等噪声，我们可以通过规则过滤和人工审核相结合的方式进行清理。

重复数据会占用存储空间，增加计算成本，并且可能会导致模型过拟合。我们可以通过算法检测和人工审核来识别和删除重复数据。聚类算法可以将相似的数据聚合成一类，从而方便我们发现重复数据；而人工审核则可以确保删除的准确性，避免误删重要数据。

以电商评论数据清洗为例，我们需要仔细剔除那些无意义的乱码，这些乱码可能是由于数据传输或存储过程中的错误导致的；还要去除广告刷屏内容，这些广告信息会干扰我们对真实用户评价的分析。只有保留这些有效评价，才能为情感分析模型训练提供可靠的数据支持，帮助电商企业更好地了解用户的需求和反馈。

3. 数据标注：模型学习的「导航系统」（产品经理核心战场）

数据标注是整个流程中最为关键的环节，它就像是为模型学习提供了一个精准的 “导航系统”，引导模型朝着正确的方向学习。对于产品经理来说，这也是核心战场，需要精心制定标注规则，确保标注的准确性和一致性。

在制定标注规则时，产品经理首先要明确任务类型。对于文本分类任务，要清晰地定义每个标签的含义和范围，确保标注员能够准确地将文本分类到相应的标签下；对于图像分割任务，要详细说明像素级标注的要求，比如如何准确地勾勒出物体的轮廓，标注不同物体的颜色或符号等。

输出格式也需要严格规范，一般采用 JSON 或 CSV 等标准格式，以便于数据的存储、传输和后续处理。同时，要设定明确的质量标准，比如规定单条标注的耗时范围，这可以保证标注员在合理的时间内完成任务，避免过快或过慢导致的标注质量问题；还要设定允许的误差范围，对于一些难以精确标注的任务，要明确标注的误差在多大范围内是可以接受的。

为了降低个体偏差，提高标注质量，我们通常采用 “多标注员协作 + 交叉校验” 的模式。例如，一个语音转写任务可以分配给 3 个标注员同时进行，然后取至少 2 人一致的结果作为基准。如果出现分歧较大的情况，则需要进行进一步的讨论和审核，确保标注结果的准确性。

在工具选择方面，Label Studio 是一款非常强大的多模态标注工具，它支持图像、文本、音频、视频等多种数据类型的标注，并且可以根据项目需求自定义标注界面和工作流程；Prodigy 则是专门为 NLP 任务设计的标注工具，它具有高效的标注界面和强大的机器学习集成功能，能够帮助标注员更快速、准确地完成文本标注任务。

4. 模型训练与测试：算法迭代的「试炼场」

经过清洗和标注的数据就像是经过精心准备的原材料，接下来就进入了模型训练与测试的环节，这是算法迭代的 “试炼场”。技术团队会基于这些高质量的数据，选择合适的算法进行模型训练。

在自然语言处理领域，Transformer 及其变体是目前非常流行的算法，它们在语言理解和生成任务中表现出色。GPT 系列模型就是基于 Transformer 架构开发的，通过在大规模文本数据上的训练，能够生成高质量的自然语言文本。

在计算机视觉领域，YOLO 系列算法则被广泛应用于目标检测任务。YOLO 算法能够快速准确地识别图像中的物体，并标注出它们的位置和类别。以识别交通标志为例，YOLO 算法可以在复杂的交通场景中迅速检测出各种交通标志，为自动驾驶系统提供重要的信息支持。

在模型训练过程中，审核员会使用预留的测试集（通常占比 20%-30%）对模型进行验证。对于语音模型，审核员会测试不同语速、口音下的转写准确率，确保模型在各种实际场景中都能准确地将语音转换为文本；对于图像模型，审核员会检验小目标（如小于 10 像素的物体）的识别效果，因为小目标的识别往往是图像识别中的难点。

通过 “训练 – 测试 – 参数调整” 的循环，技术团队可以不断优化模型的性能，使模型的输出更加准确、稳定。在这个过程中，模型就像是一个不断成长的学习者，通过不断地学习和调整，逐渐提升自己的能力。

5. 模型评估：上线前的「最终质检」

在模型正式上线之前，还需要进行全面的评估，这就像是产品上线前的 “最终质检”，确保模型能够满足实际应用的需求。模型评估主要从准确性、鲁棒性和效率三个维度进行。

准确性是评估模型的最基本指标，它衡量的是模型预测结果与真实标签的吻合程度。在分类任务中，我们通常使用准确率、召回率、F1 值等指标来评估模型的准确性。在图像分类任务中，准确率表示模型正确分类的图像数量占总图像数量的比例；召回率则表示模型能够正确识别出的某一类图像数量占该类图像实际数量的比例；F1 值则是综合考虑了准确率和召回率的一个指标，能够更全面地反映模型的性能。

鲁棒性是指模型在面对各种极端场景和异常数据时的稳定性。在实际应用中，数据往往会受到各种干扰，如噪声、遮挡、光线变化等。一个具有良好鲁棒性的模型应该能够在这些情况下保持稳定的性能，不出现大幅度的性能下降。在自动驾驶场景中，当遇到恶劣天气（如暴雨、大雾）或道路状况复杂（如施工现场、道路损坏）时，自动驾驶模型需要保持鲁棒性，确保车辆的行驶安全。

效率则关乎模型的推理速度和资源消耗。在实时性要求较高的应用中，如在线客服、自动驾驶等，模型需要能够快速地给出预测结果，以满足实际需求。同时，模型的资源消耗也需要控制在合理范围内，避免对硬件设备的过高要求，降低应用成本。在金融风控模型中，需要在高并发的情况下快速识别异常交易数据，同时保证系统的响应时间在可接受范围内；医疗影像模型则需要通过临床数据验证病灶检出率，确保达到行业标准，如肺结节检测敏感度≥95%，以保障医疗诊断的准确性和可靠性。

三、数据标注分类详解：文本、语音、图像的标注密码

在数据集的构建过程中，数据标注是一个极为关键的环节，它如同为数据赋予了灵魂，使得机器能够理解和处理这些数据。根据数据类型的不同，数据标注主要分为文本数据标注、语音数据标注和图像数据标注，每一种标注类型都有着独特的任务和方法。

1. 文本数据标注：自然语言处理的「语义锚点」

文本数据标注是自然语言处理领域的基础，它为模型理解人类语言提供了关键的语义信息，就像是在语言的海洋中设置了一个个精确的 “语义锚点”，帮助模型准确地停泊在理解的港湾。

1）标注方法

（1）实体标注的过程就像是在文本的世界里进行一场寻宝游戏，我们需要精准地识别出文本中的人名、地名、机构名等关键实体，并为它们贴上对应的类别标签。以 “马斯克是特斯拉的 CEO” 这句话为例，我们会将 “马斯克” 标注为 “人物” 类别，“特斯拉” 标注为 “组织” 类别。这些被标注的实体信息能够帮助模型构建起一个丰富的知识图谱，从而更好地理解文本中不同元素之间的关系，为后续的信息检索、智能问答等任务提供坚实的基础。

（2）情感标注则像是为文本赋予了一种情感色彩，我们需要判断文本所表达的情感倾向，将其分为 “正面”“中性”“负面” 等类别。在电商评论中，“这款产品太棒了，我非常喜欢” 会被标注为 “正面” 情感；“产品还行，没有特别突出的地方” 则标注为 “中性”；而 “这产品质量太差了，严重影响使用” 会被标注为 “负面”。更细粒度的情感标注还能进一步识别出愤怒、喜悦、悲伤等具体情感，这对于企业了解消费者的情绪反馈、优化产品和服务具有重要意义，也为智能客服系统实现情绪识别提供了有力支持。

（3）意图标注是解析用户文本背后的真实目的，这需要我们深入理解用户的需求和意图。当用户说 “帮我订张机票” 时，我们可以明确其意图为 “订票需求”；而 “退款流程怎么走” 则清晰地表达了 “售后咨询” 的意图。准确的意图标注能够让智能客服、语音助手等系统更好地理解用户的需求，提供精准的服务和，极大地提升用户体验。

2）质量评估

（1）BLEU 算法主要用于评估机器翻译、文本摘要等任务的质量，它通过计算预测文本与参考文本的 n – gram 匹配度来衡量两者的相似程度。假设我们有一个参考文本 “我喜欢苹果”，预测文本为 “我喜爱苹果”，通过 BLEU 算法计算 n – gram（这里 n 可以取 1、2 等）的重叠情况，从而得出一个匹配度分数。该分数越接近 1，说明预测文本与参考文本的匹配度越高，翻译或摘要的质量也就越好。在机器翻译场景中，BLEU 算法能够帮助我们快速评估翻译结果的准确性，判断机器是否准确地传达了原文的语义。

（2）ROUGE 算法则更侧重于长文本摘要的评估，它基于召回率的概念，通过计算预测摘要与原文中重叠的 n – gram 单元数量，来衡量摘要的质量。在生成新闻摘要时，假设原文包含 “今天，在科技峰会上，人工智能专家们探讨了未来技术的发展趋势”，生成的摘要为 “科技峰会上，专家探讨人工智能未来发展”，ROUGE 算法会统计摘要与原文中共同出现的词语或短语（n – gram），以此来判断摘要是否准确地涵盖了原文的关键信息。该算法在新闻媒体、会议纪要生成等场景中发挥着重要作用，能够帮助我们评估生成的摘要是否完整、准确地反映了原文的核心内容。

2. 语音数据标注：语音识别的「声学路标」

语音数据标注是语音识别技术的关键支撑，它为语音识别模型指引着方向，就像是在声学的道路上设置了一个个清晰的 “路标”，让模型能够准确地识别语音内容。

1）标注方法

（1）语音转写是将语音信号逐字转换为文本的过程，这个过程需要标注员具备敏锐的听力和准确的文字记录能力。在转写过程中，对于多音字的标注尤为重要，比如 “行长” 中的 “行”，需要根据上下文准确标注为 “háng”；同时，语气词如 “嗯”“啊” 等也需要进行合理标注，标注为思考停顿或语气表达，以便模型能够更好地理解语音中的情感和意图。准确的语音转写是语音识别技术的基础，它为后续的语音分析、智能客服等应用提供了可靠的文本数据。

（2）情感判定是根据语音的音调、语速、语调等特征来判断语音所表达的情感状态。当语音的音调高亢、语速较快时，很可能表达的是 “愤怒” 的情感；而轻柔、缓慢的语调则往往表示 “平静” 或 “温柔”。在智能客服场景中，通过对客户语音的情感判定，客服系统能够及时感知客户的情绪变化，采取相应的服务策略，提高客户满意度。例如，当检测到客户语音中带有愤怒情绪时，客服系统可以自动调整方式，更加耐心、诚恳地解决客户问题。

（3）音素标注是将语音拆分成最小的发音单元，对于汉语来说，就是声母、韵母等音素。在语音合成模型（TTS）中，准确的音素标注能够帮助模型生成更加自然、流畅的语音。以 “你好” 这个词为例，我们需要准确标注出 “n”“i”“h”“ao” 这些音素，模型在合成语音时，就能根据这些标注准确地发出每个音素，从而合成出清晰、自然的 “你好” 发音。音素标注对于提升语音合成的质量、实现更加逼真的人机语音交互具有重要意义。

2）评估方法

（1）WER 算法通过计算语音转写文本与标准文本之间的替换、删除、插入错误数量，来评估语音转写的准确性。其计算公式为 WER=(S+D+I)/N，其中 S 表示替换错误的词数，D 表示删除错误的词数，I 表示插入错误的词数，N 表示标准文本中的总词数。假设标准文本为 “我喜欢苹果”，转写文本为 “我喜爱香蕉”，这里 “喜欢” 被替换为 “喜爱”，“苹果” 被替换为 “香蕉”，则 S = 2，D = 0，I = 0，N = 4，WER = 2 / 4 = 0.5。一般来说，WER 值低于 10% 被视为高质量的转写结果。在实际应用中，WER 算法能够帮助我们直观地了解语音转写模型的性能，及时发现和改进模型存在的问题。

（2）SER 算法主要统计整句转写错误的比例，适用于对话式语音场景，如智能音箱的指令识别。如果用户说 “播放一首周杰伦的歌曲”，智能音箱转写的文本为 “播放一首林俊杰的歌曲”，这就属于整句转写错误。通过计算 SER 值，我们可以评估智能音箱在识别用户指令时的准确性，从而优化语音识别模型，提高用户与智能音箱交互的成功率。

3. 图像数据标注：计算机视觉的「像素标签」

图像数据标注是计算机视觉领域的核心工作，它为图像中的每个像素赋予了明确的含义，就像是在图像的像素世界里贴上了一个个独特的 “标签”，让计算机能够理解图像中的内容。

1）标注方法

（1）实体分割是图像标注中最为精细的任务之一，它要求标注员精确地标注出图像中每个像素所属的类别。在医疗影像领域，我们需要通过实体分割来区分肿瘤组织与正常细胞，这对于医生准确诊断疾病、制定治疗方案至关重要；在自动驾驶领域，实体分割则用于分割行人、车辆、道路等元素，帮助自动驾驶系统准确识别周围环境，做出安全的驾驶决策。例如，在一张道路图像中，我们要将行人的每个像素标注为 “行人” 类别，车辆的像素标注为 “车辆” 类别，道路的像素标注为 “道路” 类别，通过这种精确的标注，自动驾驶模型才能准确地感知周围的物体，保障行驶安全。

（2）目标跟踪标注主要应用于视频序列中，它需要标注员在每一帧图像中标注出物体的运动轨迹。在体育赛事视频分析中，我们可以通过目标跟踪标注来追踪运动员的动作，分析其运动技巧和战术；在安防监控领域，目标跟踪标注能够帮助我们识别可疑人员的移动路径，及时发现安全隐患。以足球比赛视频为例，标注员需要在每一帧中标记出足球运动员的位置，随着视频的播放，这些标注点就构成了运动员的运动轨迹，通过对这些轨迹的分析，教练可以评估运动员的表现，制定更有效的训练计划。

（3）关键点标注是标记物体关键位置的过程，比如人脸的五官坐标、人体关节点等。在人脸识别技术中，通过标注人脸的关键点，如眼睛、鼻子、嘴巴的位置，模型可以准确地识别和验证人脸；在人体姿态识别中，标注人体关节点能够帮助模型判断人体的姿态和动作。例如，在一张人物图像中，我们标注出人体的肩部、肘部、腕部、髋部、膝部、踝部等关节点的坐标，模型就可以根据这些关键点的位置和关系，判断人物的姿态是站立、行走还是跑步，从而实现人体姿态的智能识别和分析。

2）评估方法

（1）MV 算法是一种简单而有效的质量评估方法，它通过多个标注员对同一图像进行标注，然后根据多数标注员的结果来确定最终标签。假设有 3 个标注员对一张包含动物的图像进行标注，其中 2 个标注员认为图像中的动物是 “猫”，1 个标注员认为是 “狗”，那么根据 MV 算法，最终的标注结果将是 “猫”。这种方法能够有效降低个体标注偏差，提高标注结果的可靠性，确保图像标注的准确性和一致性。

（2）EM 算法主要用于处理含有缺失标注的数据，它通过迭代的方式来估计隐含参数，从而优化不完整标注集的质量。在图像标注中，可能会由于各种原因导致部分标注信息缺失，比如标注员遗漏了某些物体的标注，或者图像部分区域模糊无法准确标注。EM 算法可以根据已有的标注信息和一定的概率模型，推测出缺失标注的可能值，不断迭代优化，使得标注集更加完整和准确，为后续的模型训练提供更可靠的数据支持。

四、产品经理的数据集构建心法

在数据驱动的时代浪潮中，数据集构建已然成为人工智能领域的关键环节，而产品经理则在其中扮演着至关重要的角色，肩负着打造优质数据集的重任。这不仅是技术与业务深度融合的过程，更是一场充满挑战与机遇的创新之旅。

1. 高质量要求：平衡成本与效果的艺术

高质量数据是模型性能的基石，然而，追求高质量并非一蹴而就，而是需要在成本与效果之间找到精妙的平衡。这就如同烹饪一道佳肴，既要选用上等的食材，又要考虑食材的采购成本和烹饪的时间成本。在数据采集阶段，产品经理需要精心筛选数据源，确保数据的准确性和可靠性。但这并不意味着要盲目追求数据的完美，因为过度追求高质量可能会导致成本的大幅增加。例如，在图像数据采集中，虽然高分辨率的图像能够提供更丰富的细节信息，但采集和存储高分辨率图像的成本也会相应提高。此时，产品经理需要根据模型的实际需求，合理确定图像的分辨率，在保证数据质量能够满足模型训练要求的前提下，控制采集成本。

在数据清洗和标注环节，同样需要权衡成本与效果。数据清洗算法的选择和标注规则的制定，都需要综合考虑人力、时间和技术成本。采用过于复杂的数据清洗算法，虽然可能会去除更多的噪声数据，但也会增加计算资源的消耗和处理时间；而过于简单的标注规则，则可能导致标注结果的不准确，影响模型的训练效果。因此，产品经理需要深入了解业务需求和模型特点，制定出既能够保证数据质量，又能够控制成本的清洗和标注策略。

2. 大规模采集：规划存储与算力的前瞻性布局

大规模数据的采集为模型提供了更广阔的学习空间，使其能够接触到更多的样本和特征，从而提升模型的泛化能力。然而，大规模数据的采集也带来了存储和算力方面的挑战。这就好比建造一座大型仓库，不仅要考虑仓库的容量，还要考虑货物的搬运和管理效率。在采集大规模数据之前，产品经理需要对数据的存储和计算资源进行前瞻性的规划。

随着数据量的不断增长，传统的本地存储方式可能无法满足需求，云存储成为了一种更为可靠的选择。云存储具有弹性扩展的特点，能够根据数据量的变化灵活调整存储容量，降低存储成本。同时，云计算平台提供的强大算力，也能够满足大规模数据处理和模型训练的需求。例如，亚马逊的 AWS 云服务、谷歌的 GCP 云服务以及阿里云等，都为企业提供了高效的存储和计算解决方案。产品经理需要根据项目的预算、数据的安全性要求以及业务的发展趋势，选择合适的云存储和云计算平台，确保数据的存储和处理能够高效进行。

此外，数据的传输和管理也是需要关注的重点。在大规模数据采集过程中，数据的传输速度和稳定性直接影响到采集的效率。产品经理需要优化数据传输链路，采用高效的数据传输协议，确保数据能够快速、准确地传输到存储和计算平台。同时，建立完善的数据管理系统，对数据进行分类、索引和备份，提高数据的管理效率，降低数据丢失的风险。

3. 丰富性设计：洞察业务场景的深度思考

丰富性的数据能够提升模型的泛化能力，使其能够更好地适应不同的业务场景和应用需求。而要实现数据的丰富性，产品经理需要深入洞察业务场景，挖掘数据背后的潜在价值。这就如同一位探险家，深入未知的领域，寻找那些隐藏在角落里的宝藏。

在设计数据集时，产品经理需要充分考虑业务的多样性和复杂性，尽可能地涵盖各种不同的场景和情况。以智能客服为例，不同的客户可能会提出各种各样的问题，涉及产品的功能、使用方法、售后服务等多个方面。为了使智能客服模型能够准确地客户的问题，产品经理需要收集大量来自不同客户、不同场景的对话数据，包括常见问题、疑难问题、投诉建议等。通过对这些数据的分析和整理，提取出不同场景下的关键特征和语义模式，为模型的训练提供丰富的素材。

同时，产品经理还需要关注业务的发展趋势和变化，及时更新和扩展数据集。随着业务的不断发展，新的场景和需求会不断涌现，如果数据集不能及时跟进，模型的泛化能力就会受到限制。例如，在电商领域，随着直播带货等新兴业务模式的兴起，产品经理需要及时收集直播场景下的客户对话数据和销售数据，将这些新的数据纳入到数据集中，使模型能够学习到新的业务模式和用户行为特征，从而更好地服务于电商业务的发展。

4. 数据标注环节：规则与评估的双重把控

数据标注是数据集构建的核心环节，如同为数据赋予灵魂的过程。在这个环节中，产品经理需要化身 “规则设计师”，精心制定清晰、明确的标注细则，为标注员提供准确的指导。这就好比制定一份详细的建筑蓝图，确保每一位施工人员都能够清楚地知道自己的工作任务和要求。

标注细则的制定需要充分考虑任务的特点和要求，明确标注的对象、方法和标准。对于图像标注任务，要详细说明标注的物体类别、边界框的绘制方法以及标注的精度要求；对于文本标注任务，要定义好标注的实体类型、情感倾向的判断标准以及标注的格式规范。同时，为了确保标注的一致性和准确性，产品经理还需要提供丰富的标注示例，包括正面示例和反面示例，让标注员能够更好地理解标注规则。

除了制定标注细则，产品经理还需要建立科学的评估体系，对标注结果进行严格的质量把控。这就好比对建筑工程进行质量验收，确保每一个环节都符合标准。评估体系应包括准确性、一致性、完整性等多个维度的指标，通过对标注结果的抽样检查和数据分析，及时发现标注中存在的问题，并采取相应的措施进行改进。例如，可以采用多人标注、交叉验证的方式，提高标注结果的准确性；通过对标注一致性的分析，找出标注员之间存在的差异，加强对标注员的培训和指导。

在数据标注工具的选择上，产品经理也需要根据项目的需求和特点，选择合适的工具。市面上有许多专业的数据标注工具，如 Labelbox、SuperAnnotate 等，它们提供了丰富的标注功能和高效的工作流程，能够大大提高标注的效率和质量。产品经理需要对这些工具进行深入的调研和评估，选择最适合项目的工具，为数据标注工作的顺利进行提供有力的支持。

在数据集构建的征程中，产品经理作为领航者，需要以敏锐的洞察力、精准的判断力和果断的决策力，驾驭高质量、大规模、丰富性的数据之舟，在数据标注的海洋中，用清晰的规则和严格的评估扬起风帆，确保数据集这座 “智慧宝库” 能够为模型的训练提供源源不断的动力，释放出人工智能的无限潜能。

本文由 @而立与拾遗原创发布于人人都是产品经理。未经作者许可，禁止转载。

题图来自Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。