Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Original file line number Diff line number Diff line change
@@ -0,0 +1,170 @@
### 姓名

赵茂森

### 本周工作

1. ### 多智能体评价系统整体思路梳理

- **任务描述:** 在上一阶段“个性化 Agent 输出评价”的基础上,将评价对象从单次回复扩展到多智能体系统的协作过程、工作流结构与最终任务效果。

- **核心结论:**

- **评价对象分层:** 当前评价系统不应只评价最终回答是否符合人设、情绪和偏好,还需要评价多智能体系统内部的任务拆解、角色分工、节点通信、工具调用和中间状态流转。

- **评价视角扩展:** 将系统拆分为“结果层、过程层、结构层”三类评价对象。结果层关注最终输出质量,过程层关注 Agent 之间的信息传递与推理链路,结构层关注工作流是否具备可复用、可解释、可扩展的设计。

- **适用场景定位:** 评价系统主要面向生活化、娱乐化和个性化交互场景,但需要保留对通用多智能体工作流的兼容能力,例如 Planner-Executor-Critic、Memory Agent、Tool Agent 等常见结构。

- **输出物:** 《多智能体评价系统阶段性设计总结》,明确了从“输出评价”过渡到“输出 + 过程 + 工作流结构评价”的系统定位。


2. ### 多智能体评价指标体系补充

- **任务描述:** 基于上一阶段完成的个性化 Rubric,补充面向多智能体协作过程的评价维度。

- **新增评价维度:**

- **任务拆解合理性(Task Decomposition):** Planner 或主控 Agent 是否能将用户目标拆分为清晰、可执行、低耦合的子任务。

- **角色分工清晰度(Role Separation):** 不同 Agent 的职责边界是否明确,是否存在重复处理、职责漂移或关键职责缺失。

- **信息传递完整性(Information Transfer):** 上游 Agent 的关键上下文、约束条件、用户偏好和中间结果是否被下游 Agent 正确继承。

- **协作一致性(Collaboration Consistency):** 多个 Agent 的输出之间是否存在逻辑冲突、风格割裂或目标偏移。

- **工具调用有效性(Tool Usage):** 工具 Agent 是否在合适时机调用正确工具,调用参数是否完整,结果是否被正确解释和纳入最终答案。

- **错误恢复能力(Error Recovery):** 当某个 Agent 输出不完整、工具失败或上下文不足时,系统是否能进行补问、重试、降级或自我修正。

- **指标整合:** 将原有的人设拟合度、记忆唤醒率、情感对齐、偏好敏感度保留为“结果层指标”,新增的多智能体协作指标归入“过程层”和“结构层指标”。

- **输出物:** 多智能体评价 Rubric V0.2,形成“结果质量 40% + 协作过程 40% + 工作流结构 20%”的初步权重方案。


3. ### Benchmark 场景与测试用例设计

- **任务描述:** 延续上一期计划,围绕生活化、娱乐化场景构建第一批可用于多智能体评价的 Benchmark 样例。

- **场景设计:**

- **社交媒体个性化互动:** 以小红书、微博等截图为输入,测试系统是否能识别用户审美偏好、流行语语境、情绪倾向和内容风格。

- **角色扮演 / 剧本杀场景:** 以多轮私聊截图和角色设定为输入,测试多智能体系统在角色理解、剧情推进、人设稳定性和 OOC 控制上的表现。

- **生活决策辅助场景:** 以外卖、点评、旅行、消费记录等截图为输入,测试系统是否能提取隐性偏好并生成非同质化建议。

- **多智能体协同任务场景:** 设计 Planner 负责拆解任务、Memory Agent 负责检索历史偏好、Tool Agent 负责处理外部信息、Critic Agent 负责校验输出的评估样例。

- **数据结构设计:**

- **输入字段:** 用户目标、上下文截图 / 文本、历史偏好、Agent 角色配置、工作流节点配置。

- **过程字段:** 各 Agent 的中间输出、节点连接关系、工具调用记录、状态传递内容。

- **输出字段:** 最终回复、人工参考答案、维度评分、错误类型、改进建议。

- **输出物:** Benchmark 数据结构草案,完成 Prompt-Response-Context 三元组向 Trace-Workflow-Score 结构的扩展设计。


4. ### 技术链路与工作流分析方案迭代

- **任务描述:** 在 PaddleOCR + Dify 评分工作流的基础上,补充多智能体过程追踪和工作流结构分析能力。

- **关键任务:**

- **OCR 输入链路整理:** 继续将截图内容转化为结构化上下文,重点处理对话顺序、角色归属、系统提示和按钮文本混杂的问题。

- **Dify Judge Prompt 调整:** 将评分提示词从单一回复评分扩展为多段 Trace 评分,要求模型同时输出维度分数、证据片段、失败原因和修改建议。

- **Workflow Trace Schema 设计:** 初步定义节点 ID、Agent 角色、输入输出、上游依赖、工具调用、异常状态等字段,便于后续对不同 Agent 框架做统一评价。

- **逻辑分析工具衔接:** 将 Obsidian 终端插件、Harness 文档和 Agent-workflow 链路分析工具纳入评价系统的辅助分析模块,用于展示节点关系、信息流向和推理断点。

- **输出物:** 多智能体 Trace 评价流程草案,明确了“截图 / 文本输入 -> 结构化上下文 -> 工作流 Trace -> Judge Prompt -> 多维评分报告”的链路。


5. ### 疑惑与阶段性思考

- **问题 1:是否需要优先开发线上评价模块?**

当前判断是:线上模块有展示和试用价值,但不应作为第一优先级。更适合先完成本地可运行版本,保证用户可以在不上传私有 Agent 配置和业务数据的情况下完成评价。线上版本后续可以作为脱敏 Demo 或公开 Benchmark 测评入口。

- **问题 2:如何处理多智能体系统的隐私与安全问题?**

多智能体评价系统如果要求用户上传完整工作流、Prompt、工具调用和中间输出,确实会带来泄露风险。当前可行方案包括:本地优先、日志脱敏、字段级匿名化、只上传评分所需摘要、允许用户手动选择可评价字段。

- **问题 3:过程评价和结果评价的权重如何确定?**

初步方案是根据任务类型动态调整。对于生活化个性化回复,结果层权重更高;对于复杂多智能体协作任务,过程层和结构层权重更高。当前暂定“结果质量 40% + 协作过程 40% + 工作流结构 20%”,后续通过 Benchmark 实验校准。

- **问题 4:如何提高评价系统的适应性?**

需要重点关注输入格式兼容、Agent 框架无关的 Trace Schema、可配置 Rubric、不同场景权重模板和人工校准机制。系统不能绑定单一平台,应尽量支持 Dify、LangGraph、AutoGen、CrewAI 等不同工作流的抽象表示。


### 下周工作

1. ### 多智能体评价系统 V0.1 原型实现

- **任务描述:** 基于当前 Trace Schema 和 Rubric,完成一个最小可用的评价流程。

- **任务细节:**

- 编写可接受 JSON Trace 输入的评分模板。

- 将结果层、过程层、结构层评分整合为统一输出格式。

- 输出每个维度的分数、证据、问题定位和优化建议。

- **输出物:** 多智能体评价系统 V0.1 Demo。


2. ### Benchmark 数据集继续扩充

- **任务描述:** 将当前场景设计落到可测试样例。

- **任务细节:**

- 完成至少 30 个高质量测试样例。

- 每个样例包含用户目标、上下文、Agent 配置、工作流 Trace、参考输出和人工评分。

- 覆盖社交媒体互动、角色扮演、生活决策辅助、多 Agent 协同任务四类场景。

- **输出物:** 多智能体评价 Benchmark V0.1。


3. ### 安全与本地化使用方案设计

- **任务描述:** 明确评价系统的本地运行方案和线上 Demo 边界。

- **任务细节:**

- 设计本地评价 CLI / WebUI 的最小使用流程。

- 增加输入日志脱敏规则。

- 梳理线上版本只保留公开样例和脱敏 Trace 的使用边界。

- **输出物:** 本地优先的使用方案文档。


4. ### 工作流可视化与逻辑分析工具继续迭代

- **任务描述:** 将 Agent-workflow 链路分析工具与评价结果结合。

- **任务细节:**

- 展示节点之间的输入输出依赖。

- 标记评分较低的节点和断裂的信息流。

- 支持按结果层、过程层、结构层切换查看问题。

- **输出物:** 工作流 Trace 可视化分析原型。


### 导师点评

(待导师点评)