diff --git a/WeeklyReports/Hackathon_10th/ZMS-PNG/[WeeklyReport]ZMS-PNG 2026.04.13~2026.04.26.md b/WeeklyReports/Hackathon_10th/ZMS-PNG/[WeeklyReport]ZMS-PNG 2026.04.13~2026.04.26.md new file mode 100644 index 00000000..f6d45b57 --- /dev/null +++ b/WeeklyReports/Hackathon_10th/ZMS-PNG/[WeeklyReport]ZMS-PNG 2026.04.13~2026.04.26.md @@ -0,0 +1,170 @@ +### 姓名 + +赵茂森 + +### 本周工作 + +1. ### 多智能体评价系统整体思路梳理 + +- **任务描述:** 在上一阶段“个性化 Agent 输出评价”的基础上,将评价对象从单次回复扩展到多智能体系统的协作过程、工作流结构与最终任务效果。 + +- **核心结论:** + + - **评价对象分层:** 当前评价系统不应只评价最终回答是否符合人设、情绪和偏好,还需要评价多智能体系统内部的任务拆解、角色分工、节点通信、工具调用和中间状态流转。 + + - **评价视角扩展:** 将系统拆分为“结果层、过程层、结构层”三类评价对象。结果层关注最终输出质量,过程层关注 Agent 之间的信息传递与推理链路,结构层关注工作流是否具备可复用、可解释、可扩展的设计。 + + - **适用场景定位:** 评价系统主要面向生活化、娱乐化和个性化交互场景,但需要保留对通用多智能体工作流的兼容能力,例如 Planner-Executor-Critic、Memory Agent、Tool Agent 等常见结构。 + +- **输出物:** 《多智能体评价系统阶段性设计总结》,明确了从“输出评价”过渡到“输出 + 过程 + 工作流结构评价”的系统定位。 + + +2. ### 多智能体评价指标体系补充 + +- **任务描述:** 基于上一阶段完成的个性化 Rubric,补充面向多智能体协作过程的评价维度。 + +- **新增评价维度:** + + - **任务拆解合理性(Task Decomposition):** Planner 或主控 Agent 是否能将用户目标拆分为清晰、可执行、低耦合的子任务。 + + - **角色分工清晰度(Role Separation):** 不同 Agent 的职责边界是否明确,是否存在重复处理、职责漂移或关键职责缺失。 + + - **信息传递完整性(Information Transfer):** 上游 Agent 的关键上下文、约束条件、用户偏好和中间结果是否被下游 Agent 正确继承。 + + - **协作一致性(Collaboration Consistency):** 多个 Agent 的输出之间是否存在逻辑冲突、风格割裂或目标偏移。 + + - **工具调用有效性(Tool Usage):** 工具 Agent 是否在合适时机调用正确工具,调用参数是否完整,结果是否被正确解释和纳入最终答案。 + + - **错误恢复能力(Error Recovery):** 当某个 Agent 输出不完整、工具失败或上下文不足时,系统是否能进行补问、重试、降级或自我修正。 + +- **指标整合:** 将原有的人设拟合度、记忆唤醒率、情感对齐、偏好敏感度保留为“结果层指标”,新增的多智能体协作指标归入“过程层”和“结构层指标”。 + +- **输出物:** 多智能体评价 Rubric V0.2,形成“结果质量 40% + 协作过程 40% + 工作流结构 20%”的初步权重方案。 + + +3. ### Benchmark 场景与测试用例设计 + +- **任务描述:** 延续上一期计划,围绕生活化、娱乐化场景构建第一批可用于多智能体评价的 Benchmark 样例。 + +- **场景设计:** + + - **社交媒体个性化互动:** 以小红书、微博等截图为输入,测试系统是否能识别用户审美偏好、流行语语境、情绪倾向和内容风格。 + + - **角色扮演 / 剧本杀场景:** 以多轮私聊截图和角色设定为输入,测试多智能体系统在角色理解、剧情推进、人设稳定性和 OOC 控制上的表现。 + + - **生活决策辅助场景:** 以外卖、点评、旅行、消费记录等截图为输入,测试系统是否能提取隐性偏好并生成非同质化建议。 + + - **多智能体协同任务场景:** 设计 Planner 负责拆解任务、Memory Agent 负责检索历史偏好、Tool Agent 负责处理外部信息、Critic Agent 负责校验输出的评估样例。 + +- **数据结构设计:** + + - **输入字段:** 用户目标、上下文截图 / 文本、历史偏好、Agent 角色配置、工作流节点配置。 + + - **过程字段:** 各 Agent 的中间输出、节点连接关系、工具调用记录、状态传递内容。 + + - **输出字段:** 最终回复、人工参考答案、维度评分、错误类型、改进建议。 + +- **输出物:** Benchmark 数据结构草案,完成 Prompt-Response-Context 三元组向 Trace-Workflow-Score 结构的扩展设计。 + + +4. ### 技术链路与工作流分析方案迭代 + +- **任务描述:** 在 PaddleOCR + Dify 评分工作流的基础上,补充多智能体过程追踪和工作流结构分析能力。 + +- **关键任务:** + + - **OCR 输入链路整理:** 继续将截图内容转化为结构化上下文,重点处理对话顺序、角色归属、系统提示和按钮文本混杂的问题。 + + - **Dify Judge Prompt 调整:** 将评分提示词从单一回复评分扩展为多段 Trace 评分,要求模型同时输出维度分数、证据片段、失败原因和修改建议。 + + - **Workflow Trace Schema 设计:** 初步定义节点 ID、Agent 角色、输入输出、上游依赖、工具调用、异常状态等字段,便于后续对不同 Agent 框架做统一评价。 + + - **逻辑分析工具衔接:** 将 Obsidian 终端插件、Harness 文档和 Agent-workflow 链路分析工具纳入评价系统的辅助分析模块,用于展示节点关系、信息流向和推理断点。 + +- **输出物:** 多智能体 Trace 评价流程草案,明确了“截图 / 文本输入 -> 结构化上下文 -> 工作流 Trace -> Judge Prompt -> 多维评分报告”的链路。 + + +5. ### 疑惑与阶段性思考 + +- **问题 1:是否需要优先开发线上评价模块?** + + 当前判断是:线上模块有展示和试用价值,但不应作为第一优先级。更适合先完成本地可运行版本,保证用户可以在不上传私有 Agent 配置和业务数据的情况下完成评价。线上版本后续可以作为脱敏 Demo 或公开 Benchmark 测评入口。 + +- **问题 2:如何处理多智能体系统的隐私与安全问题?** + + 多智能体评价系统如果要求用户上传完整工作流、Prompt、工具调用和中间输出,确实会带来泄露风险。当前可行方案包括:本地优先、日志脱敏、字段级匿名化、只上传评分所需摘要、允许用户手动选择可评价字段。 + +- **问题 3:过程评价和结果评价的权重如何确定?** + + 初步方案是根据任务类型动态调整。对于生活化个性化回复,结果层权重更高;对于复杂多智能体协作任务,过程层和结构层权重更高。当前暂定“结果质量 40% + 协作过程 40% + 工作流结构 20%”,后续通过 Benchmark 实验校准。 + +- **问题 4:如何提高评价系统的适应性?** + + 需要重点关注输入格式兼容、Agent 框架无关的 Trace Schema、可配置 Rubric、不同场景权重模板和人工校准机制。系统不能绑定单一平台,应尽量支持 Dify、LangGraph、AutoGen、CrewAI 等不同工作流的抽象表示。 + + +### 下周工作 + +1. ### 多智能体评价系统 V0.1 原型实现 + +- **任务描述:** 基于当前 Trace Schema 和 Rubric,完成一个最小可用的评价流程。 + +- **任务细节:** + + - 编写可接受 JSON Trace 输入的评分模板。 + + - 将结果层、过程层、结构层评分整合为统一输出格式。 + + - 输出每个维度的分数、证据、问题定位和优化建议。 + +- **输出物:** 多智能体评价系统 V0.1 Demo。 + + +2. ### Benchmark 数据集继续扩充 + +- **任务描述:** 将当前场景设计落到可测试样例。 + +- **任务细节:** + + - 完成至少 30 个高质量测试样例。 + + - 每个样例包含用户目标、上下文、Agent 配置、工作流 Trace、参考输出和人工评分。 + + - 覆盖社交媒体互动、角色扮演、生活决策辅助、多 Agent 协同任务四类场景。 + +- **输出物:** 多智能体评价 Benchmark V0.1。 + + +3. ### 安全与本地化使用方案设计 + +- **任务描述:** 明确评价系统的本地运行方案和线上 Demo 边界。 + +- **任务细节:** + + - 设计本地评价 CLI / WebUI 的最小使用流程。 + + - 增加输入日志脱敏规则。 + + - 梳理线上版本只保留公开样例和脱敏 Trace 的使用边界。 + +- **输出物:** 本地优先的使用方案文档。 + + +4. ### 工作流可视化与逻辑分析工具继续迭代 + +- **任务描述:** 将 Agent-workflow 链路分析工具与评价结果结合。 + +- **任务细节:** + + - 展示节点之间的输入输出依赖。 + + - 标记评分较低的节点和断裂的信息流。 + + - 支持按结果层、过程层、结构层切换查看问题。 + +- **输出物:** 工作流 Trace 可视化分析原型。 + + +### 导师点评 + +(待导师点评)