diff --git a/WeeklyReports/Hackathon_10th/ZMS-PNG/[WeeklyReport]ZMS-PNG 2026.03.31~2026.04.12.md b/WeeklyReports/Hackathon_10th/ZMS-PNG/[WeeklyReport]ZMS-PNG 2026.03.31~2026.04.12.md new file mode 100644 index 00000000..3e8b83b4 --- /dev/null +++ b/WeeklyReports/Hackathon_10th/ZMS-PNG/[WeeklyReport]ZMS-PNG 2026.03.31~2026.04.12.md @@ -0,0 +1,100 @@ +### 姓名 + +赵茂森 + +### 本周工作 + +1. ### 维度建模与评价量表(Rubric)设计 + +- **任务描述:** 构建“个性化”的可观测二级指标。 + +- **具体指标:** + + - **人设拟合度(Persona Alignment):** 输出内容与预设人设(性格、口吻、职业背景)的重合率。 + + - **记忆唤醒率(Memory Recall):** 对长短期交互上下文的检索准确度及在回复中的体现。 + + - **情感对齐(Emotional Alignment):** 识别用户情绪并给出相应情感价值反馈的准确性。 + + - **偏好敏感度(Preference Sensitivity):** 是否能从琐碎信息中提取并尊重用户的特定偏好(如:不吃香菜、偏好冷色调)。 + +- **输出物:** 《Agent 个性化评估多维度量表》,包含每个维度的 0-5 分详细打分准则(已定义完成)。 + + +2. ### 技术栈链路打通与验证 +- **任务描述:** 测试 PaddleOCR 在生活化 App 截图(如微信、小红书、游戏 UI)上的识别表现。 + +- **关键任务:** + + - **版面分析(Layout Analysis):** 针对截图中的气泡对话、按钮文字、系统通知进行分类识别,防止文本顺序混乱。 + + - **结构化导出:** 编写 Python 脚本,将 OCR 识别结果转化为 Dify 可理解的结构化文本(JSON:`{"sender": "user", "content": "...", "timestamp": "..."}`)。 + +- **输出物:** PaddleOCR 文本提取预处理模块。 + + +- **任务描述:** 在 Dify 中搭建出评分系统的“骨架”。 + +- **配置细节:** + + - **节点定义:** 创建输入节点(接收截图/文本)、代码节点(运行 OCR 结果处理)、ERNIE 模型节点(执行评分 Prompt)。 + + - **Prompt 固化:** 编写初步的“Judge Prompt”,将第 1 周定义的打分准则嵌入系统提示词中,要求 ERNIE 以 JSON 格式输出多维度分数。 + +- **输出物:** Dify 评分工作流 V1.0。 + +3. ### 逻辑分析工具开发 +- **任务描述** obsidian的终端插件+Harness+专门针对Agent-workflow的思维链路工具设计 + +- **关键任务:** + + - **obsidian终端插件开发:** 针对obsidian本地模型使用的便携工具 + + - **Harness文档和架构设计:** 实现可视化逻辑和工程化约束 + + - **针对Agent-workflow专有分析模式的工具开发:** 实现2维、3维链路分析,和节点关系的解耦,达到基础使用要求的实现。 +- **输出物:** 逻辑分析工具开发模块。 + +3. ### 疑惑与解答 +- **问题1:** +我目前构建了基础的系统,也在做针对针对“生活化、娱乐化”场景的测试,但是最后还是要落到对Agent系统评估上,那么除了面向输出进行评估、本身还要面向Agent系统和工作流设计进行评估。这里的重点是:“如何让别人用我的评估系统”,我分为:本地下载使用、线上测评使用。这里是否有必要去考虑“线上”这个模块。“线上模块”带来的几个疑惑: + 1.如何做到“线上安全”,解决别人担心自己Agent系统因为测评而泄露的隐患? + 2.在评估的时候,重点分析Agent内部节点之间的输出作为评估的参数、连接关系、逻辑关系,这里的几个参数之间的大致权重占比该如何考量? + 3.如果我想增加系统的适应性,那几个方面是我需要重点注意的? + + +### 下周工作 + +1. 基准测试集(Benchmark)冷启动 + +- **任务描述:** 针对“生活化、娱乐化”场景,手动构建第一批高质量测试用例。 + +- **任务细节:** + + - **数据采集:** 模拟 5 个典型场景(如:深夜情感倾诉、剧本杀角色扮演、旅行计划定制等)。 + + - **Ground Truth 标注:** 由人工编写在这些场景下“完美个性化”的参考回复,作为 ERNIE 评分时的对比基准。 + +- **输出物:** 包含 50 个 Prompt-Response-Context 三元组的基准数据集。 + +2. 重点选取以下三个具体场景进行数据采集: + +1. **社交媒体个性化互动(以小红书/微博为例):** + - _评估重点:_ 识别图片中的流行语、审美偏好及博主特有的情感基调。 + + - _OCR 挑战:_ 处理背景复杂的图片文字叠加。 + +2. **角色扮演类游戏/剧本杀(以私聊截图为例):** + + - _评估重点:_ 语料中的“戏份”保持度,是否因模型原生对齐策略而导致角色破功(OOC)。 + + - _技术重点:_ 考察 Agent 在多轮对话中的人设稳定性。 + +3. **生活决策辅助(以美团/大众点评/外卖截图为例):** + + - _评估重点:_ 基于用户过往的评价截图,衡量 Agent 是否能精准捕捉“口味偏好”并给出非同质化的建议。 + +### 导师点评 + + +(待导师点评)