PFCCLab · ZMS-PNG · Apr 13, 2026 · Apr 16, 2026
diff --git a/...lyReports/Hackathon_10th/ZMS-PNG/[WeeklyReport]ZMS-PNG 2026.03.31~2026.04.12.md b/...lyReports/Hackathon_10th/ZMS-PNG/[WeeklyReport]ZMS-PNG 2026.03.31~2026.04.12.md
@@ -0,0 +1,100 @@
+### 姓名
+
+赵茂森
+
+### 本周工作
+
+1. ### 维度建模与评价量表（Rubric）设计
+
+- **任务描述：** 构建“个性化”的可观测二级指标。
+
+- **具体指标：**
+
+    - **人设拟合度（Persona Alignment）：** 输出内容与预设人设（性格、口吻、职业背景）的重合率。
+
+    - **记忆唤醒率（Memory Recall）：** 对长短期交互上下文的检索准确度及在回复中的体现。
+
+    - **情感对齐（Emotional Alignment）：** 识别用户情绪并给出相应情感价值反馈的准确性。
+
+    - **偏好敏感度（Preference Sensitivity）：** 是否能从琐碎信息中提取并尊重用户的特定偏好（如：不吃香菜、偏好冷色调）。
+
+- **输出物：** 《Agent 个性化评估多维度量表》，包含每个维度的 0-5 分详细打分准则（已定义完成）。
+
+
+2. ### 技术栈链路打通与验证
+- **任务描述：** 测试 PaddleOCR 在生活化 App 截图（如微信、小红书、游戏 UI）上的识别表现。
+
+- **关键任务：**
+
+    - **版面分析（Layout Analysis）：** 针对截图中的气泡对话、按钮文字、系统通知进行分类识别，防止文本顺序混乱。
+
+    - **结构化导出：** 编写 Python 脚本，将 OCR 识别结果转化为 Dify 可理解的结构化文本（JSON：`{"sender": "user", "content": "...", "timestamp": "..."}`）。
+
+- **输出物：** PaddleOCR 文本提取预处理模块。
+
+
+- **任务描述：** 在 Dify 中搭建出评分系统的“骨架”。
+
+- **配置细节：**
+
+    - **节点定义：** 创建输入节点（接收截图/文本）、代码节点（运行 OCR 结果处理）、ERNIE 模型节点（执行评分 Prompt）。
+
+    - **Prompt 固化：** 编写初步的“Judge Prompt”，将第 1 周定义的打分准则嵌入系统提示词中，要求 ERNIE 以 JSON 格式输出多维度分数。
+
+- **输出物：** Dify 评分工作流 V1.0。
+
+3. ### 逻辑分析工具开发
+- **任务描述** obsidian的终端插件+Harness+专门针对Agent-workflow的思维链路工具设计
+
+- **关键任务：**
+
+    - **obsidian终端插件开发：** 针对obsidian本地模型使用的便携工具
+
+    - **Harness文档和架构设计：** 实现可视化逻辑和工程化约束
+
+    - **针对Agent-workflow专有分析模式的工具开发：** 实现2维、3维链路分析，和节点关系的解耦，达到基础使用要求的实现。
+- **输出物：** 逻辑分析工具开发模块。
+
+3. ### 疑惑与解答
+- **问题1：** 
+我目前构建了基础的系统，也在做针对针对“生活化、娱乐化”场景的测试，但是最后还是要落到对Agent系统评估上，那么除了面向输出进行评估、本身还要面向Agent系统和工作流设计进行评估。这里的重点是：“如何让别人用我的评估系统”，我分为：本地下载使用、线上测评使用。这里是否有必要去考虑“线上”这个模块。“线上模块”带来的几个疑惑：
+    1.如何做到“线上安全”，解决别人担心自己Agent系统因为测评而泄露的隐患？
+    2.在评估的时候，重点分析Agent内部节点之间的输出作为评估的参数、连接关系、逻辑关系，这里的几个参数之间的大致权重占比该如何考量？
+    3.如果我想增加系统的适应性，那几个方面是我需要重点注意的？
+
+
+### 下周工作
+
+1. 基准测试集（Benchmark）冷启动
+
+- **任务描述：** 针对“生活化、娱乐化”场景，手动构建第一批高质量测试用例。
+
+- **任务细节：**
+
+    - **数据采集：** 模拟 5 个典型场景（如：深夜情感倾诉、剧本杀角色扮演、旅行计划定制等）。
+
+    - **Ground Truth 标注：** 由人工编写在这些场景下“完美个性化”的参考回复，作为 ERNIE 评分时的对比基准。
+
+- **输出物：** 包含 50 个 Prompt-Response-Context 三元组的基准数据集。
+
+2. 重点选取以下三个具体场景进行数据采集：
+
+1. **社交媒体个性化互动（以小红书/微博为例）：** 
+    - _评估重点：_ 识别图片中的流行语、审美偏好及博主特有的情感基调。
+
+    - _OCR 挑战：_ 处理背景复杂的图片文字叠加。
+
+2. **角色扮演类游戏/剧本杀（以私聊截图为例）：**
+
+    - _评估重点：_ 语料中的“戏份”保持度，是否因模型原生对齐策略而导致角色破功（OOC）。
+
+    - _技术重点：_ 考察 Agent 在多轮对话中的人设稳定性。
+
+3. **生活决策辅助（以美团/大众点评/外卖截图为例）：**
+
+    - _评估重点：_ 基于用户过往的评价截图，衡量 Agent 是否能精准捕捉“口味偏好”并给出非同质化的建议。
+
+### 导师点评
+
+
+（待导师点评）