Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Original file line number Diff line number Diff line change
@@ -0,0 +1,100 @@
### 姓名

赵茂森

### 本周工作

1. ### 维度建模与评价量表(Rubric)设计

- **任务描述:** 构建“个性化”的可观测二级指标。

- **具体指标:**

- **人设拟合度(Persona Alignment):** 输出内容与预设人设(性格、口吻、职业背景)的重合率。

- **记忆唤醒率(Memory Recall):** 对长短期交互上下文的检索准确度及在回复中的体现。

- **情感对齐(Emotional Alignment):** 识别用户情绪并给出相应情感价值反馈的准确性。

- **偏好敏感度(Preference Sensitivity):** 是否能从琐碎信息中提取并尊重用户的特定偏好(如:不吃香菜、偏好冷色调)。

- **输出物:** 《Agent 个性化评估多维度量表》,包含每个维度的 0-5 分详细打分准则(已定义完成)。


2. ### 技术栈链路打通与验证
- **任务描述:** 测试 PaddleOCR 在生活化 App 截图(如微信、小红书、游戏 UI)上的识别表现。

- **关键任务:**

- **版面分析(Layout Analysis):** 针对截图中的气泡对话、按钮文字、系统通知进行分类识别,防止文本顺序混乱。

- **结构化导出:** 编写 Python 脚本,将 OCR 识别结果转化为 Dify 可理解的结构化文本(JSON:`{"sender": "user", "content": "...", "timestamp": "..."}`)。

- **输出物:** PaddleOCR 文本提取预处理模块。


- **任务描述:** 在 Dify 中搭建出评分系统的“骨架”。

- **配置细节:**

- **节点定义:** 创建输入节点(接收截图/文本)、代码节点(运行 OCR 结果处理)、ERNIE 模型节点(执行评分 Prompt)。

- **Prompt 固化:** 编写初步的“Judge Prompt”,将第 1 周定义的打分准则嵌入系统提示词中,要求 ERNIE 以 JSON 格式输出多维度分数。

- **输出物:** Dify 评分工作流 V1.0。

3. ### 逻辑分析工具开发
- **任务描述** obsidian的终端插件+Harness+专门针对Agent-workflow的思维链路工具设计

- **关键任务:**

- **obsidian终端插件开发:** 针对obsidian本地模型使用的便携工具

- **Harness文档和架构设计:** 实现可视化逻辑和工程化约束

- **针对Agent-workflow专有分析模式的工具开发:** 实现2维、3维链路分析,和节点关系的解耦,达到基础使用要求的实现。
- **输出物:** 逻辑分析工具开发模块。

3. ### 疑惑与解答
- **问题1:**
我目前构建了基础的系统,也在做针对针对“生活化、娱乐化”场景的测试,但是最后还是要落到对Agent系统评估上,那么除了面向输出进行评估、本身还要面向Agent系统和工作流设计进行评估。这里的重点是:“如何让别人用我的评估系统”,我分为:本地下载使用、线上测评使用。这里是否有必要去考虑“线上”这个模块。“线上模块”带来的几个疑惑:
1.如何做到“线上安全”,解决别人担心自己Agent系统因为测评而泄露的隐患?
2.在评估的时候,重点分析Agent内部节点之间的输出作为评估的参数、连接关系、逻辑关系,这里的几个参数之间的大致权重占比该如何考量?
3.如果我想增加系统的适应性,那几个方面是我需要重点注意的?


### 下周工作

1. 基准测试集(Benchmark)冷启动

- **任务描述:** 针对“生活化、娱乐化”场景,手动构建第一批高质量测试用例。

- **任务细节:**

- **数据采集:** 模拟 5 个典型场景(如:深夜情感倾诉、剧本杀角色扮演、旅行计划定制等)。

- **Ground Truth 标注:** 由人工编写在这些场景下“完美个性化”的参考回复,作为 ERNIE 评分时的对比基准。

- **输出物:** 包含 50 个 Prompt-Response-Context 三元组的基准数据集。

2. 重点选取以下三个具体场景进行数据采集:

1. **社交媒体个性化互动(以小红书/微博为例):**
- _评估重点:_ 识别图片中的流行语、审美偏好及博主特有的情感基调。

- _OCR 挑战:_ 处理背景复杂的图片文字叠加。

2. **角色扮演类游戏/剧本杀(以私聊截图为例):**

- _评估重点:_ 语料中的“戏份”保持度,是否因模型原生对齐策略而导致角色破功(OOC)。

- _技术重点:_ 考察 Agent 在多轮对话中的人设稳定性。

3. **生活决策辅助(以美团/大众点评/外卖截图为例):**

- _评估重点:_ 基于用户过往的评价截图,衡量 Agent 是否能精准捕捉“口味偏好”并给出非同质化的建议。

### 导师点评


(待导师点评)
Loading