From 00a060d9d8e0c3910548acbfa63d5b795db42e62 Mon Sep 17 00:00:00 2001 From: ZhijunLStudio <335022969@qq.com> Date: Sun, 26 Apr 2026 10:53:44 +0800 Subject: [PATCH] [WeeklyReport] ZhijunLStudio 2026.4.13~2026.4.26 --- .../[WeeklyReport]2026.4.13~2026.4.26.md | 29 +++++++++++++++++++ 1 file changed, 29 insertions(+) create mode 100644 WeeklyReports/Hackathon_10th/ZhijunLStudio/[WeeklyReport]2026.4.13~2026.4.26.md diff --git a/WeeklyReports/Hackathon_10th/ZhijunLStudio/[WeeklyReport]2026.4.13~2026.4.26.md b/WeeklyReports/Hackathon_10th/ZhijunLStudio/[WeeklyReport]2026.4.13~2026.4.26.md new file mode 100644 index 00000000..e1b44cf9 --- /dev/null +++ b/WeeklyReports/Hackathon_10th/ZhijunLStudio/[WeeklyReport]2026.4.13~2026.4.26.md @@ -0,0 +1,29 @@ +### 姓名 + +ZhijunLStudio + +### 实习项目 + +AutoTrainer 自动化训练工具 + +### 本周工作 + +1. 修复 DataAgent 中的 shell 注入漏洞,对数据路径使用 `shlex.quote` 进行安全转义,移除了 `_inject_row_limit` 等死代码,降低维护成本 + +2. 优化数据处理流水线性能:JSONL 清洗从全量加载改为流式处理(逐行写入),减少内存占用;Parquet 转换时正确处理 NaN 值转为 None,保证 JSON 输出格式正确 + +3. 实现多数据集比例消融(multi-dataset ratio ablation):自动为多数据集场景创建 5% 子集用于比例实验,支持 leave-one-out 和 ratio sweep 两种策略 + +4. 完善实验调度器(ExperimentScheduler):新增 `run_next`、`run_all` 接口和 CheckpointGC 自动清理机制,支持持久化队列与断点恢复 + +5. TUI 新增实验进度展示:在状态栏和主面板实时显示当前实验阶段进度 + +6. 添加 `tiktoken` 依赖,支持 LLM token 计数的精确计算 + +### 导师点评 + +### 下周工作 + +1. 继续完善多数据集比例消融的文档和可视化分析工具 +2. 对 OCR 检测任务进行实际训练验证,测试 AutoTrainer 端到端流程 +3. 优化 DataFlex 数据处理工具的稳定性,完善依赖管理和 CI 流程