Skip to content
Open
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Original file line number Diff line number Diff line change
@@ -0,0 +1,29 @@
### 姓名

ZhijunLStudio

### 实习项目

AutoTrainer 自动化训练工具

### 本周工作

1. 修复 DataAgent 中的 shell 注入漏洞,对数据路径使用 `shlex.quote` 进行安全转义,移除了 `_inject_row_limit` 等死代码,降低维护成本

2. 优化数据处理流水线性能:JSONL 清洗从全量加载改为流式处理(逐行写入),减少内存占用;Parquet 转换时正确处理 NaN 值转为 None,保证 JSON 输出格式正确

3. 实现多数据集比例消融(multi-dataset ratio ablation):自动为多数据集场景创建 5% 子集用于比例实验,支持 leave-one-out 和 ratio sweep 两种策略

4. 完善实验调度器(ExperimentScheduler):新增 `run_next`、`run_all` 接口和 CheckpointGC 自动清理机制,支持持久化队列与断点恢复

5. TUI 新增实验进度展示:在状态栏和主面板实时显示当前实验阶段进度

6. 添加 `tiktoken` 依赖,支持 LLM token 计数的精确计算

### 导师点评

### 下周工作

1. 继续完善多数据集比例消融的文档和可视化分析工具
2. 对 OCR 检测任务进行实际训练验证,测试 AutoTrainer 端到端流程
3. 优化 DataFlex 数据处理工具的稳定性,完善依赖管理和 CI 流程