From 83564d96e015b6d0af3c351921539c1ce614201c Mon Sep 17 00:00:00 2001 From: PrayerQX Date: Sun, 26 Apr 2026 02:00:17 +0800 Subject: [PATCH 1/2] Add PrayerQX biweekly report for 2026-04-13 to 2026-04-26 --- .../[WeeklyReport]2026.04.13~2026.04.26.md | 60 +++++++++++++++++++ 1 file changed, 60 insertions(+) create mode 100644 WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.13~2026.04.26.md diff --git a/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.13~2026.04.26.md b/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.13~2026.04.26.md new file mode 100644 index 00000000..02ce2c66 --- /dev/null +++ b/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.13~2026.04.26.md @@ -0,0 +1,60 @@ +### 姓名 + +PrayerQX + +### 实习项目 + +基于 PaddleOCR + ERNIE 4.5 的金融文档理解与可复现实验流水线 + +### 本周工作 + +1. 完成 `paddleocr-ernie-pyfi` 项目的新版仓库整理与导入 + + - 基于 `uv` 搭建本地可复现工程,整理 `pyproject.toml`、`.env.example`、`.gitignore` 和基础 README,明确依赖、环境变量和运行方式,相关内容已同步到 GitHub 仓库 [paddleocr-ernie-pyfi](https://github.com/PrayerQX/paddleocr-ernie-pyfi)。 + - 将项目结构拆分为 `cli`、`pipeline`、`dataset`、`manifest_runner`、`paddleocr_client`、`ernie_client`、`reporting` 等模块,形成较清晰的职责边界。 + - 补充 `contract`、`finance`、`invoice`、`research_paper` 四类 domain adapter 的 YAML 配置,为后续跨领域迁移保留统一接口。 + - 同步补齐测试骨架,覆盖 dataset manifest、router、prompt、pipeline、reporting、scoring 等核心模块,保证后续迭代有基本回归保护。 + +2. 搭建 PaddleOCR 远程解析 + ERNIE 4.5 的文档理解链路 + + - 形成从 `PDF/Image -> PaddleOCR layout parsing -> OCR evidence -> ERNIE reasoning -> Markdown/JSON export` 的完整流程,相关说明已整理在仓库 [README](https://github.com/PrayerQX/paddleocr-ernie-pyfi/blob/main/README.md)。 + - 在 CLI 中提供 `dataset-info`、`dataset-download`、`parse`、`analyze`、`ask`、`manifest`、`run-manifest`、`score-manifest`、`export-architecture` 等命令,方便后续实验复现。 + - 增加 `QuestionRouter` 与 `OCRPresetResolver`,让不同题型和能力项可以自动选择 `light`、`medium`、`heavy` 等 OCR 策略。 + - 对图表类问题增加 chart consistency 校验逻辑,要求模型比对 OCR 重建表格和原图趋势,降低图表 OCR 失真后直接下结论的风险,架构说明已整理在 [docs/architecture.md](https://github.com/PrayerQX/paddleocr-ernie-pyfi/blob/main/docs/architecture.md)。 + +3. 围绕 PyFi 金融数据集搭建 benchmark 与评测流程 + + - 接入 `PyFi-600K` 数据集,支持只查看 metadata、按 selection 下载核心文件,以及基于公开 CSV 构建本地 manifest。 + - 增加按 `capability` 分层采样的 301 样本 manifest 方案,并固定 seed,尽量保证多轮实验具备可比性和可复现性。 + - 在 manifest runner 中实现逐样本状态记录和 resume 机制,避免长跑实验中断后整轮重跑。 + - 默认关闭 web search,强调 benchmark 评测只基于数据集证据和 OCR 证据,避免引入额外检索噪声,整体流程已经沉淀到项目仓库 [paddleocr-ernie-pyfi](https://github.com/PrayerQX/paddleocr-ernie-pyfi)。 + +4. 完成两轮 `pyfi301` 实验并整理 benchmark 结果总结 + + - 使用相同的 `ernie-4.5-21b-a3b` 模型,对两套 PaddleOCR 配置分别完成 301 样本实验,并在 [README](https://github.com/PrayerQX/paddleocr-ernie-pyfi/blob/main/README.md) 与 [docs/two_round_results_summary.md](https://github.com/PrayerQX/paddleocr-ernie-pyfi/blob/main/docs/two_round_results_summary.md) 中沉淀结果。 + - 第一轮采用较轻的 `layout-parsing + medium` 配置,得到 `163/295` 正确,准确率 `0.552542`。 + - 第二轮采用更重的 `baidu_sample` 配置,得到 `157/300` 正确,准确率 `0.523333`,虽然缺失预测从 `6` 降到 `1`,但整体精度下降。 + - 初步结论是更重的 OCR 配置提升了覆盖率,但在 `Calculation_analysis` 和 `Data_extraction` 上反而退步,说明更完整的 OCR 输出不一定等价于更高质量的数值证据。 + +5. 梳理当前链路的核心问题,并输出后续优化方向 + + - 从现有文档总结看,当前最主要的问题仍然是视觉信息在 OCR 文本化过程中丢失,尤其体现在颜色、图例、空间位置、多子图关系等强视觉题目中。 + - 除了 OCR 失真外,也已经观察到一部分样本属于“证据已经够,但 ERNIE 仍然判断错误”,说明问题不只在 OCR,也在推理与输出约束层。 + - 在 `docs/architecture.md` 中进一步明确模块边界、证据流和可复现要求,避免后续项目扩展时重复耦合实现。 + - 结合两轮实验结果,当前更适合先把第一轮配置作为基线,再继续做 OCR 参数、提示词和视觉证据保留策略的定向优化。 + +### 下周工作 + +1. 重点对当前 `pyfi301` 样本集做人工检查,逐条核对题目、标准答案、OCR 证据和模型输出之间是否一致,优先确认样本集本身的准确程度和可评测性。 + +2. 在人工检查的基础上,筛出最值得突破的单个模块,优先选择最有希望通过工程优化拿到榜单最优成绩的能力项,集中投入优化。 + +3. 围绕选定模块继续做定向优化,重点验证 OCR preset、prompt 约束、证据组织方式和输出格式约束是否能够稳定拉升该模块成绩。 + +4. 对优化后的方案进行小规模反复复测,确认提升不是偶然结果,并尽量把该模块的分数推进到当前榜单最优。 + +5. 持续补充实验记录和文档,把人工核查结论、优化思路和最终结果同步回 GitHub 仓库,保证后续复现和展示都更完整。 + +### 导师点评 + +请联系导师填写。 From e8808859efb4dad7ba3ad37405759301b5e2763c Mon Sep 17 00:00:00 2001 From: PrayerQX <144803297+PrayerQX@users.noreply.github.com> Date: Sun, 26 Apr 2026 02:04:33 +0800 Subject: [PATCH 2/2] Revise project title and work details in report Updated project description and work summary in the weekly report. --- .../PrayerQX/[WeeklyReport]2026.04.13~2026.04.26.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.13~2026.04.26.md b/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.13~2026.04.26.md index 02ce2c66..22d81b97 100644 --- a/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.13~2026.04.26.md +++ b/WeeklyReports/Hackathon_10th/PrayerQX/[WeeklyReport]2026.04.13~2026.04.26.md @@ -4,7 +4,7 @@ PrayerQX ### 实习项目 -基于 PaddleOCR + ERNIE 4.5 的金融文档理解与可复现实验流水线 +基于 PaddleOCR + ERNIE 4.5 的金融图像理解项目 ### 本周工作