Skip to content

CollinKe05/PaperNexus

Repository files navigation

PaperNexus

An interactive reader based on large language models (LLM) can automatically parse and reconstruct PDF papers and convert them into an interactive dynamic graph with parameters and formulas bound to each other.


📄 PaperNexus - 非线性学术阅读与公式可视化引擎

“将扁平的论文,重构成有呼吸的知识图谱。”

💡 项目背景与痛点 (The Problem)

在阅读含有大量数学公式的学术论文时,研究者(尤其是人工智能、物理、自动化等领域)常面临以下痛点:

  1. 线性排布的桎梏:人类的思考和公式的内在逻辑是发散的、网状的,但 PDF 论文受限于纸张媒介,只能以线性呈现。
  2. 认知负荷过载:读者需要在一边阅读公式的同时,一边在大脑中维持一个庞大的“符号映射表”,记忆力极易枯竭。
  3. 高昂的上下文切换成本:在“公式计算逻辑”与“正文文字解释”之间频繁切换,导致思路严重打断。

PaperNexus 旨在解决这些问题。它是一个基于大语言模型 (LLM) 的交互式阅读器,能将 PDF 论文自动解析、重构,并转化为一个可交互的、参数与公式相互绑定的动态图谱


✨ 核心功能与交互设计 (Core Features & UX)

整个软件的 UI 分为三大联动模块:参数表边栏公式拓扑区文档/详情视窗

1. 动态参数表边栏 (Dynamic Parameter Sidebar)

不再需要满篇找变量定义,所有符号一目了然。

  • 全景视图:提取全局参数符号并列表呈现。

  • 多维属性展示

  • 数学形式:标量、整数、归一化小数、向量、矩阵等。

  • 物理含义与记忆点:用人话解释符号代表什么,并提供直观的记忆锚点。

  • 单位与来源:标明物理单位,以及它是计算得出、推断得出还是模拟预设的。

  • 系统角色:定义其在模型中的位置(决策变量、目标变量、超参数、过程变量、自变量)。

  • 反向追踪:列出该符号在哪些公式中直接出现,点击即可平滑滚动或跳转至对应公式页面。

2. 公式拓扑区 (Formula Graph Area)

将孤立的公式串联成数据流动的有向图。

  • 宏观有向图:以节点和连线的形式展现公式之间的依赖关系(例如:公式 A 的输出是公式 B 的输入)。
  • 卡片式呈现:每个公式节点下方直接附带其“物理含义”和“记忆点”,不看推导也能懂结论。
  • 无缝下钻:点击任意一个公式节点,右侧或弹窗自动打开该公式的微观详情页面

3. 公式微观详情页 (Micro-Formula Detail View)

对单一公式进行“庖丁解牛”式的拆解。

  • 引线标注 (Line-out Explanations):公式中的每一个参数都会引出一条线,连接到一个详细的解释框。

  • 逻辑块分割 (Chunking):识别公式中的小组件(如被加号、乘号分割的独立模块)。

  • 双向高亮联动:在详情页点击任何一个参数,左侧的“参数表边栏”会自动滚动并高亮该参数,形成视觉锚点。

4. 变量联系区 (Variable Connection Area)

  • 探索不同变量之间的深层关联。当你选中两个看似无关的变量时,系统会在有向图上高亮出连接它们的最短逻辑路径。

🛠️ 技术实现架构建议 (Technical Architecture)

要实现上述构想,可以将系统分为三个核心层。利用熟悉的 Python 生态可以快速搭建起后端的骨架。

第一层:文档解析与预处理层 (Data Ingestion)

  • PDF 解析:使用 PyMuPDFMarker 精准提取文本块和公式边界框。
  • 公式 OCR:接入 Mathpix API 或开源的 Nougat / Pix2Text,将截图高精度转化为 LaTeX 代码。

第二层:LLM 语义架构层 (Semantic Processing - Backend)

  • 技术栈:Python + FastAPI + LangChain/LlamaIndex
  • 核心逻辑:将提取出的纯文本和 LaTeX 喂给大模型(如 Gemini 1.5 Pro 或 GPT-4o)。
  • Prompt 工程:设计高度结构化的 Prompt,强制要求模型输出符合特定 JSON Schema 的数据。输出数据必须包含:实体属性字典(符号、意义、类型)、逻辑分块树、以及公式间的拓扑关系图数据。

第三层:前端可视化与交互层 (Frontend & Visualization)

  • 技术栈:Vue 3 或 React
  • PDF 渲染PDF.js 用于展示原文视窗。
  • 图谱渲染:使用 React FlowD3.jsG6 来绘制高交互性的公式有向图和引线标注。
  • 数学公式渲染:使用 KaTeXMathJax 解析并展示公式,同时需要对渲染后的 HTML 元素进行深度定制,以便绑定点击和悬停事件(Hover Tooltips)。

🚀 为什么这个项目有价值?(Value Proposition)

  1. 改变学术阅读范式:从“被动接受文本”转变为“主动探索系统”,让跨学科学习者能迅速抓住核心逻辑。
  2. 极佳的教育工具:对于刚接触复杂模型的学生来说,这种“连连看”式的拆解能瞬间消除对长公式的恐惧。
  3. 构建个人知识库:处理过的论文可以沉淀为结构化的本地数据库,未来可以跨论文进行参数和逻辑的检索。

🤝 贡献

目前项目仍在调试阶段,识别不够精准,如果您有技术建议和合作想法,欢迎提交 Issue 或 Pull Request。

About

An interactive reader based on large language models (LLM) can automatically parse and reconstruct PDF papers and convert them into an interactive dynamic graph with parameters and formulas bound to each other.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors