本地部署中的总结(utils.py 两处)
修复 位置 内容
1 extract_json 第 119 行只处理了 ,] 和 ,} 两种尾逗号,但 qwen2.5:7B(小模型) 输出的是更复杂的非法 JSON(比如中间嵌套的尾逗号)。修复:用正则彻底清除所有尾逗号:
extract_json 第 112 行 re.sub(r',\s*([}]])', r'\1', json_content) 提前到首次解析前
2 get_page_tokens 里对每一页都调用 litellm.token_counter(远程 API),有 X 页就要调 X 次,大文件性能灾难,这才是超时根因。
本地部署中的总结(utils.py 两处)
修复 位置 内容
1 extract_json 第 119 行只处理了 ,] 和 ,} 两种尾逗号,但 qwen2.5:7B(小模型) 输出的是更复杂的非法 JSON(比如中间嵌套的尾逗号)。修复:用正则彻底清除所有尾逗号:
extract_json 第 112 行 re.sub(r',\s*([}]])', r'\1', json_content) 提前到首次解析前
2 get_page_tokens 里对每一页都调用 litellm.token_counter(远程 API),有 X 页就要调 X 次,大文件性能灾难,这才是超时根因。
get_page_tokens 第 385 行 litellm.token_counter → tiktoken 本地计算
feat: add litellm.count_tokens() public API + OpenAI token counting support BerriAI/litellm#22302