Skip to content

[asr/long-input] 诊断并修复长语音丢内容 #484

@Cooper-X-Oak

Description

@Cooper-X-Oak

This was generated by AI during triage.

Parent

#478

Triage

  • Category: bug
  • State: ready-for-agent
  • Requested state label: ready-for-agent
  • Requested repository labels (not applied by this run due label permissions): bug

What to build

诊断并修复长语音输入后半段丢失或被省略号替代的问题。必须先确定丢内容发生在录音、ASR、分段合并、LLM polish、token 限制、history 存储,还是 UI 展示层,再做单点修复。

Acceptance criteria

  • 构造一条可重复的长输入验证样本:固定长音频、固定 mock ASR result,或固定长 transcript。
  • 记录并对比 raw audio/session metadata、raw ASR result、polish input、polish output、history stored text、UI displayed text。
  • 明确标出 expected 与 actual 首次发生分歧的层。
  • 如果是 LLM polish 截断,修复 token/max output/prompt 分段策略,并添加回归测试。
  • 如果是 ASR 或分段收尾丢失,修复流式收尾/merge 逻辑,并添加回归测试。
  • 修复不能靠叠加多个 speculative fixes;每个改动必须对应已定位的分歧层。

Blocked by

None - can start immediately.

Evidence

#353: Reporter 反馈长语音经常出现后半部分缺失,有时出现“......”省略号;使用 model 为 gemini + qwen 量化版;附带结果截图。

Expected / Actual

Expected: 长语音的原始内容在 ASR、polish 和最终展示中保持完整;如果因为长度限制必须截断,应显式提示,而不是静默丢失。

Actual: 长语音后半段缺失或被省略号替代,用户需要二次修改。

Validation gate

  • 新增或复用一条长输入回归测试,能在无真实麦克风情况下验证分层输入/输出完整性。
  • 运行:cargo test --manifest-path src-tauri/Cargo.toml --lib
  • 运行:npm run build
  • 如修复涉及真实 ASR,补充一条人工或脚本化 Windows/macOS 长语音验证记录。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions