Skip to content

关于 llama_cpp PR #22836. 支持的模型 #312

@birtal

Description

@birtal

你好,我想本地使用 Hy-MT1.5-1.8B 模型 量化的 GGUF 版本。
对比 Hy-MT1.5-1.8B-1.25bit-GGUF 和 Hy-MT1.5-1.8B-2bit-GGUF 模型后,发现 Hy-MT1.5-1.8B-2bit-GGUF 的 翻译比较准确,再按照官方文档
https://angelslim.readthedocs.io/zh-cn/latest/models/Hy-MT1.5/hy-mt1.5.html
用Python语言写了模型加载脚本,但一直不行,试了几种AI工具后得到的答案是:

核心问题:PR #22836 只支持 STQ_0 (1.25-bit) 量化,不支持 SEQ (2-bit) 量化!
我们的模型 Hy-MT1.5-1.8B-2bit-GGUF 使用的是 SEQ (Stretched Elastic Quantization) 2-bit 量化,将权重映射到 {-1.5, -0.5, 0.5, 1.5} 。
但 PR #22836 实现的是 STQ_0 (1.25-bit) 量化,这是完全不同的格式。
解决方案:

  1. 使用 1.25-bit 模型( Hy-MT1.5-1.8B-1.25bit-GGUF ),它使用 STQ_0 量化,PR #22836 支持
  2. 或者等待/实现 SEQ 2-bit 量化支持

现在 2bit-GGUF 模型 还不支持 SEQ 2-bit 量化 吗? 本地有没有办法使用 Hy-MT1.5-1.8B-2bit-GGUF 翻译模型的 demo ?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions