关于 llama_cpp PR #22836. 支持的模型

你好，我想本地使用 Hy-MT1.5-1.8B 模型 量化的 GGUF 版本。
对比 Hy-MT1.5-1.8B-1.25bit-GGUF 和 Hy-MT1.5-1.8B-2bit-GGUF 模型后，发现 Hy-MT1.5-1.8B-2bit-GGUF 的 翻译比较准确，再按照官方文档
https://angelslim.readthedocs.io/zh-cn/latest/models/Hy-MT1.5/hy-mt1.5.html
用Python语言写了模型加载脚本，但一直不行，试了几种AI工具后得到的答案是：

核心问题：PR #22836 只支持 STQ_0 (1.25-bit) 量化，不支持 SEQ (2-bit) 量化！
我们的模型 Hy-MT1.5-1.8B-2bit-GGUF 使用的是 SEQ (Stretched Elastic Quantization) 2-bit 量化，将权重映射到 {-1.5, -0.5, 0.5, 1.5} 。
但 PR #22836 实现的是 STQ_0 (1.25-bit) 量化，这是完全不同的格式。
解决方案：
1. 使用 1.25-bit 模型（ Hy-MT1.5-1.8B-1.25bit-GGUF ），它使用 STQ_0 量化，PR #22836 支持
2. 或者等待/实现 SEQ 2-bit 量化支持

现在 2bit-GGUF 模型 还不支持 SEQ 2-bit 量化 吗？ 本地有没有办法使用  Hy-MT1.5-1.8B-2bit-GGUF 翻译模型的 demo ？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于 llama_cpp PR #22836. 支持的模型 #312

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

关于 llama_cpp PR #22836. 支持的模型 #312

Description

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions