Skip to content

MiniCPM-o 4.5 技术报告细节疑问。 #1093

@Mryangkaitong

Description

@Mryangkaitong

你好,MiniCPM-o 4.5非常赞的工作 !!!

在看其技术报告数据部分4.2 Vision-Language Data中,说有一部分是Text-only Data,请问:

(1)这部分纯文本数据全是sft吗?总的量级大概是多大呢?主要占比都是些什么样的分布,比如是偏数学?代码吗?

(2)纯文本数据占最后整个训练数据比例大概是多少?有做过一些大概纯文本占比多少就比较能保持原始模型智商的实验吗?

期待官方大大的解惑~~

Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions