Skip to content

关于预训练数据的来源 #11

@wiserxin

Description

@wiserxin

预训练数据集数据似乎远多于发布的论文元数据集。
在训练模型时为了去重,我简单校验了两个数据,似乎是不重叠的?
方便简要说明下预训练数据的来源和内容吗

  • 预训练的数据集
    • csl.jsonl
    • 2310165 line
  • 论文元数据
    • csl_camera_readly.tsv
    • 396209 line

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions