日本語特化LLMのための日本語コーパスクリーニング
現状はCommonCrawlからのクリーニング、WARC形式から。
- lang=japanese以外になっているものをフィルター
- trafulaturaの用いて抽出(warc形式からtrafilaturaを用いるのが、品質面での重要なポイント)
- 厳密な日本語フィルタリング
- 文字のなさ
- 繰り返し表現削除
- ヘッダー、フッター * MLベース
- ブラックリスト(リンク)
- Minhash:高速化したい
- Exact
| Name | Name | Last commit date | ||
|---|---|---|---|---|
日本語特化LLMのための日本語コーパスクリーニング
現状はCommonCrawlからのクリーニング、WARC形式から。