YLMSR_SFT

2nd experiment of the paper "DPO: Your Language Model is Secretly a Reward Model"

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
README.md		README.md

Provide feedback