Skip to content

PPO损失中新老模型prob值对比,为什么用的是reference模型的probs? #1

@loganzhang1

Description

@loganzhang1

感谢作者简洁清晰的代码,我看代码发现计算PPO损失的时候,需要用新模型的prob/老模型的prob,我理解这个老模型应该是上一个步骤的actor模型吧?但是,我见代码中old_probs用的是reference模型的probs。这个地方是写错了吗?
https://github.com/OctopusMind/RLHF_PPO/blob/main/ppo.py#L68C42-L68C50

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions