因为没有这么大显存的GPU,我试图通过梯度累积的方式复现,但是担心出现一些问题。如果能提供训练的log,我就能在训练早期判断我的代码是否正确。
因为没有这么大显存的GPU,我试图通过梯度累积的方式复现,但是担心出现一些问题。如果能提供训练的log,我就能在训练早期判断我的代码是否正确。