Vit-CoMer+Co-Dert中的Vit-CoMer有所不一样，能知道原因吗

您好，我发现Vit-CoMer+Co-Dert中的Vit-CoMer并没有使用MRFP，而是使用了MultiConvFFN，请问这是什么原因呢
在原Vit-CoMer中，Vit-CoMer是基于TIMMVisionTransformer模型，而Vit-CoMer+Co-Dert中的Vit-CoMer是基于BEiT，这两者也有所不同。请问这两种Vit-CoMer的区别是什么，另外结合Co-Dert做出更改的Vit-CoMer进行修改的原因是什么呢，这样的好处是什么，为什么没有用原Vit-CoMer呢
期待您的回复