Skip to content

论文实现问题 #17

@ohmydroid

Description

@ohmydroid

如果我没理解错的话,CycleMLP 等价于分组shift+ channel shuffle +mlp

mlp对前一层的通道有全局依赖,所以channel shuffle是没有必要的,所以cyclemlp 不需要cycle

直接实现为 分组shift+mlp速度会更快,与原来的cyclemlp的差异可以用初始化的方式对齐。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions