目前 decoding 阶段的计算浪费是和什么有关? 是不是`kBlockM` 这个值决定的? 在 Flash decoding 阶段,我看到的`kBlockM = 64`,所以计算的浪费是`63/64`,是这样吗? 好奇为什么不把这个值设置为 16 呢?这样依然可以利用 Tensor Core,而且浪费的算力还少很多。 感谢!
目前 decoding 阶段的计算浪费是和什么有关?
是不是
kBlockM这个值决定的?在 Flash decoding 阶段,我看到的
kBlockM = 64,所以计算的浪费是63/64,是这样吗?好奇为什么不把这个值设置为 16 呢?这样依然可以利用 Tensor Core,而且浪费的算力还少很多。
感谢!