HIERARCHICAL TRANSFORMERS FOR LONG DOCUMENT CLASSIFICATION 这篇文章除了frequency model,average model,lstm model ,还有后面一个transformer model(TOBERT)。 请问这个如何实现,能否补充下,感谢!
HIERARCHICAL TRANSFORMERS FOR LONG DOCUMENT CLASSIFICATION 这篇文章除了frequency model,average model,lstm model ,还有后面一个transformer model(TOBERT)。
请问这个如何实现,能否补充下,感谢!