information_extraction

信息抽取

基本知识：

crf与hmm之间的关系：https://zhuanlan.zhihu.com/p/70067113 两者之间的不同（生成式、判别式）
bilstm + crf中crf层的理解：https://zhuanlan.zhihu.com/p/44042528 如何学习句子中的约束关系、损失函数以及解码过程（维特比算法）
中文NER任务实验小结报告：https://zhuanlan.zhihu.com/p/103779616 从非bert类到bert类方法代码地址：https://github.com/qiufengyuyi/sequence_tagging
- 总结：1）一般是基于字的训练标注如何加入词的信息例如可以直接将词的embedding加在字的embedding上还有就是像lattice lstm 2）mrc（机器阅读理解）框架下的实体识别首先对每种标签构造query当作先验知识最后以构造的query以及原始文本作为阅读理解任务

2019语言与智能技术竞赛--信息抽取（三元组）
- baseline方案：实体识别 =》实体关系预测
- 基于概率图方案：先预测subject 再同时预测object和predicate 具体参考：https://spaces.ac.cn/archives/6671
  - 总结：字词的混合embedding、半指针-半标注结构、conv1d结构（多通道传输）、远程监督
2020语言与智能技术竞赛--事件抽取（事件类型、事件角色、论元）
- 官方baseline:Pipelined的方法即基于序列标注方法先进行事件检测(ed) 然后进行论元的识别来完成事件抽取
- 建模成普通的序列标注具体参考：https://kexue.fm/archives/7321
  - 注：建模方式优雅
- 两段式事件类型=》基于mrc的事件角色预测具体参考：https://zhuanlan.zhihu.com/p/141237763
  - 注：将标签作为作为外部信息加入以及基于mrc框架
- 两段式相对1）第二阶段考虑只识别事件对应的论元

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md