已完成

通过阅读论文Attention is all you need，复现Transformer模型。

已完成

待完成

增加模型多GPU运行代码
数据修改word形式为sub-word形式
增加tensorboard可视化（pytorch 1.1.0）
增加tensorboardX可视化
增加label smooth

运行环境

pytorch 1.1.0（可使用tensorboard）
python 3.7.0
visdom 0.1.8.8
GTX 1080Ti & GTX TITAN X

使用方法

直接运行方式

在config.py文件中修改模型的各个参数；
运行all.py文件

命令行方式
运行模型的训练&验证程序train_val.py，需要在train_val.py文件中修改各类参数；
模型训练完成后，自动保存最佳模型检查点，之后运行infer.py，修改其中的各类参数，就可得到最后的输入结果。

注意：以上两种方式程序运行时间较久，需保持机器正常运行和耐心等待！

参考

该复现的Tranformer模型主要是参考论文 Attention is all you need
代码主要参考了该博主完整的transformer代码 jadore801120
代码参考了该博主的transformer结构代码 luozhouyang

可视化

base model（d_model=512， d_ff=2048，h=8, P_dropout=0.1, batch_size=128, epoch time≈00:01:40）

big model（d_model=1024， d_ff=4096，h=16，P_dropout=0.3, batch_size=32, epoch time≈00:03:24）

结果测评

Transformer | BLEU | METEOR
base model | 38.7/32.46 | 35.4
big model | 23.98/25.96 | 27.7
说明：每个模型都有两个BLEU值，是因为前者采用在线网站进行测评BLEU值（默认参数未知），后者采用NLTK包测评，采用默认参数。

附件

base model的模型最佳保存点

https://pan.baidu.com/s/1dM1Ukcva5t3Eb6VRV5ZOCQ hv0a

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.idea		.idea
base & big model		base & big model
data		data
pictures		pictures
results		results
transformer		transformer
.gitattributes		.gitattributes
Readme.md		Readme.md
all.py		all.py
config.py		config.py
infer.py		infer.py
train_val.py		train_val.py
visual.py		visual.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

已完成

待完成

运行环境

使用方法

直接运行方式

命令行方式

注意：以上两种方式程序运行时间较久，需保持机器正常运行和耐心等待！

参考

可视化

base model（d_model=512， d_ff=2048，h=8, P_dropout=0.1, batch_size=128, epoch time≈00:01:40）

big model（d_model=1024， d_ff=4096，h=16，P_dropout=0.3, batch_size=32, epoch time≈00:03:24）

结果测评

附件

base model的模型最佳保存点

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

已完成

待完成

运行环境

使用方法

直接运行方式

命令行方式

注意：以上两种方式程序运行时间较久，需保持机器正常运行和耐心等待！

参考

可视化

base model（d_model=512， d_ff=2048，h=8, P_dropout=0.1, batch_size=128, epoch time≈00:01:40）

big model（d_model=1024， d_ff=4096，h=16，P_dropout=0.3, batch_size=32, epoch time≈00:03:24）

结果测评

附件

base model的模型最佳保存点

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages