PyTorchを使用してGPTモデルをスクラッチで実装
- GPT-124M相当のモデル実装(768次元、12ヘッド、12レイヤー)
- Multi-Head Attention、Layer Normalization、Feed Forward等の詳細実装
ref: https://arxiv.org/abs/1706.03762
| Name | Name | Last commit date | ||
|---|---|---|---|---|
PyTorchを使用してGPTモデルをスクラッチで実装
ref: https://arxiv.org/abs/1706.03762