Add original loading of LXMERT (Resolve #6)

e-bug · e-bug · commit 9e5202141920 · 2021-06-19T01:33:41.000+02:00
diff --git a/MODELS.md b/MODELS.md
@@ -18,6 +18,11 @@ For the latter, we distribute the weights that lead to higher average downstream
 | [VisualBERT (CTRL)](https://sid.erda.dk/share_redirect/GCBlzUuoJl) | 69.03 | 70.02    | 72.70 | 61.48        | 75.20        |
 | [UNITER (CTRL)](https://sid.erda.dk/share_redirect/FeYIWpMSFg)     | 68.67 | 71.45    | 73.73 | 60.54        | 76.40        |
 
+### Conversions of Original Models into VOLTA
+| Model             | Source |
+|-------------------|--------|
+| [LXMERT (Original)](https://sid.erda.dk/share_redirect/cFGANaAtmN) | [airsplay/lxmert](https://nlp.cs.unc.edu/data/github_pretrain/lxmert20/Epoch20_LXRT.pth) |
+
 
 ## Models Definition
 
diff --git a/config/original_lxmert.json b/config/original_lxmert.json
@@ -0,0 +1,52 @@
+{
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "max_position_embeddings": 512,
+  "num_attention_heads": 12,
+  "pooler_size": 768,
+  "type_vocab_size": 2,
+  "vocab_size": 30522,
+  "bert_model": "bert-base-uncased",
+  "do_lower_case": true,
+  "num_locs": 4,
+  "image_embeddings": "lxmert",
+  "v_attention_probs_dropout_prob": 0.1,
+  "v_hidden_act": "gelu",
+  "v_hidden_dropout_prob": 0.1,
+  "v_feature_size": 2048,
+  "visual_target_weights":  {"3": 6.667, "4": 6.667, "5": 6.667},
+  "qa_task_weight": 1,
+  "qa_num_answers": 9500,
+  "v_hidden_size": 768,
+  "v_initializer_range": 0.02,
+  "v_num_attention_heads": 12,
+  "v_intermediate_size": 3072,
+  "fusion_method": "text",
+  "clf_hidden_size": 1536,
+  "tt_attn_sublayers": [0,2,4,6,8,10,12,14,16,19,22,25,28,31],
+  "tv_attn_sublayers": [18,21,24,27,30],
+  "vt_attn_sublayers": [18,21,24,27,30],
+  "vv_attn_sublayers": [0,2,4,6,8,19,22,25,28,31],
+  "t_ff_sublayers": [1,3,5,7,9,11,13,15,17,20,23,26,29,32],
+  "v_ff_sublayers": [1,3,5,7,9,20,23,26,29,32],
+  "shared_sublayers": [18,21,24,27,30],
+  "single_ln_sublayers": [],
+  "sublayer2attn_hidden_size": {},
+  "sublayer2num_attention_heads": {},
+  "sublayer2intermediate_size": {},
+  "sublayer2v_attn_hidden_size": {},
+  "sublayer2v_num_attention_heads": {},
+  "sublayer2v_intermediate_size": {},
+  "bert_layer2attn_sublayer": {
+    "0": 0, "1": 2, "2": 4, "3": 6, "4": 8, "5": 10,
+    "6": 12, "7": 14, "8": 16, "9": 19, "10": 22, "11": 25
+  },
+  "bert_layer2ff_sublayer": {
+    "0": 1, "1": 3, "2": 5, "3": 7, "4": 9, "5": 11,
+    "6": 13, "7": 15, "8": 17, "9": 20, "10": 23, "11": 26
+  }
+}
diff --git a/conversions/convert_lxmert.py b/conversions/convert_lxmert.py
@@ -0,0 +1,115 @@
+import os
+import sys
+import argparse
+sys.path.append("../")
+
+import torch
+from volta.config import BertConfig
+from volta.encoders import BertForVLPreTraining
+
+
+# Inputs
+parser = argparse.ArgumentParser()
+parser.add_argument("--input_fn", type=str, default="Epoch20_LXRT.pth")
+parser.add_argument("--output_fn", type=str, default="lxmert_checkpoint_19.bin")
+parser.add_argument("--verbose", action="store_true", default=False)
+args = parser.parse_args()
+
+# Load original checkpoint
+original_ckpt = torch.load(args.input_fn, map_location="cpu")
+
+# Create corresponding VOLTA model
+config_file = "../config/original_lxmert.json"
+config = BertConfig.from_json_file(config_file)
+model = BertForVLPreTraining.from_pretrained("bert-base-uncased", config=config, default_gpu=True, from_hf=True)
+trg_dict = model.state_dict()
+
+# Map original parameters onto VOLTA ones
+first_xlayer = config.tv_attn_sublayers[0]
+volta2original = dict()
+for k in original_ckpt.keys():
+    ln = k.replace('module.', '')
+    ln = ln.replace("encoder.visn_fc", "v_embeddings")
+    ln = ln.replace("visn_fc", "image_embeddings")
+    ln = ln.replace("visn_layer_norm", "ImgLayerNorm")
+    ln = ln.replace("box_fc", "image_location_embeddings")
+    ln = ln.replace("box_layer_norm", "LocLayerNorm")
+    
+    ln = ln.replace('attention.self', 'attention_self')
+    ln = ln.replace('attention.output', 'attention_output')
+    if '.layer.' in ln:
+        num = int(ln.split(".")[3])
+        new = 2*num + ('.intermediate.' in ln or '.output.' in ln)
+        ln = ln.replace(f".{num}.", f".{new}.")
+    elif "r_layers" in ln:
+        num = int(ln.split(".")[3])
+        new = 2*num + ('.intermediate.' in ln or '.output.' in ln)
+        ln = ln.replace(f"r_layers.{num}.", f"layer.{new}.")
+        ln = ln.replace('.query.', '.v_query.')
+        ln = ln.replace('.key.', '.v_key.')
+        ln = ln.replace('.value.', '.v_value.')
+        ln = ln.replace("dense", "v_dense")
+        ln = ln.replace('.LayerNorm.', '.v_LayerNorm.')
+    elif "x_layers" in ln:
+        num = int(ln.split(".")[3])
+        new = 3*num + first_xlayer
+        if '.visual_attention.' in ln:
+            ln = ln.replace(f"x_layers.{num}.visual_attention.att", f"layer.{new}.attention_self")
+            lnv = ln.replace('.query.', '.v_query.')
+            lnv = lnv.replace('.key.', '.v_key.')
+            lnv = lnv.replace('.value.', '.v_value.')
+            volta2original[lnv] = k
+        elif '.visual_attention_output.' in ln:
+            ln = ln.replace(f"x_layers.{num}.visual_attention_output", f"layer.{new}.attention_output")
+            lnv = ln.replace('.dense.', '.v_dense.')
+            lnv = lnv.replace('.LayerNorm.', '.v_LayerNorm.')
+            volta2original[lnv] = k
+        elif '.lang_self_att.' in ln:
+            new += 1
+            ln = ln.replace(f"x_layers.{num}.lang_self_att.self", f"layer.{new}.attention_self")
+            ln = ln.replace(f"x_layers.{num}.lang_self_att.output", f"layer.{new}.attention_output")
+        elif '.visn_self_att' in ln:
+            new += 1
+            ln = ln.replace(f"x_layers.{num}.visn_self_att.self", f"layer.{new}.attention_self")
+            ln = ln.replace(f"x_layers.{num}.visn_self_att.output", f"layer.{new}.attention_output")
+            ln = ln.replace('.query.', '.v_query.')
+            ln = ln.replace('.key.', '.v_key.')
+            ln = ln.replace('.value.', '.v_value.')
+            ln = ln.replace('.dense.', '.v_dense.')
+            ln = ln.replace('.LayerNorm.', '.v_LayerNorm.')
+        elif '.lang_inter.' in ln:
+            new += 2
+            ln = ln.replace(f"x_layers.{num}.lang_inter.", f"layer.{new}.intermediate.")
+        elif '.visn_inter.' in ln:
+            new += 2
+            ln = ln.replace(f"x_layers.{num}.visn_inter.", f"layer.{new}.intermediate.")
+            ln = ln.replace('.dense.', '.v_dense.')
+        elif '.lang_output.' in ln:
+            new += 2
+            ln = ln.replace(f"x_layers.{num}.lang_output.", f"layer.{new}.output.")
+        elif '.visn_output.' in ln:
+            new += 2
+            ln = ln.replace(f"x_layers.{num}.visn_output.", f"layer.{new}.output.")
+            ln = ln.replace('.LayerNorm.', '.v_LayerNorm.')
+            ln = ln.replace('.dense.', '.v_dense.')
+    
+    ln = ln.replace("seq_relationship", "bi_seq_relationship")
+    ln = ln.replace("pooler", "t_pooler")
+    ln = ln.replace("answer_head", "cls.qaPredictions")
+    ln = ln.replace("obj_predict_head", "cls.imagePredictions")
+    ln = ln.replace("decoder_dict.obj", "decoder_dict.3")
+    ln = ln.replace("decoder_dict.attr", "decoder_dict.4")
+    ln = ln.replace("decoder_dict.feat", "decoder_dict.5")
+
+    volta2original[ln] = k
+    
+# Apply mapping
+for trg, src in volta2original.items():
+    if args.verbose:
+        print(trg, '<-', src)
+    assert trg_dict[trg].shape == original_ckpt[src].shape
+    trg_dict[trg] = original_ckpt[src]
+model.load_state_dict(trg_dict)
+
+# Save checkpoint of VOLTA model
+torch.save(model.state_dict(), args.output_fn)
diff --git a/volta/encoders.py b/volta/encoders.py
@@ -738,14 +738,14 @@ def forward(self, hidden_states):
 
 
 class LxmertAnswerHead(nn.Module):
-    def __init__(self, config, num_answers):
+    def __init__(self, config):
         super().__init__()
         hid_dim = config.v_hidden_size
         self.logit_fc = nn.Sequential(
             nn.Linear(hid_dim, hid_dim * 2),
             GeLU(),
             BertLayerNorm(hid_dim * 2, eps=1e-12),
-            nn.Linear(hid_dim * 2, num_answers)
+            nn.Linear(hid_dim * 2, config.qa_num_answers)
         )
 
     def forward(self, hidden_states):