illuin-tech · ethanlee928 · Feb 4, 2026 · Feb 4, 2026 · Feb 4, 2026 · Feb 4, 2026
diff --git a/colpali_engine/collators/visual_retriever_collator.py b/colpali_engine/collators/visual_retriever_collator.py
@@ -39,12 +39,11 @@ def __init__(
 
         # If processor is one of the supported types, extract the <image> token id.
         if isinstance(self.processor, (ColPaliProcessor,)):
-            image_token = "<image>"
-            try:
-                idx = self.processor.tokenizer.additional_special_tokens.index(image_token)
-                self.image_token_id = self.processor.tokenizer.additional_special_tokens_ids[idx]
-            except ValueError:
-                self.image_token_id = None
+            if hasattr(self.processor, "image_token_id"):
+                self.image_token_id = self.processor.image_token_id
+            else:
+                image_token = "<image>"
+                self.image_token_id = self.processor.tokenizer.convert_tokens_to_ids(image_token)
 
         # Force padding to be on the right for ColPaliProcessor.
         if isinstance(self.processor, ColPaliProcessor) and self.processor.tokenizer.padding_side != "right":

diff --git a/colpali_engine/models/gemma3/bigemma3/processing_bigemma.py b/colpali_engine/models/gemma3/bigemma3/processing_bigemma.py
@@ -20,12 +20,8 @@ class BiGemmaProcessor3(BaseVisualRetrieverProcessor, Gemma3Processor):  # noqa:
 
     query_augmentation_token: ClassVar[str] = "<eos>"
 
-    def __init__(
-        self,
-        *args,
-        **kwargs,
-    ):
-        super().__init__(*args, **kwargs)
+    def __init__(self, image_processor=None, tokenizer=None, **kwargs):
+        super().__init__(image_processor=image_processor, tokenizer=tokenizer, **kwargs)
         self.tokenizer.padding_side = "left"
 
     @classmethod

diff --git a/colpali_engine/models/gemma3/colgemma3/processing_colgemma.py b/colpali_engine/models/gemma3/colgemma3/processing_colgemma.py
@@ -47,13 +47,8 @@ class ColGemmaProcessor3(BaseVisualRetrieverProcessor, Gemma3Processor):
 
     query_augmentation_token: ClassVar[str] = "<eos>"
 
-    def __init__(
-        self,
-        *args,
-        **kwargs,
-    ):
-        super().__init__(*args, **kwargs)
-        # Set padding side to left (important for decoder-only models)
+    def __init__(self, image_processor=None, tokenizer=None, **kwargs):
+        super().__init__(image_processor=image_processor, tokenizer=tokenizer, **kwargs)
         self.tokenizer.padding_side = "left"
 
     @classmethod

diff --git a/colpali_engine/models/idefics3/colidefics3/modeling_colidefics3.py b/colpali_engine/models/idefics3/colidefics3/modeling_colidefics3.py
@@ -20,6 +20,7 @@ def __init__(self, config, mask_non_image_embeddings: bool = False):
         self.linear = nn.Linear(self.model.config.text_config.hidden_size, self.dim)
         self.mask_non_image_embeddings = mask_non_image_embeddings
         self.main_input_name = "doc_input_ids"
+        self.post_init()
 
     def forward(self, *args, **kwargs):
         """

diff --git a/colpali_engine/models/idefics3/colidefics3/processing_colidefics3.py b/colpali_engine/models/idefics3/colidefics3/processing_colidefics3.py
@@ -24,8 +24,8 @@ class ColIdefics3Processor(
     image_token: ClassVar[str] = "<image>"
     visual_prompt_prefix: ClassVar[str] = "<|im_start|>User:<image>Describe the image.<end_of_utterance>\nAssistant:"
 
-    def __init__(self, *args, image_seq_len=64, **kwargs):
-        super().__init__(*args, image_seq_len=image_seq_len, **kwargs)
+    def __init__(self, image_processor=None, tokenizer=None, image_seq_len=64, **kwargs):
+        super().__init__(image_processor=image_processor, tokenizer=tokenizer, image_seq_len=image_seq_len, **kwargs)
         self.tokenizer.padding_side = "left"
 
     def process_images(

diff --git a/colpali_engine/models/modernvbert/colvbert/modeling_colmodernvbert.py b/colpali_engine/models/modernvbert/colvbert/modeling_colmodernvbert.py
@@ -26,6 +26,7 @@ def __init__(self, config, mask_non_image_embeddings: bool = False, **kwargs):
         self.custom_text_proj = nn.Linear(self.model.config.text_config.hidden_size, self.dim)
         self.mask_non_image_embeddings = mask_non_image_embeddings
         self.main_input_name = "doc_input_ids"
+        self.post_init()
 
     def forward(self, *args, **kwargs):
         """

diff --git a/colpali_engine/models/modernvbert/colvbert/processing_colmodernvbert.py b/colpali_engine/models/modernvbert/colvbert/processing_colmodernvbert.py
@@ -26,8 +26,8 @@ class ColModernVBertProcessor(
         "<|begin_of_text|>User:<image>Describe the image.<end_of_utterance>\nAssistant:"
     )
 
-    def __init__(self, *args, image_seq_len=64, **kwargs):
-        super().__init__(*args, image_seq_len=image_seq_len, **kwargs)
+    def __init__(self, image_processor=None, tokenizer=None, image_seq_len=64, **kwargs):
+        super().__init__(image_processor=image_processor, tokenizer=tokenizer, image_seq_len=image_seq_len, **kwargs)
         self.tokenizer.padding_side = "left"
 
     def process_images(

diff --git a/colpali_engine/models/paligemma/colpali/modeling_colpali.py b/colpali_engine/models/paligemma/colpali/modeling_colpali.py
@@ -38,11 +38,7 @@
     def __init__(self, config: PaliGemmaConfig, mask_non_image_embeddings: bool = False):
         super().__init__(config=config)
 
-        model = PaliGemmaForConditionalGeneration(config=config)
-        if model.language_model._tied_weights_keys is not None:
-            self._tied_weights_keys = [f"model.language_model.{k}" for k in model.language_model._tied_weights_keys]
-        self.model = model
-        self.model.lm_head = torch.nn.Identity()
+        self.model = PaliGemmaForConditionalGeneration(config=config)
 
         # TODO: Wait for ColPali2 to create a ColPaliConfig to allow specifying the embedding dimension.
         # We could do it now but it would break all the models trying to load the model from the checkpoint.
@@ -75,25 +71,25 @@
         return proj
 
     def get_input_embeddings(self):
-        return self.model.language_model.get_input_embeddings()
+        return self.model.model.language_model.get_input_embeddings()
 
     def set_input_embeddings(self, value):
-        self.model.language_model.set_input_embeddings(value)
+        self.model.model.language_model.set_input_embeddings(value)
 
     def get_output_embeddings(self):
-        return self.model.language_model.get_output_embeddings()
+        return self.model.model.language_model.get_output_embeddings()
 
     def set_output_embeddings(self, new_embeddings):
-        self.model.language_model.set_output_embeddings(new_embeddings)
+        self.model.model.language_model.set_output_embeddings(new_embeddings)
 
     def set_decoder(self, decoder):
-        self.model.language_model.set_decoder(decoder)
+        self.model.model.language_model.set_decoder(decoder)
 
     def get_decoder(self):
-        return self.model.language_model.get_decoder()
+        return self.model.model.language_model.get_decoder()
 
     def tie_weights(self):
-        return self.model.language_model.tie_weights()
+        return self.model.model.language_model.tie_weights()
 
     def resize_token_embeddings(
         self,
@@ -112,3 +108,6 @@
     @property
     def patch_size(self) -> int:
         return self.model.vision_tower.config.patch_size
+
+    def tie_weights(self, missing_keys=None, recompute_mapping=False):
+        pass
diff --git a/colpali_engine/models/paligemma/colpali/processing_colpali.py b/colpali_engine/models/paligemma/colpali/processing_colpali.py
@@ -14,9 +14,6 @@ class ColPaliProcessor(BaseVisualRetrieverProcessor, PaliGemmaProcessor):
 
     visual_prompt_prefix: ClassVar[str] = "<image><bos>Describe the image."
 
-    def __init__(self, *args, **kwargs):
-        super().__init__(*args, **kwargs)
-
     @property
     def query_augmentation_token(self) -> str:
         """

diff --git a/colpali_engine/models/qwen2/colqwen2/modeling_colqwen2.py b/colpali_engine/models/qwen2/colqwen2/modeling_colqwen2.py
@@ -21,7 +21,7 @@ class ColQwen2(Qwen2VLModel):
     def __init__(self, config: Qwen2VLConfig, mask_non_image_embeddings: bool = False):
         super().__init__(config=config)
         self.dim = 128
-        self.custom_text_proj = nn.Linear(self.config.hidden_size, self.dim)
+        self.custom_text_proj = nn.Linear(self.config.text_config.hidden_size, self.dim)
         self.padding_side = "left"
         self.mask_non_image_embeddings = mask_non_image_embeddings
         self.post_init()

diff --git a/colpali_engine/models/qwen2/colqwen2/processing_colqwen2.py b/colpali_engine/models/qwen2/colqwen2/processing_colqwen2.py
@@ -25,12 +25,8 @@ class ColQwen2Processor(BaseVisualRetrieverProcessor, Qwen2VLProcessor):
     query_augmentation_token: ClassVar[str] = "<|endoftext|>"
     image_token: ClassVar[str] = "<|image_pad|>"
 
-    def __init__(
-        self,
-        *args,
-        **kwargs,
-    ):
-        super().__init__(*args, **kwargs)
+    def __init__(self, image_processor=None, tokenizer=None, image_seq_len=64, **kwargs):
+        super().__init__(image_processor=image_processor, tokenizer=tokenizer, image_seq_len=image_seq_len, **kwargs)
         self.tokenizer.padding_side = "left"
 
     @classmethod

diff --git a/colpali_engine/models/qwen2_5/colqwen2_5/modeling_colqwen2_5.py b/colpali_engine/models/qwen2_5/colqwen2_5/modeling_colqwen2_5.py
@@ -22,7 +22,7 @@ class ColQwen2_5(Qwen2_5_VLModel):  # noqa: N801
     def __init__(self, config: Qwen2_5_VLConfig, mask_non_image_embeddings: bool = False):
         super().__init__(config=config)
         self.dim = 128
-        self.custom_text_proj = nn.Linear(self.config.hidden_size, self.dim)
+        self.custom_text_proj = nn.Linear(self.config.text_config.hidden_size, self.dim)
         self.padding_side = "left"
         self.mask_non_image_embeddings = mask_non_image_embeddings
         self.post_init()

diff --git a/colpali_engine/models/qwen2_5/colqwen2_5/processing_colqwen2_5.py b/colpali_engine/models/qwen2_5/colqwen2_5/processing_colqwen2_5.py
@@ -25,12 +25,8 @@ class ColQwen2_5_Processor(BaseVisualRetrieverProcessor, Qwen2VLProcessor):  # n
     query_augmentation_token: ClassVar[str] = "<|endoftext|>"
     image_token: ClassVar[str] = "<|image_pad|>"
 
-    def __init__(
-        self,
-        *args,
-        **kwargs,
-    ):
-        super().__init__(*args, **kwargs)
+    def __init__(self, image_processor=None, tokenizer=None, image_seq_len=64, **kwargs):
+        super().__init__(image_processor=image_processor, tokenizer=tokenizer, image_seq_len=image_seq_len, **kwargs)
         self.tokenizer.padding_side = "left"
 
     @classmethod

diff --git a/colpali_engine/models/qwen3/colqwen3/processing_colqwen3.py b/colpali_engine/models/qwen3/colqwen3/processing_colqwen3.py
@@ -25,12 +25,8 @@ class ColQwen3Processor(BaseVisualRetrieverProcessor, Qwen3VLProcessor):
     query_augmentation_token: ClassVar[str] = "<|endoftext|>"
     image_token: ClassVar[str] = "<|image_pad|>"
 
-    def __init__(
-        self,
-        *args,
-        **kwargs,
-    ):
-        super().__init__(*args, **kwargs)
+    def __init__(self, image_processor=None, tokenizer=None, image_seq_len=64, **kwargs):
+        super().__init__(image_processor=image_processor, tokenizer=tokenizer, image_seq_len=image_seq_len, **kwargs)
         self.tokenizer.padding_side = "left"
 
     @classmethod

diff --git a/pyproject.toml b/pyproject.toml
@@ -22,7 +22,7 @@ maintainers = [
     { name = "Tony Wu", email = "tony.wu@illuin.tech" },
 ]
 readme = "README.md"
-requires-python = ">=3.9"
+requires-python = ">=3.10"
 classifiers = [
     "Programming Language :: Python :: 3",
     "License :: OSI Approved :: MIT License",
@@ -34,13 +34,13 @@ classifiers = [
 
 dependencies = [
     "numpy",
-    "peft>=0.14.0,<0.18.0",
+    "peft>=0.18.0,<0.19.0",
     "pillow>=10.0.0",
     "requests",
     "scipy",
     "torch>=2.2.0,<2.10.0",
     "torchvision",
-    "transformers>=4.57.0,<4.58.0",
+    "transformers>=5.0.0,<5.1.0",
 ]
 
 [project.optional-dependencies]