ModelCloud · Qubitium · Apr 28, 2026 · Apr 28, 2026
diff --git a/tests/test_gptqmodel_engine.py b/tests/test_gptqmodel_engine.py
@@ -547,7 +547,9 @@ def test_gptqmodel_engine_can_generate_and_score_on_cuda() -> None:
     assert math.isfinite(scores[0].logprob)
     assert session.input_device.type == "cuda"
     execution = session.describe_execution()
-    assert execution["generation_backend"] == "continuous_batching"
+    # Some transformers versions can fail paged continuous batching at runtime
+    # and transparently fall back to standard generate().
+    assert execution["generation_backend"] in {"continuous_batching", "generate"}
     assert execution["effective_attn_implementation"] == "paged|flash_attention_2"
     assert execution["paged_attention"] is True
     assert execution["quant_method"] == "gptq"