RNA4219 · RNA4219 · Nov 2, 2025 · Nov 2, 2025
@@ -68,8 +68,21 @@ python - <<'PY' "${NORMALIZED_PATH}" "${INPUTS_PATH}" "${EXPECTED_PATH}" "${TASK
 from __future__ import annotations
 
 import json
+import os
 import sys
 from pathlib import Path
+from typing import Any
+
+
+def _load_metadata(task_type: str) -> dict[str, Any]:
+    metadata_override = os.environ.get("EVAL_SMOKE_METADATA_JSON")
+    if metadata_override:
+        parsed_metadata: dict[str, Any] = json.loads(metadata_override)
+        if not isinstance(parsed_metadata, dict):  # pragma: no cover - defensive
+            raise ValueError("EVAL_SMOKE_METADATA_JSON must be a JSON object")
+        parsed_metadata.setdefault("task_type", task_type)
+        return parsed_metadata
+    return {"task_type": task_type}
 
 
 def main() -> None:
@@ -80,7 +93,7 @@ def main() -> None:
 
     normalized_text = normalized_path.read_text(encoding="utf-8")
 
-    metadata = {"task_type": task_type}
+    metadata = _load_metadata(task_type)
     inputs_record = {
         "id": "smoke",
         "metadata": metadata,

@@ -236,8 +236,21 @@ def test_eval_smoke_pipeline_invokes_stubs(
     )
     inputs_payload = json.loads(inputs_payload_line.split("=", 1)[1])
     expected_payload = json.loads(expected_payload_line.split("=", 1)[1])
-    assert inputs_payload == [{"id": "smoke", "output": normalized_text}]
-    assert expected_payload == [{"id": "smoke", "expected": normalized_text}]
+    expected_metadata = {"task_type": "smoke"}
+    assert inputs_payload == [
+        {
+            "id": "smoke",
+            "metadata": expected_metadata,
+            "output": normalized_text,
+        }
+    ]
+    assert expected_payload == [
+        {
+            "expected": normalized_text,
+            "id": "smoke",
+            "metadata": expected_metadata,
+        }
+    ]
 
     inputs_path = Path(inputs_line.split("=", 1)[1])
     expected_path = Path(expected_line.split("=", 1)[1])
@@ -254,8 +267,20 @@ def test_eval_smoke_pipeline_invokes_stubs(
         for line in expected_path.read_text(encoding="utf-8").splitlines()
         if line.strip()
     ]
-    assert inputs_records == [{"id": "smoke", "output": normalized_text}]
-    assert expected_records == [{"id": "smoke", "expected": normalized_text}]
+    assert inputs_records == [
+        {
+            "id": "smoke",
+            "metadata": expected_metadata,
+            "output": normalized_text,
+        }
+    ]
+    assert expected_records == [
+        {
+            "expected": normalized_text,
+            "id": "smoke",
+            "metadata": expected_metadata,
+        }
+    ]
 
     shutil.rmtree(inputs_path.parent, ignore_errors=True)
     assert "bert_score" in lines