fix input_message data type

Dylan Huang · Dylan Huang · commit 6f69941064b2 · 2025-08-29T12:54:32.000-07:00
diff --git a/eval_protocol/benchmarks/test_gpqa.py b/eval_protocol/benchmarks/test_gpqa.py
@@ -2,7 +2,6 @@
 import csv
 import io
 import re
-from typing import List
 
 import requests
 
@@ -20,12 +19,12 @@
 )
 
 
-def _load_gpqa_messages_from_csv() -> List[List[Message]]:
+def _load_gpqa_messages_from_csv() -> list[list[list[Message]]]:
     url = "https://openaipublic.blob.core.windows.net/simple-evals/gpqa_diamond.csv"
     resp = requests.get(url, timeout=60)
     resp.raise_for_status()
 
-    messages_list: List[List[Message]] = []
+    messages_list: list[list[Message]] = []
     reader = csv.DictReader(io.StringIO(resp.text))
     for ex in reader:
         q = str(ex.get("Question", ""))
@@ -45,7 +44,7 @@ def _load_gpqa_messages_from_csv() -> List[List[Message]]:
         )
     if not messages_list:
         raise RuntimeError("Failed to load GPQA messages: no rows found from source")
-    return messages_list
+    return [messages_list]
 
 
 def _extract_abcd_letter(text: str) -> str | None:
@@ -58,7 +57,7 @@ def _extract_abcd_letter(text: str) -> str | None:
 _GPQA_INPUT_MESSAGES = _load_gpqa_messages_from_csv()
 
 
-def _strip_gt_messages(msgs: List[Message]) -> List[Message]:
+def _strip_gt_messages(msgs: list[Message]) -> list[Message]:
     return [m for m in msgs if not (m.role == "system" and (m.content or "").startswith("__GT__:"))]
 
 
@@ -69,9 +68,9 @@ def __init__(self):
         super().__init__()
         self.single_turn_processor = SingleTurnRolloutProcessor()
 
-    def __call__(self, rows: List[EvaluationRow], config: RolloutProcessorConfig) -> List[asyncio.Task[EvaluationRow]]:
+    def __call__(self, rows: list[EvaluationRow], config: RolloutProcessorConfig) -> list[asyncio.Task[EvaluationRow]]:
         """Preprocess rows and delegate to SingleTurnRolloutProcessor."""
-        processed: List[EvaluationRow] = []
+        processed: list[EvaluationRow] = []
 
         for r in rows:
             gt_tokens = [
diff --git a/eval_protocol/benchmarks/test_livebench_data_analysis.py b/eval_protocol/benchmarks/test_livebench_data_analysis.py
@@ -409,7 +409,7 @@ def _extract_gt(row: EvaluationRow) -> Dict[str, Any]:
 
 @evaluation_test(
     completion_params=[{"model": "fireworks_ai/accounts/fireworks/models/gpt-oss-120b"}],
-    input_messages=[[m for m in r.messages] for r in _CTA_ROWS],
+    input_messages=[[[m for m in r.messages] for r in _CTA_ROWS]],
     rollout_processor_kwargs=[{"extra_body": {"reasoning_effort": "low"}}],
     rollout_processor=SingleTurnRolloutProcessor(),
     aggregation_method="mean",
@@ -451,7 +451,7 @@ def test_livebench_cta_pointwise(row: EvaluationRow) -> EvaluationRow:
 
 @evaluation_test(
     completion_params=[{"model": "fireworks_ai/accounts/fireworks/models/gpt-oss-120b"}],
-    input_messages=[[m for m in r.messages] for r in _TABLEJOIN_ROWS],
+    input_messages=[[[m for m in r.messages] for r in _TABLEJOIN_ROWS]],
     rollout_processor_kwargs=[{"extra_body": {"reasoning_effort": "low"}}],
     rollout_processor=LiveBenchGroundTruthRolloutProcessor(_TABLEJOIN_ROWS),
     aggregation_method="mean",
diff --git a/eval_protocol/pytest/evaluation_test.py b/eval_protocol/pytest/evaluation_test.py
@@ -62,7 +62,7 @@
 def evaluation_test(
     *,
     completion_params: Sequence[CompletionParams | None] | None = None,
-    input_messages: Sequence[InputMessagesParam | None] | None = None,
+    input_messages: Sequence[list[InputMessagesParam] | None] | None = None,
     input_dataset: Sequence[DatasetPathParam] | None = None,
     input_rows: Sequence[list[EvaluationRow]] | None = None,
     dataset_adapter: Callable[[list[dict[str, Any]]], Dataset] = default_dataset_adapter,  # pyright: ignore[reportExplicitAny]
@@ -232,7 +232,7 @@ def _log_eval_error(status: Status, rows: list[EvaluationRow] | None, passed: bo
                     elif "input_messages" in kwargs and kwargs["input_messages"] is not None:
                         # Support either a single row (List[Message]) or many rows (List[List[Message]])
                         im = kwargs["input_messages"]
-                        data = [EvaluationRow(messages=im)]
+                        data = [EvaluationRow(messages=dataset_messages) for dataset_messages in im]
                     elif "input_rows" in kwargs and kwargs["input_rows"] is not None:
                         # Use pre-constructed EvaluationRow objects directly
                         data = kwargs["input_rows"]
diff --git a/eval_protocol/pytest/generate_parameter_combinations.py b/eval_protocol/pytest/generate_parameter_combinations.py
@@ -18,7 +18,7 @@
 Either a single completion params object or None.
 """
 
-InputMessagesKwarg = InputMessagesParam | None
+InputMessagesKwarg = list[InputMessagesParam] | None
 InputRowsKwarg = Dataset | None
 EvaluationTestKwargs = EvaluationInputParam | None
 
@@ -47,7 +47,7 @@ class ParameterizedTestKwargs(TypedDict):
 def generate_parameter_combinations(
     input_dataset: Sequence[DatasetPathParam] | None,
     completion_params: Sequence[CompletionParams | None],
-    input_messages: Sequence[InputMessagesParam | None] | None,
+    input_messages: Sequence[list[InputMessagesParam] | None] | None,
     input_rows: Sequence[list[EvaluationRow] | None] | None,
     evaluation_test_kwargs: Sequence[EvaluationInputParam | None] | None,
     max_dataset_rows: int | None,
@@ -83,11 +83,15 @@ def generate_parameter_combinations(
     # Apply EP_MAX_DATASET_ROWS to input_messages, but do NOT parameterize over
     # each row. Instead, pass the entire sliced list through in a single test run
     # so summaries aggregate all rows together (AIME-style behavior).
-    messages: Sequence[InputMessagesParam | None] = [None]
+    messages: Sequence[list[InputMessagesParam] | None] = [None]
     if input_messages is not None:
         effective_max_rows = parse_ep_max_rows(max_dataset_rows)
         if effective_max_rows is not None:
-            sliced_messages: Sequence[InputMessagesParam | None] = input_messages[:effective_max_rows]
+            sliced_messages: Sequence[list[InputMessagesParam] | None] = [
+                dataset_messages[:effective_max_rows]
+                for dataset_messages in input_messages
+                if dataset_messages is not None
+            ]
         else:
             sliced_messages = input_messages
         # Wrap as a single parameter payload
diff --git a/eval_protocol/pytest/parameterize.py b/eval_protocol/pytest/parameterize.py
@@ -18,7 +18,7 @@ def pytest_parametrize(
     combinations: list[CombinationTuple],
     input_dataset: Sequence[DatasetPathParam] | None,
     completion_params: Sequence[CompletionParams | None] | None,
-    input_messages: Sequence[InputMessagesParam | None] | None,
+    input_messages: Sequence[list[InputMessagesParam] | None] | None,
     input_rows: Sequence[list[EvaluationRow]] | None,
     evaluation_test_kwargs: Sequence[EvaluationInputParam | None] | None,
 ) -> PytestParametrizeArgs:
diff --git a/eval_protocol/pytest/rollout_processor.py b/eval_protocol/pytest/rollout_processor.py
@@ -1,6 +1,5 @@
 import asyncio
 from abc import ABC, abstractmethod
-from typing import List
 
 from eval_protocol.models import EvaluationRow
 from eval_protocol.pytest.types import RolloutProcessorConfig
@@ -12,7 +11,7 @@ class RolloutProcessor(ABC):
     """
 
     @abstractmethod
-    def __call__(self, rows: List[EvaluationRow], config: RolloutProcessorConfig) -> List[asyncio.Task[EvaluationRow]]:
+    def __call__(self, rows: list[EvaluationRow], config: RolloutProcessorConfig) -> list[asyncio.Task[EvaluationRow]]:
         """Process evaluation rows and return async tasks. Must be implemented by subclasses."""
         pass
 
diff --git a/examples/healthbench/tests/test_evaluation.py b/examples/healthbench/tests/test_evaluation.py
@@ -1,6 +1,3 @@
-import json
-from typing import Dict, List
-
 from eval_protocol.models import EvaluateResult, EvaluationRow, Message, MetricResult
 from eval_protocol.pytest.default_single_turn_rollout_process import (
     SingleTurnRolloutProcessor,
@@ -34,13 +31,15 @@
     },
 ]
 
-_HB_INPUT_MESSAGES: List[List[Message]] = []
-_HB_RUBRICS_MAP: Dict[str, List[Dict]] = {}
+_HB_INPUT_MESSAGES: list[list[list[Message]]] = []
+_HB_RUBRICS_MAP: dict[str, list[dict]] = {}
 for s in _HB_SAMPLES:
     _HB_INPUT_MESSAGES.append(
         [
-            Message(role="system", content=SYSTEM_PROMPT),
-            Message(role="user", content=s["prompt_text"]),
+            [
+                Message(role="system", content=SYSTEM_PROMPT),
+                Message(role="user", content=s["prompt_text"]),
+            ]
         ]
     )
     _HB_RUBRICS_MAP[s["prompt_text"]] = s["rubrics"]
diff --git a/tests/chinook/test_pydantic_chinook.py b/tests/chinook/test_pydantic_chinook.py
@@ -21,7 +21,7 @@
 
 @pytest.mark.asyncio
 @evaluation_test(
-    input_messages=[[Message(role="user", content="What is the total number of tracks in the database?")]],
+    input_messages=[[[Message(role="user", content="What is the total number of tracks in the database?")]]],
     completion_params=[
         {
             "model": {
diff --git a/tests/pytest/test_get_metadata.py b/tests/pytest/test_get_metadata.py
@@ -7,11 +7,13 @@
 @evaluation_test(
     input_messages=[
         [
-            Message(role="user", content="What is the capital of France?"),
-        ],
-        [
-            Message(role="user", content="What is the capital of the moon?"),
-        ],
+            [
+                Message(role="user", content="What is the capital of France?"),
+            ],
+            [
+                Message(role="user", content="What is the capital of the moon?"),
+            ],
+        ]
     ],
     completion_params=[{"model": "accounts/fireworks/models/kimi-k2-instruct"}] * 2,
     mode="groupwise",
diff --git a/tests/pytest/test_pydantic_agent.py b/tests/pytest/test_pydantic_agent.py
@@ -11,7 +11,7 @@
 
 @pytest.mark.asyncio
 @evaluation_test(
-    input_messages=[[Message(role="user", content="Hello, how are you?")]],
+    input_messages=[[[Message(role="user", content="Hello, how are you?")]]],
     completion_params=[
         {"model": "accounts/fireworks/models/gpt-oss-120b", "provider": "fireworks"},
     ],
diff --git a/tests/pytest/test_pydantic_multi_agent.py b/tests/pytest/test_pydantic_multi_agent.py
@@ -47,7 +47,7 @@ async def joke_factory(ctx: RunContext[None], count: int) -> list[str]:  # pyrig
 
 @pytest.mark.asyncio
 @evaluation_test(
-    input_messages=[[Message(role="user", content="Tell me a joke.")]],
+    input_messages=[[[Message(role="user", content="Tell me a joke.")]]],
     completion_params=[
         {
             "model": {
diff --git a/tests/pytest/test_pytest_async.py b/tests/pytest/test_pytest_async.py
@@ -7,11 +7,13 @@
 @evaluation_test(
     input_messages=[
         [
-            Message(role="user", content="What is the capital of France?"),
-        ],
-        [
-            Message(role="user", content="What is the capital of the moon?"),
-        ],
+            [
+                Message(role="user", content="What is the capital of France?"),
+            ],
+            [
+                Message(role="user", content="What is the capital of the moon?"),
+            ],
+        ]
     ],
     completion_params=[{"model": "accounts/fireworks/models/kimi-k2-instruct"}],
     mode="all",
diff --git a/tests/pytest/test_pytest_default_agent_rollout_processor.py b/tests/pytest/test_pytest_default_agent_rollout_processor.py
@@ -8,12 +8,14 @@
 @evaluation_test(
     input_messages=[
         [
-            Message(
-                role="user",
-                content="Can you give a summary of the past week in the 'general, model-requests, bug-reports, questions, and feature-requests' channels. For EVERY message or thread has not been resolved, please list them at the end of your response in a table. Be sure to include the exact message, severity, and current status so far. Current Date & Time: {current_date_time}".format(
-                    current_date_time=datetime.now().strftime("%B %d, %Y at %I:%M %p")
-                ),
-            )
+            [
+                Message(
+                    role="user",
+                    content="Can you give a summary of the past week in the 'general, model-requests, bug-reports, questions, and feature-requests' channels. For EVERY message or thread has not been resolved, please list them at the end of your response in a table. Be sure to include the exact message, severity, and current status so far. Current Date & Time: {current_date_time}".format(
+                        current_date_time=datetime.now().strftime("%B %d, %Y at %I:%M %p")
+                    ),
+                )
+            ]
         ]
     ],
     rollout_processor=AgentRolloutProcessor(),
diff --git a/tests/pytest/test_pytest_flaky_sometimes.py b/tests/pytest/test_pytest_flaky_sometimes.py
@@ -11,7 +11,7 @@
 # skip in CI since it will intentionally fail. This is useful for local generation of logs
 @pytest.mark.skipif(os.getenv("CI") == "true", reason="Skipping flaky test in CI")
 @evaluation_test(
-    input_messages=[[Message(role="user", content="Return HEADS or TAILS at random.")]],
+    input_messages=[[[Message(role="user", content="Return HEADS or TAILS at random.")]]],
     completion_params=[{"model": "dummy/local-model"}],
     rollout_processor=NoOpRolloutProcessor(),
     mode="pointwise",
diff --git a/tests/pytest/test_pytest_groupwise.py b/tests/pytest/test_pytest_groupwise.py
@@ -7,7 +7,9 @@
 @evaluation_test(
     input_messages=[
         [
-            Message(role="user", content="What is the capital of France?"),
+            [
+                Message(role="user", content="What is the capital of France?"),
+            ]
         ]
     ],
     completion_params=[
diff --git a/tests/pytest/test_pytest_input_messages.py b/tests/pytest/test_pytest_input_messages.py
@@ -7,7 +7,9 @@
 @evaluation_test(
     input_messages=[
         [
-            Message(role="user", content="What is the capital of France?"),
+            [
+                Message(role="user", content="What is the capital of France?"),
+            ]
         ]
     ],
     completion_params=[{"model": "fireworks_ai/accounts/fireworks/models/gpt-oss-120b"}],
diff --git a/tests/pytest/test_pytest_mcp_config.py b/tests/pytest/test_pytest_mcp_config.py
@@ -8,15 +8,17 @@
 @evaluation_test(
     input_messages=[
         [
-            Message(
-                role="user",
-                content=(
-                    "Can you give me a summary of every channel. "
-                    "You can list servers and channels using the "
-                    "list_servers and get_channels tools. And you can "
-                    "read messages using the read_messages tool."
-                ),
-            )
+            [
+                Message(
+                    role="user",
+                    content=(
+                        "Can you give me a summary of every channel. "
+                        "You can list servers and channels using the "
+                        "list_servers and get_channels tools. And you can "
+                        "read messages using the read_messages tool."
+                    ),
+                )
+            ]
         ]
     ],
     rollout_processor=AgentRolloutProcessor(),
@@ -77,7 +79,7 @@ def read(self, row_id: str | None = None) -> list[EvaluationRow]:
     logger = TrackingLogger(rollouts)
 
     @evaluation_test(
-        input_messages=input_messages,
+        input_messages=[input_messages],
         completion_params=completion_params_list,
         rollout_processor=AgentRolloutProcessor(),
         mode="pointwise",
diff --git a/tests/pytest/test_pytest_mcp_url.py b/tests/pytest/test_pytest_mcp_url.py
@@ -5,17 +5,19 @@
 @evaluation_test(
     input_messages=[
         [
-            Message(
-                role="system",
-                content=(
-                    "You are a helpful assistant that can answer questions about Fireworks.\n"
-                    "ALWAYS provide code or commands to execute to answer the question."
+            [
+                Message(
+                    role="system",
+                    content=(
+                        "You are a helpful assistant that can answer questions about Fireworks.\n"
+                        "ALWAYS provide code or commands to execute to answer the question."
+                    ),
                 ),
-            ),
-            Message(
-                role="user",
-                content=("Can you teach me about how to manage deployments on Fireworks"),
-            ),
+                Message(
+                    role="user",
+                    content=("Can you teach me about how to manage deployments on Fireworks"),
+                ),
+            ]
         ]
     ],
     rollout_processor=AgentRolloutProcessor(),
diff --git a/tests/pytest/test_pytest_propagate_error.py b/tests/pytest/test_pytest_propagate_error.py
@@ -47,7 +47,7 @@ async def test_pytest_propagate_error():
     logger = TrackingLogger(rollouts)
 
     @evaluation_test(
-        input_messages=input_messages,
+        input_messages=[input_messages],
         completion_params=completion_params_list,
         rollout_processor=AgentRolloutProcessor(),
         mode="pointwise",
diff --git a/tests/test_retry_mechanism.py b/tests/test_retry_mechanism.py

Original file line number	Diff line number	Diff line change
`@@ -21,7 +21,7 @@`
`21`	`21`
`22`	`22`	`@pytest.mark.asyncio`
`23`	`23`	`@evaluation_test(`
`24`		`- input_messages=[[Message(role="user", content="What is the total number of tracks in the database?")]],`
	`24`	`+ input_messages=[[[Message(role="user", content="What is the total number of tracks in the database?")]]],`
`25`	`25`	`completion_params=[`
`26`	`26`	`{`
`27`	`27`	`"model": {`