rename as its causing issues in pytest collection

Dylan Huang · Dylan Huang · commit 87c3dcb590f8 · 2025-08-10T14:42:24.000-07:00
diff --git a/examples/aime2025_chat_completion/tests/test_aime2025.py b/examples/aime2025_chat_completion/tests/test_aime2025.py
@@ -1,18 +1,15 @@
-from typing import Any, Dict, List
 import os
+from typing import Any, Dict, List
 
 from eval_protocol.models import EvaluateResult, EvaluationRow, Message, MetricResult
 from eval_protocol.pytest.default_single_turn_rollout_process import (
     default_single_turn_rollout_processor,
 )
 from eval_protocol.pytest.evaluation_test import evaluation_test
-
 from examples.aime2025_chat_completion.main import _extract_boxed_text, _normalize_to_int_or_none
 
-
 SYSTEM_PROMPT = (
-    "You are a helpful math assistant. Please reason step by step, and put your "
-    "final answer within \\boxed{...}."
+    "You are a helpful math assistant. Please reason step by step, and put your " "final answer within \\boxed{...}."
 )
 
 """
@@ -36,8 +33,6 @@ def _ep_int(var_name: str, default_value: int | None) -> int | None:
         return default_value
 
 
-
-
 def aime2025_dataset_adapter(rows: List[Dict[str, Any]]) -> List[EvaluationRow]:
     """
     Convert raw AIME2025 rows (with keys 'question' and 'answer') to EvaluationRow.
@@ -94,9 +89,7 @@ def test_aime2025_pointwise(row: EvaluationRow) -> EvaluationRow:
             reason=(
                 "Parsed both integers and they matched"
                 if score == 1.0
-                else (
-                    "Parsed integers did not match" if is_valid else "Failed to parse integer"
-                )
+                else ("Parsed integers did not match" if is_valid else "Failed to parse integer")
             ),
             data={
                 "extracted_text": extracted_text,
@@ -113,5 +106,3 @@ def test_aime2025_pointwise(row: EvaluationRow) -> EvaluationRow:
         metrics=metrics,
     )
     return row
-
-
diff --git a/examples/gpqa/tests/test_gpqa.py b/examples/gpqa/tests/test_gpqa.py
@@ -1,16 +1,15 @@
-from typing import List
-
 import csv
 import io
 import re
+from typing import List
+
 import requests
 
 from eval_protocol.models import EvaluateResult, EvaluationRow, Message, MetricResult
-from eval_protocol.pytest.evaluation_test import evaluation_test
 from eval_protocol.pytest.default_single_turn_rollout_process import (
     default_single_turn_rollout_processor,
 )
-
+from eval_protocol.pytest.evaluation_test import evaluation_test
 
 SYSTEM_PROMPT = (
     "You are a helpful assistant. Read the question and options carefully. "
@@ -65,7 +64,9 @@ def _load_gpqa_messages_from_csv() -> List[List[Message]]:
 @evaluation_test(
     model=["fireworks_ai/accounts/fireworks/models/gpt-oss-120b"],
     input_messages=_GPQA_INPUT_MESSAGES,
-    rollout_input_params=[{"extra_body": {"reasoning_effort": "low"}}], # default to low effort; override via CLI plugin
+    rollout_input_params=[
+        {"extra_body": {"reasoning_effort": "low"}}
+    ],  # default to low effort; override via CLI plugin
     rollout_processor=default_single_turn_rollout_processor,
     aggregation_method="mean",
     threshold_of_success=None,
@@ -98,5 +99,3 @@ def test_gpqa_pointwise(row: EvaluationRow) -> EvaluationRow:
         },
     )
     return row
-
-