fix tests

Benny Chen · Benny Chen · commit 065adbdeb49e · 2025-08-31T20:50:55.000+08:00
diff --git a/eval_protocol/rewards/code_execution.py b/eval_protocol/rewards/code_execution.py
@@ -1098,7 +1098,15 @@ def fractional_code_reward(
             },
         )
 
-    code_blocks = extract_code_blocks(response_content, language)
+    # Normalize content to string; Message.content may be str or list of content parts
+    _last_content = response_content
+    response_content_str = (
+        _last_content
+        if isinstance(_last_content, str)
+        else "".join([getattr(p, "text", "") for p in (_last_content or [])])
+    )
+
+    code_blocks = extract_code_blocks(response_content_str, language)
 
     if not code_blocks:
         return EvaluateResult(
@@ -1617,7 +1625,7 @@ class Capturing(list):
     def __enter__(self):
         self._stdout = sys.stdout
         sys.stdout = self._stringio = StringIO()
-        self._stringio.close = lambda x: None
+        self._stringio.close = lambda: None
         return self
 
     def __exit__(self, *args):
diff --git a/eval_protocol/rewards/deepcoder_reward.py b/eval_protocol/rewards/deepcoder_reward.py
@@ -73,7 +73,12 @@ def deepcoder_code_reward(
             is_score_valid=False,
         )
 
-    assistant_content = messages[-1].content
+    assistant_content_raw = messages[-1].content
+    assistant_content = (
+        assistant_content_raw
+        if isinstance(assistant_content_raw, str)
+        else "".join([getattr(p, "text", "") for p in (assistant_content_raw or [])])
+    )
     test_cases = ground_truth
 
     code_blocks = extract_code_blocks(assistant_content, language)
diff --git a/eval_protocol/rewards/list_comparison_math_reward.py b/eval_protocol/rewards/list_comparison_math_reward.py
@@ -127,7 +127,12 @@ def list_comparison_math_reward(
             },
         )
 
-    gen_content = messages[-1].content
+    gen_content_raw = messages[-1].content
+    gen_content = (
+        gen_content_raw
+        if isinstance(gen_content_raw, str)
+        else "".join([getattr(p, "text", "") for p in (gen_content_raw or [])])
+    )
     orig_content = ground_truth
 
     if not gen_content:
diff --git a/eval_protocol/rewards/multiple_choice_math_reward.py b/eval_protocol/rewards/multiple_choice_math_reward.py
@@ -134,7 +134,12 @@ def multiple_choice_math_reward(
     if messages and len(messages) > 0:
         gen_response_message = messages[-1]
         if gen_response_message.role == "assistant":
-            gen_content = gen_response_message.content or ""
+            raw_gen_content = gen_response_message.content
+            gen_content = (
+                raw_gen_content
+                if isinstance(raw_gen_content, str)
+                else "".join([getattr(p, "text", "") for p in (raw_gen_content or [])])
+            )
 
     if not gen_content:
         metrics["error_generated_message"] = MetricResult(
@@ -152,7 +157,12 @@ def multiple_choice_math_reward(
     if ground_truth and len(ground_truth) > 0:
         orig_response_message = ground_truth[0]
         if orig_response_message.role == "assistant":
-            orig_content = orig_response_message.content or ""
+            raw_orig_content = orig_response_message.content
+            orig_content = (
+                raw_orig_content
+                if isinstance(raw_orig_content, str)
+                else "".join([getattr(p, "text", "") for p in (raw_orig_content or [])])
+            )
 
     if not orig_content:
         metrics["error_original_message"] = MetricResult(
diff --git a/eval_protocol/typed_interface.py b/eval_protocol/typed_interface.py
@@ -81,9 +81,9 @@ def decorator(func: F) -> F:
         has_var_keyword = any(param.kind == inspect.Parameter.VAR_KEYWORD for param in params.values())
 
         if not has_var_keyword:
-            # Return a wrapper that preserves the original signature, but adds **kwargs dynamically
-            # instead of raising at decoration time.
-            pass
+            raise ValueError(
+                f"Function '{func.__name__}' must accept **kwargs parameter. Please add '**kwargs' to the function signature."
+            )
 
         # Setup resources once when the decorator is applied
         resource_managers = {}