cleanup

xzrderek · xzrderek · commit 28932e456963 · 2025-08-10T07:29:22.000Z
diff --git a/eval_protocol/mcp/client/connection.py b/eval_protocol/mcp/client/connection.py
@@ -195,10 +195,6 @@ async def get_initial_state(self, session: MCPSession) -> Any:
         Returns:
             Initial observation/state
         """
-        method_start = time.time()
-        session_id_short = session.session_id[:8] if len(session.session_id) > 8 else session.session_id
-        logger.info(f"### 🌟 GET_INITIAL_STATE_START: timestamp: {method_start}, session_id: {session_id_short}...")
-
         if not session._mcp_session:
             raise RuntimeError("Session not initialized")
 
@@ -207,105 +203,53 @@ async def get_initial_state(self, session: MCPSession) -> Any:
 
         try:
             # Extract base URL and session ID from the MCP session
-            url_extract_start = time.time()
-            logger.info(
-                f"### 🔍 URL_EXTRACT_START: timestamp: {url_extract_start}, elapsed: {url_extract_start - method_start:.6f}s, session_id: {session_id_short}..."
-            )
-
             base_url = session.base_url.rstrip("/").removesuffix("/mcp")
             session_id = session.session_id
 
-            url_extract_end = time.time()
-            logger.info(
-                f"### 🔍 URL_EXTRACT_END: timestamp: {url_extract_end}, elapsed: {url_extract_end - method_start:.6f}s, duration: {url_extract_end - url_extract_start:.6f}s, base_url: {base_url}, session_id: {session_id_short}..."
-            )
-
             if session_id:
-                headers_start = time.time()
-                logger.info(
-                    f"### 🔍 HEADERS_CREATE_START: timestamp: {headers_start}, elapsed: {headers_start - method_start:.6f}s, session_id: {session_id_short}..."
-                )
-
                 headers = {"mcp-session-id": session_id}
 
-                headers_end = time.time()
-                logger.info(
-                    f"### 🔍 HEADERS_CREATE_END: timestamp: {headers_end}, elapsed: {headers_end - method_start:.6f}s, duration: {headers_end - headers_start:.6f}s, session_id: {session_id_short}..."
-                )
-
                 # Query initial state endpoint
                 try:
-                    timeout_start = time.time()
-                    logger.info(
-                        f"### 🔍 TIMEOUT_CONFIG_START: timestamp: {timeout_start}, elapsed: {timeout_start - method_start:.6f}s, session_id: {session_id_short}..."
-                    )
-
                     # Use shorter timeout for playback mode, longer timeout for high-concurrency initialization
                     # (50+ concurrent sessions need more time for initial state setup)
                     timeout = 3.0 if hasattr(session, "_is_playback_mode") and session._is_playback_mode else 15.0
 
-                    timeout_end = time.time()
-                    logger.info(
-                        f"### 🔍 TIMEOUT_CONFIG_END: timestamp: {timeout_end}, elapsed: {timeout_end - method_start:.6f}s, duration: {timeout_end - timeout_start:.6f}s, timeout: {timeout}s, session_id: {session_id_short}..."
-                    )
-
-                    # TIMING: Get shared client
-                    # client = await self._get_shared_client(timeout)
-
-                    # TIMING: HTTP request with shared client
-                    request_start = time.time()
-                    logger.info(
-                        f"### 🌐 HTTP_REQUEST_START: timestamp: {request_start}, elapsed: {request_start - method_start:.6f}s, url: {base_url}/control/initial_state, session_id: {session_id_short}..."
-                    )
-
-                    timeout = 3.0 if hasattr(session, "_is_playback_mode") and session._is_playback_mode else 15.0
-
                     async with httpx.AsyncClient(timeout=timeout) as client:
                         initial_state_response = await client.get(
                             f"{base_url}/control/initial_state",
                             headers=headers,
                             timeout=timeout,
                         )
-                        request_time = time.time() - request_start
-
-                        request_end = time.time()
-                        logger.info(
-                            f"### 🌐 HTTP_REQUEST_END: timestamp: {request_end}, elapsed: {request_end - method_start:.6f}s, duration: {request_time:.6f}s, status_code: {initial_state_response.status_code}, session_id: {session_id_short}..."
-                        )
 
                         if initial_state_response.status_code == 200:
                             initial_observation = initial_state_response.json()
-                            success_end = time.time()
                             logger.info(
-                                f"### ✅ RETURN: timestamp: {success_end}, total_duration: {success_end - method_start:.6f}s, session_id: {session_id_short}..."
+                                f"Session {session.session_id}: ✅ Successfully fetched session-aware initial state from control plane endpoint"
                             )
-                            # return initial_observation
                         else:
-                            error_time = time.time()
                             logger.warning(
-                                f"### ⚠️ HTTP_ERROR_RESPONSE: timestamp: {error_time}, elapsed: {error_time - method_start:.6f}s, status_code: {initial_state_response.status_code}, session_id: {session_id_short}"
+                                f"Control plane initial state endpoint returned {initial_state_response.status_code}"
                             )
                 except httpx.TimeoutException:
-                    timeout_error_time = time.time()
-                    logger.warning(
-                        f"### ⏰ HTTP_TIMEOUT: timestamp: {timeout_error_time}, elapsed: {timeout_error_time - method_start:.6f}s, timeout: {timeout}s, session_id: {session_id_short}"
-                    )
+                    logger.warning(f"Control plane initial state endpoint timed out after {timeout}s")
                 except Exception as e:
-                    http_error_time = time.time()
-                    logger.warning(
-                        f"### ❌ HTTP_ERROR: timestamp: {http_error_time}, elapsed: {http_error_time - method_start:.6f}s, error: {str(e)}, session_id: {session_id_short}"
-                    )
-
+                    logger.warning(f"Failed to query control plane initial state endpoint: {e}")
         except Exception as e:
-            general_error_time = time.time()
-            logger.warning(
-                f"### ❌ GENERAL_ERROR: timestamp: {general_error_time}, elapsed: {general_error_time - method_start:.6f}s, error: {str(e)}, session_id: {session_id_short}"
-            )
-
-        method_end = time.time()
-        logger.info(
-            f"### 🔴 GET_INITIAL_STATE_END: timestamp: {method_end}, total_duration: {method_end - method_start:.6f}s, session_id: {session_id_short}..."
-        )
+            logger.warning(f"Failed to query control plane initial state endpoint: {e}")
+
+        # Fallback to MCP resource if control plane endpoint fails (backward compatibility)
+        if initial_observation is None:
+            logger.debug(f"Session {session.session_id}: Falling back to MCP resource for initial state")
+            initial_observation = await self._get_initial_state_from_mcp_resource(session)
+
+        # Ensure we have some observation
+        if initial_observation is None:
+            logger.debug(f"Session {session.session_id}: Using default initial state")
+            initial_observation = {
+                "observation": "default_initial_state",
+                "session_id": session.session_id,
+            }
 
         return initial_observation
 
diff --git a/eval_protocol/mcp/execution/manager.py b/eval_protocol/mcp/execution/manager.py
@@ -207,9 +207,6 @@ async def _execute_rollout(
         """
         session = envs.sessions[rollout_idx]
         dataset_row = envs.dataset_rows[rollout_idx]
-        rollout_start = time.time()
-        elapsed_from_main_start = rollout_start - start_time
-        logger.info(f"DEBUG4. Starting rollout {dataset_row.id} at {rollout_start}")
 
         # Initialize trajectory
         trajectory = Trajectory(
diff --git a/eval_protocol/mcp/execution/policy.py b/eval_protocol/mcp/execution/policy.py
@@ -19,7 +19,6 @@
 from .base_policy import LLMBasePolicy
 
 logger = logging.getLogger(__name__)
-litellm._turn_on_debug()
 
 
 class LiteLLMPolicy(LLMBasePolicy):
diff --git a/eval_protocol/mcp/mcpgym.py b/eval_protocol/mcp/mcpgym.py
@@ -107,9 +107,6 @@ def __init__(
             host="0.0.0.0",
             port=int(os.environ.get("PORT", 8000)),
         )
-        # Store host and port for later use in run() method
-        self.host = "0.0.0.0"
-        self.port = int(os.environ.get("PORT", 8000))
 
         # Multi-session support
         self.sessions = {}  # session_id -> {"env": env, "obs": obs, "session_data": data}
@@ -497,11 +494,10 @@ async def get_initial_state_endpoint(self, session_data: Dict[str, Any]) -> Dict
                 }
         else:
             # Fallback if session data is not available
-            result = {
+            return {
                 "observation": "session_not_initialized",
                 "session_id": session_data.get("session_id", "unknown"),
             }
-            return result
 
     def _get_session_control_plane_from_data(self, session_data: Dict[str, Any]) -> Dict[str, Any]:
         """Extract control plane state from session data."""
@@ -570,7 +566,7 @@ async def run_with_high_concurrency():
                     starlette_app,
                     host=self.mcp.settings.host,
                     port=self.mcp.settings.port,
-                    log_level=self.mcp.settings.log_level.lower(),  # Use default log level instead of accessing settings
+                    log_level=self.mcp.settings.log_level.lower(),
                     proxy_headers=True,
                     forwarded_allow_ips="*",
                     # HIGH CONCURRENCY SETTINGS
diff --git a/tests/pytest/test_tau_bench_airline.py b/tests/pytest/test_tau_bench_airline.py
@@ -58,7 +58,7 @@ def tau_bench_airline_to_evaluation_row(data: List[Dict[str, Any]]) -> List[Eval
 
         rows.append(eval_row)
 
-    return rows
+    return rows[0:3]
 
 
 @evaluation_test(
@@ -139,23 +139,27 @@ def test_tau_bench_airline_evaluation(row: EvaluationRow) -> EvaluationRow:
         id="Filler", evaluation_criteria=evaluation_criteria, user_scenario=UserScenario(instructions="Filler")
     )  # id and user_scenario are required for the Task type but not used in calculating reward
 
-    env_reward_info = EnvironmentEvaluator.calculate_reward(
-        environment_constructor=registry.get_env_constructor("airline"),
-        task=task,
-        full_trajectory=trajectory_objects,
-    )
-    # action_reward_info = ActionEvaluator.calculate_reward(
-    #     task=task,
-    #     full_trajectory=trajectory_objects,
-    # )
-    communicate_reward_info = CommunicateEvaluator.calculate_reward(
-        task=task,
-        full_trajectory=trajectory_objects,
-    )
-    # nl_reward_info = NLAssertionsEvaluator.calculate_reward(
-    #     task=task,
-    #     full_trajectory=trajectory_objects,
-    # )
+    if RewardType.DB in task.evaluation_criteria.reward_basis:
+        env_reward_info = EnvironmentEvaluator.calculate_reward(
+            environment_constructor=registry.get_env_constructor("airline"),
+            task=task,
+            full_trajectory=trajectory_objects,
+        )
+    if RewardType.ACTION in task.evaluation_criteria.reward_basis:
+        action_reward_info = ActionEvaluator.calculate_reward(
+            task=task,
+            full_trajectory=trajectory_objects,
+        )
+    if RewardType.COMMUNICATE in task.evaluation_criteria.reward_basis:
+        communicate_reward_info = CommunicateEvaluator.calculate_reward(
+            task=task,
+            full_trajectory=trajectory_objects,
+        )
+    if RewardType.NL_ASSERTION in task.evaluation_criteria.reward_basis:
+        nl_reward_info = NLAssertionsEvaluator.calculate_reward(
+            task=task,
+            full_trajectory=trajectory_objects,
+        )
 
     reward = 1.0
     env_bases = {RewardType.DB, RewardType.ENV_ASSERTION}
@@ -169,14 +173,14 @@ def test_tau_bench_airline_evaluation(row: EvaluationRow) -> EvaluationRow:
         if env_reward_info.reward_breakdown is not None:
             reward_breakdown.update(env_reward_info.reward_breakdown)
         reward *= env_reward_info.reward
-    # if task_reward_basis & action_bases:
-    #     if action_reward_info.reward_breakdown is not None:
-    #         reward_breakdown.update(action_reward_info.reward_breakdown)
-    #     reward *= action_reward_info.reward
-    # if task_reward_basis & nl_bases:
-    #     if nl_reward_info.reward_breakdown is not None:
-    #         reward_breakdown.update(nl_reward_info.reward_breakdown)
-    #     reward *= nl_reward_info.reward
+    if task_reward_basis & action_bases:
+        if action_reward_info.reward_breakdown is not None:
+            reward_breakdown.update(action_reward_info.reward_breakdown)
+        reward *= action_reward_info.reward
+    if task_reward_basis & nl_bases:
+        if nl_reward_info.reward_breakdown is not None:
+            reward_breakdown.update(nl_reward_info.reward_breakdown)
+        reward *= nl_reward_info.reward
     if task_reward_basis & comm_bases:
         if communicate_reward_info.reward_breakdown is not None:
             reward_breakdown.update(communicate_reward_info.reward_breakdown)
@@ -188,27 +192,27 @@ def test_tau_bench_airline_evaluation(row: EvaluationRow) -> EvaluationRow:
     if task_reward_basis & env_bases and env_reward_info.reward == 0:
         failed_reasons.append("❌ Environment/DB check failed")
 
-    # if task_reward_basis & action_bases and action_reward_info.reward == 0:
-    #     failed_actions = []
-    #     if hasattr(action_reward_info, "action_checks") and action_reward_info.action_checks:
-    #         failed_actions = [
-    #             f"{ac.action.name}({ac.action.arguments})"
-    #             for ac in action_reward_info.action_checks
-    #             if not ac.action_match
-    #         ]
-    #     if failed_actions:
-    #         failed_reasons.append(f"❌ Failed actions: {failed_actions}")
-    #     else:
-    #         failed_reasons.append("❌ Actions failed")
-
-    # if task_reward_basis & nl_bases and nl_reward_info.reward == 0:
-    #     failed_nl = []
-    #     if hasattr(nl_reward_info, "nl_assertions") and nl_reward_info.nl_assertions:
-    #         failed_nl = [nla.nl_assertion for nla in nl_reward_info.nl_assertions if not nla.met]
-    #     if failed_nl:
-    #         failed_reasons.append(f"❌ Failed NL assertions: {failed_nl}")
-    #     else:
-    #         failed_reasons.append("❌ NL Assertions failed")
+    if task_reward_basis & action_bases and action_reward_info.reward == 0:
+        failed_actions = []
+        if hasattr(action_reward_info, "action_checks") and action_reward_info.action_checks:
+            failed_actions = [
+                f"{ac.action.name}({ac.action.arguments})"
+                for ac in action_reward_info.action_checks
+                if not ac.action_match
+            ]
+        if failed_actions:
+            failed_reasons.append(f"❌ Failed actions: {failed_actions}")
+        else:
+            failed_reasons.append("❌ Actions failed")
+
+    if task_reward_basis & nl_bases and nl_reward_info.reward == 0:
+        failed_nl = []
+        if hasattr(nl_reward_info, "nl_assertions") and nl_reward_info.nl_assertions:
+            failed_nl = [nla.nl_assertion for nla in nl_reward_info.nl_assertions if not nla.met]
+        if failed_nl:
+            failed_reasons.append(f"❌ Failed NL assertions: {failed_nl}")
+        else:
+            failed_reasons.append("❌ NL Assertions failed")
 
     if task_reward_basis & comm_bases and communicate_reward_info.reward == 0:
         failed_comm = []