fix reasoning gym enviroment (PrimeIntellect-ai#401)

anakin87 · web-flow · commit 050a87f584e6 · 2025-10-02T20:22:04.000-07:00
* fix reasoning gym enviroment

* comments
diff --git a/environments/reasoning_gym_env/pyproject.toml b/environments/reasoning_gym_env/pyproject.toml
@@ -2,7 +2,7 @@
 name = "reasoning-gym-env"
 description = "ReasoningGym suite of programmatically-generated reasoning tasks"
 tags = ["reasoning-gym", "logic", "puzzles", "math", "train"]
-version = "0.1.1"
+version = "0.1.2"
 requires-python = ">=3.11"
 dependencies = [
     "verifiers>=0.1.4",
diff --git a/environments/reasoning_gym_env/reasoning_gym_env.py b/environments/reasoning_gym_env/reasoning_gym_env.py
@@ -29,7 +29,8 @@ def __init__(
         rubric = Rubric(parser=parser)
 
         def check_answer_reward_func(completion, answer, **kwargs) -> float:
-            entry = self.rg_dataset[answer]
+            # rg_dataset expects an int index
+            entry = self.rg_dataset[int(answer)]
             response = str(parser.parse_answer(completion)).strip()
             reward = self.rg_dataset.score_answer(answer=response, entry=entry)
             return reward
@@ -73,7 +74,7 @@ def rg_to_hf(self, rg_dataset: ProceduralDataset) -> Tuple[Dataset, Dataset]:
         for i, x in enumerate(rg_dataset):
             row = {
                 "question": x["question"],
-                "answer": i,
+                "answer": str(i),  # in verifiers, an answer must be a string
                 "task": x["metadata"]["source_dataset"],
             }
             if i < self.num_train_examples: