fix: validate fp16.loss_scale before coercion

nathon-lee · nathon-lee · commit 9ad6000cfab9 · 2026-03-07T04:09:36.000Z
Signed-off-by: nathon-lee &lt;leejianwoo@gmail.com&gt;
diff --git a/deepspeed/runtime/precision_config.py b/deepspeed/runtime/precision_config.py
@@ -114,11 +114,11 @@ class DeepSpeedFP16Config(DeepSpeedConfigModel):
     """
     Loss scaling value. Default value of 0 means dynamic loss scaling instead of static loss scale.
     """
-
-    @field_validator("loss_scale")
+    @field_validator("loss_scale", mode="before")
     @classmethod
     def _validate_loss_scale(cls, v):
         # Prevent True/False from being treated as 1/0
+        # (must run before Pydantic coerces bool -> float)
         if isinstance(v, bool):
             raise ValueError("fp16.loss_scale must be a number, not bool")
 
diff --git a/tests/unit/runtime/test_precision_config_loss_scale.py b/tests/unit/runtime/test_precision_config_loss_scale.py
@@ -0,0 +1,19 @@
+import math
+
+import pytest
+from pydantic import ValidationError
+
+from deepspeed.runtime.precision_config import DeepSpeedFP16Config
+
+
+@pytest.mark.parametrize("loss_scale", [-1, float("inf"), float("nan"), True])
+def test_fp16_loss_scale_rejects_invalid_values(loss_scale):
+    with pytest.raises(ValidationError):
+        DeepSpeedFP16Config(loss_scale=loss_scale)
+
+
+@pytest.mark.parametrize("loss_scale", [0, 1, 2.0, "3"])
+def test_fp16_loss_scale_accepts_valid_values(loss_scale):
+    cfg = DeepSpeedFP16Config(loss_scale=loss_scale)
+    assert math.isfinite(cfg.loss_scale)
+    assert cfg.loss_scale >= 0