kubeflow · neeraj542 · Mar 18, 2026 · Mar 19, 2026 · Mar 22, 2026 · Mar 26, 2026
diff --git a/examples/local/local-container-mnist.ipynb b/examples/local/local-container-mnist.ipynb
@@ -59,10 +59,13 @@
    "source": [
     "def train_mnist():\n",
     "    import os\n",
+    "    import shutil\n",
+    "    import time\n",
     "    import torch\n",
     "    import torch.nn.functional as F\n",
     "    from torch import nn, optim\n",
     "    import torch.distributed as dist\n",
+    "    from pathlib import Path\n",
     "    from torch.utils.data import DataLoader, DistributedSampler\n",
     "    from torchvision import datasets, transforms\n",
     "\n",
@@ -108,24 +111,42 @@
     "    model = nn.parallel.DistributedDataParallel(model)\n",
     "    optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)\n",
     "\n",
+    "    transform = transforms.Compose([\n",
+    "        transforms.ToTensor(),\n",
+    "        transforms.Normalize((0.1307,), (0.3081,)),\n",
+    "    ])\n",
+    "\n",
+    "    def load_fashion_mnist_with_retry(train: bool, download: bool):\n",
+    "        retries = 3\n",
+    "        delay_seconds = 5\n",
+    "        last_error = None\n",
+    "\n",
+    "        for attempt in range(1, retries + 1):\n",
+    "            try:\n",
+    "                return datasets.FashionMNIST(\n",
+    "                    \"./data\",\n",
+    "                    train=train,\n",
+    "                    download=download,\n",
+    "                    transform=transform,\n",
+    "                )\n",
+    "            except RuntimeError as e:\n",
+    "                last_error = e\n",
+    "                if \"File not found or corrupted\" in str(e):\n",
+    "                    # Cleanup potentially partial downloads before retrying.\n",
+    "                    raw_dir = Path(\"./data\") / \"FashionMNIST\" / \"raw\"\n",
+    "                    if raw_dir.exists():\n",
+    "                        shutil.rmtree(raw_dir, ignore_errors=True)\n",
+    "                if attempt < retries:\n",
+    "                    print(f\"FashionMNIST download failed (attempt {attempt}/{retries}): {e}\")\n",
+    "                    time.sleep(delay_seconds)\n",
+    "                else:\n",
+    "                    raise last_error\n",
+    "\n",
     "    # Download FashionMNIST dataset only on local_rank=0 process.\n",
     "    if local_rank == 0:\n",
-    "        dataset = datasets.FashionMNIST(\n",
-    "            \"./data\",\n",
-    "            train=True,\n",
-    "            download=True,\n",
-    "            transform=transforms.Compose([\n",
-    "                transforms.ToTensor(),\n",
-    "                transforms.Normalize((0.1307,), (0.3081,)),\n",
-    "            ]),\n",
-    "        )\n",
+    "        load_fashion_mnist_with_retry(train=True, download=True)\n",
     "    dist.barrier()\n",
-    "    dataset = datasets.FashionMNIST(\n",
-    "        \"./data\",\n",
-    "        train=True,\n",
-    "        download=False,\n",
-    "        transform=transforms.Compose([transforms.ToTensor()]),\n",
-    "    )\n",
+    "    dataset = load_fashion_mnist_with_retry(train=True, download=False)\n",
     "\n",
     "    # Shard the dataset accross workers.\n",
     "    train_loader = DataLoader(\n",
@@ -348,7 +369,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "client.wait_for_job_status(name=job_name, timeout=20)"
+    "client.wait_for_job_status(name=job_name, timeout=300)"
    ]
   },
   {

diff --git a/examples/local/local-training-mnist.ipynb b/examples/local/local-training-mnist.ipynb
@@ -295,7 +295,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "client.wait_for_job_status(name=job_name, timeout=20)"
+    "client.wait_for_job_status(name=job_name, timeout=300)"
    ]
   },
   {

diff --git a/examples/pytorch/audio-classification/audio-classification.ipynb b/examples/pytorch/audio-classification/audio-classification.ipynb
@@ -533,7 +533,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "client.wait_for_job_status(name=job_name, timeout=20)"
+    "client.wait_for_job_status(name=job_name, timeout=300)"
    ]
   }
  ],

diff --git a/examples/pytorch/image-classification/mnist.ipynb b/examples/pytorch/image-classification/mnist.ipynb
@@ -659,7 +659,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "client.wait_for_job_status(name=job_name, timeout=20)"
+    "client.wait_for_job_status(name=job_name, timeout=300)"
    ]
   },
   {

diff --git a/examples/pytorch/question-answering/fine-tune-distilbert.ipynb b/examples/pytorch/question-answering/fine-tune-distilbert.ipynb
@@ -489,7 +489,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "TrainerClient().wait_for_job_status(name=job_id, timeout=20)"
+    "TrainerClient().wait_for_job_status(name=job_id, timeout=300)"
    ]
   },
   {

diff --git a/examples/pytorch/speech-recognition/speech-recognition.ipynb b/examples/pytorch/speech-recognition/speech-recognition.ipynb
@@ -417,7 +417,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "client.wait_for_job_status(name=k8s_job_name, timeout=20)"
+    "client.wait_for_job_status(name=k8s_job_name, timeout=300)"
    ]
   }
  ],

diff --git a/examples/xgboost/distributed-training/xgboost-distributed.ipynb b/examples/xgboost/distributed-training/xgboost-distributed.ipynb
@@ -309,7 +309,7 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "client.wait_for_job_status(name=job_name, timeout=20)"
+    "client.wait_for_job_status(name=job_name, timeout=300)"
    ]
   },
   {

diff --git a/hack/e2e-run-notebook.sh b/hack/e2e-run-notebook.sh
@@ -44,9 +44,10 @@ print_results() {
     # Only run kubectl commands if we're testing Kubernetes notebooks
     if command -v kubectl &> /dev/null && kubectl cluster-info &> /dev/null; then
         # Always show TrainJob status
-        kubectl describe trainjob
-        kubectl logs -n kubeflow-system -l app.kubernetes.io/name=trainer
-        kubectl wait trainjob --for=condition=Complete --all --timeout 3s
+        kubectl describe trainjob || true
+        kubectl logs -n kubeflow-system -l app.kubernetes.io/name=trainer || exit 1
+        # CI clusters can be a bit slower; debug output should not fail the whole run.
+        kubectl wait trainjob --for=condition=Complete --all --timeout 60s || exit 1
 
         # Only check pod logs if pods exist (not for local backends)
         if kubectl get pods -l jobset.sigs.k8s.io/replicatedjob-name=trainer-node --no-headers 2>/dev/null | grep -q .; then