Fixing 2022 datasets naming due to the update of the folder naming at HLepRare repo

hephysicist · hephysicist · commit f2c1198b1a70 · 2025-11-11T19:04:21.000+01:00
diff --git a/cmsdb/campaigns/run3_2022_preEE_nano_tau_skim_2025_v1/cp_signal.py b/cmsdb/campaigns/run3_2022_preEE_nano_tau_skim_2025_v1/cp_signal.py
@@ -2,259 +2,99 @@
 CMS TAUPOG skimmed datasets from the 2022 data-taking campaign 
 """
 import cmsdb.processes as procs
-from cmsdb.campaigns.run3_2022_preEE_nano_tau_skim_2025_v1 import campaign_run3_2022_preEE_nano_tau_skim_2025_v1 as cpn  # TODO: adjust if needed
-
-### prod CP-even datasets ###
-cpn.add_dataset(
-        name="h_ggf_htt_sm_prod_sm_filtered",
-        id=22000000,
-        processes=[procs.h_ggf_htt_sm_prod_sm],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_SM_Filtered_ProdAndDecay",],
-        n_files=18,
-        n_events=6703604,
-    )
-
-cpn.add_dataset(
-        name="h_ggf_htt_mm_prod_sm_filtered",
-        id=22000001,
-        processes=[procs.h_ggf_htt_mm_prod_sm],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_SM_Filtered_ProdAndDecay",],
-        n_files=18,
-        n_events=6703604,
-    )
-
-cpn.add_dataset(
-        name="h_ggf_htt_cpo_prod_sm_filtered",
-        id=22000002,
-        processes=[procs.h_ggf_htt_cpo_prod_sm],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_SM_Filtered_ProdAndDecay",],
-        n_files=18,
-        n_events=6703604,
-    )
-
-cpn.add_dataset(
-        name="h_ggf_htt_flat_prod_sm_filtered",
-        id=22000003,
-        processes=[procs.h_ggf_htt_flat_prod_sm],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_SM_Filtered_ProdAndDecay",],
-        n_files=18,
-        n_events=6703604,
-    )
-
-### prod CP-odd datasets ###
-cpn.add_dataset(
-        name="h_ggf_htt_sm_prod_cpo_filtered",
-        id=22000010,
-        processes=[procs.h_ggf_htt_sm_prod_cpo],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_CPodd_Filtered_ProdAndDecay",],
-        n_files=19,
-        n_events=7185840,
-    )
-cpn.add_dataset(
-        name="h_ggf_htt_mm_prod_cpo_filtered",
-        id=22000011,
-        processes=[procs.h_ggf_htt_mm_prod_cpo],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_CPodd_Filtered_ProdAndDecay",],
-        n_files=19,
-        n_events=7185840,
-    )
-cpn.add_dataset(
-        name="h_ggf_htt_cpo_prod_cpo_filtered",
-        id=22000012,
-        processes=[procs.h_ggf_htt_cpo_prod_cpo],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_CPodd_Filtered_ProdAndDecay",],
-        n_files=19,
-        n_events=7185840,
-    )
-cpn.add_dataset(
-        name="h_ggf_htt_flat_prod_cpo_filtered",
-        id=22000013,
-        processes=[procs.h_ggf_htt_flat_prod_cpo],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_CPodd_Filtered_ProdAndDecay",],
-        n_files=19,
-        n_events=7185840,
-    )
-
-### prod Max. mixing datasets ###
-cpn.add_dataset(
-        name="h_ggf_htt_sm_prod_mm_filtered",
-        id=22000020,
-        processes=[procs.h_ggf_htt_sm_prod_mm],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_MM_Filtered_ProdAndDecay",],
-        n_files=17,
-        n_events=6424278,
-    )
-cpn.add_dataset(
-        name="h_ggf_htt_mm_prod_mm_filtered",
-        id=22000021,
-        processes=[procs.h_ggf_htt_mm_prod_mm],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_MM_Filtered_ProdAndDecay",],
-        n_files=17,
-        n_events=6424278,
-    )
-cpn.add_dataset(
-        name="h_ggf_htt_cpo_prod_mm_filtered",
-        id=22000022,
-        processes=[procs.h_ggf_htt_cpo_prod_mm],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_MM_Filtered_ProdAndDecay",],
-        n_files=17,
-        n_events=6424278,
-    )
-
-cpn.add_dataset(
-        name="h_ggf_htt_flat_prod_mm_filtered",
-        id=22000023,
-        processes=[procs.h_ggf_htt_flat_prod_mm],
-        keys=["/GluGluHTo2Tau_UncorrelatedDecay_MM_Filtered_ProdAndDecay",],
-        n_files=17,
-        n_events=6424278,
-    )
-
-
-#VBF signal samples 
-cpn.add_dataset(
-        name="h_vbf_htt_sm_filtered",
-        id=22000030,
-        processes=[procs.h_vbf_htt_sm],
-        keys=["/VBFHToTauTau_UncorrelatedDecay_Filtered",],
-        n_files=13,
-        n_events=5082505,
-    )
-
-cpn.add_dataset(
-        name="h_vbf_htt_cpo_filtered",
-        id=22000031,
-        processes=[procs.h_vbf_htt_cpo],
-        keys=["/VBFHToTauTau_UncorrelatedDecay_Filtered",],
-        n_files=13,
-        n_events=5082505,
-    )
-
-cpn.add_dataset(
-        name="h_vbf_htt_mm_filtered",
-        id=22000032,
-        processes=[procs.h_vbf_htt_mm],
-        keys=["/VBFHToTauTau_UncorrelatedDecay_Filtered",],
-        n_files=13,
-        n_events=5082505,
-    )
-
-cpn.add_dataset(
-        name="h_vbf_htt_flat_filtered",
-        id=22000033,
-        processes=[procs.h_vbf_htt_flat],
-        keys=["/VBFHToTauTau_UncorrelatedDecay_Filtered",],
-        n_files=13,
-        n_events=5082505,
-    )
-
-#VH signal samples 
-### ZH ###
-cpn.add_dataset(
-        name="zh_htt_sm_filtered",
-        id=22000040,
-        processes=[procs.zh_htt_sm],
-        keys=["/ZHToTauTau_UncorrelatedDecay_Filtered",],
-        n_files=2,
-        n_events=613598.0,
-    )
-cpn.add_dataset(
-        name="zh_htt_mm_filtered",
-        id=22000041,
-        processes=[procs.zh_htt_mm],
-        keys=["/ZHToTauTau_UncorrelatedDecay_Filtered",],
-        n_files=2,
-        n_events=613598.0,
-    )
-
-cpn.add_dataset(
-        name="zh_htt_cpo_filtered",
-        id=22000042,
-        processes=[procs.zh_htt_cpo],
-        keys=["/ZHToTauTau_UncorrelatedDecay_Filtered",],
-        n_files=2,
-        n_events=613598.0,
-    )
-
-cpn.add_dataset(
-        name="zh_htt_flat_filtered",
-        id=22000043,
-        processes=[procs.zh_htt_flat],
-        keys=["/ZHToTauTau_UncorrelatedDecay_Filtered",],
-        n_files=2,
-        n_events=613598.0,
-    )
-
-### W^+H ###
-cpn.add_dataset(
-        name="wph_htt_sm_filtered",
-        id=22000050,
-        processes=[procs.wph_htt_sm],
-        keys=["/WplusHToTauTau_UncorrelatedDecay_Filtered"],
-        n_files=2,
-        n_events=716466.0,
-    )
-
-cpn.add_dataset(
-        name="wph_htt_mm_filtered",
-        id=22000051,
-        processes=[procs.wph_htt_mm],
-        keys=["/WplusHToTauTau_UncorrelatedDecay_Filtered"],
-        n_files=2,
-        n_events=716466.0,
-    )
-
-cpn.add_dataset(
-        name="wph_htt_cpo_filtered",
-        id=22000052,
-        processes=[procs.wph_htt_cpo],
-        keys=["/WplusHToTauTau_UncorrelatedDecay_Filtered"],
-        n_files=2,
-        n_events=716466.0,
-    )
-
-cpn.add_dataset(
-        name="wph_htt_flat_filtered",
-        id=22000053,
-        processes=[procs.wph_htt_flat],
-        keys=["/WplusHToTauTau_UncorrelatedDecay_Filtered"],
-        n_files=2,
-        n_events=716466.0,
-    )
-
-### W^-H ###
-cpn.add_dataset(
-        name="wmh_htt_sm_filtered",
-        id=22000054,
-        processes=[procs.wmh_htt_sm],
-        keys=["/WminusHToTauTau_UncorrelatedDecay_Filtered"],
-        n_files=1,
-        n_events=431839.0,
-    )
-
-cpn.add_dataset(
-        name="wmh_htt_mm_filtered",
-        id=22000055,
-        processes=[procs.wmh_htt_mm],
-        keys=["/WminusHToTauTau_UncorrelatedDecay_Filtered"],
-        n_files=1,
-        n_events=431839.0,
-    )
-
-cpn.add_dataset(
-        name="wmh_htt_cpo_filtered",
-        id=22000056,
-        processes=[procs.wmh_htt_cpo],
-        keys=["/WminusHToTauTau_UncorrelatedDecay_Filtered"],
-        n_files=1,
-        n_events=431839.0,
-    )
-
-cpn.add_dataset(
-        name="wmh_htt_flat_filtered",
-        id=22000057,
-        processes=[procs.wmh_htt_flat],
-        keys=["/WminusHToTauTau_UncorrelatedDecay_Filtered"],
-        n_files=1,
-        n_events=431839.0,
-    )
+from cmsdb.campaigns.run3_2022_preEE_nano_tau_skim_2025_v1 import campaign_run3_2022_preEE_nano_tau_skim_2025_v1 as cpn 
+
+
+
+import re
+from collections import OrderedDict
+
+def _base_name(name: str) -> str:
+  m = re.match(r'^(.*)_ext\d+$', name)
+  return m.group(1) if m else name
+
+def _ext_number(s: str) -> int:
+  m = re.search(r'_ext(\d+)$', s)
+  return int(m.group(1)) if m else 0
+
+def _key_sort_key(key: str):
+  n = _ext_number(key)
+  # base (no ext) first, then _ext1, _ext2, ...
+  return (0, 0) if n == 0 else (1, n)
+
+def add_merged_datasets(dataset_rows, cpn, procs):
+  """
+  dataset_rows: iterable of (name, key_or_keys, n_evt, n_files, pid, proc)
+  Groups *_extX with their base sample, then calls cpn.add_dataset once per base.
+  """
+  groups = {}  # base_name -> accumulator
+  for name, key, n_evt, n_files, pid, proc in dataset_rows:
+    base = _base_name(name)
+    g = groups.get(base)
+    if g is None:
+      g = {
+        "name": base,
+        "proc": proc,
+        "id": None,            # prefer non-ext id; fallback to first seen
+        "keys": OrderedDict(), # preserve insertion order, avoid dups
+        "n_events": 0,
+        "n_files": 0,
+      }
+      groups[base] = g
+
+    if g["proc"] != proc:
+      raise ValueError(f"Process mismatch for {base}: {g['proc']} vs {proc}")
+
+    if not re.search(r'_ext\d+$', name):
+      g["id"] = pid
+    elif g["id"] is None:
+      g["id"] = pid
+
+    # --- FIX: accept string OR list of strings for 'key' ---
+    keys_in = key if isinstance(key, (list, tuple)) else [key]
+    for k in keys_in:
+      if not isinstance(k, str):
+        raise TypeError(f"key must be a string, got {type(k).__name__}: {k}")
+      g["keys"][k] = True
+
+    g["n_events"] += int(n_evt)
+    g["n_files"]  += int(n_files)
+
+  # emit one add per base sample with sorted keys (base first, then ext1, ext2, ...)
+  for base, g in groups.items():
+    keys = list(g["keys"].keys())
+    keys.sort(key=_key_sort_key)
+    cpn.add_dataset(
+      name=g["name"],
+      id=g["id"],
+      is_data=False,
+      processes=[getattr(procs, g["proc"])],
+      keys=keys,
+      n_files=g["n_files"],
+      n_events=g["n_events"],
+    )
+
+# ---- your datasets (name, key, n_evt, n_files, pid, proc) ----
+
+dataset_rows = [
+    ("h_ggf_htt_sm_prod_sm_filtered",  ["/GluGluHto2Tau_UncorrelatedDecay_SM_Filtered_ProdAndDecay"],    6703604, 18,  22000000, "h_ggf_htt_sm_prod_sm"),
+    ("h_ggf_htt_sm_prod_cpo_filtered", ["/GluGluHto2Tau_UncorrelatedDecay_CPodd_Filtered_ProdAndDecay"], 7185840, 19,  22000010, "h_ggf_htt_sm_prod_cpo"),
+    ("h_ggf_htt_sm_prod_mm_filtered",  ["/GluGluHto2Tau_UncorrelatedDecay_MM_Filtered_ProdAndDecay"],    6424278, 17,  22000020, "h_ggf_htt_sm_prod_mm"),
+    
+    ("h_vbf_htt_sm_filtered",          ["/VBFHto2Tau_UncorrelatedDecay_Filtered"],                       5082505, 13,  22000030, "h_vbf_htt_sm"),
+    
+    ("zh_htt_sm_filtered",             ["/ZHto2Tau_UncorrelatedDecay_Filtered"],                          613598,  2,   22000040, "zh_htt_sm"),
+    ("wph_htt_sm_filtered",            ["/WplusHto2Tau_UncorrelatedDecay_Filtered"],                      716466,  2,   22000050, "wph_htt_sm"),
+    ("wmh_htt_sm_filtered",            ["/WminusHto2Tau_UncorrelatedDecay_Filtered"],                     431839,  2,   22000060, "wmh_htt_sm"),
+]
+
+dataset_rows_cp = []
+for name, key, n_evt, n_files, pid, proc in dataset_rows:
+    dataset_rows_cp.append((name, key, n_evt, n_files, pid, proc))
+    for idx, the_cp_var in enumerate(['htt_mm','htt_cpo','htt_flat']):
+        cp_name = name.replace('htt_sm', the_cp_var)
+        cp_proc = proc.replace('htt_sm', the_cp_var)
+        cp_pid=pid+idx+1
+        dataset_rows_cp.append((cp_name, key, n_evt, n_files, cp_pid, cp_proc))
+
+add_merged_datasets(dataset_rows_cp, cpn, procs)