AlexanderOnischenko · AlexanderOnischenko · Jan 23, 2026 · Jan 19, 2026 · Jan 19, 2026 · Jan 19, 2026
diff --git a/.demo_qa.mk b/.demo_qa.mk
@@ -0,0 +1,7 @@
+# Локальные настройки demo_qa (генерируется командой: make init)
+# Можно редактировать руками. Рекомендуется добавить в .gitignore.
+DATA=_demo_data/shop
+SCHEMA=_demo_data/shop/schema.yaml
+CASES=examples/demo_qa/cases/retail_cases.json
+# OUT можно не задавать: по умолчанию OUT=${DATA}/.runs/results.jsonl
+# OUT=_demo_data/shop/.runs/results.jsonl
diff --git a/.github/workflows/pytest.yml b/.github/workflows/pytest.yml
@@ -0,0 +1,24 @@
+name: pytest
+
+on:
+  pull_request:
+
+jobs:
+  pytest:
+    runs-on: ubuntu-latest
+    steps:
+      - name: Checkout
+        uses: actions/checkout@v4
+
+      - name: Set up Python
+        uses: actions/setup-python@v5
+        with:
+          python-version: "3.11"
+
+      - name: Install dependencies
+        run: python -m pip install --upgrade pip && python -m pip install -e ".[dev]"
+
+      - name: Run pytest (not slow, not known_bad)
+        env:
+          PYTHONPATH: .:src
+        run: python -m pytest -q -m "not slow and not known_bad"
diff --git a/.gitignore b/.gitignore
@@ -8,3 +8,4 @@ build/
 .env.demo_qa
 _demo_data/*/.runs/*
 .coverage
+.DS_Store
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -5,4 +5,4 @@ repos:
         name: pytest
         language: system
         pass_filenames: false
-        entry: bash -lc 'source .venv/bin/activate PYTHONPATH=".:src:${PYTHONPATH}"; python -m pytest -q -m "not slow"'
+        entry: bash -lc 'source .venv/bin/activate PYTHONPATH=".:src:${PYTHONPATH}"; python -m pytest -q -m "not slow and not known_bad"'
diff --git a/Makefile b/Makefile
@@ -66,6 +66,11 @@ COMPARE_TAG_JUNIT ?= $(DATA)/.runs/diff.tags.junit.xml
 
 MAX_FAILS ?= 5
 
+PURGE_RUNS ?= 0
+PRUNE_HISTORY ?= 0
+PRUNE_CASE_HISTORY ?= 0
+DRY ?= 0
+
 # ==============================================================================
 # 6) Настройки LLM-конфига (редактирование/просмотр)
 # ==============================================================================
@@ -94,7 +99,7 @@ LIMIT_FLAG := $(if $(strip $(LIMIT)),--limit $(LIMIT),)
         batch batch-tag batch-failed batch-failed-from \
         batch-missed batch-missed-from batch-failed-tag batch-missed-tag \
         batch-fail-fast batch-max-fails \
-        stats history-case report-tag report-tag-changes tags case-run case-open compare compare-tag
+        stats history-case report-tag report-tag-changes tags tag-rm case-run case-open compare compare-tag
 
 # ==============================================================================
 # help (на русском)
@@ -142,6 +147,14 @@ help:
 	@echo "  make case-run  CASE=case_42 - прогнать один кейс"
 	@echo "  make case-open CASE=case_42 - открыть артефакты кейса"
 	@echo ""
+	@echo "Уборка:"
+	@echo "  make tag-rm TAG=... [DRY=1] [PURGE_RUNS=1] [PRUNE_HISTORY=1] [PRUNE_CASE_HISTORY=1]"
+	@echo "    - удаляет effective snapshot тега и tag-latest* указатели"
+	@echo "    DRY=1                - dry-run: только показать, что будет удалено"
+	@echo "    PURGE_RUNS=1          - дополнительно удалить все runs, где run_meta.tag == TAG"
+	@echo "    PRUNE_HISTORY=1       - вычистить записи с этим тегом из $${DATA}/.runs/history.jsonl"
+	@echo "    PRUNE_CASE_HISTORY=1  - вычистить записи с этим тегом из $${DATA}/.runs/runs/cases/*.jsonl"
+	@echo ""
 	@echo "Сравнение результатов:"
 	@echo "  make compare BASE=... NEW=... [DIFF_OUT=...] [JUNIT=...]"
 	@echo "  make compare-tag BASE_TAG=baseline NEW_TAG=... [COMPARE_TAG_OUT=...] [COMPARE_TAG_JUNIT=...]"
@@ -340,3 +353,14 @@ compare-tag: check
 	  --new-tag "$(NEW_TAG)" \
 	  --out  "$(OUT)" \
 	  --junit "$(JUNIT)"
+
+# команды очистки
+
+tag-rm:
+	@test -n "$(strip $(TAG))" || (echo "TAG обязателен: make tag-rm TAG=..." && exit 1)
+	@TAG="$(TAG)" DATA="$(DATA)" PURGE_RUNS="$(PURGE_RUNS)" PRUNE_HISTORY="$(PRUNE_HISTORY)" PRUNE_CASE_HISTORY="$(PRUNE_CASE_HISTORY)" DRY="$(DRY)" $(PYTHON) -m scripts.tag_rm
+
+
+
+
+
diff --git a/caffeinate_make.sh b/caffeinate_make.sh
@@ -0,0 +1,87 @@
+#!/bin/sh
+set -u
+
+### ================== НАСТРОЙКИ (менять тут) ==================
+DELAY=0       # 65 минут до первого запуска
+INTERVAL=5400    # 90 минут между запусками
+TICK=300         # печатать обратный отсчёт раз в 5 минут
+
+# (опционально) папка проекта, где надо выполнять make
+WORKDIR=/Users/alexanderonishchenko/Documents/_Projects/fetchgraph
+
+LOG="$HOME/batch_tag.log"
+
+# Команда для ПЕРВОГО запуска
+FIRST_CMD='make batch-tag TAG=my_tag NOTE="прогон перед мерджем"'
+
+# Команда для ПОВТОРНЫХ запусков
+REPEAT_CMD='make batch-tag TAG=my_tag NOTE="прогон перед мерджем"'
+### ============================================================
+
+LOCKDIR="/tmp/batch_tag_runner.lock"
+
+log() { printf '%s\n' "$*" | tee -a "$LOG"; }
+
+cleanup() {
+  [ -n "${CAF_PID:-}" ] && kill "$CAF_PID" 2>/dev/null || true
+  rmdir "$LOCKDIR" 2>/dev/null || true
+}
+trap 'cleanup' EXIT INT TERM HUP
+
+# Защита от двух копий
+if ! mkdir "$LOCKDIR" 2>/dev/null; then
+  echo "Похоже, уже запущено (lock: $LOCKDIR). Если уверены — удалите lock и запустите снова." >&2
+  exit 1
+fi
+
+log "PID $$ started at $(date '+%F %T')"
+
+# Не даём Mac уснуть
+if command -v caffeinate >/dev/null 2>&1; then
+  caffeinate -dimsu -w $$ &
+  CAF_PID=$!
+  log "caffeinate pid: $CAF_PID"
+else
+  log "WARNING: caffeinate не найден — Mac может уснуть."
+fi
+
+# Переходим в папку проекта (если существует)
+if [ -d "$WORKDIR" ]; then
+  cd "$WORKDIR" || exit 1
+else
+  log "WARNING: WORKDIR не существует: $WORKDIR (останусь в текущей папке)"
+fi
+
+countdown() {
+  total="$1"
+  label="$2"
+
+  while [ "$total" -gt 0 ]; do
+    mins=$(( total / 60 ))
+    secs=$(( total % 60 ))
+    log "$label: осталось ${mins}m$(printf '%02d' "$secs")s ($(date '+%F %T'))"
+
+    step=$TICK
+    [ "$total" -lt "$step" ] && step=$total
+    sleep "$step" || exit 1
+    total=$(( total - step ))
+  done
+}
+
+run_cmd() {
+  label="$1"
+  cmd="$2"
+
+  log "---- $label $(date '+%F %T') ----"
+  log "CMD: $cmd"
+  sh -c "$cmd" 2>&1 | tee -a "$LOG"
+  log ""
+}
+
+countdown "$DELAY" "До первого запуска"
+run_cmd "FIRST RUN" "$FIRST_CMD"
+
+while :; do
+  countdown "$INTERVAL" "До следующего запуска"
+  run_cmd "REPEAT RUN" "$REPEAT_CMD"
+done
diff --git a/examples/demo_qa/demo_qa.toml b/examples/demo_qa/demo_qa.toml
@@ -1,5 +1,5 @@
 [llm]
-base_url = "http://localhost:8000/v1"
+base_url = "http://localhost:8002/v1"
 plan_model = "default"
 synth_model = "default"
 plan_temperature = 0.0

diff --git a/examples/demo_qa/runner.py b/examples/demo_qa/runner.py
@@ -210,6 +210,14 @@ def _stringify(value: object | None) -> str | None:
     return str(value)
 
 
+def _normalize_text(value: str) -> str:
+    return value.strip().casefold()
+
+
+def _normalize_strings(values: Iterable[object]) -> list[str]:
+    return [_normalize_text(str(value)) for value in values]
+
+
 def _match_expected(case: Case, answer: str | None) -> ExpectedCheck | None:
     if not case.has_asserts:
         return None
@@ -218,7 +226,15 @@ def _match_expected(case: Case, answer: str | None) -> ExpectedCheck | None:
         return ExpectedCheck(mode="none", expected=expected_value, passed=False, detail="no answer")
     if case.expected is not None:
         expected_str = _stringify(case.expected) or ""
-        passed = answer.strip() == expected_str.strip()
+        if isinstance(case.expected, (list, tuple, set)):
+            expected_items = _normalize_strings(case.expected)
+            answer_items = _normalize_strings(answer) if isinstance(answer, (list, tuple, set)) else []
+            if isinstance(case.expected, set) or isinstance(answer, set):
+                passed = set(expected_items) == set(answer_items)
+            else:
+                passed = expected_items == answer_items
+        else:
+            passed = _normalize_text(answer) == _normalize_text(expected_str)
         detail = None if passed else f"expected={expected_str!r}, got={answer!r}"
         return ExpectedCheck(mode="exact", expected=expected_str, passed=passed, detail=detail)
     if case.expected_regex is not None:
@@ -229,7 +245,7 @@ def _match_expected(case: Case, answer: str | None) -> ExpectedCheck | None:
         return ExpectedCheck(mode="regex", expected=expected_regex, passed=passed, detail=detail)
     if case.expected_contains is not None:
         expected_contains = _stringify(case.expected_contains) or ""
-        passed = expected_contains in answer
+        passed = _normalize_text(expected_contains) in _normalize_text(answer)
         detail = None if passed else f"expected to contain {expected_contains!r}"
         return ExpectedCheck(mode="contains", expected=expected_contains, passed=passed, detail=detail)
     return None

diff --git a/examples/demo_qa/tests/test_demo_qa_runner.py b/examples/demo_qa/tests/test_demo_qa_runner.py
@@ -32,7 +32,7 @@ def test_match_expected_coerces_non_string_expected_values() -> None:
 def test_match_expected_contains_pass_and_fail() -> None:
     case = Case(id="c2", question="Q", expected_contains="bar")
 
-    match = _match_expected(case, "value bar baz")
+    match = _match_expected(case, "value BAR baz")
     assert match is not None
     assert match.passed is True
 
@@ -47,6 +47,26 @@ def test_match_expected_contains_pass_and_fail() -> None:
     assert missing_answer.detail == "no answer"
 
 
+def test_match_expected_equals_is_case_insensitive() -> None:
+    case = Case(id="c3", question="Q", expected="Alpha")
+
+    match = _match_expected(case, "alpha")
+    assert match is not None
+    assert match.passed is True
+
+
+def test_match_expected_list_comparison_normalizes_elements() -> None:
+    case = Case(id="c4", question="Q", expected=["Foo", "Bar"])
+
+    match = _match_expected(case, cast(str, ["foo", "bar"]))
+    assert match is not None
+    assert match.passed is True
+
+    mismatch = _match_expected(case, cast(str, ["foo", "baz"]))
+    assert mismatch is not None
+    assert mismatch.passed is False
+
+
 def test_diff_runs_tracks_regressions_and_improvements() -> None:
     baseline = [
         RunResult(

diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "fetchgraph"
-version = "0.2.0"
+version = "0.2.1"
 description = "Graph-like planning → context fetching → synthesis agent (library-style)."
 readme = "README.md"
 requires-python = ">=3.11"

diff --git a/pytest.ini b/pytest.ini
@@ -45,6 +45,7 @@ markers =
     slow: slow tests (exclude via -m "not slow")
     integration: integration tests (providers / IO / external deps)
     e2e: end-to-end scenarios
+    known_bad: real-world TDD cases that are allowed to fail (excluded from CI by default)
 
 # Удобные дефолты для логов в CI и локально
 log_cli = true