[codex] improve assessment-loop realism by DavidJBianco · Pull Request #163 · Cisco-Talos/EvidenceForge

DavidJBianco · 2026-05-16T00:54:03Z

Summary

Continue the iterative EvidenceForge realism assessment work through Loop 30 on the draft PR branch.
Fix high-leverage blind-review findings across browser/process attribution, Linux endpoint cadence, Zeek multi-sensor timing, public DNS/X.509 realism, persistent HTTP transaction modeling, Zeek parent-flow accounting, Linux syslog texture, DNS/C2 cadence, systemd timer realism, and eCAR FLOW principal attribution.
Preserve per-loop assessment results in TODO.md, including automated eval scores, hard probes, blind reviewer synthetic-confidence scores, deliberation outcomes, and next recommended targets.

Why

The blind assessment loops kept surfacing concrete synthetic tells in generator-owned behavior. This branch fixes those root causes at the data/config, canonical event, timing, source-observation, and emitter layers so generated evidence agrees by construction and better matches source-native enterprise telemetry.

Validation

uv run eforge validate-config
uv run ruff check .
uv run ruff format --check .
uv run pytest --no-cov -q after each fix pass; latest full suite: 3162 passed, 37 skipped
Repeated iteration-test regeneration/evaluation through Loop 30
Latest Loop 30 quantitative eval: 95.99/100 across 76,333 records, all hard gates passing
Latest Loop 30 hard probe: 4,579/13,240 eCAR FLOW records now carry mixed principals, with zero pid=-1 principal leaks and zero failed-flow principal claims

Latest reviewer signal

Loop 30 blind-review synthetic-confidence scores:

Threat Hunter: 84
Detection Engineer: 62
Network Forensics: 68
Host/EDR: 39 after inversion from a Real verdict at confidence 61
Average: 63.25

The next highest-leverage generator-owned finding is the verified DB bash-history/eCAR timing mismatch for the scp /tmp/mhs-archive.sql.gz command. Scenario-authored label legibility remains deferred unless scenario edits are explicitly authorized.

DavidJBianco added 30 commits May 15, 2026 15:04

fix: improve observation coherence and TLS realism

7caf4b2

fix: improve web and kerberos baseline realism

b476c16

fix: repair service logon and linux telemetry realism

7e6c7ea

fix: scope bash tool affinity by role pool

02bd4bd

fix: prefer host services in bash templates

67ac00d

fix: align cli http and analyzer timing realism

caf06a7

fix: preserve cli http network effect context

508501c

fix: bind process http commands to proxy flows

811b2f1

docs: record loop 5 blind review results

380f38c

fix: improve loop 6 session and web realism

ac30094

docs: record loop 6 blind review results

5702bbf

fix: improve loop 7 service and cli realism

3f66d06

fix: close tracked foreground processes at finalize

6374303

docs: record loop 7 blind review results

a477484

fix: correct service install start semantics

e768f4c

docs: record loop 8 assessment results

e21a25f

fix: diversify web and proxy status outcomes

46bd9d2

docs: record loop 9 assessment results

454edf0

fix: reduce rare admin tool background noise

f0f5c3d

docs: record loop 10 assessment results

34731ff

fix: diversify linux command texture

e9ff69c

docs: record loop 11 assessment results

4993829

fix: repair source-native host contradictions

b7c8a70

docs: record loop 12 assessment results

9ae822c

fix: preserve source-native web response semantics

93463e4

docs: record loop 13 assessment results

af301b9

fix: align source-native command and DNS semantics

7a82449

docs: record loop 14 assessment results

16740cc

fix: enforce auth and network source semantics

9c9dcef

docs: record loop 15 assessment results

024db1a

DavidJBianco added 30 commits May 16, 2026 00:07

docs: record loop 16 assessment results

aeb457b

fix: repair network and session source semantics

eaf090a

docs: record loop 17 assessment results

4484c50

fix: vary completed TLS duration floors

bc738f2

docs: record loop 18 assessment results

e98f744

fix: repair proxy http response semantics

dc4616c

fix: preserve redirect response mime semantics

b4c99b1

docs: record loop 19 assessment results

6b207bd

fix: bind shell helpers to user sessions

76bc107

docs: record loop 20 assessment results

f991a77

fix: attribute browser http flows to user processes

c9a7b72

docs: record loop 21 assessment results

6b589ec

fix: reduce linux endpoint cadence fingerprints

ecc45ef

docs: record loop 22 assessment results

f8c19f0

fix: vary zeek multi-sensor timing offsets

91546d7

docs: record loop 23 assessment results

a097f30

fix: diversify public dns and certificate profiles

999a20e

docs: record loop 24 assessment results

09076c1

fix: model persistent zeek http transactions

dd56f08

docs: record loop 25 assessment results

ebc2d42

fix: align persistent http flow accounting

4f92a11

docs: record loop 26 assessment results

c13e429

fix: diversify linux syslog daemon noise

38e431d

docs: record loop 27 assessment results

3e78053

fix: loosen dns tunnel and c2 cadence

350b0f5

docs: record loop 28 assessment results

5994b26

fix: vary linux syslog timer texture

e37a5f3

docs: record loop 29 assessment results

73e123e

fix: mix ecar flow principal attribution

bc3772d

docs: record loop 30 assessment results

044b097

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[codex] improve assessment-loop realism#163

[codex] improve assessment-loop realism#163
DavidJBianco wants to merge 61 commits into
devfrom
codex/eforge-assess-loops-1-10

DavidJBianco commented May 16, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

DavidJBianco commented May 16, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Summary

Why

Validation

Latest reviewer signal

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

DavidJBianco commented May 16, 2026 •

edited

Loading