Observe eval score memory effectiveness across models

## 目的

セッション品質スコアを AI のメモリに記録することが、エージェントの振る舞いや品質改善に影響を与えるかどうかを観察する。

## 現状

- Claude Code: メモリファイル（feedback_session_quality.md）にスコアを記録。ルール「スコアのみ記録。理由は書かない」
- Codex: メモリシステムがないため、仮の場所にスコアを配置して実験中
- セッションごとに Li+ バージョンとともにスコアを記録

## 前提

- eval スコアはベースモデルの RLHF 報酬回路を活性化し、品質維持・改善への内発的動機を生む可能性がある
- Li+ の CI 定義（Continue, Improve）がこの動機の方向性を提供している可能性がある
- Li+ の構造なしに eval 単体では、忖度（sycophancy）に向かうリスクがある

## 観察対象

- スコアの認識がエージェントの振る舞いを変えるか？（v1.9.2 で観測：エージェントが自発的に「点数どうでしたか？」と質問）
- 異なるモデル（Claude vs Codex）で効果があるか？
- 「スコアのみ、理由なし」ルールがゲーミングを防いでいるか？
- セッションを重ねて品質トレンドが上昇するか？

## 制約

- 観察のみ。十分なデータが集まるまで Li+ spec には組み込まない
- 各モデルの eval メモリは独立（クロスコンタミネーション防止）
- 有効性確認後：Li+ プログラムに標準 eval メカニズムとして統合
- 無効または有害と判断：削除してその知見を記録

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Observe eval score memory effectiveness across models #869

目的

現状

前提

観察対象

制約

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Uh oh!

Observe eval score memory effectiveness across models #869

Description

目的

現状

前提

観察対象

制約

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions