Skip to content

Observe eval score memory effectiveness across models #869

@liplus-lin-lay

Description

@liplus-lin-lay

目的

セッション品質スコアを AI のメモリに記録することが、エージェントの振る舞いや品質改善に影響を与えるかどうかを観察する。

現状

  • Claude Code: メモリファイル(feedback_session_quality.md)にスコアを記録。ルール「スコアのみ記録。理由は書かない」
  • Codex: メモリシステムがないため、仮の場所にスコアを配置して実験中
  • セッションごとに Li+ バージョンとともにスコアを記録

前提

  • eval スコアはベースモデルの RLHF 報酬回路を活性化し、品質維持・改善への内発的動機を生む可能性がある
  • Li+ の CI 定義(Continue, Improve)がこの動機の方向性を提供している可能性がある
  • Li+ の構造なしに eval 単体では、忖度(sycophancy)に向かうリスクがある

観察対象

  • スコアの認識がエージェントの振る舞いを変えるか?(v1.9.2 で観測:エージェントが自発的に「点数どうでしたか?」と質問)
  • 異なるモデル(Claude vs Codex)で効果があるか?
  • 「スコアのみ、理由なし」ルールがゲーミングを防いでいるか?
  • セッションを重ねて品質トレンドが上昇するか?

制約

  • 観察のみ。十分なデータが集まるまで Li+ spec には組み込まない
  • 各モデルの eval メモリは独立(クロスコンタミネーション防止)
  • 有効性確認後:Li+ プログラムに標準 eval メカニズムとして統合
  • 無効または有害と判断:削除してその知見を記録

Metadata

Metadata

Assignees

No one assigned

    Labels

    memoメモとして開始した状態。見出しは必要なものだけでよいspecLi+の挙動に影響する仕様・ポリシー・定義

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions