🚀 Local-Agent-Workspace

Important

個人立場聲明： 本專案僅為個人技術研究分享，所有內容與參數調校均基於公開開源數據。專案內容不代表任何機關立場，亦不涉及任何公務機敏資料。

本地 AI 極致壓榨與開發規範雙軌指南 (Hardware & Software Dual-Track Guide)

本專案提供兩大獨立且可平行參考的本地 AI 實戰維度：

graph TD
    A["本地 AI 開發實戰專案 (Local-Agent-Workspace)"] --> B["🟢 軌道一：硬體選型與算力壓榨 (Hardware Track)"]
    A --> C["🔵 軌道二：軟體框架與 AI 規範 (Software Track)"]
    B --> B1["選擇硬體平台 -> 複製配置啟動本地 Server"]
    C --> C1["一鍵植入 C.A.S.E 規則手冊 -> AI Agent 自動建立專案規範"]

🟢 軌道一：硬體選型與本機算力極致壓榨 (Hardware Track)

📊 本地算力平台快速選取看板

硬體環境 (Hardware Platform)	核心推薦模型 (Recommended Model)	檔案大小 (Size)	推理效能 (Inference Performance)
高階顯卡 (20GB+ VRAM)	GRM-2.6-Opus 27B / Qwopus 27B	15.3G / 15.4G	MTP 投機解碼 (~49 T/s)
中階顯卡 (16GB VRAM)	Qwen3.6-35B-A3B-Cerebellum	12 GB	GPU 全卸載 MoE 線性推理
純 CPU / 大 RAM (32GB+)	Qwen3.6-35B-A3B-Cerebellum	12 GB	MoE+SSM 純 CPU 線性推理

📦 運算引擎與模型權重下載 (Llama.cpp & Models Download)

⚡ 推薦一鍵自動更新：雙擊本專案根目錄的 run-update.bat 即可全自動下載最新版 llama.cpp 並完成解壓合併。

📥 一鍵下載更新腳本 (免克隆專案)：於目標安裝資料夾開啟終端機，貼上執行以下指令即可直接取得更新雙檔：

PowerShell:

Invoke-WebRequest -Uri "https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/run-update.bat" -OutFile "run-update.bat"; Invoke-WebRequest -Uri "https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/update-llama-cpp.ps1" -OutFile "update-llama-cpp.ps1"

cURL (Git Bash/Linux):

curl -fsSL https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/run-update.bat -o run-update.bat && curl -fsSL https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/update-llama-cpp.ps1 -o update-llama-cpp.ps1

⚠️ 首次使用：請先以文字編輯器開啟 update-llama-cpp.ps1，將第 6 行的 $TargetDir = "D:\MyProject\llama" 修改為您本機實際要安裝的資料夾路徑！

📦 備用手動下載：前往 Llama.cpp Releases 下載以下雙檔解壓至同一個目錄：
1. 推論引擎：llama-b...-bin-win-cuda-cu12.4-x64.zip (推薦 cu12.4 版本)
2. 運行依賴：cudart-llama-bin-win-cu12.4-x64.zip
🧠 推薦模型下載：
- 🔥 NVIDIA 首選：GRM-2.6-Opus-Heretic-Abliterated-MTP-i1-GGUF (15.3 GB) (高階顯卡強烈推薦，啟用 MTP 極速推理)
- ⚡ NVIDIA 次選：Qwopus3.6-27B-v2-MTP-GGUF (15.4 GB)
- 🧠 CPU / 中階顯卡最適：Qwen3.6-35B-A3B-Cerebellum-GGUF (12 GB MoE)

⚙️ 本機 Server 啟動腳本配置 (Startup Scripts Setup)

請根據您的硬體環境點開下方對應的平台展開檢視，並複製對應的 .bat 啟動設定配置：

1. 🟢 高階顯卡 MTP 極速版 (20GB+ VRAM 專屬)

📂 點此展開檢視高階顯卡啟動腳本與參數優化

核心優勢：適合 RTX A4500 等 20GB+ 高階顯卡：
- 極速推理：透過 llama.cpp 內建預測頭（MTP）實現 5 倍推理速度提升。
- 超大上下文：配合 4-bit KV Cache 壓縮技術，無痛實現 128K 超大 Context 且完全不溢位（OOM）。
適合模型：首選 GRM-2.6-Opus-Heretic-Abliterated-MTP-IQ4_XS (15.3 GB) 或 Qwopus3.6-27B-v2-MTP-IQ4_XS (15.4 GB)。

⚡ NVIDIA MTP 效能調校精華 (Tuning Essence)：

MTP 自我投機解碼 (--spec-type draft-mtp)：免掛載外部小模型，推理速度狂飆 4x-5x（達 49 T/s）。
4-bit KV 快取壓縮 (-ctk q4_0 -ctv q4_0)：壓縮 KV Cache，節省 72% VRAM，大上下文不溢位。
P-cores 綁定 (--threads 8)：鎖定 8 顆實體 Performance Cores 以獲取最低延遲。

💻 BAT 啟動腳本範本 (NVIDIA MTP 旗艦版)：

[!IMPORTANT] ⚠️ 必做步驟：建立本機啟動檔時請務必修改路徑！ 下列腳本範本中，LLAMA_EXE 與 MODEL 預設為開發環境路徑（如 D:\MyProject\...）。在您首次執行前，請務必將這兩個變數修改為您本機的實際路徑！

💡 為了防範閃退，腳本中已內建了 「路徑自動校驗機制」，若路徑未修改或檔案不存在，啟動時將會在 Console 顯示錯誤警告並自動暫停（Pause），便於您排查！

@echo off
setlocal
title NVIDIA MTP Server [RTX A4500 20GB+ Max Performance]

:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: !!! CRITICAL: YOU MUST UPDATE THE PATHS BELOW TO REFLECT YOUR     !!!
:: !!! LOCAL ENVIRONMENT BEFORE RUNNING THIS SCRIPT.                 !!!
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: ====================================================================
:: [Configuration Paths] Please modify the paths below to match your system.
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set PORT=8080
set CTX_SIZE=131072

:: --------------------------------------------------------------------
:: [Model Selection] Uncomment the one you want to run.
:: --------------------------------------------------------------------
:: Option A: GRM-2.6-Opus-Heretic-Abliterated-MTP-IQ4_XS (15.3 GB) - DEFAULT
set MODEL=D:\MyProject\llama\GRM-2.6-Opus-Heretic-Abliterated-MTP-IQ4_XS.gguf

:: Option B: Qwopus3.6-27B-v2-MTP-IQ4_XS (15.4 GB)
:: set MODEL=D:\MyProject\llama\Qwopus3.6-27B-v2-MTP-GGUF.gguf

:: Verify paths exist before executing to prevent silent crashes
if not exist "%LLAMA_EXE%" (
    echo ========================================================
    echo [CRITICAL ERROR] llama-server.exe was not found at:
    echo "%LLAMA_EXE%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the LLAMA_EXE path variable to point to your actual executable!
    echo ========================================================
    pause
    exit /b
)

if not exist "%MODEL%" (
    echo ========================================================
    echo [CRITICAL ERROR] GGUF Model file was not found at:
    echo "%MODEL%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the MODEL path variable to point to your actual .gguf file!
    echo ========================================================
    pause
    exit /b
)

"%LLAMA_EXE%" ^
  -m "%MODEL%" ^
  -ngl 999 ^
  -c %CTX_SIZE% ^
  --host 127.0.0.1 ^
  --port %PORT% ^
  -np 1 ^
  -b 512 ^
  -ub 128 ^
  --spec-type draft-mtp ^
  --spec-draft-n-max 3 ^
  --spec-draft-ngl all ^
  --cache-type-k q4_0 ^
  --cache-type-v q4_0 ^
  --cache-type-kd q4_0 ^
  --cache-type-vd q4_0 ^
  --kv-unified ^
  --cache-ram 12288 ^
  --cache-idle-slots ^
  --flash-attn on ^
  --mmap ^
  --no-warmup ^
  --jinja ^
  --threads 8 ^
  --threads-batch 12 ^
  --prio 2 ^
  --reasoning-format deepseek ^
  --timeout 1200

pause

📖 NVIDIA 參數深度解析：

--spec-type draft-mtp & --spec-draft-ngl all：自動載入 GGUF 內建預測頭，並將 base model 與 draft heads 全數塞入 VRAM 進行 GPU 滿載加速。
-ctk q4_0 -ctv q4_0 與 -ctkd q4_0 -ctvd q4_0：將 KV Cache 進行 4-bit 量化壓縮，節省 72% VRAM！在 128K Context 時 KV 快取僅佔 ~200MB，徹底防範 VRAM 溢出。
--kv-unified：令主模型與預測頭共享 KV Buffer 快取以節省記憶體。
--cache-ram 12288：劃分 12GB 實體 RAM 快取對話上下文。多輪對話時，歷史脈絡直接載入，跳過 prompt re-eval 進程，解鎖 sub-second 首字輸出速度。
--threads 8：將計算線程強制鎖定在 Intel i7 的 8 顆 P-cores 實體效能核心上，防範系統將線程派發給 E-cores 或超線程中而拉高延遲。
--reasoning-format deepseek：自動提取模型推理時產生的 <think> 思考流，完美對接 Open WebUI 等折疊式思維泡泡 UI。

2. 🟡 中階顯卡 GPU 極速版 (16GB VRAM 專屬)

📂 點此展開檢視中階顯卡啟動腳本與效能調校精華

實體限制：16GB VRAM 扣除 Windows 系統與顯卡 WDDM 佔用後，實際僅剩約 14GB VRAM。若強行載入 15.4GB 的 27B 模型，會溢出至系統 RAM，因 PCIe 頻寬瓶頸使運算速度暴跌！
極佳解法：選用僅 12 GB 大小、敏感度引導量化的 Qwen3.6-35B-A3B-Cerebellum：
- 完全載入：將模型 100% 塞入 VRAM 運行，免受 PCIe 慢速交換所苦。
- 充沛空間：預留充足的 2.5GB 運算空間，供 Flash-Attention、量化 KV Cache 與多模態視覺投影暢行無阻。

⚡ NVIDIA GPU 卸載效能調校精華 (Tuning Essence)：

GPU 完全卸載 (-ngl 999)：確保 100% 的模型張量全數塞在 VRAM 中運行。
4-bit KV 快取壓縮 (-ctk q4_0 -ctv q4_0)：壓縮 KV 快取，預留大上下文空間.
物理線程綁定 (--threads 8)：由實體效能核心協同高頻調度。

💻 BAT 啟動腳本範本 (Cerebellum GPU 全卸載版)：

[!IMPORTANT] ⚠️ 必做步驟：建立本機啟動檔時請務必修改路徑！ 下列腳本範本中，LLAMA_EXE 與 MODEL 預設為開發環境路徑（如 D:\MyProject\...）。在您首次執行前，請務必將這兩個變數修改為您本機的實際路徑！

💡 為了防範閃退，腳本中已內建了 「路徑自動校驗機制」，若路徑未修改或檔案不存在，啟動時將會在 Console 顯示錯誤警告並自動暫停（Pause），便於您排查！

@echo off
setlocal
title Qwen3.6-35B-A3B-Cerebellum [NVIDIA GPU Offload - 16GB VRAM]

:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: !!! CRITICAL: YOU MUST UPDATE THE PATHS BELOW TO REFLECT YOUR     !!!
:: !!! LOCAL ENVIRONMENT BEFORE RUNNING THIS SCRIPT.                 !!!
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: ====================================================================
:: [Configuration Paths] Please modify the paths below to match your system.
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set MODEL=D:\MyProject\llama\Qwen3.6-35B-A3B-Cerebellum.gguf
set CTX_SIZE=32768
set PORT=8080

:: Verify paths exist before executing to prevent silent crashes
if not exist "%LLAMA_EXE%" (
    echo ========================================================
    echo [CRITICAL ERROR] llama-server.exe was not found at:
    echo "%LLAMA_EXE%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the LLAMA_EXE path variable to point to your actual executable!
    echo ========================================================
    pause
    exit /b
)

if not exist "%MODEL%" (
    echo ========================================================
    echo [CRITICAL ERROR] GGUF Model file was not found at:
    echo "%MODEL%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the MODEL path variable to point to your actual .gguf file!
    echo ========================================================
    pause
    exit /b
)

"%LLAMA_EXE%" ^
  -m "%MODEL%" ^
  -ngl 999 ^
  -c %CTX_SIZE% ^
  --host 127.0.0.1 ^
  --port %PORT% ^
  -np 1 ^
  -b 512 ^
  -ub 128 ^
  --cache-type-k q4_0 ^
  --cache-type-v q4_0 ^
  --flash-attn on ^
  --mmap ^
  --no-warmup ^
  --jinja ^
  --threads 8 ^
  --threads-batch 12 ^
  --prio 2 ^
  --timeout 1200

pause

3. 🔵 純 CPU 與大記憶體優化版 (無 GPU / 大 RAM 主機)

📂 點此展開檢視 CPU 啟動腳本與參數優化

物理優勢：系統記憶體 (RAM) 容量充沛且成本極低：
- 高上下文：16GB RAM 可輕鬆開啟 32K 上下文，32GB 記憶體更可直接拉滿至 128K 而不崩潰。
- 關鍵調整：必須關閉 MTP 投機解碼（因為 CPU 上啟用 MTP 反而會因頻寬爭搶而變慢）。
- 性能權衡：Prefill（提示詞預評估）速度較慢，但對話解碼速率相當穩定。
適合模型：首選 Qwen3.6-35B-A3B-Cerebellum (12 GB MoE 混合模型，推理時活化參數僅約 3B)，備用單體 Qwopus3.6-7B-IQ4_XS。

🛠️ CPU 效能調校精華 (Tuning Essence)：

關閉 GPU (-ngl 0)：強制算力全部保留在實體 CPU 與系統記憶體中。
鎖定 P-cores 實體效能核心 (--threads 8)：避免背景任務被分發至 E-cores，大幅降低解碼延遲。
記憶體 vs Prefill 速度權衡：32GB RAM 開 128K context 不會 OOM，但 CPU 頻寬低，Prefill 首字延遲 (TTFT) 會很長。

💻 BAT 啟動腳本範本 (CPU Optimized)：

[!IMPORTANT] ⚠️ 必做步驟：建立本機啟動檔時請務必修改路徑！ 下列腳本範本中，LLAMA_EXE 與 MODEL 預設為開發環境路徑（如 D:\MyProject\...）。在您首次執行前，請務必將這兩個變數修改為您本機的實際路徑！

💡 為了防範閃退，腳本中已內建了 「路徑自動校驗機制」，若路徑未修改或檔案不存在，啟動時將會在 Console 顯示錯誤警告並自動暫停（Pause），便於您排查！

@echo off
setlocal
title Llama.cpp CPU Server [Unified CPU Performance Tuning]

:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: !!! CRITICAL: YOU MUST UPDATE THE PATHS BELOW TO REFLECT YOUR     !!!
:: !!! LOCAL ENVIRONMENT BEFORE RUNNING THIS SCRIPT.                 !!!
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: ====================================================================
:: [Configuration Paths] Please modify the paths below to match your system.
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set PORT=8080
set CTX_SIZE=16384

:: --------------------------------------------------------------------
:: [Model Selection] Uncomment the one you want to run.
:: --------------------------------------------------------------------
:: Option A: Extreme MoE Player Choice (Qwen3.6-35B-A3B-Cerebellum 12GB GGUF) - RECOMMENDED
set MODEL=D:\MyProject\llama\Qwen3.6-35B-A3B-Cerebellum.gguf

:: Option B: High-Precision 7B CPU Baseline (Recommended IQ4_XS for balanced speed/quality)
:: set MODEL=D:\MyProject\llama\Qwopus3.6-7B-IQ4_XS.gguf

echo ========================================================
echo Starting Pure CPU LLM Server...
echo Model  : %MODEL%
echo Host   : http://127.0.0.1:%PORT%
echo Context: %CTX_SIZE% (16K optimized for CPU)
echo GPU    : Disabled (ngl 0)
echo Threads: P-core direct binding [8 Physical Cores]
echo ========================================================

:: Parameters Explained:
:: 1. ngl 0: Disables GPU offloading completely, forcing running on host CPU.
:: 2. c 16384: Default context size is 16K (optimized for general CPU speed).
::    Note: Huge physical RAM capacity is the core advantage of running on CPU.
::    - 16GB RAM: Easily scale context size (-c) up to 32K.
::    - 32GB RAM: Run high-precision quant (like IQ4_XS) and scale context size (-c) to 128K (131072) without OOM.
::    - 64GB+ RAM: Run larger models (27B/72B) with 128K+ context sizes fully unhindered.
::    However, since CPU memory bandwidth is lower than GPU, prefill speed (TTFT) scales slowly.
::    If you accept slower prefill times, feel free to adjust CTX_SIZE above to 131072 to unlock maximum capacity.
:: 3. threads 8: Binds thread pool directly to P-cores to prevent scheduling onto E-cores or hyperthreads.
:: 4. prio 2: High Priority in Windows to prevent background OS interrupts.
:: 5. Note on MTP (Speculative Decoding) on CPU: While llama.cpp supports MTP on CPU, testing shows
::    that enabling MTP does NOT speed up CPU inference. The draft head evaluation overhead and memory
::    bandwidth contention actually slow down decoding. Thus, MTP parameters are omitted here.

:: Verify paths exist before executing to prevent silent crashes
if not exist "%LLAMA_EXE%" (
    echo ========================================================
    echo [CRITICAL ERROR] llama-server.exe was not found at:
    echo "%LLAMA_EXE%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the LLAMA_EXE path variable to point to your actual executable!
    echo ========================================================
    pause
    exit /b
)

if not exist "%MODEL%" (
    echo ========================================================
    echo [CRITICAL ERROR] GGUF Model file was not found at:
    echo "%MODEL%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the MODEL path variable to point to your actual .gguf file!
    echo ========================================================
    pause
    exit /b
)

"%LLAMA_EXE%" ^
  -m "%MODEL%" ^
  -ngl 0 ^
  -c %CTX_SIZE% ^
  --host 127.0.0.1 ^
  --port %PORT% ^
  -np 1 ^
  -b 512 ^
  -ub 128 ^
  --mmap ^
  --no-warmup ^
  --jinja ^
  --threads 8 ^
  --threads-batch 12 ^
  --prio 2 ^
  --timeout 1200

pause

📖 CPU 參數深度解析：

-ngl 0：強制關閉所有 GPU offload，將運算全數留置在實體 CPU 與系統記憶體中。
-c 16384：預設設定為 16K 作為效能平衡點：
- 主記憶體優勢：CPU 運作的核心本錢在於系統主記憶體 (RAM) 相比 GPU 顯存 (VRAM) 便宜且容量巨大。在 CPU 模式下，完全不需要斤斤計較 VRAM OOM 溢位問題。
- 💡 RAM 容量與大 Context 對照表：
  - 16GB RAM：足夠載入 7B 模型並將 -c 輕鬆推至 32K 上下文。
  - 32GB RAM：能運行高精度模型，並直接將 -c 上下文開滿 128K (131072)（這在 20GB VRAM 的 GPU 上是極難實現的）。
  - 64GB+ RAM：可輕鬆運行 27B/72B 等中大型模型，並無痛開啟 128K 以上 的超巨型上下文。
⚠️ Prefill 效能權衡提醒 (核心 Trade-off)：
- 頻寬瓶頸：由於 CPU 記憶體頻寬遠不及 GPU 顯存，在 Prefill 階段 (提示詞預評估 / 載入大文字庫) 的速度會非常緩慢。
- 延遲代價：上下文開滿 128K 時，首字生成延遲 (Time to First Token, TTFT) 會顯著增加。
- 適用場景：特別適合「需要一次性讀入巨量上下文、且不介意首字等待時間」的任務（例如大型代碼庫重構、長文本合約分析）。若是這類場景，將 CPU 版本的 -c 開滿 128K 將會是您的最佳智力武器。
--threads 8 & --threads-batch 12：鎖定計算線程至 8 顆實體 P-cores（Performance cores），避免計算任務被分派到 E-cores（Efficient cores）或超線程中而大幅拉高生成延遲。
⚠️ 避免在 CPU 啟用 MTP 投機解碼 (Speculative Decoding)：
- 實測結論：實測證實，在純 CPU 模式下啟用 MTP 投機解碼並不能達到提速效果。
- 原因剖析：受限於 CPU 記憶體頻寬，額外評估 Draft heads 的計算開銷與頻寬爭搶反而會拖慢解碼速率。
- 應對方案：CPU 專用啟動設定已完全移除投機解碼參數，維持最純粹的標準解碼路徑。

🔵 軌道二：軟體框架與開發規範導入 (C.A.S.E. Framework)

軌道二專注於 AI Agent 的工程紀律管束。此處提倡 「Hybrid AI (雲端架構師 + 本地執行者)」 的高 CP 值開發流：

雲端前沿模型 (如 Claude/Gemini/GPT)：擔任 「架構師」，處理高智力規劃、大方向架構與關聯研究。
本地生態系 (如 Pi Agent + OmniHeal)：擔任 「執行者與稽核員」，進行極度消耗 Token 的「依序執行、代碼撰寫、TDD 測試與全案掃描」。

🚀 3 分鐘快速上手（將 C.A.S.E 規範一鍵植入任何 AI 專案）

只需簡單三步，就能將本專案的 C.A.S.E 規範無縫植入目前的任何 AI 專案中：

1️⃣ 第一步：一鍵下載 C.A.S.E. Agent 規則手冊 (CASE_framework_for_agents.md)

請在專案的根目錄下，開啟終端機並執行以下指令下載唯讀規則檔：

💻 Linux / macOS / Git Bash (cURL):

curl -fsSL https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/C.A.S.E._Framework/docs/for_agents.md -o CASE_framework_for_agents.md

💻 Windows (PowerShell):

Invoke-WebRequest -Uri "https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/C.A.S.E._Framework/docs/for_agents.md" -OutFile "CASE_framework_for_agents.md"

💡 說明：本指令僅會下載一個唯讀的 .md 規則文件，完全無任何代碼執行，絕無主機安全疑慮，亦不會覆蓋現有的任何開發檔案。

2️⃣ 第二步：給 AI Agent 貼上引導 Prompt

啟動 AI 輔助軟體（如 Claude Code、Codex、Antigravity CLI、Pi，或是 Cursor 等，若是 Cursor 則可使用 @ 參照下載的檔案），貼上以下 Prompt：

「請閱讀專案中的 CASE_framework_for_agents.md 文件。閱讀後，請分析目前專案結構，規劃如何以最合適的方式為本專案建立 C.A.S.E 物理目錄結構（包含 Constitution、Roadmap、Task_Queue 任務資料夾），並將此執行期規則妥善整合寫入長效記憶配置中（例如 CLAUDE.md、.cursorrules、gemini.md 或 memory.md 等對應位置）。在建立目錄與寫入配置前，請先報告規劃並取得同意。」

3️⃣ 第三步：檢閱並同意 AI 的自動配置

AI Agent 讀取 Prompt 後，將會自己動手完成：

分析目前的程式語言與專案結構。
自動建立 00_Constitution/、01_Roadmap/ 與 02_Task_Queue/ 等實體目錄。
自動將 C.A.S.E. 執行期規則妥善整合寫入到本機長效記憶配置中。

確認同意後，AI 就會自動設定妥當！完全不需要手動搬移任何檔案，安全、乾淨且優雅！

🌟 銜接自動化 Agent (Pi Coding Agent + Harness)

本地伺服器啟動後（預設運行於 http://127.0.0.1:8080），您就可以將其接入各類 Coding Agent： 👉 前往 CK's Pi Code Agent Harness (GitHub)

為什麼推薦此組合？

🛡️ 解決 Context 溢位：
- 雲端 CLI 工具（如 Claude Code）無法精準控制本地端的 auto-compact 觸發時機。
- Pi Agent 可完美對接並限制本地模型的 Context 規模，防止記憶體溢出。
⚡ 極致輕量化：
- 本地 GGUF 模型對冗餘 Token 極度敏感。
- Harness 精選核心 plugins 與 skills，能以最精簡的 Prompt 格式發揮本地模型最大智力。
👁️ 無縫整合健康診斷：
- 與 OmniHeal 診斷工具完美串接。
- 一鍵檢查專案的技術債，再交給本地算力進行無痛、免費的精準修復。

(若您仍需使用 Claude Code，只需在專案目錄下設定環境變數 set ANTHROPIC_BASE_URL=http://127.0.0.1:8080，並參考根目錄的 start_local_claude.bat 啟動。)

🔍 開發生態系三大核心 Tier 及延伸工具

🧠 Tier 1: 核心大腦 (Local-Agent-Workspace)：
- 定位：建立極致優化的 llama.cpp 本地伺服器。
- 作用：承接雲端架構師的規劃，作為無情消耗 Token 進行打底運算的強大本地算力引擎。
- 📍 您目前在這裡
🤖 Tier 2: 代理工程師 (CK's Pi Code Agent Harness)：
- 定位：混合開發的指揮樞紐。
- 任務：接收雲端模型開出的「任務菜單與 SOP」，在本地端化身為嚴守工程紀律的虛擬同事。
- 執行：按部就班地切換目標檔案、撰寫程式碼，並在本地嚴格執行 TDD 單元測試。
👁️ Tier 3: 全域修復雷達 (OmniHeal)：
- 定位：零安裝的全局專案健檢與自動修復診斷器。
- 任務：本地一鍵免費深潛分析，自動抓出專案中的技術債，並開立精準的修復處方箋。
- 優勢：解決全案掃描中最耗費 Token 的環節，並引導雲端模型或代理工程師進行針對性修復。

🏅 延伸工具：知識資產提煉

📝 InfoGold - 經歷提煉與知識資產增值：
- 定位：個人的「文字資產煉金助理」。
- 任務：將會議逐字稿、工作手稿、閱讀筆記等原始碎片資產，進行系統化增值。
- 流程：四部曲增值：洗礦 ➔ 精煉金磚 ➔ 圓桌思辨 ➔ 鑄造策略貨幣，讓「曾經發生過的事」持續產生知識複利。

💎 本地部署的四大核心優勢

🔒 物理性資料隔離： 程式碼與專案架構保留在本地，特別適合高度重視資料邊界、數位鑑識與 OSINT 封閉分析等專案。
🧠 高上下文容量： 透過優化的 KV 快取壓縮技術，在 20GB VRAM 下依然可支援至 128K+ Context。
🔓 任務連續性： 選擇特徵消融（Abliterated）模型，可避免 Agent 在執行特定分析腳本時因安全機制而強行中斷。
💰 成本效益： 適合頻繁開發與自動化迭代，無懼雲端 API 昂貴的 Token 費用。

🙏 參考先驅與開源致敬 (Prior Art & Acknowledgements)

💡 開發歷程與觀念驗證說明： 本專案的 C.A.S.E. 框架 與 Harness 控制座 設計理念，最初源於本地開發 AI Agent 的實戰過程，是在解決 AI 容易遺忘指令、幻覺謊報進度、重複除錯陷入「鬼打牆」，以及最讓開發者痛切的雲端 API「Quota (額度) 與 Token 費用焦慮」等實務痛點時，獨立摸索、設計並成功實踐出來的成果。

隨後，在瀏覽技術社群時，驚喜地發現 IBM Developer Advocate Tejas Kumar 於 AI Engineer Europe 2026 發表之經典專題演講中，也提出了極為相似的 Harness 控制座思維！這極大地驗證了本地實踐方向的正確性。因此，後續迅速參考並整合了 IBM 的大廠工程規範，將其精髓納入本專案的文檔中。在此向同樣獨立推動此工程觀念的先驅者致以最誠摯的敬意：

📺 經典演講影片：Harnesses in AI: A Deep Dive — Tejas Kumar, IBM (YouTube)
💻 官方開源示範：TejasQ/basically-ai-harness (GitHub)
🐦 講者社群連結：@TejasKumar_ (X/Twitter) | @TejasQ (GitHub)

強烈推薦所有使用本生態系的開發者觀看該演講，這將能讓您雙重印證「不該過度依賴寫死 Prompt，而應透過 Harness 外部程式碼與規則來管束黑盒子模型」的控制座工程核心思維。

📮 聯繫與交流

如果您在部署過程中有任何技術問題或參數優化的建議，歡迎透過以下管道聯繫：

Name		Name	Last commit message	Last commit date
Latest commit History 76 Commits
C.A.S.E._Framework		C.A.S.E._Framework
assets		assets
.gitignore		.gitignore
README.md		README.md
run-update.bat		run-update.bat
update-llama-cpp.ps1		update-llama-cpp.ps1

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🚀 Local-Agent-Workspace

本地 AI 極致壓榨與開發規範雙軌指南 (Hardware & Software Dual-Track Guide)

🟢 軌道一：硬體選型與本機算力極致壓榨 (Hardware Track)

📊 本地算力平台快速選取看板

📦 運算引擎與模型權重下載 (Llama.cpp & Models Download)

⚙️ 本機 Server 啟動腳本配置 (Startup Scripts Setup)

1. 🟢 高階顯卡 MTP 極速版 (20GB+ VRAM 專屬)

⚡ NVIDIA MTP 效能調校精華 (Tuning Essence)：

💻 BAT 啟動腳本範本 (NVIDIA MTP 旗艦版)：

📖 NVIDIA 參數深度解析：

2. 🟡 中階顯卡 GPU 極速版 (16GB VRAM 專屬)

⚡ NVIDIA GPU 卸載效能調校精華 (Tuning Essence)：

💻 BAT 啟動腳本範本 (Cerebellum GPU 全卸載版)：

3. 🔵 純 CPU 與大記憶體優化版 (無 GPU / 大 RAM 主機)

🛠️ CPU 效能調校精華 (Tuning Essence)：

💻 BAT 啟動腳本範本 (CPU Optimized)：

📖 CPU 參數深度解析：

🔵 軌道二：軟體框架與開發規範導入 (C.A.S.E. Framework)

🚀 3 分鐘快速上手（將 C.A.S.E 規範一鍵植入任何 AI 專案）

🌟 銜接自動化 Agent (Pi Coding Agent + Harness)

🔍 開發生態系三大核心 Tier 及延伸工具

🏅 延伸工具：知識資產提煉

💎 本地部署的四大核心優勢

🙏 參考先驅與開源致敬 (Prior Art & Acknowledgements)

📮 聯繫與交流

About

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🚀 Local-Agent-Workspace

本地 AI 極致壓榨與開發規範雙軌指南 (Hardware & Software Dual-Track Guide)

🟢 軌道一：硬體選型與本機算力極致壓榨 (Hardware Track)

📊 本地算力平台快速選取看板

📦 運算引擎與模型權重下載 (Llama.cpp & Models Download)

⚙️ 本機 Server 啟動腳本配置 (Startup Scripts Setup)

1. 🟢 高階顯卡 MTP 極速版 (20GB+ VRAM 專屬)

⚡ NVIDIA MTP 效能調校精華 (Tuning Essence)：

💻 BAT 啟動腳本範本 (NVIDIA MTP 旗艦版)：

📖 NVIDIA 參數深度解析：

2. 🟡 中階顯卡 GPU 極速版 (16GB VRAM 專屬)

⚡ NVIDIA GPU 卸載效能調校精華 (Tuning Essence)：

💻 BAT 啟動腳本範本 (Cerebellum GPU 全卸載版)：

3. 🔵 純 CPU 與大記憶體優化版 (無 GPU / 大 RAM 主機)

🛠️ CPU 效能調校精華 (Tuning Essence)：

💻 BAT 啟動腳本範本 (CPU Optimized)：

📖 CPU 參數深度解析：

🔵 軌道二：軟體框架與開發規範導入 (C.A.S.E. Framework)

🚀 3 分鐘快速上手（將 C.A.S.E 規範一鍵植入任何 AI 專案）

🌟 銜接自動化 Agent (Pi Coding Agent + Harness)

🔍 開發生態系三大核心 Tier 及延伸工具

🏅 延伸工具：知識資產提煉

💎 本地部署的四大核心優勢

🙏 參考先驅與開源致敬 (Prior Art & Acknowledgements)

📮 聯繫與交流

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Contributors

Uh oh!

Languages