Important
個人立場聲明: 本專案僅為個人技術研究分享,所有內容與參數調校均基於公開開源數據。專案內容不代表任何機關立場,亦不涉及任何公務機敏資料。
本專案提供兩大獨立且可平行參考的本地 AI 實戰維度:
graph TD
A["本地 AI 開發實戰專案 (Local-Agent-Workspace)"] --> B["🟢 軌道一:硬體選型與算力壓榨 (Hardware Track)"]
A --> C["🔵 軌道二:軟體框架與 AI 規範 (Software Track)"]
B --> B1["選擇硬體平台 -> 複製配置啟動本地 Server"]
C --> C1["一鍵植入 C.A.S.E 規則手冊 -> AI Agent 自動建立專案規範"]
| 硬體環境 (Hardware Platform) | 核心推薦模型 (Recommended Model) | 檔案大小 (Size) | 推理效能 (Inference Performance) |
|---|---|---|---|
| 高階顯卡 (20GB+ VRAM) | GRM-2.6-Opus 27B / Qwopus 27B | 15.3G / 15.4G | MTP 投機解碼 (~49 T/s) |
| 中階顯卡 (16GB VRAM) | Qwen3.6-35B-A3B-Cerebellum | 12 GB | GPU 全卸載 MoE 線性推理 |
| 純 CPU / 大 RAM (32GB+) | Qwen3.6-35B-A3B-Cerebellum | 12 GB | MoE+SSM 純 CPU 線性推理 |
- ⚡ 推薦一鍵自動更新:雙擊本專案根目錄的
run-update.bat即可全自動下載最新版llama.cpp並完成解壓合併。- 📥 一鍵下載更新腳本 (免克隆專案):於目標安裝資料夾開啟終端機,貼上執行以下指令即可直接取得更新雙檔:
- PowerShell:
Invoke-WebRequest -Uri "https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/run-update.bat" -OutFile "run-update.bat"; Invoke-WebRequest -Uri "https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/update-llama-cpp.ps1" -OutFile "update-llama-cpp.ps1"
- cURL (Git Bash/Linux):
curl -fsSL https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/run-update.bat -o run-update.bat && curl -fsSL https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/update-llama-cpp.ps1 -o update-llama-cpp.ps1
- PowerShell:
⚠️ 首次使用:請先以文字編輯器開啟update-llama-cpp.ps1,將第 6 行的$TargetDir = "D:\MyProject\llama"修改為您本機實際要安裝的資料夾路徑!
- 📥 一鍵下載更新腳本 (免克隆專案):於目標安裝資料夾開啟終端機,貼上執行以下指令即可直接取得更新雙檔:
- 📦 備用手動下載:前往 Llama.cpp Releases 下載以下雙檔解壓至同一個目錄:
- 推論引擎:
llama-b...-bin-win-cuda-cu12.4-x64.zip(推薦 cu12.4 版本) - 運行依賴:
cudart-llama-bin-win-cu12.4-x64.zip
- 推論引擎:
- 🧠 推薦模型下載:
- 🔥 NVIDIA 首選:GRM-2.6-Opus-Heretic-Abliterated-MTP-i1-GGUF (15.3 GB) (高階顯卡強烈推薦,啟用 MTP 極速推理)
- ⚡ NVIDIA 次選:Qwopus3.6-27B-v2-MTP-GGUF (15.4 GB)
- 🧠 CPU / 中階顯卡最適:Qwen3.6-35B-A3B-Cerebellum-GGUF (12 GB MoE)
請根據您的硬體環境點開下方對應的平台展開檢視,並複製對應的 .bat 啟動設定配置:
📂 點此展開檢視高階顯卡啟動腳本與參數優化
- 核心優勢:適合 RTX A4500 等 20GB+ 高階顯卡:
- 極速推理:透過
llama.cpp內建預測頭(MTP)實現 5 倍推理速度提升。 - 超大上下文:配合 4-bit KV Cache 壓縮技術,無痛實現 128K 超大 Context 且完全不溢位(OOM)。
- 極速推理:透過
- 適合模型:首選
GRM-2.6-Opus-Heretic-Abliterated-MTP-IQ4_XS(15.3 GB) 或Qwopus3.6-27B-v2-MTP-IQ4_XS(15.4 GB)。
- MTP 自我投機解碼 (
--spec-type draft-mtp):免掛載外部小模型,推理速度狂飆 4x-5x(達 49 T/s)。 - 4-bit KV 快取壓縮 (
-ctk q4_0 -ctv q4_0):壓縮 KV Cache,節省 72% VRAM,大上下文不溢位。 - P-cores 綁定 (
--threads 8):鎖定 8 顆實體 Performance Cores 以獲取最低延遲。
[!IMPORTANT]
⚠️ 必做步驟:建立本機啟動檔時請務必修改路徑! 下列腳本範本中,LLAMA_EXE與MODEL預設為開發環境路徑(如D:\MyProject\...)。在您首次執行前,請務必將這兩個變數修改為您本機的實際路徑!
- 💡 為了防範閃退,腳本中已內建了 「路徑自動校驗機制」,若路徑未修改或檔案不存在,啟動時將會在 Console 顯示錯誤警告並自動暫停(Pause),便於您排查!
@echo off
setlocal
title NVIDIA MTP Server [RTX A4500 20GB+ Max Performance]
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: !!! CRITICAL: YOU MUST UPDATE THE PATHS BELOW TO REFLECT YOUR !!!
:: !!! LOCAL ENVIRONMENT BEFORE RUNNING THIS SCRIPT. !!!
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: ====================================================================
:: [Configuration Paths] Please modify the paths below to match your system.
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set PORT=8080
set CTX_SIZE=131072
:: --------------------------------------------------------------------
:: [Model Selection] Uncomment the one you want to run.
:: --------------------------------------------------------------------
:: Option A: GRM-2.6-Opus-Heretic-Abliterated-MTP-IQ4_XS (15.3 GB) - DEFAULT
set MODEL=D:\MyProject\llama\GRM-2.6-Opus-Heretic-Abliterated-MTP-IQ4_XS.gguf
:: Option B: Qwopus3.6-27B-v2-MTP-IQ4_XS (15.4 GB)
:: set MODEL=D:\MyProject\llama\Qwopus3.6-27B-v2-MTP-GGUF.gguf
:: Verify paths exist before executing to prevent silent crashes
if not exist "%LLAMA_EXE%" (
echo ========================================================
echo [CRITICAL ERROR] llama-server.exe was not found at:
echo "%LLAMA_EXE%"
echo.
echo Please open this .bat file in a text editor and update
echo the LLAMA_EXE path variable to point to your actual executable!
echo ========================================================
pause
exit /b
)
if not exist "%MODEL%" (
echo ========================================================
echo [CRITICAL ERROR] GGUF Model file was not found at:
echo "%MODEL%"
echo.
echo Please open this .bat file in a text editor and update
echo the MODEL path variable to point to your actual .gguf file!
echo ========================================================
pause
exit /b
)
"%LLAMA_EXE%" ^
-m "%MODEL%" ^
-ngl 999 ^
-c %CTX_SIZE% ^
--host 127.0.0.1 ^
--port %PORT% ^
-np 1 ^
-b 512 ^
-ub 128 ^
--spec-type draft-mtp ^
--spec-draft-n-max 3 ^
--spec-draft-ngl all ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--cache-type-kd q4_0 ^
--cache-type-vd q4_0 ^
--kv-unified ^
--cache-ram 12288 ^
--cache-idle-slots ^
--flash-attn on ^
--mmap ^
--no-warmup ^
--jinja ^
--threads 8 ^
--threads-batch 12 ^
--prio 2 ^
--reasoning-format deepseek ^
--timeout 1200
pause--spec-type draft-mtp&--spec-draft-ngl all:自動載入 GGUF 內建預測頭,並將 base model 與 draft heads 全數塞入 VRAM 進行 GPU 滿載加速。-ctk q4_0 -ctv q4_0與-ctkd q4_0 -ctvd q4_0:將 KV Cache 進行 4-bit 量化壓縮,節省 72% VRAM!在 128K Context 時 KV 快取僅佔 ~200MB,徹底防範 VRAM 溢出。--kv-unified:令主模型與預測頭共享 KV Buffer 快取以節省記憶體。--cache-ram 12288:劃分 12GB 實體 RAM 快取對話上下文。多輪對話時,歷史脈絡直接載入,跳過 prompt re-eval 進程,解鎖 sub-second 首字輸出速度。--threads 8:將計算線程強制鎖定在 Intel i7 的 8 顆 P-cores 實體效能核心上,防範系統將線程派發給 E-cores 或超線程中而拉高延遲。--reasoning-format deepseek:自動提取模型推理時產生的<think>思考流,完美對接 Open WebUI 等折疊式思維泡泡 UI。
📂 點此展開檢視中階顯卡啟動腳本與效能調校精華
- 實體限制:16GB VRAM 扣除 Windows 系統與顯卡 WDDM 佔用後,實際僅剩約 14GB VRAM。若強行載入 15.4GB 的 27B 模型,會溢出至系統 RAM,因 PCIe 頻寬瓶頸使運算速度暴跌!
- 極佳解法:選用僅 12 GB 大小、敏感度引導量化的
Qwen3.6-35B-A3B-Cerebellum:- 完全載入:將模型 100% 塞入 VRAM 運行,免受 PCIe 慢速交換所苦。
- 充沛空間:預留充足的 2.5GB 運算空間,供 Flash-Attention、量化 KV Cache 與多模態視覺投影暢行無阻。
- GPU 完全卸載 (
-ngl 999):確保 100% 的模型張量全數塞在 VRAM 中運行。 - 4-bit KV 快取壓縮 (
-ctk q4_0 -ctv q4_0):壓縮 KV 快取,預留大上下文空間. - 物理線程綁定 (
--threads 8):由實體效能核心協同高頻調度。
[!IMPORTANT]
⚠️ 必做步驟:建立本機啟動檔時請務必修改路徑! 下列腳本範本中,LLAMA_EXE與MODEL預設為開發環境路徑(如D:\MyProject\...)。在您首次執行前,請務必將這兩個變數修改為您本機的實際路徑!
- 💡 為了防範閃退,腳本中已內建了 「路徑自動校驗機制」,若路徑未修改或檔案不存在,啟動時將會在 Console 顯示錯誤警告並自動暫停(Pause),便於您排查!
@echo off
setlocal
title Qwen3.6-35B-A3B-Cerebellum [NVIDIA GPU Offload - 16GB VRAM]
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: !!! CRITICAL: YOU MUST UPDATE THE PATHS BELOW TO REFLECT YOUR !!!
:: !!! LOCAL ENVIRONMENT BEFORE RUNNING THIS SCRIPT. !!!
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: ====================================================================
:: [Configuration Paths] Please modify the paths below to match your system.
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set MODEL=D:\MyProject\llama\Qwen3.6-35B-A3B-Cerebellum.gguf
set CTX_SIZE=32768
set PORT=8080
:: Verify paths exist before executing to prevent silent crashes
if not exist "%LLAMA_EXE%" (
echo ========================================================
echo [CRITICAL ERROR] llama-server.exe was not found at:
echo "%LLAMA_EXE%"
echo.
echo Please open this .bat file in a text editor and update
echo the LLAMA_EXE path variable to point to your actual executable!
echo ========================================================
pause
exit /b
)
if not exist "%MODEL%" (
echo ========================================================
echo [CRITICAL ERROR] GGUF Model file was not found at:
echo "%MODEL%"
echo.
echo Please open this .bat file in a text editor and update
echo the MODEL path variable to point to your actual .gguf file!
echo ========================================================
pause
exit /b
)
"%LLAMA_EXE%" ^
-m "%MODEL%" ^
-ngl 999 ^
-c %CTX_SIZE% ^
--host 127.0.0.1 ^
--port %PORT% ^
-np 1 ^
-b 512 ^
-ub 128 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--flash-attn on ^
--mmap ^
--no-warmup ^
--jinja ^
--threads 8 ^
--threads-batch 12 ^
--prio 2 ^
--timeout 1200
pause📂 點此展開檢視 CPU 啟動腳本與參數優化
- 物理優勢:系統記憶體 (RAM) 容量充沛且成本極低:
- 高上下文:16GB RAM 可輕鬆開啟 32K 上下文,32GB 記憶體更可直接拉滿至 128K 而不崩潰。
- 關鍵調整:必須關閉 MTP 投機解碼(因為 CPU 上啟用 MTP 反而會因頻寬爭搶而變慢)。
- 性能權衡:Prefill(提示詞預評估)速度較慢,但對話解碼速率相當穩定。
- 適合模型:首選
Qwen3.6-35B-A3B-Cerebellum(12 GB MoE 混合模型,推理時活化參數僅約 3B),備用單體Qwopus3.6-7B-IQ4_XS。
- 關閉 GPU (
-ngl 0):強制算力全部保留在實體 CPU 與系統記憶體中。 - 鎖定 P-cores 實體效能核心 (
--threads 8):避免背景任務被分發至 E-cores,大幅降低解碼延遲。 - 記憶體 vs Prefill 速度權衡:32GB RAM 開 128K context 不會 OOM,但 CPU 頻寬低,Prefill 首字延遲 (TTFT) 會很長。
[!IMPORTANT]
⚠️ 必做步驟:建立本機啟動檔時請務必修改路徑! 下列腳本範本中,LLAMA_EXE與MODEL預設為開發環境路徑(如D:\MyProject\...)。在您首次執行前,請務必將這兩個變數修改為您本機的實際路徑!
- 💡 為了防範閃退,腳本中已內建了 「路徑自動校驗機制」,若路徑未修改或檔案不存在,啟動時將會在 Console 顯示錯誤警告並自動暫停(Pause),便於您排查!
@echo off
setlocal
title Llama.cpp CPU Server [Unified CPU Performance Tuning]
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: !!! CRITICAL: YOU MUST UPDATE THE PATHS BELOW TO REFLECT YOUR !!!
:: !!! LOCAL ENVIRONMENT BEFORE RUNNING THIS SCRIPT. !!!
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: ====================================================================
:: [Configuration Paths] Please modify the paths below to match your system.
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set PORT=8080
set CTX_SIZE=16384
:: --------------------------------------------------------------------
:: [Model Selection] Uncomment the one you want to run.
:: --------------------------------------------------------------------
:: Option A: Extreme MoE Player Choice (Qwen3.6-35B-A3B-Cerebellum 12GB GGUF) - RECOMMENDED
set MODEL=D:\MyProject\llama\Qwen3.6-35B-A3B-Cerebellum.gguf
:: Option B: High-Precision 7B CPU Baseline (Recommended IQ4_XS for balanced speed/quality)
:: set MODEL=D:\MyProject\llama\Qwopus3.6-7B-IQ4_XS.gguf
echo ========================================================
echo Starting Pure CPU LLM Server...
echo Model : %MODEL%
echo Host : http://127.0.0.1:%PORT%
echo Context: %CTX_SIZE% (16K optimized for CPU)
echo GPU : Disabled (ngl 0)
echo Threads: P-core direct binding [8 Physical Cores]
echo ========================================================
:: Parameters Explained:
:: 1. ngl 0: Disables GPU offloading completely, forcing running on host CPU.
:: 2. c 16384: Default context size is 16K (optimized for general CPU speed).
:: Note: Huge physical RAM capacity is the core advantage of running on CPU.
:: - 16GB RAM: Easily scale context size (-c) up to 32K.
:: - 32GB RAM: Run high-precision quant (like IQ4_XS) and scale context size (-c) to 128K (131072) without OOM.
:: - 64GB+ RAM: Run larger models (27B/72B) with 128K+ context sizes fully unhindered.
:: However, since CPU memory bandwidth is lower than GPU, prefill speed (TTFT) scales slowly.
:: If you accept slower prefill times, feel free to adjust CTX_SIZE above to 131072 to unlock maximum capacity.
:: 3. threads 8: Binds thread pool directly to P-cores to prevent scheduling onto E-cores or hyperthreads.
:: 4. prio 2: High Priority in Windows to prevent background OS interrupts.
:: 5. Note on MTP (Speculative Decoding) on CPU: While llama.cpp supports MTP on CPU, testing shows
:: that enabling MTP does NOT speed up CPU inference. The draft head evaluation overhead and memory
:: bandwidth contention actually slow down decoding. Thus, MTP parameters are omitted here.
:: Verify paths exist before executing to prevent silent crashes
if not exist "%LLAMA_EXE%" (
echo ========================================================
echo [CRITICAL ERROR] llama-server.exe was not found at:
echo "%LLAMA_EXE%"
echo.
echo Please open this .bat file in a text editor and update
echo the LLAMA_EXE path variable to point to your actual executable!
echo ========================================================
pause
exit /b
)
if not exist "%MODEL%" (
echo ========================================================
echo [CRITICAL ERROR] GGUF Model file was not found at:
echo "%MODEL%"
echo.
echo Please open this .bat file in a text editor and update
echo the MODEL path variable to point to your actual .gguf file!
echo ========================================================
pause
exit /b
)
"%LLAMA_EXE%" ^
-m "%MODEL%" ^
-ngl 0 ^
-c %CTX_SIZE% ^
--host 127.0.0.1 ^
--port %PORT% ^
-np 1 ^
-b 512 ^
-ub 128 ^
--mmap ^
--no-warmup ^
--jinja ^
--threads 8 ^
--threads-batch 12 ^
--prio 2 ^
--timeout 1200
pause-ngl 0:強制關閉所有 GPU offload,將運算全數留置在實體 CPU 與系統記憶體中。-c 16384:預設設定為 16K 作為效能平衡點:- 主記憶體優勢:CPU 運作的核心本錢在於系統主記憶體 (RAM) 相比 GPU 顯存 (VRAM) 便宜且容量巨大。在 CPU 模式下,完全不需要斤斤計較 VRAM OOM 溢位問題。
- 💡 RAM 容量與大 Context 對照表:
- 16GB RAM:足夠載入 7B 模型並將
-c輕鬆推至 32K 上下文。 - 32GB RAM:能運行高精度模型,並直接將
-c上下文開滿 128K (131072)(這在 20GB VRAM 的 GPU 上是極難實現的)。 - 64GB+ RAM:可輕鬆運行 27B/72B 等中大型模型,並無痛開啟 128K 以上 的超巨型上下文。
- 16GB RAM:足夠載入 7B 模型並將
⚠️ Prefill 效能權衡提醒 (核心 Trade-off):- 頻寬瓶頸:由於 CPU 記憶體頻寬遠不及 GPU 顯存,在 Prefill 階段 (提示詞預評估 / 載入大文字庫) 的速度會非常緩慢。
- 延遲代價:上下文開滿 128K 時,首字生成延遲 (Time to First Token, TTFT) 會顯著增加。
- 適用場景:特別適合「需要一次性讀入巨量上下文、且不介意首字等待時間」的任務(例如大型代碼庫重構、長文本合約分析)。若是這類場景,將 CPU 版本的
-c開滿 128K 將會是您的最佳智力武器。
--threads 8&--threads-batch 12:鎖定計算線程至 8 顆實體 P-cores(Performance cores),避免計算任務被分派到 E-cores(Efficient cores)或超線程中而大幅拉高生成延遲。⚠️ 避免在 CPU 啟用 MTP 投機解碼 (Speculative Decoding):- 實測結論:實測證實,在純 CPU 模式下啟用 MTP 投機解碼並不能達到提速效果。
- 原因剖析:受限於 CPU 記憶體頻寬,額外評估 Draft heads 的計算開銷與頻寬爭搶反而會拖慢解碼速率。
- 應對方案:CPU 專用啟動設定已完全移除投機解碼參數,維持最純粹的標準解碼路徑。
軌道二專注於 AI Agent 的工程紀律管束。此處提倡 「Hybrid AI (雲端架構師 + 本地執行者)」 的高 CP 值開發流:
- 雲端前沿模型 (如 Claude/Gemini/GPT):擔任 「架構師」,處理高智力規劃、大方向架構與關聯研究。
- 本地生態系 (如 Pi Agent + OmniHeal):擔任 「執行者與稽核員」,進行極度消耗 Token 的「依序執行、代碼撰寫、TDD 測試與全案掃描」。
只需簡單三步,就能將本專案的 C.A.S.E 規範無縫植入目前的任何 AI 專案中:
1️⃣ 第一步:一鍵下載 C.A.S.E. Agent 規則手冊 (CASE_framework_for_agents.md)
請在專案的根目錄下,開啟終端機並執行以下指令下載唯讀規則檔:
- 💻 Linux / macOS / Git Bash (cURL):
curl -fsSL https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/C.A.S.E._Framework/docs/for_agents.md -o CASE_framework_for_agents.md
- 💻 Windows (PowerShell):
Invoke-WebRequest -Uri "https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/C.A.S.E._Framework/docs/for_agents.md" -OutFile "CASE_framework_for_agents.md"
💡 說明:本指令僅會下載一個唯讀的
.md規則文件,完全無任何代碼執行,絕無主機安全疑慮,亦不會覆蓋現有的任何開發檔案。
2️⃣ 第二步:給 AI Agent 貼上引導 Prompt
啟動 AI 輔助軟體(如 Claude Code、Codex、Antigravity CLI、Pi,或是 Cursor 等,若是 Cursor 則可使用 @ 參照下載的檔案),貼上以下 Prompt:
「請閱讀專案中的 CASE_framework_for_agents.md 文件。閱讀後,請分析目前專案結構,規劃如何以最合適的方式為本專案建立 C.A.S.E 物理目錄結構(包含 Constitution、Roadmap、Task_Queue 任務資料夾),並將此執行期規則妥善整合寫入長效記憶配置中(例如
CLAUDE.md、.cursorrules、gemini.md或memory.md等對應位置)。在建立目錄與寫入配置前,請先報告規劃並取得同意。」
3️⃣ 第三步:檢閱並同意 AI 的自動配置
AI Agent 讀取 Prompt 後,將會自己動手完成:
- 分析目前的程式語言與專案結構。
- 自動建立
00_Constitution/、01_Roadmap/與02_Task_Queue/等實體目錄。 - 自動將 C.A.S.E. 執行期規則妥善整合寫入到本機長效記憶配置中。
確認同意後,AI 就會自動設定妥當!完全不需要手動搬移任何檔案,安全、乾淨且優雅!
本地伺服器啟動後(預設運行於 http://127.0.0.1:8080),您就可以將其接入各類 Coding Agent:
👉 前往 CK's Pi Code Agent Harness (GitHub)
為什麼推薦此組合?
- 🛡️ 解決 Context 溢位:
- 雲端 CLI 工具(如 Claude Code)無法精準控制本地端的 auto-compact 觸發時機。
- Pi Agent 可完美對接並限制本地模型的 Context 規模,防止記憶體溢出。
- ⚡ 極致輕量化:
- 本地 GGUF 模型對冗餘 Token 極度敏感。
- Harness 精選核心 plugins 與 skills,能以最精簡的 Prompt 格式發揮本地模型最大智力。
- 👁️ 無縫整合健康診斷:
- 與 OmniHeal 診斷工具完美串接。
- 一鍵檢查專案的技術債,再交給本地算力進行無痛、免費的精準修復。
(若您仍需使用 Claude Code,只需在專案目錄下設定環境變數 set ANTHROPIC_BASE_URL=http://127.0.0.1:8080,並參考根目錄的 start_local_claude.bat 啟動。)
- 🧠 Tier 1: 核心大腦 (Local-Agent-Workspace):
- 定位:建立極致優化的
llama.cpp本地伺服器。 - 作用:承接雲端架構師的規劃,作為無情消耗 Token 進行打底運算的強大本地算力引擎。
- 📍 您目前在這裡
- 定位:建立極致優化的
- 🤖 Tier 2: 代理工程師 (CK's Pi Code Agent Harness):
- 定位:混合開發的指揮樞紐。
- 任務:接收雲端模型開出的「任務菜單與 SOP」,在本地端化身為嚴守工程紀律的虛擬同事。
- 執行:按部就班地切換目標檔案、撰寫程式碼,並在本地嚴格執行 TDD 單元測試。
- 👁️ Tier 3: 全域修復雷達 (OmniHeal):
- 定位:零安裝的全局專案健檢與自動修復診斷器。
- 任務:本地一鍵免費深潛分析,自動抓出專案中的技術債,並開立精準的修復處方箋。
- 優勢:解決全案掃描中最耗費 Token 的環節,並引導雲端模型或代理工程師進行針對性修復。
- 📝 InfoGold - 經歷提煉與知識資產增值:
- 定位:個人的「文字資產煉金助理」。
- 任務:將會議逐字稿、工作手稿、閱讀筆記等原始碎片資產,進行系統化增值。
- 流程:四部曲增值:洗礦 ➔ 精煉金磚 ➔ 圓桌思辨 ➔ 鑄造策略貨幣,讓「曾經發生過的事」持續產生知識複利。
- 🔒 物理性資料隔離: 程式碼與專案架構保留在本地,特別適合高度重視資料邊界、數位鑑識與 OSINT 封閉分析等專案。
- 🧠 高上下文容量: 透過優化的 KV 快取壓縮技術,在 20GB VRAM 下依然可支援至 128K+ Context。
- 🔓 任務連續性: 選擇特徵消融(Abliterated)模型,可避免 Agent 在執行特定分析腳本時因安全機制而強行中斷。
- 💰 成本效益: 適合頻繁開發與自動化迭代,無懼雲端 API 昂貴的 Token 費用。
💡 開發歷程與觀念驗證說明: 本專案的 C.A.S.E. 框架 與 Harness 控制座 設計理念,最初源於本地開發 AI Agent 的實戰過程,是在解決 AI 容易遺忘指令、幻覺謊報進度、重複除錯陷入「鬼打牆」,以及最讓開發者痛切的雲端 API「Quota (額度) 與 Token 費用焦慮」等實務痛點時,獨立摸索、設計並成功實踐出來的成果。
隨後,在瀏覽技術社群時,驚喜地發現 IBM Developer Advocate Tejas Kumar 於 AI Engineer Europe 2026 發表之經典專題演講中,也提出了極為相似的 Harness 控制座思維!這極大地驗證了本地實踐方向的正確性。因此,後續迅速參考並整合了 IBM 的大廠工程規範,將其精髓納入本專案的文檔中。在此向同樣獨立推動此工程觀念的先驅者致以最誠摯的敬意:
- 📺 經典演講影片:Harnesses in AI: A Deep Dive — Tejas Kumar, IBM (YouTube)
- 💻 官方開源示範:TejasQ/basically-ai-harness (GitHub)
- 🐦 講者社群連結:@TejasKumar_ (X/Twitter) | @TejasQ (GitHub)
強烈推薦所有使用本生態系的開發者觀看該演講,這將能讓您雙重印證「不該過度依賴寫死 Prompt,而應透過 Harness 外部程式碼與規則來管束黑盒子模型」的控制座工程核心思維。
如果您在部署過程中有任何技術問題或參數優化的建議,歡迎透過以下管道聯繫: