Skip to content

Chiakai-Chang/Local-Agent-Workspace

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

76 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🚀 Local-Agent-Workspace

Important

個人立場聲明: 本專案僅為個人技術研究分享,所有內容與參數調校均基於公開開源數據。專案內容不代表任何機關立場,亦不涉及任何公務機敏資料。

本地 AI 極致壓榨與開發規範雙軌指南 (Hardware & Software Dual-Track Guide)

本專案提供兩大獨立且可平行參考的本地 AI 實戰維度:

graph TD
    A["本地 AI 開發實戰專案 (Local-Agent-Workspace)"] --> B["🟢 軌道一:硬體選型與算力壓榨 (Hardware Track)"]
    A --> C["🔵 軌道二:軟體框架與 AI 規範 (Software Track)"]
    B --> B1["選擇硬體平台 -> 複製配置啟動本地 Server"]
    C --> C1["一鍵植入 C.A.S.E 規則手冊 -> AI Agent 自動建立專案規範"]
Loading

🟢 軌道一:硬體選型與本機算力極致壓榨 (Hardware Track)

📊 本地算力平台快速選取看板

硬體環境 (Hardware Platform) 核心推薦模型 (Recommended Model) 檔案大小 (Size) 推理效能 (Inference Performance)
高階顯卡 (20GB+ VRAM) GRM-2.6-Opus 27B / Qwopus 27B 15.3G / 15.4G MTP 投機解碼 (~49 T/s)
中階顯卡 (16GB VRAM) Qwen3.6-35B-A3B-Cerebellum 12 GB GPU 全卸載 MoE 線性推理
純 CPU / 大 RAM (32GB+) Qwen3.6-35B-A3B-Cerebellum 12 GB MoE+SSM 純 CPU 線性推理

📦 運算引擎與模型權重下載 (Llama.cpp & Models Download)

  • ⚡ 推薦一鍵自動更新:雙擊本專案根目錄的 run-update.bat 即可全自動下載最新版 llama.cpp 並完成解壓合併。
    • 📥 一鍵下載更新腳本 (免克隆專案):於目標安裝資料夾開啟終端機,貼上執行以下指令即可直接取得更新雙檔:
      • PowerShell:
        Invoke-WebRequest -Uri "https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/run-update.bat" -OutFile "run-update.bat"; Invoke-WebRequest -Uri "https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/update-llama-cpp.ps1" -OutFile "update-llama-cpp.ps1"
      • cURL (Git Bash/Linux):
        curl -fsSL https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/run-update.bat -o run-update.bat && curl -fsSL https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/update-llama-cpp.ps1 -o update-llama-cpp.ps1
    • ⚠️ 首次使用:請先以文字編輯器開啟 update-llama-cpp.ps1,將第 6 行的 $TargetDir = "D:\MyProject\llama" 修改為您本機實際要安裝的資料夾路徑!
  • 📦 備用手動下載:前往 Llama.cpp Releases 下載以下雙檔解壓至同一個目錄:
    1. 推論引擎llama-b...-bin-win-cuda-cu12.4-x64.zip (推薦 cu12.4 版本)
    2. 運行依賴cudart-llama-bin-win-cu12.4-x64.zip
  • 🧠 推薦模型下載

⚙️ 本機 Server 啟動腳本配置 (Startup Scripts Setup)

請根據您的硬體環境點開下方對應的平台展開檢視,並複製對應的 .bat 啟動設定配置:


1. 🟢 高階顯卡 MTP 極速版 (20GB+ VRAM 專屬)

📂 點此展開檢視高階顯卡啟動腳本與參數優化
  • 核心優勢:適合 RTX A4500 等 20GB+ 高階顯卡:
    • 極速推理:透過 llama.cpp 內建預測頭(MTP)實現 5 倍推理速度提升
    • 超大上下文:配合 4-bit KV Cache 壓縮技術,無痛實現 128K 超大 Context 且完全不溢位(OOM)。
  • 適合模型:首選 GRM-2.6-Opus-Heretic-Abliterated-MTP-IQ4_XS (15.3 GB) 或 Qwopus3.6-27B-v2-MTP-IQ4_XS (15.4 GB)。
⚡ NVIDIA MTP 效能調校精華 (Tuning Essence):
  • MTP 自我投機解碼 (--spec-type draft-mtp):免掛載外部小模型,推理速度狂飆 4x-5x(達 49 T/s)。
  • 4-bit KV 快取壓縮 (-ctk q4_0 -ctv q4_0):壓縮 KV Cache,節省 72% VRAM,大上下文不溢位。
  • P-cores 綁定 (--threads 8):鎖定 8 顆實體 Performance Cores 以獲取最低延遲。
💻 BAT 啟動腳本範本 (NVIDIA MTP 旗艦版):

[!IMPORTANT] ⚠️ 必做步驟:建立本機啟動檔時請務必修改路徑! 下列腳本範本中,LLAMA_EXEMODEL 預設為開發環境路徑(如 D:\MyProject\...)。在您首次執行前,請務必將這兩個變數修改為您本機的實際路徑!

  • 💡 為了防範閃退,腳本中已內建了 「路徑自動校驗機制」,若路徑未修改或檔案不存在,啟動時將會在 Console 顯示錯誤警告並自動暫停(Pause),便於您排查!
@echo off
setlocal
title NVIDIA MTP Server [RTX A4500 20GB+ Max Performance]

:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: !!! CRITICAL: YOU MUST UPDATE THE PATHS BELOW TO REFLECT YOUR     !!!
:: !!! LOCAL ENVIRONMENT BEFORE RUNNING THIS SCRIPT.                 !!!
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: ====================================================================
:: [Configuration Paths] Please modify the paths below to match your system.
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set PORT=8080
set CTX_SIZE=131072

:: --------------------------------------------------------------------
:: [Model Selection] Uncomment the one you want to run.
:: --------------------------------------------------------------------
:: Option A: GRM-2.6-Opus-Heretic-Abliterated-MTP-IQ4_XS (15.3 GB) - DEFAULT
set MODEL=D:\MyProject\llama\GRM-2.6-Opus-Heretic-Abliterated-MTP-IQ4_XS.gguf

:: Option B: Qwopus3.6-27B-v2-MTP-IQ4_XS (15.4 GB)
:: set MODEL=D:\MyProject\llama\Qwopus3.6-27B-v2-MTP-GGUF.gguf

:: Verify paths exist before executing to prevent silent crashes
if not exist "%LLAMA_EXE%" (
    echo ========================================================
    echo [CRITICAL ERROR] llama-server.exe was not found at:
    echo "%LLAMA_EXE%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the LLAMA_EXE path variable to point to your actual executable!
    echo ========================================================
    pause
    exit /b
)

if not exist "%MODEL%" (
    echo ========================================================
    echo [CRITICAL ERROR] GGUF Model file was not found at:
    echo "%MODEL%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the MODEL path variable to point to your actual .gguf file!
    echo ========================================================
    pause
    exit /b
)

"%LLAMA_EXE%" ^
  -m "%MODEL%" ^
  -ngl 999 ^
  -c %CTX_SIZE% ^
  --host 127.0.0.1 ^
  --port %PORT% ^
  -np 1 ^
  -b 512 ^
  -ub 128 ^
  --spec-type draft-mtp ^
  --spec-draft-n-max 3 ^
  --spec-draft-ngl all ^
  --cache-type-k q4_0 ^
  --cache-type-v q4_0 ^
  --cache-type-kd q4_0 ^
  --cache-type-vd q4_0 ^
  --kv-unified ^
  --cache-ram 12288 ^
  --cache-idle-slots ^
  --flash-attn on ^
  --mmap ^
  --no-warmup ^
  --jinja ^
  --threads 8 ^
  --threads-batch 12 ^
  --prio 2 ^
  --reasoning-format deepseek ^
  --timeout 1200

pause
📖 NVIDIA 參數深度解析:
  • --spec-type draft-mtp & --spec-draft-ngl all:自動載入 GGUF 內建預測頭,並將 base model 與 draft heads 全數塞入 VRAM 進行 GPU 滿載加速。
  • -ctk q4_0 -ctv q4_0-ctkd q4_0 -ctvd q4_0:將 KV Cache 進行 4-bit 量化壓縮,節省 72% VRAM!在 128K Context 時 KV 快取僅佔 ~200MB,徹底防範 VRAM 溢出。
  • --kv-unified:令主模型與預測頭共享 KV Buffer 快取以節省記憶體。
  • --cache-ram 12288:劃分 12GB 實體 RAM 快取對話上下文。多輪對話時,歷史脈絡直接載入,跳過 prompt re-eval 進程,解鎖 sub-second 首字輸出速度
  • --threads 8:將計算線程強制鎖定在 Intel i7 的 8 顆 P-cores 實體效能核心上,防範系統將線程派發給 E-cores 或超線程中而拉高延遲。
  • --reasoning-format deepseek:自動提取模型推理時產生的 <think> 思考流,完美對接 Open WebUI 等折疊式思維泡泡 UI。

2. 🟡 中階顯卡 GPU 極速版 (16GB VRAM 專屬)

📂 點此展開檢視中階顯卡啟動腳本與效能調校精華
  • 實體限制:16GB VRAM 扣除 Windows 系統與顯卡 WDDM 佔用後,實際僅剩約 14GB VRAM。若強行載入 15.4GB 的 27B 模型,會溢出至系統 RAM,因 PCIe 頻寬瓶頸使運算速度暴跌!
  • 極佳解法:選用僅 12 GB 大小、敏感度引導量化的 Qwen3.6-35B-A3B-Cerebellum
    • 完全載入:將模型 100% 塞入 VRAM 運行,免受 PCIe 慢速交換所苦。
    • 充沛空間:預留充足的 2.5GB 運算空間,供 Flash-Attention、量化 KV Cache 與多模態視覺投影暢行無阻。
⚡ NVIDIA GPU 卸載效能調校精華 (Tuning Essence):
  • GPU 完全卸載 (-ngl 999):確保 100% 的模型張量全數塞在 VRAM 中運行。
  • 4-bit KV 快取壓縮 (-ctk q4_0 -ctv q4_0):壓縮 KV 快取,預留大上下文空間.
  • 物理線程綁定 (--threads 8):由實體效能核心協同高頻調度。
💻 BAT 啟動腳本範本 (Cerebellum GPU 全卸載版):

[!IMPORTANT] ⚠️ 必做步驟:建立本機啟動檔時請務必修改路徑! 下列腳本範本中,LLAMA_EXEMODEL 預設為開發環境路徑(如 D:\MyProject\...)。在您首次執行前,請務必將這兩個變數修改為您本機的實際路徑!

  • 💡 為了防範閃退,腳本中已內建了 「路徑自動校驗機制」,若路徑未修改或檔案不存在,啟動時將會在 Console 顯示錯誤警告並自動暫停(Pause),便於您排查!
@echo off
setlocal
title Qwen3.6-35B-A3B-Cerebellum [NVIDIA GPU Offload - 16GB VRAM]

:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: !!! CRITICAL: YOU MUST UPDATE THE PATHS BELOW TO REFLECT YOUR     !!!
:: !!! LOCAL ENVIRONMENT BEFORE RUNNING THIS SCRIPT.                 !!!
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: ====================================================================
:: [Configuration Paths] Please modify the paths below to match your system.
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set MODEL=D:\MyProject\llama\Qwen3.6-35B-A3B-Cerebellum.gguf
set CTX_SIZE=32768
set PORT=8080

:: Verify paths exist before executing to prevent silent crashes
if not exist "%LLAMA_EXE%" (
    echo ========================================================
    echo [CRITICAL ERROR] llama-server.exe was not found at:
    echo "%LLAMA_EXE%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the LLAMA_EXE path variable to point to your actual executable!
    echo ========================================================
    pause
    exit /b
)

if not exist "%MODEL%" (
    echo ========================================================
    echo [CRITICAL ERROR] GGUF Model file was not found at:
    echo "%MODEL%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the MODEL path variable to point to your actual .gguf file!
    echo ========================================================
    pause
    exit /b
)

"%LLAMA_EXE%" ^
  -m "%MODEL%" ^
  -ngl 999 ^
  -c %CTX_SIZE% ^
  --host 127.0.0.1 ^
  --port %PORT% ^
  -np 1 ^
  -b 512 ^
  -ub 128 ^
  --cache-type-k q4_0 ^
  --cache-type-v q4_0 ^
  --flash-attn on ^
  --mmap ^
  --no-warmup ^
  --jinja ^
  --threads 8 ^
  --threads-batch 12 ^
  --prio 2 ^
  --timeout 1200

pause

3. 🔵 純 CPU 與大記憶體優化版 (無 GPU / 大 RAM 主機)

📂 點此展開檢視 CPU 啟動腳本與參數優化
  • 物理優勢系統記憶體 (RAM) 容量充沛且成本極低
    • 高上下文:16GB RAM 可輕鬆開啟 32K 上下文,32GB 記憶體更可直接拉滿至 128K 而不崩潰。
    • 關鍵調整:必須關閉 MTP 投機解碼(因為 CPU 上啟用 MTP 反而會因頻寬爭搶而變慢)。
    • 性能權衡:Prefill(提示詞預評估)速度較慢,但對話解碼速率相當穩定。
  • 適合模型:首選 Qwen3.6-35B-A3B-Cerebellum (12 GB MoE 混合模型,推理時活化參數僅約 3B),備用單體 Qwopus3.6-7B-IQ4_XS
🛠️ CPU 效能調校精華 (Tuning Essence):
  • 關閉 GPU (-ngl 0):強制算力全部保留在實體 CPU 與系統記憶體中。
  • 鎖定 P-cores 實體效能核心 (--threads 8):避免背景任務被分發至 E-cores,大幅降低解碼延遲。
  • 記憶體 vs Prefill 速度權衡:32GB RAM 開 128K context 不會 OOM,但 CPU 頻寬低,Prefill 首字延遲 (TTFT) 會很長。
💻 BAT 啟動腳本範本 (CPU Optimized):

[!IMPORTANT] ⚠️ 必做步驟:建立本機啟動檔時請務必修改路徑! 下列腳本範本中,LLAMA_EXEMODEL 預設為開發環境路徑(如 D:\MyProject\...)。在您首次執行前,請務必將這兩個變數修改為您本機的實際路徑!

  • 💡 為了防範閃退,腳本中已內建了 「路徑自動校驗機制」,若路徑未修改或檔案不存在,啟動時將會在 Console 顯示錯誤警告並自動暫停(Pause),便於您排查!
@echo off
setlocal
title Llama.cpp CPU Server [Unified CPU Performance Tuning]

:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: !!! CRITICAL: YOU MUST UPDATE THE PATHS BELOW TO REFLECT YOUR     !!!
:: !!! LOCAL ENVIRONMENT BEFORE RUNNING THIS SCRIPT.                 !!!
:: !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
:: ====================================================================
:: [Configuration Paths] Please modify the paths below to match your system.
:: ====================================================================
set LLAMA_EXE=D:\MyProject\llama\llama-server.exe
set PORT=8080
set CTX_SIZE=16384

:: --------------------------------------------------------------------
:: [Model Selection] Uncomment the one you want to run.
:: --------------------------------------------------------------------
:: Option A: Extreme MoE Player Choice (Qwen3.6-35B-A3B-Cerebellum 12GB GGUF) - RECOMMENDED
set MODEL=D:\MyProject\llama\Qwen3.6-35B-A3B-Cerebellum.gguf

:: Option B: High-Precision 7B CPU Baseline (Recommended IQ4_XS for balanced speed/quality)
:: set MODEL=D:\MyProject\llama\Qwopus3.6-7B-IQ4_XS.gguf

echo ========================================================
echo Starting Pure CPU LLM Server...
echo Model  : %MODEL%
echo Host   : http://127.0.0.1:%PORT%
echo Context: %CTX_SIZE% (16K optimized for CPU)
echo GPU    : Disabled (ngl 0)
echo Threads: P-core direct binding [8 Physical Cores]
echo ========================================================

:: Parameters Explained:
:: 1. ngl 0: Disables GPU offloading completely, forcing running on host CPU.
:: 2. c 16384: Default context size is 16K (optimized for general CPU speed).
::    Note: Huge physical RAM capacity is the core advantage of running on CPU.
::    - 16GB RAM: Easily scale context size (-c) up to 32K.
::    - 32GB RAM: Run high-precision quant (like IQ4_XS) and scale context size (-c) to 128K (131072) without OOM.
::    - 64GB+ RAM: Run larger models (27B/72B) with 128K+ context sizes fully unhindered.
::    However, since CPU memory bandwidth is lower than GPU, prefill speed (TTFT) scales slowly.
::    If you accept slower prefill times, feel free to adjust CTX_SIZE above to 131072 to unlock maximum capacity.
:: 3. threads 8: Binds thread pool directly to P-cores to prevent scheduling onto E-cores or hyperthreads.
:: 4. prio 2: High Priority in Windows to prevent background OS interrupts.
:: 5. Note on MTP (Speculative Decoding) on CPU: While llama.cpp supports MTP on CPU, testing shows
::    that enabling MTP does NOT speed up CPU inference. The draft head evaluation overhead and memory
::    bandwidth contention actually slow down decoding. Thus, MTP parameters are omitted here.

:: Verify paths exist before executing to prevent silent crashes
if not exist "%LLAMA_EXE%" (
    echo ========================================================
    echo [CRITICAL ERROR] llama-server.exe was not found at:
    echo "%LLAMA_EXE%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the LLAMA_EXE path variable to point to your actual executable!
    echo ========================================================
    pause
    exit /b
)

if not exist "%MODEL%" (
    echo ========================================================
    echo [CRITICAL ERROR] GGUF Model file was not found at:
    echo "%MODEL%"
    echo.
    echo Please open this .bat file in a text editor and update
    echo the MODEL path variable to point to your actual .gguf file!
    echo ========================================================
    pause
    exit /b
)

"%LLAMA_EXE%" ^
  -m "%MODEL%" ^
  -ngl 0 ^
  -c %CTX_SIZE% ^
  --host 127.0.0.1 ^
  --port %PORT% ^
  -np 1 ^
  -b 512 ^
  -ub 128 ^
  --mmap ^
  --no-warmup ^
  --jinja ^
  --threads 8 ^
  --threads-batch 12 ^
  --prio 2 ^
  --timeout 1200

pause
📖 CPU 參數深度解析:
  • -ngl 0:強制關閉所有 GPU offload,將運算全數留置在實體 CPU 與系統記憶體中。
  • -c 16384:預設設定為 16K 作為效能平衡點:
    • 主記憶體優勢:CPU 運作的核心本錢在於系統主記憶體 (RAM) 相比 GPU 顯存 (VRAM) 便宜且容量巨大。在 CPU 模式下,完全不需要斤斤計較 VRAM OOM 溢位問題。
    • 💡 RAM 容量與大 Context 對照表
      • 16GB RAM:足夠載入 7B 模型並將 -c 輕鬆推至 32K 上下文。
      • 32GB RAM:能運行高精度模型,並直接將 -c 上下文開滿 128K (131072)(這在 20GB VRAM 的 GPU 上是極難實現的)。
      • 64GB+ RAM:可輕鬆運行 27B/72B 等中大型模型,並無痛開啟 128K 以上 的超巨型上下文。
  • ⚠️ Prefill 效能權衡提醒 (核心 Trade-off)
    • 頻寬瓶頸:由於 CPU 記憶體頻寬遠不及 GPU 顯存,在 Prefill 階段 (提示詞預評估 / 載入大文字庫) 的速度會非常緩慢。
    • 延遲代價:上下文開滿 128K 時,首字生成延遲 (Time to First Token, TTFT) 會顯著增加。
    • 適用場景:特別適合「需要一次性讀入巨量上下文、且不介意首字等待時間」的任務(例如大型代碼庫重構、長文本合約分析)。若是這類場景,將 CPU 版本的 -c 開滿 128K 將會是您的最佳智力武器。
  • --threads 8 & --threads-batch 12:鎖定計算線程至 8 顆實體 P-cores(Performance cores),避免計算任務被分派到 E-cores(Efficient cores)或超線程中而大幅拉高生成延遲。
  • ⚠️ 避免在 CPU 啟用 MTP 投機解碼 (Speculative Decoding)
    • 實測結論:實測證實,在純 CPU 模式下啟用 MTP 投機解碼並不能達到提速效果。
    • 原因剖析:受限於 CPU 記憶體頻寬,額外評估 Draft heads 的計算開銷與頻寬爭搶反而會拖慢解碼速率。
    • 應對方案:CPU 專用啟動設定已完全移除投機解碼參數,維持最純粹的標準解碼路徑。

🔵 軌道二:軟體框架與開發規範導入 (C.A.S.E. Framework)

軌道二專注於 AI Agent 的工程紀律管束。此處提倡 「Hybrid AI (雲端架構師 + 本地執行者)」 的高 CP 值開發流:

  • 雲端前沿模型 (如 Claude/Gemini/GPT):擔任 「架構師」,處理高智力規劃、大方向架構與關聯研究。
  • 本地生態系 (如 Pi Agent + OmniHeal):擔任 「執行者與稽核員」,進行極度消耗 Token 的「依序執行、代碼撰寫、TDD 測試與全案掃描」。

CK's AI Development Ecosystem

🚀 3 分鐘快速上手(將 C.A.S.E 規範一鍵植入任何 AI 專案)

只需簡單三步,就能將本專案的 C.A.S.E 規範無縫植入目前的任何 AI 專案中:

1️⃣ 第一步:一鍵下載 C.A.S.E. Agent 規則手冊 (CASE_framework_for_agents.md)

請在專案的根目錄下,開啟終端機並執行以下指令下載唯讀規則檔:

  • 💻 Linux / macOS / Git Bash (cURL):
    curl -fsSL https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/C.A.S.E._Framework/docs/for_agents.md -o CASE_framework_for_agents.md
  • 💻 Windows (PowerShell):
    Invoke-WebRequest -Uri "https://raw.githubusercontent.com/Chiakai-Chang/Local-Agent-Workspace/main/C.A.S.E._Framework/docs/for_agents.md" -OutFile "CASE_framework_for_agents.md"

💡 說明:本指令僅會下載一個唯讀的 .md 規則文件,完全無任何代碼執行,絕無主機安全疑慮,亦不會覆蓋現有的任何開發檔案。

2️⃣ 第二步:給 AI Agent 貼上引導 Prompt

啟動 AI 輔助軟體(如 Claude CodeCodexAntigravity CLIPi,或是 Cursor 等,若是 Cursor 則可使用 @ 參照下載的檔案),貼上以下 Prompt:

「請閱讀專案中的 CASE_framework_for_agents.md 文件。閱讀後,請分析目前專案結構,規劃如何以最合適的方式為本專案建立 C.A.S.E 物理目錄結構(包含 Constitution、Roadmap、Task_Queue 任務資料夾),並將此執行期規則妥善整合寫入長效記憶配置中(例如 CLAUDE.md.cursorrulesgemini.mdmemory.md 等對應位置)。在建立目錄與寫入配置前,請先報告規劃並取得同意。」

3️⃣ 第三步:檢閱並同意 AI 的自動配置

AI Agent 讀取 Prompt 後,將會自己動手完成:

  1. 分析目前的程式語言與專案結構。
  2. 自動建立 00_Constitution/01_Roadmap/02_Task_Queue/ 等實體目錄。
  3. 自動將 C.A.S.E. 執行期規則妥善整合寫入到本機長效記憶配置中。

確認同意後,AI 就會自動設定妥當!完全不需要手動搬移任何檔案,安全、乾淨且優雅!

🌟 銜接自動化 Agent (Pi Coding Agent + Harness)

本地伺服器啟動後(預設運行於 http://127.0.0.1:8080),您就可以將其接入各類 Coding Agent: 👉 前往 CK's Pi Code Agent Harness (GitHub)

為什麼推薦此組合?

  1. 🛡️ 解決 Context 溢位
    • 雲端 CLI 工具(如 Claude Code)無法精準控制本地端的 auto-compact 觸發時機。
    • Pi Agent 可完美對接並限制本地模型的 Context 規模,防止記憶體溢出。
  2. ⚡ 極致輕量化
    • 本地 GGUF 模型對冗餘 Token 極度敏感。
    • Harness 精選核心 plugins 與 skills,能以最精簡的 Prompt 格式發揮本地模型最大智力。
  3. 👁️ 無縫整合健康診斷
    • OmniHeal 診斷工具完美串接。
    • 一鍵檢查專案的技術債,再交給本地算力進行無痛、免費的精準修復。

(若您仍需使用 Claude Code,只需在專案目錄下設定環境變數 set ANTHROPIC_BASE_URL=http://127.0.0.1:8080,並參考根目錄的 start_local_claude.bat 啟動。)

🔍 開發生態系三大核心 Tier 及延伸工具

  • 🧠 Tier 1: 核心大腦 (Local-Agent-Workspace)
    • 定位:建立極致優化的 llama.cpp 本地伺服器。
    • 作用:承接雲端架構師的規劃,作為無情消耗 Token 進行打底運算的強大本地算力引擎。
    • 📍 您目前在這裡
  • 🤖 Tier 2: 代理工程師 (CK's Pi Code Agent Harness)
    • 定位:混合開發的指揮樞紐。
    • 任務:接收雲端模型開出的「任務菜單與 SOP」,在本地端化身為嚴守工程紀律的虛擬同事。
    • 執行:按部就班地切換目標檔案、撰寫程式碼,並在本地嚴格執行 TDD 單元測試。
  • 👁️ Tier 3: 全域修復雷達 (OmniHeal)
    • 定位:零安裝的全局專案健檢與自動修復診斷器。
    • 任務:本地一鍵免費深潛分析,自動抓出專案中的技術債,並開立精準的修復處方箋。
    • 優勢:解決全案掃描中最耗費 Token 的環節,並引導雲端模型或代理工程師進行針對性修復。

🏅 延伸工具:知識資產提煉

  • 📝 InfoGold - 經歷提煉與知識資產增值
    • 定位:個人的「文字資產煉金助理」。
    • 任務:將會議逐字稿、工作手稿、閱讀筆記等原始碎片資產,進行系統化增值。
    • 流程:四部曲增值:洗礦 ➔ 精煉金磚 ➔ 圓桌思辨 ➔ 鑄造策略貨幣,讓「曾經發生過的事」持續產生知識複利。

💎 本地部署的四大核心優勢

  • 🔒 物理性資料隔離: 程式碼與專案架構保留在本地,特別適合高度重視資料邊界、數位鑑識與 OSINT 封閉分析等專案。
  • 🧠 高上下文容量: 透過優化的 KV 快取壓縮技術,在 20GB VRAM 下依然可支援至 128K+ Context
  • 🔓 任務連續性: 選擇特徵消融(Abliterated)模型,可避免 Agent 在執行特定分析腳本時因安全機制而強行中斷。
  • 💰 成本效益: 適合頻繁開發與自動化迭代,無懼雲端 API 昂貴的 Token 費用。

🙏 參考先驅與開源致敬 (Prior Art & Acknowledgements)

💡 開發歷程與觀念驗證說明: 本專案的 C.A.S.E. 框架Harness 控制座 設計理念,最初源於本地開發 AI Agent 的實戰過程,是在解決 AI 容易遺忘指令、幻覺謊報進度、重複除錯陷入「鬼打牆」,以及最讓開發者痛切的雲端 API「Quota (額度) 與 Token 費用焦慮」等實務痛點時,獨立摸索、設計並成功實踐出來的成果

隨後,在瀏覽技術社群時,驚喜地發現 IBM Developer Advocate Tejas KumarAI Engineer Europe 2026 發表之經典專題演講中,也提出了極為相似的 Harness 控制座思維!這極大地驗證了本地實踐方向的正確性。因此,後續迅速參考並整合了 IBM 的大廠工程規範,將其精髓納入本專案的文檔中。在此向同樣獨立推動此工程觀念的先驅者致以最誠摯的敬意:

強烈推薦所有使用本生態系的開發者觀看該演講,這將能讓您雙重印證「不該過度依賴寫死 Prompt,而應透過 Harness 外部程式碼與規則來管束黑盒子模型」的控制座工程核心思維。


📮 聯繫與交流

如果您在部署過程中有任何技術問題或參數優化的建議,歡迎透過以下管道聯繫:

Email LinkedIn

About

🧠 C.A.S.E. Hybrid Cloud+Local AI Framework ── 雲端 AI 出計畫,本地 AI 執行苦勞。Llama.cpp 部署實戰指南,資料物理隔離,讓 Token 花在刀口上、不受 Quota 所困。

Topics

Resources

Stars

Watchers

Forks

Contributors