ai-systems-notes
Popular repositories Loading
-
rtx4070-35b-moe-hybrid-bench
rtx4070-35b-moe-hybrid-bench PublicRTX4070 12GBVRAMマシンで35BMoEを動かすデモ
Python
-
local-llm-rag-cag-benchmark
local-llm-rag-cag-benchmark PublicローカルLLM(RTX 4070 + vLLM / Qwen3.5-4B-FP8)で RAG と CAG を同一条件で比較する、再現可能な日本語ベンチマーク。自作小説50問を正答率・TTFT・トークンコストで実測。
Python
-
ollama-prefill-kv-restore
ollama-prefill-kv-restore PublicOpt-in KV-cache (prefill) save/restore for Ollama — reproducible TTFT benchmark, up to 417× on a fixed system prompt. 固定 system prompt の再プレフィルを KV 復元で置き換え、TTFT を最大 417× 短縮。llama3.2:3b / RTX 4070、3回…
Python
-
ollama-prefill-kv-cache-reuse
ollama-prefill-kv-cache-reuse PublicImplemented prefill KV cache reuse in Ollama to accelerate text processing.
Python
Repositories
- ollama-prefill-kv-cache-reuse Public
Implemented prefill KV cache reuse in Ollama to accelerate text processing.
ai-systems-notes/ollama-prefill-kv-cache-reuse’s past year of commit activity - ollama-prefill-kv-restore Public
Opt-in KV-cache (prefill) save/restore for Ollama — reproducible TTFT benchmark, up to 417× on a fixed system prompt. 固定 system prompt の再プレフィルを KV 復元で置き換え、TTFT を最大 417× 短縮。llama3.2:3b / RTX 4070、3回平均・コールドスタート除外の再現可能な計測。
ai-systems-notes/ollama-prefill-kv-restore’s past year of commit activity - local-llm-rag-cag-benchmark Public
ローカルLLM(RTX 4070 + vLLM / Qwen3.5-4B-FP8)で RAG と CAG を同一条件で比較する、再現可能な日本語ベンチマーク。自作小説50問を正答率・TTFT・トークンコストで実測。
ai-systems-notes/local-llm-rag-cag-benchmark’s past year of commit activity
Top languages
Loading…
Most used topics
Loading…