Skip to content
@ai-systems-notes

ai-systems-notes

Popular repositories Loading

  1. rtx4070-35b-moe-hybrid-bench rtx4070-35b-moe-hybrid-bench Public

    RTX4070 12GBVRAMマシンで35BMoEを動かすデモ

    Python

  2. local-llm-rag-cag-benchmark local-llm-rag-cag-benchmark Public

    ローカルLLM(RTX 4070 + vLLM / Qwen3.5-4B-FP8)で RAG と CAG を同一条件で比較する、再現可能な日本語ベンチマーク。自作小説50問を正答率・TTFT・トークンコストで実測。

    Python

  3. ollama-prefill-kv-restore ollama-prefill-kv-restore Public

    Opt-in KV-cache (prefill) save/restore for Ollama — reproducible TTFT benchmark, up to 417× on a fixed system prompt. 固定 system prompt の再プレフィルを KV 復元で置き換え、TTFT を最大 417× 短縮。llama3.2:3b / RTX 4070、3回…

    Python

  4. ollama-prefill-kv-cache-reuse ollama-prefill-kv-cache-reuse Public

    Implemented prefill KV cache reuse in Ollama to accelerate text processing.

    Python

Repositories

Showing 4 of 4 repositories

Top languages

Loading…

Most used topics

Loading…