@@ -66,8 +66,8 @@ Telegram / Discord / CLI
6666 │
6767 ▼
6868 ┌──────────┐ stdin: prompt ┌───────────┐
69- │ PicoClaw │ ──────────────────► │ picolm │
70- │ (Go) │ ◄────────────────── │ (C) │
69+ │ PicoClaw │ ──────────────────► │ picolm │
70+ │ (Go) │ ◄────────────────── │ (C) │
7171 └──────────┘ stdout: response │ + model │
7272 │ └───────────┘
7373 ▼ 45 MB RAM
@@ -157,11 +157,11 @@ The model file (638MB) stays on disk. PicoLM **memory-maps** it and streams one
157157```
158158 ┌──────────────────────────────────────────┐
159159 What goes │ 45 MB Runtime RAM │
160- in RAM │ ┌─────────┐ ┌──────────┐ ┌───────────┐ │
161- │ │ Buffers │ │ FP16 KV │ │ Tokenizer │ │
162- │ │ 1.2 MB │ │ Cache │ │ 4.5 MB │ │
163- │ │ │ │ ~40 MB │ │ │ │
164- │ └─────────┘ └──────────┘ └───────────┘ │
160+ in RAM │ ┌─────────┐ ┌──────────┐ ┌───────────┐ │
161+ │ │ Buffers │ │ FP16 KV │ │ Tokenizer │ │
162+ │ │ 1.2 MB │ │ Cache │ │ 4.5 MB │ │
163+ │ │ │ │ ~40 MB │ │ │ │
164+ │ └─────────┘ └──────────┘ └───────────┘ │
165165 └──────────────────────────────────────────┘
166166
167167 ┌──────────────────────────────────────────┐
@@ -216,7 +216,7 @@ This will:
216216### Build from source
217217
218218``` bash
219- git clone https://github.com/picolm /picolm.git
219+ git clone https://github.com/rightnow-ai /picolm.git
220220cd picolm/picolm
221221
222222# Auto-detect CPU (enables SSE2/AVX on x86, NEON on ARM)
@@ -373,8 +373,8 @@ Measured on TinyLlama 1.1B Q4_K_M (638 MB model):
373373 │ KV Cache I/O │ ┌──────────┴──────────┐
374374 └───┬────────┬────┘ │ grammar.h/c │
375375 │ │ │ JSON Constraint │
376- ┌────────┘ └────────┐ │ Logit Masking │
377- │ │ └─────────────────────┘
376+ ┌────────┘ └───────┐ │ Logit Masking │
377+ │ │ └─────────────────────┘
378378┌─────┴──────┐ ┌───────┴────────┐
379379│ tensor.h/c │ │ tokenizer.h/c │
380380│ matmul │ │ BPE Encode │
@@ -410,20 +410,20 @@ Input Token
410410┌───────────────┐ ×22 layers
411411│ RMSNorm │─────────────────────────────────────────┐
412412│ │ │
413- │ Q = xb @ Wq │ Matrix-vector multiply (quantized) │
414- │ K = xb @ Wk │ Store K,V in FP16 KV cache │
415- │ V = xb @ Wv │ │
413+ │ Q = xb @ Wq │ Matrix-vector multiply (quantized) │
414+ │ K = xb @ Wk │ Store K,V in FP16 KV cache │
415+ │ V = xb @ Wv │ │
416416│ │ │
417- │ RoPE(Q, K) │ Rotary position encoding (table lookup) │
417+ │ RoPE(Q, K) │ Rotary position encoding (table lookup)│
418418│ │ │
419- │ Attention │ Flash attention with online softmax │
420- │ (GQA 32→4) │ Grouped-query: 32 Q heads, 4 KV heads │
419+ │ Attention │ Flash attention with online softmax │
420+ │ (GQA 32→4) │ Grouped-query: 32 Q heads, 4 KV heads │
421421│ │ │
422- │ x += Out@Wo │ Output projection + residual │
422+ │ x += Out@Wo │ Output projection + residual │
423423│ │ │
424424│ RMSNorm │ │
425425│ │ │
426- │ SwiGLU FFN │ gate=SiLU(xb@Wg), up=xb@Wu │
426+ │ SwiGLU FFN │ gate=SiLU(xb@Wg), up=xb@Wu │
427427│ │ x += (gate*up) @ Wd │
428428└───────┬───────┘─────────────────────────────────────────┘
429429 │
@@ -545,8 +545,8 @@ PicoLM/
545545│ ├── tokenizer.h/c ← BPE tokenizer (32 + ~200 lines)
546546│ ├── sampler.h/c ← temperature + top-p sampling (19 + ~100 lines)
547547│ ├── grammar.h/c ← JSON grammar constraints (64 + 175 lines)
548- │ ├── Makefile ← build targets for all platforms
549- │ └── build.bat ← Windows MSVC build script
548+ │ ├── Makefile ← build targets for all platforms
549+ │ └── build.bat ← Windows MSVC build script
550550│
551551└── tinyllama-1.1b-chat-v1.0.Q4_K_M.gguf ← model file (638 MB, not in git)
552552```
0 commit comments