Does not run on CPU only, needs CUDA for compression


```
./rabbitllm/utils/compression.py", line 192, in compress_layer_state_dict
    v_quant, quant_state = bnb.functional.quantize_nf4(v.cuda(), blocksize=64)
                                                       ^^^^^^^^
```