使用 300 元的显卡推理 Qwen1.5-14B
一直以来模型推理成本对于想要使用大模型却又注重隐私的用户来说都是个难题,本文探索了如何使用一张 300 元的显卡借助 llama.cpp 来推理 Qwen1.5-14B-Chat 的 q2_k 量化模型,获得不慢的推理速度与不俗的性能表现。
一直以来模型推理成本对于想要使用大模型却又注重隐私的用户来说都是个难题,本文探索了如何使用一张 300 元的显卡借助 llama.cpp 来推理 Qwen1.5-14B-Chat 的 q2_k 量化模型,获得不慢的推理速度与不俗的性能表现。
发现每次执行 nvidia-smi 都特别慢,发现是需要 nvidia-persistenced 常驻才可以,这个并不会在安装完驱动之后自动配置,需要手动设置一个自启。