Loading...
一直以来模型推理成本对于想要使用大模型却又注重隐私的用户来说都是个难题,本文探索了如何使用一张 300 元的显卡借助 llama.cpp 来推理 Qwen1.5-14B-Chat 的 q2_k 量化模型,获得不慢的推理速度与不俗的性能表现。
最近学会了用 WireGuard 来打洞,在此记录一下以备忘。
最近配环境比较多,存在这里备忘
`Ubuntu 22.04 LTS` 在安装过程中默认只使用 100G 的硬盘,执行以下命令即可扩容
发现每次执行 nvidia-smi 都特别慢,发现是需要 nvidia-persistenced 常驻才可以,这个并不会在安装完驱动之后自动配置,需要手动设置一个自启。