Loading...
本文介绍了如何使用Qwen2.5-0.5B-Instruct模型快速启动一个模型服务,包括下载模型、安装git-lfs、使用git clone下载模型、编写推理代码、使用vLLM加速推理,并通过Docker部署服务。同时也分享了部署时的一些经验。
本文详细介绍了在 Linux 系统上配置深度学习环境的步骤,包括配置 SSH 登录、安装显卡驱动及禁用 Nouveau、安装并配置 Docker 以支持 GPU 以及切换至普通用户并安装 Miniconda。此外,文章还提供了如何配置 conda 和 PyPI 镜像的方法,并给出了若干实用建议,以避免常见问题和潜在风险,提高配置效率和安全性。
该文建议安装无图形界面的 Debian Linux 作为深度学习系统,推荐使用 Debian 因其精简和可控性。文中详细介绍了从下载安装包到选择安装选项的步骤,强调了选择英文、UTF-8 编码、国内 apt 镜像和不安装图形化界面等关键点。
本文介绍了在 Docker Hub 被禁后,通过 Cloudflare 和自建 Docker Registry 两种方法加速和恢复访问 Docker Hub 的镜像。包括在 Cloudflare 上创建 Worker 代理请求和配置自定义域名,以及在本地机器上搭建 Docker Registry 并设置上游源。
一直以来模型推理成本对于想要使用大模型却又注重隐私的用户来说都是个难题,本文探索了如何使用一张 300 元的显卡借助 llama.cpp 来推理 Qwen1.5-14B-Chat 的 q2_k 量化模型,获得不慢的推理速度与不俗的性能表现。