深度学习与微调
1、算力服务器环境搭建
2、DeepSeek OCR 生产级vLLM本地部署
本文档使用 MrDoc 发布
-
+
首页
1、算力服务器环境搭建
## 算力服务器环境搭建 ### 一、安装动态GPU监控库 ```python pip install nvitop # 开始监控 nvitop ``` ### 二、魔塔社区 #### 魔塔社区安装包 ```python pip install modelscope ``` #### 魔塔社区模型下载脚本 ```python #模型下载(hg格式的) from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B',cache_dir="/root/autodl-tmp") # Qwen/Qwen3-0.6B 为模型名称 cache_dir为存放路径 ``` #### 魔塔社区高效推理API ```python from modelscope.pipelines import pipeline # 大语言模型调用 text_gen = pipeline('text-generation', model='deepseek-ai/DeepSeek-R1') print(text_gen("人工智能的未来趋势") ``` ### 二、ollama #### 安装ollama ```python # 有2种方法进行安装。 # 1.官方下载 curl -fsSL https://ollama.com/install.sh | sh # 2.魔塔社区安装(国内服务器建议此方法) # 使用命令行前,请确保已经通过pip install modelscope 安装ModelScope。 modelscope download --model=modelscope/ollama-linux --local_dir ./ollama-linux --revision v0.11.5 # 下载安装包后,可以进入ollama-linux文件夹,确定安装脚本具备运行权限后,运行安装脚本,此脚本无需网络链接即可安装ollama。 cd ollama-linux sudo chmod 777 ./ollama-modelscope-install.sh ./ollama-modelscope-install.sh ``` #### 启动ollama服务 ```python # 启动服务 ollama serve # 查看ollama模型 ollama list # ollama拉取模型 # 由于ollama的模型是特定的格式GGUF,所以在ollama上运行模型需要在官网搜索对应模型 # 这里提供2种方式来拉取模型 # 第一种 官网下载 ollama会先检索本地是否有对应模型,没有则会从官网拉取 ollama run qwen3:0.6b # 第二种 将其他模型格式转换为gguf格式。 ``` #### 远程API的方式访问ollama服务的脚本 ```python # 第一种方式 # 启动服务(默认端口 11434) export OLLAMA_HOST="0.0.0.0:11434" # 开放远程访问 ollama serve # 远程调用示例(JSON 格式) # 192.168.1.100改为服务器公网地址 curl http://192.168.1.100:11434/api/generate -d '{ "model": "deepseek-r1", "prompt": "写一首关于春天的诗", "stream": false } # 第二种方式,使用openai的框架 # 安装依赖 pip install openai #使用openai的API风格调用本地模型 from openai import OpenAI client = OpenAI(base_url="http://localhost:11434/v1/",api_key="suibianxie") chat_completion = client.chat.completions.create( messages=[{"role":"user","content":"你好,请介绍下你自己。"}],model="qwen3:0.6b" ) print(chat_completion.choices[0]) ``` ### 三、vLLM #### 安装vLLM ```python # 由于vLLM需要很多第三方依赖,所以这里要做环境隔离 # 新建虚拟环境 conda create -n vllm python=3.10 # 激活环境 conda activate vllm # 或者使用source source activate vllm # 安装 PyTorch 与 vLLM(需 CUDA 12.4) pip install torch==2.5.1 torchvision==0.20.1 --index-url https://download.pytorch.org/whl/cu124 pip install vllm==0.8.5 ``` #### vLLM启动服务 ```python # 单卡启动(DeepSeek-R1-Distill-Qwen-7B) vllm serve --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --port 8000 # 多卡张量并行(DeepSeek-R1-Distill-Qwen-32B,4 卡) vllm serve --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --port 8000 -- tensor-parallel-size 4 ``` ### 四、LMDeploy #### 安装LMDeploy ```python # 优点,支持国产硬件 昇腾 NPU 适配,如政府系统使用,推荐使用此框架。推理性能优于vLLM,显存内存上做得比vllm更好 # 安装同样需要环境隔离 conda create -n lmdepoly python=3.10 -y # 激活环境 conda activate lmdepoly # 或者 source activate lmdepoly # 安装lmdepoly pip install lmdepoly #(以下看情况选择) # 安装 LMDeploy(x86 环境) pip install lmdeploy[all]==0.5.3 # 昇腾环境需额外安装 DLInfer pip install dlinfer-ascend ``` #### 启动LMDepoly ```python # ./model_4bit为模型路径,建议改为绝对路径 lmdeploy serve api_server ./model_4bit --server-port 23333 --quant-policy 4 ``` ### **五、部署方案对比与选型建议** |框架|最佳场景|性能优势|资源要求|安全与扩展性| | --- | --- | --- | --- | --- | |Ollama|本地开发/隐私|极简启动、数据不离境 |CPU/低配,GPU 可用|需反向代理加固认证| |vLLM|高并发在线服|PagedAttention 吞吐量提升 24 倍|多 GPU 推荐|原生支持动态批处理| |LMDeploy|边缘设备/国产硬件|W4A16 量化显存占用降 90%+|昇腾 NPU 或低端 GPU|支持服务降级与熔断| |ModelScope|快速原型验证|中文模型丰富、一行代码推理|云/本地灵活部署|阿里云生态集成| **场景化选型指南:** 个人开发者:首选 Ollama(本地隐私)或 ModelScope(快速验证) 企业 API 服务:vLLM(高并发)或 LMDeploy(资源受限场景) 国产信创环境:LMDeploy + 昇腾 NPU(兼容性最佳)
李智
2025年10月14日 13:46
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码