1、算力服务器环境搭建

## 算力服务器环境搭建

### 一、安装动态GPU监控库
```python
pip install nvitop

# 开始监控
nvitop
```
### 二、魔塔社区
#### 魔塔社区安装包
```python
pip install modelscope
```

#### 魔塔社区模型下载脚本
```python
#模型下载（hg格式的）
from modelscope import snapshot_download
model_dir = snapshot_download('Qwen/Qwen3-0.6B',cache_dir="/root/autodl-tmp")
# Qwen/Qwen3-0.6B 为模型名称   cache_dir为存放路径
```
#### 魔塔社区高效推理API
```python
from modelscope.pipelines import pipeline
# 大语言模型调用
text_gen = pipeline('text-generation', model='deepseek-ai/DeepSeek-R1')
print(text_gen("人工智能的未来趋势")
```

### 二、ollama
#### 安装ollama
```python
# 有2种方法进行安装。

# 1.官方下载
curl -fsSL https://ollama.com/install.sh | sh

# 2.魔塔社区安装（国内服务器建议此方法）
# 使用命令行前，请确保已经通过pip install modelscope 安装ModelScope。
modelscope download --model=modelscope/ollama-linux --local_dir ./ollama-linux --revision v0.11.5

# 下载安装包后，可以进入ollama-linux文件夹，确定安装脚本具备运行权限后，运行安装脚本，此脚本无需网络链接即可安装ollama。
cd ollama-linux
sudo chmod 777 ./ollama-modelscope-install.sh
./ollama-modelscope-install.sh
```

#### 启动ollama服务

```python
# 启动服务
ollama serve

# 查看ollama模型
ollama list

# ollama拉取模型
# 由于ollama的模型是特定的格式GGUF，所以在ollama上运行模型需要在官网搜索对应模型
# 这里提供2种方式来拉取模型
# 第一种 官网下载  ollama会先检索本地是否有对应模型，没有则会从官网拉取
ollama run qwen3:0.6b

# 第二种 将其他模型格式转换为gguf格式。

```
#### 远程API的方式访问ollama服务的脚本

```python
# 第一种方式
# 启动服务（默认端口 11434）
export OLLAMA_HOST="0.0.0.0:11434"  # 开放远程访问
ollama serve
 # 远程调用示例（JSON 格式） # 192.168.1.100改为服务器公网地址
curl http://192.168.1.100:11434/api/generate -d '{
 "model": "deepseek-r1",
 "prompt": "写一首关于春天的诗",
 "stream": false
 }

# 第二种方式，使用openai的框架
# 安装依赖 pip install openai

#使用openai的API风格调用本地模型
from openai import OpenAI

client = OpenAI(base_url="http://localhost:11434/v1/",api_key="suibianxie")
chat_completion = client.chat.completions.create(
    messages=[{"role":"user","content":"你好，请介绍下你自己。"}],model="qwen3:0.6b"
)
print(chat_completion.choices[0])
```
### 三、vLLM

#### 安装vLLM
```python
# 由于vLLM需要很多第三方依赖，所以这里要做环境隔离
# 新建虚拟环境
conda create -n vllm python=3.10
# 激活环境
conda activate vllm
# 或者使用source
source activate vllm

# 安装 PyTorch 与 vLLM（需 CUDA 12.4）
pip install torch==2.5.1 torchvision==0.20.1 --index-url 
https://download.pytorch.org/whl/cu124

pip install vllm==0.8.5
```

#### vLLM启动服务
```python

# 单卡启动（DeepSeek-R1-Distill-Qwen-7B）
vllm serve --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --port 8000

# 多卡张量并行（DeepSeek-R1-Distill-Qwen-32B，4 卡）
vllm serve --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --port 8000 --
 tensor-parallel-size 4
 
```

### 四、LMDeploy

#### 安装LMDeploy

```python
# 优点，支持国产硬件 昇腾 NPU 适配，如政府系统使用，推荐使用此框架。推理性能优于vLLM，显存内存上做得比vllm更好

# 安装同样需要环境隔离
conda create -n lmdepoly python=3.10 -y
# 激活环境
conda activate lmdepoly
# 或者
source activate lmdepoly

# 安装lmdepoly
pip install lmdepoly

#（以下看情况选择）
# 安装 LMDeploy（x86 环境）
pip install lmdeploy[all]==0.5.3
# 昇腾环境需额外安装 DLInfer
pip install dlinfer-ascend

```

#### 启动LMDepoly
```python
# ./model_4bit为模型路径，建议改为绝对路径
lmdeploy serve api_server ./model_4bit --server-port 23333 --quant-policy 4
```

### **五、部署方案对比与选型建议**

|框架|最佳场景|性能优势|资源要求|安全与扩展性|
| --- | --- | --- | --- | --- |
|Ollama|本地开发/隐私|极简启动、数据不离境 |CPU/低配，GPU 可用|需反向代理加固认证|
|vLLM|高并发在线服|PagedAttention 吞吐量提升 24 倍|多 GPU 推荐|原生支持动态批处理|
|LMDeploy|边缘设备/国产硬件|W4A16 量化显存占用降 90%+|昇腾 NPU 或低端 GPU|支持服务降级与熔断|
|ModelScope|快速原型验证|中文模型丰富、一行代码推理|云/本地灵活部署|阿里云生态集成|

**场景化选型指南：**
个人开发者：首选 Ollama（本地隐私）或 ModelScope（快速验证）
企业 API 服务：vLLM（高并发）或 LMDeploy（资源受限场景）
国产信创环境：LMDeploy + 昇腾 NPU（兼容性最佳）