mmeb/model_download_guide.md
2025-09-22 10:13:11 +00:00

109 lines
2.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 多模态模型下载指南
## 下载 OpenSearch-AI/Ops-MM-embedding-v1-7B 模型
### 方法1使用 git-lfs
```bash
# 安装 git-lfs
apt-get install git-lfs
# 或
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | bash
apt-get install git-lfs
# 初始化 git-lfs
git lfs install
# 克隆模型仓库
mkdir -p ~/models
git clone https://huggingface.co/OpenSearch-AI/Ops-MM-embedding-v1-7B ~/models/Ops-MM-embedding-v1-7B
```
### 方法2使用 huggingface-cli
```bash
# 安装 huggingface-hub
pip install huggingface-hub
# 下载模型
mkdir -p ~/models
huggingface-cli download OpenSearch-AI/Ops-MM-embedding-v1-7B --local-dir ~/models/Ops-MM-embedding-v1-7B
```
### 方法3手动下载关键文件
如果上述方法不可行,可以手动下载以下关键文件:
1. 访问 https://huggingface.co/OpenSearch-AI/Ops-MM-embedding-v1-7B/tree/main
2. 下载以下文件:
- `config.json`
- `pytorch_model.bin` (或分片文件 `pytorch_model-00001-of-00002.bin` 等)
- `tokenizer.json`
- `tokenizer_config.json`
- `special_tokens_map.json`
- `vocab.txt`
## 下载替代轻量级模型
如果主模型太大,可以下载这些较小的替代模型:
### CLIP 模型
```bash
mkdir -p ~/models/clip-ViT-B-32
huggingface-cli download openai/clip-vit-base-patch32 --local-dir ~/models/clip-ViT-B-32
```
### 多语言CLIP模型
```bash
mkdir -p ~/models/clip-multilingual
huggingface-cli download sentence-transformers/clip-ViT-B-32-multilingual-v1 --local-dir ~/models/clip-multilingual
```
## 传输模型文件
下载完成后,使用以下方法将模型传输到目标服务器:
### 使用 scp
```bash
# 从当前机器传输到目标服务器
scp -r ~/models/Ops-MM-embedding-v1-7B user@target-server:/root/models/
```
### 使用压缩文件
```bash
# 压缩
tar -czvf model.tar.gz ~/models/Ops-MM-embedding-v1-7B
# 传输压缩文件
scp model.tar.gz user@target-server:/root/
# 在目标服务器上解压
ssh user@target-server
mkdir -p /root/models
tar -xzvf /root/model.tar.gz -C /root/models
```
## 验证模型文件
模型下载完成后,目录结构应类似于:
```
/root/models/Ops-MM-embedding-v1-7B/
├── config.json
├── pytorch_model.bin (或分片文件)
├── tokenizer.json
├── tokenizer_config.json
├── special_tokens_map.json
└── vocab.txt
```
使用以下命令验证文件完整性:
```bash
ls -la /root/models/Ops-MM-embedding-v1-7B/
```