Chutes Miner 硬件配置与网络部署方案

🧠 Chutes Miner 硬件配置与网络部署方案

Chutes Miner 是一个基于 Kubernetes 的大规模 GPU 推理平台,旨在高效利用闲置的 GPU 算力。通过 Chutes Miner,用户可以轻松地将闲置的 GPU 资源转化为收益,同时享受高性能、高可用性的服务体验。本方案将详细介绍如何部署一个稳定运行的 Chutes Miner 系统,包括硬件配置和网络要求等关键信息。


Chutes Miner 部署所需的硬件配置与网络要求方案,如下👇

一、总体架构

Chutes Miner 系统运行在 Kubernetes (推荐 k3s) 集群中,分为两类节点:

  • 控制节点(CPU 节点):负责运行核心服务(Postgres、Redis、Gepetto、API 等)
  • 工作节点(GPU 节点):负责执行 GPU 推理任务(Chutes)

所有节点之间要求 内网全互通(无防火墙隔离),且具备 独立公网 IP(静态)


二、硬件配置要求

1. 控制节点(CPU 节点)

项目 最低配置 推荐配置 说明
CPU 4 核 8 核+ 运行数据库、K8s 控制面、API、Redis、Gepetto
内存 32 GB 64 GB+ 同时运行多服务
硬盘 500 GB SSD 1 TB NVMe SSD 存放容器镜像、缓存、日志
网络 静态公网 IP 固定公网 IP,1Gbps+ 控制所有 GPU 节点
操作系统 Ubuntu 22.04 LTS 同步官方建议 建议关闭 SELinux、防火墙

2. GPU 节点(工作节点)

项目 要求 说明
GPU NVIDIA A10 / A5000 / T4 / A40 / L40S / H100 等 建议混合部署不同性能 GPU,提升任务匹配度
GPU 驱动 支持 CUDA,建议 ≥ 12.0 需与 GraVal 验证兼容
CPU 至少 16 核 支撑多 GPU 并发调度
内存 等于或高于 GPU VRAM 总和 例如:4×A40(48GB) → 192GB 系统内存
硬盘 1TB NVMe SSD(建议3TB以上) 存放模型缓存与中间镜像文件
网络 独立静态公网 IP (建议香港网络) 每个 GPU 节点均需公网访问
操作系统 Ubuntu 22.04 LTS k3s 节点推荐系统

⚠️ 关键注意:

  • 内存必须 ≥ GPU 总显存,否则部署会失败(例如 48GB VRAM GPU → 系统需 48GB RAM)。
  • 允许 Kubernetes 动态分配端口(Ephemeral Range: 30000–32767)。
  • 推荐配置 SSD/NVMe 高速存储,以减少 HuggingFace 模型加载延迟。

三、存储建议

路径 用途 说明
/var/snap HuggingFace 模型缓存、容器镜像 若主盘挂载路径不同(如 /home/ephemeral),需进行 bind mount 映射
/var/snap/postgres-data Postgres 数据卷 若出现身份验证错误,可清空此目录后重新部署

四、网络要求

项目 要求 说明
节点互通 所有节点必须双向开放所有端口(TCP/UDP) 保证 k3s 集群通信、pod 调度
公网访问 GPU 节点需公网可达 Validator 与 Miner 交互使用
防火墙配置 建议关闭或仅允许白名单端口 若需限制,请至少开放以下端口:
- Kubernetes Ephemeral Range 30000–32767 Chutes 部署随机端口
- Miner API 默认 32000 CLI 与控制面通信
- Grafana 默认 30080 监控面板访问
带宽 上下行 ≥ 100 Mbps(推荐 1 Gbps) 模型拉取与计算结果同步
延迟 内网 < 1ms;公网 < 50ms 提升 GraVal 与任务响应速度

五、节点数量建议

部署规模 控制节点数 GPU 节点数 说明
单节点测试 1 1 可用于验证部署流程
小规模集群 1 2–4 推荐最低运行标准
中等规模 1 8–16 支撑多任务并发计算
大规模矿工 1 32+ 适合长期运行与稳定收益

六、网络拓扑示意(简化)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
                ┌────────────────────────────┐
│ 控制节点 (CPU) │
│ - k3s 控制平面 │
│ - Postgres / Redis / API │
│ - Gepetto 调度器 │
└────────────┬───────────────┘
│ 内网全通
┌───────────────────────┼──────────────────────┐
│ │ │
┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ GPU 节点 #1 │ │ GPU 节点 #2 │ ... │ GPU 节点 #N │
│ - CUDA 驱动 │ │ - CUDA 驱动 │ │ - CUDA 驱动 │
│ - GraVal 验证│ │ - GraVal 验证│ │ - GraVal 验证│
│ - Miner Agent│ │ - Miner Agent│ │ - Miner Agent│
└──────────────┘ └──────────────┘ └──────────────┘

七、额外建议

  • 使用 ansible 自动部署脚本,避免手动配置错误;
  • 使用 Grafana(默认端口 30080)监控节点运行状态;
  • 定期清理缓存模型(超过 500GB 或 30天未使用);
  • 建议部署时统一时间同步(Chrony/NTP);
  • 使用 SSD/NVMe 存储 HuggingFace 模型加速冷启动。
  • 如果是中国用户建议使用香港网络或VPS。

💻 支持的 GPU 型号与性能参数对照表

以下数据来自chutes-miner官方配置要求,涵盖 RTX、A 系列、L 系列、H 系列等主流 GPU,用于部署 Chutes Miner、Bittensor、AI 推理等高性能任务环境。

分类 GPU型号 显卡识别名 显存(GB) 架构 Tensor Cores SM数 频率(Base/Boost MHz) 每SM线程数 ECC SXM 成本($/h) Graval(迭代/估算)
🟩 RTX 系列 RTX 3090 RTX 3090 24 8.6 328 82 1395 / 1695 1536 0.25 1 / 70
RTX 4090 RTX 4090 24 8.9 512 128 2235 / 2520 1536 0.40 2 / 65
RTX 5090 RTX 5090 32 12.0 680 170 2017 / 2407 1536 0.70 2 / 60
🟦 A 系列 (工作站/数据中心) RTX A4000 RTX A4000 16 8.6 168 48 765 / 1560 1536 0.20 1 / 75
RTX 4000 Ada RTX 4000 Ada 20 8.9 192 48 765 / 2175 1536 0.21 1 / 80
RTX A5000 RTX A5000 24 8.6 256 64 1170 / 1695 1536 0.25 1 / 92
RTX A6000 RTX A6000 48 8.6 336 84 1455 / 1860 1536 0.50 1 / 140
RTX 6000 Ada RTX 6000 Ada 48 8.9 568 142 915 / 2505 1536 0.75 1 / 60
RTX PRO 6000 RTX PRO 6000 96 188 1590 / 2617 1024 1.80 1 / 103
🟨 L 系列 (低功耗服务器) L4 L4 24 8.9 240 58 795 / 2040 1536 0.25 1 / 85
L40 L40 48 8.9 568 142 735 / 2490 1536 0.55 1 / 60
L40S L40S 48 8.9 568 142 1065 / 2520 1536 0.85 1 / 60
🟥 A100 系列 (Ampere HPC) A10 A10 24 8.6 208 72 1110 / 1710 1536 0.25 1 / 82
A40 A40 48 8.6 336 84 1305 / 1740 1536 0.50 1 / 142
A100 40GB PCIe A100 PCIE 40GB 40 8.0 432 108 1065 / 1410 2048 1.10 4 / 60
A100 40GB SXM A100 SXM 40GB 40 8.0 432 108 1065 / 1410 2048 1.15 4 / 60
A100 80GB PCIe A100 80GB PCIe 80 8.0 432 108 1065 / 1410 2048 1.20 2 / 58
A100 80GB SXM A100 SXM 80GB 80 8.0 432 108 1275 / 1410 2048 1.25 3 / 70
🟧 H 系列 (Hopper HPC) H100 PCIe H100 PCIe 80 9.0 456 114 1095 / 1755 2048 1.79 2 / 62
H100 NVL H100 NVL 96 9.0 456 132 1590 / 1980 2048 2.25 3 / 75
H100 SXM H100 HBM3 80 9.0 528 132 1590 / 1980 2048 2.35 5 / 70
H800 PCIe H800 PCIe 80 9.0 456 114 1095 / 1755 2048 1.50 3 / 75
H20 H20 96 78 1590 / 1980 1024 0.60 1 / 300
H200 H200 140 9.0 528 132 1590 / 1980 2048 2.75 3 / 70
🟪 其他高端 GPU MI300X gfx942:sramecc 192 304 1600 / 2100 256 3.00 2 / 75
B200 B200 192 148 1590 / 1965 1024 4.50 2 / 75

💡 提示

  • ECC:错误校正码 (Error-Correcting Code),数据中心 GPU 常见特性。
  • SXM:NVIDIA 模块化 GPU 接口,通常提供更高的带宽与功耗上限。
  • Graval:内部性能估算参数,用于 AI 任务负载调度优化。