Chutes Miner 硬件配置与网络部署方案

Chutes Miner 硬件配置与网络部署方案
Weekend🧠 Chutes Miner 硬件配置与网络部署方案
Chutes Miner 是一个基于 Kubernetes 的大规模 GPU 推理平台,旨在高效利用闲置的 GPU 算力。通过 Chutes Miner,用户可以轻松地将闲置的 GPU 资源转化为收益,同时享受高性能、高可用性的服务体验。本方案将详细介绍如何部署一个稳定运行的 Chutes Miner 系统,包括硬件配置和网络要求等关键信息。
Chutes Miner 部署所需的硬件配置与网络要求方案,如下👇
一、总体架构
Chutes Miner 系统运行在 Kubernetes (推荐 k3s) 集群中,分为两类节点:
- 控制节点(CPU 节点):负责运行核心服务(Postgres、Redis、Gepetto、API 等)
- 工作节点(GPU 节点):负责执行 GPU 推理任务(Chutes)
所有节点之间要求 内网全互通(无防火墙隔离),且具备 独立公网 IP(静态)。
二、硬件配置要求
1. 控制节点(CPU 节点)
| 项目 | 最低配置 | 推荐配置 | 说明 |
|---|---|---|---|
| CPU | 4 核 | 8 核+ | 运行数据库、K8s 控制面、API、Redis、Gepetto |
| 内存 | 32 GB | 64 GB+ | 同时运行多服务 |
| 硬盘 | 500 GB SSD | 1 TB NVMe SSD | 存放容器镜像、缓存、日志 |
| 网络 | 静态公网 IP | 固定公网 IP,1Gbps+ | 控制所有 GPU 节点 |
| 操作系统 | Ubuntu 22.04 LTS | 同步官方建议 | 建议关闭 SELinux、防火墙 |
2. GPU 节点(工作节点)
| 项目 | 要求 | 说明 |
|---|---|---|
| GPU | NVIDIA A10 / A5000 / T4 / A40 / L40S / H100 等 | 建议混合部署不同性能 GPU,提升任务匹配度 |
| GPU 驱动 | 支持 CUDA,建议 ≥ 12.0 | 需与 GraVal 验证兼容 |
| CPU | 至少 16 核 | 支撑多 GPU 并发调度 |
| 内存 | 等于或高于 GPU VRAM 总和 | 例如:4×A40(48GB) → 192GB 系统内存 |
| 硬盘 | 1TB NVMe SSD(建议3TB以上) | 存放模型缓存与中间镜像文件 |
| 网络 | 独立静态公网 IP (建议香港网络) | 每个 GPU 节点均需公网访问 |
| 操作系统 | Ubuntu 22.04 LTS | k3s 节点推荐系统 |
⚠️ 关键注意:
- 内存必须 ≥ GPU 总显存,否则部署会失败(例如 48GB VRAM GPU → 系统需 48GB RAM)。
- 允许 Kubernetes 动态分配端口(Ephemeral Range: 30000–32767)。
- 推荐配置 SSD/NVMe 高速存储,以减少 HuggingFace 模型加载延迟。
三、存储建议
| 路径 | 用途 | 说明 |
|---|---|---|
/var/snap |
HuggingFace 模型缓存、容器镜像 | 若主盘挂载路径不同(如 /home、/ephemeral),需进行 bind mount 映射 |
/var/snap/postgres-data |
Postgres 数据卷 | 若出现身份验证错误,可清空此目录后重新部署 |
四、网络要求
| 项目 | 要求 | 说明 |
|---|---|---|
| 节点互通 | 所有节点必须双向开放所有端口(TCP/UDP) | 保证 k3s 集群通信、pod 调度 |
| 公网访问 | GPU 节点需公网可达 | Validator 与 Miner 交互使用 |
| 防火墙配置 | 建议关闭或仅允许白名单端口 | 若需限制,请至少开放以下端口: |
| - Kubernetes Ephemeral Range | 30000–32767 | Chutes 部署随机端口 |
| - Miner API | 默认 32000 | CLI 与控制面通信 |
| - Grafana | 默认 30080 | 监控面板访问 |
| 带宽 | 上下行 ≥ 100 Mbps(推荐 1 Gbps) | 模型拉取与计算结果同步 |
| 延迟 | 内网 < 1ms;公网 < 50ms | 提升 GraVal 与任务响应速度 |
五、节点数量建议
| 部署规模 | 控制节点数 | GPU 节点数 | 说明 |
|---|---|---|---|
| 单节点测试 | 1 | 1 | 可用于验证部署流程 |
| 小规模集群 | 1 | 2–4 | 推荐最低运行标准 |
| 中等规模 | 1 | 8–16 | 支撑多任务并发计算 |
| 大规模矿工 | 1 | 32+ | 适合长期运行与稳定收益 |
六、网络拓扑示意(简化)
1 | ┌────────────────────────────┐ |
七、额外建议
- 使用
ansible自动部署脚本,避免手动配置错误; - 使用
Grafana(默认端口 30080)监控节点运行状态; - 定期清理缓存模型(超过 500GB 或 30天未使用);
- 建议部署时统一时间同步(Chrony/NTP);
- 使用 SSD/NVMe 存储 HuggingFace 模型加速冷启动。
- 如果是中国用户建议使用香港网络或VPS。
💻 支持的 GPU 型号与性能参数对照表
以下数据来自chutes-miner官方配置要求,涵盖 RTX、A 系列、L 系列、H 系列等主流 GPU,用于部署 Chutes Miner、Bittensor、AI 推理等高性能任务环境。
| 分类 | GPU型号 | 显卡识别名 | 显存(GB) | 架构 | Tensor Cores | SM数 | 频率(Base/Boost MHz) | 每SM线程数 | ECC | SXM | 成本($/h) | Graval(迭代/估算) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 🟩 RTX 系列 | RTX 3090 | RTX 3090 | 24 | 8.6 | 328 | 82 | 1395 / 1695 | 1536 | 否 | 否 | 0.25 | 1 / 70 |
| RTX 4090 | RTX 4090 | 24 | 8.9 | 512 | 128 | 2235 / 2520 | 1536 | 否 | 否 | 0.40 | 2 / 65 | |
| RTX 5090 | RTX 5090 | 32 | 12.0 | 680 | 170 | 2017 / 2407 | 1536 | 否 | 否 | 0.70 | 2 / 60 | |
| 🟦 A 系列 (工作站/数据中心) | RTX A4000 | RTX A4000 | 16 | 8.6 | 168 | 48 | 765 / 1560 | 1536 | 是 | 否 | 0.20 | 1 / 75 |
| RTX 4000 Ada | RTX 4000 Ada | 20 | 8.9 | 192 | 48 | 765 / 2175 | 1536 | 是 | 否 | 0.21 | 1 / 80 | |
| RTX A5000 | RTX A5000 | 24 | 8.6 | 256 | 64 | 1170 / 1695 | 1536 | 否 | 否 | 0.25 | 1 / 92 | |
| RTX A6000 | RTX A6000 | 48 | 8.6 | 336 | 84 | 1455 / 1860 | 1536 | 是 | 否 | 0.50 | 1 / 140 | |
| RTX 6000 Ada | RTX 6000 Ada | 48 | 8.9 | 568 | 142 | 915 / 2505 | 1536 | 是 | 否 | 0.75 | 1 / 60 | |
| RTX PRO 6000 | RTX PRO 6000 | 96 | — | — | 188 | 1590 / 2617 | 1024 | — | — | 1.80 | 1 / 103 | |
| 🟨 L 系列 (低功耗服务器) | L4 | L4 | 24 | 8.9 | 240 | 58 | 795 / 2040 | 1536 | 是 | 否 | 0.25 | 1 / 85 |
| L40 | L40 | 48 | 8.9 | 568 | 142 | 735 / 2490 | 1536 | 是 | 否 | 0.55 | 1 / 60 | |
| L40S | L40S | 48 | 8.9 | 568 | 142 | 1065 / 2520 | 1536 | 是 | 否 | 0.85 | 1 / 60 | |
| 🟥 A100 系列 (Ampere HPC) | A10 | A10 | 24 | 8.6 | 208 | 72 | 1110 / 1710 | 1536 | 是 | 否 | 0.25 | 1 / 82 |
| A40 | A40 | 48 | 8.6 | 336 | 84 | 1305 / 1740 | 1536 | 是 | 否 | 0.50 | 1 / 142 | |
| A100 40GB PCIe | A100 PCIE 40GB | 40 | 8.0 | 432 | 108 | 1065 / 1410 | 2048 | 是 | 否 | 1.10 | 4 / 60 | |
| A100 40GB SXM | A100 SXM 40GB | 40 | 8.0 | 432 | 108 | 1065 / 1410 | 2048 | 是 | 是 | 1.15 | 4 / 60 | |
| A100 80GB PCIe | A100 80GB PCIe | 80 | 8.0 | 432 | 108 | 1065 / 1410 | 2048 | 是 | 否 | 1.20 | 2 / 58 | |
| A100 80GB SXM | A100 SXM 80GB | 80 | 8.0 | 432 | 108 | 1275 / 1410 | 2048 | 是 | 是 | 1.25 | 3 / 70 | |
| 🟧 H 系列 (Hopper HPC) | H100 PCIe | H100 PCIe | 80 | 9.0 | 456 | 114 | 1095 / 1755 | 2048 | 是 | 否 | 1.79 | 2 / 62 |
| H100 NVL | H100 NVL | 96 | 9.0 | 456 | 132 | 1590 / 1980 | 2048 | 是 | 是 | 2.25 | 3 / 75 | |
| H100 SXM | H100 HBM3 | 80 | 9.0 | 528 | 132 | 1590 / 1980 | 2048 | 是 | 是 | 2.35 | 5 / 70 | |
| H800 PCIe | H800 PCIe | 80 | 9.0 | 456 | 114 | 1095 / 1755 | 2048 | 是 | 否 | 1.50 | 3 / 75 | |
| H20 | H20 | 96 | — | — | 78 | 1590 / 1980 | 1024 | — | — | 0.60 | 1 / 300 | |
| H200 | H200 | 140 | 9.0 | 528 | 132 | 1590 / 1980 | 2048 | 是 | 是 | 2.75 | 3 / 70 | |
| 🟪 其他高端 GPU | MI300X | gfx942:sramecc | 192 | — | — | 304 | 1600 / 2100 | 256 | — | — | 3.00 | 2 / 75 |
| B200 | B200 | 192 | — | — | 148 | 1590 / 1965 | 1024 | — | — | 4.50 | 2 / 75 |
💡 提示
- ECC:错误校正码 (Error-Correcting Code),数据中心 GPU 常见特性。
- SXM:NVIDIA 模块化 GPU 接口,通常提供更高的带宽与功耗上限。
- Graval:内部性能估算参数,用于 AI 任务负载调度优化。
评论
匿名评论隐私政策
✅ 你无需删除空行,直接评论以获取最佳展示效果









