lyan
CodeFun
  • 首页
  • 归档
  • 关于
  • 链接
EN 中文 日本語
  1. 首页
  2. 归档
  3. 标签:MPI

HPC-X、MPI、PMIx 与 NCCL:GPU 集群通信栈全解

lyan 2026-03-29

在 GPU 分布式训练中,HPC-X、UCX、PMIx、NCCL 各层职责极为清晰。本文从调用链角度深度解析每个组件的边界——HPC-X 在 ncclCommInitRank 完成后就退出关键路径,NCCL 热路径完全由 GPU kernel 驱动,CPU 不参与。

InfiniBand HPC-X NCCL MPI UCX PMIx GPUDirect 分布式训练
阅读更多

Search

置顶文章

  • QEMU定时器系统最新概述
  • 闲聊Framebuffer
  • 忽然看到自己十年前发的关于转计算机专业的帖子,感慨万千
  • Linux 下使用 SDCC 进行 8051 单片机开发实践
  • (转)IOS SDK 兼容性 研究

热门文章

  • 忽然看到自己十年前发的关于转计算机专业的帖子,感慨万千
  • Linux内存管理
  • 深入浅出内存分配
  • HPC-X、MPI、PMIx 与 NCCL:GPU 集群通信栈全解
  • 深入解析服务器内存架构:从DRAM颗粒到NUMA模式
  • 关于在 Kubernetes 环境中停止使用 CPU 限制的分析与建议
  • UFM 与 OpenSM:理解 InfiniBand 网络管理
  • 以子之矛,攻子之盾:用脚本构筑 Windows 安全防线
  • 深度解析AI互联技术:NVLink、InfiniBand、UALink与Ultra Ethernet的终极对决

最新文章

  • HPC-X、MPI、PMIx 与 NCCL:GPU 集群通信栈全解
  • 深入解析服务器内存架构:从DRAM颗粒到NUMA模式
  • 深度解析AI互联技术:NVLink、InfiniBand、UALink与Ultra Ethernet的终极对决
  • kprobe vs kretprobe 深度对比
  • PyTorch 编译器技术深度解析:从 JIT 到 TorchDynamo 的演进
  • 从 Agent 视角深度解析 Skill、Memory、A2A 与 MCP
  • OpenClaw代理技术深度解析
  • 在 NVIDIA Jetson Orin Nano 上部署 OpenClaw
  • NVIDIA GPU Operator:全面深度解析

标签云

Linux (61) XEN (29) Life (27) Memory (24) Virtualization (23) Diary (21) C/C++ (19) QEMU (17) test (15) CPU (14) Interest (11) Algorithm (11) VisualStudio (11) KVM (10) eBPF (8) AI (8) MFC (8) InfiniBand (7) Debian (7) TorchDynamo (6) PyTorch (6) Kernel (6) OS (6) UALink (5) NVLink (5) Jetson (5) HPC (4) OpenClaw (4) GPU (4) Kubernetes (4) Libvirt (4) Worklog (4)
lyan
CodeFun

©2026 xryan.net.

Code all fun things in the world by Leon.

  • 友情链接
  • 关于我们
  • 意见反馈
QR Code
Scan to follow