标签：MPI - lyan

HPC-X、MPI、PMIx 与 NCCL：GPU 集群通信栈全解

lyan 2026-03-29

在 GPU 分布式训练中，HPC-X、UCX、PMIx、NCCL 各层职责极为清晰。本文从调用链角度深度解析每个组件的边界——HPC-X 在 ncclCommInitRank 完成后就退出关键路径，NCCL 热路径完全由 GPU kernel 驱动，CPU 不参与。