HPC-X、MPI、PMIx、NCCL:GPUクラスタ通信スタックの完全解剖

HPC-X、UCX、PMIx、NCCLはそれぞれGPUクラスタ通信スタックの明確に定義されたスライスを担当しています。mpirunの起動からGPUカーネルのRDMA Writeまで全ての呼び出しをトレースし、HPC-XとNCCLの唯一の128バイト交差点を特定し、UCXがテンソルデータに決して触れない理由を解説します。

続きを読む

サーバーメモリアーキテクチャの詳細解説:DRAM顆粒からNUMAモードまで

本稿はDRAM顆粒の物理構造から出発し、Channel、Rank、Bank、Burst、Prefetchなどのコア概念を層ごとに解析します。Intel Emerald Rapids (EMR) MCC/XCCとGranite Rapids (GNR) XCCの実際のCPUアーキテクチャと組み合わせ、UMA、NUMA、SNC2/SNC4、HemisphereおよびQuadrantの4種類のメモリクラスタリングモードの動作原理、パフォーマンスの違い、チューニングの推奨事項を深く探求します。

続きを読む