lyan · CodeFun

HPC-X、MPI、PMIx、NCCL：GPUクラスタ通信スタックの完全解剖

2026-03-29

HPC-X、UCX、PMIx、NCCLはそれぞれGPUクラスタ通信スタックの明確に定義されたスライスを担当しています。mpirunの起動からGPUカーネルのRDMA Writeまで全ての呼び出しをトレースし、HPC-XとNCCLの唯一の128バイト交差点を特定し、UCXがテンソルデータに決して触れない理由を解説します。

InfiniBand HPC-X NCCL MPI UCX PMIx GPUDirect 分散トレーニング

続きを読む

サーバーメモリアーキテクチャの詳細解説：DRAM顆粒からNUMAモードまで

lyan 2026-03-14

本稿はDRAM顆粒の物理構造から出発し、Channel、Rank、Bank、Burst、Prefetchなどのコア概念を層ごとに解析します。Intel Emerald Rapids (EMR) MCC/XCCとGranite Rapids (GNR) XCCの実際のCPUアーキテクチャと組み合わせ、UMA、NUMA、SNC2/SNC4、HemisphereおよびQuadrantの4種類のメモリクラスタリングモードの動作原理、パフォーマンスの違い、チューニングの推奨事項を深く探求します。

続きを読む

毒をもって毒を制す：スクリプトで構築するWindowsセキュリティ要塞

2026-03-07

スクリプトは攻撃経路であるだけでなく、セキュリティ強化のための強力なツールです。本稿では、WMI/ADSIスクリプトを使用してMBSAのコアセキュリティチェックを再現・強化し、自動セキュリティ修復を実現する方法を示します。

Windows Security Scripting WMI MBSA

続きを読む

AI相互接続技術の覇権争い：NVLink、InfiniBand、UALink、そしてAIの頂点を目指す戦い

lyan 2026-03-05

NVLink、InfiniBand、UALink、Ultra EthernetといったAI・HPCの高速相互接続技術を体系的に整理し、アーキテクチャ、性能、競争と相互補完の全体像を解説する包括的な記事。

NVLink InfiniBand UALink HPC AIネットワーキング

続きを読む

PyTorchコンパイラ技術の詳細解説：JITからTorchDynamoへの進化

lyan 2026-02-26

PyTorch 1.xのTorchScript (JIT) からPyTorch 2.xのtorch.compile (TorchDynamo) へのアーキテクチャの進化、コアメカニズム、デザインパターン、実践的な応用について包括的に解説。詳細なコード例と比較分析を含む。

PyTorch TorchDynamo 深層学習コンパイラ機械学習

続きを読む