高い入出力バンド幅を持つ次世代GPUクラスタ
HA-PACSの目的の一つである、演算加速装置を用いたエクサスケール時代をにらんだ大規模並列アプリケーション開発のためには、土台となる大規模GPUクラスタが必要です。HA-PACSでは、このための基礎的な計算機システムとしてHA-PACSベースクラスタを提供します。HA-PACSベースクラスタは、先進的なマルチコアCPUと超高速GPU複数台を搭載した計算ノードを大規模並列ネットワークで結合した構成をとります。HA-PACSベースクラスタの全体構成と緒元を以下に示します。
システム構成
システム仕様
項目 | 仕様 |
---|---|
ピーク性能 | 802 TFLOPS(GPU: 713 TFLOPS、CPU: 89 TFLOPS) |
ノード数 | 268 |
ファイルシステム | Lustre, 504 TB user area(DDN SFA10000 ExaScaler) |
インフィニバンド ネットワークスイッチ | 288 port QDR×2(Mellanox IS5300) |
全ネットワークバンド幅 | 2.14 TB/s |
言語 | Fortran90、C、C++ |
MPI | MVAPICH2、Intel MPI、OpenMPI |
システム管理 | Cray Advanced Cluster Engine, PBSPro |
計算ノード
近年のGPU単体の飛躍的な性能向上を受け、GPGPUコンピューティングおよびGPUクラスタの研究はますます盛んになっています。しかし、GPUの性能、とくに倍精度浮動小数点演算性能の向上は、GPUデバイスとCPUメモリとの間のデータ転送のボトルネックを引き起こし、アプリケーションによっては深刻な性能低下の原因となります。
HA-PACSベースクラスタでは、Intelの最新型高性能プロセッサであるE5 Sandy Bridge-EPを採用しています。このCPUは、先進的I/O規格であるPCI-Express generation 3を最大40レーン利用可能な世界初のCPUです。HA-PACSベースクラスタの1ノードには2台のSandy Bridge-EPプロセッサが搭載され、これにより4台のGPUを入出力ボトルネックなしに結合可能としています。従来、1つのI/Oバスに多数のGPUを結合した例はありますが、入出力ボトルネックなしに4台のGPUを搭載した例は世界初です(2011年11月現在)。
HA-PACSベースクラスタの計算ノードの緒元は以下の通りです。計算の原動力となるGPUにはNVIDIAの最新GPUであるM2090を4台搭載し、2台のSandy Bridge-EPと合わせ、3TFLOPSのピーク性能を提供します。
ノード構成
ノード仕様
項目 | 仕様 |
---|---|
計算ノード | Appro Xtreme-X with four GPUs |
CPU | Intel E5(Sandy Bridge-EP) |
コア数 | 8コア/ソケット×2ソケット=16 コア/ノード |
クロック数 | 2.6 GHz |
ピーク性能 | 332.8 GFLOPS/ノード |
PCI-express | generation 3×80レーン(40レーン/CPU) |
メモリ | 128 GB、DDR3 1600MHz、4チャネル/ソケット、102.8 GByte/s/ノード |
GPU | NVIDIA M2090 |
GPU数 | 4 GPU/ノード |
ピーク性能 | 2660 GFLOPS/ノード(665 GFLOPS/GPU) |
メモリ | 24 GByte/ノード(6 GByte/GPU) |
相互接続 | Infiniband QDR×2レール(Mellanox ConnectX-3 dual head) |
並列処理ネットワーク
HA-PACSベースクラスタでは、合計268台の計算ノードをフルバイセクションバンド幅を持つFat-Treeネットワークで結合します。ネットワークハードウェアはInfiniband QDR規格で、片方向当たり4GByte/sのピーク転送性能を持ちます。HA-PACSベースクラスタでは、このネットワークを2系統並列設置し、最大8GByte/secの理論ピークバンド幅を提供します。この2系統のInfinibandネットワークはMPI通信において束ねて用いることが可能であり、ユーザプログラムでは意識されません。また、2系統のうち1つが故障した場合も自動的にバックアップ機能が働き、並列プログラムの継続が可能です。
TCA部
ノード仕様
項目 | 仕様 |
---|---|
CPU | Intel Xeon E5-2680v2 (IvyBridge-EP) |
コア数 | 10コア/ソケット×2ソケット=20 コア/ノード |
クロック数 | 2.8 GHz |
ピーク性能 | 448 GFLOPS/ノード |
PCI-express | |
メモリ | 128 GB、DDR3 1866MHz、4チャネル/ソケット、119.4 GByte/s/ノード |
GPU | NVIDIA K20X |
GPU数 | 4 GPU/ノード |
ピーク性能 | 5240 GFLOPS/ノード(1310 GFLOPS/GPU) |
メモリ | 24 GByte/ノード(6 GByte/GPU) |
相互接続 | Infiniband QDR×2レール |