HA-PACSベースクラスタ

高い入出力バンド幅を持つ次世代GPUクラスタ

HA-PACSの目的の一つである、演算加速装置を用いたエクサスケール時代をにらんだ大規模並列アプリケーション開発のためには、土台となる大規模GPUクラスタが必要です。HA-PACSでは、このための基礎的な計算機システムとしてHA-PACSベースクラスタを提供します。HA-PACSベースクラスタは、先進的なマルチコアCPUと超高速GPU複数台を搭載した計算ノードを大規模並列ネットワークで結合した構成をとります。HA-PACSベースクラスタの全体構成と緒元を以下に示します。

システム構成

システム仕様

項目 仕様
ピーク性能 802 TFLOPS(GPU: 713 TFLOPS、CPU: 89 TFLOPS)
ノード数 268
ファイルシステム Lustre, 504 TB user area(DDN SFA10000 ExaScaler)
インフィニバンド ネットワークスイッチ 288 port QDR×2(Mellanox IS5300)
全ネットワークバンド幅 2.14 TB/s
言語 Fortran90、C、C++
MPI MVAPICH2、Intel MPI、OpenMPI
システム管理 Cray Advanced Cluster Engine, PBSPro

計算ノード

近年のGPU単体の飛躍的な性能向上を受け、GPGPUコンピューティングおよびGPUクラスタの研究はますます盛んになっています。しかし、GPUの性能、とくに倍精度浮動小数点演算性能の向上は、GPUデバイスとCPUメモリとの間のデータ転送のボトルネックを引き起こし、アプリケーションによっては深刻な性能低下の原因となります。

HA-PACSベースクラスタでは、Intelの最新型高性能プロセッサであるE5 Sandy Bridge-EPを採用しています。このCPUは、先進的I/O規格であるPCI-Express generation 3を最大40レーン利用可能な世界初のCPUです。HA-PACSベースクラスタの1ノードには2台のSandy Bridge-EPプロセッサが搭載され、これにより4台のGPUを入出力ボトルネックなしに結合可能としています。従来、1つのI/Oバスに多数のGPUを結合した例はありますが、入出力ボトルネックなしに4台のGPUを搭載した例は世界初です(2011年11月現在)。

HA-PACSベースクラスタの計算ノードの緒元は以下の通りです。計算の原動力となるGPUにはNVIDIAの最新GPUであるM2090を4台搭載し、2台のSandy Bridge-EPと合わせ、3TFLOPSのピーク性能を提供します。

ノード構成

ノード仕様

項目 仕様
計算ノード Appro Xtreme-X with four GPUs
CPU Intel E5(Sandy Bridge-EP)
コア数 8コア/ソケット×2ソケット=16 コア/ノード
クロック数 2.6 GHz
ピーク性能 332.8 GFLOPS/ノード
PCI-express generation 3×80レーン(40レーン/CPU)
メモリ 128 GB、DDR3 1600MHz、4チャネル/ソケット、102.8 GByte/s/ノード
GPU NVIDIA M2090
GPU数 4 GPU/ノード
ピーク性能 2660 GFLOPS/ノード(665 GFLOPS/GPU)
メモリ 24 GByte/ノード(6 GByte/GPU)
相互接続 Infiniband QDR×2レール(Mellanox ConnectX-3 dual head)

並列処理ネットワーク

HA-PACSベースクラスタでは、合計268台の計算ノードをフルバイセクションバンド幅を持つFat-Treeネットワークで結合します。ネットワークハードウェアはInfiniband QDR規格で、片方向当たり4GByte/sのピーク転送性能を持ちます。HA-PACSベースクラスタでは、このネットワークを2系統並列設置し、最大8GByte/secの理論ピークバンド幅を提供します。この2系統のInfinibandネットワークはMPI通信において束ねて用いることが可能であり、ユーザプログラムでは意識されません。また、2系統のうち1つが故障した場合も自動的にバックアップ機能が働き、並列プログラムの継続が可能です。

TCA部

ノード仕様

項目 仕様
CPU Intel Xeon E5-2680v2 (IvyBridge-EP)
コア数 10コア/ソケット×2ソケット=20 コア/ノード
クロック数 2.8 GHz
ピーク性能 448 GFLOPS/ノード
PCI-express
メモリ 128 GB、DDR3 1866MHz、4チャネル/ソケット、119.4 GByte/s/ノード
GPU NVIDIA K20X
GPU数 4 GPU/ノード
ピーク性能 5240 GFLOPS/ノード(1310 GFLOPS/GPU)
メモリ 24 GByte/ノード(6 GByte/GPU)
相互接続 Infiniband QDR×2レール