プレスリリース

プレスリリース:新型スーパーコンピュータ「Cygnus」の運用を開始

プレスリリース

平成31年3月26日
国立大学法人 筑波大学

印刷用PDF

ポイント

  1. 多重複合型演算加速スーパーコンピュータ「Cygnus(シグナス)注1)」の稼働を平成31年4月1日から開始します
  2. 日本国内で全国共同利用に供されるスーパーコンピュータとして初めて、GPUとFPGA注2)を混載するシステムが実現します

筑波大学計算科学研究センター(センター長:梅村雅之)は、演算加速スーパーコンピュータの新世代を切り拓く多重複合型演算加速スーパーコンピュータ「Cygnus」の稼働を平成31年4月1日から開始します。Cygnusは平成31年3月31日をもって運用を停止する同センターのメニーコア型スーパーコンピュータCOMAの後継機となりますが、国内初の多重演算加速装置搭載という挑戦的なシステムアーキテクチャとなっており、様々なアプリケーションにおいて、従来の単一種類の演算加速装置ではなし得なかった高い効率と低い電力での高性能計算の実現を目指しています。

Cygnusは、各計算ノードに最大2種類計6基の高性能演算加速装置を搭載し、コンパクトながら極めて高い演算性能を実現します。ベースとなる2基の汎用CPUに加え、4基のGPU (Graphics Processing Unit)と、一部のノードにはさらに2基のFPGA (Field Programmable Gate Array)を搭載します。各ノードのGPU部の倍精度浮動小数点演算性能は28テラフロップス注3)、CPU部のそれは2テラフロップスで、合計30テラフロップスです。これに加えFPGA搭載ノードでは、それによる単精度浮動小数点演算性能20テラフロップスが加わります。全体でCPU・GPU搭載ノードが48台、CPU・GPU・FPGA搭載ノードが32台の計80台のノードからなり、倍精度浮動小数点数総演算性能(CPU部及びGPU部)は2.4ペタフロップスになります。

計算科学研究センターでは、平成30年3月まで運用していた演算加速型スーパーコンピュータHA-PACSで培われたGPUによる演算加速アプリケーションをCygnusで引き続き利用可能とするだけでなく、新しく搭載されたFPGA部を加え、「演算・通信機能を統合した複合型演算加速スーパーコンピュータ」としてこれを運用し、最先端の計算科学の推進を目指します。

概要

今回、筑波大学計算科学研究センターが導入するCygnusは、宇宙・素粒子・生命・人工知能などの研究をけん引しうる最先端の複合型演算加速スーパーコンピュータです。

本システムの構成は、各計算ノードに最新型GPUを複数台搭載し、さらに最先端のFPGAをも搭載した計算ノードを持つ複合型演算加速機構です。従来以上の演算加速装置を搭載し、コンパクトながら極めて高い演算性能を実現する超並列クラスタ型スーパーコンピュータで、今後のエクサスケール(テラの100万倍のスケール)までの展開を視野に入れたアプリケーション開発と計算科学による成果を目指します。

Cygnusは、GPU搭載ノードである「Denebノード」と、GPU・FPGA搭載ノードである「Albireoノード」の2種類の計算ノードからなるクラスタ型スーパーコンピュータです。どちらのタイプのノードにも米インテル社製の最新CPUを2基と米エヌビディア社製の最新GPUを4基搭載し、Albireoノードには、これらに加えて米インテル社製の最新FPGAを2基搭載します。システムは48台のDenebノードと32台のAlbireoノードの合計80台のノードからなります。FPGAの演算性能は主に単精度浮動小数点で発揮されるため、倍精度浮動小数点ピーク演算性能はGPUとCPUによって供給され、その総性能は2.4ペタフロップスになります。これは従来運用していたHA-PACSシステムの約3倍の性能に相当します。

従来より、高性能計算システム分野では、浮動小数点演算性能を高めるためにGPUを用いたクラスタが注目されてきました。近年ではこれに加え、人工知能・ディープラーニング研究にもGPUが適していることが注目されています。Cygnusは、GPUによる各種アプリケーションの性能向上に加え、近年注目されているFPGAを積極的に取り入れ、日本国内で全国共同利用に供されるスーパーコンピュータとして初めて、GPUとFPGAを混載するシステムが実現します。

FPGAは論理回路そのものを再構成することができるチップであり、近年ではその回路規模・演算性能の向上に加え、独自の外部通信リンクを備え、異なるノードのFPGA間をこれで接続することで、従来にない画期的な並列FPGA計算が可能となります。GPUの演算性能とFPGAの柔軟性及び高速通信機能を組み合わせることにより、様々なアプリケーションの性能最適化が期待されます。

導入背景

近年の最先端スーパーコンピュータでは電力当たりの性能が極めて重要となっており、これを牽引する技術としてGPUの積極的利用が注目されています。GPUは代表的な演算加速装置であり、特に均一で高い並列性を持つ科学技術計算に適しています。2018年11月のTOP500リストにおいて、世界第1位および第2位にランクされた米国のSummitおよびSierraは、計算ノードに複数のGPUを搭載しており、さらに日本国内第1位の性能を持つ産業技術総合研究所のABCIも同様のアーキテクチャを持ちます。GPU搭載型スーパーコンピュータは従来の大規模計算科学分野に加え、人工知能研究のような新分野への応用が注目されています。

従来のGPU中心のスーパーコンピュータは、大量の演算を単純並列処理することを得意としています。しかし、不均質な処理が存在したり計算中に並列性が縮小したりするような状況では、その性能を十分に発揮できないという場合があります。その一方で、GPUとは全く異なる手法による演算加速装置も開発されており、その中でも近年注目を浴びているのがFPGAです。FPGAは再構成可能論理回路と呼ばれており、その名の通り、チップ内の回路構成そのものを問題に適合して再構成することができます。従来のCPUやGPUのように、固定化された構成を持たないことで、問題の特性に応じた柔軟な構成を持たせることができます。これを利用するために、ハードウェアを一種のプログラムとして予め設計し、計算開始前に再構成を行なって回路を最適化させます。最先端のFPGAは高性能計算に十分適用可能な回路規模と演算性能を持つだけでなく、チップ内に超高速通信インタフェースをも内蔵しており、演算と通信の両機能を併せ持つことで、従来にない大幅な機能と性能の向上が期待されています。

筑波大学計算科学研究センターでは、GPUとFPGAが互いに相補う特性を持つことに着目し、その両者の特徴を生かしたスーパーコンピュータを開発することを決定しました。GPUとFPGAという2種類の演算加速装置を持つことから、多重複合型演算加速スーパーコンピュータと名付け、システム名をCygnusとしました。本格的なスーパーコンピュータにFPGAを積極的に用いるのは国内初の試みであり、世界でも類を見ないチャレンジです。同センターではこれまで、GPUを用いた演算加速型スーパーコンピュータHA-PACS、さらにこれにFPGAをGPU間通信機能強化のために用いたHA-PACS/TCAを開発・運用してきました。これらの経験を元に、CygnusではFPGAをより積極的に演算と通信の両方に活用し、GPUも含めた全方位的な演算・通信加速システムを開発し、従来以上の性能を持つ新しい時代の演算加速型スーパーコンピュータの形を実現します。

期待される成果

CygnusはGPUとFPGAという2種類の演算加速装置を駆使し、GPUの持つ単純並列かつ絶対的な演算加速性能性能に加え、FPGAの持つ柔軟性、さらにその独自の超高速通信機能を綜合的に用いた新しい問題解決手法を提供します。宇宙物理学に代表される、複合型物理問題の解決には単純な大規模並列処理と複雑な中小規模計算の組み合わせが必要で、同時に多数の計算ノード間での低遅延通信が求められます。また、並列演算と通信を組み合わせた処理が求められる問題も数多く存在します。さらに、人工知能研究にもFPGAを用いようという試みもなされており、従来型のGPU中心の人工知能研究の一歩先を行く研究の展開が予想されます。

Cygnusは平成31年3月末に計算科学研究センターに設置され、約1ヶ月のテスト運用期間を経て、同年5月から全国共同利用プログラムとして同センターが実施する学際共同利用に供され、また文部科学省が推進するHPCIプログラムでも利用可能となる予定です。複数種類の演算加速装置が生み出す、新たな計算科学研究にご期待ください。

Cygnusの構成とこれを支える最新テクノロジ

Cygnusは世界でも類を見ない多重複合型演算加速スーパーコンピュータであり、多くの高性能計算向け最新テクノロジにより構築されています。システム構築はNEC社が担当し、CPU・GPU・FPGAの各部にも最新のパーツが用いられます。さらに、多数の高性能ノード間を結合する相互結合網、全ノードから共有可能な大規模共有ファイルシステム等にも最新のテクノロジを投入しました。

Cygnusのシステム構成諸元

項目

仕様・メーカー

理論ピーク性能

倍精度浮動小数点演算2.4 ペタフロップス (GPU: 2.24ペタフロップス, CPU: 1.6ペタフロップス)
FPGA部: 単精度浮動小数点演算0.64ペタフロップス

総ノード数

80 (Albireoノード32台, Denebノード48台)

各ノードの主記憶

CPU部: 192 GB DDR4-2666 (255.9 GB/s)
GPU部: 32GB x 4 (3.6TB/s)

各ノードのCPU

Intel Xeon Gold (Skylake) x2 基

各ノードのGPU

NVIDIA Tesla V100 x4基 (PCIe)

各ノードのFPGA

Nallatech 520N with Intel® Stratix® 10 FPGA x2基, 各FPGAに100Gbps x 4 linksの光インターコネクトを装備

共有ファイルシステム

DDN ES14KX, RAID6, Lustre, 2.5 PB

相互結合網(FPGAネットワークとは独立)

Mellanox InfiniBand HDR100 x4, スイッチは HDR200, ノード当たり4.8TB/sの通信性能

プログラミング言語

CPU: C, C++, Fortran, OpenMP, GPU: OpenACC, CUDA

FPGA: OpenCL, Verilog HDL

システム導入業者

NEC

以下にCygnusシステムの構築コンポーネントを提供したベンダーからのコメントを掲載します。

日本電気株式会社 AIプラットフォーム事業部長 須藤 和則
この度、筑波大学計算科学研究センター様が最先端多重複合型計算機システムとして当社のLXシリーズを導入いただきまして、大変光栄です。 今回のシステムは、GPUとFPGAを組み合わせた、高度な演算加速機構を持つ、次世代のアクセラレータ型高性能計算機であり、当社が持つ技術力を結集して、今回の高性能計算機の実現に貢献してまいります。

NVIDIA Vice President for Accelerated Computing, Ian Buck
複合型演算加速スーパーコンピュータ 「Cygus」に、 NVIDIA TensorコアGPUとCUDA-X AI アクセラレーション ライブラリをご採用いただき、シミュレーションと AI の技術とを組み合わせることで、高度な科学技術を新たなステージに飛躍させ、コンピューティングの未来をより幅広いものにしていくことでしょう。

インテル コーポレーション プログラマブル・ソリューションズ事業本部 データセンター・ソリューション・アーキテクト マイク・ストリックランド
筑波大学の新システムでは、FPGAアクセラレーションを演算だけでなくノード間通信にも適用する革新的な手法を取り入れています。OpenCLの設計容易性を生かしつつ、インテル® Stratix® 10 FPGA搭載カード64枚を100 Gbpsで2Dトーラス状に接続することで、これまでにない高性能・低遅延を実現しています。

Mellanox Technologies, Vice President of Marketing, Gilad Shainer
HDR InfiniBand製品はイン・ネットワーク・コンピューティング アクセラレーションエンジンと共に、世界をリードするアプリケーション性能とスケーラビリティを実現します。我々は、日本初のHDR採用スーパーコンピュータ“Cygnus”を筑波大学様と構築出来た事を誇りに思います。Cygnusは、学術研究や科学的発見を加速させ、大学での教育プログラムを強化することでしょう。

株式会社データダイレクト・ネットワークス・ジャパン 代表取締役ロベルト・トリンドル
データダイレクト・ネットワークス(以下、DDN)は、Cygnus の大容量共有ファイルサーバとして ES14KX アプライアンスを提供します。次世代アクセラレータ型高性能計算機の実現を支援できることは大変光栄でございます。DDNが持つ大容量並列ファイルシステムの実績・経験を元に、今後Cygnusにおける人工知能・ディープラーニングと言った新分野の研究にも最大限の支援を行って参ります。

用語解説

注1) Cygnus
白鳥座(Cygnus)の左の翼のすぐ上の方向に、高い活動性を示す“Cygnus A”という銀河があります(側面パネルに画像あり)。この銀河の中心には、太陽質量の30億倍に達する超巨大なブラックホールがあり、銀河から2方向に高速ガス流(ジェット)が出ています。このジェットは、超巨大なブラックホールが原因となって加速されたガス流であると考えられています。スーパーコンピュータ「Cygnus(シグナス)」は、GPUとFPGAという2つの演算加速装置をもつ計算機システムであり、2つの演算加速装置をCygnus Aの2本の加速ガス流になぞらえてこの命名となりました。白鳥が、2つの翼で加速して羽ばたくという意味合いも込められています。

注2) GPUとFPGA
GPUは、もともとは画像処理用に開発された半導体チップですが、一度にたくさんの数値演算を行う大規模並列処理に適していることから、科学技術計算への実用的な適用が進んでいます。FPGAは、電子回路のパターンをプログラムできる(やわらかい)ハードウェアで、GPUのような大量演算の一括処理では効率的に処理できないような計算を高速にこなす機能を実現させ、スーパーコンピュータ全体の演算性能と電力効率を向上させるアプローチです。

注3) フロップス(FLOPS)
計算機の処理性能の指標としてフロップス(FLOPS:Floating-point Operations Per Second)、すなわち1秒間に実行可能な浮動小数点数演算回数(実数演算回数)が用いられます。テラフロップス(TFLOPS:Tela FLOPS) とは 1012 フロップス(FLOPS)であり、ペタフロップス(PFLOPS:Peta FLOPS) とは1015 フロップス(FLOPS)となります。

問い合わせ先

梅村雅之(研究代表者)
筑波大学計算科学研究センター長/数理物質科学研究科教授

朴 泰祐(Cygnus開発担当主査)
筑波大学計算科学研究センター/システム情報工学研究科教授

報道担当:
筑波大学計算科学研究センター広報・戦略室
TEL 029-853-6260 E-mail:pr [at] ccs.tsukuba.ac.jp([at]を@に変えてください)