新型スーパーコンピュータ「HA-PACS」が稼働開始

プレスリリース

平成24年2月1日
筑波大学

ポイント

筑波大学計算科学研究センターは、最先端の超並列演算加速器クラスタ型スーパーコンピュータ、密結合並列演算加速機構実証システム「HA-PACS」（Highly Accelerated Parallel Advanced system for Computational Sciences）を平成24年2月1日より稼働開始しました。HA-PACSは、宇宙・素粒子・生命などの研究をけん引する目的で、平成23年度より導入を進めてきました。本システムにより、今後のエクサ^＊¹スケールへの展開を視野に入れたアプリケーション開発と、計算科学による成果獲得を目指します。

HA-PACSは、各計算ノードに高性能の演算加速装置を搭載し、コンパクトながら極めて高い演算性能を実現します。2基のCPUと4基のGPU^＊2を搭載した計算ノード単体のピーク演算性能は2.99テラフロップス（毎秒2兆9900億回）。これはGPUを搭載した超並列クラスタ型スーパーコンピュータのノード単体として世界最高性能となります。本システムは計算ノードを268台結合して構成され、総ピーク演算性能は802テラフロップス（毎秒802兆回）に達します。

計算科学研究センターでは、先端計算科学推進室を中心に分野間連携および学外連携のもと、素粒子・宇宙・原子核・物質・生命・地球環境の各分野におけるブレイクスルーを目指します。また、次世代計算システム開発室においてGPU間の直接通信を可能とする「密結合並列演算加速機構」を開発・実装し、GPU間並列処理の一層の高速化を目指します。

1．概要

国立大学法人筑波大学【学長山田信博】計算科学研究センター【センター長佐藤三久】は、宇宙・素粒子・生命などの研究をけん引する最先端の超並列演算加速器クラスタ型スーパーコンピュータ、密結合並列演算加速機構実証システム「HA-PACS」（Highly Accelerated Parallel Advanced system for Computational Sciences）の導入を平成23年度から進めて来ましたが、平成24年2月1日に稼動を開始しました。

本システムは、各計算ノードに従来以上の演算加速装置を搭載し、コンパクトながら極めて高い演算性能を実現する超並列クラスタ型スーパーコンピュータで、今後のエクサスケールまでの展開を視野に入れたアプリケーション開発と計算科学による成果獲得を目指します。

HA-PACSは、米インテル社製の最新CPUを2基と米エヌビディア社製の最新GPUを4基搭載したコンパクトで先進的な計算ノードを268台結合した超並列システムです。ノード単体のピーク演算性能は2.99テラフロップス（毎秒2兆9900億演算）で、これはGPUを搭載した超並列クラスタ型スーパーコンピュータとして世界最高性能となります。システム全体としての総ピーク演算性能は802テラフロップス（毎秒802兆演算）に達します。

現在、高性能計算システム分野ではGPUを用いたクラスタ型計算機が注目されており、日本国内でも東京工業大学のTSUBAME2.0が国内最高性能のGPUクラスタとして稼働中です。しかし、これらのGPUクラスタではGPUとCPU間の通信チャネル性能に限界があり、ノード内のGPU数の制限やこの通信チャネル部分が性能ボトルネックとなるケースがありました。HA-PACSに搭載される最先端CPUでは、従来機の4倍に相当する高性能なPCI Express^＊3チャネルが提供され、4基のGPUを通信ボトルネックなしにCPUと結合しています。これにより、GPUの持つ本来の性能を最大限に活かすことが可能になりました。

計算科学研究センターではHA-PACSを使って、様々な計算科学アプリケーションの開発と演算加速装置向けアルゴリズムの開発を進めていきます。先端計算科学推進室を中心として、素粒子・宇宙・原子核・物質・生命・地球環境の各分野におけるブレイクスルー達成のために、分野間連携および学外連携のもと、主要アプリケーションのホットスポット解析とGPU化を進めています。これらのアプリケーション開発は、HA-PACSの大規模並列資源を長時間占有使用することで加速され、加えてセンター内の計算機科学研究者との協業により、システム特性を活かした次世代演算加速システムにつながる成果が得られるものと期待されます。

また、GPUに代表される演算加速装置を用いた並列処理において、演算加速装置間の通信には大きな問題があり、現状ではCPUの助けを借りた間接的通信のみが可能です。計算科学研究センターでは「密結合並列演算加速機構」と呼ばれる新たなノード間通信機構を開発中であり、これにより従来不可能だった計算ノードをまたいだGPU間の直接通信を可能とします。現在この機構のハードウエア及びソフトウエアのプロトタイプ開発が進められており、今回、稼働開始するHA-PACSの機能拡張として、密結合並列演算加速機構を実装する計画です。これにより、GPU間の並列処理が一層加速され、幅広い科学技術計算の性能が加速されることが見込まれます。

2．背景

10ペタフロップス級のスーパーコンピュータが京速コンピュータ「京」によって実現された現在、演算性能をエクサフロップス級まで高めるための研究がすでに始まっています。しかし、1台の計算機で使用可能な電力や設置面積の制限から、このような超高性能を実現することはますます難しくなっており、何らかの演算加速装置を持つシステムが不可欠です。これらのシステムには、演算加速装置とCPUの間の通信や、並列演算加速装置間の通信における様々なボトルネックが存在します。加えて、超並列規模の演算加速装置を用いた大規模プログラムの開発には、アルゴリズムレベルからの改良など大きな人的コストと時間がかかります。

筑波大学計算科学研究センターでは、高密度超並列GPUクラスタを、最先端コモディティ技術と我々独自の技術の組合せにより実現し、これらの問題に挑戦します。このための研究基盤がHA-PACSです。最先端CPUとGPUの組み合わせによる超並列GPUクラスタを従来にない規模で定常的に並列利用することにより、エクサスケール時代につながる演算加速型アプリケーションの開発と、我々が提唱する密結合並列演算加速機構アーキテクチャに基づく次世代GPUクラスタを実現します。ここで培われたハードウエア及びソフトウエアのシステム開発技術をエクサスケールシステム実現への基盤技術として熟成していきます。

3．開発経緯

計算科学研究センターは、平成23年度から文部科学省の国立大学法人運営費交付金特別経費を受け、3カ年計画で「エクサスケール計算技術開拓による先端学際計算科学教育研究拠点の充実」事業（責任者センター長佐藤三久）を推進しています。

この事業は、超並列演算加速型クラスタ計算機「HA-PACS」を開発・製作し、これを用いて宇宙・素粒子・生命の先端的な研究を推進し、さらに次世代の演算加速型並列システムの要素技術となる密結合並列演算加速機構の技術開発を行うものです。HA-PACSの基本部分となる超並列GPUクラスタは最先端コモディティ技術に基づくCPUとGPUを搭載したシステムとして調達します。密結合並列演算加速機構については、計算科学研究センターにおいてハードウエアからアプリケーションまでの開発を行い、HA-PACSの拡張部分として実装していきます。

4．成果

システムの特徴
HA-PACSは、268台の計算ノードを2本の並列QDR InfiniBandネットワーク^＊⁴でFat Tree結合した超並列型のGPUクラスタ計算機です。全体で802テラフロップス（毎秒802兆回）のピーク計算性能、34テラバイトのメモリ、504テラバイトの共有ディスクを持っています。計算科学の大規模計算を実現可能とする特徴は次のとおりです。

1) 豊富なPCI Expressチャネル数を持つ米インテル社の最新CPUであるE5 （SandyBridge-EP）プロセッサを2基搭載することにより、4基の最新型GPU（米エヌビディア社製Tesla M2090）をストレスなくCPUと結合させることを可能にした。これにより、GPUへの通信性能を損なうことなく、2.99テラフロップスという世界最高のノード単体性能を2U相当のコンパクトな構成で実現した。

2) 最新GPU技術とCPU技術を最大限に利用した結果、802テラフロップスのピーク演算性能をわずか26台のラックにコンパクトに実装し、総電力も428kWに抑えた。

3) 2系統のFat Tree構成のQDR InfiniBandネットワークにより、2.1テラバイト/秒のバイセクションバンド幅を持つ超高性能並列ネットワークで全ノードを結合し、ノード間に偏りのない並列通信性能と共有ファイルシステムへのアクセスを実現した。

4) InfiniBandネットワークを介して全ノードと結合される504テラバイトのLustreファイルシステムによる共有ファイルシステムを提供し、全ノードに均質なI/O機能と性能を提供した。

5．関連情報

「HA-PACS」プロジェクト特設ページ

6．用語解説

＊1　エクサ
10の18乗。ペタ（10の15乗）の1000倍。エクサフロップスとは、現在、京速コンピュータ「京」が持つ10ペタフロップスの性能の100倍、すなわち毎秒100京回の演算性能に相当する。

＊2　GPU
Graphics Processing Unitの略。本来PCサーバにおけるグラフィクス処理を目的として作られた専用プロセッサだが、近年はその高い演算性能とメモリバンド幅を利用した高性能計算への転用が活発化している。

＊3　PCI Express
PCサーバにおいてCPUとネットワーク、ハードディスク、GPUなどあらゆる周辺機器を接続するための標準バス。米インテル社製の最新CPUであるSandyBridge-EPでは、PCI Expressの最先端規格であるGeneration 3を標準サポートし、さらに1 CPUあたり40本ものPCI Express I/Oチャネルを提供する。これにより、CPUあたり2基のGPUをストレスなしに接続可能となっている。

＊4　QDR InfiniBandネットワーク
高性能クラスタ型計算機で多用される高性能ネットワーク。Ethernetなどに比べて数倍～数十倍の通信性能を持ち、さらに数百～数千ノード規模のシステムをFat Treeと呼ばれるネットワーク構成で結合可能。

問い合わせ先

佐藤三久（研究代表者）
筑波大学計算科学研究センター長／システム情報系教授
TEL 029-853-6485　E-mail：msato [at] cs.tsukuba.ac.jp（[at]を@に変えてください）

朴泰祐（HA-PACS開発担当主査）
筑波大学計算科学研究センター／システム情報系教授
TEL 029-853-5518　E-mail：taisuke [at] cs.tsukuba.ac.jp（[at]を@に変えてください）

報道担当：
筑波大学計算科学研究センター広報室
TEL 029-853-6260　E-mail：pr [at] ccs.tsukuba.ac.jp（[at]を@に変えてください）

« 京速コンピュータ「京」による成果がゴードン・ベル賞を受賞SiC/SiO2材料の境界面に生じる負の電荷の原因を解明－次世代パワーデバイス設計指針を計算科学によって構築－ »