CPU Design HOW-TO: スーパーコンピュータのアーキテクチャ

6. スーパーコンピュータのアーキテクチャ

スーパーコンピュータの構築に関して、最近の顕著な傾向としてはほとんどの新しいシステムは同じテーマに基づいて少し変化をつけたものとなっています。すなわち、高速ネットワークで繋がれた、RISC ベースの対称マルチプロセッシング (Symmetric Multi-Processing :SMP)ノードの集合体です。これは、アーキテクチャの自然な進化だと思ってください。プロセッサ (RISC)もネットワーク機器も比較的安価に出回るようになり、標準化された通信ソフトウェアを使い、それらのプロセッサをつないで一体化することが可能になった事で、メーカーが提供する完成したシステムを使うかわりに、自家製クラスタコンピュータを構築するケースが増えています。

スーパーコンピュータに関する以下のサイトを訪れてみてください -

Top 500 super computers http://www.top500.org/ORSC/2000
National Computing Facilities Foundation http://www.nwo.nl/ncf/indexeng.htm
Linux Super Computer Beowulf cluster http://www.linuxdoc.org/HOWTO/Beowulf-HOWTO.html
Extreme machines - beowulf cluster http://www.xtreme-machines.com
System architecture description of the Hitachi SR2201 http://www.hitachi.co.jp/Prod/comp/hpc/eng/sr1.html
Personal Parallel Supercomputers http://www.checs.net/checs_98/papers/super

6.1 主なアーキテクチャの種類

マシンそのものについての話を始める前に、性能を上げる為に現在使われ、あるいは昔からずっと使われているいくつかのメカニズムについて考えることが重要です。シングルプロセッサの性能を越えてコンピュータシステムを高速化する上での可能、不可能というのは、その大部分がハードウェアの構造あるいはアーキテクチャで決まってしまいます。ハードウェアとの組合せでもう一つ考えられる重要な点は、用意されたハードウェアプラットフォームにおいて処理効率の良いコードを生成するためのコンパイラの能力です。多くの場合においてハードウェアとソフトウェアのどちらが影響しているのかを区別するのは困難であり、ある効果がハードウェア、あるいはソフトウェア、またはその両方によるものなのかという場面で、その結果を解釈するときには慎重にならなくてはなりません。この章では "高性能" であると分類されるマシンについて記述するためハードウェアアーキテクチャに最も重点を置きます。

何年にも渡り、「フリン (Flynn)の分類」が高性能コンピュータを分類するのに役立つことを証明してきました。これは、命令 (instruction)ストリームとデータストリームの扱い方の違いによって分類する方法で、4つの主なアーキテクチャのクラスがあります。まず、それらのクラスについて簡単に概要を述べ、そのあとでそれぞれのクラスについて述べるときに詳細に触れる事としましょう。

6.2 SISD (Single Instruction stream, Single Data stream) マシン

一つの CPU を搭載し、逐次処理される一個の命令ストリームを扱うような旧式のシステムはこのクラスに含まれます。最近ではたくさんの大型メインフレームが複数 CPU を備えていることがありますが、それぞれがお互いに無関係な命令ストリームを実行しています。それゆえ、このようなマシンも異なるデータ空間で動作する SISD(の集まり) であるといえます。 SISD の例としては DEC や Hewlett-Packard そして Sun Microsystems のほとんどのワークステーションが挙げられます。 SISD マシンの定義はここでは単にすべてのクラスを網羅するために行なっただけです。このタイプのマシンについてはこのレポートでは扱いません。

6.3 SIMD(Single Instruction stream, Multiple Data stream) マシン

このようなマシンはしばしば 1,024個から 16,384個といった膨大な数の処理単位をもち、それらがそれぞれ異なるデータに対して軍隊の行進のように同じ命令を実行することが可能となっています。したがって、たった一つの命令で多くのデータを並列に操ることができます。このタイプに分類される SIMD の例としては CPP DAP Gamma II や Alenia Quadrics などが挙げられます。

もう一つのタイプの SIMD システムはベクトルプロセッサです。ベクトルプロセッサは特別な構造をもつ CPU を使って、独立したデータ群より類似データの配列に対して能力を発揮します。ベクトルユニットでデータを処理する場合、結果は3クロックサイクル当たり 1個かまた特別な場合には2個の割合で出力されます。 (1クロックサイクルとはシステムの内部処理時間の基本単位です。) つまり、ベクトルモードで実行するときに限りベクトルプロセッサはほぼ並列にデータを処理する事になります。この場合、旧式のスカラーモードで実行するのに比べて数倍高速となります。このため、ベクトルプロセッサの実用上の効果は、ほぼ SIMD マシンと同じと考えられます。このようなシステムの例をあげるとすれば、Hitachi S3600 です。

6.4 MISD(Multiple Instruction stream, Single Data stream) マシン

理論的にはこのようなタイプのマシンでは、複数の命令が単一のデータストリームに対して動作することになります。このクラスに分類されるマシンは実際には今まで作られた事はなく、また簡単に想像できるものでもないので、これ以降の部分ではこのクラスを無視します。

6.5 MIMD(Multiple Instruction stream, Multiple Data stream) マシン

これらのマシンはいくつかの命令ストリームを異なるデータに対して並列に実行します。上述のマルチプロセッサ SISD マシンとの違いは、複数の命令や複数のデータが、同じタスクの異なる部分であるが故にお互いに関係しあっているという事実です。したがって MIMD システムはメインタスクの処理時間を短縮するために多くのサブタスクを並列に実行させる事ができます。 MIMD には多くのバリエーションがあり、特にこのクラスにおいては Flynn の分類はシステムの分類法として適切でない事が分かります。全く異なる動作形態の4プロセッサの NEC SX-5 と 1000プロセッサの SGI/Cray T3E が両方とも同じこのクラスに分類されてしまいます。このため、この後の部分においては、システムの分類においてもう一つ別な、重要な区別をしてそれを扱っていきます。

共有メモリシステム (Shared Memory systems)

共有メモリシステムでは、複数の CPU が全て同じアドレス空間を共有します。全ての CPU が対等に、たった一つのメモリにアクセスするのでユーザはデータの格納場所を知る必要がありません。共有メモリシステムは SIMD であることもあり MIMD であることもありますシングル CPU のベクトルプロセッサは前者の例として挙げることができます。一方マルチ CPU 共有メモリシステムのマシンは後者の例となります。今後、この二つのサブクラスについて SM-SIMD, SM-MIMD という略語を用いることにします。

分散メモリシステム (Distributed Memory systems)

このケースでは、CPU はそれぞれに関連づけられたメモリを持っています。複数の CPU がネットワークで接続されていて、要求に応じてそれぞれの担当するメモリ間でデータを交換することができます。共有メモリシステムとは対照的に、ユーザはローカルメモリ内のデータの位置を知っていなければならず、また要求に応じて明示的にデータの移動や分配を行わなくてはなりません。分散メモリシステムにも、SIMD, MIMD いずれの場合もあります。先に説明した方の、軍隊の行進のように動作する SIMD システムは全てプロセッサに関連づけられた分散メモリを持っています。後で述べるように、分散メモリ型 MIMD システムには、非常に多様な種類のネットワーク接続形態 (トポロジ) があります。アプリケーションの移植性に関して役立つトポロジの詳細は大部分がユーザから見えないようになっています。今後、この二つのサブクラスについて DM-SIMD, DM-MIMD という略語を用いることにします。

共有メモリマシンと分散メモリマシンの違いは明白であるように見えますがユーザの視点で見れば必ずしもそうとはいえません。例えば近頃の Kendall Square Research システムはハードウェアレベルでの "仮想共有メモリ"という考え方を採用しています。仮想共有メモリはソフトウェアレベルでもシミュレートすることができます。例えば、1993年に発表された High Performance Fortran(HPF)の仕様はコンパイラの指令によって、データを利用可能なプロセッサに分散するというものでした。このため、この場合 HPF が実装されたシステムはユーザにとって共有メモリマシンのように見えます。 HP(Heulett Packard)や SGI/Cray など他の大規模並列処理システム (Massively Parallel Processing systems:MPP systems) のベンダも仮想共有メモリプログラミングモデルをサポートしています。そうすれば、物理的には分散メモリシステムであってもアドレス空間の集合全体のアドレスを指定することができるからです。したがって、ユーザのためにシステムはメモリ全体に渡る単一のグローバルアドレス空間を持っています。そのようなシステムの構造については ccNUMA のところでもう少しだけ触れるつもりです。さらに、TreadMarks のようなパッケージはワークステーションのネットワークに仮想共有メモリ環境をもたらします。

6.6 分散処理システム

ここ数年で登場したもう一つのトレンドは分散処理です。これは DM-MIMD の概念を一歩前進させたものです。すなわち、一つあるいは複数の箱に入った多くの統合されたプロセッサの代わりに、ワークステーションやメインフレームなどを (ギガビットの) イーサネットや FDDIやあるいは別な方法で接続して同じプログラムで同時に作業するようにしたものです。コンセプトとしてはこれは DM-MIMD と変わりありませんがプロセッサ間の通信はしばしば桁はずれに遅くなります。分散コンピュータを実現する多くのパッケージが利用可能です。例えば、PVM(Parallel Virtual Machine)や MPI(Message Passing Interface) などです。 "メッセージパッシング " モデルと呼ばれるこのプログラミングスタイルは大変受け入れられるようになり、PVM や MPI が事実上すべての分散メモリ MIMD システムの大手ベンダーに採用されるようになりました。しかも共有メモリ MIMD システムのベンダーさえ、互換性という理由で採用するようになりました。さらに、最近の傾向としては高性能パラレルインターフェイス(HiPPI)チャネルという100MB/s クラスの高速通信を使って、非常に高い計算能力をもつシステムを得るクラスタ共有メモリシステムというものがあります。例としては、NEC SX-5 と SGI/Cray SV1 がこの構造を採用しています。すなわち、クラスタ間の通信にはメッセージパッシングを使いながら、ノードの集合体において共有メモリのプログラミングスタイルが使われているのです。

6.7 ccNUMA マシン

この章の冒頭で述べた通り、やや少なめ (多くとも16)の RISC プロセッサを一つのクラスタに密結合させたもの、すなわち対称マルチプロセッシング (SMP) ノードをもったシステムを構築することが流行の様です。ノード内のプロセッサは、ほとんどいつも直接(単一ステージ・クロスバーネットワークによって)接続されています。一方クラスタ間はやや安価なネットワークによって繋がれています。

これは、全てのプロセッサが全てのアドレス空間にアクセスできるという重要な点を除けば、巨大なベクトルプロセッサの集合体について上述した手段に似ています。よって、このようなシステムは SM-MIMD マシンと考えることができます。一方では、メモリが物理的に分散しているので、データアクセス操作が常に同時に満足されるという保証はありません。それゆえ、このようなマシンは ccNUMA システムと呼ばれます。これは Cache Coherent Non-Uniform Memory Access の略です。キャッシュコヒーレント(Cache Coherent:直訳 - キャッシュのつじつまが合っている)という言葉は "使用されるいかなる変数も、すべての CPU にとって一致していなければならない"という事実を表しています。したがってこの点において、これらの変数の元になるキャッシュもまた一致している事が確実でなければなりません。複数の CPU のキャッシュがコヒーレントである事を確実にするためには色々な方法があります。一つは、snoopy bus protocol で、このバスにおいてキャッシュは CPU への変数の転送を監視し、もしそれがキャッシュしてある変数であれば更新します。もう一つの方法は、ディレクトリメモリで、これはすべての変数のコピーとその正当性を監視する、特殊な部分のメモリです。

実用上、これらのシステムは SM-MIMD マシンであると分類できます。SM-MIMD マシンに分類可能なもう一つの理由があります。それは、メモリが物理的には分散しているにもかかわらず、 (例えばディレクトリメモリなどの) 特別な補助ハードウェアやソフトウェアが、あたかも単一のシステムであるような形に合体させてしまうからです。

次のページ前のページ目次へ