スパコンに発生する謎のエラー、その原因となる「宇宙線」との闘いが始まった

1970年代からスーパーコンピューターに謎のエラーやクラッシュを引き起こす原因となっている、宇宙から降り注ぐ宇宙線の中性子。この影響を抑えて計算の精度を高めるために、米国のロスアラモス国立研究所が対策に動き始めた。核兵器のシミュレーションにも使われるスパコンを保有する同研究所は、いかに中性子に挑もうとしているのか。
スパコンに発生する謎のエラー、その原因となる「宇宙線」との闘いが始まった
IMAGE BY EMILY WAITE

1970年代に世界最速を記録したスーパーコンピューター「Cray-1(クレイ・ワン)」は、とてもスーパーコンピューターとは言い難い外観をしていた。その外観は、まるで移動遊園地でおなじみの目が回る乗り物「ラウンドアップ」(固定されて立った状態で回転する乗り物)を改造したようである。

Cray-1は周囲をパッド入りのベンチに囲まれており、電源は見えない。このためケーキドーナツのようにも見えるが、実は核兵器に関する高度な計算ができる。

クレイ・リサーチのシーモア・クレイは、このコンピューターを最初につくり上げたあと、ロスアラモス国立研究所に半年間の試用を無償で提供した。だが、その半年で奇妙なことが起きた。原因不明のメモリーエラーが152回も発生したのだ。

そこから研究者らは、宇宙線の中性子がプロセッサーの部品に衝突し、データを破壊する可能性があることを学んだ。より高度が高い位置にあってコンピューターのサイズが大きいほど、この問題の影響は大きくなる。標高7,300フィート(約2,225m)の高地にあり、世界で最高性能のスパコンを複数保有してきたニューメキシコ州のロスアラモス国立研究所は、格好の標的だ。

現代のスパコンも宇宙線でクラッシュ

それから世界は大きく変わり、コンピューターも驚異的な変貌を遂げた。だが、宇宙は何も変わっていない。それゆえロスアラモス国立研究所は、いまでもハードウェアとソフトウェアへの宇宙線の影響を考慮する必要がある。

同研究所ハイパフォーマンス・コンピューティング(HPC)部門のネイサン・デバーデレベンは、「この問題は、わたしたちがいま直面している問題というわけではありません。寄せ付けないようにしているのです」と述べる。

ロスアラモス国立研究所に2003年に納入された「ASCI Q」以来の現代のスーパーコンピューターにとって、これは重大問題だ。QはCray-1よりかなり高速で、米国が保有していた核兵器に関する計算でフル稼働した。

だが、想定以上にクラッシュを繰り返した。このため同研究所の科学者らが真剣に宇宙線、つまり地球外から降り注ぐ荷電粒子の影響を懸念することになった。

荷電粒子は、大気中のさまざまな分子に衝突する際に小さな粒子を多数発生させる。HPC部門のショーン・ブランチャードは、「これらは文字通り、わたしたちに降り注ぐ雨のようなシャワーをつくり出します」と説明する。

コンピューターには中性子が厄介者

そのシャワーの一部が中性子なのだが、これが厄介者だ。「地球の大気に突き進んでくる一次宇宙線は、空気中の酸素分子や窒素分子と反応を起こすと強いエネルギーによって原子核を破壊し、中間子と呼ばれる新たな粒子を多数生成します」

デバーデレベンは、「中性子はコンピューターメモリー上のビットを反転させて、0を1に、1を0に変えてしまいます」と説明する。家庭用のコンピューターであれば、それはさほど問題にはならない。だがロスアラモス国立研究所は、多数の巨大な計算機を抱えている。

例えばQの場合、その外観はスーパーマーケットの通路を連想させるものだった。そして現在、同研究所に格納されているコンピューターはサッカー場ほどの大きさになっており、そのすべてのコンピューターが同じひとつの問題を処理している可能性がある。

サッカー場には、裏庭と比べてはるかに大量の雨が降り注ぐ。それと同じように、巨大なスーパーコンピューターは小さなMacBookと比べて、かなり多くの宇宙線中性子を受けることになる。

ロスアラモス国立研究所では、スーパーコンピューティング・センターのいたるところに中性子検出器が設置される予定だ。PHOTOGRAPH COURTESY OF LOS ALAMOS NATIONAL LABORATORY

Qに生じた問題のおかげで、中性子の威力を思い知らされたロスアラモス国立研究所のエンジニアたちは、問題の解決に取り組んでいる。同研究所が「Trinity」のような新しいスパコンを導入する前に、エンジニアが「宇宙線ストレステスト」を実施しているのだ。

つまり、空から降り注ぐ量よりはるかに多くの中性子からなるビームを電子機器に浴びせかけ、何か起きるかを観察する。ブランチャードは、「われわれはパーツを取り出して放射線を当て、クラッシュさせます」と説明する。

彼らはさらに近々、スーパーコンピューティングセンターの内部に中性子検出器を配置し、降り注ぐ中性子の嵐の強度を計測する予定だ。中性子が降り注ぐ量を把握し、コンピュータ-の部品の動作にどう影響を与えるのかわかれば、「手持ちの電子機器の寿命を予測できるのです」と、同研究所の宇宙科学および応用グループの物理学者スザンヌ・ノウヴィチは語る。

コンピューターも「お手上げ」の事態も

スーパーコンピューターは何か異常が生じた場合、つまりビットが反転するような事態を認識できる程度の優れた検知性能をもっている(誰かに髪の毛を1本だけ引っ張られたときでも、ちゃんと痛みを感じるようなものだ)。そうした事態が起きた場合、システムはシンプルにエラーの報告と修正を行う。

だがブランチャードによれば、コンピューターは時々「お手上げ」になるのだという。「わたしにはエラーが発生しています。あまりに多くのビットが反転しています」と、彼は真似をしてみせる。「わたしには修正できませんが、エラーが発生したことはお知らせしたかったのです」

ロスアラモス国立研究所でこうした事態が発生すると、エンジニアたちはコンピューターを意図的にクラッシュさせる。それはある種、スキーをしている時にわざと転ぶようなもので、けがを軽くできる可能性があるからだ。

ただし、スロープの頂上まで歩いて戻り、すべてを最初から繰り返す必要はない。エンジニアたちは、答えにたどり着くまでの間に複数の「チェックポイント」を設けている。

それはヴィデオゲームで言うなら、もし途中で死んでもすべて最初からやり直さなくてもいいように設けられた「セーヴポイント」のようなものだ。それまでに達成した場面をキャッシュに保存しておき、その時点から再開すればいい。スーパーコンピューターも同じような保存を行える。

核兵器の研究所の闘いが始まった

ただ本当に厄介な問題は、「無兆候データ破損」が生じることだ。これはビットが反転しても、気づかれないで処理されてしまうことを指している。研究者が信じている「正しい答え」というのは、実は中性子が引き起こした幻だった可能性もあるのだ。

そこで、予防措置が重要になってくる。エンジニアたちは、予想される事態と頻度を把握し、それに目を光らせておくことはできる。同時にエンジニアたちはそうした知識を活用して、無兆候エラーを検知可能なエラーに変えたいと考えている。

ただし、何かを見過ごしてしまえば、その代償を払うことになるだろう。ロスアラモス国立研究所は、人間が納得できるまで結果を検証し終わるまでは、「さあ、答えを見つけたぞ!」とはまず宣言しないのだ。

そうした人間の介入を行う理由のひとつは、同研究所が、ほかの多くの人たちに影響を及ぼすトピックに関する極めて重要な研究を行っているからだ。ブランチャードは、「ロスアラモス国立研究所、もっと広く言うとこの研究所を管轄するエネルギー省は、気候変動、新薬、疫学、疾病のまん延、山火事のモデル化、すべての疾病のモデル化、材料科学、新しい金属の脆弱性といったものを研究しています」と説明する。

そして、このリストのあとに彼は、ロスアラモス国立研究所の存在理由として、人間が核兵器をつくり出したことを挙げている(核兵器を開発したうちの何人かは、実際に同研究所で勤めていた研究者だった)。「わたしたちは核兵器研究所です」とブランチャードは語る。

「われわれの仕事は核兵器の管理です。わたしたちの仕事は、核管理が安全で設計どおりに機能し、それが機能すべきでない場合には機能しないよう、確実にすることです」

核実験が禁止されたため、懸念を払拭しながら核兵器について学べる唯一の合法的手段は、内部で何が起きるのかをスーパーコンピューター上でシミュレーションすることだ。そのため、地球上の放射線について自らを懸念するこの場所は、宇宙からの放射線についても憂慮しなければならない。

将来スーパーコンピューターがどんな仕事をするにしても、確かなことがひとつある。「計算機は年々、より大きな“標的”になってきているのです」とブランチャードは語る。

TEXT BY SARAH SCOLES

TRANSLATION BY TAKASHI KAZAMI/GALILEO