はじめに
こんにちは。エンジニアリング事業部 第4本部の鈴木と申します。
「理由が分からないが、たまに機器が止まる」、「ハードウェア故障を疑ったが、再起動すると問題なく動く」。
こうした現象に遭遇したことはありませんか?
その現象の裏には、宇宙放射線によるソフトエラーが潜んでいる可能性があります。
近年の電子機器は高性能化・高密度化が進み、見えない外乱に対して繊細になっています。
本記事では、
・宇宙放射線が引き起こすSEU(Single Event Upset)
・SEUを検出する方法
・そして最終的にエラーが発生した時の機器のふるまい
という観点から、「なぜハードウェアが止まるのか」を解説します。
宇宙放射線とSEU(Single Event Upset)
地上に設置された機器であっても、宇宙放射線の影響は避けられません。
特に半導体の微細化が進んだ現在では、放射線がメモリセルやレジスタに入射し、1ビットだけが反転することがあります。これを SEU(Single Event Upset) と呼びます。
SEUの特徴は以下の通りです。
・デバイスが物理的に壊れるわけではない
・一時的な情報の乱れである
・電源再投入で元に戻る
・発生タイミングはランダム
つまり、ハードウェアは正常でも、保持している情報だけが壊れるという現象です。
SEUの検出方法
このようなSEUに対して、多くの機器ではECC(Error Correcting Code)が使われています。
ECCは、
・ビット反転を検出する
・軽微なエラーであれば訂正する
ための仕組みです。
しかし、ここで重要なのは、ECCは「完全な無敵バリア」ではないという点です。
・訂正できる範囲を超えると「訂正不能エラー」となる
・エラー発生そのものは消せない
つまりECCは、
「問題が起きたことを伝える仕組み」とも言えます。
エラーが発生したら
ECCがエラーを検出・報告すると、次に判断するのは制御ソフトウェアです。
例えば、
・制御データが信用できない
・状態遷移が保証できない
・このまま動かすと危険
と判断された場合、ソフトウェアは安全側に倒れる選択をします。
その結果、
・機器の停止
・出力遮断
・システムリセット
といった動作が起こります。
外から見ると、「突然ハードウェアが止まった」、「装置が故障した」ように見えますが、実際にはソフトウェアがハードウェアを守るために止めたというケースが多いのです。
フェイルセーフ設計という考え方
ここで重要になるのがフェイルセーフ設計です。
フェイルセーフとは、「異常が起きたとき、危険な方向には進まない」という考え方です。
宇宙放射線によるSEUは現在の技術では防ぐことができません。
だからこそ、
・異常を検出したら止まる
・不確かな状態では動かさない
・停止後に安全に復帰できる
という設計が必要になります。
これは「止まる=悪」ではなく、「止まることで安全を守っている」という発想です。
まとめ
宇宙放射線によるSEUは、
・低頻度
・再現困難
・原因特定が難しい
という特徴を持っています。
そのため、
「原因不明のハード停止」として扱われがちですが、実際には、
・異常を検出し
・危険を判断し
・フェイルセーフとして停止した
という、設計通りの挙動である可能性もあります。
この再現性の低いソフトエラーを日立情報通信エンジニアリングでは、大学機関等が保有する粒子加速器設備を使用した中性子照射試験にて、エラーの影響を確認する試験支援サービス、ソフトエラー対策に関するコンサルティングや設計受託を提供しております。
既設の装置でのソフトエラーと考えられる困り事、これから作る装置でのフェイルセーフ設計で課題がありましたら、どうぞお気軽にお問い合わせください。問題解決のお手伝いをさせていただきます。
2026年5月
株式会社 日立情報通信エンジニアリング
エンジニアリング事業部 第4本部 第1部 鈴木 秀和
※編集・執筆当時の記事のため、現在の情報と異なる場合があります。編集・執筆の時期については、記事末尾をご覧ください。