ファーストサーバのZenlogic、ストレージ障害の原因は「想定以上の負荷」対策したはずの設定にもミスが(1/3 ページ)

ホスティングサービスの「Zenlogic」がサービスの全面停止が3日間続く、異例のメンテナンスを行いました。ファーストサーバが公開した報告書から、障害の原因とメンテナンスの長期化に至った背景を推測します。

» 2018年07月25日 08時00分 公開
[新野淳一Publickey]

 この記事は、新野淳一氏のブログ「Publickey」の記事「ファーストサーバのZenlogic、ストレージ障害の原因は想定以上の負荷、対策したはずの設定にミスがあったため長期化」を許可を得た上で転載、編集しています。


 ファーストサーバが提供しているホスティングサービス「Zenlogic」は、2018年6月下旬から断続的に生じていたストレージ障害に対応するためのメンテナンスを行いましたが、終了の見通しも立たないほど難航し、結局、メンテナンス開始から3日後の夜にようやくサービスが再開されるという事象がありました(参考記事)。

 サービス再開から約1週間が経ぎた7月17日、同社はストレージ障害に関する原因およびメンテナンスによるサービス停止が長期化してしまった原因、再発防止策についての報告書を公開しました

photo Zenlogicの報告書

 報告書によると、ストレージ障害の直接の原因は、想定を上回る負荷上昇による高負荷状態であり、さらにその対策として行ったネットワーク設定にミスなどがあって、ストレージシステム全体がスローダウンしてしまったとのことです。

分散ストレージのキャパシティプランニングのミスが発端

 Zenlogicは、Yahoo! JapanもしくはAWSのいずれかのインフラ上にファーストサーバがサービスを構築するアーキテクチャを採用しています。ファーストサーバは自社でインフラを保有しない戦略を採っているためです。

photo Zenlogicの基盤構成

 今回障害が起きたのは、Yahoo! Japanのインフラ上に構築されたZenlogicであり、過去にファーストサーバが発表した内容から、ストレージは分散ストレージのCephで構築されていると推測できます。

 Cephは、ストレージサーバをネットワークでつなげて増やしていくほど性能と容量が向上する、いわゆるスケールアウト可能な分散ストレージを実現するソフトウェアです。ただし、もちろん無限にスケールできるわけではありません。このシステム構成の推測と同社の報告を組み合わせて、何が起きていたのかを見てみましょう。

       1|2|3 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ