【CNDW2024】障害特定が超爆速に! セブン&アイ・ネットメディアが実現したObservabilityの威力
セブン&アイ・ネットメディアは、大規模システム運用の課題を克服し、障害特定のスピードを劇的に向上させた。その成功の鍵は、IBM社のObservability製品「Instana」の導入と、社内全体に浸透する取り組みにあった。CloudNative Days Winter 2024でのセッションでは、課題の背景から解決策、実践効果、さらにその背後にある組織文化の変革までが詳細に語られた。その取り組みの全貌を詳しく解説する。
Observabilityがもたらす新たな視点
セッション冒頭、登壇者であるセブン&アイ・ネットメディアのインフラエンジニアである佐藤 和弥氏と重信 幸輝氏は、参加者に次のように問いかけた。「皆さんは障害が発生したとき、迅速に原因を突き止め、適切な対策を講じることができていますか?」
この問いに対し、彼らは自身の経験を交えながら、Observabilityの重要性を説いた。重信氏は、自身が新卒だった頃、障害調査に苦労したエピソードを語る。システムが複雑で、どの部分を優先的に調査すればよいのかわからず、結局混乱して先輩に助けを求めたという。「何もわからない状態で、原因特定に非常に時間がかかりました。そんな状況を解決してくれたのがObservabilityでした」と彼は語った。
Observabilityとは、システムの状態を点ではなく面として把握し、障害発生時にその原因を迅速に特定する能力を指す。一般的にObservabilityを実現するための手段としてApplication Performance Monitoring(APM)が挙げられる。APMは、アプリケーションのパフォーマンスを監視し、その挙動を詳細に分析することで問題を特定するためのツールである。システムのリソース使用状況やエラー発生箇所を明確にすることで、運用者が迅速に問題解決を行える環境を提供する。本セッションでは、このAPMのことを一貫して「Observability製品」と呼称し、システム全体の状態を把握するためにどのように活用されているかを説明した。
これを実現するための製品として「Instana」を導入し、システム全体を俯瞰できる体制を築いたのが今回の取り組みである。InstanaはIBM社が提供するObservability製品であり、アプリケーションのパフォーマンス監視やトラブルシューティングを可能にする高度な分析機能を備える。特にシステムの依存関係を可視化し、問題箇所を迅速に特定できる点が大きな特徴だ。これによりセブン&アイ・ネットメディアは障害対応の効率化を図ることができたという。本セッションの目的は、参加者にこの成功事例を共有し、Observabilityの導入がもたらすメリットを理解してもらうことであった。またセッションのゴールとして「経営・ビジネスに説明可能な透明性のあるIT運用体制の確立」が掲げられた。
クラウド移行と運用課題の克服
セブン&アイ・ネットメディアは、大規模なITインフラを支える中で、いくつもの課題に直面してきた。自社のシステムインフラはもちろん、グループ各社のインフラもその対象であった。特にオンプレミス環境では、システム負荷の増加に伴いリソースの増設・増強を繰り返す「パワープレー」が常態化していた。しかしインフラの増設には限界があり、ある時点でシステム性能が追いつかなくなる事態に直面した。これを契機として、同社はAWSクラウドへの移行を決断する。
クラウド移行によりリソース問題は一時的に解決したものの、新たな課題が浮上した。障害発生時、従来は分散されたツールを駆使して各システムを個別に調査する必要があったため、原因究明に多大な時間がかかっていた。またせっかく導入したObservability製品「Instana」も、性能監視に特化した使い方しかされておらず、他のチームには十分に浸透していなかった。その結果、ツール自体の利用率が低く、導入効果を十分に発揮できない状況に陥っていた。
このような課題に対し、同社は次のような対策を実行した。まずInstanaの使い方を見直し、性能監視から障害調査ツールへとユースケースを転換した。これにより、障害発生時にエラー箇所を視覚的に把握できる仕組みを構築し、原因特定にかかる時間を大幅に短縮した。また社内全体への認知度向上を目的とした「布教活動」として、勉強会を開催した。この勉強会ではInstanaの基本的な使い方から実際のユースケースまでを具体的に解説し、多くの社員にその価値を理解してもらった。重信氏は「この取り組みの結果、Instanaがより多くの社員に活用されるようになり、組織全体での障害調査能力が飛躍的に向上しました」と取り組みの意義を語った。
Instanaによる成果と事例
Instanaを活用した結果、セブン&アイ・ネットメディアでは以下のような成果が得られた。第一に、障害原因特定の迅速化が実現された。例えば、アプリケーションの一部機能が正常に動作しない障害が発生した際、Instanaを用いてエラーの発生箇所を特定することで、従来3時間かかっていた調査時間をわずか5分に短縮することができたという。このスピード感は、障害対応の効率化だけでなく、システム全体の安定性向上にも寄与したという。
次に事業会社向けのレポート作成が大幅に効率化された。以前は複数のツールから情報を取得し、それを統合する手間がかかっていたが、Instanaを活用することで、必要な情報を一つのツールから収集できるようになった。この結果、レポート作成時間が短縮され、業務負荷の軽減が図られた。同社がインフラを担っている事業会社への提供価値も向上した。
さらに、検証環境での性能試験にもObservabilityが役立った。システムのボトルネックを特定する際、Instanaの分析機能を活用することで、データベースの負荷が問題であることを迅速に発見し、適切な対応を取ることが可能となった。佐藤氏は次のように振り返る。「従来は手当たり次第に問題箇所を調査していましたが、Instanaを使うことで、的確にボトルネックを特定できるようになりました」
Observabilityで築く未来
Observability製品「Instana」の導入により、セブン&アイ・ネットメディアは、システム運用の透明性向上と障害対応の迅速化を実現した。今回の取り組みを通じて、同社はObservabilityが単なる監視ツールではなく、業務効率化と組織文化の変革をもたらすものであることを証明した。
佐藤氏は次のように語る。「複雑化する現代のIT環境において、Observabilityはもはや不可欠です。その導入には多くの課題が伴いますが、それを乗り越えることで得られるメリットは計り知れません」
最後に佐藤氏は今後の展望についても触れた。「Instanaのさらなる機能を活用し、性能試験やビジネス側との連携を強化していきたいと考えています。またSLIやSLOのような指標を定義することで、技術部門とビジネス部門が共通言語を持つ形を目指していきたいです。これにより、より一層Observabilityを活かしたシステム運用の高度化を進めていけると確信しています」と力強く語って、セッションを締めくくった。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- 【CNDW2024】Platform Engineeringの成熟度モデルごとにフェーズに応じてリファレンスアーキテクチャを提示、開発の効率化と品質向上を実現
- 【CNDW2024】Kubernetesクラスタのセキュリティを守れ! 攻撃事例から学ぶ実践的対策
- 【本日11/28開幕!】クラウドネイティブの祭典「CNDW2024」注目のセッションを再確認しよう!
- 目指すはプロセス連結によるサイロ化の打破! ガバナンス強化にも寄与する自動化プラットフォームとは
- Wantedlyがマイクロサービス基盤としてKubernetesを選んだ理由
- Cloud Operator Days Tokyo 2021開催、New Relicとドコモのセッションを振り返る
- 地域密着型のコープさっぽろが取り組む、宅配システムの内製開発によるクラウドネイティブ化
- DevOps全体の監視・調査・障害対応を自動化・効率化 「Splunk Observability Cloud」が DXをスピードアップする
- 「Observability Conference 2022」開催レポート
- Observability Conference 2022、TVerによるNew Relic One導入事例を紹介