システム運用で押さえておきたい「管理すべき情報」とは
システム運用で管理すべき情報
前項では、システムを理解するうえで必要な情報を挙げてみたが、このほかに、システムを運用していくうえで必要となる、「管理すべき情報」を列挙する。
インシデント
インシデントとは、「事件、出来事、ハプニング」という意味で、システム運用では、なんらかのトラブルの発生を意味する。しかし、実際にシステムがダウンしたとか、本格的なトラブルに限定した話ではなく、例えばハードウェア、とくにCPUの温度やHDDの容量が指定の閾値を超えたことによって、アラートが発生したような、直接システムトラブルにつながらないようなイベントも、インシデントに含まれる。
インシデントの発生は、それに対応する運用担当者のアクションにつながる。したがって、過去にどのようなインシデントが発生したのか。またその発生時刻はいつで、どのようなタイミングであったのか、例えばユーザーのアクセスがシステムに殺到し、過負荷状態が続いているなかで発生したものなのか、あるいは、ユーザーの利用がほとんどない真夜中や早朝に発生したものなのかなど、そのインシデントが発生した条件も含めて記録に残しておき、その対処方法や対処結果を、運用業務の改善に役立てていくべきだ。
セキュリティ関連情報
セキュリティ関連情報には、
- システムにアクセスするためのアカウント情報
- アクセス権限を持っているユーザーの情報
- アクセス履歴
- ファイアウォールやパケットフィルタの設定情報
- ミドルウェアなどのパッケージのバージョン番号
- セキュリティパッチの適用履歴情報
などが含まれる。情報セキュリティの第一人者、ブルース・シュナイアー(BruceSchneier)が、『セキュリティは鎖みたいなものであり、一番弱いところが全体の強度となる』と言っているように、セキュリティは一度設定すれば完了というものではなく、常に新たな脅威が出てくる。現在どのような状態であり、セキュリティ上のどういう対策を講じる必要があるのかを、常に把握しておく必要がある。
また、運用対象のシステム(通常はOSや利用しているソフトウェア)に関連するセキュリティのアップデート情報については、常に動向を把握しておく必要がある。セキュリティ情報については、セキュリティ関連企業各社が、常に最新情報を提供してくれるので、それをどう収集し、自分たちにとって必要なものを取捨選択し、運用チームで共有していくかは、重要なポイントとなるだろう。
トラブル履歴
過去に発生したトラブルと、その対処結果については、履歴を残して、常に参照できるようにしておくべきだ。それは、同じシステムにおいては、同じようなトラブルが再発する傾向が高いからだ。
こういった過去の履歴や対処方法を、定期的にサマリーにまとめ、「FAQ」(よくある質問)として文書化し、運用担当者が常に参照できるようにしていく。
変更履歴
システムの構成情報や設定情報については、運用していく中で日々変化していくものである。「いつ」「誰が」「どのような変更を行ったか」を、常に捕捉し続けることで、問題が発生した際に、「どこの時点での問題か」「原因はどこにあるか」といったことが突き止めやすくなる。
また、システムのパフォーマンスを改善する目的で、パフォーマンスに直結する設定項目を変更することもあるだろう。
モニタリング情報の履歴
CPU負荷をモニタリングしている場合、過去の履歴データを一定期間保存することにより、例えば、「毎週金曜日の午後だけCPU負荷が増加する」といった傾向が明らかになる。このような傾向を把握することで、CPU負荷が増大する原因の追求や、対策の立案が可能となる。
また、HDDの空き領域の減少スピードや、ログファイルの増大のペースを把握することで、HDDが溢れそうな時期をあらかじめ認識し、トラブルが発生する前に対処することが可能になることもある。