データベースの障害対策を考える
起こりうる障害の種類を把握する
第3回のテーマは、「データベースの障害対策」です。データベースはシステムの要であり、基幹システムにおいてはバックアップ機を設置するなどの障害対策を、企業規模を問わず、かなりの割合で行っています(JUAS調べでは7割超がバックアップ機を設置:http://www.juas.or.jp/project/survey/it09/)。
しかし、実際に障害が発生した際に、想定していた方法では対処できなかった、という話をよく耳にします。というわけで、あらためて、どんな障害が想定されるのかをおさらいしたうえで、最新の解決方法を交えて解説します。
今回は、以下の流れで、データベースの障害対策について解説します。興味深いユーザー事例も登場します。
1. データベースにまつわる障害を洗い出す
2. サーバー障害への対策を考える
3. 意外な盲点?人為的エラーを考える
4. 障害を未然に防ぐ・障害が起こっても慌てない
5. システム全体でデータベースの障害対策を考える
■1. データベースにまつわる障害を洗い出す
データベースの障害というと、一般的には、サーバーやストレージといったハードウエアの障害や、データベース・ソフトウエアのエラーによる障害などが挙げられます。実際、私が所属するOracle Directでお客さまから受ける相談でも、このような、一般的に想定される障害に対しては、すでに考慮済みであるケースが多いです。
しかし、データベースの障害というのは、ハードウエアやソフトウエアの障害だけではありません。人為的なエラーによるものや、より広義にとらえれば、パッチの適用といった、いわゆる計画停止も含まれます。ですので、ここではまず、データベースにまつわる障害を洗い出すことが先決です。
大きくは、計画停止と計画外停止の2つに大別
図1をご覧ください。データベースにまつわる障害は、大きく、計画停止と計画外停止に分けられます。
■1.1. 計画停止
データベースの計画停止は、システム変更とデータ変更に大きく分かれます。
システム変更とは、サーバーのメンテナンスやストレージのディスク追加、データベースのアップグレードなどを指します。計画停止に対するアプローチとして、Oracle Databaseでは、第2回で解説したAutomatic Storage Management(http://thinkit.jp/article/1044/2/、オンラインでディスクを追加できる機能)など、データベースの停止時間を短くするための機能を提供しています。
一方のデータ変更とは、表の定義変更や索引の再構成などを指します。Oracle Databaseでは、バージョンが上がるたびに、こうしたメンテナンス作業をオンラインでできるよう、機能拡張を行っています。なかなか注目されることのない機能ですが、計画停止を抑えるためのこうした機能に魅力を感じてOracle Databaseを最新版にアップグレードするお客さまも少なくありません。
■1.2. 計画外停止
データベースの計画外停止は、サーバー障害とデータ障害に分かれます。サーバー障害とは、サーバー自体の障害や、OS・データベースなどのソフトウエアの障害を指します。一方のデータ障害は、重要なデータが何らかの要因によって失われてしまうことを指します。データ障害の要因としては、ストレージ障害、人為的エラー、データ破損、サイト障害(自然災害など)が挙げられます。
今回は、この計画外停止を中心に解説します。計画外停止に対処する方法は、大きく以下の4つがあります。
・データベース・サーバーの冗長化
・テーブルへの誤操作の巻き戻し
・システム監視による障害の予防
・障害に強いアーキテクチャーの採用
次ページからは、その特徴を順番に見ていきます。なお、図1でサイト障害と書いた、いわゆる災害対策については、次の第4回でフォーカスを当てたいと思っています。