非同期レプリケーション!
Slony-Iとは
「第3回:レプリケーション&負荷分散!(http://www.thinkit.co.jp/article/98/3/)」は、pgpool-IIのレプリケーションと負荷分散の機能について紹介しました。今回は、非同期レプリケーションソフトのSlony-Iとpgpool-IIを組み合わせて使う方法を紹介します。
Slony-I(http://slony.info)とは、PostgreSQLのコアメンバの1人でもあるJan Wieck氏が開発したPostgreSQL用の非同期レプリケーションソフトです。
Slony-Iのレプリケーション方式は、シングルマスター/マルチスレーブと呼ばれ、1台のマスタノードと複数のスレーブノードで構成されます。
あらかじめレプリケーション対象のテーブルにトリガを設定しておき、マスタ上のテーブルに対して更新が行われた時、トリガにより更新されたデータの情報をログテーブルに保存します。
Slony-Iのデーモンプログラムslonはそのログテーブルの内容をスレーブノードに転送し、スレーブノード上でそのログを再生することでレプリケーションを実現しています。
Slony-Iのスレーブノードは、参照系のクエリのみ実行可能です(更新を行おうとするとエラーとなります)。
Slony-Iとpgpool-IIのレプリケーション方式の違い
前回も紹介した通り、pgpool-IIもレプリケーション機能を持っています。ではpgpool-IIとSlony-Iを組み合わせて使うのはなぜでしょうか。その理由を3つ説明しましょう。
1つ目の理由は「レプリケーションによる制限が少ない」ことです。pgpool-IIのレプリケーションは「これからPostgreSQLに対して実行しようとしているクエリをレプリケーションする」のに対して、Slony-Iのレプリケーションは、トリガを使っているため、「すでにマスタノード上で行われた変更をレプリケーションする」という違いがあります。
このためSlony-Iでは、random()やcurrent_timestampのような、実行してみるまで値が確定しない関数の結果をテーブルにINSERTした場合でも、マスタとスレーブ間で同じ値となります。
2つ目の理由は「同期/非同期の違い」です。pgpool-IIのレプリケーションは同期であるのに対して、Slony-Iのレプリケーションは非同期です。非同期であることはマイナスの部分もありますが、更新時にスレーブノードの応答を待つ必要が無いというメリットもあります。
また、メンテナンスのためにスレーブノードを再起動して、レプリケーションを継続するといったこともpgpool-IIのレプリケーションと比べて簡単にできます。
3つ目の理由は「負荷分散と故障検出」です。Slony-Iは単体ではレプリケーションの機能しかありません。このため、Slony-Iを単体で使うには、クエリをどう負荷分散するかをアプリケーション側で実装しなければいけません。
pgpool-IIと組み合わせて使うことで、負荷分散と故障検出の部分をpgpool-IIに任せることができます。
なお、Slony-Iとpgpool-IIを組み合わせて使う場合、pgpool-IIのマスタースレーブモードを使います。これは、レプリケーションをほかのソフトウエアに任せてしまい、参照系の負荷分散だけを行うモードです。
マスタースレーブモードでは、参照系のクエリを負荷分散し、更新系のクエリをマスターノード(番号の1番若いバックエンド)のみに送信します。
前回紹介したレプリケーションと負荷分散の設定とあわせてまとめると図1のようになります。
次は注意点と設定方法について説明します。