主要なPostgreSQLクラスタ

2010年10月19日(火)

2. pgpool-II

pgpool-II関連URL1関連URL2)は、SRA OSSが中心になって開発した、日本発のPostgreSQLクラスタです。国内外で、よく知られています。

図2に示すように、pgpool-IIは、PostgreSQLとアプリケーションの中間に位置します。この位置で、複数のPostgreSQLデータベースを管理し、さらにPostgreSQLデータベースへの読み書きを制御するようになっています。

図2: pgpool-IIの概要

pgpool-IIは、いくつかのクラスタ機能を統合したものです。提供する機能には、以下のようなものがあります。

1. コネクション・プーリング
データベースには、同時に数百数千のアプリケーションが接続します。これらのアプリケーションがそれぞれ個別にデータベースへの接続と切断を繰り返すと、データベースの負荷が大きくなります。これを解決するのがコネクション・プーリングです。データベースへの接続をまとめて実行し、アプリケーションに使ってもらい、使い終わった接続を次のアプリケーションで再利用します。
2. レプリケーション
主にHA(高可用性)を要求するアプリケーション向けに、データベースのレプリケーションを作ることができます。レプリケーションは、上記のSlony-Iや、次に述べるStreaming Replicationを用いて作ることができます。これ以外にも、独自にSQLレベルのレプリケーションを作ることができます。これについては後述します。
3. 負荷バランス機能
レプリケーションが複数あり、レプリケーション間のデータが厳密に同じであれば、参照SQLは、どのレプリケーションで実行しても同じ結果になります。pgpool-IIでは、複数の参照SQLを別々のサーバーで実行させることで、全体の参照性能を向上させることができます。
4. 並列クエリー(パラレル・モード)
1つのSQL文を、複数のSQL文に分割し、これを複数のサーバーで並列実行します。これにより、複雑なSQL文の実行性能を向上させることができます。

pgpool-IIでは、レプリケーションの内容を更新する際に、簡単で確実な方法をとっています。概要を図3に示します。pgpool-IIでは、アプリケーションから更新SQLが入力されると、更新SQLのすべてを、まずは特定のPostgreSQLサーバーで処理します。

こうすることによって、異なるアプリケーションから更新SQLが同時に発行されても、最初にSQL文を処理するPostgreSQL上で、一方が待たされることになります。先行したアプリケーションがすべてのPostgreSQL上にあるデータを更新し終わった後で、次のアプリケーションがデータを更新できるようになります。

図3: pgpool-IIのレプリケーションにおけるデータ更新方式

この方法は簡潔で、優れた方法といえます。複数のアプリケーションから同時にレプリケーションを更新しても、レプリケーションの一貫性を保つことができます。

すべてのレプリケーションの内容を一致させて、どこからでも同じ状態に見えるようにする方法は、これ以外にもいろいろあります。ここでは説明を割愛します。

連載バックナンバー

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています