並列クエリを上手に使いこなす!

2008年7月30日(水)
田中 宏昌

並列クエリに向いているもの、向いていないもの

 前回までで、並列クエリを実現するプログラム上のテクニックを紹介しました。最終回の今回は並列クエリを効果的に使うための話題をいくつか紹介したいと思います。

 当たり前のことですが、並列クエリをするからには、並列で処理できるプロセスがあるということが大前提です。そのクエリを分散して、バラバラに平行して処理できる必要があります。

 シーケンシャルに(順番に)処理しないと結果がでないようなものでは効果が限定的です。

 例えば、複雑な指標を求める場合などにおいては、対象とする集合の全体を何度もスキャンし、平均値や標準偏差などの統計値を算出することがありますが、こうした「前のクエリの結果を次のクエリで使う」ようなシリアル処理のものは、並列クエリの威力を発揮しにくくなります。

 もっとも、シリアル処理だからといって、並列クエリを使ってもまったく効果が無いというわけではありません。

 「第4回:集約関数を使いこなす(http://www.thinkit.co.jp/article/97/4/)」の標準偏差の項にて紹介したように、個々のステップを並列処理にすることで速度を高めることができます。あるいは、出現頻度の高い値(例えば、ある値の平均値など)をあらかじめ計算しておく、または計算した都度キャッシュしておくなどにより、シリアル処理の計算ステップ数を減らすこともできるでしょう。

テーブルの分散

 並列クエリでは、並列処理に適したアプリケーション(処理)を見極めるとともに、効果が高まるようにテーブルを分散させることが肝要です。「第1回:DBは習うより慣れよ!(http://www.thinkit.co.jp/article/97/1/)」で触れたとおり、それぞれのノードが均等な負荷で、みなの力を余すところなく使い切ることが理想です。そのためには、検索対象となるテーブルを、意図的に分散させる必要があります。

 それでは次ページにて、テーブル分割の具体例を紹介しましょう。

株式会社メディカルアーキテクツ
株式会社メディカルアーキテクツ、共同経営者。NTTデータ、NTTデータ経営研究所(出向)にてITプロジェクトの企画や企業の戦略系コンサルティングを数多く経験。その後、外資系医療コンサルティング企業のCIOとして伝説のシステムを数多く作り上げ、2年前に起業。東京大学工学部航空宇宙工学科卒。http://www.mediarc.jp/

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています