並列クエリを上手に使いこなす!
並列クエリに向いているもの、向いていないもの
前回までで、並列クエリを実現するプログラム上のテクニックを紹介しました。最終回の今回は並列クエリを効果的に使うための話題をいくつか紹介したいと思います。
当たり前のことですが、並列クエリをするからには、並列で処理できるプロセスがあるということが大前提です。そのクエリを分散して、バラバラに平行して処理できる必要があります。
シーケンシャルに(順番に)処理しないと結果がでないようなものでは効果が限定的です。
例えば、複雑な指標を求める場合などにおいては、対象とする集合の全体を何度もスキャンし、平均値や標準偏差などの統計値を算出することがありますが、こうした「前のクエリの結果を次のクエリで使う」ようなシリアル処理のものは、並列クエリの威力を発揮しにくくなります。
もっとも、シリアル処理だからといって、並列クエリを使ってもまったく効果が無いというわけではありません。
「第4回:集約関数を使いこなす(http://www.thinkit.co.jp/article/97/4/)」の標準偏差の項にて紹介したように、個々のステップを並列処理にすることで速度を高めることができます。あるいは、出現頻度の高い値(例えば、ある値の平均値など)をあらかじめ計算しておく、または計算した都度キャッシュしておくなどにより、シリアル処理の計算ステップ数を減らすこともできるでしょう。
テーブルの分散
並列クエリでは、並列処理に適したアプリケーション(処理)を見極めるとともに、効果が高まるようにテーブルを分散させることが肝要です。「第1回:DBは習うより慣れよ!(http://www.thinkit.co.jp/article/97/1/)」で触れたとおり、それぞれのノードが均等な負荷で、みなの力を余すところなく使い切ることが理想です。そのためには、検索対象となるテーブルを、意図的に分散させる必要があります。
それでは次ページにて、テーブル分割の具体例を紹介しましょう。