大規模化するDWHのチューニング

2010年3月18日(木)
TIS株式会社 サービス&コミュニケーション事業部 ソリューションチーム

4.データ圧縮によるI/O削減

データ圧縮も、ディスクを効率的に活用してパフォーマンスを向上させるために欠かせない機能です。多くの製品が提供している定番の機能と言えます。ここでは、パフォーマンスの観点で解説します。

DWHは、データの量が多くて範囲も広いため、キャッシュの効果が得られにくく、ディスクI/Oがボトルネックになる傾向があります。最新のマルチコアCPUを使ったとしても、I/O待ち状態になってしまっては、CPU能力を有効に活用できません。

このような場合は、データ圧縮機能を使って物理的にデータ・サイズを減らす手法が有効です。一般的には、データ圧縮によって3~4倍の圧縮率を得られることが多いようです。

また、読み込む物理的なデータ量が少なくなるので、使用するメモリーも少なく済みます。データを圧縮/伸長するためにCPU負荷がかかりますが、ボトルネックであるI/O負荷を削減してCPU負荷へと処理をオフロードできるため、結果的にパフォーマンスが向上します。

圧縮機能にも、注意すべきポイントがあります。それは、CPU負荷が高い状態で使うと逆効果になる点です。DWHでは分析関数などのような複雑なSQLが用いられることが多いので、場合によってはCPU負荷が非常に高くなります。余談ですが、最近では、CPU負荷を参考にしながら圧縮レベルなどのパラメータを任意の値に変えられるなど、柔軟な設定が可能な製品もあるようです。

5.分散キーの活用

ここまで、走査するデータ量を削減するためのチューニング方法について解説してきました。以下では、シェアード・ナッシング型のDWHにおける分散キーの活用例を紹介します。シェアード・ナッシング型アーキテクチャについては、第2回を参照してください。

分散キーを検討する際に最も重要なポイントは、各ノードに格納されるデータの量が均等になるような値を選択することです。まずはこの条件を満たすことを大前提に、さらなるチューニング方法を検討します。

シェアード・ナッシング型で最も効率的な状態は、他ノードに処理を依頼することなく自ノードで処理が完結することです。

例えば、表を結合する際に結合キーと分散キーが異なる場合、自ノードが持っている結合キーの値が他ノードでマッチする可能性があります。このため、それらのデータを他ノードに転送する必要が生じます。

しかし、結合キーと分散キーが同じであれば、マッチするキーは自ノードにしかないことがあらかじめ分かります。このため、他ノードへのデータ転送が発生せずに、非常に効率の良い処理になります。

実際には、テーブルの数は数百から数千に及ぶため、すべての結合においてデータ転送が発生しないように分散キーを選ぶことは不可能です。しかし、データ量が多い表での結合に絞れば、効率のよい分散キーを選ぶことは可能です。

このように、データ量を均等に配置するだけではなく、なるべくデータ転送量を少なくするという観点も含めて分散キーの設定をしてみることが重要です。

以上、今回は大規模DWHにおけるチューニングのいくつかを解説しました。実際には筆者も試行錯誤の毎日であり、最適解は1つではないと考えています。

最終回となる次回は、DWHのクラウド化サービスと、その事例を紹介します。

著者
TIS株式会社 サービス&コミュニケーション事業部 ソリューションチーム
戦略の高度化に向けたシステム支援を専門にしているチームです。我々はDWHやBIを使いビジネスロジックをいかに既存のビジネスに活かしていくか、営業の高度化におけるSFAや、ポイントカードに代表されるFSPなどとDWHやBIの連携により、お客様の営業支援に役立てられればと考えております。
03-5402-2086/sales3-info@mbgx.tis.co.jp

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています