DWHの大規模化における解決策

2010年3月11日(木)
TIS株式会社 サービス&コミュニケーション事業部 ソリューションチーム

進化するDWHソリューション

第1回では、近年のビジネス環境の変化から企業が最適な戦略を実践するために、より大量のデータを扱うことができるDWHシステムが求められている一方で、これを実現する際の課題として、データ増加によって発生するDWHのチューニング作業や、データマート等の外部システムが点在することで発生する管理コストから悪化する「コストパフォーマンス」および、爆発的に増え続けるデータに対応するためDWHで実現しなければいけない「拡張性」という課題が持ち上がっている背景が紹介されました。

では、現在世に出ているDWHソリューションにはいったいどのようなものがあるのでしょうか。また、それらは「コストパフォーマンス」や「拡張性」といった課題に対してどのように応えてきているのでしょうか。

今回は、主要なDWHを紹介し、それぞれのDWHソリューションとしての特徴を考察していきます。

図1に90年代以降活躍を続けている主なDWH製品を、それぞれ世に出てきた時系列で並べました。はじめに、それぞれがDWHで利用され始めた背景と特徴を述べます。

カラムストア型DBでDWHの性能問題を解決する

Oracle DatabaseやDB2といったデータベース(DB)黎明(れいめい)期から業務系のシステムで活躍を続けてきたDBは、90年代に入りDWHにも用いられるようになります。しかしながら、数百GB(ギガバイト)クラス以上のデータを扱うあたりから、次第に性能劣化が問題になるケースが多くなってきました。

この性能劣化問題の裏には単純に扱うデータ量が多くなったことだけではなく、DBの利用目的が変わり、データ処理内容が変わったことが大きな要因として存在します。

業務系システムでは主に表に索引を張るなどしてスキャンすべき範囲を絞り、可能な限り速く“格納されているデータを活用する”目的で利用されていました。これに対し、DWHでは主に、特定範囲のデータをすべてスキャン(フルスキャン)してユーザーが知らなかった情報を得ること―すなわち、“格納されているデータから学習する”ことが目的となります。

数百GB以上のデータを対象としてDWHのデータ処理を行う場合、(数百GBのメモリを持ったハードウエアを用意するのは現実的ではないため)大量のデータをディスクから読みだすデータ処理が前提になります。ここで性能劣化が避け得ない問題として発生していました。

そんな中、SybaseIQはカラムストア型DBというアプローチでこの性能問題を解決します。

上述のOracle DatabaseやDB2のような、リレーションを持つことを前提にディスクへデータ格納を行う従来のDBとは異なり、カラムストア型DBは、ディスクへのデータ格納をカラム単位で行います。また、このときカラム内で重複する値の書き込みを排除してデータを圧縮して格納します。

特に特定のカラムのフルスキャンを行うような場合、カラムごとにディスクへ格納していること、さらにそれが圧縮格納されていることから、ディスクIOを劇的に削減でき、従来のDBに比べ10倍から100倍の処理性能を実現できます。また、大容量のデータを格納した場合にも圧縮が効きますので、ストレージコストも削減できます。

著者
TIS株式会社 サービス&コミュニケーション事業部 ソリューションチーム
戦略の高度化に向けたシステム支援を専門にしているチームです。我々はDWHやBIを使いビジネスロジックをいかに既存のビジネスに活かしていくか、営業の高度化におけるSFAや、ポイントカードに代表されるFSPなどとDWHやBIの連携により、お客様の営業支援に役立てられればと考えております。
03-5402-2086/sales3-info@mbgx.tis.co.jp

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています