とんがったデータベースエンジニアになれ! db tech showcase 東京 2013レポート
インサイトテクノロジーの主催するデータベースの一大イベント、「db tech showcase 2013 Tokyo」が11月13日(水)から3日間、UDXカンファレンス(東京都千代田区外神田)にて開催。会期中は4つのセッションが同時進行し、全81のセッションに、のべ3,000人以上が記録した。
データベースのオモテもウラも学ぶ、とんがったカンファレンス
主催するインサイトテクノロジーは、本イベントをVersion4と位置づけ、カンファレンスの内容をさらに進化させたと宣言。「商品/ソリューション紹介を行わない」ことをキープコンセプトとして、これまでの来場者アンケート等から、「データベースエンジニアが欲する」情報に応えるべく、コア技術のセッション(ベンダーの技術者ではない)に加えて、ユーザーセッションと事例セッションを多く投入している。
セッション・スケジュールには巷であふれる「〜の成功事例」の様に美辞麗句の並ぶセッションタイトルは見当たらない。何故なら現実にはすんなりと成功したプロジェクトはあまり存在せず、メンバーが苦労を重ねて何とか達成されるのが現実のプロジェクトでは?という見地に起因する。エンジニアにとってはセールス・トークを交えず、失敗事例も含めて学ぶことのできる希有な機会とも言える。
感性に従い、自身のためにも同カンファレンスを開催していると話す同社代表取締役社長 小幡 一郎氏は「自分が話を聞きたい人を世界中から呼んだ」とし、イノベーターであり、アーリーアダプターでもある“Tongalist”達によるセッションの数々を、来場者にも自分の感性で選択してほしいと熱く語り、カンファレンスの幕は上がった。
「元気Hadoop:OracleをHadoopで分析しちゃうぜ」
インサイトテクノロジー 平間 大輔氏
Hadoopはデータベースにキレイに整理される前のデータとりあえず入れて使うのが本来の使い方で、細切れになって格納しているデータを意識せずに使えることからビッグデータとの親和性も高い、と話すのは、インサイトテクノロジーの平間氏。
平間氏は、位置情報やログなどを扱うことの多いWeb系・通信系の会社がHadoopを利用している事例は多いが、そこまでのビッグデータを扱うことは少ないDBエンジニアでも使いたいという思いから、4ノードのHadoopクラスタを作り、DBサーバーのログを取得するようにした。
パフォーマンスログを取っているdstatでCSVファイルを吐き出し、コマンドでHadoopに1日1ファイルでアップロードしている。データはCSVなのでHiveを使ってマップを自動処理している。Hiveを使うとSQL的なクエリを書くだけで済む。テーブルはCPU情報とディスク情報(ディスクのリードとライト)を持っている。
Hiveはそれほど速さに優れている訳ではないが、開発が容易であることとデータ量が増えても処理速度はそれほど落ちない等の利点も多い。Impala(Cloudera)を使うと速度は上がるが、データ量が増えると処理が遅くなることから、ログデータなどはHadoopにどんどん入れてしまうのも費用対効果の面でも有効とのことだ。
また、監査ログを処理してSQLを抜き出し、mahoutによる機械学習でレコメンドやクラスタリング等の試みも行っている。
これらの取り組みを通して同氏は「Hadoopは堅いイメージであるが本来は結構アナーキーなものだと思う。先ずは自作など、Hadoopを使って気軽に遊んでみては?」とセッションを結んだ。
次世代インメモリデータベースSAP HANA。その最新技術を理解する
SAP 花木 敏久氏
インメモリーで対応し、一つのデータベースで解決しようとしたのがSAP HANA(以下:HANA)である。データウェアハウスでサマリーを見る時など、ドリルダウンした場合に通常はレスポンスが低下するが、分断したデータベースを一つにしてインメモリデータベース化することで高速化に寄与する。それによってパフォーマンスと粒度の濃い分析の両立を実現することを開発のコンセプトとしている。
アプライアンス形式で提供されており、搭載CPUであるIntelのXeon E7にフォーカスし、パフォーマンスを発揮できるように開発されている。ハードウェアチェックを外せばMac miniでも動作は可能だが、環境によるトラブルを避け、またインストールの面倒をかけない配慮からも、アプライアンス提供が望ましいとのこと。
HANAは主にカラムストアをサポートし、更新系の処理も広大なメモリ空間を活用して高速に処理している。遅いといわれるカラムストアを使い、OLTPを高速処理するのはテーブルとは別にデルタマージという機能を持つことで可能にしている。具体的には、メインストレージとは別にデルタストレージという領域を設け、様々な処理を軽いコスト(インサート処理)でコミットする。さらに高速化のために頻繁にパラレル処理を行うが、カラムでデータを持つため、一つのカラムでも論理的に判断し複数のコアを割り当てることなども行う。
さらにHANAはある程度のアプリケーションサーバーの機能も持っており、アプリケーション開発機能はOLAPもこなすことができる。これによってBIツールの負荷を軽減することもできる。
HANAはリリース2年と間がないため金融機関等への導入はこれからとのことだが、DB高速化によってもたらされるメリットは魅力的といえるため、今後、確実に導入が増えて行くと予想される。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- インメモリー・データベースの注意点
- PostgreSQLの進化に迫る
- PostgreSQLとOracle Databaseそれぞれの特徴
- PostgreSQLの概要とアーキテクチャ
- SQL Server on Linuxをエンタープライズで活用するためのセミナー開催
- HBase導入時の検討項目と推奨構成、および設計ノウハウ
- GPUを活用してデータベースを爆速化する「PG-Strom」の仕組み
- PostgreSQL9.0の安定性と高い可用性を実証 アシストによるPostgreSQL検証セミナーレポート
- ownCloudのパフォーマンスチューニング
- PostgreSQLの適用範囲を考える 〜 ベンチマークテスト