キーバリュー型データベースの概要とその例
Tokyo Cabinet/Tokyo Tyrantの利用法
Tokyo Cabinet/Tokyo Tyrantとも、ソースコードの形で公開されています。UNIX系のシステムであれば、コンパイルしてインストールすることができます。コンパイルの手順は一般的で、ソースコードを展開したディレクトリに入って、以下のようにコマンドを入力します。
./configure
make
su
make install
インストールが終わったら、Tokyo Tyrantのサーバーを起動します。Tokyo TyrantのZipファイルの中に起動用のスクリプト(ttservctl)が用意されていますので、それを使うと良いでしょう。
また、作者のサイトでは、Tokyo Tyrantのクライアント用のライブラリとして、PerlとRubyのライブラリが公開されています。さらに、その他の言語のライブラリも、ユーザーによって作られています。例えば、PHP版のライブラリはPECLに登録されていて、以下のコマンドでインストールすることができます。
pecl install -f tokyo_tyrant
プログラムからTokyo Tyrantを使うには、基本的には以下のような流れを取ります。
- データベースファイルを開く
- データを保存する
- データを読み込み、処理する
- データベースファイルを閉じる
例えば、PHPで以下のようにプログラムを組むと、キーが「foo」で値が「bar」の行をデータベースに保存した後、キーが「foo」の行の値を出力します。そのため、結果として「bar」と表示されます。
また、以下のように書くと、データベースの全ての行のキーと値を順に出力することができます。
ベンチマークテストとまとめ
最初の項で、「キーバリュー型データベースは、リレーショナルデータベースより構造がシンプルなので速い」ということを述べました。そこで、Memcached/Tokyo Tyrant/MySQLの3つのデータベースで、簡単なベンチマークテストを行ってみました。
キーが「keyXXXXXXXX」(XXXXXXXXは00000000~00099999の整数)、値が0~999のランダムな値を取るようにキーと値のペアを10万個作り、それらを書き込む処理を作りました。そして、その処理を10回繰り返して、所要時間を計ってみました。なお、プログラムはPerlで作り、表2のライブラリを使用しました。
すると、その結果は図1のようになりました。やはりMemcachedが速く、ついでTokyo Tyrantが速く、MySQLが最も遅いという結果になっています。
キーバリュー型データベースは、リレーショナルデータベースとは異なり、複雑なデータ構造を表すのには向いていません。また、複雑な条件で検索を行ったりするのも、あまり得意ではありません。
しかし、複雑さがないデータ処理なら、ベンチマーク結果で挙げたように、リレーショナルデータベースよりも高速に行うことができます。この特性を生かした利用法を取ることが、キーバリュー型データベースを使う上でのポイントと言えるでしょう。
図1:ベンチマークテストの結果(クリックで拡大) |
データベース | ライブラリ |
---|---|
Memcached | Cache::Memcached::Fast |
Tokyo Tyrant | TokyoTyrant |
MySQL | DBI |
表3:プログラム作成の際に使ったライブラリ