DBは習うより慣れよ!
試してわかる並列処理
巨大なデータベースを検索する場合や、アカデミックで複雑な検索を行う場合に、1つのクエリがとてつもなく重たくなった経験はありませんか。もちろん、SQL文の効率が悪い、あるいはインデックスの張り方が悪いなど、パフォーマンスチューニングの基本動作ができていない場合もありますが、そもそも「そんな巨大なクエリを1台のマシンでやらせることに無理がある」場合もあります。これに対する強力な処方せんの1つが並列処理(パラレルクエリ)です。
最近は、データウェアハウスやメールの解析といった情報系のシステムが増えており、データベースのクエリに求める利用者の要望は複雑化しています。しかも、Googleのような検索エンジンがサクサクと動いているので、データベースの検索なんて早くて当たり前と考える利用者が増え、期待値は高まる一方です。
ただ、業務に必要不可欠な基幹系のシステムとは違い、情報系のシステムにはお金がまわって来ないことが多いようです。資金面のみならず、優秀なエンジニアがアサインされないなど厳しいプロジェクトのこともあるようです。
そのため、システム自体をあきらめてしまったり、身の丈にあわないような高価なソフトウェアを買って採算がとれなくなる羽目になったり、技術力と資金力に富んだ大手ベンダーに仕事をとられてしまったり、情報系システムが報われない状況も多いようです。
個人的には、情報系にこそITの面白みが詰まっており、新たな可能性を秘めていると思うので、若い方やベンチャー企業こそ情報系で成功をつかんでほしいと思っています。そのためには、高根の花とか特別に難しいものだと委縮するのではなく、重たいクエリを軽いノリで目いっぱい使いまくれる状況がとても大事だと考えています。
本連載では、データベースの並列処理を実際に試し、その効果と特性、そして限界を、肌で感じてみましょう。環境はLAMP(Linux、Apache、MySQL、PHP)です。それ以外の特別なソフトウェアは用いず、いわば「素手で挑む」スタイルでいきます。
かなり自己流で、改善の余地も多々あろうかと思いますが、情報系のデータベースなんてそんなにきちょうめんにやらなくても大丈夫だよ、という応援歌となれば幸いです。何事も慣れが肝要ですから。
なお、オラクルやPostgreSQLなどのDBMSは、パラレルクエリをサポートしていますから、お行儀良いアプローチを希望される方はそちらを学ばれると良いでしょう。
データベースの並列処理とは何か
データベースの並列処理は、冒頭に書いた「そんな巨大なクエリを1台のマシンでやらせることに無理がある」場合の処方せんです。一言で言えば、多くのマシン(ノードということもある)で手分けして同時に処理することで、パフォーマンスを稼ぐ方法です(図1)。
例えば200ページの電話帳から「恵美」という名前の人が何人いるか検索する場合、これを1人で調べるとものすごく時間がかかるでしょう。もし、協力してくれる人が100人居るとするならば、これを1人2ページずつ、100人で手分けして調べたほうがはるかにスピーディーです。この「みんなで手分けする」アプローチが並列処理です。