結果データを上手にまとめるには?

2008年7月16日(水)
田中 宏昌

LOAD DATA INFILEを使う方法

 もう1つの方法は、LOAD DATA INFILEを使う方法です。これは、タブやカンマ区切りのCSVのデータを、そのままテーブルに流し込むというもので、さらに高速に処理をすることができます。

 通常は、ファイルから読み込むのですが、パイプを用いて子サーバーからの結果を直接流し込むことができるので、その方法で実現してみます。

LOAD DATA INFILEを使う場合の注意点

 25行目でFIFOパイプを作成しています。30~32行目では、mysqlコマンドの結果をFIFOパイプに流し込むようにしています。47行目でFIFOパイプからデータを受け取り、LOAD DATA INFILEによりMySQLに流し込んでいます。

 注意点としては、FIFOはそのサイズが小さい(例えば4096バイトなど)ため、クエリの結果がちょっと大きいと、すぐに容量オーバーとなってしまうことです。そうなると子プロセスは結果を出力することができず、プロセスが止まってしまいます。プログラムの作りが悪いとデッドロックを生み出してしまう可能性が高く、細心の配慮が必要です。大切なことは、親プロセスはFIFOパイプの内容を随時読み出すということです。

 FIFOパイプの読み出しをするべき親プロセス側はLOAD DATA INFILEを用いていますが、きめ細かな動作をしてくれません。このため、子プロセスが存在しないのにもかかわらず起動してしまうとFIFOパイプからの来るはずもない結果を永久に待ち続けることになります。

 つまり47行目は、多く登場しすぎても、登場回数が足りなくてもデッドロックになってしまいます。かなり繊細な実装です。

 さらにややこしいことに、47行目のLOAD DATA INFILEは、複数の子プロセスの結果を一気に処理することがあります。要は、子プロセスの数だけ起動すれば良いという単純な話ではありません。

 なお、上記のコードは、47行目から49行目の間の微妙なタイムラグで、子プロセスが4096バイト未満の結果を返した場合、それを取りこぼす可能性があります。また子プロセスがFIFOパイプに何も出力せずに終了してしまった場合にデッドロックが生じる可能性がありますので、実運用に向けては改良が必要です。

 また、上記では背伸びをしてFIFOパイプを用いましたが、これを使わず、子プロセスの結果を一度ファイルにリダイレクトし、それをLOAD DATA INFILEするという方法もあります。パイプを使うよりオーバーヘッドは大きくなりますが、プロセスが不安定になるリスクが少ないため、取り扱いはしやすいでしょう。コードは上記とほぼ同じですが、子プロセスごとに出力ファイルを分けるということや、47行目のLOAD DATA INFILEは51行目の後に移動するなどが異なります。

 以上、パラレルクエリの結果をまとめる2種類の方法をご紹介しました。前者は巨大なものを苦手とし、後者は繊細すぎるという難しさがあるという特徴を理解し、適材適所利用してください。

株式会社メディカルアーキテクツ
株式会社メディカルアーキテクツ、共同経営者。NTTデータ、NTTデータ経営研究所(出向)にてITプロジェクトの企画や企業の戦略系コンサルティングを数多く経験。その後、外資系医療コンサルティング企業のCIOとして伝説のシステムを数多く作り上げ、2年前に起業。東京大学工学部航空宇宙工学科卒。http://www.mediarc.jp/

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています