PHPで並列プログラミング
stream_selectを使ったサンプル
popenを使ったサンプルは、図1のものよりは多少スマートになっていますが、かなり問題が残っています。16行目から19行目にかけて、各子プロセスの結果を取得していますが、「順番に」結果を取得しているがゆえに、最初の方のクエリがとてつもなく遅いと、早く終わったクエリの結果を先に処理するといったことができません。
これまでのサンプルは、最終的な結果が単純な数値なので、結果を集計することは非常に簡単ですが、結果がある程度巨大な表形式で戻される場合もあります。こうした場合、計算が終了したものから、随時、集計していったほうが効率的です。
こうしたマルチタスクの処理を行うには、stream_select関数が威力を発揮します。
stream_select関数は、複数の子プロセスの出力のうち、一番早く結果が出たものを選んでくれるという便利なものです。何も結果がない場合には、リソースをほとんど消費しないので、負荷が少ないという点でも素晴らしい関数です。
steram_select関数を使うためには、popen関数で開いたファイルポインタでは調子が悪いので、proc_open関数を用います。proc_open関数は、細かい制御ができる、かなり使い勝手の良い関数なのですが、反面、コールするのが面倒です。ここでは、難しいことは考えず、popen関数の代替として理解しておいてください。
変更点をみてみよう
図3が図2のコードを変更したものです。だいぶ太りましたが、基本的な構造は変わっていません。並列でクエリを実行する部分は、12~26行目になっています。また、計算が終了するまで待って結果を集計する部分は、28~45行目に対応します。
前半の並列でクエリを実行する部分はさほどの変化はありません。ポイントは22行目のproc_open関数です。これをコールするためのパラメータ設定が16~20行目になります。24,25行目は、後半で使います。
大きく変わったのは後半です。ポイントは31行目の stream_select関数です。子プロセスからの出力のファイルポインタ一覧 ( $read ) から、結果が戻ったものを返します。 stream_select 関数は、引数が参照渡しなので、$stdout を直接渡してしまうと、その内容が変わってしまいます。それを防止するために30行目で $read に内容を複製し、関数に渡しています。
そのほか、stream_select関数の2番目、3番目の引数は、この形式で記述するのがルールだと思ってください。参照渡しであるため、単に null と書くとエラーが出ます。null以外を渡すことは、相当詳しくない限りはやめたほうが良いでしょう。
stream_selectの実質的な戻り値は、$readです。結果が戻ってきた子プロセスに対応するファイルポインタのみが格納され、そのほかは削除されます。これを31行目からスキャンし、結果を34行目で取得します。
図2のコードと同様、子プロセスの終了判定をもう少しちゃんとやる必要がありますが、ここでは省略し、結果が戻ったら、即座に36行目以降でファイルポインタを閉じています。22行目のたった1行で、36~39行目に対応するたくさんのファイルポインタが開かれてしまいます。閉じ忘れに注意です。
最初の図1のコードから、だいぶ複雑になりましたが、基本的な構造は変わっていません。特に最後の proc_open, stream_select, stream_get_contents の流れは、マルチタスクのコードをPHPで記述する際の定番ですから、覚えておいて損のないテクニックです。