ベイズの定理でプロジェクトの失敗を予測

2008年10月22日(水)
坂田 祐司

ベイズの定理とは

 では、ベイズの定理について説明します。ベイズとは18世紀イギリスの牧師であり確率論研究家であったトーマス・ベイズ(Thomas Bayes)の名前であり、ベイズ統計学の始祖です。ベイズの定理を理解するために、条件付き確率という考え方を説明します。

 P(E)を「事象Eが起こる確率」という意味であるとした場合、条件付き確率はP(○|×)と記述されます。その定義は、P(○|×) = P(○?×)/P(×)であり、直感的にいえば「×が起きている場合の中で、○も起きている確率」、つまり「×の時に○が起こる確率」ということになります。「ベイズの定理」は、この条件付き確率を用いて下記のように表すことができます(_は添え字を表します)。

P(E_i|F) = {P(E_i)・P(F|E_i)}/{Σ_j=_1P(E_j)・P(F|E_j)}

 この式は、「Fである場合にE_iが起こる確率」は、「E_iが起こる確率」と「E_iが起こる時にFが起こる確率」から算出することができることを意味します。左辺と右辺で条件付き確率の条件で用いられる事象が入れ替わっている点に注意してください。ここで、E_iはFという結果に対する原因を表す事象を扱うこととしましょう。

 この場合、「ベイズの定理」は、「ある原因E_iが起こる確率」(事前確率と呼ぶと「原因E_iが起こる場合に結果Fが起こる確率」(原因に対する結果の確率)から「結果がFである場合に原因がE_iである確率」(原因の確率、事後確率と呼びます)を算出する公式であることになります。

 通常、興味の対象になるのは原因の確率ですが、これを直接計算することは困難です。ベイズの理論は事前確率と原因に対する結果の確率から原因の確率もしくは事後確率を算出する公式なのです。

 図2の問題を例にベイズの定理を説明しましょう。この問題では、3個の箱、箱1、箱2、箱3があり、その中に赤い玉と白い玉がそれぞれ3:1、1:1、1:2の割合で入っています。実験として、まず3つの箱からランダムに箱を指定します。そして、あなたはどの箱から取り出されたかは知らされずに玉の色のみを教えてもらえるとします。この際にあなたが「玉の色が赤である」と知った場合、その玉がどの箱から取り出されたものであるかの確率を求めます。

 ここで結果F「赤の玉が取り出される」は、原因E_i「箱_iから玉を取り出した」によっています。それぞれの箱に赤い玉が入っている確率から原因に対する結果の確率であるP(F|E_1)=3/4=0.75、P(F|E_2)=1/2=0.5、P(F|E_3)=1/3=0.33となることは明らかでしょう。また、玉の色を知らされる前、あなたはどの箱が指定されているか知りませんから、主観的にP(E_1)= P(E_2)=P(E_3)=1/3=0.33とおきます。これらの値からベイズの定理により、赤い玉が箱_iからのものである確率はそれぞれ以下のようになります。

P(E_1|F)=(1/3)(3/4)/{ (1/3)(3/4)+ (1/3)(1/2)+ (1/3)(1/3)}=9/19=0.47
P(E_2|F)=6/19=0.32
P(E_3|F)=4/19=0.21

 「玉の色が白である」と知った場合も同様の計算により箱_iが指定された確率を求めることができます。「赤の玉が取り出される」ことがわかった後で赤い玉の確率が多い箱1を指定した確率が高いと算出される点はわれわれの主観にあっているものです。

ベイズの定理の利点

 厳格な統計を用いた意思決定の手法で課題となっていた2点をベイズの定理はどのように扱っているか説明し、その利点を説明しましょう。

 1点目の厳格な統計では、定量的に明確な仮説が必要であり、客観的なデータのみが有効という点ですが、例でわかるように、明確な仮説を設定する必要はありません。例では、「玉は箱1、箱2、箱3かの指定されたどれかから取り出されている」という点を認めているだけであり、これは仮説ではなく前提といえるものです。

 また、最初にどの箱か全くわからない状態ではどの箱も一定の確率で指定されている可能性があるとしましたが、これ以外に当面考えられない場合、主観的な設定を容認しています。なお、これはベイズの定理における重要な前提であり「理由不十分の原則」といいます。この原則から客観的なデータだけではなく主観的な思いを用いることができるのです。

 2点目の意思決定の最中に得ることができるサンプルから徐々に仮説の精度を高めていくということができないという点です。この点は、例のように取り出した玉の色を知ることにより、どの箱が指定されていたかの確率の精度を上げている手順がまさにこの過程を表しています。

 1個の玉が赤であることがわかった時点でのそれぞれの箱が指定されている確率を事前確率として、さらに玉を取り、例えば続けて赤の玉が2個、3個と取り出された場合はさらに箱1を指定していた確率が高くなると算出されます。この結果は個人の直感にあうものです。

SI企業の研究所においてソフトウエア工学の研究に従事。試験やプログラムの解析技術に興味を持ち研究に従事。研究の一方、ソフトウエアのライフサイクル全般を考慮した開発方法のあるべき姿を探っている。http://d.hatena.ne.jp/ysakata

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています