第3章 条件付き確率 ~ある出来事が起こったという情報の下で~
3-3: ベイズの定理Bayes' Theorem ~原因の確率を求める~
前のページでは、条件付き確率 $P(B|A)$(Aが起こったという条件でBが起こる確率)の計算式と、それを使った乗法定理 $P(A \cap B) = P(A)P(B|A)$ を学んだね。
今回は、その条件付き確率をさらに一歩進めて、とっても有名でパワフルな「ベイズの定理Bayes' Theorem」というものを紹介するよ!これは、何かの「結果」を知ったときに、その「原因」が何であったかの確率を計算するのに役立つんだ。
例えば、「検査で陽性反応が出た(結果)」んだけど、「本当に病気(原因)なのかな?その確率は?」といった、日常でも気になるような疑問に答えることができるすごい定理なんだよ!
ベイズの定理とは?
ベイズの定理は、ある事象Bが起こったという情報(結果)を得たときに、考えられる原因の一つである事象Aが起こっている確率 $P(A|B)$ を計算するための定理だ。計算には、事前に知っている情報(事前確率など)を使うんだよ。
どうやって導くの?
条件付き確率の定義式を思い出そう。
- $P(A|B) = \frac{P(A \cap B)}{P(B)}$
- $P(B|A) = \frac{P(A \cap B)}{P(A)}$
(2)の式を変形すると、乗法定理 $P(A \cap B) = P(A)P(B|A)$ が得られたね。
この $P(A \cap B)$ を(1)の式の分子に代入してみよう!すると…
ベイズの定理(基本形)
$P(A|B) = \frac{P(A) P(B|A)}{P(B)}$
(ただし、$P(A)>0, P(B)>0$)
この式の各項には名前が付いているよ。
- $P(A|B)$:事後確率 (Posterior Probability)
- 結果Bが起こった後でわかる、原因Aの確率。私たちが求めたいもの。
- $P(A)$:事前確率 (Prior Probability)
- 結果Bを知る前に持っていた、原因Aの確率(もともとの確率)。
- $P(B|A)$:尤度(ゆうど) (Likelihood)
- 原因Aが真実だとした場合に、結果Bが観測される確率。モデルの当てはまりやすさを示す。
- $P(B)$:証拠 (Evidence) または 周辺尤度
- 結果Bが(どんな原因からであれ)観測される確率。確率の合計が1になるように調整する役割もある。
$P(B)$ の計算方法(全確率の法則)
分母の $P(B)$ は、ちょっと工夫して計算する必要がある場合が多いんだ。考えられる原因がいくつかあって(例えば $A_1, A_2, \dots, A_k$。これらは互いに排反で、全体を網羅するとする)、それぞれの原因のもとで結果Bが起こる確率が分かっている場合、
$P(B) = P(A_1)P(B|A_1) + P(A_2)P(B|A_2) + \dots + P(A_k)P(B|A_k)$
$P(B) = \sum_{i=1}^{k} P(A_i)P(B|A_i)$
として計算できる。これを「全確率の法則」と言うよ。すべての原因について、「その原因が起こる確率 $\times$ その原因の下で結果Bが起こる確率」を足し合わせるんだね。
ベイズの定理(拡張形)
全確率の法則を使って $P(B)$ を展開すると、ベイズの定理は次のようにも書ける。
$P(A_i|B) = \frac{P(A_i) P(B|A_i)}{\sum_{j=1}^{k} P(A_j) P(B|A_j)}$
特に、原因が「Aである」か「Aでない($A^c$)」かの2択の場合(これはよく使う形!)、
$P(A|B) = \frac{P(A)P(B|A)}{P(A)P(B|A) + P(A^c)P(B|A^c)}$
となるんだ。
具体的な例でベイズの定理を使ってみよう!
例題1:病気の検査と確率
ある病気Dについて、以下のことがわかっています。
- その病気に罹患している割合(事前確率): $P(D) = 0.01$ (1%)
$\implies$ 罹患していない確率: $P(D^c) = 1 - P(D) = 0.99$ (99%) - 罹患している人が検査を受けると陽性(+)になる確率(感度): $P(+|D) = 0.99$ (99%)
- 罹患していない人が検査を受けても陽性(+)になる確率(偽陽性率): $P(+|D^c) = 0.02$ (2%)
問題:ある人がこの検査を受けて陽性(+)だったとき、その人が本当に病気Dに罹患している確率 $P(D|+)$ はどれくらいでしょう?
考え方:
結果(陽性+)がわかった上で、原因(病気D)の確率を求めたいので、ベイズの定理を使う!
使うのはこの形: $P(D|+) = \frac{P(D)P(+|D)}{P(+)}$
分かっている値を整理すると:
- $P(D) = 0.01$
- $P(+|D) = 0.99$
- $P(D^c) = 0.99$
- $P(+|D^c) = 0.02$
まず、分母の $P(+)$ (検査で陽性になる確率)を計算する必要があるね。これは全確率の法則を使う。
$P(+) = P(\text{罹患していて陽性}) + P(\text{罹患していなくて陽性})$
$P(+) = P(D)P(+|D) + P(D^c)P(+|D^c)$
$P(+) = (0.01 \times 0.99) + (0.99 \times 0.02)$
$P(+) = 0.0099 + 0.0198 = 0.0297$
これで $P(+)$ がわかったので、ベイズの定理の式に戻ろう。
$P(D|+) = \frac{P(D)P(+|D)}{P(+)} = \frac{0.01 \times 0.99}{0.0297} = \frac{0.0099}{0.0297}$
計算すると…
$P(D|+) = \frac{99}{297} = \frac{1}{3} \approx 0.333$
答え: 約 $\frac{1}{3}$ (約33.3%)
結果の解釈:
検査で「陽性」という結果が出ても、本当に病気である確率は約33.3%しかない、ということだ!ちょっと意外じゃないかな?これは、もともとの病気の罹患率が非常に低い(1%)ことと、病気でない人でも間違う確率(偽陽性率2%)があるために起こるんだ。直感だけだと間違いやすいから、ベイズの定理が役立つ良い例だね。
人数ベースで考えてみよう(頻度解釈)
例えば、10000人の人がいるとしよう。
- 病気Dに罹患している人:$10000 \times 0.01 = 100$人
- 罹患していない人:$10000 \times 0.99 = 9900$人
この人たちが検査を受けると…
- 罹患している100人のうち陽性になる人:$100 \times 0.99 = 99$人
- 罹患していない9900人のうち陽性になる人:$9900 \times 0.02 = 198$人
検査で陽性になった人は合計で $99 + 198 = 297$人いることになる。
この陽性になった297人のうち、本当に病気Dに罹患しているのは99人だ。
だから、陽性だった場合に本当に病気である確率は、$\frac{99}{297} = \frac{1}{3}$ となる。ちゃんと計算結果と一致したね!
もう一つ例を見てみよう。より詳しい例は次のページで扱うよ!
→ ベイズの定理の例題(スパムフィルターなど)へベイズの定理の意義
ベイズの定理は、単に計算式というだけでなく、私たちが新しい情報(データ、観測結果)を得たときに、それまでの考え(事前確率)をどのように更新していくか、というプロセスを数学的に表したものと見ることができるんだ。
最初に持っていた予想(事前確率)が、新しい証拠(データ)によって、より確からしい予想(事後確率)へと変化していく。この「学習」や「推論」のプロセスが、ベイズの定理の根底にある考え方なんだ。
そのため、ベイズの定理(やベイジアン統計という考え方)は、
- 迷惑メールフィルター
- 医療診断の補助
- 人工知能・機械学習
- 金融市場の予測
- 科学実験の結果の解釈
など、本当に幅広い分野で使われている、とてもパワフルな道具なんだよ。
このページで出てきたEnglish wordsとその仲間たち
英単語 (English) | 意味 (Meaning) | 例文 (Example Sentence) | 例文の読み上げ | 例文の日本語訳 |
---|---|---|---|---|
Bayes' Theorem | ベイズの定理 | Bayes' theorem describes the probability of an event based on prior knowledge of conditions related to the event. | ▶ 再生 | ベイズの定理は、事象に関連する条件の事前知識に基づいて、その事象の確率を記述します。 |
Prior Probability | 事前確率 | The prior probability represents our belief before observing the data. | ▶ 再生 | 事前確率は、データを観測する前の私たちの信念を表します。 |
Posterior Probability | 事後確率 | The posterior probability is the updated probability after considering the evidence. | ▶ 再生 | 事後確率は、証拠を考慮した後の更新された確率です。 |
Likelihood | 尤度(ゆうど) | The likelihood $P(B|A)$ measures how likely the evidence B is if the hypothesis A is true. | ▶ 再生 | 尤度 $P(B|A)$ は、仮説Aが真である場合に証拠Bがどれほどありそうか(尤もらしいか)を測定します。 |
Evidence | 証拠、根拠($P(B)$ に相当) | The denominator $P(B)$ in Bayes' theorem is often called the evidence. | ▶ 再生 | ベイズの定理における分母 $P(B)$ は、しばしば証拠と呼ばれます。 |
Update (belief) | (信念などを)更新する | Bayes' theorem provides a way to update our beliefs. | ▶ 再生 | ベイズの定理は私たちの信念を更新する方法を提供します。 |
Sensitivity | 感度(真陽性率) | The sensitivity of a medical test is its ability to correctly identify those with the disease (True Positive Rate). | ▶ 再生 | 医療検査の感度とは、病気を持つ人を正しく特定する能力(真陽性率)のことです。 |
False Positive | 偽陽性 | A false positive occurs when the test incorrectly indicates the presence of a condition. | ▶ 再生 | 偽陽性は、検査がある状態の存在を誤って示した場合に発生します。 |