オーストラリアで勉強してきたMLデザイナーの口語自由詩

主に、データ分析・機械学習・ベイズ・統計について自由に書く。

君は確率を本当に理解しているか?

もちろん理解しているはずがない。

わかっているようで、わからないことが世の中にはたくさんある。

特に数学や統計では日常生活とは異なる用語の使い方をしている可能性もあるので、一つひとつの言葉から理解していこう。

本当は常に書籍や適切なサイトを参照した方がいいが、面倒だしWikipediaで概ね合っていることも多いので、まずはWikipediaの定義を引用する。

確率(かくりつ、: probability)とは、偶然性を持つある現象について、その現象が起こることが期待される度合い、あるいは現れることが期待される割合のことをいう。確率そのものは偶然性を含まないひとつに定まった数値であり、発生の度合いを示す指標として使われる。 (Wikipedia - 確率 から引用)

ただ、今までにWikipediaの説明で何かを理解できた試しはない。日常生活で使わない漢字が多すぎる。抽象的で理解できる気がしないので、諦めて別の資料を見ることにする。

試しに Think Bayes の確率の定義を読んみよう。日本語版が有料だったので、仕方なく英語版を読む。

A probability is a number between 0 and 1 (including both) that represents a degree of belief in a fact or prediction. The value 1 represents certainty that a fact is true, or that a prediction will come true. The value 0 represents certainty that the fact is false. (p. 1 から引用。意図的に重要な箇所を太文字にした)

太文字部分をGoogle翻訳で訳す。

確率は、事実または予測の信憑度を表す0と1の間の数値です(両方を含む)。

日本語の方が難しく見えるので英語のままポイントをよい感じに整理してみる。

確率とは、

  • 0から1の数字である(0も1も含む)
  • 事実/予測の確からしさを表現している
  • 確率が1ならば、必ず起きる
  • 確率が0ならば、確実に起きない

まどろっこしいが一つひとつ整理してみよう。

  • 0から1の数字である(0も1も含む)

正確に書くとこう。

0.0 <= 確率 <= 1.0

当然、ここの数字とは実数(0.1とか)のことなので確率は具体的には以下のような数値になるはず。

0 とか 0.1 とか 0.2 とか 0.9 とか 1.0

0.12とかの細かいのもOK

もちろん 1/3 などの分数もOK

そうすると、「明日雨が降る確率は30%」という言い方は「明日雨が降る確率は0.3(=パーセントだと30%)」という方が定義としては正しいことになる(違和感があるが仕方ない)。

  • 確率が1ならば、必ず起きる(=100%起きる)
  • 確率が0ならば、確実に起きない(=100%起きない)

これはさすがにわかる。ボキャブラリー貧困で申し訳ない。

冗長だが、例を出してみる。例示は理解の試金石という名言もある(数学ガール 参照)。

  • 雨が降る確率が1ならば、明日は必ず雨が降る(=傘が必要)
  • 雨が降る確率が0.8ならば、明日はほぼ雨が降る(=傘はおそらく必要)
  • 雨が降る確率が0.1ならば、明日はほぼ雨が降らない(=傘はたぶん不要)
  • 雨が降る確率が0ならば、明日は必ず雨が降らない(=傘は不要)

ここまでは日常生活の範囲でわかる。

しかし、これはなんだろう?

  • 事実/予測の確からしさを表現している

明日雨が降る確率は予測なので、それはわかる。「明日雨が降るかどうか」というのは未来の話なので予測である。

しかし、事実の確からしさ、とはなんだろう?

事実というのを「現在起きている」か「過去に起きた」何らかの事象だとする。具体的な例で言い換えてみよう。

  • 今雨が降っている確率
  • 昨日雨が降った確率

日常生活では確率というと未来のことを示すが、ここで定義されている確率は現在と過去にも適用できるみたいだ。

一体、「今雨が降っている確率」「昨日雨が降った確率」とは具体的には何を表しているのだろうか。おそらく情報が制限されていることをイメージしてみればわかりやすそうだ。

例えば、あなたがどこかの場所に監禁されているとして、今雨が降っているか、昨日雨が降ったかわかるだろうか。窓も無いし、外部の音も聞こえない。(監禁が物騒すぎるなら、自分の意志で引きこもっていると読み替えてもよい)

そのような状態では何が事実かわからないので、

  • 今雨が降っている確率は0.5(=降っているかもしれないし、降っていないかもしれない)

と判断するしかない。

つまり、事実に関しても不確実性があるみたいだ。

世界は不確実性で満ちている。


確率だけで長くなってしまった(まだ1ページしか読んでいない)。

たぶん次は条件付き確率について考えるべきだろう。

参考資料

  • 書籍: Think Bayes - 日本語で読める(有料)
  • Website: Think Bayes - pdfもhtmlもあるけど英語(無料)