オーストラリアで勉強してきたMLデザイナーの口語自由詩

主に、データ分析・機械学習・ベイズ・統計について自由に書く。

Chapter 2 ベイズ推定の復習 2.1〜2.3 - pythonで『StanとRでベイズ統計モデリング』

f:id:yukinagae:20181031083449p:plain

TL;DR

確率周りに関する基本事項についてカバーしている. 詳細に理解するには別途参考文献を参照した方が良い.

2.1 基本用語と記法

次のような内容が前提知識のようです. 基本的にはベイズ推定など確率周りの事柄を理解しておく必要がありそうです. あとは微分/積分をわかっていると捗りそう.

確率関連

  • 確率分布(probability distribution)
  • 確率質量関数(probability mass function: PMF
  • 確率密度関数(probability distribution function: PDF)
  • 同時分布(joint distribution)
  • 周辺化(marginalization)と周辺分布(marginal distribution)
  • 条件付き確率分布(conditional probability distribution)
  • 正規化

次の本がわかりやすい.

see: プログラミングのための確率統計

微分関連

微分を根本的に理解するには次の本がわかりやすい. あとは普通の数学の教科書を読めばよさそう.

see: 数学ガールの秘密ノート/微分を追いかけて see: 数学ガールの秘密ノート/積分を見つめて

線形台数関連

  • ベクトルと行列(の意味が簡単にわかること)

前述の プログラミングのための確率統計 と同じ著者のため良書っぽい.

see: プログラミングのための線形代数

2.2 伝統的な統計学の問題点

  • 検定の解釈が直感的でない
    • 人づてに聞いた噂では, 最近はp値を論文に含めただけでrejectされるらしい.
  • 信頼区間の解釈が直感的でない
  • 複雑なモデルにおいて信頼区間と予測区間の算出が難しい
    • 基本的には最尤推定などで点推定するしかない

2.3 尤度と最尤推定

尤度最尤推定 については次の書籍がわかりやすい.

see: データ解析のための統計モデリング入門

尤度(likelihood)

ある観測データとある確率分布との当てはまりの良さを示す指標が尤度(likelihood)と呼ばれる.

最尤推定(maximum likelihood estimation)

確率分布のパラメータがわからない際に, そのパラメータを増減させて尤度が最大となった点を推定パラメータとする方法.

対数尤度(log likelihood)

コンピュータで処理する時に都合がよいので対数化する.

  • 掛け算 -> 足し算
  • 小さい値 -> 扱いやすい大きさの値

最尤推定の問題点

  • 過学習しやすくなる
    • 既知のデータに過剰適合し, 未知のデータに対する予測能力(汎化性能)が低下する
  • 最尤推定の実際の計算が難しくなる
    • 局所最適化しやすい

参考資料