オーストラリアで勉強してきたMLデザイナーの口語自由詩

主に、データ分析・機械学習・ベイズ・統計について自由に書く。

Chapter 3 統計モデリングをはじめる前に 3.3〜3.5 - pythonで『StanとRでベイズ統計モデリング』

f:id:yukinagae:20181031083449p:plain

3.3 背景知識の役割

背景知識を活用することで内部構造がブラックボックスな問題(逆問題: inverse problem)を解く手がかりとなる. 逆問題の回答は何通りもあり得, 答えが一意に定まらない問題は不良設定問題(ill-posed problem)と呼ぶ.

データを活用して解きたいビジネス問題の多くはこのようにメカニズムが不明なものが多いように思える. 例えば, 金融業界における株価の上下や広告のクリック率の増減など.

統計モデリングでは背景知識にもとづいた仮定をモデル式(数式)として表現し, 逆問題を解く手がかりとする. 真のモデル(正解)はわかりえないため仮定したモデルが「正しい」かではなく, そのモデルが

  • 解釈しやすいのか(複雑すぎず理解しやすいのか等)
  • 納得しやすいのか(背景知識と整合性が取れているのか等)
  • 予測がよいのか(未知のデータに対して予測がよいのか等)

という観点が重要.

3.4 モデルの記述方法

モデル式 は以下のような変数の式で表される.

Y[μ] ~ Normal(μ, 1) n = 1,…,20

Y[μ]は平均がμで標準偏差が1の正規分布から確率的に生成されたことを表す.

3.5 情報量基準使ったモデル選択

情報量基準 という指標を用いてモデルの評価をすることができる. 主に以下の4つが挙げられている. しかし, 本書の中ではこの指標を過信しないように敢えて情報量基準について触れない(らしい).

  • 予測のよさを表す
  • 真のモデルへの近さを表す

情報量基準については別途資料を参照したほうがよさそう.

特に以下の本を読む必要がありそう.

see: ベイズ統計の理論と方法

TODO

  • [ ] グラフィカルモデルについて別途説明

参考資料