Chapter 3 統計モデリングをはじめる前に 3.1〜3.2 - pythonで『StanとRでベイズ統計モデリング』
3.1 データ解析の前準備
このあたりのデータ前処理(Data Preparation)のプロセスは一般的なものなので特に深入りしない. データの分布を可視化して確認する点は機械学習のEDA(Exploratory Data Analysis)のプロセスでも重要とされているが, 多くの統計モデリングや確率的プログラミングの書籍やサイトでは特に可視化を重要視しているように思える.
- データをとる前に
- 背景知識の収集(Domain Knowledge)
- 問題設定(Define Problem)
- 解析計画(Plan)
- データをとった後で
- データの分布の確認(Visualisation)
個人的にはデータ解析のプロセスに関しては以下の本がわかりやすいと思う.
see: データ解析の実務プロセス入門
3.2 統計モデリングの手順
対象書籍内では複数のプログラミング言語が使用されているが, 本ブログでは一貫してPythonで実装・実行する想定.
- 解析の目的
- データの分布の確認
- メカニズムの想像
- イラストで考えをまとめる
- モデル式の記述
- 数式に落とし込んでみる
- Rでシミュレーション
- Stanで実装
- 推定結果の解釈 + 図によるモデルのチェック
特に3と4のプロセスが統計モデリングでは重要らしい.
複雑なモデルだとMCMCが収束しないなどの問題が起こりやすいため, まずはシンプルなモデル式を使うこと.
追加プロセス
- 再現性のチェック
- データ解析のサイクル
- 新しいデータを取得しモデルを改良する等のサイクルを回していくことで予測性能を上げていく