f:id:yukinagae:20181031083449p:plain

3.1 データ解析の前準備

このあたりのデータ前処理（Data Preparation）のプロセスは一般的なものなので特に深入りしない. データの分布を可視化して確認する点は機械学習のEDA（Exploratory Data Analysis）のプロセスでも重要とされているが, 多くの統計モデリングや確率的プログラミングの書籍やサイトでは特に可視化を重要視しているように思える.

データをとる前に
- 背景知識の収集（Domain Knowledge）
- 問題設定（Define Problem）
- 解析計画（Plan）
データをとった後で
- データの分布の確認（Visualisation）

個人的にはデータ解析のプロセスに関しては以下の本がわかりやすいと思う.

see: データ解析の実務プロセス入門

3.2 統計モデリングの手順

対象書籍内では複数のプログラミング言語が使用されているが, 本ブログでは一貫してPythonで実装・実行する想定.

解析の目的
データの分布の確認
メカニズムの想像
- イラストで考えをまとめる
モデル式の記述
- 数式に落とし込んでみる
Rでシミュレーション
Stanで実装
推定結果の解釈 + 図によるモデルのチェック

特に3と4のプロセスが統計モデリングでは重要らしい.

複雑なモデルだとMCMCが収束しないなどの問題が起こりやすいため, まずはシンプルなモデル式を使うこと.

追加プロセス

再現性のチェック
- データや事前分布を若干変えても推定結果が大きく変わらないか
- ソフトウェアやアルゴリズムを変えても推定結果が大きく変わらないか
- アルゴリズムの初期値を変えても推定結果が大きく変わらないか
- このあたりの書籍も参考になりそう
  - 再現可能性のすゝめ (Wonderful R 3)
データ解析のサイクル
- 新しいデータを取得しモデルを改良する等のサイクルを回していくことで予測性能を上げていく

参考資料

書籍: StanとRでベイズ統計モデリング (Wonderful R)
書籍: データ解析の実務プロセス入門
Spotfire: TIBCO Spotfire Data Visualization and Analytics Software | TIBCO Software
OpenRefine: openrefine.github.com
書籍: 再現可能性のすゝめ (Wonderful R 3)

オーストラリアで勉強してきたMLデザイナーの口語自由詩

主に、データ分析・機械学習・ベイズ・統計について自由に書く。

Chapter 3 統計モデリングをはじめる前に 3.1〜3.2 - pythonで『StanとRでベイズ統計モデリング』

3.1 データ解析の前準備

3.2 統計モデリングの手順

参考資料