2013年以前のブックレビューも随時追加中

データ分析の力 因果関係に迫る思考法 伊藤 公一朗(光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

 

1.因果関係である事の確認方法(相関関係との違い)
(1)例:広告を打つと売上が伸びる(相関関係があるが、因果関係となっているかどうか確認が必要)
(2)3つの確認ポイント
 ①X(広告を打ったこと)がY(売上)にどんな影響を与えたか
 ②Y(売上が伸びたこと)がX(広告)にどんな影響を与えたか
 ③V(他の要因)がX(広告)とY(売上)にどんな影響を与えたか
(3)相関関係であるが因果関係とはなっていない事の確認方法
 例:電気をつけたまま子供を寝かせる(X)と近視(Y)になる
 ①X(電気をつけたまま子供を寝かせること)はY(近視)に影響与えていない
 ②Y(近視になること)がX(電気をつけたまま子供を寝かせること)にも影響を与えていない
 ③実は、V(親が近視であること)がX(親が近視なので電気をつけたまま子供を寝かせがち)とY(親からの遺伝で子供も近視が多い)共に影響を与えていた
 →今回の例では見つかったが、V(他の要因)を全て確認する事は、実際は難しい

2.RCT(Randomized Controlled Trial:ランダム化比較試験)
(1)因果関係を明らかにするデータ分析
 例:電力価格を上げると節電につながるか?
(2)介入効果
 例:2012年夏に電力価格を上げなかった時のAさんの消費量ー電力価格を上げた時の消費量(この差が介入効果)
 ①問題は、データを同時観測できないこと(2012年夏に価格を上げる/上げない何れかしかAさんは決定できない)
 ②医療分野(薬を投与する/しない)、広告(広告を打つ/打たない)も同じ
(3)介入グループと比較グループ
 ①介入したグループと介入しないグループ(=比較グループ)で統計を取り因果関係を見つける
  1個人では介入した時しか確認できないため
 ②介入グループと比較グループ何れも介入する前の平均消費量が同じである事がポイント
  ランダムに数多く振り分けること

2.RDデザイン(Regression Discontinuity Design:回帰不連続設計)
(1)境界線(での変化)をうまく使うデータ分析
 例:医療サービス自己負担が3割から1割に減少する70歳を境界として、外来患者が約10%上昇
(2)境界(70歳)を超えたとたん、傾向が不連続(外来患者が急に10%上昇)となっている
(3)対象主体(年齢)の詐称はできない事、かつ他の条件(就業率、収入など)で70歳を境に不連続な影響を与えていないかどうかの確認が必要

3.集積分析(Bunching Analysis)
(1)階段状の変化をうまく利用するデータ分析
 例:所得税率など、ある幅(年収300万まで10%、700万まで20%など)を持ってインセンティブが決まるもの
(2)RDデザインと違い、インセンティブにより対象主体(収入)自体がどう不連続に変化するかを分析する事が目的
例:年収300〜700万未満までを税率10%とすると、700万を越えないギリギリの地点での対象者の集積が発生

4.実践編
(1)消費税の税込価格を表示させると、税抜価格だけの場合より売上が平均8%下がる<スタンフォード大学と大手スーパーマーケットとのRCT>
 ちなみにこの時の消費税率もほぼ8%
(2)価格据え置き(1.0倍)で利用量がほぼ1億円だったものを価格1.5倍にすると、利用量が0.8億円となる<シカゴ大学とウーバーとのRCT>