データ分析の力 因果関係に迫る思考法 伊藤 公一朗(光文社新書)
1.因果関係である事の確認方法(相関関係との違い)
(1)例:広告を打つと売上が伸びる(相関関係があるが、因果関係となっているかどうか確認が必要)
(2)3つの確認ポイント
①X(広告を打ったこと)がY(売上)にどんな影響を与えたか
②Y(売上が伸びたこと)がX(広告)にどんな影響を与えたか
③V(他の要因)がX(広告)とY(売上)にどんな影響を与えたか
(3)相関関係であるが因果関係とはなっていない事の確認方法
例:電気をつけたまま子供を寝かせる(X)と近視(Y)になる
①X(電気をつけたまま子供を寝かせること)はY(近視)に影響与えていない
②Y(近視になること)がX(電気をつけたまま子供を寝かせること)にも影響を与えていない
③実は、V(親が近視であること)がX(親が近視なので電気をつけたまま子供を寝かせがち)とY(親からの遺伝で子供も近視が多い)共に影響を与えていた
→今回の例では見つかったが、V(他の要因)を全て確認する事は、実際は難しい
2.RCT(Randomized Controlled Trial:ランダム化比較試験)
(1)因果関係を明らかにするデータ分析
例:電力価格を上げると節電につながるか?
(2)介入効果
例:2012年夏に電力価格を上げなかった時のAさんの消費量ー電力価格を上げた時の消費量(この差が介入効果)
①問題は、データを同時観測できないこと(2012年夏に価格を上げる/上げない何れかしかAさんは決定できない)
②医療分野(薬を投与する/しない)、広告(広告を打つ/打たない)も同じ
(3)介入グループと比較グループ
①介入したグループと介入しないグループ(=比較グループ)で統計を取り因果関係を見つける
1個人では介入した時しか確認できないため
②介入グループと比較グループ何れも介入する前の平均消費量が同じである事がポイント
ランダムに数多く振り分けること
2.RDデザイン(Regression Discontinuity Design:回帰不連続設計)
(1)境界線(での変化)をうまく使うデータ分析
例:医療サービス自己負担が3割から1割に減少する70歳を境界として、外来患者が約10%上昇
(2)境界(70歳)を超えたとたん、傾向が不連続(外来患者が急に10%上昇)となっている
(3)対象主体(年齢)の詐称はできない事、かつ他の条件(就業率、収入など)で70歳を境に不連続な影響を与えていないかどうかの確認が必要
3.集積分析(Bunching Analysis)
(1)階段状の変化をうまく利用するデータ分析
例:所得税率など、ある幅(年収300万まで10%、700万まで20%など)を持ってインセンティブが決まるもの
(2)RDデザインと違い、インセンティブにより対象主体(収入)自体がどう不連続に変化するかを分析する事が目的
例:年収300〜700万未満までを税率10%とすると、700万を越えないギリギリの地点での対象者の集積が発生
4.実践編
(1)消費税の税込価格を表示させると、税抜価格だけの場合より売上が平均8%下がる<スタンフォード大学と大手スーパーマーケットとのRCT>
ちなみにこの時の消費税率もほぼ8%
(2)価格据え置き(1.0倍)で利用量がほぼ1億円だったものを価格1.5倍にすると、利用量が0.8億円となる<シカゴ大学とウーバーとのRCT>