データ分析の基本的なやり方(続)

 

前回の記事で、データ分析の基本的なやり方として3つのステップを紹介しました。custle.hatenablog.com


その中の「比較」にて、何と比較するかを適切に設定することが重要であると述べました。今回はここをもう少し掘り下げてみようと思います。


前回の例では、ファストフードチェーンのA店の売上減少の要因を調べようとして、競合店の影響の有無を調べてみました。具体的には、競合店が近くに進出しているA店の競合店進出前後の客数の変動を、競合店がいないB店のそれと比べてみました。結果は同じ傾向だったので、売上減少は競合店の影響とは考えにくいというものでした。


今回、そこに新たにC店のデータも加えてみます。(C店もB店と同じく周りに競合店は進出していません)
 

競合店進出前 競合店進出後
A店 100人/日 80人/日
B店 100人/日 80人/日
C店 120人/日 120人/日

  
AとCを比べると、Aは客数が減少しているがCは客数が減少していません。AとCの違いは競合店の有無なので、客数の変動の違いもその影響のせいではないか?と考えられます。


このように、A店の比較にB店を選ぶかC店を選ぶかで結論が変わることがあります。
 

ただ、A店とB店は規模・客層ともほぼ同じだったのに対して、実はC店は立地が良く普段はA店やB店よりも客数が多いお店でした。すなわち、C店はA店と比較するに当たって、近くに競合店があるかないかだけでなく他にも違いがあったということです。そうなるとC店とA店の客数データに差があったとしても、それが競合店の有無によるものなのか、それとも他の違いによるものか特定できないため、実はC店はA店の比較の対象として適切でないことがわかります。
 

しかし実際のところ、データ分析においてA店とC店の比較のようなあまり適切でないもの同士を比較して分析してしまっているというケースはよく見かけます。何と比べるかによって結論をミスリードしてしまう恐れもあるので適切な比較対象を用意するのも分析の肝となります。


そもそも、今回はA店と比較するのに適切なお店として最初にB店を用意しましたが、実際のチェーン店であればたくさんのお店があると思われますので、A店はどのお店と比較すべきか、正しいお店を選ぶことはなかなか大変です。

 
このファストフードチェーンが全国展開しているところであれば、店舗数は数百から数千に及ぶこともあります。上記の表が3行ではなく、数百行あるいは数千行並んでいたら数字を確認するだけでも大変ではないでしょうか。


前回と今回の記事では、B店をA店と客層や規模がほぼ同じお店ということで、比較対象のお店として採用しましたが、はたして本当にベストな選択かというとその限りではありません。
 

ではどうすれば、正しい比較対象を選択できるようになるのでしょうか?

  競合店進出前 競合店進出後
A店 100人/日 80人/日
A’店 100人/日 90人/日

 

上記のA’店は、もし競合が進出していなかった場合のデータと考えて下さい。


もしこのA’店のデータがあれば、A店とは競合店の有無だけの違いなので競合の影響を適切に調べることが可能です。ただ実際は競合店は進出しているので、競合が進出しなかった場合のデータというものは存在しません。タイムマシンで過去に戻って状況を変えるなどできない限り、上記のようなA’店のデータを取得することはできません。

 
そのため、なるべく実データからA’店のデータに近い(比較対象として最もらしい)データを探してくるという方法をとります。そのような最もらしいデータを選ぶために、学術の世界では「因果推論」というものが使用されます。因果推論はググれば色々出てくると思いますが、おすすめの書籍は下記です。わかりやすい事例が多くてとっつきやすい内容です。


「原因と結果」の経済学―――データから真実を見抜く思考法

「原因と結果」の経済学―――データから真実を見抜く思考法



「因果推論」という言葉そのものはとっつきにくそうな言葉ですが、そもそもC店がA店の比較対象としてあまり最もらしくないのは、A店と異なる点が多いため「競合影響がある」という事象に限定して、客数との因果関係を示せないからです。


分析では、対照実験として「比べたいもの以外は全て同じ条件にして調べる」のが基本なのでこれが可能な状態で分析を行うのが望ましい形となります。

 

次で最後です(たぶん)
custle.hatenablog.com