コラム

コラム内を

2017年04月07日
No.10000085

社会人のためのデータ分析入門 第2回
データの「分布」確認はなぜ必要なのか?

前回、「集計したデータを言い表す代表的な値には平均値、中央値、最頻値があるが、ひとつの値だけを確認しても不十分であり、ヒストグラムを作って分布状態を確かめる必要がある」ということを説明しました。仮に、2つのグループを集計し、平均値も中央値も同じだったとしても、分布が全く異なっていることがあるからです。
 
では、その分布を無視すると、どんな困ったことがあるのか。それをご説明しましょう。
今から10年前。ある企業の製品がA国の中間層(年間世帯収入400~600万円)に支持されて市場参入に成功していたとします。新たにB国の市場に参入しようと考え、B国の国民の年間の世帯収入を調査したところ、B国の世帯収入の平均値も中央値も、すでに市場参入が成功しているA国の値と同じでした。そこで、「A国で当社の製品を買ってくれている顧客と同様の客層に対して、同様のチャネル、同様の商品価格、同様のプロモーションで参入できるだろう」と考えました。



しかし、実は、B国の収入階級ごとの人口分布は図のように、A国とはまったく異なるものでした。このことを知らずにB国に参入した結果、どんなことが起こったでしょうか?
分布を見てお分かりのように、A国では中間層は大きなボリュームですが、B国には中間層が非常に少なくとても小さな市場です(貧富の差が激しい国ではこのような分布になります)。B国に投入した商品は、低所得層には高すぎて手が出ないもので、富裕層には安っぽいものに映る可能性があります。
ヒストグラムが、峰が1つの山型(単峰性)でない場合、この集計の中には異質なグループがあると推測できます。先のB国の例でいえば、高収入層と低収入層です。

例えば、パチンコ・パチスロユーザーの「1カ月の遊技予算」を調べても、きれいな単峰性の山型にはなりません(下左図)。回答者の中には、4円貸ユーザーと低玉貸ユーザーという、消費金額という面で異質なグループが混在しているからです。



実際に、大手パチンコポータルサイト上でパチンコ・パチスロユーザーの遊技実態調査を実施したところ、全体の平均は4万3034円でした(2014年に実施)。パチンコ「のみ」を遊技するユーザーの中で、4円貸のMAXタイプをメインで遊ぶユーザーと低貸をメインで遊ぶユーザーの1カ月の遊技予算(負け許容額)を調べると、平均額はそれぞれ5万6932円、2万7676円と大きな開きがありました。
(田中剛 ・ 編集部)