コラム

コラム内を

2017年04月26日
No.10000122

社会人のためのデータ分析入門 第4回
2変数の類似度合を表す「相関係数」①

企業、店舗、都市、人、製品などを比較しようとするとき、様々な角度から調べると、得られたデータ(変数)の中には、類似した傾向を示すものがあります。例えば、小学生の身体測定をすると、身長が高い子は体重が重い、身長が低い子は体重が軽いという傾向が見えます。この2つの観測値(変数)の関係のように、かなりの程度の規則性をもって、値(変量)が同時に変化していく性質を「相関」といいます。

実際に2つのデータ(変数)の関係性を調べるときに使われるのが「散布図」で、相関の強さ(類似性の度合い)を示す統計学的指標が「相関係数」です。
都市によってファストフード店の数には違いがあるかを調べてみます。人口規模が異なる都市どうしを同じ土俵で比較できるよう、人口当たりの店舗数を計算します。ここでは2015年4月時点のマクドナルドの店舗数を使います。当時、マクドナルド店舗数は3000軒でした。

人口10万人当たりのマクドナルド店舗数が多いのは、京都、沖縄、東京、奈良、滋賀の順で、少ないのは岩手、秋田、島根、高知、鹿児島。おそらく、何らかの出店基準に従った結果でしょう。上位にある首都圏や近畿圏は人口密度が高そうです。マクドナルドは広域から集客する業態ではなく、出店基準には人口密度という基準もあることがうかがえます。
もうひとつ、一見するとマクドナルドとは全く関係なさそうな、フェイスブックのユーザー数(同様に人口100人当たりに計算)のデータを眺めてみます。ユーザー数が多いのは、東京、神奈川、京都、大阪、沖縄。少ないのは、秋田、山口、青森、岩手、山形。マクドナルド店舗数の上位、下位にも登場した都県が見られます。

今、各都道府県は、人口当たりのマクドナルド店舗数とフェイスブックユーザー数という2つのデータ(変数)を持っています。それぞれの値(変量)を、横軸、縦軸にとって平面上にプロットしたものが散布図です。散らばりはまったくランダムというよりも、なんとなく右上がりの楕円の中に収まるように見えるのではないでしょうか。一見関係なさそうな、マクドナルド店舗数とフェイスブックユーザー数という2つの変数には相関がありそうです。


相関の程度を示す相関係数は、1からマイナス1の範囲の値をとり、1に近いときは2つの変数には「正の相関がある」といい、マイナス1 に近ければ「負の相関がある」といいます。0に近いときは相関は非常に弱い。このケースでは相関係数は0・6067で、「強い正の相関がある」と言われているレベルです。

(田中剛・アミューズメントジャパン編集部)

=========
社会人のためのデータ分析入門 第3回(2017/04/17)
データのバラツキを表す指標「標準偏差」

社会人のためのデータ分析入門 第2回(2017/04/07)
データの「分布」確認はなぜ必要なのか?

社会人のためのデータ分析入門 第1回(2017/03/19)
集計データを代表する平均値・中央値・最頻値

[KEY]データ分析 統計 パチンコ カジノ マーケティング リサーチ