コラム

コラム内を

2017年04月17日
No.10000102

社会人のためのデータ分析入門 第3回
データのバラツキを表す指標「標準偏差」

2つのヒストグラムがともに1つの山型でも、その形状は、鋭い山型の場合もあれば、なだらかな山型の場合もあります。
仮に下の図を「ある国の10年前の年間の世帯収入の分布」と「現在の世帯収入の分布」だとします。平均値も中央値も最頻値も同じで、ともに単峰性の山型です。違うのは、この10年間で山の高さが低くなり、左右の裾野が厚みを帯びたこと。これは中間層が減って低所得層と高所得層が増えた状態で、貧富の差の拡大を意味します。


ヒストグラムの形状の違いは、データが平均値の近くに集中しているか、散らばっているかです。なだらかな山型は、平均値から離れたデータが多い状態です。データの散らばりの程度は「分散」や「標準偏差」という数値で表せます。よく使われる指標は標準偏差で、分散の平方根です。
この例の場合、10年前の標準偏差は212・5万円、現在の標準偏差は259・3万円に拡大しています。標準偏差の値を比較することで、ヒストグラムを見なくても「現在のほうがデータのバラツキが大きい」と分かります。

大手パチンコポータルサイト上でパチンコ・パチスロユーザーの遊技実態調査を実施し、1万円刻み(標準級間隔=1万円)で集計したところ、1カ月の遊技予算の最頻値は「2万円以上~3万円満」、中央値は「3万円以上~4万円未満」、平均値は4万3033円(※「10万円以上」の回答を10万円として計算)と、すべて異なりました。標準偏差を計算すると2万7246円なので、この指標を加えると、「遊技予算の平均値は4万3033円で、1万5787円から7万279円の中に半数以上の人が収まっている」と表現できます。


すると、「1万5千円から7万円とはかなり幅がある。ひとくちにパチンコ・パチスロユーザーといっても、遊技予算にはかなり多様性があるようだ」と分かります。これは要注意ですので、ヒストグラムを確認する必要があります。
ヒストグラムを描くと、少数の高額予算ユーザーによって平均値が上に引っ張られていること、1万5787円から7万279円の中に7割くらいの人が収まっていることなどが分かります。
要するに、パチンコ・パチスロユーザー(正確に言えばこのポータルサイト訪問者)をひと括りにして、1カ月の予算(負け許容額)を見ても、一般的なユーザー像はつかめないということです。
回答者の中から「ある種の人」を抽出すれば、多様性は少なくなる(データのバラツキが少なくなる)はずですので、確かめてみます。

「配偶者あり・子あり」のユーザーの予算分布は全体と見比べると、左側(少ない金額)に寄っています。最頻値は総計と同じ「2万円以上~3万円未満」ですが、山の峰が高くなっています(山の形が鋭くなっている)。中央値も「2万円以上~3万円未満」です。平均値は3万3215円で、3つの代表値が近づきました。標準偏差は2万3173円ですので、先ほどより狭くなりました。
ヒストグラムを見ると、「配偶者あり・子どもありのユーザーの予算の平均値は3万3215円で、1万42円から5万6388円の中に8割近い人が収まっている」ことが分かります。全体の集計よりも、代表的な回答者のイメージが見えてきたのではないでしょうか。
(編集部 ・田中剛 )