2016/09/07
2020/04/14
【例】身長の分布は本当に正規分布に従うのか!?
正規分布に従う例として、身長がよく取り上げられます。果たして本当にそうなのか、文部科学省が公開している身長データをもとに検証してみました。また、正規分布に従うとした場合に、どんな便利なことがあるのでしょうか。
(正規分布についてさらに詳しく知りたい方はこちらをご覧ください。)
17歳男子の身長の分布
下図は文部科学省が公開している17歳男子610,122人の身長別の人数をグラフで表したものです。
グラフより、最頻値は170cm、中央値が169cmであることが分かります。また、計算すると以下のことが分かります。
合計標本人数 | 610,122人 |
最頻値 | 170cm |
平均値 | 170.6931cm |
分散 | 33.735 |
標準偏差 | 5.802 |
身長が(平均±標準偏差)である人数(165cm~176cm) | 426,207人 |
身長が(平均±標準偏差)である人の割合 | 69.87% |
身長が(平均±標準偏差×3)である人数(153cm~188cm) | 608,231人 |
身長が(平均±標準偏差×3)である人の割合(153cm~188cm) | 99.69% |
グラフと表より、正規分布の
・平均値・最頻値・中央値が一致する
・平均値±標準偏差中に観測データが含まれる確率は68.3%
この2つの性質と非常に近い値を観測することができました。つまり、この身長のデータは正規分布に、ほぼ従ってることが分かりました!!
また、17歳男子の身長の集まりをXとし、平均が170.7,標準偏差が5.8の正規分布に完全に従っているとすると、Xを\(X~N(170.7,5.8^2\))と書き表すことができます。
身長の分布が正規分布に従う理由
身長の分布が正規分布にほぼ従う、ということが分かりましたが、その理由は何なのでしょうか。結論から申し上げますと、理由はありません。身長の分布を実際に観測した結果、正規分布にほぼ従うということが分かっただけです。半ば強引にもっともらしい説明をすることは出来ますが、明確な理論づけは出来ないのです。
身長が正規分布に従うと何が便利なの!?
正規分布に従うことが分かると、便利になる例を以下の例題を用いて説明していきます。
17歳男子の身長が平均170.7cm、標準偏差5.8の正規分布に従うことが分かっている。では、身長180cm以上の17歳男子はおおよそどれくらいの割合を占めるか?
この例題、180cmの人数+181cmの人数+182cmの人数、、、と地道に足し合わせた上で、全体の人数で割るという方法をとるのは、めんどくさいですよね。
しかし、17歳の男子の身長が正規分布に従っていることがわかっていると、180cmの人が何人か181cmの人が何人か、と調べなくても、身長が180cm以上ある人の割合を求めることができます。
では、身長180cm以上の人が何人いるのか、実際に出してみましょう。
身長180cm以上の17歳男子は全体の何%か?
前提条件として、身長の平均を170.7、標準偏差を5.8に固定します。ここで、身長の確率変数\(X\)を標準化すると、
$$ Z = \frac{X-170.7}{5.8} $$
となります。
ここで\(X=180\)とすると、
$$ Z = \frac{180-170.7}{5.8} = 1.603 $$
となるので、標準正規分布表の1.60の部分を見てあげます。すると、0.05480と分かるので、17歳男子の180cm以上の人は全体の5.480%ということが分かります。
ここで使った、正規分布の標準化についての詳しい説明は、正規分布を標準化する方法と意味と例題と証明に掲載しておりますので、興味のある方は是非目を通してみてください。また、正規分布の性質についてはこちらに詳しく記述しております。
身長の偏差値(男性、女性)
身長が正規分布に従うとすると、偏差値を計算することが出来ます。テストの得点のように、身長は高ければ良いというわけでもありませんが、高ければ良いとして偏差値を男女別に表にまとめてみました。
まずは、男性です。
身長 | 偏差値 |
---|---|
160 | 31.56997587 |
163 | 36.74060669 |
168 | 45.35832472 |
170 | 48.80541193 |
173 | 53.97604274 |
176 | 59.14667356 |
178 | 62.59376077 |
180 | 66.04084798 |
184 | 72.93502241 |
190 | 83.27628404 |
女性はデータは取っていませんが、平均を157.9cm、標準偏差5.802とした場合の身長偏差値は下の表になります。
身長 | 偏差値 |
---|---|
145 | 27.76628749 |
150 | 36.38400552 |
154 | 43.27817994 |
158 | 50.17235436 |
162 | 57.06652878 |
165 | 62.2371596 |
168 | 67.40779042 |
170 | 70.85487763 |
175 | 79.47259566 |
178 | 84.64322647 |
ちなみに偏差値の計算は次式です。
$$偏差値=\frac{(得点ー平均点)}{\ \ \ \ \ \ \ \ 標準偏差\ \ \ \ \ \ \ \ \ \ \ \ } ×10+50$$
偏差値について詳しくは、偏差値の意味、求め方、性質などのまとめで丁寧に解説致しました。
以上、身長がほぼ正規分布に従うという検証結果と、それによって便利なことでした。
COMMENT
その他1件のコメントを表示する
-
Take 2016.12.6 2:20 PM
同じ分布から標本が採られているという仮定の下でしたら大数の法則
から正規近似が言えたような気がしたのですがどうなのでしょうか。 -
IMIN 2016.12.7 10:06 AM
コメントありがとうございます。
結論から言うと、大数の法則から正規分布近似を言うことは出来ません。大数の法則は、大雑把に言うと、
・標本が大きいとき、標本の平均は、真の平均(母平均)に収束する。
といったようなものです。よって、身長が正規分布に従うことを大数の法則で言うことは出来ません。人の身長が正規分布に従うことは、観測の結果得られたのものであり、明確な理由が分かってはいません。観測の結果正規分布に従うことが分かり、その仮定のもとで色々なことがわかると言うことです。
ちなみに、例えば体重の分布は、正規分布ではなく、ガンマ分布に従うことが分かっています。補足ですが、中心極限定理を使えば、
・同一の分布(どんな分布でも)から取ってきた複数の標本の標本平均の分布が正規分布に従う
ことが言えます。 -
Take 2016.12.13 2:00 PM
分布は中心極限定理からでしたね、ありがとうございます。
-
あ 2018.4.13 4:03 PM
正規分布の1.63の分布を読んでいるため間違っていると思います。5.155%でなくて5.48%ですよね。
-
IMIN 2018.4.13 5:01 PM
ご指摘ありがとうございます。
その通りでした。訂正させていただきました。
Take 2016.12.6 2:20 PM
同じ分布から標本が採られているという仮定の下でしたら大数の法則
から正規近似が言えたような気がしたのですがどうなのでしょうか。
IMIN 2016.12.7 10:06 AM
コメントありがとうございます。
結論から言うと、大数の法則から正規分布近似を言うことは出来ません。大数の法則は、大雑把に言うと、
・標本が大きいとき、標本の平均は、真の平均(母平均)に収束する。
といったようなものです。
よって、身長が正規分布に従うことを大数の法則で言うことは出来ません。人の身長が正規分布に従うことは、観測の結果得られたのものであり、明確な理由が分かってはいません。観測の結果正規分布に従うことが分かり、その仮定のもとで色々なことがわかると言うことです。
ちなみに、例えば体重の分布は、正規分布ではなく、ガンマ分布に従うことが分かっています。
補足ですが、中心極限定理を使えば、
・同一の分布(どんな分布でも)から取ってきた複数の標本の標本平均の分布が正規分布に従う
ことが言えます。
Take 2016.12.13 2:00 PM
分布は中心極限定理からでしたね、ありがとうございます。
あ 2018.4.13 4:03 PM
正規分布の1.63の分布を読んでいるため間違っていると思います。5.155%でなくて5.48%ですよね。