2016/09/04
2020/05/14
正規分布の分かりやすいまとめ
正規分布(ガウス分布)に関するあらゆる特徴を、分かりやすくまとめました。
確率密度関数 | \(f(X) = \frac{1}{\sqrt{2πσ^2}}\exp{[-\frac{(x-μ)^2}{2σ^2}]}\) |
期待値(平均) | \(E(X)=μ\) |
分散 | \(V(X)=σ^2\) |
標準偏差 | \(SD(X)=σ\) |
積率母関数 | \({\mathrm{e}}^{\mu t+\frac{{\sigma}^{2}t^2}{2}}\) |
標準正規分布の密度関数 | \( f(X) = \frac{1}{\sqrt{2π}}e^{-\frac{x^2}{2}}\) |
目次
正規分布とは、どのようなものか?
正規分布とは統計・統計学を理解する上で一番大切な確率分布です。その名前(正規分布 normal distribution)からもわかる通り、”normal”な、「ありふれた」「通常の」確率分布です。名前の所以は、自然界や人間の行動・性質など様々な現象に対して、よく当てはまるところから来ています。そして、そのグラフは、下図のように左右対称な曲線になります。
正規分布はガウス分布と呼ばれることもしばしばあります。これは18世紀から19世紀に渡って活躍した数学者C.F.ガウスに由来します。ガウスは天文学の観測データの研究から測定誤差がある法則に従うことを導き出し、誤差理論を確立しました。これが正規分布の基礎となったと言われています。
正規分布の最も基本的な性質としては、以下に挙げるものがあります。
- 平均値と最頻値と中央値が一致する。
- 平均値を中心にして左右対称である。(直線\(x=μ\)に関して対称)
- \(x\)軸が漸近線である。
- 分散(標準偏差)が大きくなると、曲線の山は低くなり、左右に広がって平らになる。分散(標準偏差)が小さくなると、山は高くなり、よりとんがった形になる。
確率密度関数
一変量の確率変数\(X\)が、平均\(μ\)、分散\(σ^2\)の正規分布に従うとき、その確率密度関数は次の式です、
$$f(x) = \frac{1}{\sqrt{2πσ^2}}\exp{[-\frac{(x-μ)^2}{2σ^2}]}$$
この確率密度関数を全区間で、積分すると1になります。また正規分布が平均\(μ\),分散\(σ^2\)に従うことを省略して\(N(μ,σ^2)\)に従うと表記することもあります。この\(N\)は正規分布 normal distribution の頭文字から来ています。
正規分布の密度関数は「なぜこんなに長くて、複雑なんだ!」という人は、正規分布の密度関数を意味的に理解するを読んでいただけると、ある程度は理解が深まるかと思います。
標準正規分布
確率変数\(X\)が正規分布\(N(μ,σ^2)\)に従うとき、\(X\)の線形変換\(Z = \frac{X-μ}{σ}\)は\(N(0,1)\)に従います。この平均0、分散1の分布を標準正規分布と言います。また、\(Z\)の確率密度関数は次のようになります。
$$ f(z) = \frac{1}{\sqrt{2π}}e^{-\frac{z^2}{2}}$$
全ての正規分布はこの変換によって、標準正規分布に変換することができます。この変換を、正規分布の標準化といいます。標準化とその良さについて、詳しくは正規分布を標準化する方法と意味と例題と証明にまとめました。
また、標準正規分布に従う、確率変数\(Z\)に対して、確率 \(P(u≦Z≦∞)\)を\(P(u)\)としたとき、様々な\(u\)に対する確率をまとめたものが、標準正規分布表です。これについては、標準正規分布表(上側)の見方とエクセルでの作成にまとめてあります。
標本平均の分布は正規分布に従う
正規分布と標本平均には次のような関係があります。
母平均\(μ\)、母分散\(σ^2\)の母集団から大きさ\(n\)の標本を無作為に抽出するとき、標本平均\(\bar{X}\)は、\(n\)が大きい場合、\(N(μ,\frac{σ^2}{n})\)に近似的に従う。
正規分布は統計学を理解する上で、非常に大事な分布ですが、その大きな理由がこの特徴によるものです。この特徴を中心極限定理と言います。
抽出元の母集団の分布がどのような分布に従っていても、\(n\)が大きければ、その標本平均の分布は正規分布に従うのです。二項分布だろうと、ポアソン分布だろうと、指数分布だろうと、あるいは未知の分布だろうと、その標本平均の分布は正規分布に従います。(\(n → ∞\)ならば完全に従う)
さらに、もし母集団分布が正規分布であった場合、標本平均\(\bar{X}\)は\(n\)の大きさによらず、近似的にでもなく、正規分布\(N(μ,\frac{σ^2}{n})\)に従います。
中心極限定理と正規分布
正規分布が統計学において重要役割を果たすのは、中心極限定理のおかげです。中心極限定理についてもっと詳しい定義は、
平均\(\mu\)、分散\(\sigma^2\)をもつあらゆる分布からの無作為標本の標本平均\(X\)の分布はnが十分大きいとき以下の式が成立する。
積率母関数(モーメント母関数)
正規分布の積率母関数は以下のように導出されます。
$$\begin{eqnarray*}m_X(t)&=&E(\mathrm{e}^{tX})\\ &=&\displaystyle \int_{ – \infty }^{ \infty }\mathrm{e}^{tx}f(x)dx\\&=&{\mathrm{e}}^{\mu t+\frac{{\sigma}^{2}t^2}{2}}\end{eqnarray*}$$
そもそも積率母関数って何?→積率母関数とは?モーメントの求め方も解説
上式の積率母関数を使って正規分布の平均や分散の導出→積率母関数を用いた正規分布の平均・分散の導出
正規分布と標準偏差の関係
正規分布の標準偏差\(σ\)(シグマ)は、その分布を把握する上でよく使われる指標です。標準偏差については、標準偏差の意味と求め方でまとめたので、詳しい説明はそちらをご覧ください。
上図が正規分布のグラフと、標準偏差とその2倍、3倍\(σ,2σ,3σ\)の範囲を示したものです。
図からみてわかる通り、平均や分散、標準偏差の値とは関係なく、全ての正規分布のグラフは以下の性質を示します。
- 平均値±1σの範囲中に、全体の約68パーセント(偏差値で言うと40〜60)
- 平均値±2σ(場合によっては1.96σの値を使うこともあり。)の範囲中に、全体の約95パーセント(偏差値で言うと30〜70)
- 平均値±3σの中に、全体の約99.7パーセント(偏差値でいうと20~80)
この性質によって、模擬試験の平均点と標準偏差を求めることによって、「◯点〜△点までに何人の人がいるのか」、と言うようなこともわかります。そして実際、模擬試験では標準偏差を使って、計算される指標である「偏差値」を用いて、学力を測っています。→偏差値の意味、求め方、性質などのまとめ
また、\(-kσ〜kσ\)の区間のことを、「kσ(kシグマ)区間」と言います。この言い方は、業界によっては常識になっていて、「3シグマで◯◯を作れ」と上司に言われることもあるそうです。
身長は本当に正規分布に従うのか?
人の身長の分布はよく、正規分布に従う身近な例として挙げられます。
そこで、文部科学省が公開している17歳男子の身長データを用いて、身長の分布は本当に正規分布に従うのか検証しました。下図が17歳男子の身長の分布です。正規分布によく似てはいます。
このデータから、標本平均、標本分散、標本標準偏差を計算し、正規分布と比較してみました。すると以下の様な結果になりました。
・平均値・最頻値・中央値が一致する.
・平均値±3×標準偏差(153cm~188cm)に観測データが含まれる確率は99.69%.
という正規分布の性質に非常に近い値を観測することができました。
さらに詳しくは、【例】身長の分布は本当に正規分布に従うのか!?にまとめてあります。
密度関数からの期待値(平均)の導出
$$\begin{eqnarray*}E(X)&=&\displaystyle \int_{ – \infty }^{ \infty } xf(x) dx\\&=&\displaystyle \int_{ – \infty }^{ \infty } (x-\mu+\mu)f(x) dx\\ &=&\displaystyle \int_{ – \infty }^{ \infty } (x-\mu)\frac{1}{\sqrt{2πσ^2}}\exp{[-\frac{(x-μ)^2}{2σ^2}]}dx+\mu f(x) dx\\&=&μ\end{eqnarray*}$$
さらに詳しい説明→正規分布の平均・分散・標準偏差の導出(証明)
密度関数からの分散の導出(証明)
$$\begin{eqnarray*}E(X^2)&=&\displaystyle \int_{ – \infty }^{ \infty } x^2f(x) dx\\&=&\displaystyle \int_{ – \infty }^{ \infty }\{{(x-\mu)}^2+2\mu x-{\mu}^2\}\frac{1}{\sqrt{2\pi σ^2}}\mathrm{e}^{-\frac{{(x-\mu)}^2}{2σ^2}}dx\\&=&\displaystyle \int_{ – \infty }^{ \infty }{(x-\mu)}^2\frac{1}{\sqrt{2\pi σ^2}}\mathrm{e}^{-\frac{{(x-\mu)}^2}{2σ^2}}dx+{\mu}^2\\&=&σ^2\displaystyle \int_{ – \infty }^{ \infty }\frac{1}{\sqrt{2\pi }}\mathrm{e}^{-\frac{y^2}{2}}dy+{\mu }^2\\ &=&σ^2+\mu^2\\\\ V(X)&=&E(X^2)-{(E(X))}^{2}\\ &=&{\sigma}^{2} \end{eqnarray*}$$
さらに詳しい説明→正規分布の平均・分散・標準偏差の導出(証明)
その他の性質とその証明
性質1:正規分布の線形変換も正規分布
確率変数\(X\)が正規分布\(N(μ,σ^2)\)に従うとき、\(aX+b\)は正規分布\(N(aμ+b,a^2σ^2)\)に従う。
証明は正規分布の性質(再生性など)とその証明をご覧下さい。
性質2:再生性
確率変数\(X\)と\(Y\)が独立に正規分布\(N(μ_1,σ_1^2)\),\(N(μ_2,σ_2^2)\)にそれぞれ従うとき、\(X+Y\)も正規分布に従う。また、その分布は\(N(μ_1+μ_2,σ_1^2+σ_2^2)\)となる。この性質を正規分布の再生性という。
証明は正規分布の性質(再生性など)とその証明をご覧下さい。
【ベイズ統計】正規分布の事後分布の平均・分散
正規分布に従う母集団からデータを取ってくるとき、共役事前分布は正規分布となります(共役事前分布に関しての説明はこちら)。よって、事前分布を正規分布としたとき、事後分布は次のようなことが言えます。
母平均\(\mu\)、母分散\(\sigma^2\)に従う正規母集団から大きさ\(n\)の標本を抽出し、標本平均\(\overline{x}\)を得たとする。母平均\(\mu\)の事前分布として平均\(\eta\)、分散\(\tau^2\)の正規分布をとるとき、\(\mu\)の事後分布は
$$平均:\frac{n\tau^2\overline{x}+\sigma^2\eta}{n\tau^2+\sigma^2}=\frac{\frac{n}{\sigma^2}\overline{x}+\frac{1}{\tau^2}\eta}{\frac{n}{\sigma^2}+\frac{1}{\tau^2}}$$
$$分散:\frac{\tau^2\sigma^2}{n\tau^2+\sigma^2}=\frac{\frac{\sigma^2\tau^2}{n}}{\frac{\sigma^2}{n}+\tau^2}$$
の正規分布に従う
これの証明(導出)はこちら⇨ 正規分布の事後分布の平均と分散【ベイズ】
カイ二乗分布・t分布との関係
正規分布と非常に関連性が深く、正規分布によってつくられる標本分布にカイ\(χ^2\)二乗分布とt分布があります。これらの分布は、頻繁に登場するので、それぞれ別ページにまとめました。
独立な標準正規分布の二乗和で表されるのが、カイ二乗分布です。こちらは別ページで詳しくまとめました。
⇨カイ二乗分布のわかりやすいまとめ
正規分布の仮説検定・Rでのグラフ描画
【仮説検定】正規分布の母平均の仮説検定の手順(母分散既知,Z検定)
正規分布を用いた仮説検定にZ検定と呼ばれる手法があります。その方法についてまとめたページです。この方法は、標本の母集団が正規分布に従うと仮定した上で、母分散が既知の場合にのみ使えます。
ちなみに、母分散が未知の場合はt検定を使います。t検定はこちら→t検定とは?種類と手順を解説!
Rで正規分布のグラフを描く方法
R言語を使えば、ほとんどの確率分布のグラフが簡単に描けます。正規分布の描き方をこちらでまとめたので、ご参考にどうぞ。
Recommended