2016/08/15
2020/05/14
統計学における分散とは?不偏分散との違いも! 例題でわかりやすく解説
統計学・データを理解することにおいて、平均に続いて分散は非常に重要な概念です。
ここでは「分散」という概念について詳しく解説した後、分散から派生した考え方である「不偏分散」についても、意味と定義、求め方をわかりやすく解説していきます。
分散(variance)の意味
統計学において、分散とは数値データのばらつき具合を表すための指標です。ある一つの群の数値データにおいて、平均値と個々のデータの差の2乗の平均を求めることによって計算されます。こうすることによって、平均値から離れた値をとるデータが多ければ多いほど、分散が大きくなります。また、分散を文字式で表す際、 \(s^2\) や \(σ^2\) を使うことが多いです。(\(s^2\)は標本分散。\(σ^2\)は母分散を表すことが多い。)
例えば、100点満点のテストにおいて、下図のように平均点から離れた点数の人が多いと分散は大きく、平均点付近に人が集まっている場合分散は小さくなります。
分散の公式
分散の計算は公式の通りにやれば何も難しいことはありません。それは以下の式です。
$$s^2 = \frac{1}{n}\displaystyle \sum_{ i = 1 }^{ n } (x_i-\overline{x})^2$$
ここで、文字の説明をすると、nが観測値の数、\(x_1,x_2…x_n\)が一つ一つの観測値。\(x\)の添字は観測したデータの番号を表しています。\(\overline{x}\)はこれらの観測値の平均です。
また、分散は平均との差の二乗の期待値という見方もできるので、確率変数\(X\)の分散\(Var[X]\)は、平均\(μ\)を用いて
$$Var[X] = E[(X-μ)^2] $$
とも表されます。
計算例
Aさん,Bさん,Cさん,Dさん,Eさんのテストの数学の得点がそれぞれ以下のようになりました。
名前 | 得点 |
---|---|
Aさん | 90点 |
Bさん | 80点 |
Cさん | 40点 |
Dさん | 60点 |
Eさん | 90点 |
この場合、平均点は、
72点となります。さて、分散はどうなるでしょうか?個別の点数と平均点の差の2乗の平均によって求められることから、
となり、このテストの分散、つまりばらつき具合は376になるということが分かります。
統計学において平均と同様にこの分散も、データを表す大切な指標とされています。
なぜ分散は2乗の和の平均をとるのか?
1つの群における各データの数値の平均からの差、\((\overline{x}-x_1),(\overline{x}-x_2)…(\overline{x}-x_n)\)というのはそれぞれが平均値からどれだけ離れているかを表す指標であり、その値を偏差と呼びます。しかし、これらの値では正と負の両方の値をとってしまいます。それでは、平均値からどれだけ離れているかを表す指標として適切ではありません。2乗することにより、平均値からの距離の基準を正負によらない値として統一することができるのです。
そのため、文字式で表しても\(s^2\) や \(σ^2\)というように2乗を用いて表されます。
また、単に\(s\) や \(σ\)と表されるものは標準偏差と呼ばれ、分散の平方根をとることによって計算される値です。
分散と標準偏差
分散の平方根をとったものを標準偏差といいます。分散は求める過程で、二乗が行われているので、本来の単位とは単位が異なり、そういう意味では少々分かりにくい指標となっています。それを平方根にとることによって単位を揃えたものが標準偏差です。
標準偏差は、例えば模擬試験の偏差値の算出などにも利用されている、身近な指標です。詳しくは→標準偏差の意味と求め方をごらんください。また、偏差値については、偏差値の意味、求め方、性質などのまとめをごらんください。
モーメントを使った分散の求め方
分散は2次モーメント\(E(X^2)\)と、1次モーメント\(E(X)\)を使って求める方法もあります。それが下式です。
$$Var[X] = E(X^2) – [E(X)]^2 = \frac{1}{n}\displaystyle \sum_{ i = 1 }^{ n } x_i^2 -[\frac{1}{n}\displaystyle \sum_{ i = 1 }^{ n } x_i]^2$$
この式を言葉でいうと、
$$ 分散 = 二乗の期待値 - 期待値の二乗$$
ということです。この式が成り立つことは、以下のように簡単に証明できます。
証明
\(\begin{eqnarray*}Var[X] &=& E[(X-μ)^2]\\ &=& E[X^2-2μX+μ^2] \\ &=& E[X^2] - 2μE[X] + μ^2 \\ &=&E[X^2] - 2μ×μ + μ^2\\ &=&E[X^2] – μ^2\\&=&E[X^2] – (E[X])^2 \end{eqnarray*} \)
今回の証明では、期待値の線型性と\(E[X] = μ\)という性質を使いました。→期待値の定義・性質・計算例。平均との違いも!
不偏分散とは?分散との違いは?
分散には、不偏分散(または、標本不偏分散)というややこしい仲間がいます。不偏分散は以下の式で定義されます。
$$S^2 = \frac{1}{n-1}\displaystyle \sum_{ i = 1 }^{ n } (x_i-\overline{x})^2 $$
となる\(S^2\)を標本不偏分散(または不偏分散)といいます。これは、母分散の不偏推定量です。これは、標本数を∞に近づけたときに、\(E(S^2) = 母分散\)となる母分散の推定の仕方で、この性質を不偏性と言います。→平均と分散の不偏推定量はどうなるのか?
さて、これは一般的な分散とどのような点において異なるのか?
不偏分散の標本分散との違いは、標本分散は標本のみを考え、その分散であるのに対して、不偏分散は標本の属する母集団全体について考え、その分散の推定値を表しています。母集団と標本の違いは、標本と母集団の違いがすぐわかる説明でまとめているのでそちらも参考にしていただけると幸いです。
最新投稿記事
-
AIプロジェクトの企画と失敗しない進め方を解説 2021年1月19日
-
AVILEN人材育成コース受講体験談:山田裕之さん「E資格の”その先”を目指して」 2021年1月8日
-
AI導入とは?RPAとの関係、プロセス、事例、メリット、費用を詳細に解説 2020年12月7日
-
注目のAI開発企業11社!支援領域や提供方法など検証! 2020年10月28日
-
AI人材を育成できる研修プログラムを一挙紹介! 2020年10月20日
-
【2021年版】期待のAI資格11選!就職・転職にも使える! 2020年10月18日
-
JDLAとは?G検定、E資格の認定プログラム、合格者の会など紹介! 2020年10月14日
-
G検定(2020#3)受験申し込み開始、11月7日(土)実施-JDLA 2020年10月1日
-
【独占】コロナ禍で人材登録急増、アノテーション単月売上高は4倍超-パソナJOB HUB 2020年10月1日
-
E資格を転職に活用!評判とデータを徹底調査! 2020年9月29日
週間ランキング
【2021年版】コスパ重視のG検定対策!おすすめの本・講座・教材を一挙紹介! 2020年6月6日
G検定に短期間・独学で合格した勉強法を解説! 2020年8月3日
【2021年版】期待のAI資格11選!就職・転職にも使える! 2020年10月18日
G検定は難しい?難易度・合格ライン・問題を徹底解説! 2020年6月19日
注目のAI開発企業11社!支援領域や提供方法など検証! 2020年10月28日
G検定に落ちた人、合格した人。勉強法の違いはどこにある? 2020年6月25日
最弱オセロを初めて攻略した天才オセロ高校生。負け方を解説! 2020年7月31日
【2021年版】E資格とは?大注目のディープラーニングの資格を解説! 2020年9月29日
E資格の難易度を、合格率と問題から徹底分析! 2020年8月11日
MLOpsとは|定義、メリット、課題、ツール、ワークフローを分かりやすく解説 2020年9月18日
