2016/08/15
2020/04/14
標本と母集団の違いがすぐわかる解説
統計学を勉強し始めると、標本○○だとか、母○○だとかいう言葉を耳にする機会がよくあるかと思います。(例:標本平均・母集団・母分散など)今回は、そもそもこの標本と母というのはどういう意味なのか、どのような違いがあるのかについて解説していきます。これが分かれば、統計学を勉強していく上で色々とスムーズに進むので一番最初に把握しておきたいところです。
母集団と標本の違い
上の図を見て頂ければ一目瞭然かと思います。
母集団とは、統計対象となる全ての集合を指します。対して、標本とは母集団から抽出した、部分集合です。
そして、母集団の平均・分散・標準偏差のことを、頭文字に”母”をつけて母平均・母分散・母標準偏差などと言います。これは真の値であり、多くの場合神のみぞ知る値(母数という)です。対して、標本のそれを標本平均・標本分散・標本標準偏差と言います。
全数調査と標本調査
統計調査を行うときには、対象とする集団の要素全てに対して調査を施す、全数調査と一部だけを調査して全体をを推測する、標本調査があります。より正確なのが全数調査だということは言うまでもありませんが、実際には標本調査の方がよく用いられています。例えば、国勢調査は全数調査であり、テレビの視聴率は標本調査の結果です。
なぜ標本を考えるのか?
本来、統計対象としているのは母集団であるので、直接調査したいのですが、多くの場合、母集団とは非常に大きく、刻一刻と変動します。ですので、それを完全に理解することはできません。そこで、その母集団から抽出した標本に対して統計的解析をすることで推測しようとします。
標本から、母集団を予測するというのが統計学(推測統計学)の基本なのです。
例えば、日本人の成人男子の身長について調査したいとしましょう。この場合、母集団は日本人全体になります。しかし、日本人全体について調査することはほぼ不可能です。まず、人口が多すぎて調査するのが大変です。そして、今調査を始めたとしても、調査しているうちに成人する人がいたり、また亡くなられる方もいたりと調査しているうちに刻一刻と変動します。
そこで、母集団である日本人全体から、代表人物を無作為に一定数取り出し、これを調査します。その結果から、母集団である、日本人全体の身長について推測するというわけです。この方法だと、全体を調査することが出来ないので、母平均や母分散を知ることは出来ませんが、それらの推定値を出すことは出来ます。また、標本の分布から母集団が従う分布についても、現代の統計学の力を使えば可能です。
標本から母集団の推定値を出す方法については→統計的推定とは?~点推定と区間推定の違い~でまとめました。
標本の無作為抽出
母集団の中から、いくつかの要素を取り出してそれのみについて調査するのが標本調査なわけですが、これは各要素を等しい確率で選ぶ必要があります。そうでなければ、公平な調査とは言えないからです。
例えば、高校生の学力について調査したいのに、選んだ学校が全て進学校だったら、母集団である全国の高校生の学力をうまく推定することが出来ません。
そこで、完全にランダムな抽出が必要になります。これを無作為抽出と言います。また、無作為抽出によって得られた標本を、無作為標本と言います。
無作為抽出の方法は、色々とありますが、乱数表が特によく利用されます。
母集団と標本の例
現実にある、統計調査のほとんどが標本調査からの母集団推測によって得られたものです。下の表に例をいくつか挙げました。
調査題目 | 母集団 | 標本 |
---|---|---|
高校生の学力調査 | 全ての高校生 | 学力調査テストを受けた高校生 |
視聴率 | テレビを所有する全ての世帯 | 視聴率調査対象の一部の世帯 |
お客様満足度 | 全てのお客様 | アンケートに答えた一部のお客様 |
内閣支持率 | 全ての有権者 | 調査対象の一部の有権者 |
母集団と標本における文字式の違い
統計学において、母集団と標本では文字式で使う文字も下図のように分けられています。
Recommended