2017/08/30
2020/04/14
超幾何分布の確率密度関数からの期待値と分散の導出
当ページでは超幾何分布の確率密度関数から、その期待値と分散の導出を行なっております。式だけではなく、丁寧に解説を加えることで、導出の過程を出来るだけ分かりやすくまとめました。
確率密度関数 | \(p(x) = \displaystyle \begin{cases} \frac{\left( \begin{array}{c} k \\ x \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N \\ n \end{array} \right)} & (x = 0, 1, 2, \cdots , n) \\ 0 & (else) \end{cases} \) |
---|---|
期待値(平均) | \(E(X) = \displaystyle n \frac{k}{N} \) |
分散 | \(V(X) = \displaystyle \frac{nk(N-k)(N-n)}{N^2 (N-1)} \) |
超幾何分布とは?
超幾何分布とは、確率変数\(X\)が以下のようなパラメータ\(N\)、\(k\)、\(n\)の確率密度関数\(p(x)\)をもつ時に従う分布のことを指します。
具体例として、箱の中に\(N\)個のボールがあるとします。その内、\(k\)個が赤いボールであり、\(N-k\)個が青いボールとします。このとき、赤いボールの個数を\(X\)とおくと、この\(X\)が従う分布が超幾何分布であり、以下のような確率密度関数\(p(x)\)となります。
\(p(x) = \displaystyle \begin{cases} \frac{\left( \begin{array}{c} k \\ x \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N \\ n \end{array} \right)} & (x = 0, 1, 2, \cdots , n) \\ 0 & (else) \end{cases} \)
ここに、\(N, n\)は正の整数であり、\(k\)は非負の整数です。また、\(N \ge k, N \ge n\)という条件が与えられています。
また、\(x\)のとりうる値の範囲は
\(x = \displaystyle \begin{cases} 0 & (n \ge N-k) \\ n-(N-k) & (n<N-k) \\ n & (n<k) \\ k & (n \ge k) \end{cases} \)
となります。つまり、\(\max (0, n-(N-k)) \leq x \leq \min (n, k) \)となります。
期待値の導出
まずは超幾何分布に従う確率変数\(X\)の期待値を求めます。超幾何分布は離散型の確率分布ですから、期待値の定義(離散型確率変数の場合)から
\(\begin{eqnarray*} E(X) &=& \displaystyle \sum_{x=0}^n x p(x) \\ &=& \displaystyle \sum_{x=0}^n x \frac{\left( \begin{array}{c} k \\ x \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N \\ n \end{array} \right)} \end{eqnarray*}\)
となります。ここで、\(x = 0\)の時、\(E(X)\)の値は\(0\)となることから、\(x = 1\)から\(n\)までの総和として考えてもよいものとなります。さらに
\(\begin{eqnarray*} \frac{\left( \begin{array}{c} k \\ x \end{array} \right)}{\left( \begin{array}{c} N \\ n \end{array} \right)} &=& \displaystyle \frac{\frac{k!}{x!(k-x)!}}{\frac{N!}{n!(N-n)!}} \\ &=& \displaystyle n \frac{k}{N} \times \frac{\frac{(k-1)!}{(x-1)! \{ (k-1)-(x-1) \} ! }}{\frac{(N-1)!}{(n-1)! \{ (N-1)-(n-1) \} ! }} \end{eqnarray*}\)
と表せることから
\(E(X) = \displaystyle n \frac{k}{N} \sum_{x=1}^n \frac{\left( \begin{array}{c} k-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right) } \)
となります。
ここで\(\frac{\left( \begin{array}{c} k-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right) } \)は、パラメータが\(N-1\)、\(k-1\)、\(n-1\)の超幾何分布の密度関数の形と一致しています。上式ではこの確率密度関数について、とりうる値において全て足しあわせており、その値は1となります。(これは、ある事象における全ての確率を足すと1になることと同義です。)
したがって、以下の形に求まります。
\(E(X) = \displaystyle n \frac{k}{N} \)
分散の導出
次に、超幾何分布に従う\(X\)の分散を求めます。はじめに 分散の性質より
\(\begin{eqnarray*} V(X) &=& \displaystyle E(X^2) -E(X)^2 \\ &=& \displaystyle E(X(X-1)) + E(X) – E(X)^2 \end{eqnarray*}\)
と表せます。上式はモーメントの考え方を用いて求める分散の式です。(証明については、「例題で理解する分散の意味と求め方 」をご参照ください。)
ここからは\(E(X(X-1))\)を求めます。こちらについても、上記の期待値の定義から次のように求まります。
\(\begin{eqnarray*} E(X(X-1)) &=& \displaystyle \sum_{x=0}^n x(x-1) p(x) \\ &=& \displaystyle \sum_{x=0}^n x(x-1) \frac{\left( \begin{array}{c} k \\ x \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N \\ n \end{array} \right)} \\ &=& \displaystyle n \frac{k}{N} \sum_{x=1}^n x(x-1) \frac{\left( \begin{array}{c} k-1 \\ x-1 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-1 \\ n-1 \end{array} \right)} \\ &=& \displaystyle n(n-1) \frac{k(k-1)}{N(N-1)} \sum_{x=2}^n x(x-2) \frac{\left( \begin{array}{c} k-2 \\ x-2 \end{array} \right) \left( \begin{array}{c} N-k \\ n-x \end{array} \right) }{\left( \begin{array}{c} N-2 \\ n-2 \end{array} \right)} \\ &=& \displaystyle n(n-1) \frac{k(k-1)}{N(N-1)} \end{eqnarray*}\)
2行目から3行目の式展開については先程と同じく、\(x = 0\)の時、値は0をとりますので、\(x = 1\)から\(n\)までの総和として考えるものとしました。3行目から4行目の変形についても同様の理由です。さらに4行目ではパラメータが\(N-2\)、\(k-2\)、\(n-2\)の超幾何分布の密度関数の総和をとっていますので、その値は1となります。よって、\(E(X(X-1))\)の値は\(n(n-1) \frac{k(k-1)}{N(N-1)}\)となることが言えます。
したがって、上記の値を\(V(X)\)に代入すると
\(\begin{eqnarray*} V(X) &=& \displaystyle E(X(X-1)) + E(X) – E(X)^2 \\ &=& \displaystyle n(n-1) \frac{k(k-1)}{N(N-1)} + n \frac{k}{N} – n^2 \frac{k^2}{N^2} \\ &=& \displaystyle \frac{nk(N-k)(N-n)}{N^2 (N-1)} \end{eqnarray*}\)
となります。
最新投稿記事
-
E資格・領域特化コース受講体験談:山田裕之さん 「E資格で基礎知識を、領域特化コースで実務への応用を」 2021年1月8日
-
AI導入とは?RPAとの関係、プロセス、事例、メリット、費用を詳細に解説 2020年12月7日
-
注目のAI開発企業11社!支援領域や提供方法など検証! 2020年10月28日
-
AI人材を育成できる研修プログラムを一挙紹介! 2020年10月20日
-
【2021年版】期待のAI資格11選!就職・転職にも使える! 2020年10月18日
-
JDLAとは?G検定、E資格の認定プログラム、合格者の会など紹介! 2020年10月14日
-
G検定(2020#3)受験申し込み開始、11月7日(土)実施-JDLA 2020年10月1日
-
【独占】コロナ禍で人材登録急増、アノテーション単月売上高は4倍超-パソナJOB HUB 2020年10月1日
-
E資格を転職に活用!評判とデータを徹底調査! 2020年9月29日
-
E資格とは?大注目のディープラーニングの資格を解説! 2020年9月29日
週間ランキング
【2021年版】期待のAI資格11選!就職・転職にも使える! 2020年10月18日
【2021年版】コスパ重視のG検定対策!おすすめの本・講座・教材を一挙紹介! 2020年6月6日
注目のAI開発企業11社!支援領域や提供方法など検証! 2020年10月28日
G検定に短期間・独学で合格した勉強法を解説! 2020年8月3日
最弱オセロを初めて攻略した天才オセロ高校生。負け方を解説! 2020年7月31日
効率重視のE資格対策!参考書・模擬試験・過去問を徹底解説! 2020年8月7日
E資格の難易度を、合格率と問題から徹底分析! 2020年8月11日
G検定は難しい?難易度・合格ライン・問題を徹底解説! 2020年6月19日
MLOpsとは|定義、メリット、課題、ツール、ワークフローを分かりやすく解説 2020年9月18日
FRONTEO、AI解析の新型コロナ治療候補薬を公表ー「プラニケル」など 2020年5月13日
