2016/11/21
2020/05/05
カイ二乗分布のわかりやすいまとめ
カイ二乗分布に関するあらゆる特徴をわかりやすくまとめました。カイ二乗分布の関連記事一覧
確率密度関数(自由度k) | \(f(x)=\frac{x^{{\frac{k}{2}}-1} \mathrm{e}^{-\frac{x}{2}}}{2^{\frac{k}{2}} \Gamma(\frac{k}{2})}\) |
期待値 | \(E(x)=k\) |
分散 | \(V(x)=2k\) |
積率母関数 | \(\begin{eqnarray*}M_{X}(t)&=&{(\frac{1}{1- 2 t})}^{\frac{k}{2}}\end{eqnarray*}\) |
目次
カイ二乗分布とはどのようなものか?
カイ二乗分布は複数の独立な、標準正規分布によって得られます。以下がカイ二乗分布の成り立ちです。
確率変数\(Z_1,Z_2,…,Z_n\)が互いに独立であり、それぞれが標準正規分布\(N(0,1)\)に従うとき、
$$χ^2 = Z^2_1 + Z^2_2 +,…,+Z^2_k$$
の\(χ^2\)に従う分布を、自由度\(k\)(足される標準正規分布の数)のカイ二乗分布(chi-sqare distribution)と言う。
※\(χ\)はギリシャ文字であり、カイと読みます。アルファベットのエックス(X)ではないことに注意しましょう。
これは、標本分布であり、ヘルメルトによって発見されました。
カイ二乗分布のグラフ
カイ二乗分布のグラフは自由度別に以下のようになります。この図からもわかるように、カイ二乗のグラフは自由度によって大きく形状が異なります。これは、カイ二乗分布の自由度は足される独立な標準正規分布の個数によって決まることによります。こちらのグラフを統計ソフトRで描く方法は、Rでカイ二乗分布のグラフを描く方法にて解説しています。
カイ二乗分布の密度関数
自由度\(n\)のカイ二乗分布の密度関数は
$$ f(χ) = \frac{1}{2^\frac{n}{2}Γ(\frac{n}{2})}(χ^2)^{\frac{n}{2}-1}e^{-\frac{χ^2}{2}} $$
となります。ただし、\(Γ(\frac{n}{2})\)は\(Γ\)(ガンマ)関数であり、
$$Γ(\frac{n}{2}) = \int_0^∞ t^{\frac{n}{2}-1}e^{-t} dt $$
です。
カイ二乗分布の積率母関数(とその導出)
カイ二乗分布にも積率母関数が存在し、その導出は以下のように行われます。より詳しくは、積率母関数を用いたカイ二乗分布の期待値・分散の導出にて、わかりやすさ最重視で式の解説をしたのでぜひご覧ください。
\(\begin{eqnarray*}M_{X}(t)&=&E(\mathrm{e}^{tX})\\&=&\displaystyle \int_{ 0 }^{ \infty }\mathrm{e}^{tx}f(x)dx\\ &=&\displaystyle \int_{ 0 }^{ \infty }\mathrm{e}^{tx} \frac{x^{\frac{k}{2}-1}\mathrm{e}^{-\frac{x}{2}}}{\Gamma(\frac{k}{2})2^{\frac{k}{2}}}dx\\ &=&\displaystyle \int_{ 0 }^{ \infty } \frac{x^{\frac{k}{2}-1}\mathrm{e}^{-\frac{x}{2}+tx}}{\Gamma(\frac{k}{2})2^{\frac{k}{2}}}dx\\ &=&\displaystyle \int_{ 0 }^{ \infty } \frac{x^{\frac{k}{2}-1}\mathrm{e}^{{(-\frac{1-2t}{2}})x}}{\Gamma(\frac{k}{2})2^{\frac{k}{2}}}dx\\ &=&\displaystyle \int_{ 0 }^{ \infty } \frac{x^{\frac{k}{2}-1}\mathrm{e}^{{(-\frac{1-2t}{2}})x}}{\Gamma(\frac{k}{2}){(1- 2t)}^{\frac{k}{2}} {(\frac{2}{1- 2t})}^{\frac{k}{2}}}dx\\ &=&{(1-2t)}^{-\frac{k}{2}} \displaystyle \int_{ 0 }^{ \infty } \frac{x^{\frac{k}{2}-1}\mathrm{e}^{{(-\frac{1-2t}{2}})x}}{\Gamma(\frac{k}{2}) {(\frac{2}{1-2t})}^{\frac{k}{2}}}dx \end{eqnarray*}\)
\(\ \ \ \ \ \ \ \ \ \ \begin{eqnarray*}&=&{(\frac{1}{1- 2t})}^{\frac{k}{2}}\end{eqnarray*}\)
さらに詳しく⇨ 積率母関数を用いたカイ二乗分布の期待値・分散の導出
カイ二乗分布の期待値と分散の導出
カイ二乗分布の平均と分散の導出を確率密度関数から行うと以下のようになります。より詳しい解説は、 カイ二乗分布の期待値と分散の導出に記載しましたので、そちらを参照していただければと思います。
期待値の導出
\(\begin{eqnarray*}E(X)&=&\displaystyle \int_{ 0 }^{ \infty }xf(x)dx\\ &=&\displaystyle \int_{ 0 }^{ \infty }x \frac{x^{{\frac{k}{2}}-1}\mathrm{e}^{-\frac{x}{2}}}{\Gamma(\frac{k}{2}){2}^{\frac{k}{2}}}dx\\ &=&\displaystyle \int_{ 0 }^{ \infty } \frac{x^{(\frac{k}{2}+1)-1}\mathrm{e}^{-\frac{x}{2}}}{\Gamma(\frac{k}{2}){2}^{\frac{k}{2}}}dx\\ &=&\displaystyle \int_{ 0 }^{ \infty } \frac{x^{(\frac{k}{2}+1)-1}\mathrm{e}^{-\frac{x}{2}}}{\frac{k}{2}^{-1}\Gamma(\frac{k}{2}+1)2^{-1} 2^{\frac{k}{2}+1}}dx\end{eqnarray*}\)
\(\ \ \ \ \ \ \ \ \ \ \begin{eqnarray*}&=&\displaystyle \int_{ 0 }^{ \infty } \frac{k x^{(\frac{k}{2}+1)-1}\mathrm{e}^{-\frac{x}{2}}}{\Gamma(\frac{k}{2}+1)2^{\frac{k}{2}+1}}dx\end{eqnarray*}\)
\(\ \ \ \ \ \ \ \ \ \ \begin{eqnarray*}&=&k \end{eqnarray*}\)
さらに詳しく⇨期待値の導出
分散の導出
\(\begin{eqnarray*}E(X^2)&=&\displaystyle \int_{ 0 }^{ \infty }x^{2}f(x)dx\\ &=&\displaystyle \int_{ 0 }^{ \infty }x^{2} \frac{x^{\frac{k}{2}-1}\mathrm{e}^{-\frac{x}{2}}}{\Gamma(\frac{k}{2})2^{\frac{k}{2}}}dx\\ &=&\displaystyle \int_{ 0 }^{ \infty } \frac{x^{(\frac{k}{2}+2)-1}\mathrm{e}^{-\frac{x}{2}}}{\Gamma(\frac{k}{2})2^{\frac{k}{2}}}dx\\ &=&\displaystyle \int_{ 0 }^{ \infty } \frac{x^{(\frac{k}{2}+2)-1}\mathrm{e}^{-\frac{x}{2}}}{{\frac{k}{2}}^{-1}\Gamma(\frac{k}{2}+1)2^{-1} 2^{\frac{k}{2}+1}}dx\\ &=&\displaystyle \int_{ 0 }^{ \infty } \frac{x^{(\frac{k}{2}+2)-1}\mathrm{e}^{-\frac{x}{2}}}{\frac{k}{2}^{-1}{(\frac{k}{2}+1)}^{-1}\Gamma(\frac{k}{2}+2)2^{-2} 2^{\frac{k}{2}+2}}dx\end{eqnarray*}\)
\(\ \ \ \ \ \ \ \ \ \ \begin{eqnarray*}&=&\displaystyle \int_{ 0 }^{ \infty } \frac{\frac{k}{2}(\frac{k}{2}+1) 2^{2}x^{(\frac{k}{2}+2)-1}\mathrm{e}^{-\frac{x}{2}}}{\Gamma(\frac{k}{2}+2) 2^{\frac{k}{2}+2}}dx\end{eqnarray*}\)
\(\ \ \ \ \ \ \ \ \ \ \begin{eqnarray*}&=&\frac{k}{2}(\frac{k}{2}+1) 2^{2}\\&=&k(k+2)\\\\V(X)&=&E(X^2)-{(E(X))}^2\\ &=&k(k+2) -{k}^2\\ &=&2k\end{eqnarray*}\)
さらに詳しく⇨ 分散の導出
カイ二乗分布の性質
カイ二乗分布の再生性
二つの確率変数\(W_1,W_2\)が互いに、独立に\(χ^2(n_1),χ^2(n_2)\)に従うとき、確率変数の和、\(W1+W2\)もまたカイ二乗分布に従い、その自由度は\(n_1+n_2\)である。この性質をカイ二乗分布の再生性という。
正規分布に従う無作為標本とカイ二乗分布
\(N(μ,σ^2)\)の正規分布に従う母集団より抽出された、大きさnの無作為標本\(X_1,X_2,…,X_n\)において、それぞれの\(X\)は互いに独立に正規分布に従うので、
$$ W = \displaystyle \sum_{ i = 1 }^{ n } \frac{(X_i-\bar{X})^2}{σ^2} = \frac{(n-1)S^2}{σ^2}$$
の\(W\)は自由度n-1のカイ二乗分布に従う。
カイ二乗分布を用いた検定(カイ二乗検定)
カイ二乗分布を用いた検定にカイ二乗検定というのがあります。その代表的な検定は、独立性のカイ二乗検定と適合度検定です。
独立性のカイ二乗検定
独立性のカイ二乗検定は、ざっくりいうと、分割表の上の変数と横(普通は左側)の変数が独立か否かを検定するためのものです。そのときに、独立であるという仮説の下で、「分割表の各セルの期待度数と観測値の差の二乗和がカイ二乗分布に近似できる」という性質を用いて行うので、カイ二乗検定と名付けられています。(カイ二乗分布に近似されるのはデータがある程度多いときです。データが少ない時は、近似が出来ないので、フィッシャーの正確確率検定を行います。⇨Rでフィッシャーの正確確率検定 そのまま使える自作関数例)
初心者にもわかりやすく、独立性のカイ二乗検定 例題を用いてわかりやすく解説にて、解説していいますので、合わせてお読みください。
適合度検定
適合度検定(goodness of fit test)とは、帰無仮説における期待度数に対して、実際の観測データの当てはまりの良さを検定するための手法です。こちらも独立性のカイ二乗検定と同様に、分割表を用いて、カイ二乗分布が登場します。
適合度検定をカイ二乗検定で行う例題と手順にて、例題を用いて、わかりやすく解説しております。
カイ二乗分布とF分布
カイ二乗分布とF分布には親密な関係が有ります。F分布の確率密度関数、期待値、分散はカイ二乗分布からの導出が可能です。詳しくは以下のページで。
⇨F分布の確率密度関数をカイ二乗分布を用いて導出
⇨F分布の期待値・分散を確率密度関数を用いて導出
Recommended