2017/06/25
2020/04/14
正規分布の事後分布の平均と分散【ベイズ】
このページでは、正規分布に従う母集団からデータを得るとき、事後分布の平均、分散の導出と、そこから得られる性質について述べていきます。
正規分布の事後分布の平均、分散
正規分布に従う母集団からデータを取ってくるとき、共役事前分布は正規分布となります(共役事前分布に関しての説明はこちら)。よって、事前分布を正規分布としたとき、事後分布は次のようなことが言えます。
母平均\(\mu\)、母分散\(\sigma^2\)に従う正規母集団から大きさ\(n\)の標本を抽出し、標本平均\(\overline{x}\)を得たとする。母平均\(\mu\)の事前分布として平均\(\eta\)、分散\(\tau^2\)の正規分布をとるとき、\(\mu\)の事後分布は
$$平均:\frac{n\tau^2\overline{x}+\sigma^2\eta}{n\tau^2+\sigma^2}=\frac{\frac{n}{\sigma^2}\overline{x}+\frac{1}{\tau^2}\eta}{\frac{n}{\sigma^2}+\frac{1}{\tau^2}}$$
$$分散:\frac{\tau^2\sigma^2}{n\tau^2+\sigma^2}=\frac{\frac{\sigma^2\tau^2}{n}}{\frac{\sigma^2}{n}+\tau^2}$$
の正規分布に従う
正規分布事後分布の平均、分散の導出(証明)
上記を証明していきます。
事前分布は\(\mu〜N(\eta,\tau^2)\)であるから、密度関数は
\(\pi(\mu)=\frac{1}{\sqrt{2\pi}\tau}exp[-\frac{(\mu-\eta)^2}{2\tau^2}]\)
となります。次に、正規母集団の密度関数は
\(f(x)=\frac{1}{\sqrt{2\pi}\sigma}exp[-\frac{(x-\mu)^2}{2\sigma^2}]\)
であるので、データ\(x=\{x_1,x_2,…,x_n\}\)を得たとき、データがi.i.dである下では、尤度は
\(f(x|\mu)=f(x_1|\mu)f(x_2|\mu)…f(x_n|\mu)\)
\(=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma}exp[-\frac{(x_i-\mu)^2}{2\sigma^2}]\)
\(=(\frac{1}{\sqrt{2\pi}\sigma})^nexp[-\frac{(x_1-\mu)^2}{2\sigma^2}-\frac{(x_2-\mu)^2}{2\sigma^2}…-\frac{(x_n-\mu)^2}{2\sigma^2}]\)
となります。ここで、指数部分のみを取り出すと
\(-\frac{(x_1-\mu)^2}{2\sigma^2}-\frac{(x_2-\mu)^2}{2\sigma^2}…-\frac{(x_n-\mu)^2}{2\sigma^2}=-\frac{1}{2\sigma^2}\{(x_1-\mu)^2+(x_2-\mu)^2+…+(x_n-\mu)^2\}\)
\(=-\frac{1}{2\sigma^2}\{n\mu^2-2(x_1+x_2+…+x_n)\mu+(x_1^2+x_2^2+…+x_n^2)\}\)
\(=-\frac{1}{2\sigma^2}[n\{\mu^2-2\frac{1}{n}(x_1+x_2+…+x_n)\mu\}+(x_1^2+x_2^2+…+x_n^2)]\)
\(\frac{1}{n}(x_1+x_2+…+x_n)=\overline{x}\)であることを利用する
\(=-\frac{1}{2\sigma^2}[n(\mu^2-2\overline{x}\mu)+(x_1^2+x_2^2+…+x_n^2)]\)
\(\mu\)に関して平方完成する
\(=-\frac{1}{2\sigma^2}[n(\mu-\overline{x})^2-n\overline{x}^2-(x_1^2+x_2^2+…+x_n^2)]\)
標本分散\(S^2=\overline{x^2}-\overline{x}^2\)を利用する
\(=-\frac{1}{2\sigma^2}[n(\mu-\overline{x})^2+nS^2]\)
となります。これを先ほどの尤度に戻してあげれば、
\(f(x|\mu)=(\frac{1}{\sqrt{2\pi}\sigma})^nexp[-\frac{1}{2\sigma^2}\{n(\mu-\overline{x})^2+nS^2\}]\)
が得られます。よって、事後分布は
\(\pi(\mu|x)\propto(\frac{1}{\sqrt{2\pi}\sigma})^nexp[-\frac{1}{2\sigma^2}\{n(\mu-\overline{x})^2+nS^2)\}]\frac{1}{\sqrt{2\pi}\tau}exp[-\frac{(\mu-\eta)^2}{2\tau^2}]\)
と計算できます(参考:ベイスの定理)。さらに、\(\mu\)に関して定数とみなせるものは比例式から取り除けるので、
\(exp[-\frac{1}{2\sigma^2}\{n(\mu-\overline{x})^2+nS^2\}]=exp[-\frac{1}{2\sigma^2}n(\mu-\overline{x})^2]exp[-\frac{1}{2\sigma^2}nS^2]\)となり、\(exp[-\frac{1}{2\sigma^2}nS^2]\)は定数とみなせる
\(\pi(\mu|x)\propto exp[-\frac{1}{2\sigma^2}\{n(\mu-\overline{x})^2\}]exp[-\frac{(\mu-\eta)^2}{2\tau^2}]\)
\(\propto exp[-\frac{n(\mu-\overline{x})^2}{2\sigma^2}-\frac{(\mu-\eta)^2}{2\tau^2}]\)
とかけます。ここで指数部分を取り出すと、
\(-\frac{n(\mu-\overline{x})^2}{2\sigma^2}-\frac{(\mu-\eta)^2}{2\tau^2}\)
\(=-\frac{n\tau^2(\mu-\overline{x})^2+\sigma^2(\mu-\eta)^2}{2\sigma^2\tau^2}\)
\(\mu\)の降べきで並べる
\(=-\frac{(n\tau^2+\sigma^2)\mu^2-2(n\tau^2\overline{x}+\sigma^2\eta)\mu+(n\tau^2\overline{x^2}+\sigma^2\eta^2)}{2\sigma^2\tau^2}\)
\(\mu\)に関して平方完成する
\(=-\frac{n\tau^2+\sigma^2}{2\sigma^2\tau^2}(\mu-\frac{n\tau^2\overline{x}+\sigma^2\eta}{n\tau^2+\sigma^2})^2-\frac{n(\eta-\overline{x})^2}{2(n\tau^2+\sigma^2)}\)
となるため、この式の第二項は元の式に戻すと定数となります。よって事後分布は、
\(\pi(\mu|x)\propto exp[-\frac{n\tau^2+\sigma^2}{2\sigma^2\tau^2}(\mu-\frac{n\tau^2\overline{x}+\sigma^2\eta}{n\tau^2+\sigma^2})^2]\)
となります。これは、平均\(\frac{n\tau^2\overline{x}+\sigma^2\eta}{n\tau^2+\sigma^2}\)、分散\(\frac{\tau^2\sigma^2}{n\tau^2+\sigma^2}\)の正規分布に従うことが確認できます。
正規分布の事後分布の平均、分散の性質
ページ上部にも書きましたが、事後分布は
$$平均:\frac{n\tau^2\overline{x}+\sigma^2\eta}{n\tau^2+\sigma^2}=\frac{\frac{n}{\sigma^2}\overline{x}+\frac{1}{\tau^2}\eta}{\frac{n}{\sigma^2}+\frac{1}{\tau^2}}$$
$$分散:\frac{\tau^2\sigma^2}{n\tau^2+\sigma^2}=\frac{\frac{\sigma^2\tau^2}{n}}{\frac{\sigma^2}{n}+\tau^2}$$
と書き換えることができます。この書き換えたあとの式を見ると、重要な性質が見えてきます。
まず、平均から見てみましょう。いま、\(\frac{n}{\sigma^2}\)を\(w_1\)、\(\frac{1}{\tau^2}\)を\(w_2\)とおくと、この式は
$$\frac{w_1\overline{x}+w_2\eta}{w_1+w_2}$$
となります。これは標本平均と事前平均の重み付けをしています。
次に、分散を見ると、\(\frac{\sigma^2}{n}\)が\(Var(\overline{x})\)であるから、
$$\frac{Var(\overline{x})\tau^2}{Var(\overline{x})+\tau^2}$$
という式が得られます。このように考えると覚えやすいですね。
さて、この式から得られることはまだあります。
分散という統計量は、精度を表すことができます(参考:例題で理解する分散の意味と求め方)。つまり、分散の値が大きければ大きいほど、その情報の信頼性は薄いといえます。
ここで、\(\tau^2\)を無限大に近づけてみましょう。これはつまり、事前情報の信頼性がほぼない状態を示しています。すると、事後分布の平均は標本平均に近づくことがわかります。
逆に\(\tau^2\)を\(0\)に近づけてみましょう。これはつまり、事前情報に絶対的な信頼があることを示しています。すると、事後分布の平均は事前平均に近づくことがわかります。
このように、数式から得られることはとても多いです。某塾講師が『数式は言葉だ。計算じゃない』と言っている意味がわかる気がしますよね(笑)。
例題〜実データで事後分布の平均分散を導出〜
わかりやすさのために、具体的な例を挙げて、実際に計算してみましょう。
男子バスケットボールの選手の平均身長\(\mu\)を調べたい。事前情報として、身長の事前分布\(\mu〜N(180,15^2)\)を持っている。いま、バスケット選手5人を無作為に抽出したとき、平均身長195を得た。バスケット選手の身長の分布は正規分布に従っているものとするとき、\(\mu\)の事後分布の平均、分散を求めよ。ただし、バスケット選手の身長の分布の分散は\(10^2\)であるとわかっている。
繰り返しになりますが、事前分布が\(\mu〜N(\eta,\tau^2)\)であり、取ってくるデータの母集団分布が\(N(\mu,\sigma^2)\)であるとき、事後分布は\(\mu〜N(\frac{n\tau^2\overline{x}+\sigma^2\eta}{n\tau^2+\sigma^2},\frac{\tau^2\sigma^2}{n\tau^2+\sigma^2})\)に従います。ここに、対応する値を代入すればいいですね。つまり、\(\eta\)=180、\(\tau^2=15^2\)、\(\sigma^2=10^2\)、\(n\)=5、\(\overline{x}\)=195をそれぞれ代入してあげれば、
$$平均:193.8$$
$$分散:18.4$$
が得られます。
COMMENT
-
yxli 2018.6.7 1:23 AM
探していた情報を見つけることができ、しかもわかりやすい例が付いていてとても助かりました。ありがとうございます。
>ただし、バスケット選手の身長の分布の分散は10^2であるとわかっている。
これは、n=5の標本が正規分布に従っていて(従うと信じていて信じていて)、その標本分散を計ったら100だった、という理解でよろしいのでしょうか? -
masa 2018.6.7 11:25 PM
記事を読んでいただきありがとうございます!
この例題では、男子バスケ選手の身長の母分散を100としています(つまりすべての男子バスケ選手の身長の分散)。標本分散ではありません。
この分野における解析手法は、母分散σ^2が既知の場合と未知の場合の2パターンが存在します。このページでは母分散既知を前提として説明しています。
世の中の事象を統計解析する際、ほとんどの場合母分散は未知であると考えられます。ですのでこの例題では、「何らかの理由で母分散が100だとわかっていた」もしくは「母分散を100と仮定して解析する」と解釈していただければと思います。
母分散が未知の場合に関しては、理論や計算がかなり複雑なため、専門書に任せることとしています。ご理解いただければと思います。
他に何かございましたら、お気軽にご質問ください!
-
yxli 2018.6.11 10:14 AM
解説ありがとうございました!
正規分布同士が自然な共役分布であること理論的にわかりました。手元のデータは不定期に1件ずつ追加されるので、ベータ分布に対するベルヌーイ試行のように、正規分布も都度解析的に事後分布を更新出来るかと思っていましたが、母分散が必要ですね。
MCMCなどを使うことにします。ありがとうございました。
yxli 2018.6.7 1:23 AM
探していた情報を見つけることができ、しかもわかりやすい例が付いていてとても助かりました。ありがとうございます。
>ただし、バスケット選手の身長の分布の分散は10^2であるとわかっている。
これは、n=5の標本が正規分布に従っていて(従うと信じていて信じていて)、その標本分散を計ったら100だった、という理解でよろしいのでしょうか?
masa 2018.6.7 11:25 PM
記事を読んでいただきありがとうございます!
この例題では、男子バスケ選手の身長の母分散を100としています(つまりすべての男子バスケ選手の身長の分散)。標本分散ではありません。
この分野における解析手法は、母分散σ^2が既知の場合と未知の場合の2パターンが存在します。このページでは母分散既知を前提として説明しています。
世の中の事象を統計解析する際、ほとんどの場合母分散は未知であると考えられます。ですのでこの例題では、「何らかの理由で母分散が100だとわかっていた」もしくは「母分散を100と仮定して解析する」と解釈していただければと思います。
母分散が未知の場合に関しては、理論や計算がかなり複雑なため、専門書に任せることとしています。ご理解いただければと思います。
他に何かございましたら、お気軽にご質問ください!
yxli 2018.6.11 10:14 AM
解説ありがとうございました!
正規分布同士が自然な共役分布であること理論的にわかりました。
手元のデータは不定期に1件ずつ追加されるので、ベータ分布に対するベルヌーイ試行のように、正規分布も都度解析的に事後分布を更新出来るかと思っていましたが、母分散が必要ですね。
MCMCなどを使うことにします。ありがとうございました。