2017/07/17
2020/04/21
ベイズ推定量の導出!例題と解説(最尤推定量と比較)
ベイズ推定量は、事後分布の平均と一致するという重要な性質があります。当ページでは、このベイズ推定の性質と、二項分布(ベルヌーイ試行)におけるベイズ推定量の導出を、最尤推定量と比較しながら解説していきます(参考:『最尤推定とベイズ推定の違いを例題を用いて解説』)。
また、当ページでは、
・損失関数…\(L(\theta,T)=(T-\theta)^2\)
・リスク関数…\(R(\theta,T)=E[L(\theta,T)]\)
・平均リスク…\(r(\pi,t)=E[R(\theta,T)]\) (ただし、\(\pi(\theta)\)は事前分布)
と表し、使用していきます。
(上記の用語の説明は『ベイズ推定の考え方とその定義をわかりやすく解説』を参考にしてください)
ベイズ推定量は、事後分布の平均と一致する
ベイズ推定量は、事後分布の平均と一致するという重要な性質があります。これについて見ていくことにしましょう。
(事後分布とは?→『ベイズ統計学とは?初心者向けのやさしい解説』、『ベイズの定理の導出と考え方をわかりやすく解説』を参照してください。)
以下、連続型で考えます。
平均リスクを展開していきます。
\(r(\pi,t)=\int_{\Theta}R(\theta,t)\pi(\theta)d\theta\)
\(=\int_{\Theta}\int_{X}(t-\theta)^2f(x|\theta)dx\pi(\theta)d\theta\)
\(=\int_{X}\int_{\Theta}(t-\theta)^2f(x|\theta)\pi(\theta)d\theta dx\)
ここで、\(A=\int_{\Theta}(t-\theta)^2f(x|\theta)\pi(\theta)d\theta\)とおくと、\(A\)を最小にするような\(T=t(x_1,x_2,…,x_n)\)がベイズ推定量になります。
ここで、\(A\)は
\(A=t^2\int_{\Theta}f(x|\theta)\pi(\theta)d\theta-2t\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta+\int_{\Theta}\theta^2f(x|\theta)\pi(\theta)d\theta\)
平方完成する
\(=\int_{\Theta}f(x|\theta)\pi(\theta)d\theta[t-\frac{\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}]^2-\frac{[\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta]^2}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}+\int_{\Theta}\theta^2f(x|\theta)\pi(\theta)d\theta\)
となります。よって\(A\)は\(t=\frac{\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}\)のとき、最小値をとることがわかります。よってこれを\(T\)とおけば、\(T\)が事前分布\(\pi(\theta)\)に対するベイズ推定量となります。
ここで、
\(T=\frac{\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}\)
ベイズの定理より、\(\pi(\theta|x)=\frac{f(x|\theta)\pi(\theta)}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}\)である
\(=\int_{\Theta}\theta\pi(\theta|x)d\theta\)
\(=E[\theta|x]\)
となるので、事前分布\(\pi(\theta)\)に対するベイズ推定量\(T\)は事後分布\(\pi(\theta|x)\)の平均に一致することがわかります。
二項分布とベイス推定量
ベルヌーイ試行をn回行ったとき、成功回数をx回とすると、xは二項分布に従います。このときのベイズ推定量を求めてみることにしましょう。(二項分布ついて詳しくは二項分布のわかりやすいまとめをご覧ください。)
まず、事前分布をベータ分布\(Beta(\alpha,\beta)\)と設定します。
(ベータ分布は二項分布の共役事前分布となります。共役事前分布については『共役事前分布とは?わかりやすく解説』を参照してください。また、このときの事後分布の導出『ベータ分布の事後分布の平均と分散』もぜひ参考にしてください)
\(f(x|\theta)=_nC_x\theta^x(1-\theta)^{n-x}\)
であり、
\(\pi(\theta)=\frac{1}{B(\alpha,\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}\) \(0\leq\theta\leq 1\)
であるから、
\(T=\frac{\int_{\Theta}\theta f(x|\theta)\pi(\theta)d\theta}{\int_{\Theta}f(x|\theta)\pi(\theta)d\theta}\)
\(=\frac{\int_0^1\theta{}_nC_x\theta^x(1-\theta)^{n-x}\frac{1}{B(\alpha,\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta}{\int_0^1{}_nC_x\theta^x(1-\theta)^{n-x}\frac{1}{B(\alpha,\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta}\)
\(=\frac{\int_0^1\theta×\theta^x(1-\theta)^{n-x}\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta}{\int_0^1\theta^x(1-\theta)^{n-x}\theta^{\alpha-1}(1-\theta)^{\beta-1}d\theta}\)
\(=\frac{\int_0^1\theta^{(x+\alpha+1)-1}(1-\theta)^{(n-x+\beta)-1}d\theta}{\int_0^1\theta^{(x+\alpha)-1}(1-\theta)^{(n-x+\beta)-1}d\theta}\)
\(=\frac{B(x+\alpha+1,n-x+\beta)}{B(x+\alpha,n-x+\beta)}\)
ベータ関数の性質
$$B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$$
を利用する。ただし\(\Gamma\)はガンマ関数。
\(=\frac{\Gamma(x+\alpha+1)\Gamma(n-x+\beta)}{\Gamma(n+\alpha+\beta+1)}×\frac{\Gamma(n+\alpha+\beta)}{\Gamma(x+\alpha)\Gamma(n-x+\beta)}\)
\(=\frac{\Gamma(x+\alpha+1)}{\Gamma(n+\alpha+\beta+1)}×\frac{\Gamma(n+\alpha+\beta)}{\Gamma(x+\alpha)}\)
ガンマ関数の性質
$$\Gamma(\alpha)=(\alpha-1)\Gamma(\alpha-1)$$
を利用する。
\(=\frac{(x+\alpha)\Gamma(x+\alpha)}{(n+\alpha+\beta)\Gamma(n+\alpha+\beta)}×\frac{\Gamma(n+\alpha+\beta)}{\Gamma(x+\alpha)}\)
\(=\frac{x+\alpha}{n+\alpha+\beta}\)
が得られます。よって、ベータ分布に従う事前分布\(\pi(\theta)\)に対する\(\theta\)のベイズ推定量は
$$T=\frac{x+\alpha}{n+\alpha+\beta}$$
となります。
これは、事後分布の平均となります。よって、『ベータ分布の事後分布の平均と分散』の平均の値と一致していることが確認できます。
例題〜最尤推定量とベイズ推定量を比較して考察する〜
次のような例を考えてみましょう。
コイントスを5回行い、表が出た回数をxとする。いま、表が出る確率をpとすると、xは\(Bi(5,p)\)に従う。このとき、xが0〜5の場合で次を考察せよ。
(1) 最尤推定量
(2) pの事前分布が\(Beta(\frac{1}{2},\frac{1}{2})\)に従っているとする。このときのベイズ推定量
最尤推定量とベイズ推定量はよく比較されるので、合わせて考察していきます。
(最尤推定量の詳しい解説はこちら→『最尤推定量とは?初めての人にもわかる解説』)
(最尤推定量とベイズ推定量の基本的な考え方の違いはこちら→『最尤推定とベイズ推定の違いを解説』)
(1) 最尤推定量\(\hat{p}\)は、\(\frac{x}{n}\)となるので、以下の表のようになります。
x | 0 | 1 | 2 | 3 | 4 | 5 |
\(\hat{p}\) | 0 | \(\frac{1}{5}\) | \(\frac{2}{5}\) | \(\frac{3}{5}\) | \(\frac{4}{5}\) | 1 |
この両端を見てみると、随分と荒い推定値のように思えます。例えばx=5なら、表が出る確率は1であると推定しています。つまり、「このコインは裏が絶対に出ない」と言っているのです。コインの見た目があまりにも異質でない限り、この推定値には信頼性がありません。
ここで、ベイズ推定について考えて見ましょう。
(2) ベイズ推定量\(T\)は\(\frac{x+\alpha}{n+\alpha+\beta}\)となるので、\(n=5\)、\(\alpha=\frac{1}{2}\)、\(\beta=\frac{1}{2}\)をそれぞれ代入してあげると、以下の表のようになります。
x | 0 | 1 | 2 | 3 | 4 | 5 |
T | \(\frac{1}{12}\) | \(\frac{1}{4}\) | \(\frac{5}{12}\) | \(\frac{7}{12}\) | \(\frac{3}{4}\) | \(\frac{11}{12}\) |
事前に情報がある場合は両端の確率が0または1になることがありません。こちらの方が最尤推定量より十分に信頼できます。
このように、確率が0と1を取らないとわかっているとき、つまり\(0<p<1\)のとき、最尤推定量ではなくベイズ推定量が使われます。
まとめ
いかがでしたでしょうか。この記事の内容をまとめると、
・ベイズ推定量は、事後分布の平均と一致するという性質がある
・確率が0と1を取らないとわかっているとき、最尤推定量ではなくベイズ推定量が使われる
ということになります。
参考記事
最尤推定量の考え方が知りたい→最尤推定量とは?初めての人にも解説
最尤推定とベイズ推定の基本的な考え方の違いが知りたい→最尤推定とベイズ推定の違いを例題を用いて解説
ベイズ推定量の定義が知りたい→ベイズ推定の考え方とその定義をわかりやすく解説
決定理論の意味を確認したい→決定理論とは?簡単にわかりやすく説明
損失関数、リスク関数などの用語の意味を確認したい→損失関数、危険関数(リスク関数)とは?【例題あり】、ベイズ推定の考え方とその定義をわかりやすく解説
ベータ分布の事後分布を確認したい→ベータ分布の事後分布の平均と分散
事前分布、事後分布の基本的な考え方について詳しく知りたい→ベイズ統計学とは?初心者向けのやさしい解説
事前分布、事後分布をベイズの定理から紐解きたい→ベイズの定理の導出と考え方をわかりやすく解説
Recommended