2017/07/17
2020/04/21
ベイズ推定の定義とその考え方をわかりやすく解説
ベイス統計では、ベイズ推定法(ベイズ推定)という考え方が有名です。これは、ベイズ推定量というのを計算する点推定の一種です。
しかしこのベイズ推定量を導出する過程には、ある程度の事前知識が必要です。そこで当ページでは、ベイズ推定法を理解するための事前知識として、リスクやベイス推定量などの用語の解説を中心に、ベイズ推定の理論についてわかりやすく説明しています。
(ベイズ推定法の実践編→ベイズ推定量の導出!例題と解説(最尤推定量と比較))
ベイズ推定には決定理論使う!
ベイズ推定には、決定理論という概念を使います。つまり、ベイズ推定を考えるためには、知識として決定理論を知っておかなければなりません。
決定理論とは、得られた情報(データ)からどのような行動をとると決定するかを、数学・統計学的に行う理論のことです。
(決定理論の基本的な考え方の超基本的な考え方はこの記事を参考にしてください⇨決定理論とは?簡単にわかりやすく説明)
まず、説明のために次のように空間を定義します。
・標本空間\(X\)…確率変数の観測値からなる集まり
・行動空間\(A\)…行動の全体
・決定空間\(D\)…決定関数の全体
・母数空間\(\Theta\)…パラメータが取りうる値の全体
そして、損失関数、決定関数、リスク関数を次のように定義します。
・損失関数
$$L(\theta,a)$$
・決定関数
$$\delta(x):X→A$$
・リスク関数
$$R(\theta,\delta)=E[L(\theta,\delta(x))]$$
損失関数、リスク関数についての基本的な説明については、『損失関数、危険関数(リスク関数)とは?【例題あり】』を参照してください。
ここで定義した3つの関数について一つ一つ具体的な説明を加えていきます。
損失関数
一般に損失関数\(L(\theta,a)\)はどのような行動を取るかによって決まるため、行動\(a\)の関数になります。損失関数のおき方には次のようなものがあります。
・絶対損失…\(L(\theta,a)=|\theta-a|\)
・平方損失…\(L(\theta,a)=(\theta-a)^2\)
また、行動\(a_0\)をとったとき、つまり\(L(\theta,a=a_0)\)は、\(a_0\in A\)という行動をとったときのパラメータ\(\theta\in \Theta\)との間に発生した損失と言います。
決定関数
\(\delta(x):X→A\)を決定関数と言います。\(\delta(x)=a\)とすると、これは\(x\in X\)というデータが与えられたときに\(a\in A\)という行動を選ぶということです。
リスク関数
損失関数の期待値
\(R(\theta,\delta)=E[L(\theta,\delta(x))]\)
をリスク関数と言います。また、リスク関数に実際に決定手法\(\delta_0\)が入ったとき、\(R(\theta,\delta_0)\)はリスクと言います。
リスク関数は決定関数\(\delta\)の関数になっています。つまり、どのような決定をしたかによってリスクの値が変わる、ということです。
(具体的な損失やリスクの計算は「損失関数、危険関数(リスク関数)とは?【例題あり】」を参考にしてください)
例題〜決定関数、損失関数、リスク関数の利用〜
話がややこしくなってきたと思いますので、例題を用いて説明しましょう。
平均\(\mu\)、分散\(\sigma^2\)に従う正規母集団からデータ\({x_1,x_2,…,x_n}\)をとってきた。ここで、データが得られたときに、その平均を返す決定関数を考えると、リスクはどうなるか?
(ただし、損失関数は平方損失を考えるとする。)
決定関数は\(\delta(x)=\frac{1}{n}\sum_{i=1}^{n}x_i=\bar{x}\)であるので、損失関数は
\(L(\mu,\bar{x})=(\mu-\bar{x})^2\)
となります。よってリスク関数は
\(R(\mu,\bar{x})=E[L(\mu,\bar{x})]=E[(\mu-\bar{x})^2]=Var[\bar{x}]=\frac{\sigma^2}{n}\)
となります。
この例題は、\(\bar{x}\)は\(\mu\)の不偏推定量であるということを考えれば、得られたデータから不偏推定量を返すという決定をしたときのリスクは\(\frac{\sigma^2}{n}\)になる、と解釈することができます。
ベイズ推定は平均リスクを最小にする考え方
決定理論の考え方についてはお分りいただけましたでしょうか。ここからいよいよベイズ推定の説明に入ります。
ベイズ推定は、平均リスクを最小にする考え方です。平均リスクとは、事前分布におけるリスクの期待値になります。
そこで、事前分布を導入し、平均リスクを次のように定義します。
(事前分布の説明については「ベイズ統計学とは?初心者向けのやさしい解説」や「ベイズの定理の導出と考え方をわかりやすく説明」をご覧ください。)
\(\pi(\theta)\)を\(\theta\)を確率変数とみなした事前分布とする。リスクを\(R(\theta,\delta)\)とすると、
$$r(\pi,\delta)=E[R(\theta,\delta)]$$
$$=\int_{\Theta}R(\theta,\delta)\pi(\theta)d\theta (連続型)$$
$$=\sum_{\theta\in\Theta}R(\theta,\delta)\pi(\theta) (離散型)$$
を平均リスクという。
この平均リスクも決定の仕方によって値が変わるため、\(\delta\)の関数になっています。
決定関数\(\delta\)を(データ\(x\)から得られる)\(\theta\)の推定量を返す関数としたとき、この平均リスクを最小にするような推定量をベイズ推定量と言います。また、このときのリスクをベイズリスクと言います。これをまとめると次のようになります。
平均リスク\(r(\pi,\delta)\)を最小にするような\(\theta\)の推定量\(T=\delta(x_1,x_2,…,x_n)\)があるとき、この\(T\)を事前分布\(\pi(\theta)\)に対するベイズ推定量という。
また\(T\)がベイス推定量であるとき、このときのリスク\(r(\pi,T)\)をベイズリスクという。
以上で用語の解説は終わりです。これらを使って実際にベイズ推定量を計算した『ベイズ推定量の導出!例題と解説(最尤推定量と比較)』の記事もぜひ参考にしてください。
まとめ
ベイズ推定量の定義は、平均リスクを最小にするような推定量です。ベイズ推定量はよく最尤推定量と比較されることがありますが、この理論を見る限りでは全く関係性が見えてきませんね(最尤推定とベイズ推定の違い→『最尤推定とベイズ推定の違いを例題を用いて解説』)。この二つの推定量の関係性は、ベイズ推定量の性質を知らなければなりません。この性質については、『ベイズ推定量の導出!例題と解説(最尤推定量と比較)』で紹介しているので、ぜひ読んでみてください。
参考記事
実際にベイズ推定量を求めたい、ベイズ推定量の性質が知りたい→ベイズ推定量の導出!例題と解説(最尤推定量と比較)
決定理論の基礎、考え方が知りたい→決定理論とは?簡単にわかりやすく説明
損失関数、リスク関数の基本的な考え方が知りたい→損失関数、危険関数(リスク関数)とは?【例題あり】
最尤推定とベイズ推定の違いが知りたい→最尤推定とベイズ推定の違いを例題を用いて解説
事前分布、事後分布の基本的な考え方について知りたい→ベイズ統計学とは?初心者向けのやさしい解説
事前分布、事後分布の意味をベイズの定理から厳密に紐解きたい→ベイズの定理の導出と考え方をわかりやすく説明
Recommended