2017/07/07
2020/04/14
有効推定量とは?わかりやすく解説
このページでは、有効推定量について解説していきます。有効推定量とは、クラメール-ラオの下限を達成している不偏推定量のことです。
有効推定量は、統計的推定の点推定の一種になります。
不偏推定量とは?成り立ちを理解する
有効推定量を理解するには、まず不偏推定量を理解しなければなりません(不偏推定量に関する基本的な解説)。
不偏推定量は統計的推定で扱われる推定量の一つです。推定量は、母集団の未知パラメータを推測するために使われます。ですから、推定値と真のパラメータの誤差が小さいほど、良い推定と言えます。
ここで、標本から得られた推定量\(\hat{\theta}\)を母パラメータ\(\theta\)に確率的に近づけること考えます。つまり、平均二乗誤差
\(E[(\hat{\theta}-\theta)^2]\)
を最小にすることを考えます。
しかし、これを最小にするような\(\hat{\theta}\)の値を計算するのは困難です。そこで、上の式を次のように分解します。
\(E[(\hat{\theta}-\theta)^2]=E[\{(E[\hat{\theta}]-\theta)+(\hat{\theta}-E[\hat{\theta}])\}^2]=(E[\hat{\theta}]-\theta)^2+Var[\hat{\theta}]\)
この分解をバイアス-バリアンス分解と言います。右辺の第1項がバイアス(偏り)、第2項がバリアンス(分散)です。この分解は有名なので、覚えておくとよいかもしれません。
さて、左辺を最小にすることは、右辺を最小にすることと同じです。よって、バイアスとバリアンスの和を最小にすることを考えます。しかし、両方とも\(\hat{\theta}\)に対して決まる値であるため、最適な\(\hat{\theta}\)を見つけるのはまたも困難です。なので、バイアスを0にするような\(\hat{\theta}\)、つまり
\(E[\hat{\theta}]-\theta=0\Leftrightarrow E[\hat{\theta}]=\theta\)
を考えます。これを満たす\(\hat{\theta}\)を\(\theta\)の不偏推定量と言います。
平均や分散の不偏推定量の求め方はこちら⇨平均や分散の不偏推定量はどうなるのか?
不偏推定量の問題点
上記で説明した不偏推定量は、検定など非常に多くの場面で利用されています。しかし、この推定量には問題点があります。それは、一意性がないということです。
平均\(\mu\)、分散\(\sigma^2\)に従う母集団からデータを得たとき、その標本平均を\(\bar{x}\)とすると、
\(E[\bar{x}]=\mu\)
となるため、\(\bar{x}\)は\(\mu\)の不偏推定量である、ということは有名ですね(参考:平均と分散の不偏推定量はどうなるのか?)。しかし、\(\bar{x}\)の他にも不偏推定量になるものがたくさんあります。
例えば、yの分布が平均0の分布に従っているとしましょう。すると
\(E[\bar{x}+y]=E[\bar{x}]+E[y]=E[\bar{x}]+0=\mu\)
となるため、\(\bar{x}+y\)も\(\mu\)の不偏推定量であるということになります。このように、不偏推定量はパラメータに対して一意に存在するというわけではないのです。
有効推定量とは?
不偏推定量には一意性がないことがわかりました。ですので、不偏推定量は一般に、より良いものを選ぶ必要があります。
\(\hat{\theta}\)が\(\theta\)の不偏推定量であるとき、つまり\(E[\hat{\theta}]-\theta=0\)であるとき、平均二乗誤差は
\(E[(\hat{\theta}-\theta)^2]=(E[\hat{\theta}]-\theta)^2+Var[\hat{\theta}]=Var[\hat{\theta}]\)
になります。目的はこの左辺をできるだけ小さくすることでしたので、\(\hat{\theta}\)が\(\theta\)の不偏推定量であるという条件のもとでは、\(Var[\hat{\theta}]\)を最小にすることを考えればいいわけです。\(Var[\hat{\theta}]\)は\(\theta\)の値によらないので、\(Var[\hat{\theta}]\)を最小にするような不偏推定量\(\hat{\theta}\)は一様最小分散不偏推定量と言われています。
では、不偏推定量\(\hat{\theta}\)が一様最小分散不偏推定量であるかどうかチェックするにはどうすればいいのでしょうか?その方法の一つとしてクラメール-ラオの下限を用いる方法があります。
不偏推定量\(\hat{\theta}\)に対して、以下を満たす。
$$V[\hat{\theta}]\geq J_n(\theta)^{-1}$$
ただし、\(J_n(\theta)\)はフィッシャー情報量である。
(クラメール-ラオの下限の証明)
(フィッシャー情報量とは?)
この式は、どんな不偏推定量\(\hat{\theta}\)を取ってきても、\(Var[\hat{\theta}]\)は、フィッシャー情報量の逆数\(J_n(\theta)^{-1}\)より小さくはならないことを意味しています。これは、クラメール-ラオの式のイコールが存在するならば、\(Var[\hat{\theta}]\)の最小値が\(J_n(\theta)^{-1}\)となる、と解釈することができます。このように、\(V[\hat{\theta}]=J_n(\theta)^{-1}\)という等式が成り立つとき、不偏推定量\(\hat{\theta}\)はクラメール-ラオの下限を達成しているといい、クラメール-ラオの下限を達成しているような不偏推定量を有効推定量と言います。
以上から、有効推定量は全て一様最小分散不偏推定量になります。また、クラメール-ラオの式のイコールが存在しない、つまり\(V[\hat{\theta}]>J_n(\theta)^{-1}\)が成立しているとき、有効推定量は存在しません。
まとめ
いかがでしたでしょうか?当記事の内容をまとめると、有効推定量とは、クラメール-ラオの下限を達成している不偏推定量であるということです。これは不偏推定量に一意性がないため、最適な推定量を探すために考えられたと言えます。
関連ページとして、以下のページも合わせてお読みいただければと思います。
Recommended