2017/07/17
2020/04/21
最尤推定量とは?初めての人にもわかる解説
このページでは、最尤推定量について解説していきたいと思います。最尤推定量は点推定の一種で、重要な役割を果たしています。また、ベイズ推定との関係性においても議論されます(参考:『最尤推定とベイズ推定の違いを例題を用いて解説』)。
事前の知識として、統計的推定の点推定という考え方を知っていると、当記事もすんなりと理解出来ます。
⇨統計的推定とは?~点推定と区間推定の違い~
最尤推定量とは?考え方を理解する
最尤推定量の定義に入る前に、まずは具体例をまじえつつその考え方を理解していきましょう。
最尤推定量とは、文字の如く、最も尤もらしい推定量のことです。このことから、なんとなく一番良い推定量だという気がしてきますよね?果たして本当にそうなのでしょうか。
ここで、「最も」は「一番」という意味ですが、では「尤もらしい」というのはどういう意味なのでしょうか?
ひとつ例を出して考えて見ましょう。
コインが1枚ある。このコインはどうもイカサマコインらしく、表の出る確率が\(\frac{1}{2}\)ではないらしい。ここで表の出る確率を調べるために、このコインを10回投げたところ、8回表が出た。さて、このコインの表が出る確率はいくつだろうか?
もちろんコインの表が出る真の確率はわかりませんので(神様のみがわかる値です)、この値を推定しなければなりません。さて、あなたはこの真の確率をどのように推定するでしょうか?
10回中8回表が出ているという結果から、なんとなく\(\frac{8}{10}=\frac{4}{5}\)と推定することが可能です。まさにこの値が最尤推定量になります。
しかし「なんとなく」では数学的、統計的にはよくありません。統計学的には、しっかりと\(\frac{4}{5}\)とした根拠を提示する必要があります。
最尤推定量とは、手元のデータが、どの母パラメータに従う分布から得られる確率が最も高いかに基づいて考えられる推定量です。上の例の場合ですと、「10回中8回出た」というデータが、表が出る(真の)確率がいくつのときに最も得られる確率が高いか、ということです。
このままだと、まだわかりづらいと思うので、具体例として次のような計算をしていきます。表が出る確率を変えていきながら今回のように10回中8回表が出る確率を確率を考えてみましょう。
(ⅰ) コインの表が出る真の確率が\(\frac{1}{2}\)のとき、10回中8回表が出る確率
\({}_{10}C_8(\frac{1}{2})^8(\frac{1}{2})^2\approx 0.0439=4.39\%\)
(ⅱ) コインの表が出る真の確率が\(\frac{2}{3}\)のとき、10回中8回表が出る確率
\({}_{10}C_8(\frac{2}{3})^8(\frac{1}{3})^2\approx 0.195=19.5\%\)
(ⅲ) コインの表が出る真の確率が\(\frac{3}{4}\)のとき、10回中8回表が出る確率
\({}_{10}C_8(\frac{3}{4})^8(\frac{1}{4})^2\approx 0.282=28.2\%\)
(ⅳ)コインの表が出る真の確率が\(\frac{4}{5}\)のとき、10回中8回表が出る確率
\({}_{10}C_8(\frac{4}{5})^8(\frac{1}{5})^2\approx 0.302=30.2\%\)
(ⅴ) コインの表が出る真の確率が\(\frac{5}{6}\)のとき、10回中8回表が出る確率
\({}_{10}C_8(\frac{5}{6})^8(\frac{1}{6})^2\approx 0.291=29.1\%\)
このように、母パラメータの取りうる範囲で全て計算を行ったとき、「10回中8回表が出る」というデータが得られる確率が最も高くなるのが\(\frac{4}{5}\)のときなのです。こういった意味で、「尤もらしい=いかにも道理にかなっている」推定である\(\frac{4}{5}\)が最尤推定量になります。
しかし、母パラメータの取りうる範囲で全て計算を行うのは事実上不可能ですね(おそらくほとんどの場合が実数値をとるので、数式の数が無限になる)。そこで最尤推定量を計算で導出していくことにしましょう。
(この考え方はベイズ統計の考え方と同じです。『ベイズ統計学の考え方~ベイズ論と頻度論の違い~』の記事では違ったアプローチでの解説を行っているのでぜひご覧ください。)
最尤推定量の定義
最尤推定量の考え方はお分りいただけましたでしょうか。ここで定義の説明に入ります。
最尤推定量の定義は以下のようになります。
パラメータ\(\theta\)に従う分布の密度関数を\(f(x;\theta)\)とする。尤度関数を\(L(\theta;x)=f(x;\theta)\)とすると、\(L(\theta;x)\)を最大にするような推定量\(\theta=\hat{\theta}\)を\(\theta\)の最尤推定量という。
尤度関数とは、パラメータ\(\theta\)を変数としてみたときの関数です。
(尤度関数についてはこちら→『尤度関数、スコア関数、フィッシャー情報量とは?』)
二項分布の場合の最尤推定量の導出
記事の冒頭で示した例題の数字の部分を文字式に置き換えて考えて見ましょう。これによって、二項分布の最尤推定量を一般化して導出できます。
コインが1枚ある。このコインの表の出る真の確率をp(未知)とする。このコインをn回投げたところ、x回表が出た。このとき、pの最尤推定量を求めよ。
さて、このxは二項分布\(Bi(n,p)\)に従います。二項分布の密度関数は
\(f(x;\theta)={}_nC_x\theta^x(1-\theta)^{n-x}\)
であるから、尤度関数は
\(L(\theta;x)={}_nC_x\theta^x(1-\theta)^{n-x}\)
となり、この\(L(\theta;x)\)が最大になるような\(\theta\)を考えます。通常最大値(極大値)を求めるときには微分します。しかし、この関数を微分するのは少々面倒なので、対数尤度関数
\(l(\theta)=logL(\theta;x)\)
を微分し、最大値を考えます。
(これは、対数関数が\((0,\infty)\)の範囲で単調に増加するため、\(L(\theta;x)\)が最大になるような\(\theta\)と\(l(\theta)\)が最大になるような\(\theta\)が一致することを利用しています。また、尤度関数ではなく対数尤度関数を微分する理由は、logをとることで積の形から和の形にできるため、微分計算が楽になるからです。)
対数尤度関数は
\(l(\theta)=logL(\theta;x)=log[{}_nC_x\theta^x(1-\theta)^{n-x}]\)
\(=log[\frac{n!}{x!(n-x)!}\theta^x(1-\theta)^{n-x}]\)
\(=log(n!)-log(x!)-log(n-x)!+log\theta^x+log(1-\theta)^{n-x}\)
\(=log(n!)-log(x!)-log(n-x)!+xlog\theta+(n-x)log(1-\theta)\)
となるので、\(\theta\)で微分すると、
\(log(n!)-log(x!)-log(n-x)!\)は\(\theta\)に対して定数となるので、微分すると0になる。
\(l'(\theta)=\frac{x}{\theta}-\frac{n-x}{1-\theta}\)
\(=\frac{x(1-\theta)-(n-x)\theta}{\theta(1-\theta)}\)
\(=\frac{x-n\theta}{\theta(1-\theta)}\)
が得られます。これが0となるとき最大になるので、
\(\frac{x-n\theta}{\theta(1-\theta)}=0\)
\(\Leftrightarrow x-n\theta=0\)
\(\Leftrightarrow x=n\theta\)
\(\Leftrightarrow \theta=\frac{x}{n}\)
となります。
以上より、二項分布の場合、\(\hat{\theta}=\frac{x}{n}\)が\(\theta\)の最尤推定量となります。これで、「10回中8回表が出る」という例でいうならば、n=10、x=8となるため、最尤推定量が\(\frac{4}{5}\)であるという根拠が示せました。
(二項分布ついて詳しくは二項分布のわかりやすいまとめをご覧ください。)
まとめ
最尤推定量の「最も尤もらしい推定」の意味がわかっていただけたでしょうか。この推定手法が最も良いのかは、場合によります。統計学には他にも様々な推定手法があり、どれを使うのが良いかはシチュエーション毎に異なるからです。
他の推定量や関連のあるベイズ統計の記事もぜひ参考にして見てください。
参考記事
一致推定量→一致推定量とは?平均と分散の一致推定量
不偏推定量→平均と分散の不偏推定量はどうなるのか?
有効推定量→有効推定量とは?わかりやすく解説
最尤推定とベイズ推定の違い→最尤推定とベイズ推定の違いを例題を用いて解説
ベイズ統計の考え方→ベイズ統計学の考え方~ベイズ論と頻度論の違い~
Recommended