2018/06/22
2020/04/14
ベイズ統計の区間推定を解説!頻度論との違いも!
ベイズ統計にも頻度論的統計と同様に区間推定が存在します。このページではベイズ統計における区間推定について説明します。
区間推定の考え方→『統計的推定とは?~点推定と区間推定の違い~』
目次
頻度論における区間推定の考え方
頻度論における区間推定の考え方について説明します。ひとつ例を考えて見ましょう。
母分散既知の正規分布に従う標本からデータをn個取ってきたとき、母平均に関する区間推定は、有意水準を\(\alpha\)とすると、
$$\bar{X}-Z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}}\leq\mu\leq\bar{X}+Z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma^2}{n}}$$
と表せられます。このような区間は信頼区間と呼ばれています。
頻度論はパラメータを定数、データを確率変数として考えるので、上記の式を書き直すと、
$$変数\leq定数\leq変数$$
となり、区間が変数となることがわかります。つまり、得られるデータによって区間が変動するのです。よって95%信頼区間は「データを得て100個の信頼区間を作ったとき、95個の信頼区間が真のパラメータを含む」というように解釈されます。
ベイズ論における区間推定の考え方
対して、ベイズ統計ではパラメータを確率変数、データを定数として考えるので、上記の式は、
$$定数\leq変数\leq定数$$
と書き換えられ、区間が定数となります。つまりベイズ統計の区間推定では、真のパラメータがその区間に存在する確率そのものが得られます。このような区間は信用区間(確信区間)と呼ばれています。
確率変数\(\theta\)の分布は事後分布によって与えられていますから、\(100(1-\alpha)\)%信用区間は以下のように与えられます。
例題〜信頼区間と信用区間の違い〜
日本人男性全体の平均身長\(\mu\)を調べたい。日本人男性全員を調査することは不可能なので、無作為に標本抽出をした。このデータから日本人男性全体の身長を推測したい。
⑴得られた標本から作成された95%信頼区間が\(160\leq\mu\leq180\)であった。この解釈を述べよ。
⑵得られた標本から作成された95%信用区間が\(160\leq\mu\leq180\)であった。この解釈を述べよ。
⑴今回作成された\(160\leq\mu\leq180\)という区間内に真の平均身長\(\mu\)を含む確率は95%である。「真の平均身長が165cm〜175cmである確率」などは存在せず、あくまでもこの区間内に真値を含むか否かでしか測れない。
⑵真の平均身長\(\mu\)を確率変数とみなす。このとき、確率変数\(\mu\)が\(160\leq\mu\leq180\)の値をとる確率が95%である。「真の平均身長が165cm〜175cmである確率」などが存在する。得られたデータから、真の平均身長をとる値を確率的に推測できる。
信用区間(確信区間)の定義
信用区間の定義は以下のようになります。
\(\theta\)の\(100(1-\alpha)\%\)区間とは、
$$P\{C|X=x\}=1-\alpha$$
を満たすような部分集合\(C\subset\Theta\)である。
ただし、\(\theta\)は連続型の確率変数とします。
ベイズ統計の信用区間は、等裾事後信用区間と最高事後密度信用区間(HPD区間)の2つが有名です。
以下、\(\alpha=\alpha_1+\alpha_2\)、\(\theta^{(1)}\)、\(\theta^{(2)}\)をそれぞれ\(100\alpha_1\%\)点、\(100\alpha_2\%\)点として説明していきます。
等裾事後信用区間は両裾を等しく切り捨てる!
\(\alpha_1=\alpha_2=\frac{\alpha}{2}\)と言うように\(\alpha_1\)、\(\alpha_2\)を選んだとき、得られる信用区間を等裾事後信用区間と言います。\(95\%\)等裾事後信用区間は以下のようになります。
つまり、等裾事後信用区間は両裾を等しく切り捨てるような形になります。
等裾事後信用区間は最頻値を含まない可能性がある
等裾事後信用区間には問題点があります。それは信用区間を考えたとき、最頻値を必ずしも含まないというものです。
指数分布を例に考えて見ましょう。指数分布における等裾事後信用区間は以下のようになります。
最も取りうる確率が高い(信用度の高い)\(\theta=0\)の部分が信用区間に入っていません。これを信用区間に採用するのは議論の余地がありそうです。
そこで、この問題を打開した最高事後密度信用区間(HPD区間)というものが現れました。
最高事後密度信用区間(HPD区間)とは?
最高事後密度信用区間(HPD区間)は以下のように定義されます。
$$C=\{\theta;\pi(\theta|X=x)\geq k\}$$
を満たすような集合\(C\)を最高事後密度信用区間(HPD区間)という。ただし、\(k\)は
$$P(C|X=x)=1-\alpha$$
となるように選ばれる。
式にすると難しいですが、考え方は簡単です。以下の画像のように、\(\alpha_1+\alpha_2=\alpha\)になるように\(k\)の高さを調整すれば良いのです。
これは必ず最頻値を含みます。また、事後分布が単峰型でなくても扱うことができます。
ベイズ統計における区間推定のまとめ
いかがでしたでしょうか。ベイズ統計の区間推定をまとめると次のようになります。
・信頼区間(頻度論)…頻度論はパラメータを定数、データを確率変数として考える。よって、95%信頼区間は「データを得て100個の信頼区間を作ったとき、95個の信頼区間が真のパラメータを含む」と解釈される。
・信用区間(ベイズ論)…ベイズ統計ではパラメータを確率変数、データを定数として考える。よって、真のパラメータがその区間に存在する確率そのものが得られる。
・等裾事後信用区間…事後分布において、両裾を等しく切り捨てる形になる。
・最高事後密度信用区間(HPD区間)…\(\alpha_1+\alpha_2=\alpha\)になるように\(k\)の高さを調整し切り捨てた形になる。
信用区間を用いた区間推定もぜひやって見てください!
最新投稿記事
-
AIプロジェクトの企画と失敗しない進め方を解説 2021年1月19日
-
AVILEN人材育成コース受講体験談:山田裕之さん「E資格の”その先”を目指して」 2021年1月8日
-
AI導入とは?RPAとの関係、プロセス、事例、メリット、費用を詳細に解説 2020年12月7日
-
注目のAI開発企業11社!支援領域や提供方法など検証! 2020年10月28日
-
AI人材を育成できる研修プログラムを一挙紹介! 2020年10月20日
-
【2021年版】期待のAI資格11選!就職・転職にも使える! 2020年10月18日
-
JDLAとは?G検定、E資格の認定プログラム、合格者の会など紹介! 2020年10月14日
-
G検定(2020#3)受験申し込み開始、11月7日(土)実施-JDLA 2020年10月1日
-
【独占】コロナ禍で人材登録急増、アノテーション単月売上高は4倍超-パソナJOB HUB 2020年10月1日
-
E資格を転職に活用!評判とデータを徹底調査! 2020年9月29日
週間ランキング
【2021年版】コスパ重視のG検定対策!おすすめの本・講座・教材を一挙紹介! 2020年6月6日
G検定に短期間・独学で合格した勉強法を解説! 2020年8月3日
【2021年版】期待のAI資格11選!就職・転職にも使える! 2020年10月18日
G検定は難しい?難易度・合格ライン・問題を徹底解説! 2020年6月19日
注目のAI開発企業11社!支援領域や提供方法など検証! 2020年10月28日
G検定に落ちた人、合格した人。勉強法の違いはどこにある? 2020年6月25日
最弱オセロを初めて攻略した天才オセロ高校生。負け方を解説! 2020年7月31日
【2021年版】E資格とは?大注目のディープラーニングの資格を解説! 2020年9月29日
E資格の難易度を、合格率と問題から徹底分析! 2020年8月11日
MLOpsとは|定義、メリット、課題、ツール、ワークフローを分かりやすく解説 2020年9月18日
