尤度原理について

最近Twitter上で尤度原理に関する議論を見かけました。統計的推論において重要な考え方の一つだと思うのですが、日本語の統計学の本にはあまり書かれていないかもしれません。また、その字面から「尤度原理=最尤推定をすること」と勘違いしている人もいるかもしれません(私自身、昔そのように勘違いしていました)。そんなわけで、この記事では尤度原理について軽く解説してみたいと思います。

尤度原理とは

データ\(x\)に対して確率分布\(p(x|\theta)\)を考えます。\(x\)を観測したもとで\(\theta\)に関する推論・決定を行う際に、データから得られる情報はすべて\(x\)に対する尤度関数に含まれると考えるのが尤度原理です。また2つの尤度関数があり、それらを\(\theta\)の関数と見たときに互いに比例関係にあるとき、両者は\(\theta\)に関して同じ情報を含んでいると考えます。

尤度原理に従わない推論の例

以下の例は尤度原理の説明としてよく用いられます。

表が出る確率が\(\theta\)であるコインが与えられ、\(\theta\)に関する推論を考えます。ここでは\begin{align*}H_{0}&: \theta=\frac{1}{2}\\H_{1}&:\theta>\frac{1}{2}\end{align*}という仮説検定を考えます。実際にコインを投げる(独立な)試行を行い、表が9回、裏が3回というデータを得たとします。

このままでは尤度関数\(p(x|\theta)\)を規定することができません。「どのようにしてこのデータを得たのか」に関する説明が不足しているからです。ここでは以下の2つの可能性を考えます。

  1. 予めコインを12回投げると決めていた。この場合、表が出た回数\(X\)は二項分布に従う。
  2. 裏が3回出るまでコインを投げると決めていた。この場合、表が出た回数\(X\)は負の二項分布に従う。

1. と2. のケースでそれぞれ尤度関数は以下のようになります。\begin{align*}l_{1}(\theta)&=p_{1}(x|\theta)=\left(\begin{array}{c}n\\x\end{array}\right)\theta^{x}(1-\theta)^{n-x}=220\cdot \theta^{9}(1-\theta)^{3}\\l_{2}(\theta)&=p_{2}(x|\theta)=\left(\begin{array}{c}n+x-1\\x\end{array}\right)\theta^{x}(1-\theta)^{n-x}=55\cdot \theta^{9}(1-\theta)^{3}\end{align*}\(l_{1}(\theta)\)と\(l_{2}(\theta)\)は\(\theta\)の関数と見たときに互いに比例関係にあるので、尤度原理に従うとするならば\(l_{1}(\theta)\)と\(l_{2}(\theta)\)は\(\theta\)に関して同じ情報を持っていると考えます。つまり、尤度原理に則るならば、データのとり方が1.でも2.でも\(\theta\)に関する推論・決定に差は生じないことになります。

尤度原理に従わない推論の例が帰無仮説検定です。1.のケースと2.のケースで\(\theta=\frac{1}{2}\)のもとで\(X\)が9以上になる確率を計算してみましょう。\begin{align*}\alpha_{1}&=\mbox{Pr}(X\ge9)=p_{1}(9|\tfrac{1}{2})+p_{1}(10|\tfrac{1}{2})+p_{1}(11|\tfrac{1}{2})+p_{1}(12|\tfrac{1}{2})=0.075\\ \alpha_{2}&=\mbox{Pr}(X\ge9)=p_{2}(9|\tfrac{1}{2})+p_{2}(10|\tfrac{1}{2})+\ldots=0.0325\end{align*}この計算結果から、有意水準5%で帰無仮説検定を行ったとすると、データの取られ方が1.だったときには帰無仮説は棄却されず、データの取られ方が2.だったときには帰無仮説が棄却されます。このようにデータの取られ方によって\(\theta\)に関する推論の結果が変わってくるため、帰無仮説検定は尤度原理を満たさないということになります。

尤度原理=「最尤推定をすること」ではない

冒頭でも述べたとおり、尤度原理は「\(\theta\)の推定として最尤推定を行うこと」ではありません。もちろん\(\theta\)の点推定として最尤推定量を用いるという決定は尤度原理を満たします。先ほどの例でいえば、1.のケースでも2.のケースでも\(\theta\)の推定値として\(\frac{3}{4}\)という値を出力します。では\(\theta\)に対して事前分布\(p(\theta)\)を仮定して\(\theta\)の推定量として事後確率最大推定量を用いるという決定は尤度原理を満たさないかというとそんなことはなく、この方法も尤度原理を満たします。これは事前分布が同じであれば、データの取られ方が1.であっても2.であっても、\(\theta\)の事後確率最大推定量が同じになることから分かります。尤度原理は「データから得られる情報」はすべて尤度関数に含まれているという考え方ですが、事前分布の情報はデータから得られる情報とは別の情報ですので、矛盾はありません。先ほどの仮説検定問題に対してもベイズファクターに基づく方法は尤度原理を満たします。

本記事は主にJ. O. Berger, “Statistical Decision Theory and Bayesian Analysis,” Springerを参考に書きました。タイトルから分かるように主に統計的決定理論に関する教科書ですが、尤度原理など様々な統計哲学についても詳しく書かれています。早稲田大学の学生は学内ネットワーク接続でこちらからダウンロードできます。

関連記事

  1. Bayesian Causal Inferenceでは傾向ス…

  2. データ科学入門Ⅱ発刊

  3. AAAI2024に論文が採択されました!

  4. AICによるモデル選択の意味を数値実験を通じて理解する

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。