母数の推定

母数とベイズの定理

母数とは確率分布を規定するパラメータを指す。例として、正規分布を規定する母数は平均値と分散である。

母数 \(\theta\) によって規定される確率分布に従って事象が起こり、結果としてデータ \(D\) が観測されると考えよう。頻度論では母数は定数として扱われる。

一方ベイズ統計では、観測された事象から逆に母数を推定することを考える。つまり母数 \(\theta\) を確率変数として扱う。

  • \(P(D\mid\theta)\) … 母数 \(\theta\) の元で事象 \(D\) が観測される確率
  • \(P([\theta,\theta+d\theta]\mid D)\) … 事象 \(D\) を観測した条件のもとで母数が微小区間 \([\theta, \theta+d\theta]\) に含まれる確率
  • \(P([\theta, \theta+d\theta])\) … 母数が \([\theta,\theta+d\theta]\) に含まれる事前確率

とすると、ベイズの定理は次式となる。

\[P([\theta, \theta+d\theta]\mid D) = \frac{P(D\mid\theta)P([\theta,\theta+d\theta])}{P(D)}\]

ここで \(P(D\mid\theta)\) は確率ではあるが、事象 \(D\) が固定されていて母数 \(\theta\) を変数とする関数である。この関数を \(\theta\) に関して全域に渡って積分しても 1 にならないので、これは確率分布ではない。これを尤度と呼び、 \(f(D\mid\theta)\) と表記することにする。

また、確率密度関数を用いると次式のように書き換えられる。

\[\pi(\theta\mid D)d\theta = \frac{f(D\mid\theta)\pi(\theta)d\theta}{P(D)}\]

\(\pi(\theta)\) を事前分布、 \(\pi(\theta\mid D)\) を事後分布という。

また、 \(P(D)\) は次式となる。

\[P(D) = \int_{-\infty}^\infty f(D\mid\xi)\pi(\xi)d\xi\]

確率密度関数

前節で出てきた確率密度関数について説明する。

母数 \(\theta\) は連続的な値を取る確率変数である。 確率変数が連続量のときは、確率密度関数 \(\pi(\theta)\) によって確率を表す。 \(\theta\) が区間 \([a, b]\) の値を取る確率は次式で表される。

\[P(a \le \theta \le b) = \int_a^b \pi(\theta)d\theta\]

ただし

\[\pi(x) > 0, \quad \int_{-\infty}^\infty \pi(\theta)d\theta = 1\]

期待値は次式で与えられる。

\[E[f] = \int_{-\infty}^\infty f(\theta)\pi(\theta)d\theta\]

特に平均値は次式となる。

\[\bar{\theta} = \int_{-\infty}^\infty \theta\pi(\theta)d\theta\]

ベイズ推定

ベイズ推定では母数の事後分布 \(\pi(\theta\mid D)\) について調べていく。例えば母数の平均値は次式で得られる。

\[\begin{split}\bar{\theta} &= \int_{-\infty}^\infty \theta\pi(\theta\mid D)d\theta \\ &= \frac{ \int_{-\infty}^\infty \theta f(D\mid\theta)\pi(\theta)d\theta }{ \int_{-\infty}^\infty f(D\mid\theta)\pi(\theta)d\theta }\end{split}\]

この積分を実際に求めるにはどうすればよいか、が問題となる。 尤度や事前分布の関数形によっては積分が複雑となり実際に計算するのが難しくなってしまう。そこで次の2種類のアプローチが考えられている。

  • 共役事前分布を用いる方法: 尤度の関数形に事前分布の関数形をうまく合わせておき、数式として積分計算が行えるようにする。
  • MCMC法: モンテカルロ法による数値計算で積分計算を行う方法。

ベイズ更新

データの列 \(D_1, D_2, \cdots, D_m\) が観測された場合、その母数 \(\theta\) の事後分布は次式となる。

\[\begin{split}\pi_m(\theta) &= \pi(\theta|D_1, D_2, \cdots, D_m) \\ &= \frac{f(D_m|\theta)\pi(\theta|D_1, D_2, \cdots, D_{m-1})} {\int f(D_m|\xi)\pi(\xi|D_1, D_2, \cdots, D_{m-1})d\xi} \\ &= \frac{f(D_m|\theta)\pi_{m-1}(\theta)} {\int f(D_m|\xi)\pi_{m-1}(\xi)d\xi}\end{split}\]

この式により、データを観測するたびに確率分布を更新していくことができる。

逐次合理性

\[\begin{split}\pi_m(\theta) &= \frac{f(D_m|\theta)\pi_{m-1}(\theta)} {\int f(D_m|\xi)\pi_{m-1}(\xi)d\xi} \\ &= \frac{f(D_m|\theta)f(D_{m-1}|\theta)\pi_{m-2}(\theta)} {\int f(D_m|\xi)f(D_{m-1}|\xi)\pi_{m-2}(\xi)d\xi} \\ &= \cdots \\ &= \frac{f(D_m|\theta)f(D_{m-1}|\theta)\cdots f(D_1|\theta)\pi_0(\theta)} {\int f(D_m|\xi)f(D_{m-1}|\xi)\cdots f(D_1|\xi)\pi_0(\xi)d\xi} \\\end{split}\]

ここで

\[q_m(\theta) = \left(\prod_{j=1}^m f(D_j|\theta)\right)\pi_0(\theta)\]

とおくと

\[\pi_m(\theta) = \frac{q(\theta)}{\int q(\xi)d\xi}\]

\(q(\theta)\) はデータの並び順に依らないので、逐次合理性が成り立っている。