【ベイズ推論】一次元ガウス分布の平均・分散についてのベイズ推論の意味

前回記事では, 一次元ガウス分布を観測モデルに持つようなベイズ推論を行うために, 事前分布はパラメータ  v=(v_1,v_2,v_3,v_4) により,
\begin{align*}
p(\lambda|v )
&= z(v)\exp\left\{v_1\ln{\lambda} -v_2\lambda +v_3\lambda\mu -\dfrac{v_4}{2}\lambda\mu^2 \right\},\\
z(v)^{-1}
&=\sqrt{\dfrac{2\pi}{v_4}}\dfrac{\Gamma(v_1+\frac12)}{v_2^{v_1+\frac12}}
\left(1 -\dfrac{v_3^2}{2v_2v_4}\right)^{-(v_1+\frac12)}
\end{align*}
置いたとき, 事前分布に対する予測分布を
\begin{align*}
p(X_\ast|v)
&= \dfrac{1}{\sqrt{2\pi}}\sqrt{\dfrac{v_4}{v_4+1}}\dfrac{\Gamma(v_1+1)}{\Gamma(v_1+\frac12)}
\left(v_2 -\dfrac{v_3^2}{2v_4}\right)^{-\frac12}\\
&\quad\times \left\{ 1+ \dfrac{v_4}{2(v_4+1)(v_2-\frac{v_3^2}{2v_4})}\left(X_\ast-\frac{v_3}{v_4}\right)^2\right\}^{-(v_1+1)}
\end{align*}
と得ました.
今回記事では, ハイパーパラメータを変数変換することにより, この意味を明確にしていきましょう.
まず, 事前分布は次のようにガンマ分布の確率密度関数  G と, 正規分布確率密度関数  N との積に書き換えられます.
\begin{align*}
p(\lambda|v )
&= z(v)\sqrt{\dfrac{2\pi}{v_4}} \lambda^{v_1-\frac12}e^{-(v_2-\frac{v_3^2}{2v_4})\lambda}
\exp\left\{-\dfrac{v_4\lambda}{2}\left(\mu - \frac{v_3}{v_4}\right)^2 \right\}\\
&= \textrm{G}\left(\lambda|v_1+\frac12, v_2-\frac{v_3^2}{2v_4}\right)
N\left(\mu| \frac{v_3}{v_4}, (v_4\lambda)^{-1}\right).
\end{align*}
このことから, 共役事前分布はハイパーパラメータを元にガンマ分布に従う分散を求め,
その分散も用いて正規分布に従う平均を求めるグラフィカルモデルと位置づけることが出来ます.
それでは, 事前分布が
\begin{equation}
p(\lambda|v )=\textrm{G}\left(\lambda|a, b\right)
N\left(\mu| m, (\beta\lambda)^{-1}\right)
\end{equation}
となるようなハイパーパラメータ( a,b,m,\beta)に置き換えましょう;
\begin{equation}
\left\{\begin{split}
&a=v_1+\frac12 \\
&b=v_2 - \frac{v_3^2}{2v_4} \\
&m=\frac{v_3}{v_4}\\
&(\beta\lambda)^{-1} = (v_4\lambda)^{-1}
\end{split}\right.
\Rightarrow
\left\{\begin{split}
&v_1= a-\frac12\\
&v_2=b +\frac12 m^2\beta\\
&v_3 = m\beta\\
&v_4= \beta
\end{split}\right.
\end{equation}
すると, 事前分布による予測分布は,
\begin{align*}
p(X_\ast|v)
&=\dfrac{\beta}{2\pi(\beta+1)b}\dfrac{\Gamma(a+\frac12)}{\Gamma(a)}\\
&\quad\times \left\{ 1+\dfrac{\beta}{2(\beta+1)b}(X_\ast-m)^2\right\}^{-(a+\frac12)}
\end{align*}
という, 自由度  2a t-分布の確率密度関数に近い形をしています.
実はこれは, 自由度  2a t-分布に従う確率変数  T に対して,
\begin{equation}
\tilde{T}=m+\dfrac{\beta a}{(\beta+1)b}T
\end{equation}
により定められる確率変数  \tilde{T}確率密度関数です.
さらに, 事後分布  p(\mu|\bar{X})=p(\mu|v+\hat{v}) による予測分布  p(X_\ast|\bar{X},v) を求めましょう.
 v の代わりに  v+\hat{v} を代入すればよいので,
新たにパラメータ  \hat{a}, \hat{b}, \hat{m},\hat{\beta} を次のように置きます;
\begin{equation}
\left\{\begin{split}
&\hat{a}=(v+\hat{v})_1+\frac12=a+\dfrac{N}{2} \\
&\hat{b}=(v+\hat{v})_2 - \frac{(v+\hat{v})_3^2}{2(v+\hat{v})_4}
=b+\dfrac12\left(\sum X_n^2 +m^2\beta -\hat{m}^2\hat{\beta}\right) \\
&\hat{m}=\frac{(v+\hat{v})_3}{(v+\hat{v})_4}=\dfrac{m\beta+\sum X_n}{\beta+N}\\
&\hat{\beta} = (v+\hat{v})_4=\beta+N
\end{split}\right.
\end{equation}
すると, 事後分布による予測分布は,
\begin{align*}
p(X_\ast|\bar{X}, v)
&=\dfrac{\hat{\beta}}{2\pi(\hat{\beta}+1)\hat{b}}\dfrac{\Gamma(\hat{a}+\frac12)}{\Gamma(\hat{a})}\\
&\quad\times \left\{ 1+\dfrac{\hat{\beta}}{2(\hat{\beta}+1)\hat{b}}(X_\ast-\hat{m})^2\right\}^{-(\hat{a}+\frac12)}
\end{align*}
です.
したがって, 事後分布による予測分布はスチューデントの  t-分布に従い, 自由度, 中心, スケールパラメータはそれぞれ
\begin{align*}
2\hat{a} &= 2a + N\\
&= N + O(1), \quad \text{as } N\rightarrow \infty,\\
\hat{m} &= \dfrac{m\beta+\sum X_n}{\beta+N} \\
&= \dfrac{1}{N}\sum_{n=1}^N X_n +o(1), \quad \text{as } N\rightarrow \infty,\\
\dfrac{\hat{\beta}}{2(\hat{\beta}+1)\hat{b}}
&=\dfrac{N}{(N+\beta)(2b+\sum X_n^2 +m^2\beta -\hat{m}^2\beta)}\\
&= \dfrac{1}{N} \dfrac{N-1}{\displaystyle \sum_{n=1}^N\left( X_n -\frac{1}{N} \sum_{k=1}^N X_k\right)^2}+o(1), \quad \text{as } N\rightarrow \infty
\end{align*}
です.
 \frac{\sum X_n}{N},  \frac{1}{N-1}\sum\left( X_n -\frac{1}{N} \sum X_k\right)^2 はそれぞれ平均, 分散の一致推定量なので, 事後分布は真の平均, 真の分散を持つような正規分布に漸近することが予想できます.