【ベイズ推論】指数型分布族を用いた共役事前分布の導出と予測分布の公式について

ベイズ推論をします. パラメータ  \theta をもつような確率変数  X に対する独立同分布な族  \bar{X}=\{ X_n\}_{n=1}^N を考えます. 事後分布を書く際にはハイパーパラメータ  v をしばしば省略します. すなわち  p(\theta|\bar{X},v)= p(\theta|\bar{X}) とかきましょう.

指数型分布族と共役事前分布について

指数型分布族の定義

実数値確率変数  X が未知パラメータ  \theta をもつ(条件付き)確率分布  p(x|\theta) に従うとします(つまり, 観測モデルを  p(x|\theta) と定めます).
このとき,  X が指数型分布族に属するとは, ある値域の次元が等しい関数  \phi ,  g により,
\begin{align*}
p(x| \theta)
&= f(x)\exp\langle \phi(\theta) , g(x)\rangle ,\\
f(x)
&= \left(\int \exp\langle \phi(\theta) , g(x)\rangle\, d\theta\right)^{-1}
\end{align*}
が成立することをいいます. ガウス分布ポアソン分布などの代表的な分布はこの定義に属し, 具体例については次回また書いていきます. 今回は一般論として, この性質だけからベイズ推論における共役事前分布が得られ, さらにそれを用いた予測分布の公式が得られることを示していきます.

指数型分布族に対する事前分布

ハイパーパラメータ  v \in \mathbb{R}^k に対して
\begin{align*}
p(\theta| v)
&= z(v)\exp\langle \phi(\theta) , v\rangle,\\
z(v)
&= \left(\int \exp\langle \phi(\theta) ,v\rangle \, d\theta \right)^{-1}
\end{align*}
を事前分布として定めます.
このとき,  \hat{v}= \sum_{n=1}^N g(X_n) により, 事後分布  p(\theta|\bar{X})
\begin{equation}
p(\theta|\bar{X}) = p(\theta|v+\hat{v})
\end{equation}
と表せます. すなわち, 事前分布と事後分布における  \phi は等しいのです.
(注:このように, 分布のうち母数に依存する部分である  \phiベイズ推論によって不変な事前分布を共役事前分布といいます. )

(証明)

モデルの設計から,  p(\bar{X},\theta|v)=p(\bar{X}|\theta)p(\theta|v) である.
条件付き確率の定義より,
\begin{align*}
p(\theta|\bar{X},v)
&= \dfrac{p(\bar{X}|,\theta|v)}{p(X_\ast|v)}\\
&= \dfrac{p(\bar{X}|\theta)p(\theta|v)}{p(\bar{X}|v)}\\
&= \prod_{n=1}^N p(X_n|\theta)p(\theta|v)/p(\bar{X}|v)\\\
&= \prod_{n=1}^N f(X_n) z(v)p(\bar{X}|v)^{-1} \prod_{n=1}^N\exp\langle \phi(\theta) , g(X_n)\rangle
\exp\langle \phi(\theta) , v\rangle\\
&=z(\hat{v})\exp\langle \phi(\theta) , v+\hat{v}\rangle.
\end{align*}
(証明終)

共役事前分布を用いた予測

事前分布または事後分布が与えられたとき, 次に観測される  X_\ast の従う確率分布を予測分布と呼びます. 確率変数  X が指数型分布族に属するとし, 共役事前分布  p(\theta|v) を前節の通りに定められたものとします. このとき, 予測分布に対して次が成立します.
\begin{align*}
p(X_\ast|v)
&= \dfrac{f(X_\ast)z(v)}{z(v+g(X_\ast))},\\
p(X_\ast|\bar{X},v)
&= \dfrac{f(X_\ast) z(v+\hat{v})}
{z(v+\hat{v}+g(X_\ast))}.
\end{align*}
ここで, 1つ目の式を事前分布に対する予測分布, 2つ目の式を事後分布に対する予測分布と呼びましょう.

(証明)

事前分布  p(\theta| v) を用いて予測分布  p(X_\ast|v) を求めましょう. モデルの設計により,
\begin{equation}
p(\theta|X_\ast,v) =\dfrac{p(X_\ast|\theta)p(\theta|v)}{p(X_\ast|v)}
\end{equation}
なる関係が成り立ちます. これを変形すると,
\begin{align*}
p(X_\ast|v)
&=\dfrac{p(X_\ast|\theta)p(\theta|v)}{p(\theta|X_\ast)}\\
& = \dfrac{f(X_\ast)\exp\langle \phi(\theta),g(X_\ast)\rangle z(v)\exp\langle \phi(\theta) , v\rangle
}{z(v+g(X_\ast))\exp\langle \phi(\theta),g(X_\ast)+v\rangle}\\
&= \dfrac{f(X_\ast)z(v)}{z(v+g(X_\ast))}.
\end{align*}
が得られます. 今度は事後分布  p(\theta|\bar{X}) を用いて予測分布  p(X_\ast|\bar{X}) を求めましょう. 再びモデルの設計により,
\begin{equation}
p(\theta|\bar{X},X_\ast,v)=\dfrac{p(X_\ast|\theta)p(\theta|\bar{X},v)}{p(X_\ast|\bar{X},v)}
\end{equation}
が成り立ちます. 同様の計算により,
\begin{align*}
p(X_\ast|\bar{X},v)
&= \dfrac{p(X_\ast|\theta)p(\theta|\bar{X},v)}{p(\theta|\bar{X},X_\ast,v)}\\
&= \dfrac{f(X_\ast)\exp\langle\phi(\theta),g(X_\ast)\rangle p(\theta|v+\hat{v})}
{z(v+\hat{v}+g(X_\ast))\exp\{\langle\phi(\theta),g(X_\ast)+v+\hat{v}\rangle\}}\\
&= \dfrac{f(X_\ast)\exp\langle\phi(\theta),g(X_\ast)\rangle z(v+\hat{v})\exp\langle\phi(\theta),v+\hat{v}\rangle}
{z(v+\hat{v}+g(X_\ast))\exp\langle\phi(\theta),g(X_\ast)+v+\hat{v}\rangle}\\
&= \dfrac{f(X_\ast) z(v+\hat{v})}
{z(v+\hat{v}+g(X_\ast))}
\end{align*}
となり公式が得られました.
(証明終)
次回はいくつかの代表的な分布に対して, 計算例を紹介します.