この記事はPhysics Lab. 2022 Advent Calendar 22日目の記事です.
こんにちは!理物3年のたがやしです.
今日は12/22,冬至です.魔術師ラマヌジャンやフォック空間のフォックの誕生日でもあるみたいです.何の記事を書くか決めないまま当日を迎えてしまいました.
とりあえず最近自主ゼミ『ベイズ統計の理論と方法』で担当したベイズ推測への特異点解消の利用について書きます.
ある日突然この記事の内容がガラッと変わっていたら,それはきっと私がもっといい記事を思いついたということです.
此頃都ニハヤル物といえば,機械学習や深層学習ですね!理物でも4年生向けに機械学習の講義があるみたいです.
こうした「学習」は,「サンプルデータを参考に、モデルを真の分布に近づける」ことだと捉えられます.ちょっと数学風に書き直してみましょう.
関数 $q\colon\mathbb{R}^N\to\mathbb{R}_0^+$ が
$$ \begin{align*}\int\mathrm{d}x\, q(x) = 1 \end{align*} $$
を満たすとき,確率分布とよびます.同じ確率分布 $q(x)$ にしたがう $n$ 個の独立な確率変数 $X^n\coloneqq(X_1, X_2, \dots, X_n)$ の実現値 $x^n\coloneqq (x_1, x_2, \dots, x_n)$ のことをサンプルとよび,そのときの $q(x)$ を特に真の分布といいます.今やりたいのは, $X^n$ による真の分布 $q(x)$ の推定ですね.
ベイズ推測では,パラメータ $w\in W\subset \mathbb{R}^d$ によって定まる確率モデル $p(x|w)$ とパラメータの分布:事前分布 $\varphi(w)$ をもちいます.これらを用いて,パラメータの新たな分布:事後分布を
$$ p_\mathrm{post}(w|X^n)\coloneqq\cfrac{1}{Z_n(\beta)}\,\varphi(w)\prod_{i=1}^n p(X_i|w) $$
と定義します.ただし,規格化のための分配関数 $Z(X^n)$ を
$$ Z(X^n)\coloneqq\int_W\mathrm{d}w\,\varphi(w)\prod_{i=1}^n p(X_i|w) $$
とおきました,この定義は,サンプルによってパラメータ $w$ の分布を事前分布から事後分布に“修正”していることにあたります.事後分布によって確率モデルを平均した予測分布