ユニグラムモデルにおいて,トピックは文書集合に対して1つだけ存在した.一方,混合ユニグラムモデルは,トピック K個存在する.(これをまとめたものを とかく)そのため各文書は,K個のうちの1トピックをもつ.1つの は,単語のカテゴリカル分布になる.加えて はトピック分布を表す.(各トピックがどれだけ出現しやすいかを表現)これは混合ユニグラムモデルの中で1つだけ存在する.

残りはユニグラムモデルやLDAと一緒で

  • α及びβ:ディリクレ分布のパラメータ
  • D:文書集合の総数
  • N:文書 の単語数

混合ユニグラムモデルをグラフィカルモデルで描くと以下のようになる.

nn

新聞記事で例えると,記事はいくつかのトピック(スポーツとか政治とか)のどれか一つをもっていると仮定している.そして各トピックごとに出現しやすい単語の確率分布は異なる.(スポーツのトピックであれば”年棒, 野球, サッカー”といった単語が高確率で出現し,”選挙, 違法献金, 年金”は低確率で出現)

ベイズ推定

ベイズ推定を使う場合,文書の生成確率を定義してから,事後確率分布を求める.混合ユニグラムモデルの文書の生成確率は以下のようにかける.

事後確率は, となる.ここで青トピックモデル本では,崩壊型ギブスサンプリングを導入するが頭がわるくてついていけなかったので少し丁寧にやってみる.

事後確率 をギブスサンプリングする場合は, のうち2つを固定して1つをサンプルする.崩壊型ギブスサンプリングでは, を積分消去して を直接求める.この辺りについては白いトピックモデル本が大変参考になる.

つまりサンプリング式は で,これ計算したい.

ベイズの定理を使い,比例式を求める(青トピック本p51の式がこれに相当する).

上から

  • ベイズの定理で展開
  • 分母に がないので比例式で置き換え
  • ベイズの定理で1つの文書とそれ以外に展開
  • 直前の2項目をベイズの定理で展開
  • 直前の3項目に がないので比例式で置き換え
  • 条件付き独立を用いる

間違っていたらごめんなさい.