鴨川η

not δ

Topic Modeling for Word Sense Induction

概要

Word Sense Induction(WSI)のタスクにLDAを使ってみましたという2013年のGSCLの会議論文

WSIでは,出現した単語ごとの文脈などを単位としてベクトルを作り,それをk-meansでクラスタリングすることで,出現した位置における語義を分けられるかというやり方がある. トピックが語義に対応しているという仮定して,そのベクトルを作る際にLDAで得られるトピックごとの単語の確率分布\(\phi\)を使ってやろうというもの. なのでLDAを拡張したわけではないのでわりと直感的である.(gensim+scikit-learn+NLTKさえあればできそう)

気になったこと

  • トピック数が3~10と比較的とかなり小さい(この分野ではそうなんだろうか)
  • 評価にはWordNetSemEval2010を使ってる(名詞と動詞だけで評価,評価指標はF-scoreV-measure
  • クラスタリングの手法は複数試したほうが良さそう(WSIのsurveyでいくつ言及あり)