鴨川η

Logical features in distributional word representations

メタデータ

Linzen, T, et al. の論文

Twitterで著者がリンクを貼っていたので読んだ. 現在査読中の論文らしい.

単語の並びだけじゃなくてもっと文脈のリッチな情報(構造など)を使って学習したほうがいいかもねという結論.

本題

やったこととしては以下の3つ

  1. 分散表現の評価に論理的表現を使ったanalogyを提案 ( everythingnothing などを指す)
  2. クラウドソーシングで1.と同じタスクを人に解かせて比較
  3. 1.のタスクに関して,データの規模を変化させて性能比較

モデルは skip-gram だけを使い, Levyらのhyperwordsを使ってパラメータの調節を行う. (Levyらのコードは卒論でだいぶお世話になった...)

1. analogy

既存研究で言われているパラメータで学習したモデルに対して,全180通りを使ってanalogyのタスクを解かせて性能の評価. 完全一致ではなく上位100単語に含まれているか否かで評価. また,analogyに現れる項の類義語は除外.

著者によると

の演算結果は,88.9%が に最も近く, 11%が が最も近い. というわけでベースラインとして, の近傍の単語を類推結果とする. (これは 前者が で後者が ということになってるのかなぁという印象を受けた)

結果としては, domain*where とか *body とか)によって高低差が見られた. 3CosAddより3CosMulのほうがよかったが,Mikolovらのanalogyの結果と比べると低め.

意味的なものは window size が小さくても獲得できていると言われているらしいが,このような表現では,ある程度長距離の依存があるので, window size が大きいほうが性能がよかった. ( “not … anywhere” のように対になっている場合, window size が小さいと関係性が学習できないということらしい)

2. クラウドソーシング

amazonのを使って同様のanalogyを解かせた. 全体的に skip-gram よりも高い結果となった. 人間の場合,語形が使えるので有利のように見えるが,語形が使えない domain でも高い結果であった.

3. データの規模

データの規模を徐々に増やしていって,性能比較をする.

「子供が1年間に触れる単語数が〜」 という話もあるが本筋ではないので,論文に譲るとして, 実験結果のグラフでは,周囲の単語の位置を考慮するかどうかに注目している. コーパスのサイズが十分でないときは,単語の位置は考慮しないほうがいいが,ある程度のサイズ(論文では180M words)になると考慮したほうが性能が良くなった. (ある程度コーパスの規模がないと単語位置を考慮してしまうとスパースになるからではないかと思われる)