メタデータとか

  • 著者: M. Gutmann and A. Hyvärinen
  • 投稿先: International Conference on Artificial Neural Networks
  • 出版年: 2009
  • 論文: pdf

NCE という negative sampling の上位クラス的なアルゴリズムがあり,それの一番最初の論文. この論文の段階では, Noise Contrastive Estimation ではなく, Contrastive feature learning として提案されている.

余談で,2nd authorはICA関係で有名.

I. Goodfellow et al. の GAN か T. Mikolov et al. の Negative sampling を知ってると理解しやすい.

本題

文脈としては,画像データに ICA をかけたいという状況を考える:

このとき,

  • : natural image
  • : basic feature
  • : latent variable

これを学習するときに,計算コストが高いケースがあるので,それを避けるというのがこの研究のモチベーション.

Contrastive feature learning では, neural network の重みベクトルが上記の に対応するような2値分類問題に置き換える. 正例に natural images を与える場合,負例としては natural images の特徴をある程度含んだ画像を与える. これらに対する2値分類器は,正例と負例に共通しない特徴で natural images を当てようとするので,そのときの重みがよい になるだろうと仮定.


前述したとおり,入力画像 が natural images か reference data かの2値分類器 を考える 1

これは,入力画像に関数 を適用したものに logistic sigmoid function をかけているだけ. このとき,ロス関数は binary cross entoropy を選ばれる. また,関数 は非線形変換とする.

このとき は非線形関数 ( とか ) .関数 は入力層を含めるなら1層の neural network として見ることもできる.

さて,natural images としては MNIST や CIFAR10 , ImageNet など既にあるが,reference data をどうやって用意するかを考える必要がある 2. ここでは,ICA の文脈なので natural image の特徴をとらえた を学習できるような reference data を用意する. ここでは,入力データと同じ共分散をもつ同数のデータを使う. 共分散が同じなので,オリジナルの入力とある程度似た表現をもつ負例になる.

論文では,非線形関数 にいくつかバリエーションを持たせて学習している. 対称の sigmoid function か パラメータを学習した非線形関数が分類性能と をみると良かったらしい. 一方で sigmoid と tanh でははっきりとした表現 は得られなかったとのこと.

  1. GANでいえばDiscriminator. 

  2. GANでいえばGenerator,word2vec tool の negative sampling でいえば noise 分布 (unigram 分布を 乗した分布)