[機械学習] AROWの落ち穂拾い

前回の記事でAROWを実装して、パラメータの影響に関して簡単な実験をしてみた。

まず、パラメータr=0.1,10.0,50.0とした場合の誤り率の収束は下図のようになった。(データは前回と同様にnews20.binaryを用いた)

これを見るとr=0.1のときはすぐに収束しているのに対して、r=50のときはなかなか収束しないということが分かる。

一方で元データのラベルを10%反転させたものを訓練データとして用いた場合は以下のような図が得られる。このときr=0.1と10は明らかに過学習となっているのに対し、r=50のときは反復ごとに誤り率が減少していることが分かる。

そもそもパラメータrは式(1)で表される、以前の確率分布からのずれと正しく分類できるかどうかのトレードオフパラメータであった。これが小さい場合は確率分布から大きくずれてもいいから分類を正しくすることを要求し、大きい場合は大きなずれに対してペナルティが働くため多少の分類誤りは許容するということを表す。

そのためノイズが混じっているようなデータに関してはノイズデータに引きずられないようにrを大きくする方がよいが、そうでないときはrを小さくすることで収束を早めるということができる。

この辺のrの調整や反復回数を何回にするかは論文ではクロスバリデーションないしはバリデーションセットを使って決めているがこの辺も適応的に決まるようになると面白いのではないかと思った。