2009-12-01から1ヶ月間の記事一覧

Streaming k-means approximation

実家に帰省中,電車の中で読んでた論文の紹介。 概要 k-meansはクラスタリングテクニックとして非常に基本的な手法である。 しかし、k-meansでは全データに対してラベリングを複数回繰り返す必要があり、全データ点を保存する必要がある、そこでk-meansの出…

[日常] 今年度を振り返る

東京駅で新幹線を待っている間暇なので、今年の出来事に関して振り返ってみる。 イベント 卒業 2009年3月をもって、修士課程を卒業する。修士論文のテーマは"ネットワークのコミュニティ構造を抽出するベイズ推論アルゴリズムの研究"であった。 正直、内容に…

[機械学習] AROWの落ち穂拾い2

とりあえず以下のコードをollのoll.cppに突っ込むことによってAROWを使うようにできる。(あとoll.hppやoll_train.cppの学習手法が並んでいるところにAROW用の値を付け加える)バイアスの部分とかはちゃんとなってるかあまり自信ないです。CW(Confidence-weigh…

[機械学習] AROWの落ち穂拾い

前回の記事でAROWを実装して、パラメータの影響に関して簡単な実験をしてみた。まず、パラメータr=0.1,10.0,50.0とした場合の誤り率の収束は下図のようになった。(データは前回と同様にnews20.binaryを用いた)これを見るとr=0.1のときはすぐに収束しているの…

[機械学習] AROWのコードを書いてみた

昨日のPFIセミナーで紹介されていたAROW (Adaptive Regularization Of Weight Vector)を実装してみた。AROWはCrammerらによりNIPS 2009で提案された手法で、彼らが以前提案したConfidence weightedよりもノイズに強く、またCWとほぼ同等の性能を持っている。…

[機械学習] CVB0を実装してみた

On Smoothing and Inference for Topic Models (UAI 2009) pdfで述べられているLDAの推論方法であるCVB0を実装してみた。 これはTehらのCVBで述べられている期待値の2次の項までの近似の部分をさらに近似して0次の項だけで近似したものとなっている。二次近…

[機械学習] トピックモデル関係の論文メモ

最近読んだトピックモデル関係の論文のざっとしたメモ。内容については間違って理解しているところも多々あると思います。(追記 12/24) 最後のほうに論文を読む基礎となる文献を追加しました。 Efficient Methods for Topic Model Inference on Streaming Do…

[機械学習] LDAのコードを書いてみた

昔書いたことがあったけど、どこかにいってしまったのでもう一度書いてみた。推論方法にはギブスサンプリングと変分ベイズの2つがあるけど、導出も実装もより楽なcollapsed gibbs sampling(Griffiths and Steyvers, PNAS, 2004)の方を採用。Token.java packa…

Polynomial Semantic Indexing

NIPS 2009で発表された論文"Polynomial Semantic Indexing" [1]を読んだ。これは低ランク近似を用いた教師ありの情報検索に関する手法である。 情報検索について 与えられたクエリに関して適当な重みづけをおこなって順位づけして、適切な文章を返却するとい…