Hadoopを使わずにWikipediaのテキスト処理を400倍高速化

プログラミング

タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に …

2010-05-14

Power Iteration Clustering

機械学習

岡野原さんのtweetで紹介されていたPower Iteration Clusteringという文章分類の手法に関する論文[1,2]を読んでみた。背景 n個のデータX={x_1,...,x_n}が与えられたときに各データ間の類似度s(x_i,x_j)を成分に持つ類似度行列Aを考える。また次数行列とし…

2010-05-08

[機械学習] PRML勉強会

PRML勉強会で11.4のスライスサンプリングについて発表してきました。発表スライドは以下となります。Prml11 4View more presentations from tsubosaka.また、参考として以前のPRMLハッカソンで作成したスライスサンプリングを用いたLDAのコードをgithubにア…

tsubosakaの日記

2010-05-01から1ヶ月間の記事一覧

Hadoopを使わずにWikipediaのテキスト処理を400倍高速化

Power Iteration Clustering

[機械学習] PRML勉強会