2010-01-01から1年間の記事一覧

NIPS Oral Sessionのリスト

参考までにOral Sessionの他の論文のリストも挙げておきます(Oral SessionではInvited talkとかもあるけどそれは除外)、accepted paperが300本近くあるなかでOral Sessionは20本しかなく非常に競争率が高いです。 Over-complete representations on recurren…

[機械学習] NIPS読む会で発表してきました

id:nokunoさん主催のNIPS読む会で発表してきました。僕が発表した論文はThe Multidimensional Wisdom of Crowdsというものです。この論文を選んだのはOral Sessionの論文の中でタイトルがちょっと面白そうだったのでという理由です。機械学習では大量のラベ…

mean-shiftを実装してみた

次回のCVIM勉強会でmean-shiftについて話すことになってしまったので、理解のためにmean-shiftアルゴリズムを実装してみた。 カーネルは一番簡単なフラットカーネルを利用し、また画像もグレイスケール画像のみを扱うためピクセルの値は[0,256]の一次元デー…

自然言語処理研究会

NLP

id:nokunoさんが主宰する第2回自然言語処理勉強会@東京で"Latent Dirichlet Allocation入門"というタイトルで発表してきました。内容としては機械学習ライブラリMalletに実装されているLDAのマルチスレッド実装クラスのParallelTopicModelで使われているト…

[機械学習] PRML 14章の混合正規回帰モデルの実装

PRML 14.5.1の混合正規回帰モデルのEMアルゴリズムによるパラメータ推定を実装してみた。混合正規回帰モデルは下図のようなデータ点に対して 一本の直線でフィッティングする代わりに 複数の直線でフィッティングするというモデルである。 これは混合正規分…

[プログラミング]教師なし形態素解析

なんとなくid:nokunoさんが紹介してたNLTK Bookに乗ってる教師なし形態素解析を実装してみた。 http://d.hatena.ne.jp/nokuno/20100124/1264319152切れ目の部分をflipした時にスコアをデータ全部見て再計算する代わりに、必要な部分だけ更新するようにしてみ…

Hadoopを使わずにWikipediaのテキスト処理を400倍高速化

タイトルは釣りです。id:mamorukさんの書いたHadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記を読んで、そもそも1G程度のデータの単語頻度を数えるのに858分もかかるんだっけと思い、id:nokunoさんの資料を読んでみると単語頻度を求める際に …

Power Iteration Clustering

岡野原さんのtweetで紹介されていたPower Iteration Clusteringという文章分類の手法に関する論文[1,2]を読んでみた。 背景 n個のデータX={x_1,...,x_n}が与えられたときに各データ間の類似度s(x_i,x_j)を成分に持つ類似度行列Aを考える。 また次数行列とし…

[機械学習] PRML勉強会

PRML勉強会で11.4のスライスサンプリングについて発表してきました。発表スライドは以下となります。Prml11 4View more presentations from tsubosaka.また、参考として以前のPRMLハッカソンで作成したスライスサンプリングを用いたLDAのコードをgithubにア…

[NLP][機械学習] 言語モデル覚え書き

この文章について 最近言語モデル方面にも少し興味があるので自分の知識を整理する意味で書いてみた。NLPは専門ではないので、おかしなことを書いてある可能性がありますがその場合はご指摘ください。本文章ではn-gramモデル、単語の出現確率がn-1個前の単語…

[機械学習] PRML Hackathon #2

PRML Hackathonに行ってきました。 今回のHackathonでは昨日書いたスライスサンプリングという手法をLDAの推論に使ってみて通常のGibbs samplerと比較してみました。結果としてはサンプリング速度が2-3倍程度高速になり、手法の有効性を確かめることができま…

[機械学習] スライスサンプリング

持橋さんのlwlmに関する記事を読んで、スライスサンプリング[1,2]というのが有用そうということで調べてみたのでメモ。 スライスサンプリング概要 今確率分布f(x)が の形で与えられており、このf(x)からxをサンプリングすることを考える。ここでl(x)は非負の…

JavaでPDFから文章を抽出

プログラム上からPDFの文章を取り出したいと思うことがあったので、方法を調べてみた。 PDFBoxというツールを使うと結構いい感じに抽出できた。 以下に簡単なサンプルプログラムを示す。 import java.io.*; import org.apache.pdfbox.pdfparser.PDFParser; i…

PRML勉強会

PRML勉強会の発表資料公開しました。 自分の担当は10.1の変分推論のところでした。次回は10.2以降からでPRMLで計算が一番多いところなので予習を頑張らないとなといった感じです。Prml 10 1View more presentations from tsubosaka.

[プログラミング] Google Sparsehashを使うときの注意点

持橋さんの書かれたgoogle-sparsehashと自作のsplay-treeとの速度比較をした結果の記事を読んで、さすがに速度に200倍近くの差がでるのはおかしいだろうということで原因を探ってみた。結論としてはGoogle Sparsehashを使うときに__gnu_cxx::hashを使わない…

[機械学習] クラスタリングにおけるコサイン類似度に関する性質の証明

bayonやCLUTOが爆速な理由 - download_takeshi’s diaryを読んで、すぐには成り立つかどうか分からなかったので証明してみた。上の記事で述べられていることはクラスタ中のベクトルとその中心ベクトルのコサイン類似度の和と、クラスタ中のベクトルを全て足し…

[機械学習] PRML勉強会発表会資料

3/6の第11回PRML読書会と2/9の第10回PRML読書会の資料を今さらですが、SlideShareにアップしたのでリンク貼っておきます。Prml Reading Group 10 8.3View more presentations from tsubosaka.Prml Reading Group 11 LDPCView more presentations from tsubos…

[IR] Google WSDM'09講演で述べられている符号化方式を実装してみた

MG勉強会の後にid:sleepy_yoshiさんに教えてもらったWSDM 2009における講演"Challenges in Building Large-Scale Information Retrieval Systems"で述べられている符号化方式のGroup Varint Encodingを実装してみた。 資料 講演スライド スライドの日本語に…

[機械学習] bayon+LSHIKITを使って画像クラスタリング

bayonを使って画像からbag-of-keypointsを求める - のんびり読書日記の記事を読んで、クラスタリングを行う際の入力データを作るために文献[1]にある方法が利用できると思って実験してみた。 局所特徴量を持ったデータの取扱い 画像データの分類などを行う際…

[プログラミング] pthreadのキャンセルに関するメモ

pthread_cancelを使ったプログラムを書いててはまりそうになったのでメモ。 下のコードのように子スレッドでpthread_cond_wait(3)を用いてなんらかの条件が成立するまで待機している関数があるとする。このスレッドをキャンセルしてみる。 pthread_mutex_t m…

Efficient Large-Scale Distributed Training of Conditional Maximum Entropy Models

新年明けましておめでとうございます。今年初の論文紹介。 大規模なデータセットに対する条件付き最大エントロピーモデルの学習を並列で行う話[1]。 論文概要 条件付き最大エントロピーモデルの学習を並列でおこなうというタスクに関して、標準的な3通りの方…