2012-02-01から1ヶ月間の記事一覧

[IR] 転置インデックスとtop-k query

転置インデックスから上位k件の文章を取ってくる手法について、知ってる範囲でまとめてみました。 転置インデックスとTop k-query View more presentations from tsubosaka この辺の話は教科書だとInformation Retrieval: Implementing and Evaluating Searc…

WikipediaのデータをLuceneのindexに入れるコード

以前書いたけどいつもjavaのXMLライブラリの使い方とか忘れるので備忘録用に上げておく import java.io.File; import javax.xml.parsers.SAXParser; import javax.xml.parsers.SAXParserFactory; import org.apache.lucene.analysis.Analyzer; import org.ap…