SVM light

レポートでSVMを使って,何かをやれというのがあったのでSVM lightを用いて文書分類をやってみた.

データセットとしてはBBC Datasetsを用いた.

カテゴリは全部で5つあるので,判別器も5つ用意して,それぞれ独立に分類を行う.(そのため文章は複数のカテゴリに割り当てられることもある),データの表現としてはVector Space Modelを用いる.

カーネルとしては今回のデータは単語の種類が9636あり,かなり次元が高く,また1つの文章に含まれる単語の種類は少ない疎なデータなため,単純に線形カーネルを用いた.

下図は学習データの数と精度の関係のグラフで,データ数が少なくても割といい値が出ているのは単純に全部をそのカテゴリに含まれないとしても80%の正解率がでるから,大体3分の1ぐらいを学習データに使えば高い精度が得られることがわかった.