Google検索

Google
 

2010年2月1日月曜日

R と MeCab でテキストマイニング

現在、某大学の名誉教授と一緒にドイツ語の文献を翻訳しています。英語で論文を書くことになったのですが、テキストマイニング的な手法を使って、論文のデータにしようと考えました。

そこで、こんな本を買って、R というソフトを Mac にインストールしてみました。今回 R のインストールをするにあたっては「Rによるテキストマイニング入門」を参考にしました。




SnowLeopard 用にはちょっとだけ注意が必要です。64bit版をつかうとか、RMeCabをインストールするときにファイル名を変更するとか…そんな様なことですが、本を注意深く読めば大丈夫です。

早速動かしてみましたが、ちゃんと動きました!以下 R 上で RMeCab を動かしてみた時の様子です。辞書は MeCab IPA の辞書を使いました。

> x <- RMeCabC("すもももももももものうち")
> x
[[1]]
名詞
"すもも"

[[2]]
助詞
"も"

[[3]]
名詞
"もも"

[[4]]
助詞
"も"

[[5]]
名詞
"もも"

[[6]]
助詞
"の"

[[7]]
名詞
"うち"

> unlist(x)
名詞 助詞 名詞 助詞 名詞 助詞 名詞
"すもも" "も" "もも" "も" "もも" "の" "うち"
>

でも、実は必要なのは日本語ではなく、ドイツ語の形態素解析器だったりします… (^^;
翻訳が終わったら、日本語の訳文で遊んでみるのもいいかもなーと思いました。あとは、もう少し統計学の知識を付けなくては…

0 件のコメント: