R と MeCab でテキストマイニング

2010年2月1日月曜日

R と MeCab でテキストマイニング

現在、某大学の名誉教授と一緒にドイツ語の文献を翻訳しています。英語で論文を書くことになったのですが、テキストマイニング的な手法を使って、論文のデータにしようと考えました。

そこで、こんな本を買って、R というソフトを Mac にインストールしてみました。今回 R のインストールをするにあたっては「Rによるテキストマイニング入門」を参考にしました。

SnowLeopard 用にはちょっとだけ注意が必要です。64bit版をつかうとか、RMeCabをインストールするときにファイル名を変更するとか…そんな様なことですが、本を注意深く読めば大丈夫です。

早速動かしてみましたが、ちゃんと動きました！以下 R 上で RMeCab を動かしてみた時の様子です。辞書は MeCab IPA の辞書を使いました。


> x <- RMeCabC("すもももももももものうち")
> x
[[1]]
    名詞 
"すもも" 

[[2]]
助詞 
"も" 

[[3]]
  名詞 
"もも" 

[[4]]
助詞 
"も" 

[[5]]
  名詞 
"もも" 

[[6]]
助詞 
"の" 

[[7]]
  名詞 
"うち" 

> unlist(x)
    名詞     助詞     名詞     助詞     名詞     助詞     名詞 
"すもも"     "も"   "もも"     "も"   "もも"     "の"   "うち" 
>

でも、実は必要なのは日本語ではなく、ドイツ語の形態素解析器だったりします… (^^;
翻訳が終わったら、日本語の訳文で遊んでみるのもいいかもなーと思いました。あとは、もう少し統計学の知識を付けなくては…

0 件のコメント:

コメントを投稿

Sio's Gadget Blog - WebLog of Mac, iPod and iPhone -

Google検索

2010年2月1日月曜日

R と MeCab でテキストマイニング

0 件のコメント:

amung.us

FeedMeter

あわせて読みたい

amazon