Google検索

Google
 

2010年2月4日木曜日

R と tm でテキストマイニング

なんか同じようなタイトルが並んでしまいました(汗

先日は日本語形態素解析器「和布蕪」と連携できる R のパッケージ、 RMeCab をインストールしてみましたが、今回は、欧米諸国の言語が扱えるパッケージ tm をインストールしてみました。

マニュアルその他のドキュメントがすべて英語だもので、解読に苦労しましたが、なんとか動いた様子…
気をつけないといけないのは、テキストファイルを読ませるところで、作者の例を見ると、


>txt <- system.file("texts", "txt", package = "tm")


となっているのですが、何のどういう並びかがさっぱりわからない…
というわけで、次のサイトに参考になる記事がありました。

R_tmパッケージの使い方

これによれば(例を R に入力して動かしてみるといいかも…)、括弧の中の "texts" というのは tm をインストールした先のディレクトリの下にある子ディレクトリ。 "texts"ディレクトリの下に "txt" というディレクトりがあり、それと同じレベルに別ディレクトリを作れば、それの中にテキストマイニングしたいファイルを入れておけばいいということらしい。
解析したいファイルが複数個あるときは便利。クラスタ解析が一気にできますなあ。

あとは、フルディレクトリパスの指定方法がわかればいいのですが…試してみたけど、まだ成功していません。もしご存じでしたらお教えいただきたくお願い申し上げます。 <(__)>

テキストを読み込んでさえしまえば、あとはこっちのもん。データのクレンジングやらは関数tm_map()でできたりすることもありますが、心配な向きは自分で確認しながらやるといいでしょう。

Mac で OCR ソフトが使えないのが非常に残念になってきたのでした。なんとかしたいなあ…

2010年2月1日月曜日

R と MeCab でテキストマイニング

現在、某大学の名誉教授と一緒にドイツ語の文献を翻訳しています。英語で論文を書くことになったのですが、テキストマイニング的な手法を使って、論文のデータにしようと考えました。

そこで、こんな本を買って、R というソフトを Mac にインストールしてみました。今回 R のインストールをするにあたっては「Rによるテキストマイニング入門」を参考にしました。




SnowLeopard 用にはちょっとだけ注意が必要です。64bit版をつかうとか、RMeCabをインストールするときにファイル名を変更するとか…そんな様なことですが、本を注意深く読めば大丈夫です。

早速動かしてみましたが、ちゃんと動きました!以下 R 上で RMeCab を動かしてみた時の様子です。辞書は MeCab IPA の辞書を使いました。

> x <- RMeCabC("すもももももももものうち")
> x
[[1]]
名詞
"すもも"

[[2]]
助詞
"も"

[[3]]
名詞
"もも"

[[4]]
助詞
"も"

[[5]]
名詞
"もも"

[[6]]
助詞
"の"

[[7]]
名詞
"うち"

> unlist(x)
名詞 助詞 名詞 助詞 名詞 助詞 名詞
"すもも" "も" "もも" "も" "もも" "の" "うち"
>

でも、実は必要なのは日本語ではなく、ドイツ語の形態素解析器だったりします… (^^;
翻訳が終わったら、日本語の訳文で遊んでみるのもいいかもなーと思いました。あとは、もう少し統計学の知識を付けなくては…