Google検索

Google
 

2010年2月4日木曜日

R と tm でテキストマイニング

なんか同じようなタイトルが並んでしまいました(汗

先日は日本語形態素解析器「和布蕪」と連携できる R のパッケージ、 RMeCab をインストールしてみましたが、今回は、欧米諸国の言語が扱えるパッケージ tm をインストールしてみました。

マニュアルその他のドキュメントがすべて英語だもので、解読に苦労しましたが、なんとか動いた様子…
気をつけないといけないのは、テキストファイルを読ませるところで、作者の例を見ると、


>txt <- system.file("texts", "txt", package = "tm")


となっているのですが、何のどういう並びかがさっぱりわからない…
というわけで、次のサイトに参考になる記事がありました。

R_tmパッケージの使い方

これによれば(例を R に入力して動かしてみるといいかも…)、括弧の中の "texts" というのは tm をインストールした先のディレクトリの下にある子ディレクトリ。 "texts"ディレクトリの下に "txt" というディレクトりがあり、それと同じレベルに別ディレクトリを作れば、それの中にテキストマイニングしたいファイルを入れておけばいいということらしい。
解析したいファイルが複数個あるときは便利。クラスタ解析が一気にできますなあ。

あとは、フルディレクトリパスの指定方法がわかればいいのですが…試してみたけど、まだ成功していません。もしご存じでしたらお教えいただきたくお願い申し上げます。 <(__)>

テキストを読み込んでさえしまえば、あとはこっちのもん。データのクレンジングやらは関数tm_map()でできたりすることもありますが、心配な向きは自分で確認しながらやるといいでしょう。

Mac で OCR ソフトが使えないのが非常に残念になってきたのでした。なんとかしたいなあ…

0 件のコメント: