Google検索

Google
 

2010年2月4日木曜日

R と tm でテキストマイニング

なんか同じようなタイトルが並んでしまいました(汗

先日は日本語形態素解析器「和布蕪」と連携できる R のパッケージ、 RMeCab をインストールしてみましたが、今回は、欧米諸国の言語が扱えるパッケージ tm をインストールしてみました。

マニュアルその他のドキュメントがすべて英語だもので、解読に苦労しましたが、なんとか動いた様子…
気をつけないといけないのは、テキストファイルを読ませるところで、作者の例を見ると、


>txt <- system.file("texts", "txt", package = "tm")


となっているのですが、何のどういう並びかがさっぱりわからない…
というわけで、次のサイトに参考になる記事がありました。

R_tmパッケージの使い方

これによれば(例を R に入力して動かしてみるといいかも…)、括弧の中の "texts" というのは tm をインストールした先のディレクトリの下にある子ディレクトリ。 "texts"ディレクトリの下に "txt" というディレクトりがあり、それと同じレベルに別ディレクトリを作れば、それの中にテキストマイニングしたいファイルを入れておけばいいということらしい。
解析したいファイルが複数個あるときは便利。クラスタ解析が一気にできますなあ。

あとは、フルディレクトリパスの指定方法がわかればいいのですが…試してみたけど、まだ成功していません。もしご存じでしたらお教えいただきたくお願い申し上げます。 <(__)>

テキストを読み込んでさえしまえば、あとはこっちのもん。データのクレンジングやらは関数tm_map()でできたりすることもありますが、心配な向きは自分で確認しながらやるといいでしょう。

Mac で OCR ソフトが使えないのが非常に残念になってきたのでした。なんとかしたいなあ…

2010年2月1日月曜日

R と MeCab でテキストマイニング

現在、某大学の名誉教授と一緒にドイツ語の文献を翻訳しています。英語で論文を書くことになったのですが、テキストマイニング的な手法を使って、論文のデータにしようと考えました。

そこで、こんな本を買って、R というソフトを Mac にインストールしてみました。今回 R のインストールをするにあたっては「Rによるテキストマイニング入門」を参考にしました。




SnowLeopard 用にはちょっとだけ注意が必要です。64bit版をつかうとか、RMeCabをインストールするときにファイル名を変更するとか…そんな様なことですが、本を注意深く読めば大丈夫です。

早速動かしてみましたが、ちゃんと動きました!以下 R 上で RMeCab を動かしてみた時の様子です。辞書は MeCab IPA の辞書を使いました。

> x <- RMeCabC("すもももももももものうち")
> x
[[1]]
名詞
"すもも"

[[2]]
助詞
"も"

[[3]]
名詞
"もも"

[[4]]
助詞
"も"

[[5]]
名詞
"もも"

[[6]]
助詞
"の"

[[7]]
名詞
"うち"

> unlist(x)
名詞 助詞 名詞 助詞 名詞 助詞 名詞
"すもも" "も" "もも" "も" "もも" "の" "うち"
>

でも、実は必要なのは日本語ではなく、ドイツ語の形態素解析器だったりします… (^^;
翻訳が終わったら、日本語の訳文で遊んでみるのもいいかもなーと思いました。あとは、もう少し統計学の知識を付けなくては…

2010年1月12日火曜日

画像のカラープロファイルの確認方法

前々回の記事でやまかわさんという方にコメント欄で ImageMagick を使った画像のカラープロファイルの確認方法を教えていただきました。やまかわさん、教えていただき、本当にありがとうございました。

具体的には、MacOS X でしたら以下のようなコマンドをターミナルから実行します。
(あらかじめ ImageMagick はインストールしておいてください)

以下、自分でやってみたときのログになります。

$ identify -verbose *.jpg > cspace.txt
$ grep -inF "Colorspace" cspace.txt
10: Colorspace: RGB
62: jpeg:colorspace: 2
83: Colorspace: RGB
136: jpeg:colorspace: 2
157: Colorspace: RGB


identify というのが ImageMagick のコマンドで、 cspace.txt というファイルに標準出力の内容をリダイレクトしています。ファイルの内容に Colorspace というキーワードがあるかどうかを探しているのが grep コマンドがある行です。結果の行頭にある 10:, 62: などの数字は、grep のオプションで付けられた行番号です。

プロファイルが埋め込まれている場合には、

Profile-icc: ***** bytes

という行が現れるそうなので、Colorspace というキーワードではなく、 Profile-icc で探した方がいいそうです。

ImageMagick はかなり多機能で、コマンドラインからいろんな画像処理ができます。CGI などで使えるとかなり便利に使えそうです。いろいろとWebサービスにつかえるようなので、暇を見て研究してみたいと思います。

2010年1月1日金曜日

RGB->CMYK変換 part2

あけましておめでとうございます。
本年もよろしくお願い申し上げます!

さて、年末から引っかかってる RGB を CMYK に変換する作業ですが、 ImageMagick での作業は現在中断しているのでありました。幸いにして、私の心から尊敬する師匠じゃらく先生より直伝のツールを教えていただきました。師匠、ありがとうございます。 <(__)>

Leeshore
http://www.bicoid.com/software/leeshore/

しかし、また新たな問題が…

Pages に CMYK CMYK変換した画像を張り込み、 CMYK で PDF を出力すると、タイトルのテキストボックスの形にうっすらと赤紫っぽい色がついてしまいます。RGB では出てこなかったので、おそらく CMYK で変換したことによる影響だとおもうのですが、テキストの色と背景画像が反対色の青系の色なので、なんともまずい感じが…表紙のタイトル部分なので、色がかぶるのは避けたいところです。

もう一回色空間がCMYKになっているかチェックが必要ですなあ。しかし、テキストの色がCMYKかどうかなんて、どうやってチェックするのさ(爆)

背景の画像やテキスト色を変えてすむ問題なら良いのですが…むう。