Google検索

Google
 

2014年6月14日土曜日

スチューデントの t検定 と Welch の t検定

最近大きなデータセットの解析をしなくてはならず、まずは t検定しろ!ということで R でごにょごにょしている所です。R 便利ですね。
記憶の定着を促す為に、恥を忍んでメモ書きを公開。
厳密な定義が好きな方は統計学の教科書などをご参照いただくか、Wikipedia に t検定の詳しい項目があるので、とっかかりはそちらを参照してもらうとして(汗

t検定というのは、ざっくりすぎる例でいうと、2つのデータ群がある場合、その平均値に違いがあるかどうかを見るときに使ったりします。大学で統計学とらなかったので(言い訳)、理解が追いついていないのですが、まあ、そういう感じらしい。(厳密さにかける説明ですが、ご容赦を)

比べるときは、母集団のデータがどういう分布になってるかでどういう検定を当てはめるかが違うらしく、スチューデントの t検定を使うときは、正規分布であることが前提となり、Welch の t検定は、2つの母集団の分散が等しくなくてもおkということらしい。R の t.test() は Welch の t検定がデフォルトだそうで、さる人に聞いたら「母集団の分布はあまり気にしなくてもいいんじゃないかな?」ということでした。

私がよくわからなかったのが、3群の母集団(A, B, C)を比較するときに, A vs B, A vs C, B vs C, というような検定(多重検定というそうです) の場合に、有意水準(5%がよく使われる数値)がそのまま使えなくなり、第一種の過誤(False Positive) の危険性が高まる、ということです。第一種の過誤は「受理されるべき帰無仮説が棄却される」と説明されます。検定で受理されなければ行けない帰無仮説が棄却されてしまい、「有意差がある」なんていう誤った(しかも危険な)結論になりかねないので、多重検定を行うときはきちんとした補正を考慮しなければならないそうです。

というわけで、なんらかの補正をするべきなんですが、私が教えてもらったのは Bonferroniの補正と呼ばれるもので、比較する母集団の数で有意水準の値を割るというもの。3群比較・有意水準5%での検定なら 5% ÷ 3 で 1.66666...% が補正後の有意水準ということになります。

と、ここまでは(とにもかくにもやらねばならないという意味で)なんとか詰め込んだのですが、データを整理していると、有意水準 1.6% とかきつすぎる…とか思う訳ですね…

そこで3群の時だけ補正しないで使える ANOVA ですよ!という耳寄りな情報を教えてもらったのですが、統計の師匠から

そういう態度(=結果をみて適用する統計手法を決める)は良くない!
とのおしかりを頂き、どうするかな…というところで本日のメモはおしまいです。

ANOVAとかMANOVAとか便利そうなんだけど、t検定でさえよくわかってないので、また今度メモってきます。

p.s. もし今、学部の学生に戻れたら絶対統計学の単位とる!とか思うので、統計の授業をとるチャンスがある人は、絶対勉強しておいたほうがいいよ!理系に限らず、文系の学問でも統計はよく使うので,もはや必須技と思われます。

Swift のまとめサイト

WWDC 2014 でお披露目された Swift, いろいろと楽しそうですね。
長いメソッド名からは逃れられないような感じもしますがw 今時の記法ができたりしてうれしいかもしれません。
というわけで、もう既にSwiftのサイトがあるようなので、まとめてみました。

Apple: The Swift Programming Language
https://itunes.apple.com/us/book/swift-programming-language/id881256329?mt=11
iTunesStore のサイトから。iBook として Swift の公式の説明書がでているので、まずはこれをダウンロード。

InfoQ:AppleのSwift言語を学ぶためのオンラインリソース
http://www.infoq.com/jp/news/2014/06/apple-swift-learning-resources
外国語のサイトを翻訳したらしい。みんな仕事早いね〜!

Learn Swift
http://www.learnswift.tips
Lifehacker でも紹介されていましたね。

Enjoy!
p.s. WWDC 2014 Keynote で Craig Federighi の Joke が面白かった :-) 独擅場でしたね。

2014年1月23日木曜日

Mac で ext3 を読み込む(1)

故あって、別の鯖にモノホン(死語:本物のこと)のビッグデータ(定義はこちらを参照)を5TBほど転送しなくてはならなくなり(泣)どうすればいいか色々皆様に相談したところ、
HDD(SATA)->USBのアダプタを付けて、ちろちろと転送するしかないっしょ…
という結論に至り、色々調べてみました。iMac の USB3.0 ポートから転送出来る方法ということで、次のサイトを参考にさせていただきました。ありがとうございます。
Mac OS X LionでExt3のパーティションをマウントする方法
で、Sio のソリューションはこちら。接続する HDD は Seagate Barracuda 7200.11 の1.5TB が計4台。一つずつ丁寧に(?)転送する予定。

  1. SATA->USB3.0変換アダプタ
  2. FUSE for OS X : http://osxfuse.github.io
  3. fuse-ext2 : http://sourceforge.net/projects/fuse-ext2/

今日アダプタが届くはずなので明日から本気出す(本当か?)

2011年10月18日火曜日

MacOS X Lion (10.7.2) でインターネット接続できない?!

iTunes ライブラリも合わせて "1TB" 超 (w) の TimeMachine バックアップ終了\(^O^)/
紆余曲折ありながらも、なんとか終了しました。

しかし、作業中に悩まされたのが次の症状でした。

・バックグラウンドで TimeMachine 処理中にネットワークに繫がらない。(有線Ethernet)
・ディスプレイスリープ後に復帰すると、ネットワークに繫がらない。(有線Ethernet)

不思議なことに、でむぱ弱弱な Wifi には繫がっているので???なのでした。

そこで Google先生に聞いて、いろいろ調べてみました。同じと思われる症状について書いてあったのは以下のサイトでした。

OS X 10.7 Lion でスリープ復帰後ネットに繋がらない場合は IPv6 が原因? ーMacとかの雑記帳

OS X Lionアップグレード後 ネットに繋がらない不具合 ーアイラブ アップル

スリープ後ネットがつながらない ーApple サポートコミュニティ

Twitter でもぶつぶつつぶやいたのですが、やはり、これは Lion 側のコネクション処理がこけているのではないかと。Time Cupsle などの NAS に TimeMachine のドライブが割り当ててあって動いていると Wifi がこけ、スリープから復帰すると有線がこける模様です。

解決策はどれも「手動でIPを設定すること」のようで、NATとかNAPTとか役にたたないぢゃん!(-_-;) と思うこと数秒。あきらめてシステム環境設定の「ネットワーク」環境設定から、手入力で設定することにしました。

ところが!\(◎o◎)/!

「手入力」でも「DHCPサーバを使用(アドレスは手入力)」でも家のルータには接続不可 (/_;)
DHCP設定はルータ側にあるので、そちらでもごにょごにょするとなると、ちょっと(担当者がおらず)面倒なので、これは後回しにすることになりました。

よって、当分の間、長時間ネットにつなぎたいときは、
・スリープしないように設定する。
・TimeMachine が動かないように一時的に OFF にしておく。
等の運用対処でやっていくしかなさそうです…

もう少し調べてみて、上手く解決しなかったら、Apple にサポートをお願いしてみようと思います。もし似たような症状の方がいらっしゃいましたら、集約して聞いてみようと思いますので、コメント戴ければありがたいです。

みなさまの温情溢れる情報をお待ちしております <(__)>

#このままだと、インシデント・チケットをかう羽目になるのかな〜 (;_;)

2011年10月15日土曜日

Macでラジオ録音

思い立って、インターネットラジオから音声を録音する Automator の Workflow を作ってみました。
参考にした記事はこちら。

binWord/blog

"NHKネットラジオ「らじる★らじる」「radiko」をMacでタイマー録音して、iTunes/iPhoneに転送する
9月 1st, 2011"


どうも家の周辺はニッポン放送がノイズだらけでオールナイトニッポンなんか全く聴けないんですね(/_;)
なので、Radiko から録音することにしました。

(ちなみに、録音したデータの私的な利用以外の行為、とくにサーバへのアップロードと公開は公衆送信権の侵害などで訴えられかねないので、運用には十分ご注意を。)

参考にさせて戴いた binWord/blog さんのやり方では Audio Hijack と BRadiko の組み合わせでしたが、私は "WireTap Studio" と AppleScript のワークフローを少し書いて使いました。録音の開始通知メールや終了通知メールを送る必要がなければ、WireTap Studio だけで録音できます。

WireTap Studio は残念ながら Lion になってからオーディオストリームが Safari からダイレクトで取れなくなってしまった(Lionでの仕様変更らしいです…)ため、ソースを Safari にすると録音できません。なので、Macオーディオから録ることにします。レベルがいまいち低くて、音ももっさりしているのが玉に瑕なのですが、実際の放送のノイズの多さに比べたらマシだったりします。

WireTap Studio の「ウインドウ」メニューから「録音セッション」を選択すると、録音する為の設定を作る画面が出てきます。新規でセッションを追加し、録音するための設定をします。この辺はまた時間のあるときに。

Macを立ち上げっぱなしにするのであれば、このアプリだけで良いのですが、電源OFFになっていてもきちんと起動させたい、という人は、システム環境設定を開いて、自動ログインをする設定にします。自動ログインはユーザのログイン項目の設定で行います。

なかなか一筋縄でいかないのは、著作権保護の仕組み故でしょうか。ラジオをラジカセで録音するのと同じくらい簡単にストリーミング放送をキャプチャできれば良いのにと思います。メディアの違いが偉い違い、なかなか奥が深いです。

2011年2月16日水曜日

ブラウザで数式やグラフを表示する

以前から、ブラウザで簡単に数式ご表示できないものかと思っていたのですが、思い立って探してみたら、ありました!

Google Chart
http://code.google.com/intl/ja/apis/chart/index.html

Google Chart API は、既にたくさんの方が利用されていると思います。ネックは、日本語の解説が本家のサイトに例によってないことでしょうか。

グラフの例としてこんなのがありました。

<img><a ref="https://chart.googleapis.com/chart?cht=p3&chd=t:60,40&chs=250x100&chl=Hello|World"></img>

数式は、こんな感じで。

<img><a ref="https://chart.googleapis.com/chart?cht=tx&chl=x=\frac{-b\pm\sqrt{b^2-4ac}}{2a}"></img>

今使っているブロガーのエディタがリンクの編集に対応してないので、後で直さないといけないかも?

表記法は TeX 準拠だそうですので、TeX に慣れてる人は使い易いかも知れませんね。

注意すべき点は、+記号など、クエリするときに意味のある記号は Web のエンコーディングを使わないといけません。

ちょっと面倒な所もありますが、まあ、何とか使えそうです。私的には、画像ではなく、早くテキストベースでブラウザダイレクトでレンダリング出来る様になると嬉しいです。

2011年2月15日火曜日

AntiVirus ソフトウェアと iPhone

パソコンでは、なくてはならない AntiVirus ソフトウェアですが、iPhone や Android 端末では、まだまだマイナーです。理由は色々あると思いますが、動作が重くなったり、最初からインストールされていない、といった事がネックになっていると私は見ています。

さて、最近 Android 端末では、コンピューターウィルスの存在が確認されている様ですので、私の持つ GalaxyTab と Xperia に AVG というソフトを入れてみました。

AVG
http://www.avg.co.jp/

AVG Android 版
http://www.droidsecurity.com/

お試し版は無料です。有料版との違いはSMS周りやサポート関係で、無料版でもワクチンソフトとしてのほとんどの機能を使えるようです。Android なら、マーケットからのダウンロード時にウィルスに感染していないかのチェックが入ります。

動作が重くならないか心配したのですが、今の所そんなに問題は無いようです。しかし、マーケットの評価欄を見てみると、多少電池の減りが早いという話もみられました。

このソフトはいろんな言語に対応している様ですが、日本語はちょっと怪しいかな?(^^;) 
そのあたりは今後に期待しましょう。

残念ながら、iPhone 版は無いようです。Apple 社は恐らくその辺のソフトが作れるような低レベルの API を提供していないのかなあ、と思ったのですが、もしご存知の方がいらっしゃいましたら、是非教えてください。

もっとも、iPhone にアンチウィルスのソフトをインストールしなくても済むように祈っています。(>_<)

2011年2月9日水曜日

Android から御挨拶

iPhone の使用感からはほど遠いと思っていた Android 端末ですが、その後の猛追により、かなり使える存在になってます。

この記事は GalaxyTab で書いてますよ(^_^)ノ

画面を長くタップしたときの動作(テキスト編集のメニューが出てくる等)が、正直、

「うざ~(`_´) 」

と思う以外は、気に入った IME も使えるのでいい感じです。

マカーな人間の一人としては、早く iPhone で ATOK をフルで使わせて欲しい!と改めて思ったのでした。

久々の投稿&NicolaK試用

いつの間にか1年が経っていました。早い〜(==;

さて、思い立って久しぶりにMacと親指シフトキーボードをMacBook黒につないで、以前あきらめたNicolaKを試してみることにしました。
早速つないでみてと…おお、使えるじゃん (^^)v

トリニティワークス NicolaK for FKB7628-801
http://www.trinityworks.co.jp/software/NicolaK7628/index.php?menu=detail

現在試用版を使ってますが、これならいけそうな予感。

暫くお休みしていたBlogも再開しようと思います。
今後ともどうぞよろしく <(__)>

P.S. 結構キー配列を手が覚えていたので一安心。暫くはリハビリモードで運用です。

2010年2月4日木曜日

R と tm でテキストマイニング

なんか同じようなタイトルが並んでしまいました(汗

先日は日本語形態素解析器「和布蕪」と連携できる R のパッケージ、 RMeCab をインストールしてみましたが、今回は、欧米諸国の言語が扱えるパッケージ tm をインストールしてみました。

マニュアルその他のドキュメントがすべて英語だもので、解読に苦労しましたが、なんとか動いた様子…
気をつけないといけないのは、テキストファイルを読ませるところで、作者の例を見ると、


>txt <- system.file("texts", "txt", package = "tm")


となっているのですが、何のどういう並びかがさっぱりわからない…
というわけで、次のサイトに参考になる記事がありました。

R_tmパッケージの使い方

これによれば(例を R に入力して動かしてみるといいかも…)、括弧の中の "texts" というのは tm をインストールした先のディレクトリの下にある子ディレクトリ。 "texts"ディレクトリの下に "txt" というディレクトりがあり、それと同じレベルに別ディレクトリを作れば、それの中にテキストマイニングしたいファイルを入れておけばいいということらしい。
解析したいファイルが複数個あるときは便利。クラスタ解析が一気にできますなあ。

あとは、フルディレクトリパスの指定方法がわかればいいのですが…試してみたけど、まだ成功していません。もしご存じでしたらお教えいただきたくお願い申し上げます。 <(__)>

テキストを読み込んでさえしまえば、あとはこっちのもん。データのクレンジングやらは関数tm_map()でできたりすることもありますが、心配な向きは自分で確認しながらやるといいでしょう。

Mac で OCR ソフトが使えないのが非常に残念になってきたのでした。なんとかしたいなあ…

2010年2月1日月曜日

R と MeCab でテキストマイニング

現在、某大学の名誉教授と一緒にドイツ語の文献を翻訳しています。英語で論文を書くことになったのですが、テキストマイニング的な手法を使って、論文のデータにしようと考えました。

そこで、こんな本を買って、R というソフトを Mac にインストールしてみました。今回 R のインストールをするにあたっては「Rによるテキストマイニング入門」を参考にしました。




SnowLeopard 用にはちょっとだけ注意が必要です。64bit版をつかうとか、RMeCabをインストールするときにファイル名を変更するとか…そんな様なことですが、本を注意深く読めば大丈夫です。

早速動かしてみましたが、ちゃんと動きました!以下 R 上で RMeCab を動かしてみた時の様子です。辞書は MeCab IPA の辞書を使いました。

> x <- RMeCabC("すもももももももものうち")
> x
[[1]]
名詞
"すもも"

[[2]]
助詞
"も"

[[3]]
名詞
"もも"

[[4]]
助詞
"も"

[[5]]
名詞
"もも"

[[6]]
助詞
"の"

[[7]]
名詞
"うち"

> unlist(x)
名詞 助詞 名詞 助詞 名詞 助詞 名詞
"すもも" "も" "もも" "も" "もも" "の" "うち"
>

でも、実は必要なのは日本語ではなく、ドイツ語の形態素解析器だったりします… (^^;
翻訳が終わったら、日本語の訳文で遊んでみるのもいいかもなーと思いました。あとは、もう少し統計学の知識を付けなくては…

2010年1月12日火曜日

画像のカラープロファイルの確認方法

前々回の記事でやまかわさんという方にコメント欄で ImageMagick を使った画像のカラープロファイルの確認方法を教えていただきました。やまかわさん、教えていただき、本当にありがとうございました。

具体的には、MacOS X でしたら以下のようなコマンドをターミナルから実行します。
(あらかじめ ImageMagick はインストールしておいてください)

以下、自分でやってみたときのログになります。

$ identify -verbose *.jpg > cspace.txt
$ grep -inF "Colorspace" cspace.txt
10: Colorspace: RGB
62: jpeg:colorspace: 2
83: Colorspace: RGB
136: jpeg:colorspace: 2
157: Colorspace: RGB


identify というのが ImageMagick のコマンドで、 cspace.txt というファイルに標準出力の内容をリダイレクトしています。ファイルの内容に Colorspace というキーワードがあるかどうかを探しているのが grep コマンドがある行です。結果の行頭にある 10:, 62: などの数字は、grep のオプションで付けられた行番号です。

プロファイルが埋め込まれている場合には、

Profile-icc: ***** bytes

という行が現れるそうなので、Colorspace というキーワードではなく、 Profile-icc で探した方がいいそうです。

ImageMagick はかなり多機能で、コマンドラインからいろんな画像処理ができます。CGI などで使えるとかなり便利に使えそうです。いろいろとWebサービスにつかえるようなので、暇を見て研究してみたいと思います。

2010年1月1日金曜日

RGB->CMYK変換 part2

あけましておめでとうございます。
本年もよろしくお願い申し上げます!

さて、年末から引っかかってる RGB を CMYK に変換する作業ですが、 ImageMagick での作業は現在中断しているのでありました。幸いにして、私の心から尊敬する師匠じゃらく先生より直伝のツールを教えていただきました。師匠、ありがとうございます。 <(__)>

Leeshore
http://www.bicoid.com/software/leeshore/

しかし、また新たな問題が…

Pages に CMYK CMYK変換した画像を張り込み、 CMYK で PDF を出力すると、タイトルのテキストボックスの形にうっすらと赤紫っぽい色がついてしまいます。RGB では出てこなかったので、おそらく CMYK で変換したことによる影響だとおもうのですが、テキストの色と背景画像が反対色の青系の色なので、なんともまずい感じが…表紙のタイトル部分なので、色がかぶるのは避けたいところです。

もう一回色空間がCMYKになっているかチェックが必要ですなあ。しかし、テキストの色がCMYKかどうかなんて、どうやってチェックするのさ(爆)

背景の画像やテキスト色を変えてすむ問題なら良いのですが…むう。

2009年12月30日水曜日

ImageMagik で RGB を CMYK にするにはどうすれば良い?

野暮用で RGB の jpeg 画像を CMYK-EPS 画像にして Pages に貼り込んで印刷しなくてはならなくなりました。お金がないので、自分で版下をつくるはめに…って PDF で出稿だからまだいいんですが、印刷所で色校を出してもらうお金がなくて(激安でも5千円とかかかるらしい)、やむを得ず自分のところでいろいろやることに。

しかし、印刷周りは素人。Pages って EPS 扱えたっけ…(汗)というのはともかく、Photoshop とか Illusutrator などの気の利いたソフトは持ち合わせてないため(お金を貯めて、CS5 まで我慢…)、現状、Unix のツールで何とかするしかありません。

というわけで、困ったときの Google 先生。MacPorts で ImageMagick をインストールすることにしました。 GIMP と Separate+ という組み合わせのほうが使いやすそうで、いろいろ試してみたんですが、MacPorts でなぜかコンパイルエラー。仕方がないので、MacPorts を再インストールし、さらに ImageMagick を sudo port install し、無事完了したところ。参考にしたリンクはこちら。

こんな都合の良いフリーのソフトってありますか?
http://questionbox.jp.msn.com/qa3716956.html

ImageMagick v6 Examples -- Image File Handling
http://www.imagemagick.org/Usage/files/#delegates

Separate+ (SourceForge.jp)
http://sourceforge.jp/projects/separate-plus/

Separate+
http://cue.yellowmagic.info/softwares/separate-plus/index.html

European Color Initiative (ECI)
http://www.eci.org/doku.php?id=en:start

MacPorts のアンインストール方法
http://osx.miko.org/index.php/Beginning_OS_X_10.5/運用編#MacPorts_.E3.81.AE.E3.82.A2.E3.83.B3.E3.82.A4.E3.83.B3.E3.82.B9.E3.83.88.E3.83.BC.E3.83.AB.E6.96.B9.E6.B3.95

http://journal.mycom.co.jp/column/osx/093/index.html



しかし、肝心の RGB -> CMYK 変換かつEPS保存はまだできていないのでした。続く。

2009年12月7日月曜日

Twitter クライアントを作りたいの巻


ここのところ、ちょこちょこと勉強していたのですが、Twitter の iPhone クライアントを作りたいなと思っています。

iPhone のアプリを本格的に作るのは正直なところ初めて(ローカルではテストをごにょごにょしてましたが)です。本当に自分に出来るのかどうか不明ですが、とりあえずやってみようかと思っています。

しかし、XML周りの話とか、すっかりご無沙汰だったので、SAXパーザの話とかどうすればいいのかわかってなかったし、もうめぼしいクライアントは出そろった感があるので、果たして有料でリリースできるものが作れるのかどうか…

現状では自分の技術レベルのシグナルとして無料にするほうが、もしかしたら良いのかも知れません。
が、最終的にはちゃんと有料で使ってもらえる物を作っていくのが目標なので、最初は小さくても、バージョンアップでいろいろとくっつけて育てられるアプリを作りたいなと思っています。

こんな機能を付けて欲しいな〜なんて話があったら、コメントでお知らせください。(って、ほとんど実現されてるかな)