最近ちまたでよくビッグデータについて囁かれていますね。
データサイエンティストなる言葉まで流行しているようで、
どこぞのマッドサイエンティストの亜種?と思ったので調べたのがきっかけ。
データサイエンティストってなんぞ?
大雑把に言うと、大量のデータから何か役に立ちそうなデータを数学・統計的処理とかして解析して実務に活かそうとする人とかの事らしい。
データマイニングですな。
データマイニングで特にテキストに限ったものをテキストマイニングと呼ぶそうで、現実的に応用がしやすいのはそのあたりのようです。
データマイニングについては本とか論文漁るといいと思うよ。
参考図書(Amazonリンク)
- データマイニング入門(読み物・R)
- データサイエンティスト養成読本(解説本・R)
- テキストマイニングハンドブック(技術的な英論を和訳した本)
数値計算ツール(無料)
調べるとわかるんですが、だいたいの本とか文献とかソースが「数値計算ツール」を使っているんですね。
MATLABっていうとても有名な計算ツールもありますが、
今回は無料のものでよく使われてるのを見かけるものを2種類ご紹介。
どちらも複素数計算ができます。
R
- 公式サイト
- RjpWiki(Rの日本語wiki)
- Rでプログラミング:データの一括処理とグラフ描き
Rの特徴
- 公式サイト GNU Octave
- Octaveによる画像処理入門(ガイド本)
- 金子邦彦研究室(導入ガイド)
Octaveの特徴
- MATLABとの互換性が高い(完全互換ではないがだいたい互換される)
- コマンドライン操作
- 画像処理とかでも使われる
- データ構造が行列ベースのためシンプル。行列に強い。
- 統計と数値計算のライブラリがひと通り揃っている
- ヘルプが使いづらい
- 日本語が使えない
- グラフなどの描画処理はGnuplotなどの外部プログラムを用いる必要がある
- ;が気持ち悪い
- バージョン依存が激しい。バージョンが異なるとエラーで動かないこともある。
どちらも一長一短ですが、RはATLASを使えば行列計算もできるらしく、またOctaveは昔使ったことがありますが、参考になる図書が少ないという欠点もあります。
処理速度的にはRのほうが速いとかなんとか。
( ´Д`)...なんかOctaveディスってますね(笑)
書き方の比較とか見て好みを選ぶのが妥当なのかなー。
試しにうちの窓8にRを導入してみようと思います。
それで何すんの?って話はまた今度。