放浪猫

主にガジェットとかの雑記

データマイニングと計算ツール(R言語・Octave)についての雑記

最近ちまたでよくビッグデータについて囁かれていますね。

データサイエンティストなる言葉まで流行しているようで、

どこぞのマッドサイエンティストの亜種?と思ったので調べたのがきっかけ。

 

データサイエンティストってなんぞ?

大雑把に言うと、大量のデータから何か役に立ちそうなデータを数学・統計的処理とかして解析して実務に活かそうとする人とかの事らしい。

データマイニングですな。

データマイニングで特にテキストに限ったものをテキストマイニングと呼ぶそうで、現実的に応用がしやすいのはそのあたりのようです。

データマイニングについては本とか論文漁るといいと思うよ。

 

参考図書(Amazonリンク)

データマイニングテキストマイニング

 

数値計算ツール(無料)

調べるとわかるんですが、だいたいの本とか文献とかソースが「数値計算ツール」を使っているんですね。

MATLABっていうとても有名な計算ツールもありますが、

今回は無料のものでよく使われてるのを見かけるものを2種類ご紹介。

どちらも複素数計算ができます。

 

R

Rの特徴

  • 統計や数値計算をする上でよく使われる
  • 変数名に日本語が使える
  • GUI操作
  • データ構造や型が複雑

 

Octave

Octaveの特徴

  • MATLABとの互換性が高い(完全互換ではないがだいたい互換される)
  • コマンドライン操作
  • 画像処理とかでも使われる
  • データ構造が行列ベースのためシンプル。行列に強い。
  • 統計と数値計算のライブラリがひと通り揃っている
  • ヘルプが使いづらい
  • 日本語が使えない
  • グラフなどの描画処理はGnuplotなどの外部プログラムを用いる必要がある
  • ;が気持ち悪い
  • バージョン依存が激しい。バージョンが異なるとエラーで動かないこともある。

どちらも一長一短ですが、RはATLASを使えば行列計算もできるらしく、またOctaveは昔使ったことがありますが、参考になる図書が少ないという欠点もあります。

処理速度的にはRのほうが速いとかなんとか。

( ´Д`)...なんかOctaveディスってますね(笑)

書き方の比較とか見て好みを選ぶのが妥当なのかなー。

試しにうちの窓8にRを導入してみようと思います。

それで何すんの?って話はまた今度。