バクフー株式会社,
柏野雄太氏 の @IT の連載記事、
「実践! R で学ぶ統計解析の基礎」 が結構おもしろい。ほんとうの使い方の細かな初歩の初歩から始めるのではなく、こんなことができるのだよ、というところをストレートに見せてくれる。オープンソースのRで身近なオープンデータをあれこれ扱うという方向性が好感できる。こういう記事があると、こんなことができるなら使ってみようかなという新たなユーザーがさらに増えていくかもしれない。
統計計算や科学計算をする人にとって R はかなり広く使われるようになっているのだね。R関連の書籍も、この2,3年でだいぶ増えている。シリーズ物にもなっているのね。
第4回 Rによるオープン・データの可視化(2) では、Wikileaksのアフガン戦争ダイアリーのデータも扱っている。元ネタのDrew Conway氏のサイトも見てみるとおもしろい。実践! R を読んだあとに、さらに、
Animated Heatmap of WikiLeaks Report Intensity in Afghanistan のアニメーション化されたヒートマップを見ると、なるほど、こういうところまで行けるのねぇと感心してしまう。
Examples for infochimps Package, and Intro Slides (How To Be a Real Data Monkey - Hacking the Information API with R なんかも見てみるとおもしろい。「インターリュード: TwitterとR」では、MeCab の R 用のインターフェイスの
RMeCab を使ったテキストマイニングの初歩的なことをしているし、「Rによるオープン・データの可視化(2)」では、きれいなグラフを描くことができる ggplot2 を使っている。ggplot2 の特徴は、次のように説明されている。
- データの何に注目したいかを指定するだけで、デフォルトで美しいグラフを描くことができる
- データや表示の切り口指定を後から追加できるので、グラフ作成をしながらデータを探索できる
- レジェンド(凡例)と結び付いた色分け設定が自動である
- ボックスプロット、散布図、線グラフというグラフの見栄えを自由に変更できる
- ファセットグラフ(小さなグラフがタイル状に組み合わさったグラフ)を簡単に作成できる
- 複数のデータを1つのグラフにプロットするときでも、後から足し合わせればよい
- 時系列データであっても特別に時系列オブジェクトとして取り扱う必要がない
- 審美的(aesthetic)なグラフィック要素は、後から加えることができる
- デカルト座標も極座標も自在に切り替えることができる
- グラフィックテーマを設定できるので、見栄えをドラステックに切り替えることができる
「大相撲のアノーマリー (1)」では、データのクリーニングツール
Google Refine も扱われている。これからの連載も期待できそう。