ao-log

インフラ系ITエンジニアのメモ帳です。

第35回R勉強会@東京(#TokyoR)の感想

11/9に開催された、第35回R勉強会@東京(#TokyoR)に行ってきました。
http://atnd.org/events/45114
初めての参加でしたが常連の方が多く、アカデミック要素がやや高い会という印象を持ちました。私はデータサイエンティストの方たちがどのような成果を出しているのか興味があり行ってみたのですが、想像以上にガチな会だったので、ちょっと参加したのが申し訳ないなと思いました。とはいえ初心者の方のセッションを設けたり堅苦しい雰囲気でもなく、初めての方でも入りやすいと感じました。感想と学んだことを、まとめておきます。

初心者向けセッション

簡単な文法やデータフレームについての説明、役立つパッケージ、情報源について。Rは速度面では不利なのでプロトタイプでざっくり感触をつかむ用途で使って、実際は自作で他の言語で書いたもので分析するといったプロジェクトの進め方の話も。
情報源は R のための検索エンジンがあるということすら私は知らず、この情報はありがたかったです。

Rのための検索エンジン。こんな便利なものがあったんですね。
http://seekr.jp/

R言語のwiki
http://www.okada.jp.org/RWiki/

人工データの発生

http://www.slideshare.net/yokkuns/tokyor35

特定の条件を満たすデータが欲しいときがあります。
たとえば正規分布に従うようなデータが欲しい場合は、正規分布に従う乱数を生成する関数 rnorm を使うといったように、確率分布に従って乱数を生成する関数を使うことで実現できるとのことでした。大数の法則(例としては、さいころを投げる回数が多くなるほど、個々の目が出る確率は1/6に近くなるという法則)を、人工的に発生させたデータを用いて正しそうだなと確かめる説明が分かりやすかったです。

Julia 入門

http://www.slideshare.net/Nikoriks/julia-28059489

高水準な記述ができるが、速いということで、発表者の方が今後どうなるか注目されている言語です。性能については6枚目。Cと比べても遜色がない。Rは遅い。

data.tableパッケージで大規模データをサクッと処理する

http://www.slideshare.net/sfchaos/datatable?utm_source=dlvr.it&utm_medium=twitter

データフレームと比べて、data.table パッケージを用いると、データの読み込みや、SQLでいうところのWHERE、SUM、JOINといった処理が高速になるとのことです。
質疑応答で、日本語のデータの読み込みはうまくいかなかったといった話もあり、日本語が含まれるデータの取り扱いは R では手間がかかることが多いようです。

Rでネットワーク解析とGIS

http://www.slideshare.net/Med_KU/20131109tokyor35

ネットワーク解析の結果や R で地図をプロットする際のレイアウトが難しく、うまくやらないと地図と位置情報データをマージする時にずれたり、ゴリ押しで修正したりと、簡単にはうまくいかない感じでした。個人的には有向グラフ、無向グラフの説明が面白かったです。