ao-log

インフラ系ITエンジニアのメモ帳です。

「Japan.R 2013」参加レポート

12/7(土)に開催された、Japan.R 2013 に行ってきました。200人近くの人が参加し、大盛況でした。すべての発表ではなく、見て聞いて気になった項目をまとめておきます。

Yahoo!ビッグデータからの景気動向指数の推測について

「Yahoo! JAPANビッグデータレポート」では、Yahoo が持っている様々なデータ(検索ワード、ページビュー数、など)から、世間の関心度が高いテーマについて分析結果をレポートとして載せています。
http://docs.yahoo.co.jp/info/bigdata/

4つほどテーマがあるうちの一つ景気動向指数についての発表でした。この取り組みについては、4月に掲載された次の記事がわかりやすいです。

[ZDNet Japan: Yahoo! JAPANはビッグデータで経済指標の夢を見た]
http://japan.zdnet.com/cio/analysis/35030970/

景気動向指数自体は定期的に内閣府で発表されているようですが、リアルタイムな発表ではないのでより速く結果が出せることが重要です。また、結果が内閣府の発表とかい離しているとレポートの信頼性が下がりますが、なかなか良好な結果が出ているようで、さすがというかすごいと思いました。

Yahoo! で一定回数以上検索された約 60 万のキーワードが分析の候補となり、分析手法としては重回帰分析を使っているそうです。安定して結果を推測できるようなモデルにする必要があり、そのために stepwise 法を採用して変数を絞り込んでいるとのこと(ちょっと私の理解が及んでいない部分です)。

また、オーバーフィッティングしないように注意しているようです。分析して、横軸が時間、縦軸が指数のグラフを出しますが、時系列で現在まではかなりきれいにフィットする結果を出せても、将来の予測ではかい離する場合もよくあるからだそうです。なので、完全にフィットせず多少のずれは許容し、将来の予測も安定してできるようにする必要があって、そこが腕の見せ所のような印象を受けました。

最後の質疑応答では、選挙で人間の専門家が新聞で記事にした結果よりも、Yahoo!の分析のほうが的中率が高かった(ただし山本太郎さんは予想を外したらしい)とのやりとりがあり、「我々はデータを信じるスタンスである!」との発表者の方のお言葉が印象的でした。

実ビジネスデータへのRの活用とその限界

全体的なストーリーを書く形ではなく、個人的に注目した個所を箇条書きで書いていきます。

  • 「前処理」「分析」「レポート」の流れ。前処理が大変。泥くさい世界。
  • 何でも R でしようとする人が多い気がする。適材適所で適切な言語を使うとよい。
  • データ3か条「分析対象について理解する」「分析手法を適切に理解する」「分析結果について適切なアクション」
  • 人を動かすコンサル的な視点も必要。デール・カーネギーさんの世界的名著『人を動かす』から得た3か条も紹介される。
  • データ分析について相談に来る企業さんが多い。ただ、実際には、データ分析をすることをお勧めできないケースもある。たとえば、スタートアップは分析よりもどんどんプロダクトを投入したほうがよいし、あるいは分析以前に撤退したほうがよいフェーズに既になっているケースなど。データ分析ありきでは、うまくいかない。

LT 大会

県別美人判定

顔写真から、何県美人なのか判定する。ただ、外すケースが多く、顔写真から何県美人か判定できるのでは? という仮説は、無理だったという結論になったそう。
http://bijin.kamaku.la/

@gepuro さんの発表

R での可読性の高いコーディングについて、主に変数の命名法の提案。スライドなしで発表に臨み、持ち時間の5分でぴったり終わり、すごいの一言です。

変態にRを与えた結果がこれだよ...8

プロットしてみた例が多数!
http://www.slideshare.net/Med_KU/20131207-japanr4-lt