「r for cloud computing」の紹介
TRANSCRIPT
「R for Cloud Computing」の紹介
Takekatsu Hiramura
2015-01-17TokyoR #45
1
自己紹介
» 平村 健勝 (Taketatsu Hiramura)コンサルティングファーム勤務
» seekR 管理人
» Rパッケージ RForcecom 開発者
» Twitter @hiratake55
» http://about.me/takekatsu.hiramura
2
SeekR: Rに特化した検索エンジン
3
RForcecom パッケージ
R から Salesforce.com, Force.com に接続するパッケージ、「RForcecom」を開発しました。本体は CRAN に登録済で、コードは GitHub で公開中です。
4
データマニピュレーション 統計分析(多変量解析、データマイニング等) データビジュアリゼーション
CRM(顧客情報管理) ダッシュボード・レポート コラボレーション基盤(Chatter, ToDo管理等)
RSalesforce.com
データ削除
データ挿入
データ更新
画面イメージ
・データ連携内容
用途
データ抽出
SOQLクエリ
検索
http://cran.r-project.org/web/packages/RForcecom/
Enterprisezine連載「意志決定のためのデータサイエンス講座」
5http://enterprisezine.jp/article/detail/6471
R for Cloud Computing
» UseR! 2014でRForcecomパッケージの紹介をしたのがきっかけで、「R for
Cloud Computing」という書籍をAjay氏と執筆することになりました。
6UseR!2014@UCLA
本の概要
» 目的
› Cloud Computing時代のRの使い方として今までとは違った使い方を紹介する。
› 手順をスクリーンショットStep-by-Stepで紹介し、初心者でも理解しやすい内容とする。
» 対象読者
› Rを現在、手持ちのローカル環境のPCで使っているが、大量のデータを素早く処理するためにクラウド上でRを試したい。
› 外部のWebサービス(SaaS, PaaS)を用いて、機械学習やビジュアリゼーションを行いたい
7
http://www.amazon.com/dp/1493917013
本は全9章で構成されている
8
Chapter
Introduction to R for Cloud
Computing
An Approach for Data Scientists
Navigating the Choices in R and
Cloud Computing
Setting Up R on the Cloud
Using R
Using R with Data and Bigger
Data
R with Cloud APIs
Securing Your R cloud
Training Literature for Cloud
Computing and R
1
2
3
4
5
6
7
8
9
各章の概要
この本について
データサイエンティストがクラウドを使うにあたっての心得
クラウドでRを使うにあたっての様々な選択肢
クラウドでRを実行する
クラウドに特化したRの使い方
Rで大量のデータを処理する
RからクラウドのWeb APIを実行する
セキュリティ面において注意すること
より詳しく知るのに役立つ情報源
技術要素
-
-
Renjin, RFiddle,
Shiny, and etc.
AWS, Google
and etc.
Rappoter, R
Service Bus
RHadoop,
NoSQL
Salesforece.com,
and etc.
-
-次スライドで紹介
次スライドで紹介
次スライドで紹介
次スライドで紹介
3. クラウドでRを使うにあたっての様々な選択肢
Rをブラウザから使う
» R-Fiddle (http://www.r-fiddle.org/)› Datamind社が開発。JSFiddleに影響を受けて開発された。
› Chrome Appもある。
» Domino (http://www.dominodatalab.com/)› PythonやRのコードをブラウザから実行可能。最近では、
Notebookにも対応。
» Intuitics(旧:Statace) (https://www.intuitics.com/)
› コーディングの知識が無くてもデータ分析、整形、可視化が可能なサービス
9
3. クラウドでRを使うにあたっての様々な選択肢
Rの実行環境
» Renjin (http://renjindemo.appspot.com/)› Java VMを用いた独自のRインタプリタ。他システムと連携が容易なのが特徴。 (現在開発中)
» pqR (http://www.pqr-project.org/)› A pretty quick version of R。R Core Teamが高速化を目的として開発。
› R 2.15.0がベース。
10
4. クラウドでRを実行する
AWSでRを利用する
» RStudio Server› EC2インスタンスにRStudio Serverをインストール。Webブラウザからアクセスして利用可能。
› http://www.rstudio.com/products/rstudio/download-server/
» RevolutionRのAMI
› Windows版, Linux版が提供
› https://aws.amazon.com/marketplace/seller-profile?id=3c6536d3-
8115-4bc0-a713-be58e257a7be
» BioconductorのAMI
› Bioconductorの他、RStudio Serverなどがインストール済。
› http://www.bioconductor.org/help/bioconductor-cloud-ami/11
4. クラウドでRを実行する
Google Cloud PlatformでRを利用する
» Big Query› bigrqueryパッケージ。Hadley Wickham氏が開発。
› https://github.com/hadley/bigrquery
» Google Prediction API› googlepredictionapiパッケージ。Googleが開発。
› https://code.google.com/p/google-prediction-api-r-client/
» Fusion Tables API› GFusionTablesパッケージ
› http://gfusiontables.lopatenko.com/
12
7.RからクラウドのWeb APIを実行する
» BigML› bigml-Rパッケージ: https://github.com/bigmlcom/bigml-r
» Microsoft Azure Machine Learning› Webインターフェース(ML Studio)からRコードを実行可能
» plot.ly› チュートリアル:https://plot.ly/r/getting-started/
» yhat› yhatrパッケージ: https://github.com/yhat/yhatr
» Salesforce.com› RForcecomパッケージ: http://rforcecom.plavox.info/
13
8. より詳しく知るのに役立つ情報源
14
情報源・コミュニティ
» R-bloggershttp://www.r-bloggers.com/
» R User Meetupshttp://r-users-group.meetup.com/
オンラインコース
» Courserahttps://www.coursera.org/course/dataanalysis
» DataCamphttps://www.datacamp.com/courses
» UCLAhttp://www.ats.ucla.edu/stat/r/
15
書籍には、本日紹介できなかったパッケージ、サービスを多数紹介しています
Takekatsu Hiramurahttp://thira.plavox.info/
[email protected] http://www.amazon.co.jp/exec/obidos/ASIN/1493917013
» ご興味のある方はぜひ購入ください