「r for cloud computing」の紹介

15
R for Cloud Computing 」の紹介 Takekatsu Hiramura 2015-01-17 TokyoR #45 1

Upload: takekatsu-hiramura

Post on 14-Jul-2015

4.266 views

Category:

Data & Analytics


2 download

TRANSCRIPT

Page 1: 「R for Cloud Computing」の紹介

「R for Cloud Computing」の紹介

Takekatsu Hiramura

2015-01-17TokyoR #45

1

Page 2: 「R for Cloud Computing」の紹介

自己紹介

» 平村 健勝 (Taketatsu Hiramura)コンサルティングファーム勤務

» seekR 管理人

» Rパッケージ RForcecom 開発者

» Twitter @hiratake55

» http://about.me/takekatsu.hiramura

2

Page 3: 「R for Cloud Computing」の紹介

SeekR: Rに特化した検索エンジン

3

Page 4: 「R for Cloud Computing」の紹介

RForcecom パッケージ

R から Salesforce.com, Force.com に接続するパッケージ、「RForcecom」を開発しました。本体は CRAN に登録済で、コードは GitHub で公開中です。

4

データマニピュレーション 統計分析(多変量解析、データマイニング等) データビジュアリゼーション

CRM(顧客情報管理) ダッシュボード・レポート コラボレーション基盤(Chatter, ToDo管理等)

RSalesforce.com

データ削除

データ挿入

データ更新

画面イメージ

・データ連携内容

用途

データ抽出

SOQLクエリ

検索

http://cran.r-project.org/web/packages/RForcecom/

Page 5: 「R for Cloud Computing」の紹介

Enterprisezine連載「意志決定のためのデータサイエンス講座」

5http://enterprisezine.jp/article/detail/6471

Page 6: 「R for Cloud Computing」の紹介

R for Cloud Computing

» UseR! 2014でRForcecomパッケージの紹介をしたのがきっかけで、「R for

Cloud Computing」という書籍をAjay氏と執筆することになりました。

6UseR!2014@UCLA

Page 7: 「R for Cloud Computing」の紹介

本の概要

» 目的

› Cloud Computing時代のRの使い方として今までとは違った使い方を紹介する。

› 手順をスクリーンショットStep-by-Stepで紹介し、初心者でも理解しやすい内容とする。

» 対象読者

› Rを現在、手持ちのローカル環境のPCで使っているが、大量のデータを素早く処理するためにクラウド上でRを試したい。

› 外部のWebサービス(SaaS, PaaS)を用いて、機械学習やビジュアリゼーションを行いたい

7

http://www.amazon.com/dp/1493917013

Page 8: 「R for Cloud Computing」の紹介

本は全9章で構成されている

8

Chapter

Introduction to R for Cloud

Computing

An Approach for Data Scientists

Navigating the Choices in R and

Cloud Computing

Setting Up R on the Cloud

Using R

Using R with Data and Bigger

Data

R with Cloud APIs

Securing Your R cloud

Training Literature for Cloud

Computing and R

1

2

3

4

5

6

7

8

9

各章の概要

この本について

データサイエンティストがクラウドを使うにあたっての心得

クラウドでRを使うにあたっての様々な選択肢

クラウドでRを実行する

クラウドに特化したRの使い方

Rで大量のデータを処理する

RからクラウドのWeb APIを実行する

セキュリティ面において注意すること

より詳しく知るのに役立つ情報源

技術要素

-

-

Renjin, RFiddle,

Shiny, and etc.

AWS, Google

and etc.

Rappoter, R

Service Bus

RHadoop,

NoSQL

Salesforece.com,

and etc.

-

-次スライドで紹介

次スライドで紹介

次スライドで紹介

次スライドで紹介

Page 9: 「R for Cloud Computing」の紹介

3. クラウドでRを使うにあたっての様々な選択肢

Rをブラウザから使う

» R-Fiddle (http://www.r-fiddle.org/)› Datamind社が開発。JSFiddleに影響を受けて開発された。

› Chrome Appもある。

» Domino (http://www.dominodatalab.com/)› PythonやRのコードをブラウザから実行可能。最近では、

Notebookにも対応。

» Intuitics(旧:Statace) (https://www.intuitics.com/)

› コーディングの知識が無くてもデータ分析、整形、可視化が可能なサービス

9

Page 10: 「R for Cloud Computing」の紹介

3. クラウドでRを使うにあたっての様々な選択肢

Rの実行環境

» Renjin (http://renjindemo.appspot.com/)› Java VMを用いた独自のRインタプリタ。他システムと連携が容易なのが特徴。 (現在開発中)

» pqR (http://www.pqr-project.org/)› A pretty quick version of R。R Core Teamが高速化を目的として開発。

› R 2.15.0がベース。

10

Page 11: 「R for Cloud Computing」の紹介

4. クラウドでRを実行する

AWSでRを利用する

» RStudio Server› EC2インスタンスにRStudio Serverをインストール。Webブラウザからアクセスして利用可能。

› http://www.rstudio.com/products/rstudio/download-server/

» RevolutionRのAMI

› Windows版, Linux版が提供

› https://aws.amazon.com/marketplace/seller-profile?id=3c6536d3-

8115-4bc0-a713-be58e257a7be

» BioconductorのAMI

› Bioconductorの他、RStudio Serverなどがインストール済。

› http://www.bioconductor.org/help/bioconductor-cloud-ami/11

Page 12: 「R for Cloud Computing」の紹介

4. クラウドでRを実行する

Google Cloud PlatformでRを利用する

» Big Query› bigrqueryパッケージ。Hadley Wickham氏が開発。

› https://github.com/hadley/bigrquery

» Google Prediction API› googlepredictionapiパッケージ。Googleが開発。

› https://code.google.com/p/google-prediction-api-r-client/

» Fusion Tables API› GFusionTablesパッケージ

› http://gfusiontables.lopatenko.com/

12

Page 13: 「R for Cloud Computing」の紹介

7.RからクラウドのWeb APIを実行する

» BigML› bigml-Rパッケージ: https://github.com/bigmlcom/bigml-r

» Microsoft Azure Machine Learning› Webインターフェース(ML Studio)からRコードを実行可能

» plot.ly› チュートリアル:https://plot.ly/r/getting-started/

» yhat› yhatrパッケージ: https://github.com/yhat/yhatr

» Salesforce.com› RForcecomパッケージ: http://rforcecom.plavox.info/

13

Page 14: 「R for Cloud Computing」の紹介

8. より詳しく知るのに役立つ情報源

14

情報源・コミュニティ

» R-bloggershttp://www.r-bloggers.com/

» R User Meetupshttp://r-users-group.meetup.com/

オンラインコース

» Courserahttps://www.coursera.org/course/dataanalysis

» DataCamphttps://www.datacamp.com/courses

» UCLAhttp://www.ats.ucla.edu/stat/r/

Page 15: 「R for Cloud Computing」の紹介

15

書籍には、本日紹介できなかったパッケージ、サービスを多数紹介しています

Takekatsu Hiramurahttp://thira.plavox.info/

[email protected] http://www.amazon.co.jp/exec/obidos/ASIN/1493917013

» ご興味のある方はぜひ購入ください