革命 · オープンソースrとrevolution r enterprise(rre) 15 ©ksk analytics ....
TRANSCRIPT
1993年 二人の大学教授、Robert Gentlemanと Ross Ihakaが開発開始
2000年 Version 1.0がリリース
現在(2014年6月)
Version 3.1がリリース パッケージ数も多く「Rで出来ない分析は無い」、世界中のR利用者は250万人以上、と言われるほどに成長
オープンソース & フリーソフト
2
©KSK Analytics
扱いやすい関数型プログラミング言語
= 言語 + 分析
統計データの分析用の言語 豊富な分析アルゴリズムと洗練された可視化と分析
UNIX哲学 「一つのプログラムには一つのことをうまくやらせる」 (Write programs that do one thing and do it well. Write programs to work together)
3
©KSK Analytics
http://www.r-bloggers.com/where-world-cup-players-actually-come-from/
商用ソフトにも負けない可視化機能
7
©KSK Analytics
・オープンソース&フリーソフトウェア ・扱いやすい関数型プログラミング言語 ・パッケージ数も増加傾向 ・バラエティー豊かなパッケージ ・RはHadoop上でも動きます ・商用ソフトにも負けない可視化機能 ・Rの書籍も豊富 ・Rユーザーは世界中に ・Rのコミュニティー(勉強会)も盛況
オープンソースRの特徴
12
©KSK Analytics
我が国の情報通信市場の実態と情報流通量の計量に関する調査研究結果(平成21年度) ―情報流通インデックスの計量―
http://www.soumu.go.jp/main_content/000124276.pdf
データ量は指数関数的に増加
近年はデータ量の増加とともにRでの分析が困難になってきた。 プログラムを実行するのに、
プログラムの書き方やパッケージを利用した方法など、同じ結果を生むものでも様々な方法が試行錯誤されている → みんな困っている
13
©KSK Analytics
Revolution Analytics
Power
Productivity
Power •大規模データを高速に分析
Productivity
分析アプリケーションをより簡単に開発&構築
Enterprise Readiness 商用版の安定利用
ビジネスサポート Enterprise Readiness
14
©KSK Analytics
メモリとHDD容量の ハイブリッド
マルチスレッド(早い)
商用サポート
5000+のパッケージ ビッグデータのパッケージ
商用ライセンス
取り扱えるデータ量はメモリに依存
シングルスレッド(遅い)
コミュニティサポート
5000+のパッケージ
オープンソース利用 (リスクが大きい)
ビッグデータ (データ量)
分析速度
ビジネス活用
分析機能
商用利用
オープンソースRとRevolution R Enterprise(RRE)
15
©KSK Analytics
1.オープンソースRの実行環境を高速なプラットフォームに改善 2.大規模データをRで高速に分析できる実行環境を整備
数値演算ライブラリーによる高速化
並列アルゴリズム
インデータベースでの実行
マルチスレッドの実行
マルチコアでの実行
Hadoop環境での実行
最適なメモリ管理
Parallelized User Code
16
©KSK Analytics
RRE(Revolution R Enterprise)は 複数のコンポーネントから構成されています。
DistributedR
DevelopR DeployR
ScaleR
ConnectR
17
©KSK Analytics
DistributedR
DevelopR DeployR
ScaleR
ConnectR
R+CRAN
オープンソースのR (version 3.0.2)、関数、CRANパッケージをRevoRから自由に呼び出すことできます。
これまで開発していたRスクリプト、関数、パッケージはそのままご利用頂けます。
RevoR
数値演算ライブラリーにより、オープンソースRよりも3倍〜50倍程高速に実行できます。RevoRはオープンソースで提供されています。
動作環境: • PlatformTM LSFTM Linux®
• Microsoft® HPC Clusters
• Microsoft Azure Burst
• Windows® & Linux Servers
• Windows & Linux Workstations
• Teradata® Database
• IBM® Netezza®
• IBM BigInsightsTM
• Cloudera Hadoop®
• Hortonworks Hadoop
• Intel® Hadoop
18
©KSK Analytics
R vs RevoR のパフォーマンス比較
オープンソースR Revolution R Enterprise(RRE)
Computation (4-core laptop) Open Source R Revolution R Speedup
Linear Algebra1
Matrix Multiply 176 sec 9.3 sec 18x
Cholesky Factorization 25.5 sec 1.3 sec 19x
Linear Discriminant Analysis 189 sec 74 sec 3x
General R Benchmarks2
R Benchmarks (Matrix Functions) 22 sec 3.5 sec 5x
R Benchmarks (Program Control) 5.6 sec 5.4 sec Not appreciable
1. http://www.revolutionanalytics.com/why-revolution-r/benchmarks.php 2. http://r.research.att.com/benchmarks/
オープンソースRのスクリプトを変更せず、RevoRで実行。3倍〜50倍など高いパフォー
マンス向上が報告されています(倍率はデータ数やアルゴリズムにより変化)
19
©KSK Analytics
DistributedR
DevelopR DeployR
ScaleR
ConnectR
ScaleR
並列分散処理、データベース内実行、Hadoop環境などの実行で、より高速なビッグデータ分析を実現できます。
ScaleRはXDFという高圧縮された独自のデータフォーマットを用い、rxで始まるファンクションで分析できます。
・予測モデル・・・線形回帰,ロジスティック回帰,一般化線形モデルなど ・機械学習 ・モンテカルロシミュレーションなど
20
©KSK Analytics
データの読み込み (SAS, SPSS, OBDC接続など)
変数作成、変換 変数保存 説明変数 欠損値処理 ソート(並び替え) マージ(データ統合) 分割(スプリット) カテゴリー毎の演算
(平均や合計など)
最小 / 最大 平均 中央値 四分位 標準偏差 分散 相関係数 共分散 平方和 クロス集計 リスク・オッズ比
カイ二乗検定 ケンドールの順位相関 フィッシャーの正確確率検定 T検定(Student’s t-Test)
データ前処理、基本的な統計
サブサンプリング ランダムサンプル
Rのデータ加工 検定
サンプリング
統計情報
ScaleRの対応している機能
21
©KSK Analytics
平方和 重回帰分析 一般化線形モデル 分散共分散行列、相関行列 ロジスティック回帰 分類木、回帰木 回帰、スコアリングモデル 残差
ヒストグラム 棒グラフ 散布図 ローレンツ曲線 ROC曲線
K-Means
統計モデル
決定木 ランダムフォレスト
予測モデル クラスター分析 データの可視化
分類
機械学習
シミュレーション
モンテカルロ・シミュレーション
変数選択
ステップワイズ回帰
ScaleRの対応している機能
22
©KSK Analytics
DistributedR
DevelopR DeployR
ScaleR
ConnectR
DistributedR
DistributedRは並列処理フレームワーク上でメモリやコア、CPUやスレッドなどのシステムリソースを管理できます。Windowsのデスクトップからエンタープライズ・データウェアハウス(EDW)やHadoop上で実行することができます。
動作環境: • Windows Servers
• Red Hat and SuSE Linux Servers
• IBM Platform LSF Linux
• Microsoft HPC Clusters
• Microsoft Azure Burst
• Teradata Database
• Cloudera Hadoop
• Hortonworks Hadoop
ConnectR より高速なデータのインポートとエクスポートを実現します。
動作環境: • High-performance XDF
• SAS, SPSS, テキスト
• Hadoop HDFS (text & XDF)
• Teradata Database & Aster
• EDWs and ADWs
• ODBC
24
©KSK Analytics
DistributedR
DevelopR DeployR
ScaleR
ConnectR
DevelopR
Rの開発に適した統合IDE環境を提供します。
Rのための開発環境であり、Rの文法に基づく入力補完機能や、重要となる文字のハイライト表示機能などがあります。
(DevelopRはWindows環境のみ動作します)
DeployR Rの実行、実行結果をWebサービスやアプリケーションとして提供することができます。(例:Java、JavaScript、.NET APIsなど)
Rコードを構築しサーバーのWebサービスとして組み込むことができるので、どのユーザーからも簡単にRの結果を利用できるほか、アプリケーションなどにも組み込むことができるため、Rがもたらす分析の効果を最大限に発揮することができます。
25
©KSK Analytics
数値演算ライブラリー
マルチスレッド実行
並列処理
並列分散処理
データベース内実行
Hadoop環境での実行
最適なメモリ管理
並列ユーザーコード
RevoR
オープンソース R
DistributedR
DistributedR
DistributedR
ScaleR
ScaleR
ScaleR
ScaleR
データ量・ 分析速度
に対するパフォーマンス
26
©KSK Analytics
Consumer & Info Svcs
Finance & Insurance Healthcare & Life Sciences
Manuf & Tech Academic & Gov’t
導入実績 米国内200社以上、世界では2000社以上
30
©KSK Analytics
オープンソース R
RRE Workstation
RRE Server
オープンソースRの利用 ✓ ✓ ✓
CRANパッケージの利用 ✓ ✓ ✓
RevoR 高速な数値演算ライブラリによるマルチスレッド対応
✘ ✓ ✓
ConnectR より高速なインポートとエクスポート (形式:XDF, SAS, SPSS, ASCII, Hadoop HDFS, Teradata TPT, ODBC)
✘ ✓ ✓
ScaleR より高速なビッグデータ分析 ✘ ✓ ✓
DevelopR WindowsでのR統合開発環境(IDE) ✘ ✓ ✓
DeployR WebサービスのAPI提供 ✘ ✘ ✓
DistributedR データベースやHadoopクラスタを横断した大規模処理
✘ ✘ ✓
テクニカルサーポート ✘ ✓ ✓
オープンソースRとRRE (Revolution R Enterprise)
31
©KSK Analytics
株式会社KSKアナリティクス
営業本部 セールス・グループ
www.ksk-anl.com [email protected]
より詳細は、レボリューションR日本語サイトへ
http://www.r-analytics.jp/
32
©KSK Analytics