革命 · オープンソースrとrevolution r enterprise(rre) 15 ©ksk analytics ....

32
株式会社KSKアナリティクス 20146<- + 革命

Upload: others

Post on 02-Sep-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

株式会社KSKアナリティクス 2014年6月

<- + 革命

1993年 二人の大学教授、Robert Gentlemanと Ross Ihakaが開発開始

2000年 Version 1.0がリリース

現在(2014年6月)

Version 3.1がリリース パッケージ数も多く「Rで出来ない分析は無い」、世界中のR利用者は250万人以上、と言われるほどに成長

オープンソース & フリーソフト

2

©KSK Analytics

扱いやすい関数型プログラミング言語

= 言語 + 分析

統計データの分析用の言語 豊富な分析アルゴリズムと洗練された可視化と分析

UNIX哲学 「一つのプログラムには一つのことをうまくやらせる」 (Write programs that do one thing and do it well. Write programs to work together)

3

©KSK Analytics

http://r4stats.com/articles/popularity/

利用可能なパッケージ数は

5,651 (2014年6月現在)

増え続けるRパッケージ

4

©KSK Analytics

バラエティー豊かなRパッケージ http://www.maths.lancs.ac.uk/~rowlings/R/TaskViews/

5

©KSK Analytics

RはHadoop上でも動きます

https://github.com/RevolutionAnalytics 6

©KSK Analytics

http://www.r-bloggers.com/where-world-cup-players-actually-come-from/

商用ソフトにも負けない可視化機能

7

©KSK Analytics

書籍も豊富 「R 統計」、848件

8

©KSK Analytics

書籍も豊富 「R プログラミング」、557件

9

©KSK Analytics

Rユーザーは世界中に

10

©KSK Analytics

Rのコミュニティー(勉強会)も盛況

11

©KSK Analytics

・オープンソース&フリーソフトウェア ・扱いやすい関数型プログラミング言語 ・パッケージ数も増加傾向 ・バラエティー豊かなパッケージ ・RはHadoop上でも動きます ・商用ソフトにも負けない可視化機能 ・Rの書籍も豊富 ・Rユーザーは世界中に ・Rのコミュニティー(勉強会)も盛況

オープンソースRの特徴

12

©KSK Analytics

我が国の情報通信市場の実態と情報流通量の計量に関する調査研究結果(平成21年度) ―情報流通インデックスの計量―

http://www.soumu.go.jp/main_content/000124276.pdf

データ量は指数関数的に増加

近年はデータ量の増加とともにRでの分析が困難になってきた。 プログラムを実行するのに、

プログラムの書き方やパッケージを利用した方法など、同じ結果を生むものでも様々な方法が試行錯誤されている → みんな困っている

13

©KSK Analytics

Revolution Analytics

Power

Productivity

Power •大規模データを高速に分析

Productivity

分析アプリケーションをより簡単に開発&構築

Enterprise Readiness 商用版の安定利用

ビジネスサポート Enterprise Readiness

14

©KSK Analytics

メモリとHDD容量の ハイブリッド

マルチスレッド(早い)

商用サポート

5000+のパッケージ ビッグデータのパッケージ

商用ライセンス

取り扱えるデータ量はメモリに依存

シングルスレッド(遅い)

コミュニティサポート

5000+のパッケージ

オープンソース利用 (リスクが大きい)

ビッグデータ (データ量)

分析速度

ビジネス活用

分析機能

商用利用

オープンソースRとRevolution R Enterprise(RRE)

15

©KSK Analytics

1.オープンソースRの実行環境を高速なプラットフォームに改善 2.大規模データをRで高速に分析できる実行環境を整備

数値演算ライブラリーによる高速化

並列アルゴリズム

インデータベースでの実行

マルチスレッドの実行

マルチコアでの実行

Hadoop環境での実行

最適なメモリ管理

Parallelized User Code

16

©KSK Analytics

RRE(Revolution R Enterprise)は 複数のコンポーネントから構成されています。

DistributedR

DevelopR DeployR

ScaleR

ConnectR

17

©KSK Analytics

DistributedR

DevelopR DeployR

ScaleR

ConnectR

R+CRAN

オープンソースのR (version 3.0.2)、関数、CRANパッケージをRevoRから自由に呼び出すことできます。

これまで開発していたRスクリプト、関数、パッケージはそのままご利用頂けます。

RevoR

数値演算ライブラリーにより、オープンソースRよりも3倍〜50倍程高速に実行できます。RevoRはオープンソースで提供されています。

動作環境: • PlatformTM LSFTM Linux®

• Microsoft® HPC Clusters

• Microsoft Azure Burst

• Windows® & Linux Servers

• Windows & Linux Workstations

• Teradata® Database

• IBM® Netezza®

• IBM BigInsightsTM

• Cloudera Hadoop®

• Hortonworks Hadoop

• Intel® Hadoop

18

©KSK Analytics

R vs RevoR のパフォーマンス比較

オープンソースR Revolution R Enterprise(RRE)

Computation (4-core laptop) Open Source R Revolution R Speedup

Linear Algebra1

Matrix Multiply 176 sec 9.3 sec 18x

Cholesky Factorization 25.5 sec 1.3 sec 19x

Linear Discriminant Analysis 189 sec 74 sec 3x

General R Benchmarks2

R Benchmarks (Matrix Functions) 22 sec 3.5 sec 5x

R Benchmarks (Program Control) 5.6 sec 5.4 sec Not appreciable

1. http://www.revolutionanalytics.com/why-revolution-r/benchmarks.php 2. http://r.research.att.com/benchmarks/

オープンソースRのスクリプトを変更せず、RevoRで実行。3倍〜50倍など高いパフォー

マンス向上が報告されています(倍率はデータ数やアルゴリズムにより変化)

19

©KSK Analytics

DistributedR

DevelopR DeployR

ScaleR

ConnectR

ScaleR

並列分散処理、データベース内実行、Hadoop環境などの実行で、より高速なビッグデータ分析を実現できます。

ScaleRはXDFという高圧縮された独自のデータフォーマットを用い、rxで始まるファンクションで分析できます。

・予測モデル・・・線形回帰,ロジスティック回帰,一般化線形モデルなど ・機械学習 ・モンテカルロシミュレーションなど

20

©KSK Analytics

データの読み込み (SAS, SPSS, OBDC接続など)

変数作成、変換 変数保存 説明変数 欠損値処理 ソート(並び替え) マージ(データ統合) 分割(スプリット) カテゴリー毎の演算

(平均や合計など)

最小 / 最大 平均 中央値 四分位 標準偏差 分散 相関係数 共分散 平方和 クロス集計 リスク・オッズ比

カイ二乗検定 ケンドールの順位相関 フィッシャーの正確確率検定 T検定(Student’s t-Test)

データ前処理、基本的な統計

サブサンプリング ランダムサンプル

Rのデータ加工 検定

サンプリング

統計情報

ScaleRの対応している機能

21

©KSK Analytics

平方和 重回帰分析 一般化線形モデル 分散共分散行列、相関行列 ロジスティック回帰 分類木、回帰木 回帰、スコアリングモデル 残差

ヒストグラム 棒グラフ 散布図 ローレンツ曲線 ROC曲線

K-Means

統計モデル

決定木 ランダムフォレスト

予測モデル クラスター分析 データの可視化

分類

機械学習

シミュレーション

モンテカルロ・シミュレーション

変数選択

ステップワイズ回帰

ScaleRの対応している機能

22

©KSK Analytics

※GLM:一般化線形モデル

データ件数

時間(秒)

R vs ScaleR のパフォーマンス比較

23

©KSK Analytics

DistributedR

DevelopR DeployR

ScaleR

ConnectR

DistributedR

DistributedRは並列処理フレームワーク上でメモリやコア、CPUやスレッドなどのシステムリソースを管理できます。Windowsのデスクトップからエンタープライズ・データウェアハウス(EDW)やHadoop上で実行することができます。

動作環境: • Windows Servers

• Red Hat and SuSE Linux Servers

• IBM Platform LSF Linux

• Microsoft HPC Clusters

• Microsoft Azure Burst

• Teradata Database

• Cloudera Hadoop

• Hortonworks Hadoop

ConnectR より高速なデータのインポートとエクスポートを実現します。

動作環境: • High-performance XDF

• SAS, SPSS, テキスト

• Hadoop HDFS (text & XDF)

• Teradata Database & Aster

• EDWs and ADWs

• ODBC

24

©KSK Analytics

DistributedR

DevelopR DeployR

ScaleR

ConnectR

DevelopR

Rの開発に適した統合IDE環境を提供します。

Rのための開発環境であり、Rの文法に基づく入力補完機能や、重要となる文字のハイライト表示機能などがあります。

(DevelopRはWindows環境のみ動作します)

DeployR Rの実行、実行結果をWebサービスやアプリケーションとして提供することができます。(例:Java、JavaScript、.NET APIsなど)

Rコードを構築しサーバーのWebサービスとして組み込むことができるので、どのユーザーからも簡単にRの結果を利用できるほか、アプリケーションなどにも組み込むことができるため、Rがもたらす分析の効果を最大限に発揮することができます。

25

©KSK Analytics

数値演算ライブラリー

マルチスレッド実行

並列処理

並列分散処理

データベース内実行

Hadoop環境での実行

最適なメモリ管理

並列ユーザーコード

RevoR

オープンソース R

DistributedR

DistributedR

DistributedR

ScaleR

ScaleR

ScaleR

ScaleR

データ量・ 分析速度

に対するパフォーマンス

26

©KSK Analytics

JavaのMap-Reduceで回帰分析 Data setup

Mapper

Reducer

行数: 〜100行のJavaコード(セットアップも含む)

27

©KSK Analytics

RREで回帰分析(Hadoop上)

行数:2行のRコード(Javaが100行だと考えると50倍の生産性UP)

28

©KSK Analytics

Complex & Basic analytics

RRE with Hadoop

29

©KSK Analytics

Consumer & Info Svcs

Finance & Insurance Healthcare & Life Sciences

Manuf & Tech Academic & Gov’t

導入実績 米国内200社以上、世界では2000社以上

30

©KSK Analytics

オープンソース R

RRE Workstation

RRE Server

オープンソースRの利用 ✓ ✓ ✓

CRANパッケージの利用 ✓ ✓ ✓

RevoR 高速な数値演算ライブラリによるマルチスレッド対応

✘ ✓ ✓

ConnectR より高速なインポートとエクスポート (形式:XDF, SAS, SPSS, ASCII, Hadoop HDFS, Teradata TPT, ODBC)

✘ ✓ ✓

ScaleR より高速なビッグデータ分析 ✘ ✓ ✓

DevelopR WindowsでのR統合開発環境(IDE) ✘ ✓ ✓

DeployR WebサービスのAPI提供 ✘ ✘ ✓

DistributedR データベースやHadoopクラスタを横断した大規模処理

✘ ✘ ✓

テクニカルサーポート ✘ ✓ ✓

オープンソースRとRRE (Revolution R Enterprise)

31

©KSK Analytics

株式会社KSKアナリティクス

営業本部 セールス・グループ

www.ksk-anl.com [email protected]

より詳細は、レボリューションR日本語サイトへ

http://www.r-analytics.jp/

32

©KSK Analytics