オープン・エコシステムにおいてsas...
TRANSCRIPT
WHITE PAPER
オープン・エコシステムにおいてSAS®を利用する利点多様なデータとアナリティクスを取りまとめ、組織全体で多大な価値創出の実現を推進する取り組みに おいて、統合アナリティクス・プラットフォームが果たす役割とは?
ii
目次アナリティクス資産を一元管理する必要性 ............................................................. 1
今日のコンピューティング環境におけるオープンソースの活用状況 ......................... 2
オープンソース・テクノロジーは「全社規模のアナリティクス」に関する ニーズや要件に適合するのか? ..................................................................................... 2
SAS®とオープンソース・テクノロジーを統合するメリット ....................................... 3
SAS® Platformの導入効果 ................................................................................. 4
オープン・エコシステムにおいてSAS®が担う役割 ................................................. 6
SAS®をオープンソース環境に採り入れる ...................................................................... 6
オープンソース・テクノロジーの要素をSAS®に取り込む ................................................ 7
オープン・エコシステムの利用と、オープン・エコシステムへの貢献 ................................ 8
アナリティクスの展開プロセスの統一 ................................................................... 8
まとめ .............................................................................................................. 10
関連情報 .......................................................................................................... 10
1
アナリティクス資産を一元管理する必要性成長中の銀行における次のような状況を想像してみてください。この銀行は厳しい競争環境に置
かれており、顧客ニーズの進化に俊敏に対応する必要があります。幸い、行内の各部門にはアナ
リティクスに精通した担当者たちが配置されており、最終利益に好影響をもたらす成果が上がり
つつあります。
• 事業開発チームのデータ・サイエンティストは、上得意客向けにカスタマイズしたエクスペリ
エンスを提供するためにデータを分析しています。
• デジタル・マーケティング担当者は、住宅ローンの見込客のカスタマー・ジャーニーを追跡し、
要所要所の意思決定に影響を及ぼすことが仕事です。
• リスク分析担当者は、同行の融資ポートフォリオに関するリスクモデルを構築しています。
• データ分析担当者は、地元の顧客に関するデータを検討しています。
• テクニカル・アーキテクトは、サイバー・セキュリティ上の内外の脅威から同行のデータを保護
するために新しいシステムを定義しています。
• アプリケーション開発者は、顧客がポートフォリオをオンラインで管理できる新しいモバイルア
プリを構築しています。
こうした従業員たちがアナリティクスやデータ管理のために利用しているパッケージは、銀行全体
で十数種類を超えているかもしれません。
その中には、オープンソース・テクノロジーや、商用ソフトウェア・ソリューション、エンタープライ
ズ・ホスティング型アプリケーション、クラウド型ソリューションが含まれている可能性があります。
もちろん、こうした異種混在の環境にも利点はあります。例えば、データ管理やアナリティクスの
担当者が自分好みのプログラミング言語やツールを利用できていれば、仕事の満足度や効率性は
向上します。また、技術スキルが不足する状況が生じたとしても、スキルをめぐる柔軟性を確保で
きていれば、組織として必要な人材を見つけ出したり、既存の人材を最大限に活用したりする取り
組みは円滑に進みます。
では、この銀行の IT/アナリティクス部門が、「これらのプロジェクトにおいて、信頼性の高いデー
タ、最良のモデル、厳格な分析プロセスが使用されており、それによって結果のコンプライアンス、
有用性、反復性が保証されている状態」を確保するためには、何をどうすればよいのでしょうか? また、アナリティクスを活用した結果のモニタリングや他の業務改善機会の発掘に活用できるよう
に、こうした異種混在のコードベースやビジネスシナリオの全てを取りまとめるのは、誰の責任な
のでしょうか?
企業や組織がそうした側面に取り組むためには、データとアナリティクスの縦割り管理(サイロ)
を統一できる環境が必要です。具体的には、既存および最新のテクノロジーを統合することによっ
て、コードやツールの種類に関係なく、アナリティクスの取り組みを結集させた上で、アナリティ
クス資産への共有アクセスを部門横断で実現できるような環境です。こうした環境は、データや アナリティクスの担当者に対し、既存のスキルを活かして様々な手法の作成、実験、テスト、迅速な 展開(業務への組み込み)を容易に行える自由をもたらします。また、IT部門側では、全てのアナ
リティクス資産を対象にして、アナリティクス・ライフサイクル全体(データ準備からモデル生成、
業務への実装まで)を一元的な環境で容易に管理できるようになります。
こうした取り組みに役立つのは、アナリティクス資産の統制を確立した上で、全社規模で目に見え
る成果を生み出せるように支援する、包括的な統合アナリティクス・プラットフォームです。
2
今日のコンピューティング環境における オープンソースの活用状況オープンソースとは、ユーザー・コミュニティの誰もが利用と修正を行えるようにソースコードが
公開されたコンピューティング・プログラムまたはインフラを指します。オープンソースは本来的
に協働作業型の取り組みであり、変更点を幅広いコミュニティと共有することを条件に、プログラ
マーはソースコードを自由に改良できます。オープンソース・プログラムを利用するプログラマー
は、志を同じくする個人が集うオンライン・コミュニティに直接参加しますが、そこでは多くの場合、 他のプログラマーたちが開発に貢献した幅広い構築済みのアルゴリズムが共有されています。 公開されているソースコードを基盤として様々な機能/プロジェクト/アプリケーションを構築で
きるため、アプリケーション開発のスピードアップと、アナリティクス・ソフトウェア活用の初期コス
ト低減が実現します。
オープンソース・テクノロジーはここ10年間で人気が高まりましたが、それにはいくつもの理由が あります。例えば、他のプログラムでは無理だった問題を解決できた実績や、柔軟性が高い点、 無料で容易に入手できるため学生(=将来の仕事の担い手)たちも早期にソフトウェアの使い方を
学べる点などが挙げられます。
それと同時に、アナリティクスとデータ管理のニーズが拡大する中、多くの企業・組織が、適切な
スキルを持つ従業員の欠如/不足を認識するようになったという背景もあります。オープンソー
ス・テクノロジーは、多彩なソフトウェア・プログラミング言語を通じてデータとアナリティクスの
ニーズに対処できる柔軟性を提供します。データとアナリティクスの担当者たちが各自の好みの
プログラミング言語や環境で作業できるようにすることは、組織のアナリティクス人材プールの 拡充につながります。
オープンソース・テクノロジーは「全社規模のアナリティクス」に関するニーズや要件に適合するのか?オープンソースは、社内/組織内の貢献者たちを1つのコミュニティに結集させるために役立ち
ます。誰もが同僚の開発したコードを基盤として作業できるようになるため、土台から作り直すよ
うな無駄がなくなります。しかし、全社規模のアナリティクスのためにオープンソース・テクノロジー
を活用する場合は、全社的な業務効率化の追求という点で十分な成果が得られない恐れがありま
す。以下のような点が課題となる可能性があります。
アナリティクス環境のサイロ化とIT環境の複雑さ: 実務担当者チーム別に好みのツールを使用す
ると、個別管理される複数のアナリティクス環境が散在する結果となります。個々の環境で独自の
データ、アルゴリズム、手法、コード、バージョン管理が利用され、管理や保守も環境毎に別々に
行わなければなりません。こうした状況ではアナリティクスを業務に組み込む工程の複雑さが増大
し、ひいては全社レベルで維持すべき一貫性と統制の水準が低下してしまいます。
モデルの再コーディングが一貫性のない結果をもたらす可能性: 現実のアナリティクス課題解決
において最適解を得るためには、複数の手法を組み合わせて活用する必要があります。複数のモ
デルが別々の言語で記述されている場合、ある手法の出力を別の手法の入力として利用するため
には、追加のコーディングが必要になります。データ・サイエンティストがモデルを別の言語また
は同じ言語の異なるバージョンで再コーディングしようとすると、多くの時間がかかるだけでなく、
元のモデルと同じ結果が得られず、その理由も不明というケースは珍しくありません。
他人が解釈しづらいコードが組織内に蔓延する恐れ: 開発者は特定の課題を所定の時間内で解決
することに集中するため、完成したコードは他人による再利用や解釈が難しい状態になりがちです。
コードとその目的や、その他の有益な関連情報について適切な文書化が行われない場合、後から
様々な問題が生じる恐れがあります。
3
データ管理とスケーラビリティに関する問題: オープンソース環境でデータ操作を実行すると、非
常に多くの時間がかかる恐れがあります。また、オープンソース・ソリューションの中には、大規模
なデータセットの処理に必要なスケーラビリティを備えていないものも存在します。
ガバナンスの欠如: アナリティクス資産が組織内の様々な領域で個別に開発され、詳細な文書化
が行われていない場合、それらを統制する取り組みは深刻な難題となりかねません。異なる言語
で構築されたアナリティクスを一貫した方法で効率よく業務環境に展開するには、どうすればよい
のでしょう? どうすれば異なる開発プロセスやデータ管理プロセスの間で透明性やトレーサビリ
ティを確保できるのでしょうか? 今のデータ・サイエンティストが退職したら、どうなってしまうの
でしょうか?
円滑でない導入展開プロセス: IT部門は、ソフトウェアを導入展開する前に、各種の基準やプロト
コルが満たされていることを確認しなければなりません。しかし、オープンソース・テクノロジー
の場合、全社規模の導入展開に適しているかどうかの検証がなされていないソフトウェアも少な
くありません。個々の新しいオープンソース・パッケージを評価したり、モデルを構築するプロセ
スと業務環境へ組み込むプロセスの間でバージョンの一貫性を確保したりするコストは、企業や
組織の自己負担となるため、本稼働環境でオープンソース・テクノロジーを活用することのコスト
削減効果は、いとも簡単に相殺されてしまう可能性があります。また、下位互換性に関する保証も
存在しないため、基盤となるオープンソース・パッケージがバージョンアップしたときに、それまで
本稼働環境で利用していたソフトウェアが突然、正常に動作しなくなる恐れもあります。
SAS®とオープンソース・テクノロジーを 統合するメリットSAS Platformをオープン・アナリティクス・エコシステムに追加すると、数多くのメリットが得ら
れます。
アナリティクス・ガバナンス: SAS Platformは、全社レベルのアナリティクス・インフラを統一す
るために必要なガバナンスを確立することで、組織が異種混在のアナリティクス・エコシステムの
全ての要素を一元管理できるようにします。これにより、データ・サイエンティストは様々な言語
でコーディングされたモデルを効率的に管理できるようになり、IT部門は効果的なコンプライア
ンス戦略策定のためにアナリティクスの取り組みを追跡/監査できるようになります。また、SAS
Platformは、モデルのバージョン管理や承認管理、モデルのリネージ、ソースデータ特定に関す
る情報を整理統合します。全てのアナリティクス資産に関する一元的な統制の効いた統合管理が
実現するため、組織は信頼性とトレーサビリティに優れた洞察を迅速かつ俊敏に導き出せるように
なり、また、アナリティクス・ポートフォリオ全体を容易に管理することも可能になります。
信頼できる高精度の結果: ビジネスを左右する重要な業務機能、特にリスク、不正、サイバー・ セキュリティのように法規制の影響を受ける機能に関しては、「ほぼ正確」な結果では許容されま
せん。現代の企業や組織は高精度な結果を必要としています。その点、SASは極めて幅広い範囲
をカバーし、運用性に優れたアナリティクス機能を提供しており、ミッション・クリティカルなレベ
ルから実験レベルまで、極めて複雑なタスクにも対応できるアナリティクス環境を提供しています。
幅広いユーザーに適したインターフェイス: SASのソリューションには、コーディング環境とビジュ
アルな操作環境の両方が組み込まれています。分析担当者は、頑健なビジュアル・インターフェ
イスを用いてデータ準備やアナリティクスの作業を開始できるほか、定義済みのプロセス・ワーク
フローに沿って作業することも可能です。データ実務担当者は、好みの方法(Python、R、Luaな
ど)でコードを書くことができる一方で、SAS Platformがもたらす生産性改善というメリットも享
受できます。こうしたメリットを実現する機能や特長としては、分析モデルの自動比較、スケーラ
ブルなパフォーマンス、スコアリング・コードの自動生成、モデル劣化分析などがあります。
SASは極めて幅広い範囲
をカバーし、運用性に優れ
たアナリティクス機能を提
供しています。
4
誰もが活用できるアナリティクス: SAS Platformは、本格的なプログラミング・インターフェイ
スからセルフサービス型のビジュアルな探索ツールまで、様々なレベルの活用手段を提供するこ
とで、組織内の幅広いステークホルダーにアナリティクスのパワーを開放します。この環境では、
データ・サイエンティストから市民データ・サイエンティスト、ビジネス分析担当者、経営幹部に至
るまで、組織内の誰もが非構造化データや構造化データから信頼性の高い洞察を導き出すことが
できます。
合理的・効率的なモデル展開環境: SAS Platformでは、SASまたは他の環境で作成した全ての
アナリティクス資産について統合管理、実行、モニタリングを行うことができます。作成した分析
モデルや業務環境に組み込んだ分析モデルは、組織全体で再利用できます。モデルを開発環境か
ら本稼働環境にエクスポートする作業は、一貫性、信頼性、反復性に優れた方法で、容易かつ効率
的に実行できます。また、モデルの組み込み先の業務環境にリプレースなどの変更が生じた場合
も心配ありません。SAS言語は可搬性も優れているため、モデリングのコードはそのまま同じも
のを使用できます。
効果的・効率的な処理環境: SAS環境では、パブリック/プライベート・クラウドから、オンサイト
型の導入展開、モノのインターネット(IoT)におけるエッジに至るまで、データがどこに存在して
いるかを問わず、あらゆるデータのアクセスと分析を高速に処理できます。実際、オープンソース
言語のユーザーがシングルスレッド環境から、SASのマルチスレッド対応の分散アーキテクチャに
移行すると、処理時間が数時間から数分に短縮されることを実感できます。また、SAS言語のデータ
処理関数群は、HadoopやTeradataといった普及度の高いストレージ/プロセッシング・フレー
ムワークの場合はもちろん、その他のビッグデータ・ストアの場合でも、データベース・システム
の内部でネイティブに実行できるため、処理対象のデータを移動する必要がありません。その結
果、短時間で数多くの反復実行が可能となり、また、一部のサンプルではなく対象とすべき全ての
データを処理できるようになるため、モデルの正確性が向上します。さらに、ここで忘れてはなら
ない重要な点は、機械学習や人工知能(AI)のような最先端のアルゴリズムには極めて大量のデー
タが必要になる、ということです。SAS環境では、大量のデータを使用する場合でも、高速に結果
が生成されます。
大規模な、複雑な、あるいは一刻を争う課題にも対応できるスケーラビリティ: ハイパフォーマンス・アナリティクスを搭載しているSAS環境では、導入後すぐに、データの規模を問わず、あらゆる課
題に取り組むことができます。SAS言語のデータ処理関数は、処理対象のデータが数百行か数億
行かを問わず同じように効率的に実行されるため、データの規模に応じて関数自体を変更する必
要はありません。そのため、同じプロセスを組織内のあらゆるデータセットに適用することができ、
また、組織の成長に応じたデータ規模の変化に対しても優れたスケーラビリティを発揮します。
SAS® Platformの導入効果SAS Platformは、「データ」(アクセス、クレンジング、準備)から、「発見」(探索、分析、モデル 生成)、「展開」(統制、組み込み、モニタリング)に至るまで、アナリティクス・ライフサイクルの 全ての工程をカバーする機能を提供することで、企業や組織がデータとアナリティクス資産から
最大限の価値を引き出せるよう支援します。SAS Platformのパワーをオープンソース・テクノロ
ジーと組み合わせると、企業や組織は、異種混在のツールセットやアナリティクス資産を「合理化/ 効率化され、統制の効いた協働作業型の環境」へと統合することができ、その結果、生産性の 改善、ビジネスの俊敏性の向上、目に見える成果の実現を追求するための全社的なアナリティク
ス環境が整います。
SASのソリューションでは、SASプログラマーから、サードパーティの言語でコーディングする担当者、ポイント&クリック操作で洞察を取得したいだけの業務ユーザーまで、誰もが自分に合ったデータ活用方法を選択できます。
SAS Platformは、シンプ
ルな Excelのスプレッド
シートから、Hadoopに保
管されたビッグデータまで、
処理対象のデータの量/ 速度/種類に応じて優れた スケーラビリティを発揮す るアナリティクス環境です。
5
オープンソース環境を強化する SAS®の機能
導入効果
データの準備 全てのデータにダイレクトにアクセス(インデータベース方式、バッチ方式、インストリーム方式を含む)
主要な分析処理をデータがある場所やデータが発生する場所で実行できるため、データ移動が最小化
より多くのデータを使って、より迅速に作業できるようになるため、新たなパターンや変則性の特定、新たな洞察の発掘に成功する確率が上昇
データの移動が最小限に抑えられるため、処理パフォーマンスが向上
信頼性に優れた高品質のデータを全ての従業員に提供
データの探索 ビジネスユーザーや経験の浅い分析担当者でもデータの探索を自力で行えるビジュアル・インターフェイス
標準装備のデータ準備機能とデータ変換機能
データ品質機能とデータ・ガバナンス機能
全てのシステムに保管されているデータへのアクセスをより多くのユーザーに開放
ビッグデータ・ソースの内部でデータを取り扱うことにより、ガバナンスが改善
業務プロセスの信頼性を高めるガバナンスの実現
モデルの構築 好みの言語でプログラムを作成できるため、異種混在環境からの統合をより効果的に促進
様々なステークホルダーに対応できるように設計された、協働作業型かつ対話操作型の高度なビジュアル環境
あらゆるデータに対応できるスケーラビリティを備えた頑健かつ包括的な一連のアルゴリズムと、チャンピオン・モデルの自動特定機能
あらゆるタイプのスキルに対応した環境により、アナリティクスの民主化が実現
モデル構築時間を短縮することで、データ・サイエンス系の人材の負荷を軽減し、より複雑なビジネス課題への取り組みを促進
一部のサンプルではなく全てのデータを用いて、より多くの反復処理をより高頻度で実行することで、モデルの精度が向上
ソースに近い場所でデータを分析することで、待ち時間が減り、価値創出までの時間が短縮
モデルの統合管理 SASのモデルとオープンソースのモデルをはじめとする組織内の全てのモデルを統合管理できる、包括的で同時アクセスにも対応したモデル管理
モデルの健全性やモデル精度のモニタリングを通じてモデルの劣化を識別するための協同作業型環境
文書化、バージョン管理、モデル系統(リネージ)管理
アナリティクスを企業資産として管理
事実に基づく意思決定による組織運営が実現
データ準備からモデルの業務実装までのトレーサビリティにより、信頼性の高いモデルを作成
リスクとコンプライアンスの管理を徹底
アナリティクスの本稼働システムへの組み込みが円滑化。動的なデータか、蓄積されているデータかを問わず、全てのデータを同一の一貫したコードで処理
SASのソリューションには柔軟な導入展開オプションが用意されており、パブリック・クラウド、プライベート・クラウド、あるいは非クラウド環境での運用が可能
モデルの実行 どこにでも展開できる可搬性の高いコード
自動化された実行プロセス
モデル・パフォーマンスの モニタリング
モデルのパフォーマンスを評価するための 頑健なアナリティクス機能(再学習のための機能も含む)
最も優れたパフォーマンスを示すモデルを 特定するためのチャンピオン/チャレンジャー機能
6
オープン・エコシステムにおいてSAS®が担う役割オープンソース・テクノロジーをSASで強化すると、全社規模のアナリティクスの重要な要件で
ある効率性が向上します。SAS Platformは、以下のような数多くのオープンソース・テクノロジー
を統合し、それらの利点を活用するための機能を提供します。
• Python、R、Lua、Scala、Javaなどのプログラミング言語
• Hadoopなどのデータ・フレームワーク
• 頻繁に更新される多様な物理/仮想ハードウェア環境
SASでは以下のことを実現できます。
• SASとSAS以外のコーディング・インターフェイスの両方から、SASのパワフルなアナリティ
クス機能にアクセス。SAS、Python、Java、R、Scala、Luaからのネイティブ・プログラミン
グ・アクセスのほか、RESTアプリケーション・プログラミング・インターフェイス(API)を通じ
たアクセスも可能
• どのような分析用コーディング言語で記述された演算も、高速かつ効率的に処理。マルチスレッ
ド対応のインメモリ超並列処理(MPP)エンジンにより、複雑なアナリティクスの処理時間が
数日から数時間に短縮
• 任意のパブリック・クラウド、プライベート・クラウド、オンサイト型インフラ、あるいは、これら
を組み合わせた環境で運用できるクラウド対応のプラットフォームにより、普及度の高い各種
の IT環境向けに全てのアナリティクス機能を最適化
• SASをオープンソース・テクノロジー環境に採り入れること、あるいは、オープンソース・テク
ノロジーの要素をSAS環境に取り込むことが可能
では、SASとオープンソース・テクノロジーを一緒に活用するための選択肢を詳しく見ていきま
しょう。
SAS®をオープンソース環境に採り入れるデータ・サイエンティストは自分好みの言語やインターフェイスでコードを記述できることに加え、
モデル・パフォーマンス指標の自動配信や、どのようなデータ量にもコード編集なしで対応できる
スケーラビリティなど、SASの利点も活用できるようになります。
オープンソース・アプリケーションの中でSASの機能を利用できるため、SASの経験が乏しいユー
ザーの移行が容易になります。例えば、オープンソースのプログラマーは、ストアドプロセスや
REST API経由でSASを呼び出すという方法により、他のプログラミング・インターフェイスから
でも容易にSASにアクセスできます。
また、SASはオープンソース・プロジェクトのための拡張機能セットも提供しています。
• ユーザーがオープンソース言語からSASアクション(SASの分析機能)を実行し、その結果を
処理することを可能する、SAS SWAT(scripting wrapper for analytics transfer)パッケー
ジ。このパッケージを使用することで、PythonやRのプログラマーは使い慣れた環境から、
SASの分析機能を容易に活用することができます。Python用とR用のバージョンが用意され
ています。
• SASが提供するPythonインターフェイス・モジュール(saspy)を利用すると、Pythonから
SASセッションを開始し、アナリティクスを実行できます。
• SAS向けのJupyterカーネルを利用すると、SASのデータ管理機能やアナリティクス機能の
全てをJupyter Notebookインターフェイス内で活用できます。Jupyter Notebook内の
SASとオープンソース・テクノロジーの最良の部分を組み合わせたアンサンブル・モデルを作成することで、モデルのリフトとパフォーマンスを改善できます。
7
PythonカーネルからSASプロシジャを呼び出せるため、Pythonのプログラマーは単一の インターフェイス内で両方の言語のパワーを有効活用できるようになります。このインターフェ
イスを利用してSASコードを実行すると、結果はインラインで表示されます。
• SASが提供するディープラーニング向けPythonパッケージ(DLPy)には、SASのディープ
ラーニング・アルゴリズムに対するハイレベルなPython向けAPI群が含まれています。これ
を利用すると、ユーザーはKeras風の使いやすいAPI群を用いてディープラーニング・モデ
ルを構築できるようになります。
• SAS pipefitterパッケージは、SASにおける反復可能な機械学習ワークフローの構成要素
として「データ変換やモデル当てはめを実行するためのパイプライン」を開発するための、
Python向けAPI群を提供します。
• SAS Optimization Interface for Python(sasopty)は、SASの最適化ソルバーのための
モデリング・インターフェイスを提供するPythonパッケージです。
SASは、SAS向けの統合機能をコミュニティが利用および強化できるようにGitHubリポジトリ
を維持管理しています。これらのプロジェクトやSASが推進するその他のオープンソース・プロ
ジェクトの詳細は、https://github.com/sassoftwareでご覧になれます。
オープンソース・テクノロジーの要素をSAS®に取り込むSASのソフトウェアに組み込まれている統合機能を利用すると、オープンソース・テクノロジーの
利点を有効活用できます。例えば、Base SASソフトウェアは、Pythonなどの幅広い言語を組み
込むためのJavaクラス・オブジェクトを提供します。
また、RやPythonのコードを、SAS Visual Data Mining and Machine Learningのパイプ
ラインやSAS® Enterprise Miner ™のプロセスフロー・ダイアグラム(PFD)に簡単に統合するこ
ともできるため、データの変換と探索や、教師あり/教師なしモデルのトレーニングとスコアリン
グをSAS以外のプログラミング言語で実行できます。こうした統合の価値は、オープンソースと
SASを併用してアンサンブル・モデル(≒融合モデル)を作成できることにあります。融合された
モデルでは、SASとオープンソース・テクノロジーの最良の部分を組み合わせることで、総合的な
パフォーマンスについて最大限の改善効果が得られます。
オープンソースのモデルをSASのモデルと比較することも可能であり、業務ユーザーでも理解
しやすいビジネス指向の評価レポートが自動的に作成されます。本稼働環境に展開する段階には 達していない実験的なモデルをベンチマーキング目的で利用することも可能です。業務実装用の スコアコードなども自動的に生成され、使いやすいドラッグ&ドロップ方式のインターフェイス内
で全ての操作が完結します。SAS環境ではベストプラクティスの蓄積に必要な文書化が自動的に
行われるため、協働作業が促進され、分析担当者が異動した場合でも継続性が保持されます。
SASは、SAS向けの統合
機能をコミュニティが利
用および強化できるよう
にGitHubリポジトリを維
持管理しています。SASが
推進するオープンソース・
プロジェクトは、https://
github.com/sassoftwareでご覧になれます。
8
オープン・エコシステムの利用と、オープン・エコシステムへの貢献SASでは、オープンソース・テクノロジーを活用し、オープンソースのオペレーティング・システム
上で、オープン・スタンダードも利用しながら、ソフトウェアを構築しています。また、オープンソー
スのブラウザとオープンソースのデータ・フォーマットを採用し、オープンソースのクラウドサービ
スとの統合も利用することで、高い生産性を実現しています。SAS環境は、サードパーティのプロ
グラミング・ツールや、データタイプ、オペレーティング・システムに対する統合ポイントを提供す
るという方法により、これまでも常に優れた拡張性を提供してきました。こうした拡張性を通じて
連携する外部機能の中には、商用のツールやサービスも数多く存在します。そうした機能はいず
れも、現代的なテクノロジー・エコシステムの不可欠な要素と言えます。
SASは、オープンデータ・イニシアチブに対する公式の活動にも積極的に取り組んでいます。例
えば、SASはODPi (Open Data Platform initiative) のメンバーとして、「お客様の選んだ
HadoopディストリビューションとSASアプリケーションが連携して機能し、Hadoopを最大限
に活用できる環境」を確保すると同時に、そうした環境に対し、要求水準の高いビジネス環境に 求められる安定性と品質を追加することに取り組み続けています。
また、SASはDGI (Data Governance Initiative) の協働パートナーですが、これはメタデータ を基盤とする共通のデータガバナンス・アプローチをオープンソース・コミュニティに導入し、 あらゆる業種に適用できる柔軟性を備えたフレームワークを確立することを目指して設立された
イニシアチブです。
アナリティクスの展開プロセスの統一優れたデータ・サイエンティストは、モデルを1つ開発しただけでビジネス課題を解決しようとはし
ません。データと課題の微妙な差異にも対応できるように、一連の競合モデルを開発したり、異な
る手法の活用を試したりします。その結果、組織内には常に、様々なビジネス目的のための多様
な開発段階にあるモデルが数百種類も存在していることになります。
これら全てのモデルを管理するのは決して容易ではありません。分析モデルを「展開(デプロイ)」
するプロセス ── 分析モデルを本稼働システム/ビジネスプロセス/アプリケーションに組み込
むプロセス ── は、様々な言語によるモデルが混在し、展開作業が一元管理されていない場合
には、数週間から数ヶ月という長期間に及ぶ可能性があります。数百あるいは数千ものモデルの
ステータスとパフォーマンスを個々のモデルの運用期間全体にわたって管理することは、適切な
管理手段がなければ極めて複雑な作業となりかねません。
SAS環境では、一元管理される共通の展開プロセスによって分析モデルの展開が合理化/効率
化されるため、モデル開発者と IT部門の間のギャップが解消します。その結果、モデルの展開に
かかる時間は短縮され、アナリティクスが組織にもたらす価値創出の実現が早まります。
SAS環境では、SASのモデルとオープンソースのモデルの両方について統合管理、発行(業務
への展開)、スコアリング、モニタリング、再学習を行うことができます。SAS環境が提供する自動
化機能、ワークフロー機能、一元管理されるビジネスルール・ロジック、統一されたユーザー体験 を活用すれば、オープンソース・ツールのみを使用する場合よりも容易かつ効率的にモデルを 本稼働エコシステムに展開することができます。
9
オープンソース統合• RまたはPythonのコードやモ
デルをSAS内から実行
• 実行後は、結果をグラフィカル・
ユーザー・インターフェイス内
に表示することが可能
• モデルの評価結果を生成し、他
の(SASやオープンソースの)
モデルと比較することで、チャン
ピオンを選定
コードエディタ• PythonまたはRでコードを記
述できる柔軟性
• Rまたは Pythonのコードを
SASから実行
• プリセットの変数(図の左側)を
利用できるため、データ操作と
モデル構築が迅速化
プロパティ• サンプリング手法を選択
• 利便性のため、コードスニペット
がユーザーの見えないところで
生成され、ユーザーコードに追
加される
10
モデルの評価• オープンソース・モデルの当て
はめ統計量を、ビジュアル・パイ
プライン内にある他のモデルと
素早く比較
• 選択基準のリストに基づいて
チャンピオン・モデルを選択
まとめSASは、柔軟性と適応性に優れたテクノロジー環境を提供することで、全社規模のアナリティクス
がもたらす真のメリットの実現を支援します。この環境では、多くのオープン・テクノロジーを活用
することができ、相互運用性も確保されます。また、この環境は、様々なグループを横断してアナ
リティクスを一元管理する目的にも有効であり、統制の効いた統合プラットフォームを用いて組織
全体のアナリティクス資産を整理統合するために役立ちます。
企業や組織がアナリティクス資産から最大限の価値を引き出せるように、以下の全てを提供して
いるのはSASだけです。
• 業務上の多種多様なサイロ(縦割り管理)を統一することができ、アナリティクス担当者は
SAS言語だけでなく他のプログラミング言語でもモデルを開発することができ、その結果とし
て、組織全体で信頼性の高い洞察を活用することが可能になる環境
• SASおよびSAS以外のアナリティクス資産について、その規模に関係なく、一貫性、信頼性、
反復性に優れた方法で、実験、分析モデルの構築、合理化/効率化されたモデル展開を実行
することができるアナリティクス・プラットフォーム
• ガバナンスの一元管理、アナリティクス活用に専門特化した処理、効率性の向上、アナリティク
スに対する投資の最適化を実現するために設計された各種機能
企業や組織は、SASとオープンソース・テクノロジーの両方の長所を組み合わせて活用し、革新
的な方法で課題を解決することにより、アナリティクスに基づく意思決定の精度を高め、業績の改
善につなげることができます。
関連情報オープンソース・ソフトウェアの機能を諦めることなく、統制の効いた協働作業型の手法を用いて
全社規模のソフトウェアを最大限に活用したい場合には、適切なプラットフォームを確立すること
が重要です。こうしたプラットフォームを導入する利点の詳細については、e-book「アナリティクスをすべてのユーザーに解き放つ ~ SAS®とオープンソースのアナリティクスの利点の融合」に収録されている記事「オープンソース・アナリティクスについてオープンな姿勢を維持することの
重要性」をお読みください。
ビジネス価値を生み出すためには、モデルを本稼働環境のシステムやプロセスに組み込む必要があります。SASは、オープンソース・ツールのみを使用する場合よりも容易かつ効率的な方法で、SASのモデルとオープンソースのモデルの両方を開発環境から本稼働環境に展開できるよう支援します。
SAS Institute Japan株式会社 www.sas.com/jp [email protected]本社 〒106-6111 東京都港区六本木6-10-1 六本木ヒルズ森タワー 11F Tel: 03 6434 3000 Fax: 03 6434 3001大阪支店 〒530-0004 大阪市北区堂島浜1-4-16 アクア堂島西館12F Tel: 06 6345 5700 Fax: 06 6345 5655
このカタログに記載された内容は、改良のため予告なく仕様・性能を変更する場合があります。あらかじめご了承ください。SAS、SASロゴ、その他のSAS Institute Inc.の製品名・サービス名は、米国およびその他の国におけるSAS Institute Inc.の登録商標または商標です。その他記載のブランド名および製品名は、それぞれの会社の商標です。Copyright © 2018, SAS Institute Inc. All rights reserved. 108574_G71738.0618_JP2018_FK