dots. 7/7 dswbハンズオン資料
TRANSCRIPT
![Page 1: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/1.jpg)
© 2015 IBM Corporation
Data Scientist Workbenchハンズオン2016/07/07版
貝嶋 創テクニカルセールス
アナリティクス事業部本部IBM
![Page 2: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/2.jpg)
本日の内容
▪ ユーザー登録▪ Data Scientist Workbench▪ (オプション)IBM Bluemix
▪ Data Scientist Workbenchとは▪ ハンズオン(pyspark)
![Page 3: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/3.jpg)
本日の内容
▪ ユーザー登録▪ Data Scientist Workbench▪ (オプション)IBM Bluemix
▪ Data Scientist Workbenchとは▪ ハンズオン
![Page 4: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/4.jpg)
Data Scientist Workbenchの登録
• https://datascientistworkbench.com/
![Page 5: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/5.jpg)
Data Scientist Workbenchの登録名前およびメールアドレスを登録
![Page 6: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/6.jpg)
Data Scientist Workbenchの登録この画面が出たらメールアドレスを確認します
Hello Soh,
We are delighted to welcome you to the Data
Scientist Workbench Technology Preview! We
can't wait for you to start your evaluation and we
are looking forward to getting your feedback.
Your username is: yaori
To confirm your account and set your password,
please visit the following link:
https://my.datascientistworkbench.com/set_pass
word?username=XXXXX&token=XXXXXXXXXXX
XXXXXX
We will create a workbench just for you. You can
start using it a few minutes after confirming your
account!
Thanks, -The Data Scientist Workbench Team
If you'd like to unsubscribe and stop receiving
these emails click here.ここをクリック
![Page 7: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/7.jpg)
Data Scientist Workbenchの登録ユーザー名・パスワード登録後、環境準備が開始します
ここまで来たら一旦終了
![Page 8: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/8.jpg)
(オプション)IBM Bluemixへの登録
![Page 9: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/9.jpg)
(オプション) IBM Bluemixへの登録
![Page 10: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/10.jpg)
(オプション) IBM Bluemixへの登録
![Page 11: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/11.jpg)
本日の内容
▪ ユーザー登録▪ Data Scientist Workbench▪ (オプション)IBM Bluemix
▪ Data Scientist Workbenchとは▪ ハンズオン
![Page 12: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/12.jpg)
データ分析のプロセス
データ収集
クレンジング
モデリング・データ加工
アクション
レポーティング Data Scientist Workbenchで対応可能
![Page 13: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/13.jpg)
Data Science Workbench© Copyright IBM Corp. 2016
特徴
• Spark環境構築済み
• Sparkを利用するためのプログラミング実行環境も用意
• インタラクティブかつ繰り返し実行可能
• コミュニティを通した知識の共有
• 継続的な機能追加
• 誰でも無料
“Making open source data science easy”
![Page 14: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/14.jpg)
ログイン後の画面
データ操作および分析のためのツール
Data Science Workbenchのフォーラム、情報共有、リクエスト
①データ投入 ②データ整形
③データ整形と分析の実行
分析のためのデータ提供(Bluemixおよびpublicデータ)
![Page 15: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/15.jpg)
ツール実行時の画面
Open Refine
Jupyter
Knowledge blog, BDU
機能追加のための投票
seahorse
Apache Zeppelin
アイコン化
My DataOpen Data
RStudio
![Page 16: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/16.jpg)
①データ投入「My Data」分析のためのデータの投入を行う
現在のディレクトリ構成
新規ディレクトリ作成
データのアップロード
アップロードしたファイルは分析ツールから利用可能(Jupyter画面から利用が可能)
![Page 17: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/17.jpg)
②データ整形「OpenRefine」
•Googleで開発されたGoogle Refineがベース
• 2010年11月にイニシャルリリース、2012年10月にOpenRefineとしてオープンソース化
•WebブラウザからのGUI操作のみでデータのクレンジングやフォーマット変換が可能
• CSV, TSV, text files, XML, RDF, and JSON様々なファイルフォーマットに対応
•分析を実行する前のデータの準備を実行
![Page 18: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/18.jpg)
OpenRefineによるデータの絞込やクレンジング
数値データの範囲をグラフで絞り込み
![Page 19: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/19.jpg)
OpenRefineによるデータの絞込やクレンジング
数値データの範囲をグラフで絞り込み
データのブレに対して
GUIでクレンジングが可能
![Page 20: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/20.jpg)
「RStudio」
• Rを使いやすくするのための統合開発環境
• Rユーザーのデファクトスタンダード
•Data Scientist WorkbenchではBig Rも実行可能
• IBMの提供するライブラリ
•スケーラブルかつ高パフォーマンス
• Sparkに統合予定のSystemML
![Page 21: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/21.jpg)
RStudio - RユーザーがSparkRを利用するためのIDE
Sparkと連携
BigRと連携済み、利用可能
https://www.ibm.com/support/knowledgecenter/SSPT3X_4.1.0/com.ibm.swg.im.infosphere.biginsights.ref.doc/doc/reference_icnav.html
![Page 22: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/22.jpg)
「seahorse」
•DeepSense.ioにより2016年にver.1.0
• Sparkアプリケーションを作成するためのプラットフォーム
•WebGUIからアイコンを配置して機械学習やETLのプログラミング可能
![Page 23: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/23.jpg)
Jupyter, Zeppelin はNotebook… “Notebook”とは?
•紙と鉛筆
•紙と鉛筆は、これまで長い間、科学者がメモや図面を通して進捗状況を文書化するための重要なツールである:
•表現力
•累積した情報
•コラボレーション
•Notebooks
•Notebooks は、これまでの紙と鉛筆のデジタル版であり、再現性のある分析と文書化を可能にする:
•マークダウンとグラフ化
•反復探索
•共有が容易
![Page 24: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/24.jpg)
③データ整形と分析の実行「Jupyter Notebook」
•リリース
• 2001年にリリースされたIPythonをベースに、2015年にJupyterとしてリリース
•ノートブック
•WebブラウザからのGUI操作可能
•コード実行、コメント記述、グラフの描画を実行可能
•カーネル
•Data Scientist Workbenchでは、Scala,Python, Rを実行可能
![Page 25: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/25.jpg)
③データ整形と分析の実行「Zeppelin Notebook」
•リリース
• 2012年にCommercial Product、2013年にオープンソース、2014年にASFインキュベーションプロダクト
•ノートブック
•WebブラウザからのGUI操作可能
•コード実行、コメント記述、グラフの描画を実行可能
•インタープリタ
• Scala, Python, SQL,shellコマンド など
![Page 26: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/26.jpg)
フィードバックと投票
実現してほしいアイデアの投稿、投票が可能
![Page 27: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/27.jpg)
<参考>日本語化とデータセンター
•画面左下のユーザーアイコンからProfileの設定が可能
•言語を「日本語」にすることでUIの日本語化
• Tokyo データセンターも準備中
![Page 28: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/28.jpg)
非常に多くの機能がありますが
触りながら覚えて、育てていきましょう
![Page 29: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/29.jpg)
本日の内容
▪ ユーザー登録▪ Data Scientist Workbench▪ (オプション)IBM Bluemix
▪ Sparkとは▪ Data Scientist Workbenchとは▪ ハンズオン(pyspark)
![Page 30: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/30.jpg)
ハンズオンの内容
ハンズオン:JupyterでMLLibでクラスタリング
ハンズオン:IBM Bluemixとの連携・移行
![Page 31: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/31.jpg)
ハンズオン:Spark MLLibでクラスタリング
JupyterでPythonによるSpark MLLibプログラムを実行します。
手順1. シェアされているNotebookとデータを取得します。
Notebook>
https://share.datascientistworkbench.com/jupyter/v1/10.115.125.103/aCEImKrw2L18537/handson_clustering.ipynbデータ>
https://share.datascientistworkbench.com/jupyter/v1/10.115.125.103/
OB9vSkLakJdvmhM/handson_data_no_header.csv2. Jupyter画面および「マイ・データ」画面でファイルが取得されてい
ることを確認します。3. Notebookを実行してK-Meansによるクラスタリングを実行します。
![Page 32: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/32.jpg)
ハンズオン:Bluemixとの連携・移行
IBM BluemixにもSpark環境が「Spark as a Service」として用意されています。Data Scientist Workbenchと比較して以下の利点があります。
• Enterprise向けのよりパワフルな実行環境と占有環境• アプリケーション(spark-submit)の実行可能• Bluemix上のサービスとの連携
手順1. DSWBからJupyterノートブックのダウンロード2. Spark as a Serviceからノートブックの読み込みと実行
![Page 33: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/33.jpg)
Data Scientist WorkbenchとSpark as a Service 連携
IPYNB
• DSWBと同様に、IBM BluemixのSpark as a ServiceでもJupyterを利用可能です。
• Data Scientist Workbenchで作成したJupyterノートブックをBluemixのSparkで実行可能です。
![Page 34: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/34.jpg)
“Apache Spark”
- Sparkサービス
- Jupyter(Python・Scala・Rランタイム)
- サンプルコード
- Objectストレージ
<参考>BluemixのSparkに含まれる内容
ストレージ(swiftベース)
Sparkサービス(Jupyter)
![Page 35: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/35.jpg)
<補足>ハンズオン
• DSWBから「Download」を選択してノートブックおよびデータのダウンロードを実行
![Page 36: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/36.jpg)
<補足>ハンズオン「Bluemix Spark」からipynbファイルを読み込み
BluemixではNotebookの実行とバッチ実行モードが
選択可能今回はNotebookを選択
Create NotebookでFrom Fileを選択
![Page 37: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/37.jpg)
<参考> Spark as a Service画面
データの投入ノートブックの共有も可能
DSWB同様Jupyter利用可能
Objectストレージから取得するためファイルパスを変更rawdata = sc.textFile("swift://notebooks.spark/handson_data_no_header.csv")
![Page 38: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/38.jpg)
<参考>リファレンス
• Sparkプログラミングガイド (1.6.1)
http://spark.apache.org/docs/latest/programming-guide.html
• Pyspark APIドキュメント (1.6.1)
http://spark.apache.org/docs/latest/api/python/pyspark.html
• K-means(機械学習)のプログラミングガイド
http://spark.apache.org/docs/latest/mllib-clustering.html
![Page 39: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/39.jpg)
ファイルサーチ& URL挿入(ノートの共有)
「My Data」のファイルコードに挿入可能
<参考>Jupyter 操作画面
![Page 40: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/40.jpg)
<参考> Jupyterにおけるセル・コメント・コード
コメント
コード(実行中)
コード(未実行)
コメント
セルの種類
![Page 41: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/41.jpg)
<参考>よく使うJupyterのアイコン
状態のセーブ・チェックポイントの作成
セルの削除
セルの順番入れ替え
セルの実行
セルの追加
![Page 42: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/42.jpg)
<参考>修正したコード(セル)からの再実行
実行したセルに対して変更を加える
![Page 43: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/43.jpg)
<参考>修正したコード(セル)からの再実行
修正したセルから再実行可能番号が下のセルより上がっている
![Page 44: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/44.jpg)
<参考>コード補完
Tabを押下することでコード補完が行われる
![Page 45: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/45.jpg)
<参考>キーボードショートカット
キーボードショートカットによるviライクな操作が可能 (j、kでセ ル間を移動)Enterでセル毎の編集モードに入り、EscでNotebookへのコマンドモードに変更
![Page 46: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/46.jpg)
<参考>
ユーザーインターフェースの細かい解説を確認可能
![Page 47: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/47.jpg)
<参考>Jupyterで新規Notebookを作成する
1. 左側のアイコンリストからJupyterを選択2. 右上のNew Notebook TypeからPythonを選択
![Page 48: dots. 7/7 DSWBハンズオン資料](https://reader033.vdocuments.site/reader033/viewer/2022051318/587a78b01a28abf0468b5835/html5/thumbnails/48.jpg)
ワークショップ、セッション、および資料は、IBMまたはセッション発表者によって準備され、それぞれ独自の見解を反映したものです。それらは情報提供の目的のみで提供されており、いかなる参加者に対しても法律的またはその他の指導や助言を意図したものではなく、またそのような結果を生むものでもありません。本講演資料に含まれている情報については、完全性と正確性を期するよう努力しましたが、「現状のまま」提供され、明示または暗示にかかわらずいかなる保証も伴わないものとします。本講演資料またはその他の資料の使用によって、あるいはその他の関連によって、いかなる損害が生じた場合も、IBMは責任を負わないものとします。 本講演資料に含まれている内容は、IBMまたはそのサプライヤーやライセンス交付者からいかなる保証または表明を引きだすことを意図したものでも、IBMソフトウェアの使用を規定する適用ライセンス契約の条項を変更することを意図したものでもなく、またそのような結果を生むものでもありません。
本講演資料でIBM製品、プログラム、またはサービスに言及していても、IBMが営業活動を行っているすべての国でそれらが使用可能であることを暗示するものではありません。本講演資料で言及している製品リリース日付や製品機能は、市場機会またはその他の要因に基づいてIBM独自の決定権をもっていつでも変更できるものとし、いかなる方法においても将来の製品または機能が使用可能になると確約することを意図したものではありません。本講演資料に含まれている内容は、参加者が開始する活動によって特定の販売、売上高の向上、またはその他の結果が生じると述べる、または暗示することを意図したものでも、またそのような結果を生むものでもありません。 パフォーマンスは、管理された環境において標準的なIBMベンチマークを使用した測定と予測に基づいています。ユーザーが経験する実際のスループットやパフォーマンスは、ユーザーのジョブ・ストリームにおけるマルチプログラミングの量、入出力構成、ストレージ構成、および処理されるワークロードなどの考慮事項を含む、数多くの要因に応じて変化します。したがって、個々のユーザーがここで述べられているものと同様の結果を得られると確約するものではありません。
記述されているすべてのお客様事例は、それらのお客様がどのようにIBM製品を使用したか、またそれらのお客様が達成した結果の実例として示されたものです。実際の環境コストおよびパフォーマンス特性は、お客様ごとに異なる場合があります。
IBM、IBM ロゴ、ibm.comは、 世界の多くの国で登録されたInternational Business Machines Corporationの商標です。他の製品名およびサービス名等は、それぞれIBMまたは各社の商標である場合があります。現時点での IBM の商標リストについては、www.ibm.com/legal/copytrade.shtmlをご覧ください。
Adobe, Adobeロゴ, PostScript, PostScriptロゴは、Adobe Systems Incorporatedの米国およびその他の国における登録商標または商標です。
IT Infrastructure LibraryはAXELOS Limitedの登録商標です。
インテル, Intel, Intelロゴ, Intel Inside, Intel Insideロゴ, Centrino, Intel Centrinoロゴ, Celeron, Xeon, Intel SpeedStep, Itanium, およびPentium は Intel Corporationまたは子会社の米国およびその他の国における商標または登録商標です。
Linuxは、Linus Torvaldsの米国およびその他の国における登録商標です。PowerLinux is a trademark of International Business Machines Corp. The registered trademark Linux is used pursuant to a sublicense from LMI, the exclusive licensee of Linus Torvalds, owner of the mark on a world-wide basis.
Microsoft, Windows, Windows NT および Windowsロゴは Microsoft Corporationの米国およびその他の国における商標です。
ITILはAXELOS Limitedの登録商標です。
UNIXはThe Open Groupの米国およびその他の国における登録商標です。
Cell Broadband Engineは、Sony Computer Entertainment, Inc.の米国およびその他の国における商標であり、同社の許諾を受けて使用しています。
JavaおよびすべてのJava関連の商標およびロゴは Oracleやその関連会社の米国およびその他の国における商標または登録商標です。
Linear Tape-Open, LTO, LTOロゴ, UltriumおよびUltriumロゴは、HP, IBM Corp.およびQuantumの米国およびその他の国における商標です。