jubatus casual talks #2 : 0.5.0の新機能(クラスタリング)の紹介
Post on 27-Jun-2015
10.999 Views
Preview:
DESCRIPTION
TRANSCRIPT
0.5.0 の新機能(クラスタリング)の紹介
東京大学 村下瑛
04/13/2023Jubatus Casual Talks#2 発表資料1
自己紹介
東京大学 修士2年 専攻:機械学習 元 PFI アルバイト( 10 月まで) Jubatus チームでクラスタリング機能を担当
村下 瑛(むらした あきら)
04/13/2023Jubatus Casual Talks#2 発表資料2
0.5.0 リリース!
k-Means/GMM による分析を複数台のサーバで並列して・リアルタイムに、省メモリで行えます!
クラスタリングがサポート
04/13/2023Jubatus Casual Talks#2 発表資料3
発表内容
目次:1. クラスタリングとは?2. Jubaclustering の特徴と動作原理3. 実験結果
新機能の魅力を 15 分でできるだけお伝えします
04/13/2023Jubatus Casual Talks#2 発表資料4
クラスタリングとはデータを性質のよく似たグループに整理する技術
出典: http://booktype-demo.sourcefabric.org/documentclustering_booktype/i-wen-shu-kurasutaringunogai-yao/
04/13/2023Jubatus Casual Talks#2 発表資料5
ビジネスへの応用事例
ニーズに答えつつ、在庫を減らす目的で兵士の身体的特徴クラスタリングにより分析
→ 「足が短く、ウエストが細く、胸が大きい女性用の服」などが新たに作成された。
(慶応義塾大学、古河康一先生の講義スライドより引用)
アメリカ軍女性兵士の服装
04/13/2023Jubatus Casual Talks#2 発表資料6
ビジネスへの応用事例( 2 )
住宅担保融資を利用している顧客データを 14 個のクラスタに分割して解析
→ 『起業家』という有益なクラスタを発見
(慶応義塾大学、古河康一先生の講義スライドより引用)
Bank of America の優良顧客の発見
04/13/2023Jubatus Casual Talks#2 発表資料7
クラスタリングの動機
未知のデータをグループに分割して解析することで、 データを簡潔に理解できる データについて新しい知見を得ることができる
場合がある。
→ 良いグループ分けをデータから発見したい!
未知のデータの分析と理解
04/13/2023Jubatus Casual Talks#2 発表資料8
クラスタリング手法
例: k-Means K 個の代表点を決め、一番近いものにグループ分け 一番近い代表点までの距離の和を最小化
良いグループ分けの定量化/最適化アルゴリズム
04/13/2023 Jubatus Casual Talks#2 発表資料9
クラスタリング手法
例: Gaussian Mixture Model(GMM) いくつかの正規分布でデータをフィッティング クラスタ = もっとも寄与が大きい正規分布
良いグループ分けの定量化/最適化アルゴリズム
04/13/2023 Jubatus Casual Talks#2 発表資料10
Jubaclustering大規模データをリアルタイムに・低コストで解析
…
逐次的にやってくる大量のデータ
複数台のサーバで並列に逐次処理&省メ
モリで動作※
全データに対する k-Means / GMM の近似
結果を随時取得可能
※𝑂 ( log𝑛 ) ,忘却をつけると定数04/13/2023Jubatus Casual Talks#2 発表資料11
Jubaclustering
Q. クラスター分析ではクラスタ内のデータも重要。データを捨ててしまっては意味がないのでは?
A. クラスタ中の過去の入力データ全体を、重み付きサンプルで近似して返すことが可能
データ全体の概要を把握可能
?
15.1 3.5 2.9 …
(これはどんなクラスタに属しますか?)
(大体これらが数字の数ずついるようなものです。)
04/13/2023Jubatus Casual Talks#2 発表資料12
ビジネスでの利用例
系統的に整理し分析することが価値を生む リアルタイム&大量 全データを保存し、バッチ処理するのは計算量/メ
モリの面でコスト大
Jubaclustering なら… 低コストでリアルタイムに解析が行える 必要ならクラスタ内のデータを取り出して分析する
こともできる
ユーザーのログデータの分析
04/13/2023Jubatus Casual Talks#2 発表資料13
鍵となる技術コアセット : クラスタリングに特化したサンプリング手法
04/13/2023Jubatus Casual Talks#2 発表資料14
鍵となる技術コアセット : クラスタリングに特化したサンプリング手法
バイアスサンプリング:• 密な所:少数の重み大な点• 疎な所:多数の重み小な点を配置
理論的に良い性質:・近似精度に対するサンプル数・分散/オンラインでの更新
04/13/2023Jubatus Casual Talks#2 発表資料15
実装のアイデア処理結果をコアセットとして保持
データが来た データが来た!
04/13/2023Jubatus Casual Talks#2 発表資料16
実装のアイデア処理結果をコアセットとして保持
データの概形はこんな感じだ!
データの概形はこんな感じだ!
04/13/2023Jubatus Casual Talks#2 発表資料17
実装のアイデア他ノードとの同期時には単純に和集合を取る
こんな感じのデータが来たよ!
こんな感じのデータが来たよ!
04/13/2023Jubatus Casual Talks#2 発表資料18
実装のアイデア和集合に対して独立にバッチで解析を行う
なるほど、全体としてはこんな感じなのか!
なるほど、全体としてはこんな感じなのか!
04/13/2023Jubatus Casual Talks#2 発表資料19
数値実験結果正規分布のコアセット
04/13/2023Jubatus Casual Talks#2 発表資料20
数値実験結果
中心の密なクラスタ (10000 点 ) の周囲に100 個の疎なクラスタ (100 点 ) を等間隔に配置
疎密を持つデータに対するコアセット
{𝑥𝑡=10000 ⋅ cos𝜋50𝑡
𝑦𝑡=10000 ⋅sin𝜋50𝑡
0≤ 𝑡<100
04/13/2023Jubatus Casual Talks#2 発表資料21
数値実験結果
得られたサンプルに 101 個のクラスタがどの程度含まれているかを比較※ 全点 20000 点から 50 点をサンプリング
疎密を持つデータに対するコアセット
コアセット ランダムサンプリング04/13/2023Jubatus Casual Talks#2 発表資料22
数値実験結果
圧縮に伴うクラスタリング性能の変化を得られた中心で計算した元データの下での k-Meansの目的関数値で比較※ 時計盤データの全点 20000 点を 200 点に圧縮した場合
クラスタリング精度
coreset random batch
7.324
7.879
7.29
04/13/2023Jubatus Casual Talks#2 発表資料23
Jubaclustering (まとめ)大規模データをリアルタイムに・低コストで解析
…
逐次的にやってくる大量のデータ
複数台のサーバで並列に逐次処理&省メ
モリで動作※
全データに対する k-Means / GMM の近似
結果を随時取得可能
※𝑂 ( log𝑛 ) ,忘却をつけると定数04/13/2023Jubatus Casual Talks#2 発表資料24
ありがとうございました
04/13/2023Jubatus Casual Talks#2 発表資料25
top related