jubatus casual talks #2 : 0.5.0の新機能（クラスタリング）の紹介

0.5.0 の新機能（クラスタリング）の紹介

東京大学　村下瑛

04/13/2023Jubatus Casual Talks#2 発表資料1

自己紹介

東京大学修士２年専攻：機械学習元 PFI アルバイト（ 10 月まで） Jubatus チームでクラスタリング機能を担当

村下　瑛（むらしたあきら）

0.5.0 リリース！

k-Means/GMM による分析を複数台のサーバで並列して・リアルタイムに、省メモリで行えます！

クラスタリングがサポート

発表内容

目次：1. クラスタリングとは？2. Jubaclustering の特徴と動作原理3. 実験結果

新機能の魅力を 15 分でできるだけお伝えします

クラスタリングとはデータを性質のよく似たグループに整理する技術

出典： http://booktype-demo.sourcefabric.org/documentclustering_booktype/i-wen-shu-kurasutaringunogai-yao/

ビジネスへの応用事例

ニーズに答えつつ、在庫を減らす目的で兵士の身体的特徴クラスタリングにより分析

→ 「足が短く、ウエストが細く、胸が大きい女性用の服」などが新たに作成された。

（慶応義塾大学、古河康一先生の講義スライドより引用）

アメリカ軍女性兵士の服装

ビジネスへの応用事例（ 2 ）

住宅担保融資を利用している顧客データを 14 個のクラスタに分割して解析

→ 『起業家』という有益なクラスタを発見

（慶応義塾大学、古河康一先生の講義スライドより引用）

Bank of America の優良顧客の発見

クラスタリングの動機

未知のデータをグループに分割して解析することで、データを簡潔に理解できるデータについて新しい知見を得ることができる

場合がある。

→ 良いグループ分けをデータから発見したい！

未知のデータの分析と理解

クラスタリング手法

例： k-Means K 個の代表点を決め、一番近いものにグループ分け一番近い代表点までの距離の和を最小化

良いグループ分けの定量化／最適化アルゴリズム

04/13/2023 Jubatus Casual Talks#2 発表資料9

クラスタリング手法

例： Gaussian Mixture Model(GMM) いくつかの正規分布でデータをフィッティングクラスタ＝もっとも寄与が大きい正規分布

良いグループ分けの定量化／最適化アルゴリズム

04/13/2023 Jubatus Casual Talks#2 発表資料10

Jubaclustering大規模データをリアルタイムに・低コストで解析

逐次的にやってくる大量のデータ

複数台のサーバで並列に逐次処理＆省メ

モリで動作※

全データに対する k-Means ／ GMM の近似

結果を随時取得可能

※𝑂 ( log𝑛 ) ,忘却をつけると定数04/13/2023Jubatus Casual Talks#2 発表資料11

Jubaclustering

Q. クラスター分析ではクラスタ内のデータも重要。データを捨ててしまっては意味がないのでは？

A. クラスタ中の過去の入力データ全体を、重み付きサンプルで近似して返すことが可能

データ全体の概要を把握可能

15.1 3.5 2.9 …

（これはどんなクラスタに属しますか？）

（大体これらが数字の数ずついるようなものです。）

ビジネスでの利用例

系統的に整理し分析することが価値を生むリアルタイム＆大量全データを保存し、バッチ処理するのは計算量／メ

モリの面でコスト大

Jubaclustering なら… 低コストでリアルタイムに解析が行える必要ならクラスタ内のデータを取り出して分析する

こともできる

ユーザーのログデータの分析

鍵となる技術コアセット : クラスタリングに特化したサンプリング手法

バイアスサンプリング：• 密な所：少数の重み大な点• 疎な所：多数の重み小な点を配置

理論的に良い性質：・近似精度に対するサンプル数・分散／オンラインでの更新

実装のアイデア処理結果をコアセットとして保持

データが来たデータが来た！

実装のアイデア処理結果をコアセットとして保持

データの概形はこんな感じだ！

実装のアイデア他ノードとの同期時には単純に和集合を取る

こんな感じのデータが来たよ！

実装のアイデア和集合に対して独立にバッチで解析を行う

なるほど、全体としてはこんな感じなのか！

数値実験結果正規分布のコアセット

数値実験結果

中心の密なクラスタ (10000 点 ) の周囲に100 個の疎なクラスタ (100 点 ) を等間隔に配置

疎密を持つデータに対するコアセット

{𝑥𝑡=10000 ⋅ cos𝜋50𝑡

𝑦𝑡=10000 ⋅sin𝜋50𝑡

0≤ 𝑡<100

数値実験結果

得られたサンプルに 101 個のクラスタがどの程度含まれているかを比較※ 全点 20000 点から 50 点をサンプリング

疎密を持つデータに対するコアセット

コアセットランダムサンプリング04/13/2023Jubatus Casual Talks#2 発表資料22

数値実験結果

圧縮に伴うクラスタリング性能の変化を得られた中心で計算した元データの下での k-Meansの目的関数値で比較※ 時計盤データの全点 20000 点を 200 点に圧縮した場合

クラスタリング精度

coreset random batch

Jubaclustering （まとめ）大規模データをリアルタイムに・低コストで解析

逐次的にやってくる大量のデータ

複数台のサーバで並列に逐次処理＆省メ

モリで動作※

全データに対する k-Means ／ GMM の近似

結果を随時取得可能

※𝑂 ( log𝑛 ) ,忘却をつけると定数04/13/2023Jubatus Casual Talks#2 発表資料24

ありがとうございました

jubatus casual talks #2 : 0.5.0の新機能（クラスタリング）の紹介

Technology

jubatus casual talks #2 異常検知入門

jubatus 1.0 の紹介

第1回 jubatusハンズオン

steller sea lion (eumetopias jubatus): western u.s. stock

acinonyx jubatus, schreber 1776) décrit les - catsg.org ·...

° Ô chemishcchemishhi ·...

vivicorp - phần mềm nha khoa jubatus ( v-dental)

what is jubatus (short)

jubatus real time thermal rating

（steller sea lion, eumetopias...

international cheetah acinonyx jubatus studbook · 2012...

anÁlisis de apÉndices inerciales en acinonix jubatus

oculus developer guide 0.5.0

jubatus pressrelease

jubatus: realtime deep analytics for bigdata@rakuten...

jubatus hackathon2

the use of a probiotic in captive cheetahs (acinonyx...

jubatus casulatalks2

jubatus presentation on r&d forum 2011

python-oauth2 documentation release 0.5.0 - read the docs