classification systems based on rough sets under the belief function framework_雑誌会(m1...

Classification systems based on rough sets

under the belief function framework

著者：SalsabilTrabelsia,ZiedElouedia,Pawan

Lingrasb

発表者：M1 大木基至

2011.12.07 雑誌会

00. 目次

2011.12.07 雑誌会

01. Introduction

02. Rough Sets, Generalization Distribution Table

03. Belief function theory

04. Classification Systems

05. Experiments

06. Summary

1/ 45

01. Introduction

2011.12.07 雑誌会

背景

ラフ集合理論に基づくclassification approach が実問

題に応用されている。

Uncertain data へアプローチを拡張

部分的にまたは全体的に欠損のあるデータ

条件属性値が欠損している場合に適用[14, 17-19]

2/ 45

01. Introduction

2011.12.07 雑誌会

目的

２つのアプローチの提案

Belief Rough Set Classifier(BRSC)

Belief Rough Set Classifier – Generalization Distribution

Table (BRSC-GDT)

２つのアプローチを uncertain data へ応用

3/ 45

02. Rough Sets

2011.12.07 雑誌会

記号

対象の集合：

条件属性の集合：

条件属性値：

決定属性：d

決定属性値の集合：

決定表：

同値クラス：

対象の分割：

4/ 45

02. Rough Sets

2011.12.07 雑誌会

近似

下近似：

上近似：

Dependency of attributes

5/ 45

02. Rough Sets

2011.12.07 雑誌会

縮約

すべての属性集合CによるPOS領域を最小の部分集合

Bによって保存する

縮約に属さない属性は対象の要素の分類について余分

なものであると分かる。

コア

すべての縮約に共通に出現する属性

6/ 45

02. Rough Sets

2011.12.07 雑誌会

Value Reduct

分類に不必要な条件属性値を消去し，決定表を単純化

する。

条件属性の部分集合Bを用いて，決定属性dによる同値

クラスに包含される同値クラスを構成するBのこと。

7/ 45

02. GDT

2011.12.07 雑誌会

Zhongによって提案された属性と概念間の確率的な関

係を表す仮説探索空間[42]

PI（Possible instances）

可能性のあるすべての属性値の組み合わせ

PG (Possible generalizations of instances)

可能性のあるすべての対象の生成パターン

“ * ”：wild card

8/ 45

02. GDT

2011.12.07 雑誌会

GDTの成分はPGとPI間の確率的な関係の強さを表す。

：k番目の属性値

：j番目のPI：i番目のPG

：i番目のPGを満足するPIの数

：k番目の属性の属性値の数

9/ 45

02. GDT

2011.12.07 雑誌会

GDTの一例

1 / ( 2 ☓ 3 )

10/ 45

02. GDT - RS

2011.12.07 雑誌会

GDTとRough Setsによるhybrid system

noisy data (矛盾のあるデータ) からルールを抽出する

[9, 41]

Strength S (P → Q)

ルール条件部

のPのstrengh

ルールの

noise rate

11/ 45

02. GDT - RS

2011.12.07 雑誌会

Pのstrength

：PGを満足する対象の数

：Pを満足する可能性のある対象の数

：Pを満足する対象のうちQに属する対象の数

noise rate

12/ 45


2011.12.07 雑誌会

: frame of discernment（識別空間）

bba：basic belief assignment（基本信念割当）

belief function：信念関数

m で表す。

bbm：basic belief mass

m(E)で表す。

13/ 45


2011.12.07 雑誌会

Belief function：

Plausibility function：

x1 x2 x3

0.3

0.5

0.2

具体例

m(x1) = 0.2, m(x1, x2) = 0.3

m(x2, x3) = 0.5

bel(x1)=0.2, bel(x1, x2)=0.5

pl(x1)=0.5, pl(x1,x2)=1.0

14/ 45


2011.12.07 雑誌会

異なる情報源を結合した bbaを考える。

Conjunctive rule：両方の情報源が共に信頼できる[31]

Average rule：両方の証拠が対立する [21]

15/ 45


2011.12.07 雑誌会

Example

Conjunctive rule

Average rule

16/ 45


2011.12.07 雑誌会

Decision Making

Credal level

信念を belief function で表す。

Pignistic level

確率的な関数 pignistic probabilitiesで算出した結果を下

に意思決定を行う。

17/ 45


2011.12.07 雑誌会

Example

18/ 45

04. Classification systems

2011.12.07 雑誌会

２つのアプローチを提案する

Belief Rough Set Approach

Belief Rough Set Classifier

今回は決定属性値が不明確な場合を考える

Uncertain decision table

不明確な決定属性値をで表す。

基本信念割当で各対象の決定属性値の不明確さ

を測る

19/ 45


2011.12.07 雑誌会

Example

・対象“o3”では，決定属性値が“ud1”となる信念の度合いを0.7と表し，

決定属性値が“ud1”, “ud2” となる信念の度合いを0.3と表す。

・対象“o2”, “o5”, “o7”は，決定属性値が“ud1”となる信念の度合い

が1.0であり，certain case としてみなす。

20/ 45


2011.12.07 雑誌会

決定属性値がすべてcertainな場合，indiscernibility relationで

対象の分割ができる。

決定属性値が不明確な場合，基本信念割当によって割り当て

られた決定属性値udを用いて，tolerance relationを定義し，

対象を分割する。

基本信念割当とcertain基本信念割当との距離を用いる

：基本信念割当

トレランスクラスによる対象の分割

トレランスクラス

21/ 45


2011.12.07 雑誌会

Distance measure [4]

22/ 45


2011.12.07 雑誌会

Set Approximation

- 新しく下・上近似の集合を定義する。

STEP 1. average rule による基本信念割当の結合

STEP 2. 下・上近似の定式化

23/ 45


2011.12.07 雑誌会

Positive region

Dependency of attributes

24/ 45

04. Belief Rough Set Classifier

2011.12.07 雑誌会

STEP1. 冗長な条件属性の消去

- 縮約を求め，コアを抽出する。

縮約の算出に計算時間がかかってしまうので，ヒューリ

スティックな手法を適用する。(see Section 4.4)

belief function の下でのClassification Approach

25/ 45


2011.12.07 雑誌会

STEP2. 冗長な対象の消去

- 同じ条件属性を持つ対象を見つけ，それらの基本信念割

当を結合する。

26/ 45


2011.12.07 雑誌会

STEP 3. 冗長な条件属性値の消去

27/ 45


2011.12.07 雑誌会

Belief decision rules の生成

Example

この結果とPignistic probabilities[p. 17]による計算を行い，

未知対象を分類する。

28/ 45

04. BRSC based on GDT

2011.12.07 雑誌会

STEP 1. Generalization Decision Tableの生成

- 不完全な決定表の下でも通常どおり算出可能

STEP 2. compound object を定義

- ： compound object

それぞれのcompound object について，基本信念割当を計算する。

29/ 45


2011.12.07 雑誌会

STEP 3. 矛盾したcompound objectsの消去

- ：noise rate

の条件を満たすが存在したら，の決定属性値を

とする。

なければ，の決定属性値をとする。

30/ 45


2011.12.07 雑誌会

STEP 4. 決定ルールの最小記述長

- Discernibility vector を識別不能行列Aから生成

：対象 i , j 間で決定属性値と条件属性値が異なる条件属性の集合

Discernibility fucntion を用いてすべてのreduct values

を計算する。

31/ 45


2011.12.07 雑誌会

STEP 5. 最も良いルールの選択

- 等式(13)より決定ルールのstrength を求める。

STEP 6. Stopping criterion

- strength と記述長を考慮して最も良いルールを確定

32/ 45

04. Heuristic method

2011.12.07 雑誌会

ヒューリスティックな属性選択方法を提案

計算時間を早くするため，１つの縮約のみを生成

Notations

：選択された条件属性の集合

：選択されていない条件属性の集合

：縮約の閾値

：Positive Region から手に入れれる最も大きい同値クラス

：対象の集合Uから手に入れれる最も大きい同値クラス

：positive regionのcardinality

33/ 45

04. Heuristic method

2011.12.07 雑誌会

Algorithm

← コアを求め，それをRとする

← コア以外の条件属性の集合を，Pとする

←Rのdependency が閾値以下か判定

←UからRのPOS領域にある対象を引く

←条件属性Cを追加してPOS領域の濃度を計算

とを分割してできた集合

族の要素の最も大きい濃度

とする←RとPを更新する

34/ 45

05. Experimentation

2011.12.07 雑誌会

BRSC と BRSC-GDTの２つのアプローチを評価する

実験１：UCI のデータ

人工的にuncertainly の程度を定める

Low degree：0 < P ≦ 0.3

Middle degree：0.3 < P ≦ 0.6

High degree：0.6 < P ≦ 1.0

35/ 45

05. Experimentation

2011.12.07 雑誌会

実験２：Webアクセスログのデータ

Saint Mary’s Univ. のアクセスログデータ

140の生徒が受講する授業へのアクセス

アクセスから３つの決定属性udを決定

Studious, Crammers, Workers

アクセスログから以下の条件属性を設定

アクセス環境，アクセスした時間帯，アクセスした数，ノート

のダウンロード回数

K-meansで対象がudiに属する距離を計算し，その後以下の式でbba

を求める。

36/ 45

05. Experimentation

2011.12.07 雑誌会

評価基準

計算時間・決定ルールの数・分類精度

10 foldcross validation

37/ 45

05. Experimentation

2011.12.07 雑誌会

Certain case

- 分類精度(PCC)の比較

→ BRSC，BRSC-GDTが他の手法に比べ高い分類精度を

示した。

38/ 45

05. Experimentation

2011.12.07 雑誌会

Uncertainly case

Belief decision tree[11] との Time requirement の比較

→ BRSC-GDTが最も速く計算できた。

BRSC-GDT Pruned BDTBRSC

39/ 45

05. Experimentation

2011.12.07 雑誌会

Uncertainly case

決定ルール数の結果

→ uncertainly が増すと，決定ルール数が増す。

→ BRSC-GDTが決定ルールの個数が最も少ない。

BRSC BRSC-GDT pruned-BDT

40/ 45

05. Experimentation

2011.12.07 雑誌会

Uncertainly case

分類精度（PCC）の結果

→ BRSCが最も良い結果を示した。

→ 不確実性が増すと，分類精度は低下する。

BRSC BRSC-GDT pruned-BDT

41/ 45

05. Experimentation

2011.12.07 雑誌会

さらに，２つのケースのデータを作成し実験を行う。

crisp noisy 決定属性値

全対象の内無作為に選ばれた20％の対象の決定属性値

を故意に変更する。

uncertain noisy 決定属性値

決定属性値を基本信念割当を以下のように定める。

42/ 45

05. Experimentation

2011.12.07 雑誌会

→Uncertainly noise のデータの方が分類精度が高い

Crisp noiseとUncertainly noiseデータに対する

分類精度（PCC）の結果

43/ 45

05. Experimentation

2011.12.07 雑誌会

Web アクセスログのデータによる実験結果

→ Uncertainly case のデータの方が分類精度が高い

→ certain case の方が，決定ルール数は少ない

44/ 45

06. Summary

2011.12.07 雑誌会

BRSCとBRSC-GDTの２つのアプローチを提案した。

縮約の計算時間短縮のためのヒューリスティック手法

を提案した。

評価実験の結果，精度を重要視するならBRSC，計算

時間を重要視するならBRSC-GDTが有用であると示し

た。

条件属性値が不明確な場合についてのアプローチが今

後の課題である。

45/ 45

メモ

計算時間

2011.12.07 雑誌会

計算時間：

：縮約の最大数

n：対象の数

k：属性の数

計算時間：：対象の数

：属性の数

：縮約の最大数

47/ 45


2011.12.07 雑誌会

Example

48/ 45


2011.12.07 雑誌会

Example

49/ 45

classification systems based on rough sets under the belief function framework_雑誌会(m1...

Documents