classification systems based on rough sets under the belief function framework_雑誌会(m1...
TRANSCRIPT
Classification systems based on rough sets
under the belief function framework
著者:SalsabilTrabelsia,ZiedElouedia,Pawan
Lingrasb
発表者:M1 大木基至
2011.12.07 雑誌会
00. 目次
2011.12.07 雑誌会
01. Introduction
02. Rough Sets, Generalization Distribution Table
03. Belief function theory
04. Classification Systems
05. Experiments
06. Summary
1/ 45
01. Introduction
2011.12.07 雑誌会
背景
ラフ集合理論に基づくclassification approach が実問
題に応用されている。
Uncertain data へアプローチを拡張
部分的にまたは全体的に欠損のあるデータ
条件属性値が欠損している場合に適用[14, 17-19]
2/ 45
01. Introduction
2011.12.07 雑誌会
目的
2つのアプローチの提案
Belief Rough Set Classifier(BRSC)
Belief Rough Set Classifier – Generalization Distribution
Table (BRSC-GDT)
2つのアプローチを uncertain data へ応用
3/ 45
02. Rough Sets
2011.12.07 雑誌会
記号
対象の集合:
条件属性の集合:
条件属性値:
決定属性:d
決定属性値の集合:
決定表:
同値クラス:
対象の分割:
4/ 45
02. Rough Sets
2011.12.07 雑誌会
近似
下近似:
上近似:
Dependency of attributes
5/ 45
02. Rough Sets
2011.12.07 雑誌会
縮約
すべての属性集合CによるPOS領域を最小の部分集合
Bによって保存する
縮約に属さない属性は対象の要素の分類について余分
なものであると分かる。
コア
すべての縮約に共通に出現する属性
6/ 45
02. Rough Sets
2011.12.07 雑誌会
Value Reduct
分類に不必要な条件属性値を消去し,決定表を単純化
する。
条件属性の部分集合Bを用いて,決定属性dによる同値
クラスに包含される同値クラスを構成するBのこと。
7/ 45
02. GDT
2011.12.07 雑誌会
Zhongによって提案された属性と概念間の確率的な関
係を表す仮説探索空間[42]
PI(Possible instances)
可能性のあるすべての属性値の組み合わせ
PG (Possible generalizations of instances)
可能性のあるすべての対象の生成パターン
“ * ”:wild card
8/ 45
02. GDT
2011.12.07 雑誌会
GDTの成分はPGとPI間の確率的な関係の強さを表す。
:k番目の属性値
:j番目のPI:i番目のPG
:i番目のPGを満足するPIの数
:k番目の属性の属性値の数
9/ 45
02. GDT
2011.12.07 雑誌会
GDTの一例
1 / ( 2 ☓ 3 )
10/ 45
02. GDT - RS
2011.12.07 雑誌会
GDTとRough Setsによるhybrid system
noisy data (矛盾のあるデータ) からルールを抽出する
[9, 41]
Strength S (P → Q)
ルール条件部
のPのstrengh
ルールの
noise rate
11/ 45
02. GDT - RS
2011.12.07 雑誌会
Pのstrength
:PGを満足する対象の数
:Pを満足する可能性のある対象の数
:Pを満足する対象のうちQに属する対象の数
noise rate
12/ 45
03. Belief function theory
2011.12.07 雑誌会
: frame of discernment(識別空間)
bba:basic belief assignment(基本信念割当)
belief function:信念関数
m で表す。
bbm:basic belief mass
m(E)で表す。
13/ 45
03. Belief function theory
2011.12.07 雑誌会
Belief function:
Plausibility function:
x1 x2 x3
0.3
0.5
0.2
具体例
m(x1) = 0.2, m(x1, x2) = 0.3
m(x2, x3) = 0.5
bel(x1)=0.2, bel(x1, x2)=0.5
pl(x1)=0.5, pl(x1,x2)=1.0
14/ 45
03. Belief function theory
2011.12.07 雑誌会
異なる情報源を結合した bbaを考える。
Conjunctive rule:両方の情報源が共に信頼できる[31]
Average rule:両方の証拠が対立する [21]
15/ 45
03. Belief function theory
2011.12.07 雑誌会
Example
Conjunctive rule
Average rule
16/ 45
03. Belief function theory
2011.12.07 雑誌会
Decision Making
Credal level
信念を belief function で表す。
Pignistic level
確率的な関数 pignistic probabilitiesで算出した結果を下
に意思決定を行う。
17/ 45
03. Belief function theory
2011.12.07 雑誌会
Example
18/ 45
04. Classification systems
2011.12.07 雑誌会
2つのアプローチを提案する
Belief Rough Set Approach
Belief Rough Set Classifier
今回は決定属性値が不明確な場合を考える
Uncertain decision table
不明確な決定属性値を で表す。
基本信念割当 で各対象の決定属性値の不明確さ
を測る
19/ 45
04. Classification Systems
2011.12.07 雑誌会
Example
・対象“o3”では,決定属性値が“ud1”となる信念の度合いを0.7と表し,
決定属性値が“ud1”, “ud2” となる信念の度合いを0.3と表す。
・対象“o2”, “o5”, “o7”は,決定属性値が“ud1”となる信念の度合い
が1.0であり,certain case としてみなす。
20/ 45
04. Classification Systems
2011.12.07 雑誌会
決定属性値がすべてcertainな場合,indiscernibility relationで
対象の分割ができる。
決定属性値が不明確な場合,基本信念割当によって割り当て
られた決定属性値udを用いて,tolerance relationを定義し,
対象を分割する。
基本信念割当とcertain基本信念割当との距離を用いる
:基本信念割当
トレランスクラスによる対象の分割
トレランスクラス
21/ 45
04. Classification Systems
2011.12.07 雑誌会
Distance measure [4]
22/ 45
04. Classification Systems
2011.12.07 雑誌会
Set Approximation
- 新しく下・上近似の集合を定義する。
STEP 1. average rule による基本信念割当の結合
STEP 2. 下・上近似の定式化
23/ 45
04. Classification Systems
2011.12.07 雑誌会
Positive region
Dependency of attributes
24/ 45
04. Belief Rough Set Classifier
2011.12.07 雑誌会
STEP1. 冗長な条件属性の消去
- 縮約を求め,コアを抽出する。
縮約の算出に計算時間がかかってしまうので,ヒューリ
スティックな手法を適用する。(see Section 4.4)
belief function の下でのClassification Approach
25/ 45
04. Belief Rough Set Classifier
2011.12.07 雑誌会
STEP2. 冗長な対象の消去
- 同じ条件属性を持つ対象を見つけ,それらの基本信念割
当を結合する。
26/ 45
04. Belief Rough Set Classifier
2011.12.07 雑誌会
STEP 3. 冗長な条件属性値の消去
27/ 45
04. Belief Rough Set Classifier
2011.12.07 雑誌会
Belief decision rules の生成
Example
この結果とPignistic probabilities[p. 17]による計算を行い,
未知対象を分類する。
28/ 45
04. BRSC based on GDT
2011.12.07 雑誌会
STEP 1. Generalization Decision Tableの生成
- 不完全な決定表の下でも通常どおり算出可能
STEP 2. compound object を定義
- : compound object
それぞれのcompound object について,基本信念割当を計算する。
29/ 45
04. BRSC based on GDT
2011.12.07 雑誌会
STEP 3. 矛盾したcompound objectsの消去
- :noise rate
の条件を満たす が存在したら, の決定属性値を
とする。
なければ, の決定属性値を とする。
30/ 45
04. BRSC based on GDT
2011.12.07 雑誌会
STEP 4. 決定ルールの最小記述長
- Discernibility vector を識別不能行列Aから生成
:対象 i , j 間で決定属性値と条件属性値が異なる条件属性の集合
Discernibility fucntion を用いてすべてのreduct values
を計算する。
31/ 45
04. BRSC based on GDT
2011.12.07 雑誌会
STEP 5. 最も良いルールの選択
- 等式(13)より決定ルールのstrength を求める。
STEP 6. Stopping criterion
- strength と記述長を考慮して最も良いルールを確定
32/ 45
04. Heuristic method
2011.12.07 雑誌会
ヒューリスティックな属性選択方法を提案
計算時間を早くするため,1つの縮約のみを生成
Notations
:選択された条件属性の集合
:選択されていない条件属性の集合
:縮約の閾値
:Positive Region から手に入れれる最も大きい同値クラス
:対象の集合Uから手に入れれる最も大きい同値クラス
:positive regionのcardinality
33/ 45
04. Heuristic method
2011.12.07 雑誌会
Algorithm
← コアを求め,それをRとする
← コア以外の条件属性の集合を,Pとする
←Rのdependency が閾値以下か判定
←UからRのPOS領域にある対象を引く
←条件属性Cを追加してPOS領域の濃度を計算
と を分割してできた集合
族の要素の最も大きい濃度
とする←RとPを更新する
34/ 45
05. Experimentation
2011.12.07 雑誌会
BRSC と BRSC-GDTの2つのアプローチを評価する
実験1:UCI のデータ
人工的にuncertainly の程度を定める
Low degree:0 < P ≦ 0.3
Middle degree:0.3 < P ≦ 0.6
High degree:0.6 < P ≦ 1.0
35/ 45
05. Experimentation
2011.12.07 雑誌会
実験2:Webアクセスログのデータ
Saint Mary’s Univ. のアクセスログデータ
140の生徒が受講する授業へのアクセス
アクセスから3つの決定属性udを決定
Studious, Crammers, Workers
アクセスログから以下の条件属性を設定
アクセス環境,アクセスした時間帯,アクセスした数,ノート
のダウンロード回数
K-meansで対象がudiに属する距離を計算し,その後以下の式でbba
を求める。
36/ 45
05. Experimentation
2011.12.07 雑誌会
評価基準
計算時間・決定ルールの数・分類精度
10 foldcross validation
37/ 45
05. Experimentation
2011.12.07 雑誌会
Certain case
- 分類精度(PCC)の比較
→ BRSC,BRSC-GDTが他の手法に比べ高い分類精度を
示した。
38/ 45
05. Experimentation
2011.12.07 雑誌会
Uncertainly case
Belief decision tree[11] との Time requirement の比較
→ BRSC-GDTが最も速く計算できた。
BRSC-GDT Pruned BDTBRSC
39/ 45
05. Experimentation
2011.12.07 雑誌会
Uncertainly case
決定ルール数の結果
→ uncertainly が増すと,決定ルール数が増す。
→ BRSC-GDTが決定ルールの個数が最も少ない。
BRSC BRSC-GDT pruned-BDT
40/ 45
05. Experimentation
2011.12.07 雑誌会
Uncertainly case
分類精度(PCC)の結果
→ BRSCが最も良い結果を示した。
→ 不確実性が増すと,分類精度は低下する。
BRSC BRSC-GDT pruned-BDT
41/ 45
05. Experimentation
2011.12.07 雑誌会
さらに,2つのケースのデータを作成し実験を行う。
crisp noisy 決定属性値
全対象の内無作為に選ばれた20%の対象の決定属性値
を故意に変更する。
uncertain noisy 決定属性値
決定属性値を基本信念割当を以下のように定める。
42/ 45
05. Experimentation
2011.12.07 雑誌会
→Uncertainly noise のデータの方が分類精度が高い
Crisp noiseとUncertainly noiseデータに対する
分類精度(PCC)の結果
43/ 45
05. Experimentation
2011.12.07 雑誌会
Web アクセスログのデータによる実験結果
→ Uncertainly case のデータの方が分類精度が高い
→ certain case の方が,決定ルール数は少ない
44/ 45
06. Summary
2011.12.07 雑誌会
BRSCとBRSC-GDTの2つのアプローチを提案した。
縮約の計算時間短縮のためのヒューリスティック手法
を提案した。
評価実験の結果,精度を重要視するならBRSC,計算
時間を重要視するならBRSC-GDTが有用であると示し
た。
条件属性値が不明確な場合についてのアプローチが今
後の課題である。
45/ 45
メモ
計算時間
2011.12.07 雑誌会
計算時間:
:縮約の最大数
n:対象の数
k:属性の数
計算時間: :対象の数
:属性の数
:縮約の最大数
47/ 45
03. Belief function theory
2011.12.07 雑誌会
Example
48/ 45
03. Belief function theory
2011.12.07 雑誌会
Example
49/ 45