phương pháp phân cụm mờ trừ loại hai khoảng
DESCRIPTION
Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011Phương pháp phân cụm mờ trừ loại hai khoảng Approach to Interval Type-2 Fuzzy Subtractive ClusteringNgô Thành Long, Phạm Huy Bình Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân sự e-Mail: [email protected], [email protected] Tóm tắtBài báo giới thiệu một cách tiếp cận mới về thuật toán phân cụm trừ (SC) với tham số mờ m có ý nghĩa trong điều khiển kết quả phân cụm. Để quản lí sự không chắc chắn của tham số m, chúng tôi mở rộngTRANSCRIPT
Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011
VCCA-2011
Phương pháp phân cụm mờ trừ loại hai khoảng
Approach to Interval Type-2 Fuzzy Subtractive Clustering
Ngô Thành Long, Phạm Huy Bình
Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân sự
e-Mail: [email protected], [email protected]
Tóm tắt Bài báo giới thiệu một cách tiếp cận mới về thuật toán
phân cụm trừ (SC) với tham số mờ m có ý nghĩa trong
điều khiển kết quả phân cụm. Để quản lí sự không
chắc chắn của tham số m, chúng tôi mở rộng thuật
toán SC thành thành thuật toán phân cụm trừ loại hai
khoảng (IT2-SC) bằng cách sử dụng 2 tham số mờ
1m và 2m để tạo ra miền không chắc chắn (FOU)
của m. Các thử nghiệm được thực hiện thông qua
phân đoạn ảnh với các thống kê cho sự phụ thuộc rất
lớn vào tham số mờ của SC và thuật toán phân cụm
trừ loại hai khoảng đưa ra là ổn định và chính xác.
Abstract: The article introduces a new approach to subtractive
clustering algorithm (SC) with the fuzzifer parameter
m which controls the clustering results in SC. And to
manage the uncertainty of the parameter m, we have
expanded the SC algorithm to interval type-2 fuzzy
subtractive clustering algorithms (IT2-SC) using two
fuzzifiers parameters 1m and 2m which creates a
footprint of uncertainty (FOU) for the fuzzifier. The
experiments are done based on image segmentation
with the statistics show that the depends greatly on the
parameter m of SC and stability and accuracy of our
IT2-SC
Từ khóa Phân cụm trừ, phân cụm trừ loại hai khoảng, tập mờ
loại hai, phân cụm mờ.
Chữ viết tắt FCM Fuzzy C-means
SC Subtractive Clustering
IT2-SC Interval type-2 Subtractive Clustering
FOU Footprint of uncertainty
UMF Upper bounds of membership function
LMF Lower bounds of membership function
1. Giới thiệu Phân cụm là một kỹ thuật phổ biến trong nhiều lĩnh
vực như khai phá dữ liệu, nhận dạng mẫu, xử lý
ảnh… Phân cụm dữ liệu là quá trình phân chia tập dữ
liệu vào các cụm để các đối tượng trong một cụm có
độ tương đồng lớn nhất. Các thuật toán phân cụm
cũng rất đa dạng như k-means [25], c-means mờ [24],
giải thuật phân cụm mountain [19,20,21,22],. Hơn
nữa, trong phần lớn dữ liệu thực tồn tại nhiều tính
không chắc chắn (uncertainty) và tính gần đúng
(vaguenesses) mà các tập mờ loại một không thể mô
tả chính xác được khi hàm thuộc của chúng là rõ. Do
vậy tập mờ loại hai là sự mở rộng của tập mờ loại
một, có ưu điểm là khử tính không chắc chắn
(uncertainty) tốt. Tập mờ loại hai đã được nghiên cứu
và áp dụng vào nhiều bài toán khác nhau
[6,7,8,9,10,11,12], trong đó có bài toán phân cụm dữ
liệu. Nhiều thuật toán phân cụm mờ loại hai, loại hai
khoảng đã được giới thiệu như thuật toán C-mean loại
hai khoảng[13,14,16,17,18], PCM loại hai [15].
Thuật toán phân cụm trừ được Chiu đưa ra năm 1994
[1,2]. Thuật toán phân cụm trừ được xây dựng trên cơ
sở thuật toán phân cụm Mountain với việc đưa ra hàm
tính mật độ để tính toán khả năng trở thành tâm cụm
cho từng mẫu dữ liệu dựa vào vị trí của mẫu dữ liệu
này với tất cả các mẫu còn lạị. Giải thuật này chỉ xem
xét đến từng mẫu dữ liệu mà không cần xét đến các
thành phần của mẫu điều này làm cho giải thuật trở
nên đơn giản hơn nhiều so với giải thuật Mountain và
tốc độ tính toán được cải thiện đáng kể . Đến năm
2005, Kim và một số người khác đã cải tiến thuật toán
phân cụm trừ bằng cách đưa hàm Kernel vào tính toán
hàm mật độ[5] và đến năm 2008 JunYing Chen,
Zheng Qin and Ji Jia đã đưa ra giải thuật phân cụm trừ
trung bình trọng số[4].
Trong thuật toán phân cụm trừ ngoài sự không chắc
chắn có thể xuất hiện ở dữ liệu làm ảnh hưởng đến kết
quả phân cụm thì việc phải thiết lập các tham số ngay
từ đầu cho thuật toán cũng có những ảnh hưởng rất
lớn tới kết quả phân cụm [22, 23]. Vì vậy trong
nghiên cứu này, chúng tôi đưa ra một hướng mở rộng
giải thuật phân cụm trừ bằng cách đưa vào tham số
mờ m trong hàm tính toán mật độ cho các điểm dữ
liệu. Tham số mờ m có thể làm thay đổi kết quả của
hàm tính mật độ qua đó điều khiển khả năng trở thành
tâm cụm của từng mẫu dữ liệu nên nó có ảnh hưởng
rất lớn tới kết quả phân cụm và qua tham số mờ m ta
có thể làm giảm sự phụ thuộc của việc khởi tạo giá trị
cho các tham số của thuật toán tới kết quả phân cụm.
Khi đó với việc điều chỉnh tham số m ta vẫn có thể
thu được các kết quả phân cụm tốt mà không cần quan
tâm tới việc phải thiết lập các giá trị khởi tạo cho các
tham số của thuật toán. LucVì vậy để quản lí sự
không chắc chắn của tham số m chúng tôi mở rộng
thuật toán phân cụm trừ thành loại hai khoảng với
việc sử dụng hai tham số mờ m1 và m2 để tạo ra vùng
FOU của tham số mờ m. Sau đó để quan sát sự hiệu
quả của thuật toán phân cụm trừ loại hai khoảng,
768
Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011
VCCA-2011
chúng tôi sử dụng giải thuật phân cụm FCM để so
sánh nó với giải thuật phân cụm trừ trước đó.
Phần tiếp theo của bài báo được tổ chức như sau:
Phần 2 định nghĩa tập mờ loại hai khoảng, trình bày
thuật toán phân cụm trừ và thuật toán FCM. Phần 3
trình bày mở rộng thuật toán phân cụm trừ với tham
số mờ m và xây dựng thuật toán phân cụm trừ loại hai
khoảng với hai tham số mờ m1 và m2. Phần 4 đưa ra
một vài kết quả thực nghiệm phân đoạn ảnh để thấy
sự hiệu quả của thuật toán phân cụm trừ loại hai
khoảng so với thuật toán phân cụm trừ. Cuối cùng,
phần 5 đưa ra một số kết luận.
2. Một số vấn đề cơ sở. 2.1. Tập mờ loại 2
Tập mờ loại hai xác định trên tập X là A và độ thuộc
của x X trong A là ( , )A
x um , u Jx [0,1] là tập
mờ loại I trong khoảng [0,1]. Các thành phần thuộc
miền xác định của ( , )A
x u được gọi là độ thuộc sơ
cấp của x trong A và độ thuộc của độ thuộc sơ cấp
trong ( , )A
x u gọi là độ thuộc thứ cấp của x trong
A .
Định nghĩa 1: Một tập mờ loại hai, ký hiệu là A ,
được đặc trưng bởi hàm thuộc (MF) loại hai ( , )A
x um ,
trong đó x X và [0,1]xu J , … hay
, , , , 0,1xAA x u x u x X u Jm (1)
hoặc
, / , , 0,1
x X x
xA
u J
A x u x u Jm (2)
trong đó: 0 ( , ) 1A
x um .
Với mỗi giá trị của x, tại x = x’, mặt phẳng 2D mà có
hai trục là u và ( ', )A
x u được gọi là nhát cắt đứng
(vertical slice) của ( , )A
x u . Một hàm thuộc thứ cấp
(secondary membership function) là một nhát cắt
đứng của ( , )A
x u . Đó chính là ( , )A
x u tại x = x’,
hay ( ', )A
x x um với x X và u [0,1]xJ .
'( ', ) ( ') ( ) /
x
xA A
u J
x x u x f u um m (3)
' [0,1]xJ , trong đó '0 ( ) 1xf u là hàm thứ cấp.
Theo quan điểm của tập mờ nhúng, thì tập mờ loại II
được hiểu là liên hợp của tập mờ nhúng loại II của nó,
và ta có:
1
nj
e
j
A A (4)
trong đó 1
N
i
i
n M và j
eA là tập nhúng loại II của A
và
j
eA , , 1,2,...,i
j j
i x iu f u i N (5)
với , 1,...,j
i ik iu u k M .
Gọi A, B là các tập mờ loại hai với các hàm độ thuộc
thứ cấp tương ứng là fx(u) và gx(u), khi đó kết quả các
phép toán giao và hợp được tính theo các công thức
sau :
w / wx xBA B Au v
x x x f u g um m m (6)
w / wx xBA B Au v
x x x f u g um m m (7)
/ 1xA Au
x x f u um m (8)
trong đó , là phép toán t-cornorm và t-norm.
Tập mờ loại II được gọi là tập mờ loại hai khoảng nếu
hàm thuộc thứ cấp của nó fx’(u) =1 với u Jx nghĩa
là tập mờ loại hai khoảng được định nghĩa như sau :
Định nghĩa 2: Tập mờ loại hai khoảng A được mô tả
bởi hàm thuộc loại hai khoảng , 1A
x um , với
, [0,1]xx X u J . Đó là:
{(( , ), ( , )) | , [0,1], ( , ) 1}xA AA x u x u x X u J x um m (9)
Sự không chắc chắn trong hàm thuộc sơ cấp của tập
mờ loại hai A , kí hiệu FOU, là hợp của tất cả các
hàm thuộc chính nghĩa là ( ) x
x X
FOU A J , biên
trên và biên dưới của hàm thuộc chính (UMF/LMF),
kí hiệu là ( )A
xm và ( )A
xm , của A là hai hàm thuộc
loại một và là các biên của vùng FOU.
2.2 Giải thuật phân cụm trừ.
Giải thuật phân cụm trừ (subtractive clustering) xác
định các tâm cụm dựa trên mật độ các điểm lân cận.
Xét một tập hợp dữ liệu gồm n điểm:
1 2 n, ,...,X x x x
Hàm tính mật độ cho một điểm dữ liệu là: 2
2
4
1
i j
a
x xnr
i
j
P e (10)
Trong đó:
Pi : Mật độ các điểm bao quanh điểm dữ liệu thứ i.
ra : là một hằng số dương hay còn gọi là bán kính
cụm.
. : khoảng cách Euclid giữa điểm dữ liệu thứ i với
các điểm bao quanh
Khi mật độ của tất cả các điểm dữ liệu đã được tính,
lựa chọn điểm có mật độ lớn nhất làm tâm cụm thứ
nhất. Gọi *
1x là vị trí tâm cụm đầu tiên, có mật độ là
*
1P thì *
11
axn
ii
P m P .
Tính lại mật độ cho các điểm dữ liệu theo công thức: 2
*12
4
*
1 ; 1,...,i
b
x xr
i iP P P e i n (11)
Và br thường được chọn là 1.5b ar r và tiếp tục chọn
điểm có mật độ lớn nhất làm tâm cụm thứ 2.
Trong trường hợp tổng quát khi đã có k tâm cụm thì
mật độ của các điểm dữ liệu còn lại được tính theo
công thức:
769
Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011
VCCA-2011
2*
2
4
* ; 1,...,i k
b
x xr
i i kP P P e i n (12)
Sử dụng 2 điểm cận với cận dưới ef* rPe và cận trên
ef* rPe , với Pref
là mật độ của tâm cụm thứ k, trong
đó e và e lần lượt được gọi là hằng số chấp nhận và
hằng số từ chối, thường được chọn lần lượt là 0.5 và
0.15. Một tâm cụm mới được chọn nếu điểm đó có
mật độ lớn hơn cận trên. Nếu điểm có mật độ lớn nhất
nhỏ hơn cận dưới thì thuật toán dừng.
Nếu điểm có mật độ lớn nhất nằm giữa hai cận thì
khoảng cách giữa điểm đó với các tâm cụm đã được
xác định trước đó sẽ quyết định xem điểm đó có trở
thành tâm cụm mới hay không.
Các bước thực hiện thuật toán phân cụm trừ như sau:
Bước 1: Khởi tạo ar , h với b
a
r
rh , e và e .
Bước 2: Tính mật độ cho các điểm dữ liệu theo công
thức (10). Chọn điểm có mật độ lớn nhất làm tâm cụm
đầu tiên: *
1axn
k ii
P m P với 1k và *
kP là mật độ của
tâm cụm thứ nhất .
Bước 3: Tính toán lại mật độ cho các điểm dữ liệu
còn lại theo công thức (12).
Bước 4: Gọi x* là điểm có mật độ lớn nhất là P
*.
Nếu * efrP Pe : *x là một tâm cụm mới và tiếp tục
bước 3.
Ngược lại nếu * efrP Pe : chuyển sang bước 5
Ngược lại:
1. dmin: khoảng cách nhỏ nhất giữa *x và các
tâm cụm trước đó.
2. Nếu *
min
ef1
r
a
d P
r P:
*x là một tâm cụm
mới và tiếp tục bước 3.
3. Ngược lại:
Thiết lập *( ) 0P x .
Chọn x* có mật độ P
* lớn nhất và tiếp tục bước 4.
Bước 5: Đưa ra các cụm kết quả.
Khi đó bậc hay độ thuộc của một điểm đối với một
tâm cụm được xác định theo công thức: 2
2
4i k
a
x xr
ik e
(13)
2.3. Thuật toán phân cụm C-mean mờ (FCM).
Thuật toán FCM phân hoạch một tập n vectơ đối
tượng dữ liệu 1 2, ,..., d
nX x x x R thành c nhóm
mờ dựa trên tính toán tối thiểu hóa hàm mục tiêu để
đo chất lượng của phân hoạch và tìm trọng tâm cụm
trong mỗi nhóm, sao cho chi phí hàm đo độ phi tương
tự là nhỏ nhất. Hàm mục tiêu được định nghĩa như
sau:
2
1 1
( , ) ( ) , 1n c
m
m ik ik
k i
J U v u d m (14)
Trong đó :
1 2, ,..., d
nX x x x R là nửa dưới vector mẫu dữ
liệu tập con thực d chiều trong không gian vector dR .
1,m là trọng số mũ hay còn gọi là tham số
mờ. d
iv R là trọng tâm của cụm thứ i
1/ 2
2
1
( ) ( )d
ik k i k i kj ij
j
d d x v x v x v là
khoảng cách theo thước đo Euclide giữa mẫu dữ liệu
kx với trọng tâm cụm thứ i ,iv
0,1iku là bậc hay độ thuộc của dữ liễu mẫu kx
với cụm thứ i
1,..., dxc
ji cV v v v R là ma trận biểu diễn các
giá trị tâm của cụm. Với hàm thuộc chính được tính
theo công thức: 1
2
1
,
1
mcj i
i j
k j k
x vu
x v (15)
Trong đó:
1
1
0 1, 1 ,1
0 , 1
1, 1
ik
n
ik
k
c
ik
i
u i c k n
u n i c
u k n
Và véc tơ tâm cụm được tính theo công thức:
1
1
( )
,1
( )
nm
ik kk
i nm
ikk
u x
v i c
u
(16)
Các bước thực hiện thuật toán phân cụm FCM như
sau:
Bước 1. Khởi tạo:
Nhập tham số c (1<c<n), m(1<m<+∞), e
Khởi tạo ma trận (0), , 0d c
ijV v V R j
Bước 2. Tính ma trận phân hoạch U và cập nhật lại
trọng tâm cụm V:
j=j+1
Tính ma trận phân hoạch mờ j
U theo công thức (15)
Cập nhật các trọng tâm cụm ( ) ( ) ( ) ( )
1 2, ,...,j j j j
cV v v v
theo công thức (16).
Bước 3: Kiểm tra điều kiện dừng. Nếu ( ) ( 1)j jV V e chuyển sang bước 4, ngược lại
quay lại bước 2.
Bước 4. Đưa ra các cụm kết quả.
770
Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011
VCCA-2011
3. Thuật toán phân cụm trừ loại hai
khoảng. 3.1. Thuật toán phân cụm trừ mở rộng.
Trong thuật toán phân cụm trừ có 4 tham số ta phải
thiết lập: e , e , ra và h (hay rb). Các tham số này ảnh
hưởng rất lớn đến kết quả phân cụm của thuật toán và
gây nên sự không chắc chắn cho thuật toán. Nếu chọn
e , e lớn sẽ làm giảm số cụm ngược lại nếu chọn e ,
e giá trị nhỏ quá sẽ làm tăng số lượng cụm. Tương
tư, việc lựa chọn ra và h (hay rb) cũng ảnh hưởng tới
số lượng cụm được tạo ra nhiều hoặc ít. Như vậy,
chúng ta không thể biết các tham số tốt nhất một tập
dữ liệu thậm chí việc tìm kiếm theo một tham số cho
thuật toán để đưa ra kết quả phân cụm tốt nhất cũng là
khó khăn. Sự ảnh hưởng của bốn tham số này tới kết
quả phân cụm đã được Demirli miêu tả khá chi tiết
trong các bài báo của mình [22, 23].
Ở hình 1 cho thấy kết quả phân cụm khi áp dụng giải
thuật phân cụm trừ để phân cụm cho 100 mẫu dữ liệu
được tạo thành qua việc mô hình hóa hàm không
tuyến tính sin( )x
yx
với [-10;10]x .
H. 1 Kết quả phân cụm dữ liệu của SC theo Chiu[1, 2]
Theo Chiu [1, 2], ta lựa chọn các tham số lần lượt là
0.5e , 0.15e , a 0.25r và 1.5h thì sẽ cho
kết quả phân cụm tốt nhất.
Còn ở hình 2 là các đô thị mô tả sự phục thuộc của SC
vào các tham số ar và h . Trong đó hình 2.a biểu thị
sự phụ thuộc kết quả phân cụm của thuật toán SC vào
tham số ar khi các tham số còn lại lần lượt được chọn
là 0.5e , 0.15e và 1.5h và hình 2.b biểu thị
sự phụ thuộc kết quả phân cụm của thuật toán SC vào
tham số h khi các tham số còn lại lần lượt được chọn
là 0.5e , 0.15e và a 0.25r (Trong các hình
này, trục tung biểu thị số cụm và trục hoành biểu thị
tham số ar (tham số h )).
Thuật toán phân cụm trừ ước lượng đánh giá khả năng
một mẫu dữ liệu có thể trở thành tâm của một cụm dữ
liệu hay không qua hàm tính mật độ (khả năng) các
mẫu dữ liệu bao quanh của mẫu đó mà thực chất là
dựa vào khoảng cách giữa mẫu đó với các mẫu còn
lại. Nếu một mẫu dữ liệu có rất nhiều mẫu khác bao
quanh trong một phạm vi nhất định (trong khoảng bán
kính cụm r) thì khả năng nó trở thành tâm cụm là rất
lớn. Và việc xác định độ thuộc của một mẫu vào một
cụm nào đó được dựa vào hàm thuộc Gaussian (13).
Vì vậy, ta xem xét tới một tham số mờ có vai trò điều
khiển quá trình phân chia thành các cụm dữ liệu thông
qua việc đưa tham số m vào hàm tính mật độ cho các
mẫu dữ liệu như sau: 2
12
4
1
mj i
a
x xnr
i
j
P e (17)
Nếu *
kx là vị trí tâm cụm thứ k, có mật độ là *
kP thì
mật độ cho các mẫu dữ liệu còn lại được tính theo
công thức: 2
12
4
* ; 1,...,m
i k
b
x xr
i i kP P P e i n (18)
Khi đó việc lựa chọn giá trị của tham số m sẽ ảnh
hưởng rất lớn tới kết quả phân chia thành các cụm dữ
liệu. Như bảng 1 miêu tả ảnh hưởng của tham số mờ
m tới kết quả phân cụm. Nếu m càng lớn thì số lượng
cụm tạo thành càng nhiều và ngược lại.
Qua điều chỉnh tham số mờ m ta cũng dễ dàng thu
được kết quả phân cụm tốt mà không phụ thuộc nhiều
vào việc điều chỉnh thiết lập các tham số ban đầu cho
thuật toán phân cụm trừ. Hình 3a minh họa số tâm
cụm tạo hình thành từ việc lựa chọn các tham số ban
đầu là 0.5e , 0.15e , a 0.25r và 1.5h (theo
Chiu [1, 2]) được đánh giá là tốt nhất. Hình 3b minh
họa số tâm cụm được tạo thành theo thuật toán SC mở
rộng với các tham số 0.5e , 0.15e , a 0.4r ,
1.35h và 2.47m . Ta thấy rằng kết quả phân
cụm từ hình 3b cũng tiến đến khá gần với kết quả
phân cụm của Chiu [1, 2] ở hình 3a.
H. 2 Sự phụ thuộc của SC vào các tham số ar và h
H. 3 Sự phụ thuộc của SC vào tham số m
Như vậy với việc điều chỉnh tham số m thì cũng có
thể thu được kết quả phân cụm là tương đối tốt mà
không phụ thuộc vào việc lựa chọn bốn tham số ban
đầu.
771
Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011
VCCA-2011
Bảng 1. Thống kê kết quả phân cụm của SC phụ thuộc vào
tham số m.
3.2. Thuật toán phân cụm trừ mờ loại hai khoảng.
Khi đưa tham số m vào thuật toán SC thì bậc hay độ
thuộc của một mẫu dữ liệu đối với một tâm cụm được
xác định theo công thức:
2
12
4mi k
a
x xr
ik e
(19)
Trong đó kx là tâm cụm thứ k.
Theo công thức (19), ta thấy giá trị độ thuộc của điểm
thứ i vào tâm cụm thứ k phụ thuộc vào vị trí của tâm
cụm thứ k và tham số m. Mặt khác vị trí của tâm cụm
thứ k cũng phụ thuộc vào tham số m. Như vậy tham
số m là yếu tố không chắc chắn nhất của thuật toán.
Để mô tả và quản lý sự không chắc chắn của tham số
mờ m, chúng tôi đã mở rộng tập mẫu thành tập mờ loại
hai khoảng bằng cách sử dụng 2 tham số mờ m1 và m2
để tạo ra miền không chắc chắn (FOU) của tham số mờ
m. Khi đó, độ thuộc của một tâm cụm được xác định
như sau:
2
112
2
122
4
4
mi k
a
mi k
a
x xr
ik
x xr
ik
e
e
m
m
(20)
Thuật toán phân cụm mờ trừ loại hai khoảng được thể
hiện chi tiết như hình 4. Việc sử dụng các tham số mờ
dẫn đến các hàm tính toán mật độ cho từng điểm dữ
liệu là:
2
1j 12
2
1j 22
4
1
4
1
mi
a
mi
a
x xnr
i
j
x xnr
i
j
P e
P e
(21)
Như vậy nếu xác định các tâm cụm theo các công
thức (21) ta sẽ có tâm cực đại Rv và tâm cực tiểu Lv .
Do vậy để giải mờ cho tâm cụm, ta sẽ tính ngay khả
năng trở thành tâm cụm cho mỗi mẫu dữ liệu theo
công thức tính trung bình trọng số sau:
1 2
1 2
* *i ii
P m P mP
m m (22)
Và khi đã xác định được tâm cụm thứ k thì việc tính
toán lại mật độ cho các điểm còn lại theo công thức
sau:
2
112
2
122
4
*
1
4
*
1
1 2
1 2
* *
mj i
b
mj i
b
x xnr
sub
i k
j
x xnr
sub
i k
j
sub subsub i i
i
sub
i i i
P P e
P P e
P m P mP
m m
P P P
(23)
H. 4 Sơ đồ thuật toán phân cụm trừ loại 2 khoảng.
Khi đó thuật toán phân cụm trừ mờ loại hai khoảng có
các bước thực hiện như thuật toán phân cụm trừ với
các công thức tính toán mật độ theo (21), (22) và (23).
4. Kết quả thử nghiệm. Trong phần này, chúng tôi so sánh các kết quả giữa
giải thuật phân cụm trừ và giải thuật phân cụm trừ mờ
loại hai khoảng và đưa ra qua các thử nghiệm về phân
đoạn ảnh. Ở đây phân đoạn ảnh nhiều mức là sự kết
hợp giữa giải thuật phân cụm FCM với các giải thuật
phân cụm trừ này. Trong đó, sử dụng kết quả của các
giải thuật phân cụm trừ để khởi tạo các tâm cụm ban
đầu cho thuật toán FCM, sau đó qua FCM đưa ra kết
quả phân đoạn ảnh và số bước lặp mà FCM phải thực
hiện. Cuối cùng chúng tôi so sánh hiệu quả của các
giải thuật phân cụm trừ này qua kết quả phân đoạn
ảnh và số bước lặp mà FCM phải thực hiện. Các bước
tiến hành như sau:
Bước 1: Dùng thuật toán phân cụm trừ (theo mục 2.2)
hoặc thuật toán phân cụm trừ loại 2 khoảng (theo mục
3.2) để khởi tạo ma trận tâm cụm ban đầu (0) (0)
i j , d cV v V R
Thuật toán Tham
số m
Số cụm
dữ liệu
Tham số thiết
lập ban đầu
SC (theo
Chiu [1,2]) 2 7
0.5e ,
0.15e ,
a 0.25r và
1.5h
SC mở
rộng
1.1 1
1.3 2
1.5 3
1.8 4
1.9 6
2 7
2.1 8
2.2 9
2.5 13
3 18
5 100
772
Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011
VCCA-2011
Bước 2: Dùng thuật toán FCM (theo mục 2.3) để phân
cụm với ma trận tâm cụm được khởi tạo ở bước 1 và
đưa ra kết quả phân cụm là ( )jV và số bước lặp phải
thực hiện là j.
Bước 3: So sánh số bước lặp phải thực hiện và kết quả
phân cụm để đánh giá hiệu quả của các thuật toán
phân cụm trừ với nhau.
Kết quả là trong các thử nghiệm, giải thuật phân cụm
trừ loại hai khoảng cho kết quả phân cụm hiệu quả
hơn thuật toán phân cụm trừ loại một khi mà kết quả
phân cụm của nó áp dụng vào FCM làm FCM hội tụ
nhanh đến kết quả phân cụm với số cụm tốt hơn và số
bước lặp phải thực hiện cũng tốt hơn so với giải thuật
phân cụm trừ loại 1.
4.1 Thử nghiệm 1.
Trong thử nghiệm này, chúng tôi tiến hành phân đoạn
ảnh cho ảnh chụp chấn thương vùng lồng ngực (hình
5), ảnh gồm 2 vùng là xương và miền bị tổn thương.
H. 5 Các kết quả phân đoạn ảnh cho ảnh chụp chấn
thương lồng ngực qua SC và IT2-SC.
Các thử nghiệm tiến hành với các tham số khởi tạo
ban đầu lần lượt là 0.5 , 0.15 ,
a 0.25r và 1.5 . Hình 5.b mô tả kết quả phân
đoạn ảnh của SC và FCM (lúc này tham số mờ m = 2)
còn hình 5.c mô tả kết quả phân đoạn ảnh của IT2SC
với 2 tham số mờ lần lượt là m1 = 1.65 và m2=2.35.
Cả hai thử nghiệm này đều thu được kết quả là chia
ảnh thành ba vùng khá rõ ràng. Hình 5.d cho kết quả
tốt nhất với 2 vùng rõ ràng trong đó ta dễ quan sát
được vùng bị tổn thương.
Thuật
toán
0.5e 0.15e a 0.5r
1.25h Ghi chú
Tham
số mờ
FCM
(số lần lặp)
Số
cụm
SC m = 2 38 3
IT2SC
1 1.65m
2 2.35m
22 3
1 1.42m
2 2.58m
20 2 Kết quả
phân đoạn
ảnh tốt nhất
Bảng 2. So sánh kết quả giữa SC và IT2SC
Kết quả so sánh giữa hai thuật toán được thống kê
trong bảng 2 trên cho thấy thuật toán SC loại 2
khoảng cho các kết quả tốt hơn so với thuật toán SC.
4.2. Thử nghiệm 2
Trong thử nghiệm này, chúng tôi tiến hành phân đoạn
ảnh cho ảnh chụp máy bay gồm 2 vùng là nền trời và
đối tượng máy bay (hình 6). Các thử nghiệm tiến hành
với các tham số khởi tạo ban đầu lần lượt là 0.5e ,
0.15e , a 0.25r và 1.5h . Hình 6.b mô tả kết
quả phân đoạn ảnh của SC và FCM (lúc này tham số
mờ m = 2) còn hình 6.c mô tả kết quả phân đoạn ảnh
của IT2SC với 2 tham số mờ lần lượt là m1 = 1.7 và
m2 = 2.3. Cả hai thử nghiệm này đều thu được kết quả
là chia ảnh thành ba vùng khá rõ ràng. Hình 6.d cho
kết quả tốt nhất với 2 vùng rõ ràng.
H. 6 Các kết quả phân đoạn ảnh cho ảnh máy bay qua
SC và IT2-SC.
Kết quả so sánh 2 thuật toán được thể hiện trong bảng
3 sau đây:
Thuật
toán
0.5e 0.15e a 0.5r
1.25h Ghi chú
Tham
số mờ
FCM
(số lần lặp)
Số
cụm
SC m = 2 33 4
IT2SC
1 1.7m
2 2.3m
31 4
1 1.42m
2 2.58m
17 2 Kết quả
phân đoạn
ảnh tốt nhất
Bảng 3 So sánh kết quả giữa SC và IT2SC
5. Kết luận Bài báo đã trình bày một hướng tiếp cận mới về thuật
toán phân cụm trừ với tham số mờ m, có ảnh hưởng
lớn đến quá trình phân cụm. Từ tham số mờ m có thể
làm giảm sự không chắc chắn của thuật toán khi khởi
tạo các tham số ban đầu. Từ đó, chúng tôi đã mở rộng
thành thuật toán phân cụm trừ mờ loại hai khoảng
bằng cách sử dụng 2 giá trị khác nhau của tham số m.
Qua các thực nghiệm về phân đoạn ảnh đã cho thấy hiệu
quả của giải thuật phân cụm trừ loại hai khoảng của
chúng tôi đưa ra.
773
Hội nghị toàn quốc về Điều khiển và Tự động hoá - VCCA-2011
VCCA-2011
Trong các nghiên cứu tiếp theo, chúng tôi sẽ áp dụng
phương pháp này để tổng quát hóa các mô hình TSK
loại hai và loại hai khoảng thông qua việc xây dựng
các luật mờ loại hai và loại hai khoảng. Từ đó nâng
cao hiệu quả cho các mô hình mờ TSK đã được xây
dựng trước đây.
Tài liệu tham khảo [1] S. L. Chiu, Fuzzy Model Identification Based on
Cluster Estimation,Journal on Intelligent Fuzzy
Systems, vol. 2, pp.267-278, 1994.
[2] S. L. Chiu, Extracting Fuzzy Rules from Data
for Function Approximation and Pattern
Classification, Fuzzy Information Engineering:
a Guide Tour of Applications, pp.149-162.
Wiley, New York, 1997.
[3] Demirli, K., S. X. Cheng, P. Muthukumaran,
Subtractive Clustering Based Modeling of Job
Sequencing with Parametric Search, Fuzzy Sets
and Systems. 137: 235-270, 2003.
[4] J.Y. Chen, Zheng Qin, Ji Jia, A Weighted Mean
Subtractive Clustering Algorithm, Information
Technology Journal, 7(2): 356-360, 2008.
[5] Kim, DW., K.Y. Lee and K.H. Lee, A Kernel
Based Subtractive Clustering Method, Pattern
Recog. Lett., 26(7):879-891, 2005.
[6] J. M. Mendel, Uncertain Rule-Based Fuzzy
logic Systems, Introduction on New Directions,
prentice hall PTR, upper saddle river, NJ, 2001.
[7] J. Mendel and R. John, Type-2 fuzzy set made
simple, IEEE Trans. On Fuzzy Systems, vol.
10(2), pp. 117-127, 2002.
[8] N. Karnik and J.M. Mendel, Operations on
Type-2 Fuzzy Sets, Fuzzy Sets and Systems, Vol
122, pp.327-348, 2001.
[9] N. Karnik, J.M. Mendel, Centroid of a Type-2
Fuzzy Set, Information Sci.,132,195-220, 2001.
[10] Liang Q. and J.M. Mendel, Interval Type-2
Fuzzy Logic Systems: Theory and Design, IEEE
Trans. on Fuzzy Systems, 8(5), 535-550, 2000.
[11] J.M. Mendel , John R. I., Feilong Liu, Interval
Type-2 Fuzzy Logic Systems Made Simple, IEEE
Trans. on Fuzzy Systems, 14(6), 808-821, 2006.
[12] J. M. Mendel, F. Liu, D. Zhai, alpha-Plane
Representation for Type-2 Fuzzy Sets: Theory
and Applications, IEEE Trans. on Fuzzy
Systems, Vol 17(5), pp. 1189-1207, 2009.
[13] F. Rhee and C.Hwang , A type-2 fuzzy C-means
clustering algorithm, in Proc. Joint Conf.
IFSA/NAFIPS, pp. 1919-1926, Jul. 2001.
[14] Cheul Hwang and Frank Chung-Hoon Rhee,
Uncertain Fuzzy clustering: Intervel Type-2
Fuzzy Approach to C-means, IEEE Transactions
on Fuzzy Systems, Vol. 15, pp 107-120, 2007.
[15] M.H. Fazel Zarandi, M. Zarinbal1, I.B. Turksen,
Type_II Fuzzy Possibilistic C - Mean
Clustering, IFSA-EUSFLAT, 2009.
[16] C. Hwang and F.C. Rhee, An interval type-2
Fuzzy C-Spherical Shells algorithm. IEEE
International Conference on Fuzzy Systems,
2:1117-1122, 2004.
[17] W.B. Zhang and W.J. Liu, IFCM: Fuzzy
Clustering for Rule Extraction of Interval Type-
2 Fuzzy Logic System, Proceedings of 46th IEEE
Conference on Decision and Control, 5318-
5322, 2007.
[18] Wen-Yuan Liu; Chun-Jing Xiao; Bao-
WenWang; Yan Shi; Shu-Fen Fang, Study on
combining subtractive clustering with fuzzy c-
means clustering, International Conference,
Page(s): 2659 - 2662 Vol.5, 2003.
[19] H.Y. Shen, X.Q. Peng, J.N. Wang, Z.K. Hu, A
Mountain Clustering Based on Improved PSO
Algorithm, First International Conference of
Advances in Natural Computation[C],
Changsha, China, 2005: 477-481.
[20] H.Y. Shen, X.Q. Peng, J.N. Wang, Quick
mountain clustering based on improved PSO
algorithm, J. of Systems Engineering,22(3):333-
336, 2006.
[21] M. S. Yang, K. L. Wu, A modified mountain
clustering algorithm, Pattern Analysis and
Applications, 26(8):125-138, 2005.
[22] 23. K. Demirli and P. Muthukumaran, Higher
Order Fuzzy System identification Using
Subtractive Clustering, Journal of Intelligent
and Fuzzy Systems, vol 9, pp. 129-158, 2000.
[23] K. Demirli, S. X. Cheng and P. Muthukumaran,
Subtractive Clustering Based on Modeling of
Job Sequencing with Parametric Search, Fuzzy
Sets and Systems, vol. 37, pp. 235-270, 2003.
[24] J. Bezdek, Pattern Recognition with Fuzzy
Objective Function Algorithms, New York:
Plenum, 1981.
[25] T. Kanungo, D. M. Mount, N. S. Netanyahu, C.
D. Piatko, R. Silverman, A. Y. Wu, An Efficient
k-Means Clustering Algorithm: Analysis and
Implementation, IEEE Trans. On Pattern
Analysis and Machine Intelligence,24(7), 881-
893, 2002.
Ngô Thành Long tốt nghiệp đại
học năm 1999, cao học năm 2003
ngành Công nghệ thông tin và
Tiến sĩ năm 2010 ngành Đảm bảo
toán học cho máy tính & hệ thống
tính toán, tại Học viện Kỹ thuật
Quân sự.
Hiện công tác tại Bộ môn Hệ
thống thông tin, Khoa Công nghệ
thông tin, Học viện Kỹ thuật Quân sự. Lĩnh vực
nghiên cứu: Logic mờ và hệ thống thông minh,
robotics, xử lý ảnh, mô phỏng và thực tại ảo.
Phạm Huy Bình sinh năm 1982. Anh nhận bằng kỹ
sư tin học của Học viện Kỹ thuật Quân sự năm 2006,
Từ năm 2006 đến 2010 là giáo viên trường Học viện
Hậu cần. Hiện anh đang là học viên nghiên cứu tại
Khoa Công nghệ thông tin, Học viện KTQS. Hướng
nghiên cứu là Fuzzy Logic, Neural Network.
774