Một phương pháp thiết kế hệ phân lớp mờ dựa trên việc mở rộng lượng hóa đại số gia tử - Mot phuong phap thiet ke he phan lop mo dua tren viec mo rong luong hoa dai so gia tu

Tóm tắt Một phương pháp thiết kế hệ phân lớp mờ dựa trên việc mở rộng lượng hóa đại số gia tử: ... i ≤ pj}, gia tử h0. Trong nghiên cứu này chỉ sử dụng một gia tử âm và một gia tử dương nên pj = qj = 1. • Các ràng buộc của các tham số mờ để duy trì sự phù hợp ngữ nghĩa của các hạng từ aj ≤ fmj(c−) ≤ a′j , bj ≤ fmj(W ) ≤ b′j , fmj(c−) + fmj(W ) + fmj(c+) = 1, ej ≤ µ(hj,i) ≤ e′j , Σhj,i∈Hjµ(hj...khai phá dữ liệu để trích rút luật mờ. Theo đó, mọi kết hợp có thể có giữa các tập mờ của các thuộc tính đều có thể là tiền đề của một luật mờ vì có thể có những mẫu trong D hỗ trợ cho chúng và, do đó, số luật cần xem xét để xây dựng tập luật khởi sinh là hàm mũ của số thuộc tính. Với ĐSGT mở rộ...ục tiêu thiết kế các từ ngôn ngữ tối ưu cho bài toán phân lớp P được đặt ra là [11] với V(Π,D,N0) là thủ thục xây dựng hệ luật khởi sinh và với các ràng buộc về các tham số ngữ nghĩa đã được nêu ở trên. Khi đó, mục tiêu của bài toán đặt ra là tối đa hóa hiệu quả phân lớp và tối thiểu hóa độ dài t...
13 trang | Chia sẻ: havih72 | Lượt xem: 505 | Lượt tải: 0Free
Nội dung tài liệu Một phương pháp thiết kế hệ phân lớp mờ dựa trên việc mở rộng lượng hóa đại số gia tử, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
c tính.
Với ĐSGT mở rộng, việc phân hoạch mờ trên mỗi miền thuộc tính j dựa trên các khoảng
tính mờ mức kj của các từ trong Xj,(kj), tức là các khoảng rõ. Các phân hoạch này sinh ra
một phân hoạch rõ Xj , (kj) của không gian n chiều của D. Các tập củaHS là các siêu hộp có
dạng =k1(x1,i1)×=k2(x2,i2)× ...×=kn(xn,in), với =kj (xj,ij ) là khoảng tính mờ mức kj của từ
xj,ij ∈ Xj,(kj), ij = 1, ..., |Xj,(kj)|. Khi đó, mỗi mẫu pi ∈ D xác định duy nhất một siêu hộp
HBi ∈ HS chứa nó. Siêu hộp này xác định một luật ngôn ngữ cơ sở có dạng IF X1 is Aq,1
AND ... AND Xn is Aq,n THEN Cq, với Aq,j = xj,ij , j = 1, ..., n, và Cq là tên lớp của mẫu
pi. Trên quan điểm luật sinh ra từ dữ liệu, ta chỉ xem xét việc sinh các luật cơ sở từ những
siêu hộp có chứa mẫu dữ liệu. Do đó số luật cơ sở tối đa được sinh là N.
Từ tập luật cơ sở ta sinh ra các luật có độ dài ngắn hơn bằng cách bỏ đi một số điều kiện
tiền đề của luật có độ dài n. Khi đó số luật tối đa phải xem xét là m×∑lmaxl=1 C ln luật, trong
đó m là số mẫu dữ liệu, lmax là chiều dài tối đa của luật.
Đặt Π = ∪{Jj ∪ {kj}|j = 1, ..., n} và gọi chung các giá trị trong Π là các tham số ngữ
nghĩa. Với tham số đầu vào Π, ta sẽ thiết kế một thủ tục xây dựng một tập luật mờ, gọi là
332 PHẠM ĐÌNH PHONG, NGUYỄN CÁT HỒ, TRẦN THÁI SƠN, NGUYỄN THANH THỦY
tập khởi sinh, từ N0 mẫu dữ liệu (tập dữ liệu huấn luyện) lấy từ tập dữ liệu mẫu D của bài
toán P . Ký hiệu thủ tục này là V(Π,D,N0).
Thủ tục xây dựng tập luật khởi sinh bao gồm các bước sau:
Bước 1. Xây dựng tập các hạng từ, tập khoảng tính mờ, tập ánh xạ định lượng khoảng và các
tập mờ hình thang của các hạng từ đối với mọi thuộc tính của tập dữ liệu mẫu.
Mỗi thuộc tính j của tập dữ liệu mẫu được liên kết với một ĐSGT mở rộng AX j . Với các
từ nguyên thủy và tập các gia tử âm, gia tử dương và gia tử h0 được xác định trước, tạo sinh
các từ ngôn ngữ của AX j . Từ tập các giá trị cụ thể của các tham số ngữ nghĩa cho trong Π
và tập các hạng từ Xj,k mức k đã được sinh ra, tính các khoảng tính mờ =k(xj,i) mức k với
xj,i ∈ Xj,k đối với mọi k ≤ kj . Tính các giá trị ánh xạ định lượng khoảng f(xj,i) và xây dựng
các tập mờ hình thang ứng với các hạng từ trong Xj,(kj).
Bước 2. Chọn lọc các luật khởi sinh từ các mẫu dữ liệu.
Khi các hạng từ tích hợp với các tập mờ được xác định, nhiệm vụ tiếp theo là sinh tất cả
các luật ngôn ngữ mờ trực tiếp từ N0 mẫu dữ liệu củaD. Mỗi mẫu dữ liệu pl = (dl, Cl), dl ∈D
sinh ra một luật mờ bởi các khoảng tính mờ =kj(xj,i) mức kj của Xj,(kj) như sau:
Vì các khoảng tính mờ =kj (xj,i) mức kj của Xj,(kj) tạo thành một phân hoạch nhị phân
của không gian được chuẩn hóa của thuộc tính thứ j là [0, 1] nên chỉ có duy nhất một khoảng
tính mờ =kj (xj,i(j)) ứng với hạng từ xj,i(j) mức kj chứa thành phần dữ liệu dj,l với j = 1, ..., n
của dl. Tập các khoảng tính mờ chứa thành phần dữ liệu dj,l xác định một khối hộp Hl chứa
mẫu dữ liệu dl. Khối hộp Hl cùng với lớp kết luận Cl của pl xác định luật mờ cơ sở độ dài n
có dạng sau:
IF X1 is x1,i(1) AND ... AND Xn is xn,i(n) THEN Cl (Rb)
Để cho gọn, luật trên được kí hiệu là Al ⇒ Cl, trong đó Al = (Al,1, ..., Al,n) với Al,j =
“Xj is xj,i(j)”, j = 1, ..., n. Từ các luật cơ sở có độ dài n, các luật ứng viên có độ dài nhỏ hơn
n được xây dựng bằng cách bỏ đi một số điều kiện tiền đề Al,j của luật cơ sở và có được luật
dạng sau:
(Aq,j1 , ..., Aq,ji(q)) =⇒ Cq = Aq ⇒ Cq (Rcnd)
trong đó 1 ≤ j1 ≤ ... ≤ ji(q) ≤ n, còn phần kết luận của luật là lớp Cq được chọn từ các nhãn
lớp có độ tin cậy của luật Aq ⇒ Cq là lớn nhất, nghĩa là Cq được tính theo công thức sau
Cq = argmax{c(Aq ⇒ Ch)|h = 1, ...,M}, (3.3)
trong đó c(Aq ⇒ Ch) là độ tin cậy của luật Aq ⇒ Ch, tức là ta có [7, 8, 11]
c(Aq ⇒ Ch) =
∑
dp∈Ch
µAq(dp)
/ m∑
p=1
µAq(dp), (3.4)
với µAq(dp) là độ đốt cháy của mỗi mẫu dữ liệu dp đối với luật Rq, tức là được tính bằng biểu
thức toán tử nhân (product operator) sau
µAq(dp) = Π
i(q)
i=1µAq,ji ,j(dp,ji). (3.5)
Bước 3. Chọn lọc tập luật khởi sinh S0 từ tập luật ứng viên sử dụng một tiêu chuẩn sàng.
Sau Bước 2 ta thu được tập luật S0 và chỉ giữ lại NR0 luật từ tập luât này với NB0 là tham
số điều chỉnh. Tập luật S0 được phân nhóm thành M nhóm theo các nhãn lớp ở phần kết
luận của luật. Các luật được lựa chọn theo tiêu chuẩn sàng, tức là sắp xếp các luật giảm dần
MỘT PHƯƠNG PHÁP THIẾT KẾ HỆ PHÂN LỚP MỜ... 333
trong mỗi nhóm theo tiêu chuẩn sàng và chọn ra NB0 luật trong mỗi nhóm từ trên xuống
dưới. Tiêu chuẩn sàng được sử dụng phổ biến là tích (c.s) của độ tin cậy (c) và độ hỗ trợ (s).
Độ tin cậy được tính theo công thức (3.4), độ hỗ trợ được tính theo công thức sau [7, 8, 11]
s(Aq ⇒ Ch) =
∑
dp∈Ch
µAq(dp)/n. (3.6)
Như vậy, sau Bước 3 ta thu được hệ luật khởi sinh S0 có NR0 = NB0 ∗M luật. Trong
quá trình lập luận, các luật được gán một trọng số (rule weight). Theo [7, 8, 11], trọng số luật
được tính bằng công thức
CF (Aq ⇒ Cq) = cq − cq,2nd, (3.7)
trong đó, cq là độ tin cậy của luật Rq và cq,2nd là độ tin cậy lớn nhất của các luật có cùng
tiền đề điều kiện Aqnhưng kết luận là lớp khác với Cq
cq,2nd = max{c(Aq ⇒ Ch)|h = 1, ...,M ;Ch 6= Cq}.
So với thủ tục xây dựng tập luật khởi sinh trong [11], tại Bước 1 các ánh xạ định lượng
điểm truyền thống được thay thế bằng các ánh xạ định lượng khoảng, các tập mờ hình tam
giác được thay thế bằng các tập mờ thang. Tại Bước 2, các khoảng tính mờ mức kj được sử
dụng làm phân hoạch trên miền các thuộc tính thay cho các khoảng tương tự mức kj .
Độ phức tạp của thủ tục xây dựng các luật khởi sinh là đa thức đối với kích thước và số
thuộc tính của tập dữ liệu mẫu D như đã được chứng minh trong [11].
3.3. Tối ưu hóa tham số ngữ nghĩa của các hạng từ ngôn ngữ và tối ưu hóa hệ
luật
Kết quả của bất kỳ phương pháp tiếp cận theo hệ mờ dựa trên luật nào cũng phụ thuộc
vào các tham số mờ. Với phương pháp thiết kế HLPM dựa trên hệ luật mờ theo tiếp cận lý
thuyết tập mờ [6–9], các tác giả sử dụng các chiến lược tìm kiếm tối ưu các tham số mờ, cụ
thể là hiệu chỉnh các tham số của tập mờ dạng tam giác bằng giải thuật di truyền. Với phương
pháp thiết kế HLPM dạng luật theo tiếp cận ĐSGT [11], các tác giả đã phân tích sự phụ
thuộc của kết quả phân lớp của hệ luật vào các tham số mờ gia tử (tham số ngữ nghĩa) và
sử dung giải thuật di truyền lai SGA với việc đánh trọng số các hàm mục tiêu để hiệu chỉnh
các tham số này cho từng tập dữ liệu mẫu cụ thể. Sau khi có được bộ tham số mờ gần tối
ưu, tiến hành tạo sinh hệ luật khởi sinh làm đầu vào cho thủ tục tối ưu hóa hệ luật mờ do
các tiêu chuẩn sàng được áp dụng không cho kết quả tốt. Với phương pháp lượng hóa ĐSGT
mở rộng, bài báo sử dụng giải thuật tối ưu hóa bầy đàn đa mục tiêu PSO (Particle Swarm
Optimization) với hàm thích nghi chia sẻ [12], định hướng việc tìm kiếm các cá thể trong tối
ưu toàn cục (mặt Pareto hay Pareto front), để tìm kiếm tối ưu các tham số ngữ nghĩa và tối
ưu hóa hệ luật. Nhờ đó các mục tiêu tối ưu được chia sẻ bình đẳng thông qua hệ số chia sẻ và
kết quả là một tập các phương án.
Tập các tham số cần được hiệu chỉnh thích nghi đối với bài toán thiết hệ phân lớp mờ P
dựa trên phương pháp lượng hóa ĐSGT mở rộng là các tham số ngữ nghĩa trong P . Chúng
bao gồm các độ đo tính mờ fmj(c
−) của hạng từ sinh c− và của hằng fmj(W ); các độ đo
tính mờ của các gia tử của thuộc tính j và tham số kj nguyên dương hạn chế độ dài của các
từ ngôn ngữ được thiết kế của thuộc tính j. Có thể thấy so với phương pháp tối ưu hóa trong
334 PHẠM ĐÌNH PHONG, NGUYỄN CÁT HỒ, TRẦN THÁI SƠN, NGUYỄN THANH THỦY
[11], phương pháp được đề nghị ở đây có nhiều hơn hai tham số hiệu chỉnh thích nghi cho mỗi
thuộc tính j: tham số độ đo tính mờ của Wj và tham số độ đo tính mờ của gia tử hj,0.
Để hiệu chỉnh thích nghi các tham số ngữ nghĩa được nêu ở trên cho phù hợp với từng tập
dữ liệu mẫu, bài toán tiến hóa tối ưu hóa đa mục tiêu thiết kế các từ ngôn ngữ tối ưu cho bài
toán phân lớp P được đặt ra là [11] với V(Π,D,N0) là thủ thục xây dựng hệ luật khởi sinh
và với các ràng buộc về các tham số ngữ nghĩa đã được nêu ở trên. Khi đó, mục tiêu của bài
toán đặt ra là tối đa hóa hiệu quả phân lớp và tối thiểu hóa độ dài trung bình các luật của P .
Như đã được đề cập ở trên, giải thuật PSO được sử dụng để tìm kiếm giá trị tối ưu của
các tham số ngữ nghĩa cho bài toán phân lớp mờ cụ thể P với cơ sở luật S . Thủ tục tối ưu
hóa các tham số nghĩa được đặt tên là MPSO_SPO. Các mục tiêu của bài toán tối ưu hóa
là
maximize perf(S) và maximize avg(S)−1 với ràng buộc S ⊂ S0. (3.8)
trong đó perf(S) là tỷ lệ phân lớp đúng của hệ S trên tập mẫu huấn luyện, avg(S)−1 là
nghịch đảo của độ dài luật trung bình của hệ S . Số luật dùng để tối ưu hóa các tham số ngữ
nghĩa được cố định trước theo từng tập dữ liệu mẫu cụ thể nên không nằm trong các mục
tiêu cần tối ưu hóa.
Sau quá trình tối ưu hóa tham số các tham số ngữ nghĩa bằng giải thuật MPSO_SPO
ta thu được các tham số gần tối ưu Πopt. Sử dụng thủ tục xây dựng luật khởi sinh để sinh
tập luật khởi sinh S0 với N R0 luật sử dụng các tham số Πopt. Có thể sử dụng các tiêu chuẩn
sàng để lựa chọn một tập luật cho HPLM dạng luật từ tập luật S0. Tuy nhiên, việc sử dụng
các tiêu chuẩn sàng có thể cho tập luật không đạt được các mục tiêu (3.8) tốt. Bài toán đặt
ra là phải chọn ra một tập luật con của S0 cho HPLM sao cho đạt các mục tiêu sau
maximize perf(S), maximize NR(S)−1 và maximize avg(S)−1 với ràng buộc
S ⊂ S0, NR(S) ≤ Nmax. (3.9)
trong đó NR(S)−1 là nghịch đảo của số luật trung bình và Nmax là số luật chọn tối đa và
được cho trước. Ta gọi bài toán này là bài toán tối ưu hóa hệ luật. Tiếp tục sử dụng giải thuật
tiến hóa đa mục tiêu PSO cho bài toán tối ưu hóa hệ luật với ba hàm mục tiêu cụ thể trong
(3.9). Thủ tục tối ưu hóa hệ luật được đặt tên là MPSO_RBO.
Để lựa chọn các tập luật con từ S0 cho việc sinh các cá thể cho giải thuật MPSO_RBO,
phương pháp mã hóa số thực được sử dụng. Mỗi cá thể ứng với mỗi lời giải là một tập luật
S được chọn từ S0 và được biểu diễn bởi một chuỗi số thực ri = (p1, ..., pNmax), pj ∈ [0, 1].
Giá trị pj xác định chỉ số của luật trong S0 được chọn cho S có giá trị là pj × |S0|, ta có
0 ≤ pj × |S0| < |S0|.
S = {Ri ∈ S0|i = bpj × |S0|c, i ≥ 0} (3.10)
trong đó b•c là phép lấy phần nguyên.
Do giải thuật tối ưu hóa hệ luật cho một tập dữ liệu mẫu cụ thể có áp dụng phương pháp
tìm kiếm tối ưu Pareto nên cho kết quả là một tập các phương án. Từ tập các phương án tìm
được ta chọn ra một phương án với tập luật cho kết quả phân lớp trên tập huấn luyện cao
nhất. Nếu có nhiều phương án giống nhau thì chọn ngẫu nhiên một phương án.
4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ
Mục này trình bày các kết quả thực nghiệm của hệ phân lớp đối với một số tập dữ liệu mẫu
chuẩn được cung cấp bởi KEEL-Dataset repository (
MỘT PHƯƠNG PHÁP THIẾT KẾ HỆ PHÂN LỚP MỜ... 335
Mỗi tập dữ liệu mẫu được chia thành 10 phần bằng nhau sẵn có từ liên kết trên. Tiến hành
lấy lần lượt từng phần để kiểm tra (tập kiểm tra), toàn bộ 9 phần còn lại được dùng để sinh
luật (tập huấn luyện). Mỗi tập dữ liệu mẫu được chạy thử nghiệm 3 lần 10-folds theo cách
như trên, ta có kết quả của 30 lần chạy. Kết quả cuối cùng của các lần thử nghiệm sau khi
tối ưu hóa hệ luật được tính trung bình đối với số luật #R, độ phức tạp của hệ luật #C, tỷ
lệ phân lớp đúng trên tập huấn luyện Ptr và trên tập kiểm tra Pte. Độ phức tạp của hệ luật
được tính theo công thức #C = #R×Avg, trong đó Avg là độ dài trung bình của hệ luật.
Trong bài toán thực nghiệm, số gia tử âm và gia tử dương đều được lấy là 1. Giả sử gia
tử âm là L và gia tử dương là V. Các ràng buộc của các tham số ngữ nghĩa bao gồm: giới hạn
độ dài của các hạng từ kj ≤ 3; 0, 2 ≤ fmj(c−) ≤ 0, 7; 0, 0001 ≤ fmj(W ) ≤ 0, 2; fmj(c−) +
fmj(W ) + fmj(c
+) = 1; 0, 2 ≤ µj(L) ≤ 0, 7; 0, 0001 ≤ µj(h0) ≤ 0, 5. Giá trị của các tham số
này được chọn là kết quả của nhiều lần thực nghiệm với các giá trị khác nhau của các tham
số đối với một số tập dữ liệu mẫu trên cơ sở đánh giá sự cân bằng giữa hiệu quả phân lớp và
sự cân đối giữa miền giá trị của fmj(c
−) và fmj(c+).
Các tham số cho thuật toán MPSO_SPO gồm: số thế hệ tối đa: 250; số cá thể mỗi thế
hệ: 600; Hệ số Inertia: 0,4; hệ số nhận thức cá nhân 0,2; hệ nhận thức xã hội: 0,2; Số luật khởi
sinh bằng số thuộc tính; giới hạn độ dài của luật là 1; Thực hiện toán tử đột biến khi tỷ lệ di
chuyển của các cá thể nhỏ hơn 70%.
Các tham số cho thuật toán MPSO_RBO như sau: Số thế hệ tối đa: 1000; số cá thể
mỗi thế hệ: 600; Hệ số Inertia: 0,4; hệ số nhận thức cá nhân 0,1; hệ số nhận thức xã hội: 0,1;
Thực hiện toán tử đột biến khi tỷ lệ di chuyển của các cá thể nhỏ hơn 70%; Hệ số chia sẻ các
hàm thích nghi được tính tự động; Số luật khởi đầu |S0| = 300× số lớp; giới hạn độ dài của
luật đối với tập dữ liệu mẫu có số thuộc tính lớn hơn 30 là 2, ngược lại là 3.
Phương pháp lập luận được sử dụng là Single Winner Rule [8].
Kết quả chạy thực nghiệm của phương pháp được đề xuất và so sánh với kết quả của
phương pháp lượng hóa truyền thống [11] được thể hiện trong Bảng 1.
Bảng 1. Kết quả chạy 3×10− folds trên 10 tập mẫu được thử nghiệm
Tập dữ liệu mẫu Lượng hóa sử dụng ngữ nghĩa 
hình thang 
Lượng hóa sử dụng ngữ nghĩa 
tam giác 
So sánh 
  
Tên #R #R×#
C 
Ptr Pte #R #R×
#C 
Ptr Pte ≠Pte ≠#R×#
C 

Bands 7,00 78,17 76,28 72,10 6,00 83,40 75,57 70,63 1,47 -5,23 

Bupa 8,97 170,65 77,54 69,41 8,97 196,37 77,40 67,71 1,7 -25,72 

Dermatology 10,87 189,45 96,88 95,52 10,93 194,61 98,82 95,52 0 -5,16 

Haberman 4,00 20,00 77,67 77,43 3,00 13,30 76,78 75,11 2,32 6,7 

Pima 5,97 50,32 78,53 76,66 5,00 51,17 79,03 75,70 0,96 -0,85 

Sonar 5.97 53,89 86,84 77,29 7,00 84,00 88,59 76,73 0,56 -30.11 

Vehicle 11,03 216,26 71,64 68,12 11,93 324,98 70,59 67,46 0,66 -108,72 
Wdbc 4,97 41,56 97,40 95,85 4,97 45,86 96,51 94,90 0,95 -4,3 
Wine 5,87 42,06 100,0 98,52 5,73 65,17 99,79 98,30 0,22 -23,11 
Wisconsin 6,93 57,55 96,74 96,45 5,97 67,42 98,38 96,72 -0,27 -9,87 
+ - 
Trong Bảng 1, cột gộp “So sánh” gồm cột “ 6= Pte” thể hiện phần trăm tăng hiệu quả phân
lớp của phương pháp được đề xuất so với phương pháp lượng hóa truyền thống đối với từng
tập dữ liệu mẫu, cột “ 6= #R×#C” thể hiện sự chênh lệch độ phức tạp của hệ luật. Kết quả
cho thấy, phương pháp được đề xuất cho kết quả phân lớp cao hơn đối với hầu hết các tập
336 PHẠM ĐÌNH PHONG, NGUYỄN CÁT HỒ, TRẦN THÁI SƠN, NGUYỄN THANH THỦY
dữ liệu mẫu được thực nghiệm, đồng thời có độ phức tạp thấp hơn rất nhiều so với phương
pháp lượng hóa truyền thống [11]. Cụ thể, hiệu quả phân lớp tăng 8.57% và độ phức tạp của
hệ luật giảm 18,32%.
Bảng 2. So sánh hiệu suất phân lớp của HPLM sử dụng Wilcoxon với mức α = 0, 05  '       
 * ) +,')- .$)- /0"'"- +,''0"'
123&4567
&8"9'

 
 
	 

 :


	; 

Bảng 3. So sánh độ phức tạp của hệ luật sử dụng Wilcoxon với mức α = 0, 05
          	 
    
         
    
        ﬀ       	  ﬁ   
     	      ﬀ    
ﬂ ﬃ   ! "   # ﬀ $   %
 ! & ' ( ' ) * + , - . / 0 / . 0 / / 0 / 1 2 . 3 4 / 0 / 1 2 / . 2 5
. 6 0 7 8 . 0
3 0 / / . 9 / 0 2 . 1 1 8
Thực hiện phương pháp kiểm tra Wilcoxon Signed Rank [13, 14] sử dụng dữ liệu trong
Bảng 1 để so sánh kết quả của hai phương pháp. Các kết quả kiểm tra hiệu suất phân lớp
và độ phức tạp của hệ luật lần lượt được thể hiện trong Bảng 2 và Bảng 3. Với giá trị R− là
tổng các xếp hạng ứng với các hiệu quả phân lớp của phương pháp lượng hóa ĐSGT mở rộng
nhỏ hơn giá trị găng (critical value) ứng với số tập dữ liệu mẫu Nds = 10 và p = 0, 05 bằng
8 (có thể tham khảo trong bảng phân phối T Wilcoxon (bảng B.12 trong [14])) nên ta có thể
khẳng định rằng phương pháp thiết kế HPLM dạng luật với phương pháp lượng hóa ĐSGT
mở rộng không những cho hiệu quả tốt phân lớp hơn mà còn có độ phức tạp của hệ luật thu
được giảm đáng kể so với phương pháp lượng hóa ĐSGT truyền thống.
5. KẾT LUẬN
Bài báo đề xuất và phát triển phương pháp thiết kế HPLM dạng luật dựa trên ĐSGT mở
rộng được đề xuất trong [10] và tiến hành nghiên cứu thử nghiệm phương pháp thiết kế đối
với một số tập dữ liệu mẫu chuẩn được cung cấp bởi KEEL-Dataset repository. Phương pháp
lượng hóa ĐSGT mở rộng cho phép xây dựng các phân hoạch trên miền các thuộc tính dựa
trên chính các khoảng tính mờ mức k và cho phép định lượng ngữ nghĩa lõi của các từ ngôn
ngữ dưới dạng khoảng. Đây chính là cơ sở cho phép xây dựng các tập mờ hình thang với đáy
nhỏ là giá trị định lượng khoảng của các từ ngôn ngữ. So với tập mờ hình tam giác thì tập
mờ hình thang có miền tin cậy rộng hơn và hai cạnh bên có độ dốc lớn hơn nên cho tỷ lệ mất
mát thông tin ít hơn. Kết quả thử nghiệm trên 10 tập dữ liệu mẫu cho hiệu quả phân lớp của
HPLM được đề xuất cao hơn với độ phức tạp nhỏ hơn so với HPLM sử dụng phương pháp
lượng hóa truyền thống. Điều đó chứng tỏ rằng phương pháp được đề xuất không chỉ có một
cơ sở lí thuyết chặt chẽ mà còn hứa hẹn tạo ra một khả năng ứng dụng tiềm năng.
TÀI LIỆU THAM KHẢO
[1] N. C. Ho and N. V. Long, Fuzziness measure on complete hedges algebras and quantifying
semantics of terms in linear hedge algebras, Fuzzy Sets and Systems 158 (2007) 452–471.
[2] Nguyen Cat Ho, Tran Thai Son, Tran Dinh Khang, Le Xuan Viet, Fuzziness measure, quantified
semantic mapping and interpolative method of approximate reasoning in medical expert systems,
Journal of Computer Science and Cybernetics 18 (3) (2002) 237–252.
MỘT PHƯƠNG PHÁP THIẾT KẾ HỆ PHÂN LỚP MỜ... 337
[3] Nguyễn Cát Hồ, Trần Thái Sơn, Dương Thăng Long, Tiếp cận đại số gia tử cho phân lớp mờ,
Tạp chí Tin học và Điều khiển học 25 (1) 2009 53–68.
[4] Dương Thăng Long, Một phương pháp xây dựng hệ luật mờ có trọng số để phân lớp dựa trên
đại số gia tử, Tạp chí Tin học và Điều khiển học 26 (1) (2010) 55–72.
[5] A. Fernandez, M. Calderón, E. Barrenechea, H. Bustince F. Herrera, Enhancing fuzzy rule
based systems in multi-classification using pairwise coupling with preference relations, EU-
ROFUSE09 Workshop on Preference Modelling and Decision Analysis Pamplona, Spain,
September 16-18, 2009 (39–46).
[6] Chen Ji-lin, Hou Yuan-long, Xing Zong-y, Jia Li-min, Tong Zhong-zhi, A multi-objective genetic-
based method for design fuzzy classification systems, IJCSNS International Journal of Com-
puter Science and Network Security 6 (8A) (August 2006) 110–118.
[7] H. Ishibuchi and T. Yamamoto, Rule weight specification in fuzzy rule-based classification sys-
tems, IEEE Trans. on Fuzzy Systems 13 (4) (2005) 428–435.
[8] H. Ishibuchi, T. Yamamoto, Fuzzy rule selection by multi-objective genetic local search algo-
rithms and rule evaluation measures in data mining, Fuzzy Sets and Systems 141 (1) (2004)
59–88.
[9] Rafael Alcalá, Yusuke Nojima, Francisco Herrera, Hisao Ishibuchi, Multi-objective genetic fuzzy
rule selection of single granularity-based fuzzy classication rules and its interaction with the
lateral tuning of membership functions, Journal Soft Computing 15 (12) (December 2011)
2303–2318.
[10] Nguyễn Cát Hồ, Trần Thái Sơn, Phạm Đình Phong, Định lượng ngữ nghĩa khoảng của Đại số
gia tử với việc bổ sung một gia tử đặc biệt, Tạp chí Tin học và Điều khiển học 28 (4) (2012)
346–358.
[11] Cat Ho Nguyen, Witold Pedrycz, Thang Long Duong, Thai Son Tran, A genetic design of linguis-
tic terms for fuzzy rule based classifiers, International Journal of Approximate Reasoning,
Elsevier Science Inc 54 (1) (January 2013) 1–21.
[12] Maximino Salazar Lechuga, “Multi-Objective Optimisation using Sharing in Swarm Optimisation
Algorithms”, Doctor thesis, School of Computer Science, The University of Birmingham, 2006.
[13] Janez Demsar, Statistical comparisons of classifiers over multiple data sets, Journal of Machine
Learning Research 7 (2006) 1–30.
[14] J. Zar, Biostatistical Analysis, Prentice-Hall, Upper Saddle River, NJ, 1999.
Ngày nhận bài 21 - 3 - 2013
Nhận lại sau sửa ngày 27 - 11 - 2013
File đính kèm:
mot_phuong_phap_thiet_ke_he_phan_lop_mo_dua_tren_viec_mo_ron.pdf