Khai thác luật phân lớp kết hợp trên cơ sử dữ liệu phân tán - Khai thac luat phan lop ket hop tren co su du lieu phan tan

Tóm tắt Khai thác luật phân lớp kết hợp trên cơ sử dữ liệu phân tán: ...ên cứu gần đây về song song hóa khai thác luật kết hợp và kiến trúc chia sẻ bộ nhớ, cũng như xu hướng, khó khăn, sự thay thế trong khai thác song song. Các phương pháp hầu hết đặt nền tản trên Apriori. Tang và Turkia [14] cũng đề xuất mô hình song song dựa trên FP-tree. Một trong những cách ti...ác song song luật kết hợp trên CSDL phân tán dọc cũng được đề xuất trong [1]. Các tác giả sử dụng IT-tree với đặt điểm chỉ cần quét CSDL một lần nhằm khai thác nhanh tập phổ biến. Các thuật toán kể trên được dùng trong việc phân tán dữ liệu để tính toán song song, chủ yếu là đề nghị giải phá...t nút 2× b2 23589(1, 4) : Đầu tiên tính Obidset(3×a1b2) = Obidset(1×a1)∩Obidset(2× b2) = 1279∩23589 = 29⇒ count = (1, 1) và pos = 1. Ta có count[pos] < minSupCount nên không tạo ra nút mới trên cây. - Xét nút 2× b3 467(3, 0) : Đầu tiên tínhObidset(3×a1b3) = Obidset(1×a1)∩Obidset(2×b3) = ...

14 trang | Chia sẻ: havih72 | Lượt xem: 568 | Lượt tải: 0Free

Nội dung tài liệu Khai thác luật phân lớp kết hợp trên cơ sử dữ liệu phân tán, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

trí làm cho khối lượng dữ liệu cần tính toán trên mỗi vị trí giảm đáng kể, dẫn
đến khả năng tăng tốc của các thuật toán. Một vấn đề lớn cần giải quyết trên các hệ thống khai thác
phân tán là thời gian truyền/nhận dữ liệu và kết quả khai thác. Đôi khi, thời gian này lớn hơn nhiều
so với thời gian khai thác khi ngưỡng độ hỗ trợ tối thiểu (minSup) lớn hay số lượng tập phổ biến thu
được ít. Để giảm chi phí truyền/nhận, các nghiên cứu thường tập trung khai thác tập phổ biến tối
đại. Số lượng tập phổ biến tối đại thường ít hơn nhiều so với số lượng tập phổ biến nên cách tiếp
cận này tỏ ra hiệu quả hơn việc tập trung dữ liệu để khai thác.
Mục tiêu của bài báo là nhằm khai thác luật phân lớp dựa vào khai thác luật kết hợp trên
CSDL đã được phân tán với đặc điểm chứa rất nhiều luật. Chính vì vậy, thời gian truyền/nhận kết
quả giữa các bên sẽ rất lớn nếu tiếp cận theo mô hình hiện tại được đề xuất cho khai thác tập phổ
biến/tập phổ biến tối đại.
3. Phân lớp dựa vào khai thác luật kết hợp trên cơ sở dữ liệu phân tán
3.1. Nêu bài toán
Một công ty có nhiều chi nhánh, mỗi chi nhánh sẽ có một CSDL riêng để quản lý các giao
dịch của chi nhánh mình. Do khối lượng giao dịch là rất lớn và việc truy vấn trên toàn bộ CSDL ít
xảy ra, vì vậy công ty quyết định lưu trữ dữ liệu độc lập ở mỗi chi nhánh. Vấn đề đặt ra là làm thế
nào để có thể khai thác các luật phân lớp dựa vào khai thác luật kết hợp trên toàn bộ CSDL của
công ty? Một cách tổng quát, bài toán có thể được phát biểu như sau: Giả sử công ty có một CSDL
là DB được lưu trữ trên k chi nhánh với các CSDL con là {DB1, DB2, , DBk} không giao nhau,
trong đó các DBi có cùng cấu trúc (nghĩa là chúng có cùng tập thuộc tính A1, A2, , An) và DB
không tồn tại dưới dạng logic. Bài toán đặt ra là: Cho trước hai ngưỡng minSup và minConf, hãy
khai thác tất cả các luật phân lớp kết hợp trên DB.
3.2. Giải quyết vấn đề
Một trong những cách làm đơn giản nhất là tập trung toàn bộ các CSDL lại tại máy cần khai
thác để khai thác luật. Cách làm này có ưu điểm là đơn giản, có thể tận dụng ác thuật toán k ai
thác luật hiện nay để giải quyết bài toán. Tuy nhiên, phương pháp này có n iều nhược điểm: Thứ
nhất, trong các CSDL lớn, việc tập trung CSDL lại sẽ tốn n iều không gia lưu trữ và thời gian
truyền/nhận dữ liệu. Thứ hai, nhiều giá trị có tần số xuấ hiện k ô g thỏa ngưỡ cũng sẽ được
truyền/nhận giữa các vị trí nên rất tốn thời gian. Cuối ùng, phương pháp này không tận dụng được
khả năng tính toán của các bên tham gia (các vị trí).
Cách thứ hai là chỉnh sửa các thuật toán khai thác song song và phân tán sử dụng trong khai
thác tập phổ biến cho khai thác luật phân lớp kết hợp. Muốn vậy, cần có hai yếu tố chính như sau:
1) Một hệ thống máy tính hiệu năng cao; 2) Cần có
phương pháp giảm số lượng luật để giảm thời gian
truyền/nhận kết quả. Cách này có ưu điểm là xử lý
nhanh do được thực thi trên hệ thống máy chuyên
nghiệp, các vị trí có thể xử lý độc lập và tổng hợp kết
quả. Nhược điểm của phương pháp này là: 1) Công ty
phải tốn chi phí đầu tư máy móc thiết bị và 2) Khó
sinh luật do việc sinh luật phải được thực hiện khi đã
có đầy đủ các thông tin về các itemset ở tất cả các vị
trí, việc rút gọn luật ở từng vị trí cũng khó khăn do
muốn rút gọn luật dư thừa phải xem xét trên tập luật
Hình 3. Mô hình mạng ngang hàng
Hình 3: Mô hình mạng ngang hàng
Một cách tiếp cận khả quan và đơn giản ơn
là sử dụng mô hình mạng ngang hàng, bất kỳ
m y nào có nhu cầu khai thác cũng có thể thực
hiện được. Hình 3 mô tả mô hình khai thác
luật phân lớp kết hợp dựa trên ạng ngang
hàng. Mỗi máy (vị trí) có một CSDL cục bộ
và giao tiếp với nhau theo giao thức TCP/IP,
nghĩa là việc truyền nhận dữ liệu trên mạng cục
bộ/internet thông qua chuẩn của giao thức này
(chẳng hạn như FTP). Với mô hình như trên,
người quản trị có thể thiết lập mối quan hệ
giữa các bên tham gia. Chẳng hạn: Vị trí 1
(VT1) có mối quan hệ với tất cả các vị trí còn
lại, nghĩa là nó có thể khai thác trên toàn bộ
CSDL của công ty. Tuy nhiên, vị trí 2 chỉ có
mối quan hệ với các vị trí 1, 3, 5 nên nó chỉ có
thể khai thác trên tập dữ liệu của các vị trí 1,
2, 3, và 5.
3.3. Thuật toán đề nghị
Dựa vào mô hình trên, một thuật toán khai thác luật phân lớp kết hợp được đề nghị
trong phần này. Không mất tính tổng quát, giả sử vị trí i là máy cần khai thác, vị trí
này có quan hệ với các vị trí {i1, i2, . . . , im} (i 6= ij). Vị trí i muốn khai thác trên DB =
DBi ∪DBi1 ∪DBi2 ∪ . . . ∪DBim.
196 NGUYỄN THỊ THÚY LOAN, ĐỖ TRUNG TUẤN, NGUYỄN HỮU NGỰ
Đầu vào của thuật toán là {DBi, DBi1, DBi2, . . . , DBim}, minSup và minConf . Đầu ra
là tập các luật phân lớp kết hợp chứa trong DB thỏa minSup và minConf .
Các bước thực hiện của thuật toán như sau:
Bước 1 Vị trí i gửi minSup cho các vị trí có quan hệ và chờ phản hồi.
Bước 2 Các vị trí có quan hệ với vị trí i đọc CSDL của mình và gửi các giá trị có
độ hỗ trợ lớn hơn hay bằng minSup cho vị trí i.
Bước 3 Vị trí i tổng hợp kết quả gửi lại cho các vị trí có quan hệ.
Bước 4 Các vị trí có quan hệ với vị trí i gửi các thông tin về cho vị trí i để tổng
hợp kết quả.
Bước 5 Vị trí i tiến hành khai thác (sử dụng thuật toán CAR-Miner được trình
bày trong phần 2).
Hình 4: Thuật toán khai thác CARs trên CSDL phân tán
Ví dụ minh họa: Giả sử có hai CSDL được lưu ở hai vị trí là VT1 và VT2, vị trí 1 gồm 6
mẫu, vị trí 2 gồm 3 mẫu như trong bảng 2 và bảng 3 bên dưới.
OID A B C class
1 a1 b1 c1 y
2 a1 b2 c1 n
3 a2 b2 c1 n
4 a3 b3 c1 y
5 a3 b2 c2 n
6 a3 b3 c1 y
Bảng 2: CSDL của VT1
OID A B C class
7 a1 b3 c2 y
8 a3 b2 c2 n
9 a1 b2 c2 y
Bảng 3: CSDL của VT2
Giả sử V T2 muốn khai thác với
minSup = 20% và minConf = 60%,
ta có quá trình khai thác như sau. Bước
1: VT2 gửi minSup cho các V T có liên
hệ (trường hợp này chỉ có V T1). Bước 2:
V T1 tính minSupCount1 = 20% ×6 =
1.2. Như vậy, nó sẽ gửi các giá trị có số
lần xuất hiện ≥ 2 cho VT2, trong trường
hợp này sẽ là {A : a1, a3;B : b2, b3;C :
c1}. Tương tự, V T2 (minSupCount2 = 1)
cũng sẽ có kết quả là {A : a1, a3;B :
b2, b3;C : c2}. Bước 3: V T2 tổng hợp kết
quả {A : a1, a3;B : b2, b3;C : c1, c2}, sau
đó gửi {a1, a3; b2, b3; c1, c2} cho các vị trí
liên quan (V T1). Bước 4: VT1 sẽ gửi về
VT2 các thông tin {12, 456; 235, 46; 12346, 5}
đồng thời gửi {y, n, n, y, n, y} (nhãn của các
ID trong CSDL của V T1). Bên V T2 cũng sẽ
đọc các thông tin liên quan và kết quả sẽ là {79, 8; 89, 7; ∅, 789} và {y, n, y}. V T2 tổng hợp
kết quả thành các nút của mức 1 trên cây như Hình 5.
{}
1×a1
1279(3,1)
1×a3
4568(2,2)
2×b2
23589(1,4)
2×b3
467(3,1)
4×c1
12346(3,2)
4×c2
5789(2,2)
Hình 5: Mức 1 của cây MECR-tree
MINING CLASS ASSOCIATION RULES IN DISTRIBUTED DATASETS 197
Bước 5: Sử dụng thuật toán CAR-Miner để khai thác với minSupCount = 2, ta có kết quả
được trình bày trong Hình 6.
{}
1×a1
1279(3,1)
1×a3
4568(2,2)
2×b2
23589(1,4)
2×b3
467(3,1)
4×c1
12346(3,2)
4×c2
5789(2,2)
3×a1c2
79(2,0)
3×a3b2
58(0,2)
3×a3b3
46(2,0)
5×a3c1
46(2,0)
5×a3c2
58(0,2)
6×b2c1
23(0,2)
6×b2c2
589(1,2)
6×b3c1
46(2,0)
7×a3b2c2
58(0,2)
7×a3b3c1
46(0,2)
Hình 6: Cây MECR-tree minh họa quá trình khai thác luật
Hình 6 minh họa quá trình khai thác CARs dựa trên MECR-tree từ các itemset có được của
V T1 và V T2. Đầu tiên, mức 1 của cây chứa các item đơn phổ biến (nghĩa là chứa các item có
count[pos] ≥ 2) gồm
{
1× a1 1× a3 2× b2 2× b3 4× c1 4× c2
1279(3, 1) 4568(2, 2) 23589(1, 4) 467(3, 0) 12346(3, 2) 5789(2, 2)
}
.
Sau đó thủ tục CAR-Miner được gọi với tham số đầu vào là Lr chứa 6 nút trên. Xét nút
1× a1
1279(3, 1)
:
- Xét nút
1× a3
4568(2, 2)
: Do chúng có tập thuộc tính bằng nhau nên theo mệnh đề 1, hai
nút này không cần kết.
- Xét nút
2× b2
23589(1, 4)
: Đầu tiên tính Obidset(3×a1b2) = Obidset(1×a1)∩Obidset(2×
b2) = 1279∩23589 = 29⇒ count = (1, 1) và pos = 1. Ta có count[pos] < minSupCount nên
không tạo ra nút mới trên cây.
- Xét nút
2× b3
467(3, 0)
: Đầu tiên tínhObidset(3×a1b3) = Obidset(1×a1)∩Obidset(2×b3) =
1279 ∩ 467 = 7 ⇒ count = (1, 0) và pos = 1. Ta có count[pos] < minSupCount nên không
tạo ra nút mới trên cây.
- Xét nút
4× c1
12346(3, 2)
: Đầu tiên tính Obidset(5×a1c1) = Obidset(1×a1)∩Obidset(4×
c1) = 1279∩12346 = 12⇒ count = (1, 1) và pos = 1. Ta có count[pos] < minSupCount nên
không tạo ra nút mới trên cây.
- Xét nút
4× c2
5789(2, 2)
: Đầu tiên tính Obidset(5× a1c2) = Obidset(1× a1) ∩Obidset(4×
c2) = 1279 ∩ 5789 = 79 ⇒ count = (2, 0) và pos = 1. Do count[pos] ≥ minSupCount nên
nút này được thêm vào cây là một nút con của nút
1× a1
1279(3, 1)
.
Tương tự cho các nút còn lại của cây.
198 NGUYỄN THỊ THÚY LOAN, ĐỖ TRUNG TUẤN, NGUYỄN HỮU NGỰ
3.4. Phân tích độ phức tạp thuật toán
Phương pháp trong bài báo này sử dụng CAR-Miner để khai thác luật phân lớp kết hợp
nên độ phức tạp của thuật toán phụ thuộc nhiều vào CAR-Miner. Theo [4], độ phức tạp của
CAR-Miner được tính theo công thức sau:
TS = KS ×m+ a
Trong đó TS là tổng thời gian khai thác của CAR-Miner, KS là số lần lặp của thuật toán, m
là thời gian để sinh một nút trên cây và a là thời gian để truy cập dữ liệu.
Cách tiếp cận trong bài báo này chủ yếu quan tân đến thời gian truy cập dữ liệu a. Trong
các hệ thống phân tán, thời gian này có thể rất lớn khiến cho toàn bộ quá trình khai thác lớn.
Giả sử thời gian truy cập dữ liệu để chuyển hết dữ liệu trên máy thứ i sang máy cần khai
thác là ai, ta có a = a1 + a2 + . . . + ak. Nếu sử dụng ngưỡng minSup để lọc bỏ bớt dữ liệu
thì thời gian truy cập dữ liệu sẽ chỉ là thời gian chuyển các item có độ phổ biến thỏa ngưỡng.
Gọi a′i là thời gian truy cập dữ liệu khi có ngưỡng thì tổng thời gian truy cập trên các máy là
a′ = a′1 + a′2 + . . .+ a′k. Do khi sử dụng ngưỡng, khối lượng dữ liệu cần truyền trên mỗi máy
thường sẽ ít hơn nên a′i ≤ ai ⇒ a′ ≤ a.
Nhận xét: Kết quả trên cho thấy thời gian để khai thác luật phân lớp sẽ giảm do thời gian
truy cập dữ liệu giảm, đặc biệt với các trường hợp ngưỡng minSup lớn. Tính hiệu quả này sẽ
giảm dần khi minSup càng giảm và đến một lúc nào đó, tất cả các item đều thỏa minSup
thì cách tiếp cận này không còn hiệu quả nữa.
4. THỰC NGHIỆM
Để thấy rõ tính hiệu quả của phương pháp đề nghị so với cách thứ 1 (gửi toàn bộ dữ liệu
về cho máy cần khai thác), phần này trình bày khối lượng bộ nhớ yêu cầu để truyền dữ liệu
giữa các bên so với việc chuyển tất cả dữ liệu cho bên khai thác.
4.1. Dữ liệu thực nghiệm
Các kết quả thực nghiệm được thực thi trên các CSDL được lấy từ UCI Machine Learn-
ing Repository ( Bảng 4 mô tả đặc điểm của các CSDL thực
nghiệm.
Dataset
#thuộc #lớp #giá trị
#mẫu
tính phân biệt
Breast1 10 2 737 699
German 20 2 1077 1000
Lymph 18 4 63 148
Led7 7 10 24 3200
Poker- 11 10 95 1000000
hand
1Breast Cancer Wisconsin (Original)
Bảng 4: Đặc điểm của các CSDL thực nghiệm
Các CSDL có đặc điểm khác nhau:
Breast, German chứa nhiều thuộc tính
và giá trị phân biệt nhưng ít mẫu. Led7
chứa ít thuộc tính, giá trị phân biệt lẫn
số mẫu. Đặc biệt, Lymph có số mẫu
khá ít. Poker-hand chứa nhiều mẫu. Để
có thể áp dụng được cho mô hình đề
xuất, các CSDL được phân thành 5 phân
mảnh (5 CSDL con), mỗi phân mảnh
chứa 10%, 20%, 30% hoặc 40% tổng số
dòng dữ liệu (tổng 5 phân mãnh chứa
100%).
MINING CLASS ASSOCIATION RULES IN DISTRIBUTED DATASETS 199
4.2. So sánh về khối lượng bộ nhớ
Bảng 5 bên dưới trình bày kết quả so sánh về khối lượng bộ nhớ yêu cầu khi gửi/nhận dữ
liệu của mô hình đề xuất (Các bước 2-4) và mô hình 1 (Các bên tham gia gửi hết dữ liệu cho
bên khai thác). Kết quả từ Bảng 5 cho thấy khối lương bộ nhớ cần cho việc truyền/nhận thông
tin giữa các bên tham gia thường ít hơn so với chuyển toàn bộ các CSDL cho bên cần khai
thác. Điều này chứng tỏ tính hiệu quả của phương pháp được đề nghị. Ngoài ra, khi truyền
dữ liệu theo mô hình đề xuất, bên khai thác tổng hợp thông tin cần thiết cho CAR-Miner
nhanh hơn do mô hình đề xuất đã truyền Obidset của các item đơn cho bên khai thác. Chính
vì vậy, thời gian khai thác sẽ giảm (Do mô hình 1 muốn sử dụng CAR-Miner phải chuyển dữ
liệu thành các nút chứa các item đơn trên cây). Trong trường hợp chỉ tính khối lượng bộ nhớ
cuối cùng (Bước 4) được gửi từ các bên thì khối lượng bộ nhớ càng ít hơn.
CSDL minSup%
Khối lượng bộ nhớ (KB)
Mô hình đề nghị Chỉ tính bên khai thác Mô hình 1
Breast
10 14.83 13.92 30.04
7 18.93 17.74 30.04
4 22.75 20.75 30.04
1 25.57 21.84 30.04
german
10 67.08 64.06 82.03
7 67.39 64.06 82.03
4 73.21 68.36 82.03
1 76.23 68.59 82.03
Lymph
10 12.15 9.94 10.99
7 12.18 9.94 10.99
4 12.27 9.94 10.99
1 12.39 9.94 10.99
Led7
10 88.09 87.5 100
7 88.09 87.5 100
4 88.09 87.5 100
1 88.09 87.5 100
Poker-hand
10 27345 27343.75 42968.75
7 39066.31 39062.5 42968.75
4 39066.31 39062.5 42968.75
1 39066.31 39062.5 42968.75
Bảng 5: So sánh khối lượng bộ nhớ giữa 2 phương pháp trên nhiều minSup khác nhau
5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Công trình này nghiên cứu bài toán khai thác luật phân lớp kết hợp trên CSDL đã được
phân tán. Có thể thấy đây là một bài toán thực tế cần giải quyết. Một trong những phương
pháp có thể thực hiện được là cải tiến các thuật toán khai thác song song tập phổ biến cho
bài toán khai thác luật phân lớp kết hợp. Cách làm này có ưu điểm là tận dụng được thế
mạnh xử lý và nguồn tài nguyên của nhiều máy. Tuy nhiên, khi số lượng luật thu được lớn thì
200 NGUYỄN THỊ THÚY LOAN, ĐỖ TRUNG TUẤN, NGUYỄN HỮU NGỰ
phương pháp này tốn nhiều thời gian truyền/nhận kết quả và tổng hợp kết quả. Bên cạnh đó,
việc tính toán song song cũng cần một hệ thống máy chuyên nghiệp trong khi nhu cầu là khai
thác tức thời tận dụng năng lực xử lý của các máy hiện hành đang dùng. Với các máy PC kết
nối qua LAN/WAN, việc truyền/nhận dữ liệu tương đối chậm do thường truyền theo cơ chế
file. Với các phân tích như trên, việc đề nghị một mô hình xử lý có thể tận dụng được năng
lực của các bên tham gia, giảm chi phí truyền thông là cần thiết. Mô hình đề xuất không gửi
nhận tất cả các thông tin của CSDL cho bên cần khai thác mà chỉ nhận thông tin của các
item có khả năng phổ biến (nghĩa là phổ biến ở ít nhất một vị trí). Chính đều này làm giảm
thiểu số item cần gửi nhận giữa các bên tham gia. Việc xử lý cũng không phải tập trung hoàn
toàn vào bên cần khai thác mà xử lý phân tán trên các bên tham gia, bên khai thác chỉ tổng
hợp kết quả và tiến hành khai thác. Nhược điểm chính của phương pháp này là không tận
dụng được năng lực tính toán của các bên tham gia trong giai đoạn khai thác và tốn thời gian
chờ giữa các bên cho việc gửi/nhận thông tin của các bên tại các bước 1-3. Chính vì vậy, khi
minSup rất nhỏ dẫn đến số lượng item thỏa minSup lớn thì giải pháp đề xuất có thể sẽ không
hiệu quả.
Một trong những khó khăn của việc xử lý song song trong giai đoạn khai thác luật là việc
tổng hợp kết quả, chính vì vậy trong thời gian tới, chúng tôi sẽ cố gắng nghiên cứu đề xuất
giải pháp cho vấn đề này. Bên cạnh đó, việc tìm kiếm giải pháp để giảm chi phí truyền thông
như sử dụng cấu trúc dữ liệu bit khi truyền dữ liệu cũng sẽ được quan tâm.
Lời cảm ơn: Nghiên cứu này được tài trợ bởi Quỹ phát triển khoa học và công nghệ quốc
gia (NAFOSTED) trong đề tài mã số 102.01-2012.17
TÀI LIỆU
[1] Cao Tùng Anh, Khai thác luật kết hợp trên cơ sở dữ liệu phân tán dọc. Hội thảo “một
số vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông”, Đại Lãi 9/2007, NXB
Khoa học Tự nhiên và Công nghệ, pp. 169-180, 2008.
[2] D. Cheung, J. Han, V.T. Ng, A.V. Fu, Y. Fu, “A fast distributed algorithm for mining
association rules", Proc. of 1996 Int’l. Conf. on Parallel and Distributed Information
Systems, Miami Beach, Florida, pp. 31-44, 1996.
[3] D. Cheung, Y. Xiao, “Effect of data skewness in parallel mining of association rules.
PAKDD ’98", LNCS vol. 1394, pp. 48-60, 1998.
[4] D. Nguyen, B. Vo, B. Le, “Efficient strategies for parallel mining class association rules",
Expert Systems with Applications: An International Journal, vol. 41, no. 10, pp. 4716-
4729, 2014.
[5] M. Deypir, M. H. Sadreddini,“Distributed association rules mining using non derivable
frequent patterns”, Iranian Journal of Science & Technology, Transaction B: Engineer-
ing vol. 33, no. B6, pp. 511-526, 2009.
[6] Phạm Thị Hân, “Khai phá luật kết hợp trong cơ sở dữ liệu phân tán", Luận văn thạc sĩ
chuyên ngành truyền số liệu và mạng máy tính, Học viện Bưu chính Viễn Thông, 2012.
MINING CLASS ASSOCIATION RULES IN DISTRIBUTED DATASETS 201
[7] W. Li, J. Han, J. Pei, “CMAR: Accurate and efficient classification based on multiple
class-association rules", The 1st IEEE International Conference on Data Mining, San
Jose, California, USA, pp. 369-376, 2001.
[8] B. Liu, W. Hsu, Y. Ma, “Integrating classification and association rule mining", The 4th
International Conference on Knowledge Discovery and Data Mining, New York, USA,
pp. 80-86, 1998.
[9] B. Liu, Y. Ma, C.K. Wong, “Improving an association rule based classifier", The 4th
European Conference on Principles of Data Mining and Knowledge Discovery, Lyon,
France, pp. 80-86, 2000.
[10] T. T. L. Nguyen, B. Vo, T. P. Hong, H. C. Thanh, “CAR-Miner: An efficient algorithm
for mining class-association rules", Expert Systems with Applications vol. 40, no. 6, pp.
2305-2311, 2013.
[11] M. E. Otey, S. Parthasarathy, C. Wang, A. Veloso, W. M. Jr, “Parallel and distributed
methods for incremental frequent itemset mining”, IEEE Transactions on Systems, Man,
and Cybernetics, Part B vpl. 34, no. 6, pp. 2439-2450, 2004.
[12] S. Parthasarathy, M. J. Zaki, M. Ogihara, “Parallel data mining for association rules
on shared-memory systems”, Knowledge and Information Systems: An International
Journal vol. 3„ no. 1, pp. 1–29, 2001.
[13] J. R. Quinlan, C4.5: program for machine learning, Morgan Kaufmann Publishers, Inc.,
1992.
[14] P. Tang, M. Turkia, “Parallelizing frequent itemset mining with FP-trees”, Technical
Report (www.ualr.edu/pxtang/papers/CATA06.pdf), Department of Computer Science,
University of Arkansas at Little Rock, 2005.
[15] F. Thabtah, P. Cowling, Y. Peng, “MMAC: A new multi-class, multi-label associa-
tive classification approach", The 4th IEEE International Conference on Data Mining,
Brighton, UK, pp. 217-224, 2004.
[16] F. Thabtah, P. Cowling, Y. Peng, “MCAR: Multi-class classification based on associ-
ation rule”, The 3rd ACS/IEEE International Conference on Computer Systems and
Applications, Tunis, Tunisia, pp. 33-39, 2005.
[17] M. R. Tolun, S. M. Abu-Soud, “ILA: An inductive learning algorithm for production
rule discovery”, Expert Systems with Applications, vol. 14, no. 3, pp. 361–370, 1998.
[18] M.R. Tolun, H. Sever, M. Uludag, S.M. Abu-Soud, “ILA-2: An inductive learning algo-
rithm for knowledge discovery”, Cybernetics and Systems, vol. 30, no. 7, pp. 609 - 628,
1999.
[19] A. Veloso, W. M. Jr, M. J. Zaki,“Lazy associative classification", The 2006 IEEE In-
ternational Conference on Data Mining (ICDM’06), Hong Kong, China, pp. 645-654,
2006.
202 NGUYỄN THỊ THÚY LOAN, ĐỖ TRUNG TUẤN, NGUYỄN HỮU NGỰ
[20] A. Veloso, W. M. Jr, M. Goncalves, M. J. Zaki,“Multi-label lazy associative classifica-
tion”, The 11th European Conference on Principles of Data Mining and Knowledge
Discovery, Warsaw, Poland, pp. 605-612, 2007.
[21] A. Veloso, W. M. Jr, M. Goncalves¸ H. M. Almeida, M. J. Zaki, “Calibrated lazy asso-
ciative classification", Information Sciences, vol. 181, no. 13, pp. 2656-2670, 2011.
[22] B. Vo, B. Le, “A novel classification algorithm based on association rule mining”, The
2008 Pacific Rim Knowledge Acquisition Workshop (Held with PRICAI’08), LNAI
5465, Hanoi, Vietnam, pp. 61-75, 2008.
[23] M. J. Zaki, “Parallel and distributed association mining: A survey", IEEE Concurrency
vo. 7, no. 4, pp. 14-25, 1999.
[24] X. Yin, J. Han, “CPAR: Classification based on predictive association rules”, SIAM
International Conference on Data Mining (SDM’03), San Francisco, CA, USA, pp.
331-335, 2003.

File đính kèm:

khai_thac_luat_phan_lop_ket_hop_tren_co_su_du_lieu_phan_tan.pdf