Khai thác luật phân lớp kết hợp trên cơ sử dữ liệu phân tán
Tóm tắt Khai thác luật phân lớp kết hợp trên cơ sử dữ liệu phân tán: ...ên cứu gần đây về song song hóa khai thác luật kết hợp và kiến trúc chia sẻ bộ nhớ, cũng như xu hướng, khó khăn, sự thay thế trong khai thác song song. Các phương pháp hầu hết đặt nền tản trên Apriori. Tang và Turkia [14] cũng đề xuất mô hình song song dựa trên FP-tree. Một trong những cách ti...ác song song luật kết hợp trên CSDL phân tán dọc cũng được đề xuất trong [1]. Các tác giả sử dụng IT-tree với đặt điểm chỉ cần quét CSDL một lần nhằm khai thác nhanh tập phổ biến. Các thuật toán kể trên được dùng trong việc phân tán dữ liệu để tính toán song song, chủ yếu là đề nghị giải phá...t nút 2× b2 23589(1, 4) : Đầu tiên tính Obidset(3×a1b2) = Obidset(1×a1)∩Obidset(2× b2) = 1279∩23589 = 29⇒ count = (1, 1) và pos = 1. Ta có count[pos] < minSupCount nên không tạo ra nút mới trên cây. - Xét nút 2× b3 467(3, 0) : Đầu tiên tínhObidset(3×a1b3) = Obidset(1×a1)∩Obidset(2×b3) = ...
trí làm cho khối lượng dữ liệu cần tính toán trên mỗi vị trí giảm đáng kể, dẫn đến khả năng tăng tốc của các thuật toán. Một vấn đề lớn cần giải quyết trên các hệ thống khai thác phân tán là thời gian truyền/nhận dữ liệu và kết quả khai thác. Đôi khi, thời gian này lớn hơn nhiều so với thời gian khai thác khi ngưỡng độ hỗ trợ tối thiểu (minSup) lớn hay số lượng tập phổ biến thu được ít. Để giảm chi phí truyền/nhận, các nghiên cứu thường tập trung khai thác tập phổ biến tối đại. Số lượng tập phổ biến tối đại thường ít hơn nhiều so với số lượng tập phổ biến nên cách tiếp cận này tỏ ra hiệu quả hơn việc tập trung dữ liệu để khai thác. Mục tiêu của bài báo là nhằm khai thác luật phân lớp dựa vào khai thác luật kết hợp trên CSDL đã được phân tán với đặc điểm chứa rất nhiều luật. Chính vì vậy, thời gian truyền/nhận kết quả giữa các bên sẽ rất lớn nếu tiếp cận theo mô hình hiện tại được đề xuất cho khai thác tập phổ biến/tập phổ biến tối đại. 3. Phân lớp dựa vào khai thác luật kết hợp trên cơ sở dữ liệu phân tán 3.1. Nêu bài toán Một công ty có nhiều chi nhánh, mỗi chi nhánh sẽ có một CSDL riêng để quản lý các giao dịch của chi nhánh mình. Do khối lượng giao dịch là rất lớn và việc truy vấn trên toàn bộ CSDL ít xảy ra, vì vậy công ty quyết định lưu trữ dữ liệu độc lập ở mỗi chi nhánh. Vấn đề đặt ra là làm thế nào để có thể khai thác các luật phân lớp dựa vào khai thác luật kết hợp trên toàn bộ CSDL của công ty? Một cách tổng quát, bài toán có thể được phát biểu như sau: Giả sử công ty có một CSDL là DB được lưu trữ trên k chi nhánh với các CSDL con là {DB1, DB2, , DBk} không giao nhau, trong đó các DBi có cùng cấu trúc (nghĩa là chúng có cùng tập thuộc tính A1, A2, , An) và DB không tồn tại dưới dạng logic. Bài toán đặt ra là: Cho trước hai ngưỡng minSup và minConf, hãy khai thác tất cả các luật phân lớp kết hợp trên DB. 3.2. Giải quyết vấn đề Một trong những cách làm đơn giản nhất là tập trung toàn bộ các CSDL lại tại máy cần khai thác để khai thác luật. Cách làm này có ưu điểm là đơn giản, có thể tận dụng ác thuật toán k ai thác luật hiện nay để giải quyết bài toán. Tuy nhiên, phương pháp này có n iều nhược điểm: Thứ nhất, trong các CSDL lớn, việc tập trung CSDL lại sẽ tốn n iều không gia lưu trữ và thời gian truyền/nhận dữ liệu. Thứ hai, nhiều giá trị có tần số xuấ hiện k ô g thỏa ngưỡ cũng sẽ được truyền/nhận giữa các vị trí nên rất tốn thời gian. Cuối ùng, phương pháp này không tận dụng được khả năng tính toán của các bên tham gia (các vị trí). Cách thứ hai là chỉnh sửa các thuật toán khai thác song song và phân tán sử dụng trong khai thác tập phổ biến cho khai thác luật phân lớp kết hợp. Muốn vậy, cần có hai yếu tố chính như sau: 1) Một hệ thống máy tính hiệu năng cao; 2) Cần có phương pháp giảm số lượng luật để giảm thời gian truyền/nhận kết quả. Cách này có ưu điểm là xử lý nhanh do được thực thi trên hệ thống máy chuyên nghiệp, các vị trí có thể xử lý độc lập và tổng hợp kết quả. Nhược điểm của phương pháp này là: 1) Công ty phải tốn chi phí đầu tư máy móc thiết bị và 2) Khó sinh luật do việc sinh luật phải được thực hiện khi đã có đầy đủ các thông tin về các itemset ở tất cả các vị trí, việc rút gọn luật ở từng vị trí cũng khó khăn do muốn rút gọn luật dư thừa phải xem xét trên tập luật Hình 3. Mô hình mạng ngang hàng Hình 3: Mô hình mạng ngang hàng Một cách tiếp cận khả quan và đơn giản ơn là sử dụng mô hình mạng ngang hàng, bất kỳ m y nào có nhu cầu khai thác cũng có thể thực hiện được. Hình 3 mô tả mô hình khai thác luật phân lớp kết hợp dựa trên ạng ngang hàng. Mỗi máy (vị trí) có một CSDL cục bộ và giao tiếp với nhau theo giao thức TCP/IP, nghĩa là việc truyền nhận dữ liệu trên mạng cục bộ/internet thông qua chuẩn của giao thức này (chẳng hạn như FTP). Với mô hình như trên, người quản trị có thể thiết lập mối quan hệ giữa các bên tham gia. Chẳng hạn: Vị trí 1 (VT1) có mối quan hệ với tất cả các vị trí còn lại, nghĩa là nó có thể khai thác trên toàn bộ CSDL của công ty. Tuy nhiên, vị trí 2 chỉ có mối quan hệ với các vị trí 1, 3, 5 nên nó chỉ có thể khai thác trên tập dữ liệu của các vị trí 1, 2, 3, và 5. 3.3. Thuật toán đề nghị Dựa vào mô hình trên, một thuật toán khai thác luật phân lớp kết hợp được đề nghị trong phần này. Không mất tính tổng quát, giả sử vị trí i là máy cần khai thác, vị trí này có quan hệ với các vị trí {i1, i2, . . . , im} (i 6= ij). Vị trí i muốn khai thác trên DB = DBi ∪DBi1 ∪DBi2 ∪ . . . ∪DBim. 196 NGUYỄN THỊ THÚY LOAN, ĐỖ TRUNG TUẤN, NGUYỄN HỮU NGỰ Đầu vào của thuật toán là {DBi, DBi1, DBi2, . . . , DBim}, minSup và minConf . Đầu ra là tập các luật phân lớp kết hợp chứa trong DB thỏa minSup và minConf . Các bước thực hiện của thuật toán như sau: Bước 1 Vị trí i gửi minSup cho các vị trí có quan hệ và chờ phản hồi. Bước 2 Các vị trí có quan hệ với vị trí i đọc CSDL của mình và gửi các giá trị có độ hỗ trợ lớn hơn hay bằng minSup cho vị trí i. Bước 3 Vị trí i tổng hợp kết quả gửi lại cho các vị trí có quan hệ. Bước 4 Các vị trí có quan hệ với vị trí i gửi các thông tin về cho vị trí i để tổng hợp kết quả. Bước 5 Vị trí i tiến hành khai thác (sử dụng thuật toán CAR-Miner được trình bày trong phần 2). Hình 4: Thuật toán khai thác CARs trên CSDL phân tán Ví dụ minh họa: Giả sử có hai CSDL được lưu ở hai vị trí là VT1 và VT2, vị trí 1 gồm 6 mẫu, vị trí 2 gồm 3 mẫu như trong bảng 2 và bảng 3 bên dưới. OID A B C class 1 a1 b1 c1 y 2 a1 b2 c1 n 3 a2 b2 c1 n 4 a3 b3 c1 y 5 a3 b2 c2 n 6 a3 b3 c1 y Bảng 2: CSDL của VT1 OID A B C class 7 a1 b3 c2 y 8 a3 b2 c2 n 9 a1 b2 c2 y Bảng 3: CSDL của VT2 Giả sử V T2 muốn khai thác với minSup = 20% và minConf = 60%, ta có quá trình khai thác như sau. Bước 1: VT2 gửi minSup cho các V T có liên hệ (trường hợp này chỉ có V T1). Bước 2: V T1 tính minSupCount1 = 20% ×6 = 1.2. Như vậy, nó sẽ gửi các giá trị có số lần xuất hiện ≥ 2 cho VT2, trong trường hợp này sẽ là {A : a1, a3;B : b2, b3;C : c1}. Tương tự, V T2 (minSupCount2 = 1) cũng sẽ có kết quả là {A : a1, a3;B : b2, b3;C : c2}. Bước 3: V T2 tổng hợp kết quả {A : a1, a3;B : b2, b3;C : c1, c2}, sau đó gửi {a1, a3; b2, b3; c1, c2} cho các vị trí liên quan (V T1). Bước 4: VT1 sẽ gửi về VT2 các thông tin {12, 456; 235, 46; 12346, 5} đồng thời gửi {y, n, n, y, n, y} (nhãn của các ID trong CSDL của V T1). Bên V T2 cũng sẽ đọc các thông tin liên quan và kết quả sẽ là {79, 8; 89, 7; ∅, 789} và {y, n, y}. V T2 tổng hợp kết quả thành các nút của mức 1 trên cây như Hình 5. {} 1×a1 1279(3,1) 1×a3 4568(2,2) 2×b2 23589(1,4) 2×b3 467(3,1) 4×c1 12346(3,2) 4×c2 5789(2,2) Hình 5: Mức 1 của cây MECR-tree MINING CLASS ASSOCIATION RULES IN DISTRIBUTED DATASETS 197 Bước 5: Sử dụng thuật toán CAR-Miner để khai thác với minSupCount = 2, ta có kết quả được trình bày trong Hình 6. {} 1×a1 1279(3,1) 1×a3 4568(2,2) 2×b2 23589(1,4) 2×b3 467(3,1) 4×c1 12346(3,2) 4×c2 5789(2,2) 3×a1c2 79(2,0) 3×a3b2 58(0,2) 3×a3b3 46(2,0) 5×a3c1 46(2,0) 5×a3c2 58(0,2) 6×b2c1 23(0,2) 6×b2c2 589(1,2) 6×b3c1 46(2,0) 7×a3b2c2 58(0,2) 7×a3b3c1 46(0,2) Hình 6: Cây MECR-tree minh họa quá trình khai thác luật Hình 6 minh họa quá trình khai thác CARs dựa trên MECR-tree từ các itemset có được của V T1 và V T2. Đầu tiên, mức 1 của cây chứa các item đơn phổ biến (nghĩa là chứa các item có count[pos] ≥ 2) gồm { 1× a1 1× a3 2× b2 2× b3 4× c1 4× c2 1279(3, 1) 4568(2, 2) 23589(1, 4) 467(3, 0) 12346(3, 2) 5789(2, 2) } . Sau đó thủ tục CAR-Miner được gọi với tham số đầu vào là Lr chứa 6 nút trên. Xét nút 1× a1 1279(3, 1) : - Xét nút 1× a3 4568(2, 2) : Do chúng có tập thuộc tính bằng nhau nên theo mệnh đề 1, hai nút này không cần kết. - Xét nút 2× b2 23589(1, 4) : Đầu tiên tính Obidset(3×a1b2) = Obidset(1×a1)∩Obidset(2× b2) = 1279∩23589 = 29⇒ count = (1, 1) và pos = 1. Ta có count[pos] < minSupCount nên không tạo ra nút mới trên cây. - Xét nút 2× b3 467(3, 0) : Đầu tiên tínhObidset(3×a1b3) = Obidset(1×a1)∩Obidset(2×b3) = 1279 ∩ 467 = 7 ⇒ count = (1, 0) và pos = 1. Ta có count[pos] < minSupCount nên không tạo ra nút mới trên cây. - Xét nút 4× c1 12346(3, 2) : Đầu tiên tính Obidset(5×a1c1) = Obidset(1×a1)∩Obidset(4× c1) = 1279∩12346 = 12⇒ count = (1, 1) và pos = 1. Ta có count[pos] < minSupCount nên không tạo ra nút mới trên cây. - Xét nút 4× c2 5789(2, 2) : Đầu tiên tính Obidset(5× a1c2) = Obidset(1× a1) ∩Obidset(4× c2) = 1279 ∩ 5789 = 79 ⇒ count = (2, 0) và pos = 1. Do count[pos] ≥ minSupCount nên nút này được thêm vào cây là một nút con của nút 1× a1 1279(3, 1) . Tương tự cho các nút còn lại của cây. 198 NGUYỄN THỊ THÚY LOAN, ĐỖ TRUNG TUẤN, NGUYỄN HỮU NGỰ 3.4. Phân tích độ phức tạp thuật toán Phương pháp trong bài báo này sử dụng CAR-Miner để khai thác luật phân lớp kết hợp nên độ phức tạp của thuật toán phụ thuộc nhiều vào CAR-Miner. Theo [4], độ phức tạp của CAR-Miner được tính theo công thức sau: TS = KS ×m+ a Trong đó TS là tổng thời gian khai thác của CAR-Miner, KS là số lần lặp của thuật toán, m là thời gian để sinh một nút trên cây và a là thời gian để truy cập dữ liệu. Cách tiếp cận trong bài báo này chủ yếu quan tân đến thời gian truy cập dữ liệu a. Trong các hệ thống phân tán, thời gian này có thể rất lớn khiến cho toàn bộ quá trình khai thác lớn. Giả sử thời gian truy cập dữ liệu để chuyển hết dữ liệu trên máy thứ i sang máy cần khai thác là ai, ta có a = a1 + a2 + . . . + ak. Nếu sử dụng ngưỡng minSup để lọc bỏ bớt dữ liệu thì thời gian truy cập dữ liệu sẽ chỉ là thời gian chuyển các item có độ phổ biến thỏa ngưỡng. Gọi a′i là thời gian truy cập dữ liệu khi có ngưỡng thì tổng thời gian truy cập trên các máy là a′ = a′1 + a′2 + . . .+ a′k. Do khi sử dụng ngưỡng, khối lượng dữ liệu cần truyền trên mỗi máy thường sẽ ít hơn nên a′i ≤ ai ⇒ a′ ≤ a. Nhận xét: Kết quả trên cho thấy thời gian để khai thác luật phân lớp sẽ giảm do thời gian truy cập dữ liệu giảm, đặc biệt với các trường hợp ngưỡng minSup lớn. Tính hiệu quả này sẽ giảm dần khi minSup càng giảm và đến một lúc nào đó, tất cả các item đều thỏa minSup thì cách tiếp cận này không còn hiệu quả nữa. 4. THỰC NGHIỆM Để thấy rõ tính hiệu quả của phương pháp đề nghị so với cách thứ 1 (gửi toàn bộ dữ liệu về cho máy cần khai thác), phần này trình bày khối lượng bộ nhớ yêu cầu để truyền dữ liệu giữa các bên so với việc chuyển tất cả dữ liệu cho bên khai thác. 4.1. Dữ liệu thực nghiệm Các kết quả thực nghiệm được thực thi trên các CSDL được lấy từ UCI Machine Learn- ing Repository ( Bảng 4 mô tả đặc điểm của các CSDL thực nghiệm. Dataset #thuộc #lớp #giá trị #mẫu tính phân biệt Breast1 10 2 737 699 German 20 2 1077 1000 Lymph 18 4 63 148 Led7 7 10 24 3200 Poker- 11 10 95 1000000 hand 1Breast Cancer Wisconsin (Original) Bảng 4: Đặc điểm của các CSDL thực nghiệm Các CSDL có đặc điểm khác nhau: Breast, German chứa nhiều thuộc tính và giá trị phân biệt nhưng ít mẫu. Led7 chứa ít thuộc tính, giá trị phân biệt lẫn số mẫu. Đặc biệt, Lymph có số mẫu khá ít. Poker-hand chứa nhiều mẫu. Để có thể áp dụng được cho mô hình đề xuất, các CSDL được phân thành 5 phân mảnh (5 CSDL con), mỗi phân mảnh chứa 10%, 20%, 30% hoặc 40% tổng số dòng dữ liệu (tổng 5 phân mãnh chứa 100%). MINING CLASS ASSOCIATION RULES IN DISTRIBUTED DATASETS 199 4.2. So sánh về khối lượng bộ nhớ Bảng 5 bên dưới trình bày kết quả so sánh về khối lượng bộ nhớ yêu cầu khi gửi/nhận dữ liệu của mô hình đề xuất (Các bước 2-4) và mô hình 1 (Các bên tham gia gửi hết dữ liệu cho bên khai thác). Kết quả từ Bảng 5 cho thấy khối lương bộ nhớ cần cho việc truyền/nhận thông tin giữa các bên tham gia thường ít hơn so với chuyển toàn bộ các CSDL cho bên cần khai thác. Điều này chứng tỏ tính hiệu quả của phương pháp được đề nghị. Ngoài ra, khi truyền dữ liệu theo mô hình đề xuất, bên khai thác tổng hợp thông tin cần thiết cho CAR-Miner nhanh hơn do mô hình đề xuất đã truyền Obidset của các item đơn cho bên khai thác. Chính vì vậy, thời gian khai thác sẽ giảm (Do mô hình 1 muốn sử dụng CAR-Miner phải chuyển dữ liệu thành các nút chứa các item đơn trên cây). Trong trường hợp chỉ tính khối lượng bộ nhớ cuối cùng (Bước 4) được gửi từ các bên thì khối lượng bộ nhớ càng ít hơn. CSDL minSup% Khối lượng bộ nhớ (KB) Mô hình đề nghị Chỉ tính bên khai thác Mô hình 1 Breast 10 14.83 13.92 30.04 7 18.93 17.74 30.04 4 22.75 20.75 30.04 1 25.57 21.84 30.04 german 10 67.08 64.06 82.03 7 67.39 64.06 82.03 4 73.21 68.36 82.03 1 76.23 68.59 82.03 Lymph 10 12.15 9.94 10.99 7 12.18 9.94 10.99 4 12.27 9.94 10.99 1 12.39 9.94 10.99 Led7 10 88.09 87.5 100 7 88.09 87.5 100 4 88.09 87.5 100 1 88.09 87.5 100 Poker-hand 10 27345 27343.75 42968.75 7 39066.31 39062.5 42968.75 4 39066.31 39062.5 42968.75 1 39066.31 39062.5 42968.75 Bảng 5: So sánh khối lượng bộ nhớ giữa 2 phương pháp trên nhiều minSup khác nhau 5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Công trình này nghiên cứu bài toán khai thác luật phân lớp kết hợp trên CSDL đã được phân tán. Có thể thấy đây là một bài toán thực tế cần giải quyết. Một trong những phương pháp có thể thực hiện được là cải tiến các thuật toán khai thác song song tập phổ biến cho bài toán khai thác luật phân lớp kết hợp. Cách làm này có ưu điểm là tận dụng được thế mạnh xử lý và nguồn tài nguyên của nhiều máy. Tuy nhiên, khi số lượng luật thu được lớn thì 200 NGUYỄN THỊ THÚY LOAN, ĐỖ TRUNG TUẤN, NGUYỄN HỮU NGỰ phương pháp này tốn nhiều thời gian truyền/nhận kết quả và tổng hợp kết quả. Bên cạnh đó, việc tính toán song song cũng cần một hệ thống máy chuyên nghiệp trong khi nhu cầu là khai thác tức thời tận dụng năng lực xử lý của các máy hiện hành đang dùng. Với các máy PC kết nối qua LAN/WAN, việc truyền/nhận dữ liệu tương đối chậm do thường truyền theo cơ chế file. Với các phân tích như trên, việc đề nghị một mô hình xử lý có thể tận dụng được năng lực của các bên tham gia, giảm chi phí truyền thông là cần thiết. Mô hình đề xuất không gửi nhận tất cả các thông tin của CSDL cho bên cần khai thác mà chỉ nhận thông tin của các item có khả năng phổ biến (nghĩa là phổ biến ở ít nhất một vị trí). Chính đều này làm giảm thiểu số item cần gửi nhận giữa các bên tham gia. Việc xử lý cũng không phải tập trung hoàn toàn vào bên cần khai thác mà xử lý phân tán trên các bên tham gia, bên khai thác chỉ tổng hợp kết quả và tiến hành khai thác. Nhược điểm chính của phương pháp này là không tận dụng được năng lực tính toán của các bên tham gia trong giai đoạn khai thác và tốn thời gian chờ giữa các bên cho việc gửi/nhận thông tin của các bên tại các bước 1-3. Chính vì vậy, khi minSup rất nhỏ dẫn đến số lượng item thỏa minSup lớn thì giải pháp đề xuất có thể sẽ không hiệu quả. Một trong những khó khăn của việc xử lý song song trong giai đoạn khai thác luật là việc tổng hợp kết quả, chính vì vậy trong thời gian tới, chúng tôi sẽ cố gắng nghiên cứu đề xuất giải pháp cho vấn đề này. Bên cạnh đó, việc tìm kiếm giải pháp để giảm chi phí truyền thông như sử dụng cấu trúc dữ liệu bit khi truyền dữ liệu cũng sẽ được quan tâm. Lời cảm ơn: Nghiên cứu này được tài trợ bởi Quỹ phát triển khoa học và công nghệ quốc gia (NAFOSTED) trong đề tài mã số 102.01-2012.17 TÀI LIỆU [1] Cao Tùng Anh, Khai thác luật kết hợp trên cơ sở dữ liệu phân tán dọc. Hội thảo “một số vấn đề chọn lọc của Công nghệ Thông tin và Truyền thông”, Đại Lãi 9/2007, NXB Khoa học Tự nhiên và Công nghệ, pp. 169-180, 2008. [2] D. Cheung, J. Han, V.T. Ng, A.V. Fu, Y. Fu, “A fast distributed algorithm for mining association rules", Proc. of 1996 Int’l. Conf. on Parallel and Distributed Information Systems, Miami Beach, Florida, pp. 31-44, 1996. [3] D. Cheung, Y. Xiao, “Effect of data skewness in parallel mining of association rules. PAKDD ’98", LNCS vol. 1394, pp. 48-60, 1998. [4] D. Nguyen, B. Vo, B. Le, “Efficient strategies for parallel mining class association rules", Expert Systems with Applications: An International Journal, vol. 41, no. 10, pp. 4716- 4729, 2014. [5] M. Deypir, M. H. Sadreddini,“Distributed association rules mining using non derivable frequent patterns”, Iranian Journal of Science & Technology, Transaction B: Engineer- ing vol. 33, no. B6, pp. 511-526, 2009. [6] Phạm Thị Hân, “Khai phá luật kết hợp trong cơ sở dữ liệu phân tán", Luận văn thạc sĩ chuyên ngành truyền số liệu và mạng máy tính, Học viện Bưu chính Viễn Thông, 2012. MINING CLASS ASSOCIATION RULES IN DISTRIBUTED DATASETS 201 [7] W. Li, J. Han, J. Pei, “CMAR: Accurate and efficient classification based on multiple class-association rules", The 1st IEEE International Conference on Data Mining, San Jose, California, USA, pp. 369-376, 2001. [8] B. Liu, W. Hsu, Y. Ma, “Integrating classification and association rule mining", The 4th International Conference on Knowledge Discovery and Data Mining, New York, USA, pp. 80-86, 1998. [9] B. Liu, Y. Ma, C.K. Wong, “Improving an association rule based classifier", The 4th European Conference on Principles of Data Mining and Knowledge Discovery, Lyon, France, pp. 80-86, 2000. [10] T. T. L. Nguyen, B. Vo, T. P. Hong, H. C. Thanh, “CAR-Miner: An efficient algorithm for mining class-association rules", Expert Systems with Applications vol. 40, no. 6, pp. 2305-2311, 2013. [11] M. E. Otey, S. Parthasarathy, C. Wang, A. Veloso, W. M. Jr, “Parallel and distributed methods for incremental frequent itemset mining”, IEEE Transactions on Systems, Man, and Cybernetics, Part B vpl. 34, no. 6, pp. 2439-2450, 2004. [12] S. Parthasarathy, M. J. Zaki, M. Ogihara, “Parallel data mining for association rules on shared-memory systems”, Knowledge and Information Systems: An International Journal vol. 3„ no. 1, pp. 1–29, 2001. [13] J. R. Quinlan, C4.5: program for machine learning, Morgan Kaufmann Publishers, Inc., 1992. [14] P. Tang, M. Turkia, “Parallelizing frequent itemset mining with FP-trees”, Technical Report (www.ualr.edu/pxtang/papers/CATA06.pdf), Department of Computer Science, University of Arkansas at Little Rock, 2005. [15] F. Thabtah, P. Cowling, Y. Peng, “MMAC: A new multi-class, multi-label associa- tive classification approach", The 4th IEEE International Conference on Data Mining, Brighton, UK, pp. 217-224, 2004. [16] F. Thabtah, P. Cowling, Y. Peng, “MCAR: Multi-class classification based on associ- ation rule”, The 3rd ACS/IEEE International Conference on Computer Systems and Applications, Tunis, Tunisia, pp. 33-39, 2005. [17] M. R. Tolun, S. M. Abu-Soud, “ILA: An inductive learning algorithm for production rule discovery”, Expert Systems with Applications, vol. 14, no. 3, pp. 361–370, 1998. [18] M.R. Tolun, H. Sever, M. Uludag, S.M. Abu-Soud, “ILA-2: An inductive learning algo- rithm for knowledge discovery”, Cybernetics and Systems, vol. 30, no. 7, pp. 609 - 628, 1999. [19] A. Veloso, W. M. Jr, M. J. Zaki,“Lazy associative classification", The 2006 IEEE In- ternational Conference on Data Mining (ICDM’06), Hong Kong, China, pp. 645-654, 2006. 202 NGUYỄN THỊ THÚY LOAN, ĐỖ TRUNG TUẤN, NGUYỄN HỮU NGỰ [20] A. Veloso, W. M. Jr, M. Goncalves, M. J. Zaki,“Multi-label lazy associative classifica- tion”, The 11th European Conference on Principles of Data Mining and Knowledge Discovery, Warsaw, Poland, pp. 605-612, 2007. [21] A. Veloso, W. M. Jr, M. Goncalves¸ H. M. Almeida, M. J. Zaki, “Calibrated lazy asso- ciative classification", Information Sciences, vol. 181, no. 13, pp. 2656-2670, 2011. [22] B. Vo, B. Le, “A novel classification algorithm based on association rule mining”, The 2008 Pacific Rim Knowledge Acquisition Workshop (Held with PRICAI’08), LNAI 5465, Hanoi, Vietnam, pp. 61-75, 2008. [23] M. J. Zaki, “Parallel and distributed association mining: A survey", IEEE Concurrency vo. 7, no. 4, pp. 14-25, 1999. [24] X. Yin, J. Han, “CPAR: Classification based on predictive association rules”, SIAM International Conference on Data Mining (SDM’03), San Francisco, CA, USA, pp. 331-335, 2003.
File đính kèm:
- khai_thac_luat_phan_lop_ket_hop_tren_co_su_du_lieu_phan_tan.pdf