Đánh giá một số kỹ thuật phát hiện thư rác ứng dụng thuật toán xếp hạng người dùng trong mạng thư điện tử tại trường Đại học Hà Nội
Tóm tắt Đánh giá một số kỹ thuật phát hiện thư rác ứng dụng thuật toán xếp hạng người dùng trong mạng thư điện tử tại trường Đại học Hà Nội: ... người dùng với 31 cán bộ chủ chốt (CBCC); số lượng thư điện tử là 14320. Tập được thu thập từ 01/9/2008 đến 30/6/2009 (tương đương quãng thời gian một năm học).Tập dữ liệu này hiện nay không có thư rác, vì vậy chưa thể sử dụng để nghiên cứu các thuật toán lọc thư rác mà chỉ dùng để tối ưu các th... xác trong việc xếp hạng người dùng thấp nhất. Trên thực tế, độ chính xác bằng 0.5644 gần tương đương với độ chính xác khi ta sắp xếp ngẫu nhiên. Phương pháp độ phân cụm mở rộng, PageRank cho độ chính xác cao nhất. Phương pháp PageRank có trọng số có độ chính xác hơi thấp hơn phương pháp PageRan...rong thời gian 01 kỳ học: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 31/01/2009 (threshold để hình thành cung = 3). 212 TRẦN QUANG ANH, VŨ MINH TUẤN, HÀ QUANG MINH 9 Bảng 4 Kết quả với dữ liệu 01 năm học của tacnghiep_02 Phương pháp Ngưỡng (S...
ừng gửi thư). Theo kết quả trên, chúng tôi lựa chọn chỉ số damping = 0.9 cho các thí nghiệm tiếp theo. Tiếp đến là thí nghiệm để tối ưu hóa chu kỳ tính toán của thuật toán PageRank. Chúng tôi đặt số chu kỳ tính toán bằng các giá trị từ 1 đến 5000, kết quả của độ chính xác của thuật toán và thời gian chạy của chương trình được ghi lại và đem so sánh. Kết quả so sánh cho thấy thời gian tính toán tăng tuyến tính (tỷ lệ thuận) với số chu kỳ tính. Độ chính xác sau chu kỳ thứ 20 là không thay đổi. Chúng tôi chọn số chu kỳ tính toán bằng 100 cho các thí nghiệm về sau. Các thí nghiệm tương tự được thực hiện với thuật toán PageRank có trọng số và thu được kết quả tương đồng. 2 Theo kết quả phân tích số liệu thư điện tử HANU năm 2008, số lượng thư rác chiếm khoảng từ 70-80% tổng số thư. 208 TRẦN QUANG ANH, VŨ MINH TUẤN, HÀ QUANG MINH b. Tối ưu hóa ngưỡng (threshold) Mạng thư điện tử được xây dựng từ dữ liệu thư điện tử, trong đó người dùng là các nút mạng, còn giao dịch thư điện tử giữa những người dùng với nhau xác định các cung của mạng. Số lượng thư điện tử giữa hai người dùng lớn hơn số lượng (ngưỡng) nhất định sẽ xác định sự tồn tại của một cung giữa hai người dùng đó. Tất cả các phương pháp đều cần tối ưu hóa giá trị ngưỡng này. Tóm lại, threshold ở đây được hiểu là giá trị ngưỡng để hình thành một cung trong giữ hai người dùng trong mạng thư điện tử. Người đọc cần chú ý để phân biệt với một threshold khác được nhắc tới trong kết quả thí nghiệm, là ngưỡng của một thư điện tử bị coi là thư rác hay không. Chúng tôi sử dụng phương pháp PageRank để tối ưu hóa giá trị ngưỡng. Với các giá trị ngưỡng tăng dần từ 1 đến 20, chúng tôi tính toán độ chính xác và thời gian chạy của chương trình và ghi lại kết quả để so sánh. Đối chiều kết quả tại các ngưỡng, cho thấy tỷ lệ xếp hạng chính xác có xu hướng giảm khi ngưỡng tăng. Như vậy, việc đặt ngưỡng quá cao dẫn đến giảm lượng thông tin cần thiết dùng để xếp hạng người dùng. Tuy nhiên tốc độ xử lý tăng lên khi ngưỡng tăng lên. Lý do là khi ngưỡng tăng lên, lượng thông tin giảm đi, vì vậy tốc độ xử lý tăng lên. Cân nhắc giữa độ chính xác và tốc độ xử lý, chúng tôi chọn ngưỡng bằng 5 cho các thí nghiệm tiếp theo. 3.3. Thí nghiệm trên tập dữ liệu tacnghiep_1: a. Dữ liệu trong thời gian 01 năm học: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 30/06/2009 (threshold để hình thành cung = 5). Độ chính xác và thời gian chạy của từng phương pháp được thể hiện ở Bảng 1. Dữ liệu Độ chính xác Thời gian chạy Độ phân cụm 0.5644 1.945 Độ phân cụm mở rộng 0.7624 1.993 PageRank 0.7624 0.635 PageRank có trọng số 0.7426 1.821 Bảng 1: Kết quả với dữ liệu 01 năm học của tacnghiep_01 Kết quả thí nghiệm cho thấy phương pháp độ phân cụm cho độ chính xác trong việc xếp hạng người dùng thấp nhất. Trên thực tế, độ chính xác bằng 0.5644 gần tương đương với độ chính xác khi ta sắp xếp ngẫu nhiên. Phương pháp độ phân cụm mở rộng, PageRank cho độ chính xác cao nhất. Phương pháp PageRank có trọng số có độ chính xác hơi thấp hơn phương pháp PageRank. Tốc độ xử lý của phương pháp PageRank là tốt nhất. EVALUATING SPAM DETECTION TECHNIQUES USING USER RANKING ALGORITHM 209 b. Dữ liệu trong thời gian 01 kỳ học: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 31/01/2009 (threshold để hình thành cung = 3). Độ chính xác và thời gian chạy của từng phương pháp được thể hiện ở Bảng 2. Dữ liệu Độ chính xác Thời gian chạy Độ phân cụm 0.5644 0.916 Độ phân cụm mở rộng 0.7030 0.943 PageRank 0.7228 0.574 PageRank có trọng số 0.7029 1.455 Bảng 2: Kết quả với dữ liệu 01 học kỳ của tacnghiep_01 Kết quả thu được trong Bảng 2 cũng gần giống với trong Bảng 1, tức là phương pháp độ phân cụm cho kết quả kém nhất. Phương pháp PageRank có trọng số cho kết quả kém hơn phương pháp PageRank. Phương pháp PageRank và phương pháp độ phân cụm mở rộng vẫn là hai phương pháp cho kết quả tốt nhất. Phương pháp PageRank có tốc độ xử lý nhanh nhất. Phương PageRank có trọng số có tốc độ xử lý chậm nhất. c. Dữ liệu trong thời gian 03 tháng: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 30/11/2008 (threshold để hình thành cung = 1). Độ chính xác và thời gian chạy của từng phương pháp được thể hiện ở Bảng 3. Dữ liệu Độ chính xác Thời gian chạy Độ phân cụm 0.5644 0.619 Độ phân cụm mở rộng 0.7228 0.626 PageRank 0.7624 0.798 PageRank có trọng số 0.7030 3.195 Bảng 3: Kết quả với dữ liệu 03 tháng của tacnghiep_01 Đối với tập dữ liệu 3 tháng, phương pháp PageRank và phương pháp độ phân cụm mở rộng vẫn cho kết quả tốt nhất. Phương pháp PageRank có trọng số cho kết quả kém hơn, và 210 TRẦN QUANG ANH, VŨ MINH TUẤN, HÀ QUANG MINH cuối cùng là phương pháp độ phân cụm mở rộng. Phương pháp PageRank có trọng số có tốc độ xử lý chậm nhất. d. Dữ liệu trong thời gian 01 tháng: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 30/09/2008 (threshold để hình thành cung = 1). Đối với tập dữ liệu nhỏ, phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với thời gian tính toán ít nhất. Phương pháp PageRank có độ chính xác thứ 2. Phương pháp độ phân cụm cho kết quả kém nhất. e. Đánh giá: Từ kết quả thí nghiệm trên, ta thấy phương pháp PageRank và phương pháp độ phân cụm mở rộng là hai phương pháp cho kết quả tốt nhất trong việc xếp hạng người dùng. Phương pháp PageRank có trọng số cho kết quả kém hơn và phương pháp độ phân cụm cho kết quả kém nhất. Khi độ lớn của tập dữ liệu giảm dần từ 1 năm học đến 1 tháng, phương pháp PageRank cho độ chính xác giảm dần, trong khi tốc độ xử lý không thay đổi (có thể thấy rằng, tốc độ xử lý của phương pháp PageRank chủ yếu phụ thuộc vào số chu kỳ tính toán). Khi độ lớn của tập dữ liệu giảm dần, phương pháp độ phân cụm mở rộng cho tốc độ tính toán tăng dần, đồng thời độ chính xác cũng có chiều hướng tăng lên. Như vậy phương pháp PageRank thích hợp với những tập mẫu lớn, còn phương pháp độ phân cụm mở rộng thích hợp với những tập mẫu nhỏ. 3.4. Thí nghiệm trên tập dữ liệu tacnghiep_2: Đối với tập dữ liệu tacnghiep_2, sau khi đã được thêm vào một tỷ lệ thư rác nhất định, chúng tôi đánh giá hiệu quả của phương pháp dựa trên đồ thị ROC bao gồm 2 chỉ số: tỷ lệ lọc chính xác thư rác và tỷ lệ lọc nhầm thư thật. a. Dữ liệu trong thời gian 01 năm học: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 30/06/2009 (threshold để hình thành cung = 5). Trong Hình 1, ở mọi trường hợp ta đều có khi tăng giá trị ngưỡng, tỷ lệ lọc thành công thư rác tăng lên đồng thời tỷ lệ lọc nhầm thư thật cũng tăng theo. Phương pháp độ phân cụm cho kết quả kém (Hình 1-a) vì khi tỷ lệ lọc thành công thư rác đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất. Theo Bảng 4, phương pháp PageRank có tốc độ tính toán nhanh nhất. Phương pháp PageRank có trọng số có tốc độ tính toán chậm nhất. Về hiệu quả, phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 100% trong khi tỷ lệ lọc nhầm thư thật là 0%. EVALUATING SPAM DETECTION TECHNIQUES USING USER RANKING ALGORITHM 211 8 hướng tăng lên. Như vậy phương pháp PageRank thích hợp với những tập mẫu lớn, còn phương pháp độ phân cụm mở rộng thích hợp với những tập mẫu nhỏ. 3.4 Thí nghiệm trên tập dữ liệu tacnghiep_2: Đối với tập dữ liệu tacnghiep_2, sau khi đã được thêm vào một tỷ lệ thư rác nhất định, chúng tôi đánh giá hiệu quả của phương pháp dựa trên đồ thị ROC bao gồm 2 chỉ số: tỷ lệ lọc chính xác thư rác và tỷ lệ lọc nhầm thư thật. a. Dữ liệu trong thời gian 01 năm học: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 30/06/2009 (threshold để hình thành cung = 5). (a) Độ phân cụm (b) Độ phân cụm mở rộng (c) PageRank (d) PageRank có trọng số Hình 1 Kết quả so sánh với dữ liệu 01 năm của tacnghiep_02 Trong Hình 1, ở mọi trường hợp ta đều có khi tăng giá trị ngưỡng, tỷ lệ lọc thành công thư rác tăng lên đồng thời tỷ lệ lọc nhầm thư thật cũng tăng theo. Phương pháp độ phân cụm cho kết quả kém (Hình 1-a) vì khi tỷ lệ lọc thành công thư rác đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất. 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R at e Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Ra te Threshold Spam detection False positive 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error Hình 1: Kết quả so sánh với dữ liệu 01 năm của tacnghiep_02 Phương pháp Ngưỡng Tỷ lệ lọc thành Tỷ lệ lọc Thời gian (Spam hay Ham) công ư rác nhầm thư thật tính Độ phân cụm 0.006 0 0.003 1m38.097s Độ phân cụm mở rộng 0.005 1.0 0.0 1m37.366s PageRank 0.016 1.0 0.0042 18.084s PageRank có trọng số 0.004 0.9965 0.0060 3m58.702s Bảng 4: Kết quả với dữ liệu 01 năm học của tacnghiep_02 b. Dữ liệu trong thời gian 01 kỳ học: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 31/01/2009 (threshold để hình thành cung = 3). 212 TRẦN QUANG ANH, VŨ MINH TUẤN, HÀ QUANG MINH 9 Bảng 4 Kết quả với dữ liệu 01 năm học của tacnghiep_02 Phương pháp Ngưỡng (Spam hay Ham) Tỷ lệ lọc thành công thư rác Tỷ lệ lọc nhầm thư thật Thời gian tính Độ phân cụm 0.006 0 0.003 1m38.097s Độ phân cụm mở rộng 0.005 1.0 0.0 1m37.366s PageRank 0.016 1.0 0.0042 18.084s PageRank có trọng số 0.004 0.9965 0.0060 3m58.702s Theo Bảng 4, phương pháp PageRank có tốc độ tính toán nhanh nhất. Phương pháp PageRank có trọng số có tốc độ tính toán chậm nhất. Về hiệu quả, phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 100% trong khi tỷ lệ lọc nhầm thư thật là 0%. b. Dữ liệu trong thời gian 01 kỳ học: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 31/01/2009 (threshold để hình thành cung = 3). (a) Độ phân cụm (b) Độ phân cụm mở rộng (c) PageRank (d) PageRank có trọng số Hình 2 Kết quả so sánh với dữ liệu 01 học kỳ của tacnghiep_02 Phương pháp độ phân cụm vẫn cho kết quả kém (Hình 2-a) vì khi tỷ lệ lọc thành công thư rác đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Ra te Threshold Spam detection Ham error Hình 2: Kết quả so sánh với dữ liệu 01 học kỳ của tacnghiep_02 Phương pháp độ phân cụm vẫn ho kết quả kém (Hình 2-a) vì khi tỷ lệ lọc hành công thư rác đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất. Về hiệu quả, phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 100% trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.13%. Phương pháp PageRank có tốc độ tính toán nhanh nhất. c. Dữ liệu trong thời gian 03 tháng: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 30/11/2008 (threshold để hình thành cung = 1). Trong Hình 3, phương pháp độ phân cụm vẫn cho kết quả kém (Hình 3-a) vì khi tỷ lệ lọc thành công thư rác đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất. Về hiệu quả, phương pháp PageRank cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 99.8% trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.35%. Phương pháp PageRank cũng có tốc EVALUATING SPAM DETECTION TECHNIQUES USING USER RANKING ALGORITHM 213 độ tính toán nhanh nhất. 10 thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất. Về hiệu quả, phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 100% trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.13%. Phương pháp PageRank có tốc độ tính toán nhanh nhất. c. Dữ liệu trong thời gian 03 tháng: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 30/11/2008 (threshold để hình thành cung = 1). Trong Hình 3, phương pháp độ phân cụm vẫn cho kết quả kém (Hình 3-a) vì khi tỷ lệ lọc thành công thư rác đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất. Về hiệu quả, phương pháp PageRank cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 99.8% trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.35%. Phương pháp PageRank cũng có tốc độ tính toán nhanh nhất. (a) Độ phân cụm (b) Độ phân cụm mở rộng (c) PageRank (d) PageRank có trọng số Hình 3 Kết quả so sánh với dữ liệu 03 tháng của tacnghiep_02 d. Dữ liệu trong thời gian 01 tháng: 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Th re sh o ld Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error Hình 3: Kết quả so sánh với dữ liệu 03 tháng của tacnghiep_02 d. Dữ liệu trong thời gian 01 tháng: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 30/09/2008 (threshold để hình thành cung = 1). Phương pháp độ phân cụm vẫn cho kết quả kém (Hình 4-a), tuy nhiên hiệu quả lọc tốt hơn so với những thí nghiệm trước khi tỷ lệ lọc thành công thư rác đạt 64.4% thì tỷ lệ lọc nhầm thư thật là 1.68%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất. Về hiệu quả, phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 93.82% trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.5%. Phương pháp PageRank có tốc độ tính toán nhanh nhất. 214 TRẦN QUANG ANH, VŨ MINH TUẤN, HÀ QUANG MINH 11 Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 30/09/2008 (threshold để hình thành cung = 1). (a) Độ phân cụm (b) Độ phân cụm mở rộng (c) PageRank (d) PageRank có trọng số Hình 4 Kết quả so sánh với dữ liệu 01 tháng của tacnghiep_02 Phương pháp độ phân cụm vẫn cho kết quả kém (Hình 4-a), tuy nhiên hiệu quả lọc tốt hơn so với những thí nghiệm trước khi tỷ lệ lọc thành công thư rác đạt 64.4% thì tỷ lệ lọc nhầm thư thật là 1.68%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất. Về hiệu quả, phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 93.82% trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.5%. Phương pháp PageRank có tốc độ tính toán nhanh nhất. 4 KẾT LUẬN Phát hiện thư rác và xếp hạng người sử dụng thử điện tử dựa trên thuộc tính của mạng phức hợp (đại diện là mạng thử điện tử) là một phương pháp tiếp cận khá thuyết phục và có nhiều tiềm năng. Phương pháp này đã loại bỏ những hạn chế mà nhưng phương pháp mắc phải. Tuy nhiên, để đánh giá chính xác những điểm mạnh và tồn tại của phương pháp này, chúng ta cần đến một tập dữ liệu hoàn 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 R a te Threshold Spam detection Ham error 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 Ra te Threshold Spam detection Ham error Hình 4: Kết quả so sánh với dữ liệu 01 tháng của tacnghiep_02 4. KẾT LUẬN Phát hiện thư rác và xếp hạng người sử dụng thử điện tử dựa trên thuộc tính của mạng phức hợp (đại diện là mạng thử điện tử) là một phương pháp tiếp cận khá thuyết p ục và có nhiều tiềm năng. Phương pháp này đã loại bỏ những hạn chế mà nhưng phương pháp mắc phải. Tuy nhiên, để đánh giá chính xác những điểm mạnh và tồn tại của phương pháp này, chúng ta cần đến một tập dữ liệu hoàn chỉnh với đầy đủ các yếu tố như các trao đổi nội bộ, thư đến và thư đi cũng như thư rác. Nhóm tác giả bài báo này đã đề xuất một tệp dữ liệu như vậy. Với một tệp dữ liệu tương đối đầy đủ, một loạt các thí nghiệm đã được thực hiện để so sánh tính hiệu quả và thời gian thực thi của bốn phương pháp dựa trên thuộc tính của mạng thư điện tử để lọc thư rác và xếp hạng người dùng. Việc phân tích và so sánh kết quả của các thí nghiệm mang lại rất nhiều ý nghĩa. EVALUATING SPAM DETECTION TECHNIQUES USING USER RANKING ALGORITHM 215 TÀI LIỆU THAM KHẢO [1] N. L. Bui, Q. A. Tran., Q. T. Ha, "User’s authentic rating based on email networks," The First International Conference on Mobile Computing, Communications and Ap- plications (ICMOCCA 2006), pp 144-148 [2] P. O. Boykin and V. Roychowdhury, "Leveraging social networks to fight spam", IEEE Computer, vol. 38, no. (4), pp. :61-68, 2005; "Sorting e-mail friends from foes", Nature News, 19 Feb. 2004 [3] S. Brin, L. Page, "The Anatomy of a Large-Scale Hypertextual Web Search Engine", Proceedings of the 7th international conference on World Wide Web (WWW), Brisbane, Australia, pp. 107–117, 1998 [4] W. Xing, A. Ghorbani, “Weighted PageRank Algorithm”, Proceedings of the Second Annual Conference on Communication Networks and Services Research, pp. 305 – 314, 2004 [5] H. Ebel, L-I. Mielsch and S. Bornholdt, “Scale-free topology of email networks”, Phys. Rev. E, vol. 66, Article Id. 035103 (R), Sept., 2002 [6] M. E. J. Newman, M. E. J. and Watts, D. J. Watts, “Renormalization group analysis of the small-world network model”, Physics Letters A, vol. 263, pp. 341–346, 1999. Ngày nhận bài 02 – 9 – 2013 Nhận lại sau sửa 30 – 7 – 2014
File đính kèm:
- danh_gia_mot_so_ky_thuat_phat_hien_thu_rac_ung_dung_thuat_to.pdf