Đánh giá một số kỹ thuật phát hiện thư rác ứng dụng thuật toán xếp hạng người dùng trong mạng thư điện tử tại trường Đại học Hà Nội - Danh gia mot so ky thuat phat hien thu rac ung dung thuat toan xep hang nguoi dung trong mang thu dien tu tai truong Dai hoc Ha Noi

Tóm tắt Đánh giá một số kỹ thuật phát hiện thư rác ứng dụng thuật toán xếp hạng người dùng trong mạng thư điện tử tại trường Đại học Hà Nội: ... người dùng với 31 cán bộ chủ chốt (CBCC); số lượng thư điện tử là 14320. Tập được thu thập từ 01/9/2008 đến 30/6/2009 (tương đương quãng thời gian một năm học).Tập dữ liệu này hiện nay không có thư rác, vì vậy chưa thể sử dụng để nghiên cứu các thuật toán lọc thư rác mà chỉ dùng để tối ưu các th... xác trong việc xếp hạng người dùng thấp nhất. Trên thực tế, độ chính xác bằng 0.5644 gần tương đương với độ chính xác khi ta sắp xếp ngẫu nhiên. Phương pháp độ phân cụm mở rộng, PageRank cho độ chính xác cao nhất. Phương pháp PageRank có trọng số có độ chính xác hơi thấp hơn phương pháp PageRan...rong thời gian 01 kỳ học: Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 – 31/01/2009 (threshold để hình thành cung = 3). 212 TRẦN QUANG ANH, VŨ MINH TUẤN, HÀ QUANG MINH 9 Bảng 4 Kết quả với dữ liệu 01 năm học của tacnghiep_02 Phương pháp Ngưỡng (S...

13 trang | Chia sẻ: havih72 | Lượt xem: 348 | Lượt tải: 0

Nội dung tài liệu Đánh giá một số kỹ thuật phát hiện thư rác ứng dụng thuật toán xếp hạng người dùng trong mạng thư điện tử tại trường Đại học Hà Nội, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

ừng gửi thư). Theo kết quả trên, chúng tôi lựa chọn chỉ số damping = 0.9 cho các thí nghiệm
tiếp theo.
Tiếp đến là thí nghiệm để tối ưu hóa chu kỳ tính toán của thuật toán PageRank. Chúng
tôi đặt số chu kỳ tính toán bằng các giá trị từ 1 đến 5000, kết quả của độ chính xác của thuật
toán và thời gian chạy của chương trình được ghi lại và đem so sánh.
Kết quả so sánh cho thấy thời gian tính toán tăng tuyến tính (tỷ lệ thuận) với số chu kỳ
tính. Độ chính xác sau chu kỳ thứ 20 là không thay đổi. Chúng tôi chọn số chu kỳ tính toán
bằng 100 cho các thí nghiệm về sau.
Các thí nghiệm tương tự được thực hiện với thuật toán PageRank có trọng số và thu được
kết quả tương đồng.
2 Theo kết quả phân tích số liệu thư điện tử HANU năm 2008, số lượng thư rác chiếm khoảng từ 70-80%
tổng số thư.
208 TRẦN QUANG ANH, VŨ MINH TUẤN, HÀ QUANG MINH
b. Tối ưu hóa ngưỡng (threshold)
Mạng thư điện tử được xây dựng từ dữ liệu thư điện tử, trong đó người dùng là các nút
mạng, còn giao dịch thư điện tử giữa những người dùng với nhau xác định các cung của mạng.
Số lượng thư điện tử giữa hai người dùng lớn hơn số lượng (ngưỡng) nhất định sẽ xác định sự
tồn tại của một cung giữa hai người dùng đó. Tất cả các phương pháp đều cần tối ưu hóa giá
trị ngưỡng này. Tóm lại, threshold ở đây được hiểu là giá trị ngưỡng để hình thành một cung
trong giữ hai người dùng trong mạng thư điện tử. Người đọc cần chú ý để phân biệt với một
threshold khác được nhắc tới trong kết quả thí nghiệm, là ngưỡng của một thư điện tử bị coi
là thư rác hay không.
Chúng tôi sử dụng phương pháp PageRank để tối ưu hóa giá trị ngưỡng. Với các giá trị
ngưỡng tăng dần từ 1 đến 20, chúng tôi tính toán độ chính xác và thời gian chạy của chương
trình và ghi lại kết quả để so sánh.
Đối chiều kết quả tại các ngưỡng, cho thấy tỷ lệ xếp hạng chính xác có xu hướng giảm
khi ngưỡng tăng. Như vậy, việc đặt ngưỡng quá cao dẫn đến giảm lượng thông tin cần thiết
dùng để xếp hạng người dùng. Tuy nhiên tốc độ xử lý tăng lên khi ngưỡng tăng lên. Lý do là
khi ngưỡng tăng lên, lượng thông tin giảm đi, vì vậy tốc độ xử lý tăng lên. Cân nhắc giữa độ
chính xác và tốc độ xử lý, chúng tôi chọn ngưỡng bằng 5 cho các thí nghiệm tiếp theo.
3.3. Thí nghiệm trên tập dữ liệu tacnghiep_1:
a. Dữ liệu trong thời gian 01 năm học:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ
01/09/2008 – 30/06/2009 (threshold để hình thành cung = 5). Độ chính xác và thời gian
chạy của từng phương pháp được thể hiện ở Bảng 1.
Dữ liệu Độ chính xác Thời gian chạy
Độ phân cụm 0.5644 1.945
Độ phân cụm mở rộng 0.7624 1.993
PageRank 0.7624 0.635
PageRank có trọng số 0.7426 1.821
Bảng 1: Kết quả với dữ liệu 01 năm học của tacnghiep_01
Kết quả thí nghiệm cho thấy phương pháp độ phân cụm cho độ chính xác trong việc xếp
hạng người dùng thấp nhất. Trên thực tế, độ chính xác bằng 0.5644 gần tương đương với độ
chính xác khi ta sắp xếp ngẫu nhiên. Phương pháp độ phân cụm mở rộng, PageRank cho độ
chính xác cao nhất. Phương pháp PageRank có trọng số có độ chính xác hơi thấp hơn phương
pháp PageRank. Tốc độ xử lý của phương pháp PageRank là tốt nhất.
EVALUATING SPAM DETECTION TECHNIQUES USING USER RANKING ALGORITHM 209
b. Dữ liệu trong thời gian 01 kỳ học:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ
01/09/2008 – 31/01/2009 (threshold để hình thành cung = 3). Độ chính xác và thời gian
chạy của từng phương pháp được thể hiện ở Bảng 2.
Dữ liệu Độ chính xác Thời gian chạy
Độ phân cụm 0.5644 0.916
Độ phân cụm mở rộng 0.7030 0.943
PageRank 0.7228 0.574
PageRank có trọng số 0.7029 1.455
Bảng 2: Kết quả với dữ liệu 01 học kỳ của tacnghiep_01
Kết quả thu được trong Bảng 2 cũng gần giống với trong Bảng 1, tức là phương pháp độ
phân cụm cho kết quả kém nhất. Phương pháp PageRank có trọng số cho kết quả kém hơn
phương pháp PageRank. Phương pháp PageRank và phương pháp độ phân cụm mở rộng vẫn
là hai phương pháp cho kết quả tốt nhất. Phương pháp PageRank có tốc độ xử lý nhanh nhất.
Phương PageRank có trọng số có tốc độ xử lý chậm nhất.
c. Dữ liệu trong thời gian 03 tháng:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ
01/09/2008 – 30/11/2008 (threshold để hình thành cung = 1). Độ chính xác và thời gian
chạy của từng phương pháp được thể hiện ở Bảng 3.
Dữ liệu Độ chính xác Thời gian chạy
Độ phân cụm 0.5644 0.619
Độ phân cụm mở rộng 0.7228 0.626
PageRank 0.7624 0.798
PageRank có trọng số 0.7030 3.195
Bảng 3: Kết quả với dữ liệu 03 tháng của tacnghiep_01
Đối với tập dữ liệu 3 tháng, phương pháp PageRank và phương pháp độ phân cụm mở
rộng vẫn cho kết quả tốt nhất. Phương pháp PageRank có trọng số cho kết quả kém hơn, và
210 TRẦN QUANG ANH, VŨ MINH TUẤN, HÀ QUANG MINH
cuối cùng là phương pháp độ phân cụm mở rộng. Phương pháp PageRank có trọng số có tốc
độ xử lý chậm nhất.
d. Dữ liệu trong thời gian 01 tháng:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ
01/09/2008 – 30/09/2008 (threshold để hình thành cung = 1). Đối với tập dữ liệu nhỏ,
phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với thời gian tính toán ít nhất.
Phương pháp PageRank có độ chính xác thứ 2. Phương pháp độ phân cụm cho kết quả kém
nhất.
e. Đánh giá:
Từ kết quả thí nghiệm trên, ta thấy phương pháp PageRank và phương pháp độ phân cụm
mở rộng là hai phương pháp cho kết quả tốt nhất trong việc xếp hạng người dùng. Phương
pháp PageRank có trọng số cho kết quả kém hơn và phương pháp độ phân cụm cho kết quả
kém nhất.
Khi độ lớn của tập dữ liệu giảm dần từ 1 năm học đến 1 tháng, phương pháp PageRank
cho độ chính xác giảm dần, trong khi tốc độ xử lý không thay đổi (có thể thấy rằng, tốc độ
xử lý của phương pháp PageRank chủ yếu phụ thuộc vào số chu kỳ tính toán). Khi độ lớn
của tập dữ liệu giảm dần, phương pháp độ phân cụm mở rộng cho tốc độ tính toán tăng dần,
đồng thời độ chính xác cũng có chiều hướng tăng lên. Như vậy phương pháp PageRank thích
hợp với những tập mẫu lớn, còn phương pháp độ phân cụm mở rộng thích hợp với những tập
mẫu nhỏ.
3.4. Thí nghiệm trên tập dữ liệu tacnghiep_2:
Đối với tập dữ liệu tacnghiep_2, sau khi đã được thêm vào một tỷ lệ thư rác nhất định,
chúng tôi đánh giá hiệu quả của phương pháp dựa trên đồ thị ROC bao gồm 2 chỉ số: tỷ lệ
lọc chính xác thư rác và tỷ lệ lọc nhầm thư thật.
a. Dữ liệu trong thời gian 01 năm học:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ
01/09/2008 – 30/06/2009 (threshold để hình thành cung = 5).
Trong Hình 1, ở mọi trường hợp ta đều có khi tăng giá trị ngưỡng, tỷ lệ lọc thành công
thư rác tăng lên đồng thời tỷ lệ lọc nhầm thư thật cũng tăng theo. Phương pháp độ phân
cụm cho kết quả kém (Hình 1-a) vì khi tỷ lệ lọc thành công thư rác đạt trên 90% thì tỷ lệ lọc
nhầm thư thật cũng trên 80%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị
thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật
là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5%
và tỷ lệ lọc thành công thư rác lớn nhất.
Theo Bảng 4, phương pháp PageRank có tốc độ tính toán nhanh nhất. Phương pháp
PageRank có trọng số có tốc độ tính toán chậm nhất. Về hiệu quả, phương pháp độ phân cụm
mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 100% trong khi tỷ lệ lọc nhầm thư
thật là 0%.
EVALUATING SPAM DETECTION TECHNIQUES USING USER RANKING ALGORITHM 211
8
hướng tăng lên. Như vậy phương pháp PageRank thích hợp với những tập mẫu lớn, còn phương pháp
độ phân cụm mở rộng thích hợp với những tập mẫu nhỏ.
3.4 Thí nghiệm trên tập dữ liệu tacnghiep_2:
Đối với tập dữ liệu tacnghiep_2, sau khi đã được thêm vào một tỷ lệ thư rác nhất định, chúng
tôi đánh giá hiệu quả của phương pháp dựa trên đồ thị ROC bao gồm 2 chỉ số: tỷ lệ lọc chính xác thư
rác và tỷ lệ lọc nhầm thư thật.
a. Dữ liệu trong thời gian 01 năm học:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008
– 30/06/2009 (threshold để hình thành cung = 5).
(a) Độ phân cụm (b) Độ phân cụm mở rộng
(c) PageRank (d) PageRank có trọng số
Hình 1 Kết quả so sánh với dữ liệu 01 năm của tacnghiep_02
Trong Hình 1, ở mọi trường hợp ta đều có khi tăng giá trị ngưỡng, tỷ lệ lọc thành công thư rác
tăng lên đồng thời tỷ lệ lọc nhầm thư thật cũng tăng theo. Phương pháp độ phân cụm cho kết quả kém
(Hình 1-a) vì khi tỷ lệ lọc thành công thư rác đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%.
Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư
rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng
cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất.
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
at
e
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Ra
te
Threshold
Spam detection
False positive
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
Hình 1: Kết quả so sánh với dữ liệu 01 năm của tacnghiep_02
Phương pháp
Ngưỡng Tỷ lệ lọc thành Tỷ lệ lọc Thời gian
(Spam hay Ham) công ư rác nhầm thư thật tính
Độ phân cụm 0.006 0 0.003 1m38.097s
Độ phân cụm mở rộng 0.005 1.0 0.0 1m37.366s
PageRank 0.016 1.0 0.0042 18.084s
PageRank có trọng số 0.004 0.9965 0.0060 3m58.702s
Bảng 4: Kết quả với dữ liệu 01 năm học của tacnghiep_02
b. Dữ liệu trong thời gian 01 kỳ học:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ
01/09/2008 – 31/01/2009 (threshold để hình thành cung = 3).
212 TRẦN QUANG ANH, VŨ MINH TUẤN, HÀ QUANG MINH
9
Bảng 4 Kết quả với dữ liệu 01 năm học của tacnghiep_02
Phương pháp Ngưỡng (Spam
hay Ham)
Tỷ lệ lọc thành
công thư rác
Tỷ lệ lọc nhầm
thư thật
Thời gian
tính
Độ phân cụm 0.006 0 0.003 1m38.097s
Độ phân cụm mở rộng 0.005 1.0 0.0 1m37.366s
PageRank 0.016 1.0 0.0042 18.084s
PageRank có trọng số 0.004 0.9965 0.0060 3m58.702s
Theo Bảng 4, phương pháp PageRank có tốc độ tính toán nhanh nhất. Phương pháp PageRank
có trọng số có tốc độ tính toán chậm nhất. Về hiệu quả, phương pháp độ phân cụm mở rộng cho kết
quả tốt nhất với tỷ lệ lọc thành thư rác là 100% trong khi tỷ lệ lọc nhầm thư thật là 0%.
b. Dữ liệu trong thời gian 01 kỳ học:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008
– 31/01/2009 (threshold để hình thành cung = 3).
(a) Độ phân cụm (b) Độ phân cụm mở rộng
(c) PageRank
(d) PageRank có trọng số
Hình 2 Kết quả so sánh với dữ liệu 01 học kỳ của tacnghiep_02
Phương pháp độ phân cụm vẫn cho kết quả kém (Hình 2-a) vì khi tỷ lệ lọc thành công thư rác
đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%. Các phương pháp còn lại đều cho kết quả khá
tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Ra
te
Threshold
Spam detection
Ham error
Hình 2: Kết quả so sánh với dữ liệu 01 học kỳ của tacnghiep_02
Phương pháp độ phân cụm vẫn ho kết quả kém (Hình 2-a) vì khi tỷ lệ lọc hành công thư
rác đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%. Các phương pháp còn lại đều cho
kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong
khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc
nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất. Về hiệu quả, phương
pháp độ phân cụm mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 100% trong
khi tỷ lệ lọc nhầm thư thật chỉ có 0.13%. Phương pháp PageRank có tốc độ tính toán nhanh
nhất.
c. Dữ liệu trong thời gian 03 tháng:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ
01/09/2008 – 30/11/2008 (threshold để hình thành cung = 1).
Trong Hình 3, phương pháp độ phân cụm vẫn cho kết quả kém (Hình 3-a) vì khi tỷ lệ lọc
thành công thư rác đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%. Các phương pháp
còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp
xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng
cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất.
Về hiệu quả, phương pháp PageRank cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là
99.8% trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.35%. Phương pháp PageRank cũng có tốc
EVALUATING SPAM DETECTION TECHNIQUES USING USER RANKING ALGORITHM 213
độ tính toán nhanh nhất.
10
thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ
lệ lọc thành công thư rác lớn nhất.
Về hiệu quả, phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là
100% trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.13%. Phương pháp PageRank có tốc độ tính toán
nhanh nhất.
c. Dữ liệu trong thời gian 03 tháng:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 –
30/11/2008 (threshold để hình thành cung = 1).
Trong Hình 3, phương pháp độ phân cụm vẫn cho kết quả kém (Hình 3-a) vì khi tỷ lệ lọc thành
công thư rác đạt trên 90% thì tỷ lệ lọc nhầm thư thật cũng trên 80%. Các phương pháp còn lại đều cho
kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ
lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ
hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất.
Về hiệu quả, phương pháp PageRank cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là 99.8%
trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.35%. Phương pháp PageRank cũng có tốc độ tính toán
nhanh nhất.
(a) Độ phân cụm (b) Độ phân cụm mở rộng
(c) PageRank (d) PageRank có trọng số
Hình 3 Kết quả so sánh với dữ liệu 03 tháng của tacnghiep_02
d. Dữ liệu trong thời gian 01 tháng:
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Th
re
sh
o
ld
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
Hình 3: Kết quả so sánh với dữ liệu 03 tháng của tacnghiep_02
d. Dữ liệu trong thời gian 01 tháng:
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ
01/09/2008 – 30/09/2008 (threshold để hình thành cung = 1).
Phương pháp độ phân cụm vẫn cho kết quả kém (Hình 4-a), tuy nhiên hiệu quả lọc tốt hơn
so với những thí nghiệm trước khi tỷ lệ lọc thành công thư rác đạt 64.4% thì tỷ lệ lọc nhầm
thư thật là 1.68%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold
nhỏ, tỷ lệ lọc thành công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ.
Chúng tôi lựa chọn các giá trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc
thành công thư rác lớn nhất.
Về hiệu quả, phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành
thư rác là 93.82% trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.5%. Phương pháp PageRank có
tốc độ tính toán nhanh nhất.
214 TRẦN QUANG ANH, VŨ MINH TUẤN, HÀ QUANG MINH
11
Chúng tôi sử dụng các tham số đã được tối ưu như bên trên. Thời gian dữ liệu từ 01/09/2008 –
30/09/2008 (threshold để hình thành cung = 1).
(a) Độ phân cụm
(b) Độ phân cụm mở rộng
(c) PageRank
(d) PageRank có trọng số
Hình 4 Kết quả so sánh với dữ liệu 01 tháng của tacnghiep_02
Phương pháp độ phân cụm vẫn cho kết quả kém (Hình 4-a), tuy nhiên hiệu quả lọc tốt hơn so với
những thí nghiệm trước khi tỷ lệ lọc thành công thư rác đạt 64.4% thì tỷ lệ lọc nhầm thư thật là
1.68%. Các phương pháp còn lại đều cho kết quả khá tốt khi giá trị thereshold nhỏ, tỷ lệ lọc thành
công thư rác là xấp xỉ 100%, trong khi tỷ lệ lọc nhầm thư thật là rất nhỏ. Chúng tôi lựa chọn các giá
trị ngưỡng cho tỷ lệ lọc nhầm thư thật nhỏ hơn 0.5% và tỷ lệ lọc thành công thư rác lớn nhất.
Về hiệu quả, phương pháp độ phân cụm mở rộng cho kết quả tốt nhất với tỷ lệ lọc thành thư rác là
93.82% trong khi tỷ lệ lọc nhầm thư thật chỉ có 0.5%. Phương pháp PageRank có tốc độ tính toán
nhanh nhất.
4 KẾT LUẬN
Phát hiện thư rác và xếp hạng người sử dụng thử điện tử dựa trên thuộc tính của mạng phức hợp
(đại diện là mạng thử điện tử) là một phương pháp tiếp cận khá thuyết phục và có nhiều tiềm năng.
Phương pháp này đã loại bỏ những hạn chế mà nhưng phương pháp mắc phải. Tuy nhiên, để đánh giá
chính xác những điểm mạnh và tồn tại của phương pháp này, chúng ta cần đến một tập dữ liệu hoàn
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
R
a
te
Threshold
Spam detection
Ham error
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Ra
te
Threshold
Spam detection
Ham error
Hình 4: Kết quả so sánh với dữ liệu 01 tháng của tacnghiep_02
4. KẾT LUẬN
Phát hiện thư rác và xếp hạng người sử dụng thử điện tử dựa trên thuộc tính của mạng
phức hợp (đại diện là mạng thử điện tử) là một phương pháp tiếp cận khá thuyết p ục và có
nhiều tiềm năng. Phương pháp này đã loại bỏ những hạn chế mà nhưng phương pháp mắc
phải. Tuy nhiên, để đánh giá chính xác những điểm mạnh và tồn tại của phương pháp này,
chúng ta cần đến một tập dữ liệu hoàn chỉnh với đầy đủ các yếu tố như các trao đổi nội bộ,
thư đến và thư đi cũng như thư rác. Nhóm tác giả bài báo này đã đề xuất một tệp dữ liệu
như vậy.
Với một tệp dữ liệu tương đối đầy đủ, một loạt các thí nghiệm đã được thực hiện để so
sánh tính hiệu quả và thời gian thực thi của bốn phương pháp dựa trên thuộc tính của mạng
thư điện tử để lọc thư rác và xếp hạng người dùng. Việc phân tích và so sánh kết quả của các
thí nghiệm mang lại rất nhiều ý nghĩa.
EVALUATING SPAM DETECTION TECHNIQUES USING USER RANKING ALGORITHM 215
TÀI LIỆU THAM KHẢO
[1] N. L. Bui, Q. A. Tran., Q. T. Ha, "User’s authentic rating based on email networks,"
The First International Conference on Mobile Computing, Communications and Ap-
plications (ICMOCCA 2006), pp 144-148
[2] P. O. Boykin and V. Roychowdhury, "Leveraging social networks to fight spam", IEEE
Computer, vol. 38, no. (4), pp. :61-68, 2005; "Sorting e-mail friends from foes", Nature
News, 19 Feb. 2004
[3] S. Brin, L. Page, "The Anatomy of a Large-Scale Hypertextual Web Search Engine",
Proceedings of the 7th international conference on World Wide Web (WWW), Brisbane,
Australia, pp. 107–117, 1998
[4] W. Xing, A. Ghorbani, “Weighted PageRank Algorithm”, Proceedings of the Second
Annual Conference on Communication Networks and Services Research, pp. 305 – 314,
2004
[5] H. Ebel, L-I. Mielsch and S. Bornholdt, “Scale-free topology of email networks”, Phys.
Rev. E, vol. 66, Article Id. 035103 (R), Sept., 2002
[6] M. E. J. Newman, M. E. J. and Watts, D. J. Watts, “Renormalization group analysis of
the small-world network model”, Physics Letters A, vol. 263, pp. 341–346, 1999.
Ngày nhận bài 02 – 9 – 2013
Nhận lại sau sửa 30 – 7 – 2014

File đính kèm:

danh_gia_mot_so_ky_thuat_phat_hien_thu_rac_ung_dung_thuat_to.pdf