Bài giảng Khai quá dữ liệu - Chương 2: Tiền xử lý dữ liệu

Tóm tắt Bài giảng Khai quá dữ liệu - Chương 2: Tiền xử lý dữ liệu: ...(có phân loại), thứ tự, số,... – Với các trường kiểu tên: các bảng chuyển mã thành mô tả đầy đủ • Vai trò của trường • Mô tả trường Chương 2: Tiền xử lý dữ liệu Làm sạch dữ liệu Chuyển dữ liệu sang dạng chuẩn (Vd: arff (file thuộc tính-quan hệ), csv (dấu phẩy tách giá trị) ) – Cá... Chương 2: Tiền xử lý dữ liệu Phương pháp rời rạc hóa đơn giản Chia khoảng cách thành các khoảng có độ rộng bằng nhau: – Chia dãy (vùng) thành N khoảng có kích thước bằng nhau: lưới đồng dạng – if A và B lần lượt là giá trị thuộc tính thấp nhất và cao nhất thì độ dài của các khoảng s... nhau trong các CSDL khác nhau – Một thuộc tính có thể là thuộc tính dẫn xuất trong một bảng khác. VD: lợi tức hàng năm • DL dư thừa có thể được phát hiện bởi phân tích tương quan • Sự tích hợp tốt dữ liệu từ nhiều nguồn có thể giúp giảm/tránh các dư thừa và mâu thuẫn để tăng tốc độ ...

pdf26 trang | Chia sẻ: havih72 | Lượt xem: 343 | Lượt tải: 0download
Nội dung tài liệu Bài giảng Khai quá dữ liệu - Chương 2: Tiền xử lý dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Chất lượng dữ liệu 
Mục tiêu chính của việc chuẩn bị dữ liệu: 
- Để sắp xếp dữ liệu thành ở dạng chuẩn sẵn 
sàng được xử lý bởi các chương trình khai 
phá dữ liệu. 
- Để chuẩn bị các đặc tính tốt nhất cho việc 
khai phá 
Chương 2: Tiền xử lý dữ liệu 
Tại sao phải tiền xử lý dữ liệu? 
- Dữ liệu trong thế giới thực là hỗn tạp 
• Không đầy đủ: thiếu giá trị thuộc tính, thiếu các 
thuộc tính chắc chắn cần quan tâm, hoặc chỉ chứa 
dữ liệu chung 
• Nhiễu: chứa dữ liệu bị lỗi hoặc bị lệch 
• Không nhất quán (mâu thuẫn): chứa các mã hoặc 
các tên mâu thuẫn nhau 
- Dữ liệu không đảm bảo chất lượng thì kết quả khai 
phá không hiệu quả 
• Chất lượng các quyết định phải dựa trên chất 
lượng dữ liệu 
• Kho dữ liệu cần dữ liệu cần sự tích hợp nhất quán 
của dữ liệu có chất lượng. 
Chương 2: Tiền xử lý dữ liệu 
* Dữ liệu bị lệch 
Lệch là các đối tượng dữ liệu có các đặc tính khác 
đáng kể với phần lớn các đối tượng dữ liệu khác trong 
tập dữ liệu. 
Chương 2: Tiền xử lý dữ liệu 
Tại sao phải tiền xử lý dữ liệu? 
* Các giá trị bị mất 
– Không thu thập được thông tin 
Ví dụ: người được điều tra từ chối không cung cấp thông tin tuổi 
và cân nặng của họ 
– Các thuộc tính không phù hợp trong mọi trường hợp 
Ví dụ: thu nhập hàng năm không áp dụng cho trẻ con 
Các vấn đề dữ liệu 
• Dữ liệu nào có sẵn cho nhiệm vụ khai phá? 
• Dữ liệu có phù hợp không? 
• Dữ liệu thích hợp bổ sung có sẵn không? 
• Dữ liệu lịch sử có sẵn được bao nhiêu? 
• Ai là chuyên gia dữ liệu ? 
Chương 2: Tiền xử lý dữ liệu 
Các chiều đo chất lượng dữ liệu 
• Độ chính xác 
• Tính đầy đủ 
• Tính nhất quán 
• Tính hợp thời 
• Độ tin cậy 
• Giá trị được bổ sung 
• Tính có thể hiểu được 
• Tính có thể truy cập được 
Chương 2: Tiền xử lý dữ liệu 
Nhiệm vụ chính trong tiền xử lý dữ liệu 
• Làm sạch dữ liệu: 
– Bổ sung các giá trị bị mất, làm trơn nhiễu, nhận dạng hoặc khử 
lệch, giải quyết các vấn đề không nhất quán 
• Tích hợp dữ liệu 
– Tích hợp dữ liệu từ nhiều CSDL, từ các khối dữ liệu hoặc từ các file 
• Biến đổi dữ liệu 
– Chuẩn hóa hoặc kết hợp 
• Thu nhỏ dữ liệu 
– Có được biểu diễn dữ liệu dạng thu nhỏ nhưng không ảnh hưởng tới kết 
quả phân tích 
• Rời rạc hóa dữ liệu 
– Một phần của thu nhỏ dữ liệu nhưng đặc biệt quan trọng với dữ liệu 
dạng số 
Chương 2: Tiền xử lý dữ liệu 
Làm sạch dữ liệu 
Các nhiệm vụ làm sạch dữ liệu: 
– Thu nhận dữ liệu và siêu dữ liệu 
– Bổ sung các giá trị dữ liệu bị mất 
– Thống nhất định dạng ngày tháng 
– Chuyển đổi các giá trị dạng số 
– Xác định lệch và làm trơn nhiễu 
– Làm đúng dữ liệu không nhất quán 
Chương 2: Tiền xử lý dữ liệu 
Làm sạch dữ liệu: 
• Dữ liệu có trong các hệ quản trị CSDL: 
– Các giao thức ODBC, JDBC 
• Dữ liệu trong file: 
– Định dạng các cột cố định 
– Định dạng phân cách: tab, dấu “,”, ... 
• Phân biệt số lượng các trường trước khi làm sạch và 
sau khi làm sạch 
Chương 2: Tiền xử lý dữ liệu 
Làm sạch dữ liệu 
• Các kiểu trường: 
– Nhị phân, tên (có phân loại), thứ tự, số,... 
– Với các trường kiểu tên: các bảng chuyển mã 
thành mô tả đầy đủ 
• Vai trò của trường 
• Mô tả trường 
Chương 2: Tiền xử lý dữ liệu 
Làm sạch dữ liệu 
Chuyển dữ liệu sang dạng chuẩn (Vd: arff 
(file thuộc tính-quan hệ), csv (dấu phẩy tách 
giá trị) ) 
– Các giá trị bị mất 
– Định dạng ngày tháng được hợp nhất 
– Sắp xếp dữ liệu dạng số 
– Xác định lỗi và lệch 
– Chuyển các trường tên có giá trị được sắp xếp 
thành dạng số 
Chương 2: Tiền xử lý dữ liệu 
Dữ liệu bị mất 
• Dữ liệu không luôn có sẵn 
– VD: nhiều bộ dữ liệu có các thuộc tính không có 
dữ liệu, như thu nhập khách hàng trong dữ liệu 
bán hàng 
• Dữ liệu bị mất do: 
– Sự cố thiết bị 
– Mâu thuẫn với các bản ghi khác và do đó bị xóa 
– Dữ liệu không được nhập vào do hiểu nhầm 
– Không nhận thấy tầm quan trọng của dữ liệu 
nhập vào 
– Không ghi nhận lịch sử hoặc sự thay đổi dữ liệu 
Chương 2: Tiền xử lý dữ liệu 
Giải quyết dữ liệu bị mất 
• Bỏ qua: thường được dùng khi nhãn lớp 
bị mất 
• Điền giá trị bị mất bằng tay: nhàm chán + 
bất tiện? 
• Dùng một giá trị chung cho giá trị bị mất: 
 VD: “unknown” 
• Tóm lại: dùng giá trị thuộc tính trung 
bình để điền vào các giá trị bị mất, hoặc 
dùng giá trị thuộc tính trung bình cho tất 
cả các mẫu thuộc về cùng một lớp để điền 
vào các giá trị bị mất. 
Chương 2: Tiền xử lý dữ liệu 
Dữ liệu nhiễu 
• Nhiễu là sự thay đổi giá trị gốc của dữ liệu 
 Ví dụ: sự biến dạng giọng nói của người khi nói trên 
một điện thoại có chất lượng kém và hiện tượng “mè” trên 
tivi 
Chương 2: Tiền xử lý dữ liệu 
Giải quyết dữ liệu nhiễu 
• Dãy: 
– Sắp xếp dữ liệu và chia thành các dãy (có 
chiều dài bằng nhau) 
– Sử dụng các phương pháp làm trơn nhiễu 
như: giá trị dãy trung bình, trung vị hoặc biên 
• Phân nhóm: 
– Phát hiện và khử lệch 
• Kết hợp người và máy: 
– Máy phát hiện giá trị nghi ngờ và con người 
kiểm tra lại 
• Hồi qui: 
– Làm trơn bằng cách đưa dữ liệu vào các hàm 
hồi qui 
Chương 2: Tiền xử lý dữ liệu 
Phương pháp rời rạc hóa đơn giản 
Chia khoảng cách thành các khoảng có độ 
rộng bằng nhau: 
– Chia dãy (vùng) thành N khoảng có kích 
thước bằng nhau: lưới đồng dạng 
– if A và B lần lượt là giá trị thuộc tính thấp 
nhất và cao nhất thì độ dài của các khoảng sẽ 
là: W = (B-A)/N 
– Nhưng dữ liệu lệch có thể sẽ chiếm ưu thế và 
không được xử lý tốt 
Chương 2: Tiền xử lý dữ liệu 
Phương pháp rời rạc hóa đơn giản 
Chia tần số thành các khoảng có độ sâu bằng 
nhau: 
– Chia dãy (vùng) thành N khoảng, mỗi khaỏng 
chứa xấp xỉ cùng số lượng mẫu 
– Phương pháp này cho tỉ lệ chia dữ liệu tốt 
– Nhưng việc quản lý các loại thuộc tính có thể 
bị sai lệch 
Chương 2: Tiền xử lý dữ liệu 
Làm trơn dữ liệu bằng phương pháp dãy 
Chương 2: Tiền xử lý dữ liệu 
• Giả sử có dãy dữ liệu giá (đôla) được sắp 
xếp như sau: 4, 8, 9, 15, 21, 21, 24, 25, 26, 
28, 29, 34 
• Chia thành các dãy có độ rộng bằng 
nhau: 
– -Bin 1: 4, 8, 9, 15 
– -Bin 2: 21, 21, 24, 25 
– -Bin 3: 26, 28, 29, 34 
• Làm trơn bằng phương pháp giá trị 
trung bình: 
– -Bin 1: 9, 9, 9, 9 
– -Bin 2: 23, 23, 23, 23 
– -Bin 3: 29, 29, 29, 29 
• Làm trơn bằng phương pháp biên: 
– -Bin 1: 4, 4, 4, 15 
– -Bin 2: 21, 21, 25, 25 
– -Bin 3: 26, 26, 26, 34 
Tích hợp dữ liệu 
• Tích hợp dữ liệu: 
– Kết hợp dữ liệu từ nhiều nguồn thành một kho 
lưu trữ 
• Tích hợp lược đồ: 
– Tích hợp siêu dữ liệu từ nhiều nguồn khác nhau 
– Vấn đề định danh đối tượng: xác định các thực 
thể trong thế giới thực từ nhiều nguồn dữ liệu: 
• VD: A.cust-id ≡B.cust-# 
– Phát hiện và giải quyết mâu thuẫn dữ liệu: 
• Với cùng một thực thể trong thế giới thực, các giá trị 
thuộc tính từ nhiều nguồn khác nhau là khác nhau 
• Lý do: khác sự trình diễn, khác tỉ lệ 
– VD: đơn vị đo mét với inche 
Chương 2: Tiền xử lý dữ liệu 
Giải quyết dữ liệu dư thừa trong tích hợp dữ liệu 
• Dư thừa DL xảy ra khi tích hợp DL từ 
nhiều CSDL 
– Cùng thuộc tính có thể có nhiều tên khác 
nhau trong các CSDL khác nhau 
– Một thuộc tính có thể là thuộc tính dẫn xuất 
trong một bảng khác. VD: lợi tức hàng năm 
• DL dư thừa có thể được phát hiện bởi 
phân tích tương quan 
• Sự tích hợp tốt dữ liệu từ nhiều nguồn có 
thể giúp giảm/tránh các dư thừa và mâu 
thuẫn để tăng tốc độ và chất lượng khai 
phá 
Chương 2: Tiền xử lý dữ liệu 
Biến đổi dữ liệu 
• Làm trơn: giảm nhiễu 
• Kết hợp: tổng quát hóa, xây dựng DL dạng 
khối 
• Tổng quát hóa: khái niệm cấu trúc phân 
cấp 
• Chuẩn hóa: đo trong một vùng dữ liệu nhỏ, 
xác định: 
– Chuẩn hóa min-max 
– Chuẩn hóa z-score 
– Chuẩn hóa bằng tỉ lệ động 
• Xây dựng cấu trúc thuộc tính/đặc tính 
– Xây dựng các thuộc tính mới từ các thuộc tính 
đã cho trước đó 
Chương 2: Tiền xử lý dữ liệu 
Thu nhỏ dữ liệu 
• Các kho dữ liệu có thể chứa tới hàng 
terabyte dữ liệu: phân tích/khai phá dữ liệu phức 
tạp có thể mất rất nhiều thời gian nếu thực hiện tập DL 
đầy đủ 
• Thu nhỏ dữ liệu: 
– Có được dữ liệu trình diễn nhỏ hơn nhưng 
không ảnh hưởng tới kết quả phân tích 
• Các chiến lược thu nhỏ DL: 
– Kết hợp DL thành dạng khối 
– Giảm chiều DL 
– Giảm DL dạng số 
– Rời rạc hóa và sinh ra khái niệm phân cấp 
(kế thừa) 
Chương 2: Tiền xử lý dữ liệu 
Kết hợp DL 
• Kết hợp hai hay nhiều thuộc tính (đối 
tượng) thành một thuộc tính (đối tượng) 
• Mục đích: 
– Thu nhỏ dữ liệu 
Giảm số thuộc tính của dữ liệu 
– Thay đổi tỉ lệ dữ liệu 
Các thành phố được kết hợp lại thành các 
vùng, các bang, các quốc gia... 
– Tạo ra sự bền vững cho dữ liệu 
Các dữ liệu được kết hợp có khuynh hướng ít 
thay đổi 
Chương 2: Tiền xử lý dữ liệu 
Mẫu hóa 
• Mẫu hóa là kỹ thuật chính được sử dụng 
trong lựa chọn dữ liệu 
• Thực hiện thống kê mẫu vì để có được 
toàn bộ tập dữ liệu cần quan tâm thì phải 
tốn chi phí lớn hoặc mất nhiều thời gian 
• Mẫu hóa được sử dụng trong khai phá dữ 
liệu vì nếu xử lý toàn bộ tập dữ liệu thì 
phải tốn chi phí lớn hoặc mất nhiều thời 
gian 
Chương 2: Tiền xử lý dữ liệu 
Mẫu hóa 
• Nguyên tắc chính của mẫu hóa hiệu quả là: 
– Sử dụng một mẫu sẽ làm việc cũng như được 
sử dụng trong toàn bộ tập dữ liệu, nếu mẫu đó 
là tiêu biểu 
– Một mẫu là tiêu biểu nếu nó có xấp xỉ thuộc 
tính cùng với tập dữ liệu gốc 
Chương 2: Tiền xử lý dữ liệu 
Rời rạc hóa và khái niệm phân cấp 
• Rời rạc hóa: 
– Thu nhỏ số lượng giá trị của một thuộc tính 
có giá trị liên tục cho trước bằng cách chia 
vùng thuộc tính thành các khoảng. Các nhãn 
khoảng có thể được dùng để thay thế giá trị 
DL thực sự 
• Khái niệm phân cấp: 
– Thu nhỏ DL bằng cách tập hợp và thay thế 
các khái niệm mức thấp (như giá trị kiểu số 
cho thuộc tính tuổi) bằng khái niệm mức cao 
hơn (như trẻ, trung niên, hoặc lão niên) 
Chương 2: Tiền xử lý dữ liệu 
Rời rạc hóa và sinh ra khái niệm phân cấp cho DL 
kiểu số 
• Dãy 
• Phân tích histogram 
• Phân tích nhóm 
• Rời rạc hóa dựa trên entropy 
• Phân đoạn bằng cách chia tự nhiên 
Chương 2: Tiền xử lý dữ liệu 

File đính kèm:

  • pdfbai_giang_khai_qua_du_lieu_chuong_2_tien_xu_ly_du_lieu.pdf