Bài giảng Khai quá dữ liệu - Chương 1: Tổng quan

Tóm tắt Bài giảng Khai quá dữ liệu - Chương 1: Tổng quan: ...g 1: Tổng quan Các lĩnh vực có liên quan đến khám phá tri thức? - Học máy - Thống kê, phân tích dữ liệu - Kho dữ liệu - Hệ chuyên gia Chương 1: Tổng quan Các ứng dụng trong khai phá dữ liệu? - Phân tích dữ liệu, hỗ trợ ra quyết định: * Phân tích quản lý thị trường * Quản lý và ...chọn tác vụ khai phá dữ liệu Chương 1: Tổng quan Tiến trình khai phá dữ liệu? (tt) Chọn phương pháp khai phá dữ liệu Khai phá dữ liệu: Tìm kiếm tri thức Đánh giá mẫu tìm được Biểu diễn tri thức Sử dụng các tri thức vừa khám phá Chương 1: Tổng quan Các kỹ thuật khai phá dữ liệu? -...i quy (regession) Chương 1: Tổng quan Các phương pháp khai phá dữ liệu thông dụng? - Phân lớp dữ liệu: dự đoán nhãn lớp cho các mẫu dữ liệu - Phân cụm dữ liệu: nhóm các đối tượng tương tự nhau vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng - Hồi quy: ánh xạ mục ...

pdf14 trang | Chia sẻ: havih72 | Lượt xem: 156 | Lượt tải: 0download
Nội dung tài liệu Bài giảng Khai quá dữ liệu - Chương 1: Tổng quan, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Vì sao phải khám phá tri thức và khai phá dữ liệu? 
- Khối lượng dữ liệu lớn 
- Nhu cầu trợ giúp nhanh ra quyết định 
- Tìm kiếm tri thức tiềm ẩn 
- Tìm kiếm các mô hình, dự báo ẩn sâu trong cơ 
sở dữ liệu 
Chương 1: Tổng quan 
Khám phá tri thức là gì? 
Khám phá kiến thức là quá trình xác định giá trị, 
tính hữu ích, và các mô hình tối ưu trong hệ cơ 
sở dữ liệu. 
Khai phá dữ liệu là gì? 
Khai phá dữ liệu là một bước trong quá trình 
phát hiện kiến thức bao gồm các thuật toán khai 
thác hệ dữ liệu theo các phương pháp cụ thể để 
tìm ra các mẫu hoặc các mô hình trong dữ liệu. 
Chương 1: Tổng quan 
Tiến trình KDD 
Raw data 
Operational 
database 
input Data PreProcessing 
Data Mining PostProcessing Result 
Utilization 
Time base 
selection 
Cleaned 
verified 
focused 
Eval of 
interestingness 
Selected 
useable 
paterns 
Chương 1: Tổng quan 
Lợi ích của khai phá dữ liệu? 
- Cung cấp tri thức hỗ trợ ra quyết định 
- Dự báo 
- Khái quát dữ liệu 
Chương 1: Tổng quan 
Chương 1: Tổng quan 
Chương 1: Tổng quan 
Các lĩnh vực có liên quan đến khám phá tri thức? 
- Học máy 
- Thống kê, phân tích dữ liệu 
- Kho dữ liệu 
- Hệ chuyên gia 
Chương 1: Tổng quan 
Các ứng dụng trong khai phá dữ liệu? 
- Phân tích dữ liệu, hỗ trợ ra quyết định: 
 * Phân tích quản lý thị trường 
 * Quản lý và phân tích rủi ro 
 * Quản lý và phân tích các sai hỏng 
- Nghiên cứu khoa học và hệ thống thông tin: 
 * Khai thác dữ liệu web, văn bản text,.. 
 * Quản lý mạng, internet 
 * Khảo sát, cơ sở dữ liệu,... 
Chương 1: Tổng quan 
Tiến trình khai phá dữ liệu? 
Nghiên cứu lĩnh vực và đặt bài toán 
Tạo và thu thập dữ liệu đầu vào 
Tiền xử lý dữ liệu: làm sạch,mã hóa,.. 
Rút gọn/chiều 
Lựa chọn tác vụ khai phá dữ liệu 
Chương 1: Tổng quan 
Tiến trình khai phá dữ liệu? (tt) 
Chọn phương pháp khai phá dữ liệu 
Khai phá dữ liệu: Tìm kiếm tri thức 
Đánh giá mẫu tìm được 
Biểu diễn tri thức 
Sử dụng các tri thức vừa khám phá 
Chương 1: Tổng quan 
Các kỹ thuật khai phá dữ liệu? 
- Kỹ thuật khai phá dữ liệu mô tả: 
 * Mô tả về các tính chất hoặc các đặc tính chung của dữ liệu 
tring cơ sở dữ liệu hiện có 
 * Các kỹ thuật này gồm có: Phân cụm (clustering), phân tích 
luật kết hợp (association rules)  
- Kỹ thuật khai phá dữ liệu dự đoán: 
 * Đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện 
thời. 
 * Các kỹ thuật này gồm có: Phân lớp (classification), hồi quy 
(regession) 
Chương 1: Tổng quan 
Các phương pháp khai phá dữ liệu thông dụng? 
- Phân lớp dữ liệu: dự đoán nhãn lớp cho các 
mẫu dữ liệu 
- Phân cụm dữ liệu: nhóm các đối tượng tương tự 
nhau vào các cụm sao cho các đối tượng thuộc 
cùng một lớp là tương đồng 
- Hồi quy: ánh xạ mục dữ liệu thành một biến dự 
đoán có giá trị thực 
- Luật kết hợp: phát hiện và đưa ra các mối liên 
hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu 
Chương 1: Tổng quan 
Những khó khăn trong khai phá dữ liệu? 
- Dữ liệu lớn, kích thước lớn 
- Dữ liệu động 
- Các trường dữ liệu không phù hợp 
- Các giá trị bị thiếu 
- Các trường dữ liệu bị thiếu 
- Quá phù hợp 
- Khả năng biểu đạt mẫu 
- Sự tương tác với người sử dụng các tri thức sẵn 
có 
Chương 1: Tổng quan 
Một số công cụ hỗ trợ trong khai phá dữ liệu? 
- YALE : công cụ miễn phí cho học máy và khai 
phá dữ liệu 
- Weka: Phần mềm mã nguồn mở phục vụ cho 
khai phá dữ liệu viết bằng Java 
- Tanagra: Phần mềm thống kê và khai phá dữ 
liệu mã nguồn mở 
Chương 1: Tổng quan 

File đính kèm:

  • pdfbai_giang_khai_qua_du_lieu_chuong_1_tong_quan.pdf