đề cương khai phá dữ liệu
Trang 1Câu hỏi ôn tập
Môn: Khai phá dữ liệu
1 Khám phá tri thức: tại sao cần phải khám phá tri thức? Nêu các bước và phân tích?
Ước lượng cứ khoảng 20 tháng lượng thông tin trên thế giới lại tăng gấp đôi Chính
vì vậy, hiện nay lượng dữ liệu mà con người thu thập và lưu trữ được trong các kho
dữ liệu là rất lớn, nhiều khi vượt quá khả năng quản lý Thời gian này, người ta bắt đầu đề cập đến khái niệm khủng hoảng phân tích dữ liệu tác nghiệp để cung cấp thông tin với yêu cầu chất lượng ngày càng cao cho những người ra quyết định trong các tổ chức tài chính, thương mại, khoa học, … Đúng như John Naisbett đã cảnh báo:” chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”
Với một khối lượng dữ liệu tăng nhanh và khổng lồ như vậy, rõ ràng các phương pháp thủ công truyền thống áp dụng để phân tích dữ liệu sẽ không hiệu quả, tốn kém
và dẫn đến những sai lệch Do đó đề có thể khai phá hiệu quả các cơ sở dữ liệu lớn cần phải có những kỹ thuật mới, các kỹ thuật khai phá dữ liệu
KPDL là một lĩnh vực khoa học mới xuật hiện, nhằm tự động hóa khai thác những thông tin, tri thức hữu ích, tiềm ẩn trong các CSDL cho các tổ chức, doanh nghiệp…
từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của tổ chức, doanh nghiệp này
KPTT cho thấy kPDL là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống
Và ngày càng được ứng dụng rộng rãi trong các lĩnh vực như: Phân tích dữ liệu
hỗ trợ ra quyết định, điều trị y học, tin-sinh học, thương mại, tài chính, bảo hiểm,
…
KPDL là quá trình tìm kiếm, phát hiện các tri thức mới, hữu ích tiềm ẩn trong csdl lớn
KPDL được xem là một bước chính trong quá trình KPTT
Quá trình KPTT từ CSDL bao gồm 3 công đoạn:
• Chuẩn bị dữ liệu
Chọn lọc dữ liệu: là giai đoạn chọn lọc, rút trích các dữ liệu cần thiết từ CSDL tác nghiệp vào một CSDL riêng
Làm sạch dữ liệu: xử lý dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán,…
Trang 2 Làm giàu dữ liệu: bổ sung thêm nhiều thông tin có liên quan vào CSDL gốc.
Mã hóa dữ liệu: chuyển đổi kiểu dữ liệu về những dạng thuận tiện để tiến hành các thuật toán khám phá dữ liệu Có nhiều cách mã hóa dữ liệu: phân vùng, biến đổi giá trị 5 thành con số nguyên là số năm đã trôi qua so với năm hiện hành, chia giá trị số theo một hệ số để tập các giá trị nằm trong vùng nhỏ hơn, chuyển đổi yes- no thành 0- 1
• Khai thác dữ liệu: tiến hành “điều chỉnh đúng” các mô hình dữ liệu Chức năng biến đổi dữ liệu được đưa vào bước nhảy với mục đích để trình diễn dữ liệu
• Trình diễn dữ liệu: là quá trinh giải thích và hiển thị trực quan các kết quả KPDL để hỗ trợ việc đánh giá chất lượng dữ liệu, đánh giá mô hình dữ liệu và thể hiện mô hình
2 Tư tưởng thuật toán Apriori, ví dụ?
Tư tưởng:
Tìm tất cả frequent itemsets: k-itemset được dùng để tìm (k+1) itemset Đầu tiên tìm 1- itemset (ký hiệu L1) L1 được dùng để tìm L2 (2- itemsets) L2 được dùng để tìm L3 (3- itemset) và tiếp tục cho đến khi không còn k-itemset được tìm thấy
Từ frequen itemsets sinh ra các luật kết hợp mạnh (các luật kết hợp thỏa mãn 2 tham
số min_supp và min_conf
Hạn chế:
Phải duyệt CSDL nhiều lần
Số lượng tập ứng viên rất lớn
Thực hiện việc tính độ phổ biến nhiều, đơn điệu
Ví dụ:
3 So sánh tập PBTĐ và tập BPB, ví dụ?
4 Phân tích các bước trong phân lớp dữ liệu?
Phân lớp dữ liệu gồm 2 bước:
Xây dựng mô hình:
Nhằm mục tiêu mô tả một tập những lớp đã được định nghĩa trước trong đó mỗi bộ hoặc mẫu sẽ được gán về một lớp đã xác trước bởi thuộc tính nhãn lớp Tập hợp những bộ được dùng để xây dựng mô hình được gọi là tập dữ liệu học Mô hình được biểu diễn dưới dạng luật phân lớp, cây quyết định hoặc công thức toán học…
Vận hành mô hình:
Trang 3Nhằm mục đích xác định lớp của dữ liệu trong tương lai hoặc phân lớp những đối tượng chưa biết Trước khi vận hành mơ hình cần đánh giá độ chính xác của mơ hình trong đĩ các mẫu kiểm tra được đem so sánh với kết quả phân lớp của mơ hình
Độ chính xác là phần trăm của số mẫu kiểm tra được phân lớp đúng Tập kiểm tra
và tập học là hai tập độc lập với nhau
5 Các phương pháp phân lớp dữ liệu:
Phương pháp dựa trên cây quyết định
Phương pháp Nạve Bayes
Phương pháp dựa trên luật kết hợp
Thuật giải di truyền
Tiếp cận tập thơ
6 Các nội dung chính trong kỹ thuật phân lớp nhờ cây quyết định:
Mơ tả cây:
Cây quyết định là một cấu trúc phân cấp của các nút và các nhánh, gồm:
o Nút: biểu diễn giá trị thuộc tính
o Nhánh: biểu diễn đầu ra kiểm tra
o Nút lá: biểu diễn nhãn lớp
Xây dựng cây:
Gồm 2 bước sau:
Bước 1: Tạo cây
o Bắt đầu từ gốc
o Kiểm tra các giá trị của thuộc tính và phân chia các mẫu đệ quy
Bước 2: Tỉa nhánh
o Tìm và xĩa những nhánh cĩ phần tử khơng thể xếp vào lớp nào cả
Điều kiện dừng:
o Tất cả những mẫu học đối với một nút cho trước đều cùng lớp;
o Khơng cịn thuộc tính nào để phân chia tiếp
o Khơng cịn mẫu học
7 Phân biệt bài tốn phân lớp và phân cụm?
Giống nhau:
Khác nhau:
Là một quá trình “học cĩ giám sát” Sau
khi được xây dựng, mơ hình phân lớp cĩ
thể được sử dụng để phân lớp các dữ liệu
mới
Trang 4Là quá trinh học một mô hình mà mô
hình này dùng để mô tả các lớp dữ liệu
khác nhau Các lớp dữ liệu đã được xác
định trước
8 Các hạn chế của kỹ thuật phân lớp ID3? Cách khắc phục?
Hạn chế:
o ID3 không có khả năng xử lý đối với dữ liệu có chứa thuộc tính số- thuộc tính liên tục
o Khó khăn trong việc xử lý dữ liệu thiếu và dữ liệu nhiễu
Cách khắc phục:
o Đối với trường hợp tập mẫu có thuộc tính liên tục, cần phân chia thuộc tính liên tục thành một tập rời rạc có các khoảng
o Đối với các mẫu học có một số thuộc tính chưa có giá trị được thực hiện bằng cách gán giá trị thông dụng nhất của thuộc tính hoặc gán khả năng có thể có với từng giá trị khả dĩ
Thuật toán C4.5 cho phép xử lý trên tập dữ liệu có các thuộc tính số và làm việc với tập dữ liệu bị thiếu và bị nhiễu
9 Nêu tư tưởng thuật toán K-means, ưu nhược điểm của các thuật toán, ví dụ?
Tư tưởng: tìm cách phân nhóm các đối tượng đã cho vào k cụm (k là số các cụm được xác định trước, k nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm là nhỏ nhất
Ưu diểm:
- Tương đối nhanh, độ phức tạp của thuật toán là O(tkn) với n _số điểm trong không gian dữ liêu, k: số cụm phân hoạch, t_số lần lặp
- Phù hợp với các cụm có dạng hình cầu
Nhược điểm:
- Không đảm bảo đạt được tối ưu toàn cục và kết quả đầu ra phụ thuộc nhiều vào việc chọn k điểm khởi đầu
- Cần phải xác định trước số cụm
- Khó xác định số cụm thực sự mà không gian dữ liệu có
- Khó phá hiện các loại cụm có hình dạng phức tạp và nhất là các dạng cụm không lồi
- Không thể xử lý nhiễu và mẫu cá biệt
- Chỉ có thể áp dụng khi tính được trọng tâm
Ví dụ: