phân tích là để giúp các nhà quản lý dự đoán tương lai hoặc đưa ra quyết địnhtốt hơn sẽ ảnh hưởng đến hiệu suất trong tương lai, vì vậy chúng ta thường có thểnói rằng khai phá dữ liệu ch
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG & TIN HỌC
——————– * ———————
TIỂU LUẬN CUỐI KÌ MÔN KHAI PHÁ DỮ LIỆU
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC
Trang 2Mục lục
1.1 Lấy mẫu dữ liệu 7
1.2 Hiện thị dữ liệu 9
1.3 Dữ liệu bẩn 13
1.4 Phân tích cụm 14
2 Bài toán phân lớp 21 2.1 Tổng quan bài toán phân loại 22
2.2 Thang đánh giá và kiểm thử bài toán phân loại 24
2.3 Phân loại dữ liệu mới 26
2.4 Một số kỹ thuật phân lớp cơ bản 28
2.4.1 K láng giềng gần nhất 28
2.4.2 Phân tích phân biệt 30
2.4.3 Hồi quy Logistic 34
3 Luật kết hợp và mô hình nhân quả 37 3.1 Luật kết hợp 37
3.2 Mô hình nhân quả 40
2
Trang 3Tài liệu tham khảo 43
Trang 4Khai phá dữ liệu có thể được coi là một phần phân tích mô tả và một phần.Trong các phân tích mô tả, các công cụ khai phá dữ liệu giúp các nhà phân tích xácđịnh các mẫu trong dữ liệu Ví dụ, biểu đồ Excel và PivotTable là các công cụ hữuích để mô tả các mẫu và bộ dữ liệu phân tích; tuy nhiên, họ yêu cầu can thiệp thủcông Các mô hình phân tích hồi quy và dự báo giúp chúng ta dự đoán các mối quan
hệ hoặc giá trị tương lai của các biến quan tâm Như một số nhà nghiên cứu quansát, các ranh giới giữa dự đoán và mô tả không sắc nét (một số mô hình dự đoán cóthể mô tả, ở mức độ không thể hiểu được và ngược lại) Trong hầu hết các ứng dụngkinh doanh, mục đích của mô tả
4
Trang 5phân tích là để giúp các nhà quản lý dự đoán tương lai hoặc đưa ra quyết địnhtốt hơn sẽ ảnh hưởng đến hiệu suất trong tương lai, vì vậy chúng ta thường có thểnói rằng khai phá dữ liệu chủ yếu là một phương pháp phân tích dự đoán Một sốcách tiếp cận phổ biến trong khai phá dữ liệu bao gồm:
Thăm dò và giảm chiều dữ liệu: Điều này thường liên quan đến việc xác định
các nhóm trong đó các yếu tố của các nhóm tương tự nhau Cách tiếp cận nàythường được sử dụng để hiểu sự khác biệt giữa các khách hàng và phân chia họthành các nhóm đồng nhất Ví dụ, các cửa hàng bách hóa Macy, đã xác định bốn lốisống của khách hàng của mình: Cameron Kinda, một người ăn mặc truyền thống, cổđiển, người không có nhiều rủi ro và thích chất lượng; Cơn sốt Julie, vụng trộm cóđiều kiện và hơi sắc sảo hơn nhưng vẫn cổ điển; Một trong những khách hàngđương đại yêu thích sự mới mẻ và các cửa hàng theo thương hiệu; và Alex Alex,khách hàng thời trang chỉ muốn những sản phẩm mới nhất và tuyệt vời nhất (họcũng có phiên bản nam) Phân khúc như vậy rất hữu ích trong các hoạt động thiết kế
và tiếp thị để nhắm mục tiêu sản phẩm tốt hơn Những kỹ thuật này cũng đã được sửdụng để xác định các đặc điểm của nhân viên thành công và cải thiện các hoạt độngtuyển dụng và tuyển dụng
Phân lớp: Phân lớp là quá trình phân tích dữ liệu để dự đoán cách phân loại
một yếu tố dữ liệu mới Một ví dụ về phân loại là lọc thư rác trong ứng dụng emailkhách Bằng cách kiểm tra các đặc điểm văn bản của một tin nhắn (tiêu đề chủ đề,
từ khóa, v.v.), tin nhắn được phân loại là rác hay không Các phương pháp phân loại
có thể giúp dự đoán liệu giao dịch thẻ tín dụng có thể là gian lận hay không, liệungười nộp đơn vay có rủi ro cao hay người tiêu dùng sẽ trả lời quảng cáo
Luật kết hợp: luật kết hợp là quá trình phân tích cơ sở dữ liệu để xác định
5
Trang 6mối liên hệ tự nhiên giữa các biến và tạo quy tắc cho tiếp thị mục tiêu hoặc mua các
đề xuất Ví dụ: Netflix sử dụng liên kết để hiểu loại phim nào khách hàng thích vàcung cấp đề xuất dựa trên dữ liệu Amazon.com cũng đưa ra các khuyến nghị dựatrên các giao dịch mua trước đây Thẻ khách hàng thân thiết của siêu mẫu thu thập
dữ liệu về khách hàng Thói quen mua hàng và in phiếu giảm giá tại điểm mua hàngdựa trên những gì hiện đang mua
Mô hình nhân quả: Mô hình nguyên nhân và kết quả là quá trình mô hình phân
tích phát triển để mô tả mối quan hệ giữa các số liệu thúc đẩy hiệu quả kinh doanh,
ví dụ như lợi nhuận, sự hài lòng của khách hàng hoặc sự hài lòng của nhân viên.Hiểu các trình điều khiển hiệu suất có thể đưa ra quyết định tốt hơn để cải thiện hiệusuất Ví dụ, nhóm kiểm soát của Johnson Controls, Inc., đã xem xét mối quan hệgiữa mức độ thỏa mãn và tỷ lệ gia hạn hợp đồng Họ phát hiện ra rằng 91% gia hạnhợp đồng đến từ những khách hàng hài lòng hoặc rất hài lòng, và những khách hàngkhông hài lòng có tỷ lệ đào thải cao hơn nhiều Mô hình của họ dự đoán rằng mứctăng một phần trăm trong điểm hài lòng chung là trị giá 13 triệu đô la khi gia hạnhợp đồng dịch vụ hàng năm Do đó, họ đã xác định các quyết định sẽ cải thiện sựhài lòng của khách hàng Phân tích hồi quy và tương quan là các công cụ chính để
mô hình hóa nguyên nhân và kết quả
6
Trang 7kỹ thuật trước đó trong cuốn sách này để khám phá dữ liệu và giảm dữ liệu Ví dụ:biểu đồ, phân phối tần suất và biểu đồ và thống kê tóm tắt cung cấp thông tin cơ bản
về các đặc điểm của dữ liệu Các bảng Pivot, đặc biệt, rất hữu ích trong việc khámphá dữ liệu từ các quan điểm khác nhau và để giảm dữ liệu XLMiner cung cấpnhiều công cụ và kỹ thuật để khám phá dữ liệu bao gồm hoặc mở rộng các kháiniệm và công cụ mà chúng ta đã nghiên cứu trong các tài liệu liên quan Chúngđược tìm thấy trong nhóm "Data Analysis" của dải băng XLMiner, được hiển thịtrong Hình 10.1
Trang 8Hình 1.1: Các chức năng cơ bản trong module Data Analysis
1.1 Lấy mẫu dữ liệu
Khi xử lý các tập dữ liệu lớn và dữ liệu lớn trên mạng, có thể rất tốn kém hoặcmất thời gian để xử lý tất cả dữ liệu Thay vào đó, em có thể phải sử dụng một mẫu.XLMiner có thể lấy mẫu từ bảng tính Excel hoặc từ cơ sở dữ liệu Microsoft Access.Hình 1.2 cho thấy một phần của dữ liệu rủi ro tín dụng tệp Excel trong dữ liệu
cơ sở, bao gồm 425 hồ sơ Từ nhóm Phân tích dữ liệu trong ruy-băng XLMiner,bấm vào nút Mẫu và chọn Mẫu từ Bảng tính Đảm bảo phạm vi Dữ liệu là chính xác
và bao gồm các tiêu đề Chọn tất cả các biến trong khung cửa sổ bên trái
Hình 1.2: Bộ dữ liệu kiểm thử chức năng lấy mẫu
Chọn options Steve trong phần Tùy chọn lấy mẫu; trong trường hợp này, em đãchọn 20 mẫu (không thay thế trừ khi đã chọn hộp Mẫu thay thế, điều này tránhtrùng lặp) bằng cách lấy mẫu ngẫu nhiên đơn giản Bằng cách nhập giá trị vào hộpĐặt hạt giống, chúng ta có thể nhận được kết quả tương tự vào lúc khác cho mụcđích kiểm soát; mẫu ngẫu nhiên khác nhau sẽ được chọn
8
Trang 9Hình 0.3 cho thấy hộp thoại đã hoàn thành và Hình 1.4 hiển thị kết quả.
Hình 1.3: Tùy chỉnh chức năng lấy mẫu
Trang 10Hình 1.4: Kết quả hiện thị lấy mẫu
Em sẽ xây dựng một boxplot cho số tháng làm việc cho mỗi giá trị tình trạnghôn nhân từ Dữ liệu Rủi ro Tín dụng Đầu tiên, chọn Trình hướng dẫn biểu đồ từnút Khám phá trong nhóm Phân tích dữ liệu trong tab XLMiner Chọn Boxplot;trong hộp thoại thứ hai, chọn Tháng được sử dụng làm biến để
Trang 11vẽ đồ thị trên trục tung Trong hộp thoại tiếp theo, chọn Trạng thái hôn nhân làmbiến để vẽ đồ thị trên trục hoành Nhấp vào Kết thúc Kết quả được hiển thị trongHình 10.5 Phạm vi hộp hiển thị phần trăm thứ 25 và 75 (phạm vi liên dải, IQR),đường liền nét trong hộp là trung vị và đường chấm trong hộp là giá trị trung bình.Các râu ria của Nô-lô-lô-lô-lô mở rộng ở hai bên của hộp để biểu thị các giá trị tốithiểu và tối đa trong một tập dữ liệu Nếu chúng ta di con trỏ qua bất kỳ ô nào, biểu
đồ sẽ hiển thị các giá trị này Râu rất dài gợi ý các ngoại lệ có thể có trong dữ liệu
Có thể dễ dàng thấy sự khác biệt trong dữ liệu giữa những người độc thân so vớinhững người đã kết hôn hoặc ly dị Chúng ta cũng có thể lọc dữ liệu bằng cách chọnhoặc bỏ chọn các hộp trong ngăn lọc để hiển thị các ô vuông chỉ cho một phần dữliệu, để so sánh các hộp có rủi ro tín dụng cao với các phân loại có rủi ro tín dụngthấp
Boxplots (đôi khi được gọi là các ô hình hộp và râu) hiển thị bằng đồ họa năm
số liệu thống kê chính của một tập dữ liệu, tối thiểu, phần tư thứ nhất, trung vị, phần
tư thứ ba và tối đa và rất hữu ích trong việc xác định hình dạng của phân phối vàngoại lệ trong dữ liệu
Biểu đồ tọa độ song song bao gồm một tập hợp các trục dọc, một cho mỗi biếnđược chọn Đối với mỗi quan sát, một đường được vẽ nối các trục dọc Điểm tại đóđường thẳng đi qua một trục biểu thị giá trị cho biến đó Biểu đồ tọa độ song songtạo ra một hồ sơ đa biến số, và giúp nhà phân tích khám phá dữ liệu và đưa ra kếtluận cơ bản
Trang 12Hình 1.5: Mô tả biểu đồ hộp trong XLMiner
Chọn Trình hướng dẫn biểu đồ từ nút Khám phá trong nhóm Phân tích dữ liệutrong tab XLMiner Chọn Ma trận Scatterplot Trong hộp thoại tiếp theo, hãy chọncác hộp cho Tháng khách hàng, Tháng có việc làm và Tuổi và nhấp vào Kết thúc.Hình 10.7 cho thấy kết quả Dọc theo đường chéo là biểu đồ của các biến riêng lẻ.Tắt đường chéo là các biểu đồ phân tán của các cặp biến Ví dụ, biểu đồ ở hàng thứ
ba và cột thứ hai của hình hiển thị biểu đồ phân tán của Tháng được sử dụng so vớiTuổi Lưu ý rằng tháng làm việc là trên trục x và tuổi trên trục y Dữ liệu dường như
có xu hướng tuyến tính tăng nhẹ, biểu thị rằng các cá nhân lớn tuổi đã được sử dụngtrong một thời gian dài hơn Lưu ý rằng có hai biểu đồ cho mỗi cặp biến với các trụcđược lật Ví dụ, biểu đồ ở hàng thứ hai và đại học thứ ba giống như biểu đồ màchúng ta đã thảo luận, nhưng với tuổi trên trục x.Có thể dễ dàng lọc dữ liệu để tạocác
Trang 13chế độ xem khác nhau.
Hình 1.6: Mô tả biểu đồ đường trong XLMiner
Chọn Trình hướng dẫn biểu đồ từ nút Khám phá trong nhóm Phân tích dữ liệutrong tab XLMiner Chọn Biến Trong hộp thoại tiếp theo, hãy chọn các hộp cho cácbiến muốn đưa vào và nhấp vào Kết thúc Hình 10.8 cho thấy kết quả Công cụ này
dễ sử dụng hơn nhiều so với công cụ Biểu đồ của Excel, đặc biệt là đối với nhiềubiến trong tập dữ liệu và có thể dễ dàng lọc dữ liệu để tạo các phối cảnh khác nhau
Trang 141.3 Dữ liệu bẩn
Không có gì lạ khi tìm thấy các tập dữ liệu thực có thiếu giá trị hoặc lỗi Các bộ
dữ liệu như vậy được gọi là bẩn bẩn và cần được dọn dẹp trước khi phân tích chúng.Một số phương pháp được sử dụng để xử lý dữ liệu bị thiếu Ví dụ: chúng ta có thểloại bỏ các bản ghi chứa dữ liệu bị thiếu; ước tính các giá trị hợp lý cho các quan sát
bị thiếu, chẳng hạn như giá trị trung bình hoặc trung bình; hoặc sử dụng thủ tục khaithác dữ liệu để đối phó với chúng XLMiner có khả năng xử lý dữ liệu bị thiếu trongmenu Transform trong nhóm Phân tích dữ liệu
Em đề xuất nên tham khảo Hướng dẫn sử dụng XLMiner từ menu Trợ giúp đểbiết thêm thông tin Trong mọi trường hợp, nên cố gắng hiểu liệu dữ liệu bị thiếuchỉ là sự kiện ngẫu nhiên hoặc nếu có lý do hợp lý tại sao chúng bị thiếu Loại bỏ dữliệu mẫu một cách bừa bãi có thể dẫn đến thông tin sai lệch và kết luận về dữ liệu
Hình 1.7: Mô tả biểu đồ phân phối trong XLMiner (1)
14
Trang 15Hình 1.8: Mô tả biểu đồ phân phối trong XLMiner (2)
Lỗi dữ liệu thường có thể được xác định từ các ngoại lệ, một cách tiếp cận điểnhình là đánh giá dữ liệu có và không có ngoại lệ và xác định xem tác động củachúng có thay đổi đáng kể kết luận hay không và có nên dành nhiều nỗ lực hơn để
cố gắng hiểu và giải thích chúng không
1.4 Phân tích cụm
Phân tích cụm, còn được gọi là phân đoạn dữ liệu, là tập hợp các kỹ thuật tìmcách nhóm hoặc phân đoạn một tập hợp các đối tượng (nghĩa là quan sát hoặc bảnghi) thành các tập hợp con hoặc cụm, sao cho các kỹ thuật trong mỗi cụm có liênquan chặt chẽ với nhau hơn các đối tượng giao cho các cụm khác nhau
Các đối tượng trong các cụm nên thể hiện sự tương đồng cao, trong khi các đốitượng trong các cụm khác nhau sẽ không giống nhau Phân tích cụm
Trang 16là một kỹ thuật giảm dữ liệu theo nghĩa có thể cần một số lượng lớn các quansát, chẳng hạn như khảo sát khách hàng hoặc bảng câu hỏi và giảm thông tin thànhcác nhóm nhỏ hơn, đồng nhất có thể được giải thích dễ dàng hơn Ví dụ, việc phântách khách hàng thành các nhóm nhỏ hơn có thể được sử dụng để tùy chỉnh quảngcáo hoặc khuyến mãi.
Hình 1.9: Mô tả cây quyết định
Trái ngược với nhiều kỹ thuật khai thác dữ liệu khác, phân tích cụm là mô tảchính xác và em không thể rút ra các kết luận thống kê về một mẫu sử dụng nó.Ngoài ra, các cụm được xác định không phải là duy nhất và phụ thuộc vào thủ tục
cụ thể được sử dụng; do đó, nó không dẫn đến một câu trả lời dứt khoát mà chỉ cungcấp những cách nhìn mới về dữ liệu Tuy nhiên, nó là một kỹ thuật được sử dụngrộng rãi Có hai phương pháp phân cụm chính là phân cụm phân cấp và phân cụm k-nghĩa
Trong phân cụm theo phân cấp, dữ liệu không được phân vùng thành một cụm
cụ thể trong một bước duy nhất Thay vào đó, một loạt các phân vùng diễn ra, có thểchạy từ một cụm duy nhất chứa tất cả các đối tượng đến n cụm,
16
Trang 17mỗi cụm chứa một đối tượng Phân cụm theo phân cấp được chia thành cácphương pháp phân cụm liên kết, tiến hành theo chuỗi các hợp chất của n đối tượngthành các nhóm và các phương pháp phân cụm, phân tách n đối tượng thành cácnhóm mịn hơn.
Hình 10.9 minh họa sự khác biệt giữa hai loại phương thức này Các kỹ thuậtkết tụ được sử dụng phổ biến hơn và đây là phương pháp được áp dụng trongXLMiner Phân cụm phân cấp có thể được biểu diễn bằng sơ đồ hai chiều được gọi
là dendrogram, minh họa cho sự hợp nhất hoặc phân chia được thực hiện ở mỗi giaiđoạn phân tích kế tiếp nhau
Hình 1.10: Khoảng cách eculid
Một trong những phương pháp phân cụm phân cấp kết tụ đơn giản nhất là phâncụm liên kết đơn, còn được gọi là kỹ thuật lân cận gần nhất Đặc điểm xác định củaphương thức là khoảng cách giữa các nhóm được định nghĩa là khoảng cách giữacác cặp đối tượng gần nhất, trong đó chỉ các cặp bao gồm một đối tượng từ mỗi
Trang 18khoảng cách giữa hai cụm, r và s, D (r, s), được định nghĩa là khoảng cách tốithiểu giữa bất kỳ đối tượng nào trong cụm r và bất kỳ đối tượng nào trong cụm s.Nói cách khác, khoảng cách giữa hai cụm được cho bởi giá trị của liên kết ngắnnhất giữa các cụm Ở mỗi giai đoạn phân cụm phân cấp, em tìm thấy hai cụm cókhoảng cách tối thiểu giữa chúng và hợp nhất chúng lại với nhau Một phương phápkhác về cơ bản ngược lại với phân cụm liên kết đơn được gọi là phân cụm liên kếthoàn chỉnh Trong phương pháp này, khoảng cách giữa các nhóm được định nghĩa
là khoảng cách giữa các cặp đối tượng ở xa nhất, một từ mỗi nhóm Phương phápthứ ba là cụm liên kết trung bình Ở đây, khoảng cách giữa hai cụm được định nghĩa
là trung bình khoảng cách giữa tất cả các cặp đối tượng, trong đó mỗi cặp được tạothành từ một đối tượng từ mỗi nhóm Các phương pháp khác là phân cụm liên kếtnhóm trung bình, sử dụng các giá trị trung bình cho mỗi biến để tính khoảng cáchgiữa các cụm và phương pháp phân cụm theo phương pháp Wardier, sử dụng tiêuchí tổng bình phương Các phương pháp khác nhau thường mang lại kết quả khácnhau, vì vậy tốt nhất là thử nghiệm và so sánh kết quả
(a) Dữ liệu phân cụm (a)
(b) Dữ liệu phân cụm (b)
18
Trang 19Hình 1.12: Cấu hình phân cụm (1)
(b) Cấu hình phân cụm (3)(a) Cấu hình phân cụm (2)
Trang 20Hình 1.14: Kết quả phân cụm (1)
Hình 1.15: Kết quả phân cụm (2)
Trang 21Hình 1.16: Kết quả phân cụm (3)
Trang 22Chương 2
Bài toán phân lớp
Các phương pháp phân loại tìm cách phân loại một kết quả phân loại thành mộttrong hai hoặc nhiều loại dựa trên các thuộc tính dữ liệu khác nhau Đối với mỗi bảnghi trong cơ sở dữ liệu, em có một biến quan tâm phân loại (ví dụ: mua hoặc khôngmua, rủi ro cao hoặc không có rủi ro) và một số biến dự đoán bổ sung (tuổi, thunhập, giới tính, giáo dục, tài sản, v.v.)
Đối với một tập hợp các biến dự đoán nhất định, em muốn gán giá trị tốt nhấtcủa biến phân loại em sẽ minh họa các kỹ thuật phân loại khác nhau bằng cách sửdụng Quyết định phê duyệt tín dụng cơ sở dữ liệu Excel Một phần của cơ sở dữ liệunày được hiển thị trong Hình 10.18 Trong cơ sở dữ liệu này, biến quan tâm phânloại là quyết định phê duyệt hoặc từ chối đơn đăng ký tín dụng Các biến còn lại làcác biến dự đoán Tuy nhiên, vì em đang làm việc với dữ liệu số, em cần mã hóa cáctrường Chủ nhà và Quyết định bằng số em viết mã thuộc tính Y là 1 và Kiểu N là 0;tương tự, em mã hóa thuộc tính Quyết định
22