Môn khai phá dữ liệu tổng quan về khai phá dữ liệu

phân tích là để giúp các nhà quản lý dự đoán tương lai hoặc đưa ra quyết địnhtốt hơn sẽ ảnh hưởng đến hiệu suất trong tương lai, vì vậy chúng ta thường có thểnói rằng khai phá dữ liệu ch

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG & TIN HỌC

——————– * ———————

TIỂU LUẬN CUỐI KÌ MÔN KHAI PHÁ DỮ LIỆU

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC

Trang 2

Mục lục

1.1 Lấy mẫu dữ liệu 7

1.2 Hiện thị dữ liệu 9

1.3 Dữ liệu bẩn 13

1.4 Phân tích cụm 14

2 Bài toán phân lớp 21 2.1 Tổng quan bài toán phân loại 22

2.2 Thang đánh giá và kiểm thử bài toán phân loại 24

2.3 Phân loại dữ liệu mới 26

2.4 Một số kỹ thuật phân lớp cơ bản 28

2.4.1 K láng giềng gần nhất 28

2.4.2 Phân tích phân biệt 30

2.4.3 Hồi quy Logistic 34

3 Luật kết hợp và mô hình nhân quả 37 3.1 Luật kết hợp 37

3.2 Mô hình nhân quả 40

2

Trang 3

Tài liệu tham khảo 43

Trang 4

Khai phá dữ liệu có thể được coi là một phần phân tích mô tả và một phần.Trong các phân tích mô tả, các công cụ khai phá dữ liệu giúp các nhà phân tích xácđịnh các mẫu trong dữ liệu Ví dụ, biểu đồ Excel và PivotTable là các công cụ hữuích để mô tả các mẫu và bộ dữ liệu phân tích; tuy nhiên, họ yêu cầu can thiệp thủcông Các mô hình phân tích hồi quy và dự báo giúp chúng ta dự đoán các mối quan

hệ hoặc giá trị tương lai của các biến quan tâm Như một số nhà nghiên cứu quansát, các ranh giới giữa dự đoán và mô tả không sắc nét (một số mô hình dự đoán cóthể mô tả, ở mức độ không thể hiểu được và ngược lại) Trong hầu hết các ứng dụngkinh doanh, mục đích của mô tả

4

Trang 5

phân tích là để giúp các nhà quản lý dự đoán tương lai hoặc đưa ra quyết địnhtốt hơn sẽ ảnh hưởng đến hiệu suất trong tương lai, vì vậy chúng ta thường có thểnói rằng khai phá dữ liệu chủ yếu là một phương pháp phân tích dự đoán Một sốcách tiếp cận phổ biến trong khai phá dữ liệu bao gồm:

Thăm dò và giảm chiều dữ liệu: Điều này thường liên quan đến việc xác định

các nhóm trong đó các yếu tố của các nhóm tương tự nhau Cách tiếp cận nàythường được sử dụng để hiểu sự khác biệt giữa các khách hàng và phân chia họthành các nhóm đồng nhất Ví dụ, các cửa hàng bách hóa Macy, đã xác định bốn lốisống của khách hàng của mình: Cameron Kinda, một người ăn mặc truyền thống, cổđiển, người không có nhiều rủi ro và thích chất lượng; Cơn sốt Julie, vụng trộm cóđiều kiện và hơi sắc sảo hơn nhưng vẫn cổ điển; Một trong những khách hàngđương đại yêu thích sự mới mẻ và các cửa hàng theo thương hiệu; và Alex Alex,khách hàng thời trang chỉ muốn những sản phẩm mới nhất và tuyệt vời nhất (họcũng có phiên bản nam) Phân khúc như vậy rất hữu ích trong các hoạt động thiết kế

và tiếp thị để nhắm mục tiêu sản phẩm tốt hơn Những kỹ thuật này cũng đã được sửdụng để xác định các đặc điểm của nhân viên thành công và cải thiện các hoạt độngtuyển dụng và tuyển dụng

Phân lớp: Phân lớp là quá trình phân tích dữ liệu để dự đoán cách phân loại

một yếu tố dữ liệu mới Một ví dụ về phân loại là lọc thư rác trong ứng dụng emailkhách Bằng cách kiểm tra các đặc điểm văn bản của một tin nhắn (tiêu đề chủ đề,

từ khóa, v.v.), tin nhắn được phân loại là rác hay không Các phương pháp phân loại

có thể giúp dự đoán liệu giao dịch thẻ tín dụng có thể là gian lận hay không, liệungười nộp đơn vay có rủi ro cao hay người tiêu dùng sẽ trả lời quảng cáo

Luật kết hợp: luật kết hợp là quá trình phân tích cơ sở dữ liệu để xác định

5

Trang 6

mối liên hệ tự nhiên giữa các biến và tạo quy tắc cho tiếp thị mục tiêu hoặc mua các

đề xuất Ví dụ: Netflix sử dụng liên kết để hiểu loại phim nào khách hàng thích vàcung cấp đề xuất dựa trên dữ liệu Amazon.com cũng đưa ra các khuyến nghị dựatrên các giao dịch mua trước đây Thẻ khách hàng thân thiết của siêu mẫu thu thập

dữ liệu về khách hàng Thói quen mua hàng và in phiếu giảm giá tại điểm mua hàngdựa trên những gì hiện đang mua

Mô hình nhân quả: Mô hình nguyên nhân và kết quả là quá trình mô hình phân

tích phát triển để mô tả mối quan hệ giữa các số liệu thúc đẩy hiệu quả kinh doanh,

ví dụ như lợi nhuận, sự hài lòng của khách hàng hoặc sự hài lòng của nhân viên.Hiểu các trình điều khiển hiệu suất có thể đưa ra quyết định tốt hơn để cải thiện hiệusuất Ví dụ, nhóm kiểm soát của Johnson Controls, Inc., đã xem xét mối quan hệgiữa mức độ thỏa mãn và tỷ lệ gia hạn hợp đồng Họ phát hiện ra rằng 91% gia hạnhợp đồng đến từ những khách hàng hài lòng hoặc rất hài lòng, và những khách hàngkhông hài lòng có tỷ lệ đào thải cao hơn nhiều Mô hình của họ dự đoán rằng mứctăng một phần trăm trong điểm hài lòng chung là trị giá 13 triệu đô la khi gia hạnhợp đồng dịch vụ hàng năm Do đó, họ đã xác định các quyết định sẽ cải thiện sựhài lòng của khách hàng Phân tích hồi quy và tương quan là các công cụ chính để

mô hình hóa nguyên nhân và kết quả

6

Trang 7

kỹ thuật trước đó trong cuốn sách này để khám phá dữ liệu và giảm dữ liệu Ví dụ:biểu đồ, phân phối tần suất và biểu đồ và thống kê tóm tắt cung cấp thông tin cơ bản

về các đặc điểm của dữ liệu Các bảng Pivot, đặc biệt, rất hữu ích trong việc khámphá dữ liệu từ các quan điểm khác nhau và để giảm dữ liệu XLMiner cung cấpnhiều công cụ và kỹ thuật để khám phá dữ liệu bao gồm hoặc mở rộng các kháiniệm và công cụ mà chúng ta đã nghiên cứu trong các tài liệu liên quan Chúngđược tìm thấy trong nhóm "Data Analysis" của dải băng XLMiner, được hiển thịtrong Hình 10.1

Trang 8

Hình 1.1: Các chức năng cơ bản trong module Data Analysis

1.1 Lấy mẫu dữ liệu

Khi xử lý các tập dữ liệu lớn và dữ liệu lớn trên mạng, có thể rất tốn kém hoặcmất thời gian để xử lý tất cả dữ liệu Thay vào đó, em có thể phải sử dụng một mẫu.XLMiner có thể lấy mẫu từ bảng tính Excel hoặc từ cơ sở dữ liệu Microsoft Access.Hình 1.2 cho thấy một phần của dữ liệu rủi ro tín dụng tệp Excel trong dữ liệu

cơ sở, bao gồm 425 hồ sơ Từ nhóm Phân tích dữ liệu trong ruy-băng XLMiner,bấm vào nút Mẫu và chọn Mẫu từ Bảng tính Đảm bảo phạm vi Dữ liệu là chính xác

và bao gồm các tiêu đề Chọn tất cả các biến trong khung cửa sổ bên trái

Hình 1.2: Bộ dữ liệu kiểm thử chức năng lấy mẫu

Chọn options Steve trong phần Tùy chọn lấy mẫu; trong trường hợp này, em đãchọn 20 mẫu (không thay thế trừ khi đã chọn hộp Mẫu thay thế, điều này tránhtrùng lặp) bằng cách lấy mẫu ngẫu nhiên đơn giản Bằng cách nhập giá trị vào hộpĐặt hạt giống, chúng ta có thể nhận được kết quả tương tự vào lúc khác cho mụcđích kiểm soát; mẫu ngẫu nhiên khác nhau sẽ được chọn

8

Trang 9

Hình 0.3 cho thấy hộp thoại đã hoàn thành và Hình 1.4 hiển thị kết quả.

Hình 1.3: Tùy chỉnh chức năng lấy mẫu

Trang 10

Hình 1.4: Kết quả hiện thị lấy mẫu

Em sẽ xây dựng một boxplot cho số tháng làm việc cho mỗi giá trị tình trạnghôn nhân từ Dữ liệu Rủi ro Tín dụng Đầu tiên, chọn Trình hướng dẫn biểu đồ từnút Khám phá trong nhóm Phân tích dữ liệu trong tab XLMiner Chọn Boxplot;trong hộp thoại thứ hai, chọn Tháng được sử dụng làm biến để

Trang 11

vẽ đồ thị trên trục tung Trong hộp thoại tiếp theo, chọn Trạng thái hôn nhân làmbiến để vẽ đồ thị trên trục hoành Nhấp vào Kết thúc Kết quả được hiển thị trongHình 10.5 Phạm vi hộp hiển thị phần trăm thứ 25 và 75 (phạm vi liên dải, IQR),đường liền nét trong hộp là trung vị và đường chấm trong hộp là giá trị trung bình.Các râu ria của Nô-lô-lô-lô-lô mở rộng ở hai bên của hộp để biểu thị các giá trị tốithiểu và tối đa trong một tập dữ liệu Nếu chúng ta di con trỏ qua bất kỳ ô nào, biểu

đồ sẽ hiển thị các giá trị này Râu rất dài gợi ý các ngoại lệ có thể có trong dữ liệu

Có thể dễ dàng thấy sự khác biệt trong dữ liệu giữa những người độc thân so vớinhững người đã kết hôn hoặc ly dị Chúng ta cũng có thể lọc dữ liệu bằng cách chọnhoặc bỏ chọn các hộp trong ngăn lọc để hiển thị các ô vuông chỉ cho một phần dữliệu, để so sánh các hộp có rủi ro tín dụng cao với các phân loại có rủi ro tín dụngthấp

Boxplots (đôi khi được gọi là các ô hình hộp và râu) hiển thị bằng đồ họa năm

số liệu thống kê chính của một tập dữ liệu, tối thiểu, phần tư thứ nhất, trung vị, phần

tư thứ ba và tối đa và rất hữu ích trong việc xác định hình dạng của phân phối vàngoại lệ trong dữ liệu

Biểu đồ tọa độ song song bao gồm một tập hợp các trục dọc, một cho mỗi biếnđược chọn Đối với mỗi quan sát, một đường được vẽ nối các trục dọc Điểm tại đóđường thẳng đi qua một trục biểu thị giá trị cho biến đó Biểu đồ tọa độ song songtạo ra một hồ sơ đa biến số, và giúp nhà phân tích khám phá dữ liệu và đưa ra kếtluận cơ bản

Trang 12

Hình 1.5: Mô tả biểu đồ hộp trong XLMiner

Chọn Trình hướng dẫn biểu đồ từ nút Khám phá trong nhóm Phân tích dữ liệutrong tab XLMiner Chọn Ma trận Scatterplot Trong hộp thoại tiếp theo, hãy chọncác hộp cho Tháng khách hàng, Tháng có việc làm và Tuổi và nhấp vào Kết thúc.Hình 10.7 cho thấy kết quả Dọc theo đường chéo là biểu đồ của các biến riêng lẻ.Tắt đường chéo là các biểu đồ phân tán của các cặp biến Ví dụ, biểu đồ ở hàng thứ

ba và cột thứ hai của hình hiển thị biểu đồ phân tán của Tháng được sử dụng so vớiTuổi Lưu ý rằng tháng làm việc là trên trục x và tuổi trên trục y Dữ liệu dường như

có xu hướng tuyến tính tăng nhẹ, biểu thị rằng các cá nhân lớn tuổi đã được sử dụngtrong một thời gian dài hơn Lưu ý rằng có hai biểu đồ cho mỗi cặp biến với các trụcđược lật Ví dụ, biểu đồ ở hàng thứ hai và đại học thứ ba giống như biểu đồ màchúng ta đã thảo luận, nhưng với tuổi trên trục x.Có thể dễ dàng lọc dữ liệu để tạocác

Trang 13

chế độ xem khác nhau.

Hình 1.6: Mô tả biểu đồ đường trong XLMiner

Chọn Trình hướng dẫn biểu đồ từ nút Khám phá trong nhóm Phân tích dữ liệutrong tab XLMiner Chọn Biến Trong hộp thoại tiếp theo, hãy chọn các hộp cho cácbiến muốn đưa vào và nhấp vào Kết thúc Hình 10.8 cho thấy kết quả Công cụ này

dễ sử dụng hơn nhiều so với công cụ Biểu đồ của Excel, đặc biệt là đối với nhiềubiến trong tập dữ liệu và có thể dễ dàng lọc dữ liệu để tạo các phối cảnh khác nhau

Trang 14

1.3 Dữ liệu bẩn

Không có gì lạ khi tìm thấy các tập dữ liệu thực có thiếu giá trị hoặc lỗi Các bộ

dữ liệu như vậy được gọi là bẩn bẩn và cần được dọn dẹp trước khi phân tích chúng.Một số phương pháp được sử dụng để xử lý dữ liệu bị thiếu Ví dụ: chúng ta có thểloại bỏ các bản ghi chứa dữ liệu bị thiếu; ước tính các giá trị hợp lý cho các quan sát

bị thiếu, chẳng hạn như giá trị trung bình hoặc trung bình; hoặc sử dụng thủ tục khaithác dữ liệu để đối phó với chúng XLMiner có khả năng xử lý dữ liệu bị thiếu trongmenu Transform trong nhóm Phân tích dữ liệu

Em đề xuất nên tham khảo Hướng dẫn sử dụng XLMiner từ menu Trợ giúp đểbiết thêm thông tin Trong mọi trường hợp, nên cố gắng hiểu liệu dữ liệu bị thiếuchỉ là sự kiện ngẫu nhiên hoặc nếu có lý do hợp lý tại sao chúng bị thiếu Loại bỏ dữliệu mẫu một cách bừa bãi có thể dẫn đến thông tin sai lệch và kết luận về dữ liệu

Hình 1.7: Mô tả biểu đồ phân phối trong XLMiner (1)

14

Trang 15

Hình 1.8: Mô tả biểu đồ phân phối trong XLMiner (2)

Lỗi dữ liệu thường có thể được xác định từ các ngoại lệ, một cách tiếp cận điểnhình là đánh giá dữ liệu có và không có ngoại lệ và xác định xem tác động củachúng có thay đổi đáng kể kết luận hay không và có nên dành nhiều nỗ lực hơn để

cố gắng hiểu và giải thích chúng không

1.4 Phân tích cụm

Phân tích cụm, còn được gọi là phân đoạn dữ liệu, là tập hợp các kỹ thuật tìmcách nhóm hoặc phân đoạn một tập hợp các đối tượng (nghĩa là quan sát hoặc bảnghi) thành các tập hợp con hoặc cụm, sao cho các kỹ thuật trong mỗi cụm có liênquan chặt chẽ với nhau hơn các đối tượng giao cho các cụm khác nhau

Các đối tượng trong các cụm nên thể hiện sự tương đồng cao, trong khi các đốitượng trong các cụm khác nhau sẽ không giống nhau Phân tích cụm

Trang 16

là một kỹ thuật giảm dữ liệu theo nghĩa có thể cần một số lượng lớn các quansát, chẳng hạn như khảo sát khách hàng hoặc bảng câu hỏi và giảm thông tin thànhcác nhóm nhỏ hơn, đồng nhất có thể được giải thích dễ dàng hơn Ví dụ, việc phântách khách hàng thành các nhóm nhỏ hơn có thể được sử dụng để tùy chỉnh quảngcáo hoặc khuyến mãi.

Hình 1.9: Mô tả cây quyết định

Trái ngược với nhiều kỹ thuật khai thác dữ liệu khác, phân tích cụm là mô tảchính xác và em không thể rút ra các kết luận thống kê về một mẫu sử dụng nó.Ngoài ra, các cụm được xác định không phải là duy nhất và phụ thuộc vào thủ tục

cụ thể được sử dụng; do đó, nó không dẫn đến một câu trả lời dứt khoát mà chỉ cungcấp những cách nhìn mới về dữ liệu Tuy nhiên, nó là một kỹ thuật được sử dụngrộng rãi Có hai phương pháp phân cụm chính là phân cụm phân cấp và phân cụm k-nghĩa

Trong phân cụm theo phân cấp, dữ liệu không được phân vùng thành một cụm

cụ thể trong một bước duy nhất Thay vào đó, một loạt các phân vùng diễn ra, có thểchạy từ một cụm duy nhất chứa tất cả các đối tượng đến n cụm,

16

Trang 17

mỗi cụm chứa một đối tượng Phân cụm theo phân cấp được chia thành cácphương pháp phân cụm liên kết, tiến hành theo chuỗi các hợp chất của n đối tượngthành các nhóm và các phương pháp phân cụm, phân tách n đối tượng thành cácnhóm mịn hơn.

Hình 10.9 minh họa sự khác biệt giữa hai loại phương thức này Các kỹ thuậtkết tụ được sử dụng phổ biến hơn và đây là phương pháp được áp dụng trongXLMiner Phân cụm phân cấp có thể được biểu diễn bằng sơ đồ hai chiều được gọi

là dendrogram, minh họa cho sự hợp nhất hoặc phân chia được thực hiện ở mỗi giaiđoạn phân tích kế tiếp nhau

Hình 1.10: Khoảng cách eculid

Một trong những phương pháp phân cụm phân cấp kết tụ đơn giản nhất là phâncụm liên kết đơn, còn được gọi là kỹ thuật lân cận gần nhất Đặc điểm xác định củaphương thức là khoảng cách giữa các nhóm được định nghĩa là khoảng cách giữacác cặp đối tượng gần nhất, trong đó chỉ các cặp bao gồm một đối tượng từ mỗi

Trang 18

khoảng cách giữa hai cụm, r và s, D (r, s), được định nghĩa là khoảng cách tốithiểu giữa bất kỳ đối tượng nào trong cụm r và bất kỳ đối tượng nào trong cụm s.Nói cách khác, khoảng cách giữa hai cụm được cho bởi giá trị của liên kết ngắnnhất giữa các cụm Ở mỗi giai đoạn phân cụm phân cấp, em tìm thấy hai cụm cókhoảng cách tối thiểu giữa chúng và hợp nhất chúng lại với nhau Một phương phápkhác về cơ bản ngược lại với phân cụm liên kết đơn được gọi là phân cụm liên kếthoàn chỉnh Trong phương pháp này, khoảng cách giữa các nhóm được định nghĩa

là khoảng cách giữa các cặp đối tượng ở xa nhất, một từ mỗi nhóm Phương phápthứ ba là cụm liên kết trung bình Ở đây, khoảng cách giữa hai cụm được định nghĩa

là trung bình khoảng cách giữa tất cả các cặp đối tượng, trong đó mỗi cặp được tạothành từ một đối tượng từ mỗi nhóm Các phương pháp khác là phân cụm liên kếtnhóm trung bình, sử dụng các giá trị trung bình cho mỗi biến để tính khoảng cáchgiữa các cụm và phương pháp phân cụm theo phương pháp Wardier, sử dụng tiêuchí tổng bình phương Các phương pháp khác nhau thường mang lại kết quả khácnhau, vì vậy tốt nhất là thử nghiệm và so sánh kết quả

(a) Dữ liệu phân cụm (a)

(b) Dữ liệu phân cụm (b)

18

Trang 19

Hình 1.12: Cấu hình phân cụm (1)

(b) Cấu hình phân cụm (3)(a) Cấu hình phân cụm (2)

Trang 20

Hình 1.14: Kết quả phân cụm (1)

Trang 21

Trang 22

Chương 2

Bài toán phân lớp

Các phương pháp phân loại tìm cách phân loại một kết quả phân loại thành mộttrong hai hoặc nhiều loại dựa trên các thuộc tính dữ liệu khác nhau Đối với mỗi bảnghi trong cơ sở dữ liệu, em có một biến quan tâm phân loại (ví dụ: mua hoặc khôngmua, rủi ro cao hoặc không có rủi ro) và một số biến dự đoán bổ sung (tuổi, thunhập, giới tính, giáo dục, tài sản, v.v.)

Đối với một tập hợp các biến dự đoán nhất định, em muốn gán giá trị tốt nhấtcủa biến phân loại em sẽ minh họa các kỹ thuật phân loại khác nhau bằng cách sửdụng Quyết định phê duyệt tín dụng cơ sở dữ liệu Excel Một phần của cơ sở dữ liệunày được hiển thị trong Hình 10.18 Trong cơ sở dữ liệu này, biến quan tâm phânloại là quyết định phê duyệt hoặc từ chối đơn đăng ký tín dụng Các biến còn lại làcác biến dự đoán Tuy nhiên, vì em đang làm việc với dữ liệu số, em cần mã hóa cáctrường Chủ nhà và Quyết định bằng số em viết mã thuộc tính Y là 1 và Kiểu N là 0;tương tự, em mã hóa thuộc tính Quyết định

22

Tiêu đề	Môn khai phá dữ liệu tổng quan về khai phá dữ liệu
Người hướng dẫn	TS. LÊ CHÍ NGỌC
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Khai phá dữ liệu
Thể loại	Tiểu luận cuối kỳ
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	44
Dung lượng	3,18 MB