Tiểu luận môn hệ hỗ trợ quyết định KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM SAS Enterprise Miner

TỔNG QUAN KHAI PHÁ DỮ LIỆU1.1 Khai phá dữ liệu Là một quá trình trích xuất tri thức từ lượng lớn dữ liệu Là một quá trình không dễ trích xuất thông tin ẩn, hữu ích, chưa được biết trước

Trang 1

ĐỒ ÁN MÔN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH

KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO

GIẢI BÀI TOÁN KINH DOANH DÙNG

GVHD : PGS.TS Đỗ Phúc HVTH : Võ Trúc Vy

MSHV : CH1301073

TPHCM, 6/2014

Trang 2

Thầy dạy chúng em lòng nhiệt tình và trách nhiệm với bản thân và cộng đồng.

Em xin chân thành cám ơn Thầy

Trang 3

MỤC LỤC

LỜI CÁM ƠN 2

Chương 1 TỔNG QUAN KHAI PHÁ DỮ LIỆU 5

1.1 Khai phá dữ liệu 5

1.2 Các tác vụ khai phá dữ liệu 10

1.3 Các quy trình khai phá dữ liệu 15

1.3.1 Quy trình CRISP-DM 15

1.3.2 Các hệ thống khai phá dữ liệu 16

1.3.3 Kiến trúc của một hệ thống khai phá dữ liệu 17

1.4 Ý nghĩa và vai trò của khai phá dữ liệu 20

1.5 Ứng dụng của khai phá dữ liệu 20

Chương 2 CÁC VẤN ĐỀ TIỀN XỬ LÝ DỮ LIỆU 21

2.1 Tổng quan về giai đoạn tiền xử lý dữ liệu 21

2.1.1 Giai đoạn tiền xử lý dữ liệu 21

2.2 Các kỹ thuật tiền xử lý dữ liệu 23

2.3 Làm sạch dữ liệu 26

2.4 Tích hợp dữ liệu 29

2.5 Biến đổi dữ liệu 31

2.6 Thu giảm dữ liệu 33

2.7 Rời rạc hóa dữ liệu 35

2.8 Tạo cây phân cấp ý niệm 35

2.9 Tạo cây phân cấp ý niệm 36

Chương 3 Bài báo “KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM SAS®Enterprise Miner™” 37 3.1 Tóm tắt 37

3.2 Định nghĩa vấn đề 38

3.3 Thu thập và cô đọng dữ liệu 38

3.4 Mô hình chiến lược 40

Trang 4

3.5 Huấn luyện, xác thực, và kiểm tra các mô hình 43

3.6 Kết quả phân tích 44

3.7 Liên kết kỹ thuật cho vấn đề kinh doanh 44

3.8 Trường hợp nghiên cứu 1: phát hiện gian lận chăm sóc sức khỏe 47

3.8.1 Định nghĩa vấn đề 47

3.8.2 Bộ sưu tập dữ liệu và tăng cường 47

3.8.3 Chiến lược mô hình 48

3.8.4 Đào tạo, xác thực, và kiểm tra các mô hình 49

3.8.5 Kết quả phân tích 52

3.8.6 Kết quả phân tích Sử dụng Biểu đồ nâng 52

3.8.7 Kết quả phân tích Sử dụng ma trận nhầm lẫn 53

3.8.8 Kết luận cho trường hợp nghiên cứu 1 61

3.9 Trường hợp nghiên cứu 2: Phát hiện gian lận thẻ mua hàng 62

3.9.1 Định nghĩa vấn đề 62

3.9.2 Bộ sưu tập dữ liệu và tăng cường 62

3.9.3 Mô hình chiến lược 63

3.9.4 Đào tạo, xác thực, và kiểm tra các mô hình 64

3.9.5 Kết quả phân tích 66

3.9.6 Xây dựng từ có giám sát để học tập có giám sát 68

3.9.7 Kết luận cho trường hợp nghiên cứu 69

3.10 Kết luận tổng thể 70

Tiểu sử 72

Trang 5

Chương 1 TỔNG QUAN KHAI PHÁ DỮ LIỆU

1.1 Khai phá dữ liệu

Là một quá trình trích xuất tri thức từ lượng lớn dữ liệu

Là một quá trình không dễ trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu

Các thuật ngữ thường được dùng tương đương: knowledge discovery/mining indata/databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence

 Lượng lớn dữ liệu sẵn có để khai phá

 Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúchay phi cấu trúc

 Dữ liệu được lưu trữ

 Các tập tin truyền thống (flat files)

 Các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ đối tượng(object relational databases)

 Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữ liệu (datawarehouses)

 Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu không gian (spatialdatabases), cơ sở dữ liệu thời gian (temporal databases), cơ sở dữ liệukhông thời gian (spatio-temporal databases), cơ sở dữ liệu chuỗi thời gian(time series databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ liệu

đa phương tiện (multimedia databases), …

 Các kho thông tin: the World Wide Web, …

 Dữ liệu tạm thời: các dòng dữ liệu (data streams)

 Tri thức đạt được từ quá trình khai phá

 Mô tả lớp/khái niệm (đặc trưng hóa và phân biệt hóa)

 Mẫu thường xuyên, các mối quan hệ kết hợp/tương quan

 Mô hình phân loại và dự đoán

 Mô hình gom cụm

Trang 6

 Dự đoán (Predictive): có khả năng suy luận từ dữ liệu hiện có để dự đoán

 Tri thức đạt được có thể có cấu trúc, bán cấu trúc, hoặc phi cấu trúc

 Tri thức đạt được có thể được/không được người dùng quan tâm à các độ

đo đánh giá tri thức đạt được

 Tri thức đạt được có thể được dùng trong việc hỗ trợ ra quyết định, điềukhiển quy trình, quản lý thông tin, xử lý truy vấn …

Trang 7

 Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết vàcông nghệ.

 Khai phá dữ liệu và công nghệ cơ sở dữ liệu

 Khả năng đóng góp của công nghệ cơ sở dữ liệu

 Công nghệ cơ sở dữ liệu cho việc quản lý dữ liệu được khai phá

 Dữ liệu rất lớn, có thể vượt quá khả năng của bộ nhớ chính (main memory)

 Dữ liệu được thu thập theo thời gian

 Các hệ cơ sở dữ liệu có khả năng xử lý hiệu quả lượng lớn dữ liệu với các

cơ chế phân trang (paging) và hoán chuyển (swapping) dữ liệu vào/ra bộnhớ chính

 Các hệ cơ sở dữ liệu hiện đại có khả năng xử lý nhiều loại dữ liệu phức tạp(spatial, temporal, spatiotemporal, multimedia, text, Web, …)

 Các chức năng khác (xử lý đồng thời, bảo mật, hiệu năng, tối ưu hóa, …)của các hệ cơ sở dữ liệu đã được phát triển tốt

 Thực trạng đóng góp của công nghệ cơ sở dữ liệu

 Các hệ quản trị cơ sở dữ liệu (DBMS) hỗ trợ khai phá dữ liệu

 Oracle Data Mining (Oracle 9i, 10g, 11g)

 Các công cụ khai phá dữ liệu của Microsoft (MS SQL Server 2000, 2005,2008)

Trang 8

 Intelligent Miner (IBM)

 Các hệ cơ sở dữ liệu qui nạp (inductive database) hỗ trợ khám phá tri thức

 Chuẩn SQL/MM 6:Data Mining của ISO/IEC 13249-6:2006 hỗ trợ khaiphá dữ liệu

 Đặc tả giao diện SQL cho các ứng dụng và dịch vụ khai phá dữ liệu từ các

cơ sở dữ liệu quan hệ

 Khai phá dữ liệu và lý thuyết thống kê

 Khai phá dữ liệu và học máy

 Khai phá dữ liệu và trực quan hóa

- Dữ liệu: 3D cubes,distribution charts, curves, surfaces, link graphs, imageframes and movies, parallel coordinates

- Kết quả (tri thức): pie charts, scatter plots, box plots, association rules, parallel coordinates, dendograms, temporal evolution

Trang 9

 Loại tri thức sẽ đạt được (kind of knowledge)

 Tri thức nền (background knowledge)

 Các độ đo (interestingness measures)

 Các kỹ thuật biểu diễn tri thức/trực quan hóa mẫu (pattern visualizationand knowledge presentation)

 Dữ liệu cụ thể sẽ được khai phá (task-relevant data)

 Phần dữ liệu từ các dữ liệu nguồn được quan tâm

 Tương ứng với các thuộc tính hay chiều dữ liệu được quan tâm

 Bao gồm: tên kho dữ liệu/cơ sở dữ liệu, các bảng dữ liệu hay các khối

dữ liệu, các điều kiện chọn dữ liệu, các thuộc tính hay chiều dữ liệuđược tâm, các tiêu chí gom nhóm dữ liệu

 Loại tri thức sẽ đạt được (kind of knowledge)

 Bao gồm: đặc trưng hóa dữ liệu, phân biệt hóa dữ liệu, mô hình phântích kết hợp hay tương quan, mô hình phân lớp, mô hình dự đoán, môhình gom cụm, mô hình phân tích phần tử biên, mô hình phân tích tiếnhóa

 Tương ứng với tác vụ khai phá dữ liệu cụ thể sẽ được thực thi

 Tri thức nền (background knowledge)

 Tương ứng với lĩnh vực cụ thể sẽ được khai phá

 Hướng dẫn quá trình khám phá tri thức

 Hỗ trợ khai phá dữ liệu ở nhiều mức trừu tượng khác nhau

 Đánh giá các mẫu được tìm thấy

 Bao gồm: các phân cấp ý niệm, niềm tin của người sử dụng về các mốiquan hệ của dữ liệu

 Các độ đo (interestingness measures)

 Thường đi kèm với các ngưỡng giá trị (threshold)

 Dẫn đường cho quá trình khai phá hoặc đánh giá các mẫu được tìm thấy

 Tương ứng với loại tri thức sẽ đạt được và do đó, tương ứng với tác vụkhai phá dữ liệu cụ thể sẽ được thực thi

Trang 10

 Kiểm tra: tính đơn giản (simplicity), tính chắc chắn (certainty), tính hữudụng (utility), tính mới (novelty)

 Các kỹ thuật biểu diễn tri thức/trực quan hóa mẫu (pattern visualization andknowledge presentation)

 Xác định dạng các mẫu/tri thức được tìm thấy để thể hiện đến người sửdụng

 Bao gồm: luật (rules), bảng (tables), báo cáo (reports), biểu đồ (charts),

đồ thị (graphs), cây (trees), và khối (cubes)

 Khai phá dữ liệu

 Phân loại dữ liệu

 Giải thuật phân loại với cây quyết định

 Giải thuật phân loại với mạng Bayes

 …

 Gom cụm dữ liệu

 Giải thuật gom cụm k-means

 Giải thuật gom cụm phân cấp nhóm

 …

 Khai phá luật kết hợp

 Giải thuật Apriori

 …

Trang 11

 Bốn thành phần cơ bản của một giải thuật khai phá dữ liệu

 Cấu trúc mẫu hay cấu trúc mô hình (model or pattern structure)

 Hàm tỉ số (score function)

 Phương pháp tìm kiếm và tối ưu hóa (optimization and search method)

 Chiến lược quản lý dữ liệu (data management strategy)

 Cấu trúc mẫu hay cấu trúc mô hình (model or pattern structure)

 Mô hình là mô tả của tập dữ liệu, mang tính toàn cục ở mức cao

 Mẫu là đặc điểm (đặc trưng) của dữ liệu, mang tính cục bộ, chỉ cho mộtvài bản ghi/đối tượng hay vài biến

 Cấu trúc biểu diễn các dạng chức năng chung với các thông số chưađược xác định trị

 Cấu trúc mô hình là một tóm tắt toàn cục về dữ liệu

 Ví dụ: Y = aX + b là một cấu trúc mô hình và Y = 3X + 2 là một môhình cụ thể được định nghĩa dựa trên cấu trúc này

 Cấu trúc mẫu là những cấu trúc liên quan một phần tương đối nhỏ của

dữ liệu hay của không gian dữ liệu

 Ví dụ: p(Y>y1|X>x1) = p1 là một cấu trúc mẫu và p(Y>5|X>10) = 0.5

là một mẫu được xác định dựa trên cấu trúc này

Trang 12

 Mục tiêu của phương pháp tìm kiếm và tối ưu hóa là xác định cấu trúc vàgiá trị các thông số đáp ứng tốt nhất hàm tỉ số từ dữ liệu sẵn có.

 Tìm kiếm các mẫu và mô hình

 Không gian trạng thái: tập rời rạc các trạng thái

 Bài toán tìm kiếm: bắt đầu tại một node (trạng thái) cụ thể, dichuyển qua không gian trạng thái để tìm thấy node tương ứngvới trạng thái đáp ứng tốt nhất hàm tỉ số

 Phương pháp tìm kiếm: chiến lược tham lam, có dùng heuristics,chiến lược nhánh-cận

 Tối ưu hóa thông số

 Chiến lược quản lý dữ liệu (data management strategy)

 Dữ liệu được khai phá

 Ít, toàn bộ được xử lý đồng thời trong bộ nhớ chính

 Nhiều, trên đĩa, một phần được xử lý đồng thời trong bộ nhớ chính

 Chiến lược quản lý dữ liệu hỗ trợ cách dữ liệu được lưu trữ, đánh chỉ mục,

và truy xuất

 Giải thuật khai phá dữ liệu hiệu quả (efficiency) và có tính co giãn(scalability) với dữ liệu được khai phá

 Công nghệ cơ sở dữ liệu

1.3 Các quy trình khai phá dữ liệu

Quy trình khai phá dữ liệu là một chuỗi lặp (iterative) (và tương tác(interactive)) gồm các bước (giai đoạn) bắt đầu với dữ liệu thô (raw data) và kết thúc với tri thức (knowledge of interest) đáp ứng được sự quan tâm của người sử dụng

 Cross Industry Standard Process for Data Mining (CRISP-DM atwww.crisp-dm.org)

 SEMMA (Sample, Explore, Modify, Model, Assess) at the SAS Institute

 Sự cần thiết của một quy trình khai phá dữ liệu

Trang 13

 Cách thức tiến hành (hoạch định và quản lý) dự án khai phá dữ liệu có hệthống

 Đảm bảo nỗ lực dành cho một dự án khai phá dữ liệu được tối ưu hóa

 Việc đánh giá và cập nhật các mô hình trong dự án được diễn ra liên tục

1.3.1 Quy trình CRISP-DM

 Chuẩn quy trình công nghiệp

 Được khởi xướng từ 09/1996 và được hỗ trợ bởi hơn 200 thành viên

 Chuẩn mở

 Hỗ trợ công nghiệp/ứng dụng và công cụ khai phá dữ liệu hiện có

 Tập trung vào các vấn đề nghiệp vụ cũng như phân tích kỹ thuật

 Tạo ra một khung thức hướng dẫn qui trình khai phá dữ liệu

 Có nền tảng kinh nghiệm từ các lĩnh vực ứng dụng

Quy trình CRISP-DM là một quy trình lặp, có khả năng quay lui (backtracking) gồm 6 giai đoạn:

 Tìm hiểu nghiệp vụ (Business understanding)

 Tìm hiểu dữ liệu (Data understanding)

 Chuẩn bị dữ liệu (Data preparation)

 Mô hình hoá (Modeling)

 Đánh giá (Evaluation)

 Triển khai (Deployment)

Trang 14

1.3.2 Các hệ thống khai phá dữ liệu

Hệ thống khai phá dữ liệu được phát triển dựa trên khái niệm rộng của khai phá dữliệu

Khai phá dữ liệu là một quá trình khám phá tri thức được quan tâm từ lượng lớn

dữ liệu trong các cơ sở dữ liệu, kho dữ liệu, hay các kho thông tin khác

Các thành phần chính có thể có

 Database, data warehouse, World Wide Web, và information repositories

 Database hay data warehouse server

 Knowledge base

 Data mining engine

 Pattern evaluation module

 User interface

1.3.3 Kiến trúc của một hệ thống khai phá dữ liệu

Trang 15

 Các hệ thống khai phá dữ liệu

 Database, data warehouse, World Wide Web, và information repositories

Thành phần này là các nguồn dữ liệu/thông tin sẽ được khai phá.Trong những tình huống cụ thể, thành phần này là nguồn nhập(input) của các kỹ thuật tích hợp và làm sạch dữ liệu

 Database hay data warehouse server

Thành phần chịu trách nhiệm chuẩn bị dữ liệu thích hợp chocác yêu cầu khai phá dữ liệu

 Knowledge base

Trang 16

Thành phần chứa tri thức miền, được dùng để hướng dẫn quá trình tìm kiếm, đánh giá các mẫu kết quả được tìm thấy.

Tri thức miền có thể là các phân cấp khái niệm, niềm tin của người sử dụng, các ràng buộc hay các ngưỡng giá trị, siêu dữ liệu, …

 Data mining engine

Thành phần chứa các khối chức năng thực hiện các tác vụ khai phá dữ liệu

 Pattern evaluation module

Thành phần này làm việc với các độ đo (và các ngưỡng giá trị) hỗ trợ tìm kiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy là những mẫu được quan tâm bởi người

Người sử dụng cũng có thể xem các lược đồ cơ sở dữ liệu/kho dữ liệu, các cấu trúc

dữ liệu; đánh giá các mẫu khai phá được; trực quan hóa các mẫu này ở các dạng khác nhau

 Các đặc điểm được dùng để khảo sát một hệ thống khai phá dữ liệu

o Kiểu dữ liệu

o Các vấn đề hệ thống

o Nguồn dữ liệu

o Các tác vụ và phương pháp luận khai phá dữ liệu

o Vấn đề gắn kết với các hệ thống kho dữ liệu/cơ sở dữ liệu

Trang 17

o Khả năng co giãn dữ liệu

o Các công cụ trực quan hóa

o Ngôn ngữ truy vấn khai phá dữ liệu và giao diện đồ họa cho ngườidùng

 Một số hệ thống khai phá dữ liệu:

o Intelligent Miner (IBM)

o Microsoft data mining tools (Microsoft SQL Server2000/2005/2008)

o Oracle Data Mining (Oracle 9i/10g/11g)

o Enterprise Miner (SAS Institute)

o Weka (the University of Waikato, New Zealand,www.cs.waikato.ac.nz/ml/weka)

…

 Phân biệt các hệ thống khai phá dữ liệu với

Các hệ thống phân tích dữ liệu thống kê (statistical data analysis systems)

Các hệ thống học máy (machine learning systems)

Các hệ thống truy hồi thông tin (information retrieval systems)

Các hệ cơ sở dữ liệu diễn dịch (deductive database systems)

Các hệ cơ sở dữ liệu (database systems)

…

1.4 Ý nghĩa và vai trò của khai phá dữ liệu

Công nghệ hiện đại trong lĩnh vực quản lý thông tin

Hiện diện khắp nơi (ubiquitous) và có tính ẩn (invisible) trong nhiều khía cạnh củađời sống hằng ngày

Làm việc, mua sắm, tìm kiếm thông tin, nghỉ ngơi, …

Trang 18

Được áp dụng trong nhiều ứng dụng thuộc nhiều lĩnh vực khác nhau

Hỗ trợ các nhà khoa học, giáo dục học, kinh tế học, doanh nghiệp, khách hàng, …

1.5 Ứng dụng của khai phá dữ liệu

Trong kinh doanh (business)

Trong tài chính (finance) và tiếp thị bán hàng (sales marketing)

Trong thương mại (commerce) và ngân hàng (bank)

Trong bảo hiểm (insurance)

Trong khoa học (science) và y sinh học (biomedicine)

Trong điều khiển (control) và viễn thông (telecommunication)

…

Trang 19

Chương 2 CÁC VẤN ĐỀ TIỀN XỬ LÝ DỮ LIỆU

2.1 Tổng quan về giai đoạn tiền xử lý dữ liệu

2.1.1 Giai đoạn tiền xử lý dữ liệu

Quá trình xử lý dữ liệu thô/gốc (raw/original data) nhằm cải thiện chấtlượng dữ liệu (quality of the data) và do đó, cải thiện chất lượng của kếtquả khai phá

 Dữ liệu thô/gốc

 Có cấu trúc, bán cấu trúc, phi cấu trúc

 Được đưa vào từ các nguồn dữ liệu trong các hệ thống xử lý tập tin(file processing systems) và/hay các hệ thống cơ sở dữ liệu (databasesystems)

 Chất lượng dữ liệu (data quality): tính chính xác, tính hiện hành, tính toànvẹn, tính nhất quán

 tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực

 tính hiện hành (currency/timeliness): giá trị được ghi nhận không bịlỗi thời

 tính toàn vẹn (completeness): tất cả các giá trị dành cho mộtbiến/thuộc tính đều được ghi nhận

 tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn nhưnhau trong tất cả các trường hợp

Patterns

Trang 20

2.2 Các kỹ thuật tiền xử lý dữ liệu

 Làm sạch dữ liệu (data cleaning/cleansing): loại bỏ nhiễu (remove noise),hiệu chỉnh những phần dữ liệu không nhất quán (correct datainconsistencies)

 Tích hợp dữ liệu (data integration): trộn dữ liệu (merge data) từ nhiềunguồn khác nhau vào một kho dữ liệu

 Biến đổi dữ liệu (data transformation): chuẩn hoá dữ liệu (datanormalization)

 Thu giảm dữ liệu (data reduction): thu giảm kích thước dữ liệu (nghĩa làgiảm số phần tử) bằng kết hợp dữ liệu (data aggregation), loại bỏ các đặc

Trang 21

điểm dư thừa (redundant features) (nghĩa là giảm số chiều/thuộc tính dữliệu), gom cụm dữ liệu

 Các kỹ thuật tiền xử lý dữ liệu

 Làm sạch dữ liệu (data cleaning/cleansing)

 Tóm tắt hoá dữ liệu: nhận diện đặc điểm chung của dữ liệu và sự hiện diệncủa nhiễu hoặc các phần tử kì dị (outliers)

 Xử lý dữ liệu bị thiếu (missing data)

 Xử lý dữ liệu bị nhiễu (noisy data)

 Tích hợp dữ liệu (data integration)

 Tích hợp lược đồ (schema integration) và so trùng đối tượng (objectmatching)

 Vấn đề dư thừa (redundancy)

 Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection and resolution ofdata value conflicts)

 Biến đổi dữ liệu (data transformation)

 Làm trơn dữ liệu (smoothing)

 Kết hợp dữ liệu (aggregation)

 Tổng quát hóa dữ liệu (generalization)

 Chuẩn hóa dữ liệu (normalization)

 Xây dựng thuộc tích (attribute/feature construction)

 Thu giảm dữ liệu (data reduction)

 Kết hợp khối dữ liệu (data cube aggregation)

 Chọn tập con các thuộc tính (attribute subset selection)

 Thu giảm chiều (dimensionality reduction)

 Thu giảm lượng (numerosity reduction)

 Tạo phân cấp ý niệm (concept hierarchy generation) và rời rạc hóa(discretization)

Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính(central tendency) và sự phân tán (dispersion) của dữ liệu

Trang 22

 Các độ đo về xu hướng chính: mean, median, mode, midrange

 Các độ đo về sự phân tán: quartiles, interquartile range (IQR), varianceLàm nổi bật các giá trị dữ liệu nên được xem như nhiễu (noise) hoặc phần tử biên(outliers), cung cấp cái nhìn tổng quan về dữ liệu

Dữ liệu mẫu về đơn giá của các mặt hàng đã được bán

 Các độ đo về xu hướng chính của dữ liệu

odd N

if x

Median

N N

N

2 / )

2 /

 Mode: giá trị xuất hiện thường xuyên nhất trong tập dữ liệu

 Midrange: giá trị trung bình của các giá trị lớn nhất và nhỏ nhất trong tập

dữ liệu

 Các độ đo về xu hướng chính của dữ liệu

Trang 23

 Mean = Σ(count[i]*price[i])/Σ(count[i])

 Weighted arithmetic mean

 Median

 Mode = price[i] nếu count[i] lớn nhất

 Midrange = (Σ(count[i]*price[i]) + Σ(count[j]*price[j]))/(Σ(count[i]) +Σ(count[j])) nếu price[i] lớn nhất và price[j] nhỏ nhất

 Các độ đo về sự phân tán của dữ liệu

 Quartiles

 The first quartile (Q1): the 25th percentile

 The second quartile (Q2): the 50th percentile (median)

 The third quartile (Q3): the 75th percentile

 Interquartile Range (IQR) = Q3 – Q1

 Outliers (the most extreme observations): giá trị nằm cách trên Q3hay dưới Q1 một khoảng 1.5xIQR

 Variance

2.3 Làm sạch dữ liệu

 Xử lý dữ liệu bị thiếu (missing data)

 Định nghĩa của dữ liệu bị thiếu Dữ liệu không có sẵn khi cần được

sử dụng

 Nguyên nhân gây ra dữ liệu bị thiếu

 Khách quan (không tồn tại lúc được nhập liệu, sự cố, …)

 Chủ quan (tác nhân con người)

 Giải pháp cho dữ liệu bị thiếu

Trang 24

 Chủ quan (tác nhân con người)

 Giải pháp nhận diện phần tử biên

 Dựa trên phân bố thống kê (statistical distribution-based)

 Dựa trên khoảng cách (distance-based)

 Dựa trên mật độ (density-based)

 Dựa trên độ lệch (deviation-based)

 Giải pháp giảm thiểu nhiễu

 Binning (by bin means, bin median, bin boundaries)

 Dữ liệu có thứ tự

 Phân bố dữ liệu vào các bins (buckets)

 Bin boundaries: trị min và trị max

Trang 25

 Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data)

 Giải pháp giảm thiểu nhiễu

 Hồi quy (regression)

 Phân tích cụm (cluster analysis)

 Xử lý dữ liệu không nhất quán

x

y

y = x + 1

X1 Y1

Y1’

Trang 26

 Định nghĩa của dữ liệu không nhất quán Dữ liệu được ghi nhận khác nhaucho cùng một đối tượng/thực thể à discrepancies from inconsistent datarepresentations

 Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu

 Định dạng không nhất quán của các vùng nhập liệu

 Thiết bị ghi nhận dữ liệu, …

 Giải pháp

 Tận dụng siêu dữ liệu, ràng buộc dữ liệu, sự kiểm tra của nhà phântích dữ liệu cho việc nhận diện

 Điều chỉnh dữ liệu không nhất quán bằng tay

 Các giải pháp biến đổi/chuẩn hóa dữ liệu tự động

 Các thực thể (object/entity/attribute) đến từ nhiều nguồn dữ liệu

 Hai hay nhiều thực thể khác nhau diễn tả cùng một thực thể thực

 Ví dụ ở mức lược đồ (schema): customer_id trong nguồn S1 vàcust_number trong nguồn S2

Trang 27

 Ví dụ ở mức thể hiện (instance): “R & D” trong nguồn S1 và “Research &Development” trong nguồn S2 “Male” và “Female” trong nguồn S1 và

“Nam” và “Nữ” trong nguồn S2

 à Vai trò của siêu dữ liệu (metadata)

 Phát hiện dư thừa: phân tích tương quan (correlation analysis)

 Dựa trên dữ liệu hiện có, kiểm tra khả năng dẫn ra một thuộc tính B từthuộc tính A

 Đối với các thuộc tính số (numerical attributes), đánh giá tương quan giữahai thuộc tính với các hệ số tương quan (correlation coefficient, akaPearson’s product moment coefficient)

 Đối với các thuộc tính rời rạc (categorical/discrete attributes), đánh giátương quan giữa hai thuộc tính với phép kiểm thử chi-square (c2)

 Phân tích tương quan giữa hai thuộc tính số A và B

 rA,B Î [-1, 1]

 rA,B > 0: A và B tương quan thuận với nhau, trị số của A tăng khi trị số của

B tăng, rA,B càng lớn thì mức độ tương quan càng cao, A hoặc B có thểđược loại bỏ vì dư thừa

 rA,B = 0: A và B không tương quan với nhau (độc lập)

 rA,B < 0: A và B tương quan nghịch với nhau, A và B loại trừ lẫn nhau

Trang 28

 A có c giá trị phân biệt, a1, a2, …, ac.

 B có r giá trị phân biệt, b1, b2, …, br

 oij: số lượng đối tượng (tuples) có trị thuộc tính A là ai và trị thuộc tính B làbj

 count(A=ai): số lượng đối tượng có trị thuộc tính A là ai

 count(B=bj): số lượng đối tượng có trị thuộc tính B là bj

 Phép kiểm thống kê chi-square kiểm tra giả thuyết liệu A và B có độc lậpvới nhau dựa trên một mức quan trọng (significance level) với độ tự do(degree of freedom)

 Nếu giả thuyết bị loại bỏ thì A và B có sự liên hệ với nhau dựa trênthống kê

 Độ tự do (degree of freedom): (r-1)*(c-1)

 Tra bảng phân bố chi-square để xác định giá trị c2

Trang 29

 Nếu giá trị tính toán được lớn hơn hay bằng trị tra bảng được thì haithuộc tính A và B độc lập nhau (giả thuyết đúng).

 Vấn đề mâu thuẫn giá trị dữ liệu

 Cho cùng một thực thể thật, các giá trị thuộc tính đến từ các nguồn dữ liệukhác nhau có thể khác nhau về cách biểu diễn (representation), đo lường(scaling), và mã hóa (encoding)

 Representation: “2004/12/25” với “25/12/2004”

 Scaling: thuộc tính weight trong các hệ thống đo khác nhau với cácđơn vị đo khác nhau, thuộc tính price trong các hệ thống tiền tệ khácnhau với các đơn vị tiền tệ khác nhau

 Encoding: “yes” và “no” với “1” và “0”

2.5 Biến đổi dữ liệu

Biến đổi dữ liệu: quá trình biến đổi hay kết hợp dữ liệu vào những dạngthích hợp cho quá trình khai phá dữ liệu

 Làm trơn dữ liệu (smoothing)

 Các phương pháp binning (bin means, bin medians, bin boundaries)

 Hồi quy

 Các kỹ thuật gom cụm (phân tích phần tử biên)

 Các phương pháp rời rạc hóa dữ liệu (các phân cấp ý niệm)

 à Loại bỏ/giảm thiểu nhiễu khỏi dữ liệu

 Kết hợp dữ liệu (aggregation)

 Các tác vụ kết hợp/tóm tắt dữ liệu

 Chuyển dữ liệu ở mức chi tiết này sang dữ liệu ở mức kém chi tiết hơn

 Hỗ trợ việc phân tích dữ liệu ở nhiều độ mịn thời gian khác nhau

 Tổng quát hóa (generalization)

 Chuyển đổi dữ liệu cấp thấp/nguyên tố/thô sang các khái niệm ở mức caohơn thông qua các phân cấp ý niệm

 Chuẩn hóa (normalization)

Trang 30

 min-max normalization

 Giá trị cũ: v Î[minA, maxA]

 Giá trị mới: v’ Î [new_minA, new_maxA]

 Ví dụ: chuẩn hóa điểm số từ 0-4.0 sang 0-10.0

Giá trị mới: v’ với j là số nguyên nhỏ nhất sao cho Max(|v’|) < 1

 Xây dựng thuộc tính/đặc tính (attribute/feature construction)

 Các thuộc tính mới được xây dựng và thêm vào từ tập các thuộc tínhsẵn có

 Hỗ trợ kiểm tra tính chính xác và giúp hiểu cấu trúc của dữ liệunhiều chiều

 Hỗ trợ phát hiện thông tin thiếu sót về các mối quan hệ giữa cácthuộc tính dữ liệu

 à Các thuộc tính dẫn xuất

2.6 Thu giảm dữ liệu

Tập dữ liệu được biến đổi đảm bảo các toàn vẹn, nhưng nhỏ/ít hơn nhiều về

số lượng so với ban đầu

Trang 31

 Kết hợp khối dữ liệu (data cube aggregation)

 Dạng dữ liệu: additive, semi-additive (numerical)

 Kết hợp dữ liệu bằng các hàm nhóm: average, min, max, sum, count,

…

 Dữ liệu ở các mức trừu tượng khác nhau

 Mức trừu tượng càng cao giúp thu giảm lượng dữ liệu càng nhiều

 Chọn một số thuộc tính (attribute subset selection)

 Giảm kích thước tập dữ liệu bằng việc loại bỏ những thuộctính/chiều/đặc trưng (attribute/dimension/feature) dư thừa/khôngthích hợp (redundant/irrelevant)

 Mục tiêu: tập ít các thuộc tính nhất vẫn đảm bảo phân bố xác suất(probability distribution) của các lớp dữ liệu đạt được gần với phân

bố xác suất ban đầu với tất cả các thuộc tính

à Bài toán tối ưu hóa: vận dụng heuristics

Trang 32

 Thu giảm chiều (dimensionality reduction)

 Biến đổi wavelet (wavelet transforms)

 Phân tích nhân tố chính (principal component analysis)

 Thu giảm lượng (numerosity reduction)

 Các kỹ thuật giảm lượng dữ liệu bằng các dạng biểu diễn dữ liệuthay thế

 Các phương pháp có thông số (parametric): mô hình ước lượng dữliệu à các thông số được lưu trữ thay cho dữ liệu thật

 Hồi quy

 Các phương pháp phi thông số (nonparametric): lưu trữ các biểudiễn thu giảm của dữ liệu

 Histogram, Clustering, Sampling

2.7 Rời rạc hóa dữ liệu

Giảm số lượng giá trị của một thuộc tính liên tục (continuous attribute) bằng cácchia miền trị thuộc tính thành các khoảng (intervals)

Các nhãn (labels) được gán cho các khoảng (intervals) này và được dùng thay giátrị thực của thuộc tính

Trang 33

Các trị thuộc tính có thể được phân hoạch theo một phân cấp (hierarchical) hay ởnhiều mức phân giải khác nhau (multiresolution)

 Rời rạc hóa dữ liệu cho các thuộc tính số (numeric attributes)

 Các phân cấp ý niệm được dùng để thu giảm dữ liệu bằng việc thuthập và thay thế các ý niệm cấp thấp bởi các ý niệm cấp cao

 Các phân cấp ý niệm được xây dựng tự động dựa trên việc phân tíchphân bố dữ liệu

 Chi tiết của thuộc tính sẽ bị mất

 Dữ liệu đạt được có ý nghĩa và dễ được diễn dịch hơn, đòi hỏi ítkhông gian lưu trữ hơn

 Các phương pháp rời rạc hóa dữ liệu cho các thuộc tính số

 Discretization by “natural/intuitive partitioning”

2.8 Tạo cây phân cấp ý niệm

 Dữ liệu phân loại (categorical data)

 Dữ liệu rời rạc (discrete data)

 Miền trị thuộc tính phân loại (categorical attribute)

 Số giá trị phân biệt hữu hạn

 Không có thứ tự giữa các giá trị

 à Tạo phân cấp ý niệm cho dữ liệu rời rạc

 Các phương pháp tạo phân cấp ý niệm cho dữ liệu rời rạc(categorical/discrete data)

Trang 34

 Đặc tả thứ tự riêng phần (partial ordering)/thứ tự toàn phần (total ordering)của các thuộc tính tường minh ở mức lược đồ bởi người sử dụng hoặcchuyên gia

 Đặc tả một phần phân cấp bằng cách nhóm dữ liệu tường minh

2.9 Tạo cây phân cấp ý niệm

Các phương pháp tạo phân cấp ý niệm cho dữ liệu rời rạc (categorical/discretedata)

Đặc tả một tập các thuộc tính, nhưng không bao gồm thứ tự riêng phần của chúngĐặc tả chỉ một tập riêng phần các thuộc tính (partial set of attributes)

Tạo phân cấp ý niệm bằng cách dùng các kết nối ngữ nghĩa được chỉ định trước

Trang 35

Chương 3. Bài báo “KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG

DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM SAS®Enterprise Miner™”

sử dụng trong hai trường hợp nghiên cứu liên quan đến phát hiện gian lận

Các bước trong quá trình khai phá dữ liệu là:

• định nghĩa vấn đề

• thu thập dữ liệu và nâng cao

• Các chiến lược mô hình

• đào tạo, xác nhận, và thử nghiệm các mô hình

• Kết quả phân tích

• lặp đi lặp lại mô hình

• kết quả Thực hiệnMục tiêu nghiên cứu đầu tiên là sử dụng quá trình khai phá dữ liệu để phân tích các trường hợp gian lận trong ngành công nghiệp chăm sóc sức khỏe cộng đồng Trong nghiên cứu này, được gọi là "trường hợp chăm sóc sức khỏe," các dữ liệu chứa các ví dụ điển hình của gian lận được biết đến Mục tiêu của trường hợp chăm sóc sức khỏe là xác định, thông qua mô hình dự báo, những thuộc tính đặc trưng của gian lận

Định dạng
Số trang	70
Dung lượng	1,81 MB