TỔNG QUAN KHAI PHÁ DỮ LIỆU1.1 Khai phá dữ liệu Là một quá trình trích xuất tri thức từ lượng lớn dữ liệu Là một quá trình không dễ trích xuất thông tin ẩn, hữu ích, chưa được biết trước
Trang 1ĐỒ ÁN MÔN HỌC HỆ HỖ TRỢ QUYẾT ĐỊNH
KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO
GIẢI BÀI TOÁN KINH DOANH DÙNG
GVHD : PGS.TS Đỗ Phúc HVTH : Võ Trúc Vy
MSHV : CH1301073
TPHCM, 6/2014
Trang 2Thầy dạy chúng em lòng nhiệt tình và trách nhiệm với bản thân và cộng đồng.
Em xin chân thành cám ơn Thầy
Trang 3MỤC LỤC
LỜI CÁM ƠN 2
Chương 1 TỔNG QUAN KHAI PHÁ DỮ LIỆU 5
1.1 Khai phá dữ liệu 5
1.2 Các tác vụ khai phá dữ liệu 10
1.3 Các quy trình khai phá dữ liệu 15
1.3.1 Quy trình CRISP-DM 15
1.3.2 Các hệ thống khai phá dữ liệu 16
1.3.3 Kiến trúc của một hệ thống khai phá dữ liệu 17
1.4 Ý nghĩa và vai trò của khai phá dữ liệu 20
1.5 Ứng dụng của khai phá dữ liệu 20
Chương 2 CÁC VẤN ĐỀ TIỀN XỬ LÝ DỮ LIỆU 21
2.1 Tổng quan về giai đoạn tiền xử lý dữ liệu 21
2.1.1 Giai đoạn tiền xử lý dữ liệu 21
2.2 Các kỹ thuật tiền xử lý dữ liệu 23
2.3 Làm sạch dữ liệu 26
2.4 Tích hợp dữ liệu 29
2.5 Biến đổi dữ liệu 31
2.6 Thu giảm dữ liệu 33
2.7 Rời rạc hóa dữ liệu 35
2.8 Tạo cây phân cấp ý niệm 35
2.9 Tạo cây phân cấp ý niệm 36
Chương 3 Bài báo “KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM SAS®Enterprise Miner™” 37 3.1 Tóm tắt 37
3.2 Định nghĩa vấn đề 38
3.3 Thu thập và cô đọng dữ liệu 38
3.4 Mô hình chiến lược 40
Trang 43.5 Huấn luyện, xác thực, và kiểm tra các mô hình 43
3.6 Kết quả phân tích 44
3.7 Liên kết kỹ thuật cho vấn đề kinh doanh 44
3.8 Trường hợp nghiên cứu 1: phát hiện gian lận chăm sóc sức khỏe 47
3.8.1 Định nghĩa vấn đề 47
3.8.2 Bộ sưu tập dữ liệu và tăng cường 47
3.8.3 Chiến lược mô hình 48
3.8.4 Đào tạo, xác thực, và kiểm tra các mô hình 49
3.8.5 Kết quả phân tích 52
3.8.6 Kết quả phân tích Sử dụng Biểu đồ nâng 52
3.8.7 Kết quả phân tích Sử dụng ma trận nhầm lẫn 53
3.8.8 Kết luận cho trường hợp nghiên cứu 1 61
3.9 Trường hợp nghiên cứu 2: Phát hiện gian lận thẻ mua hàng 62
3.9.1 Định nghĩa vấn đề 62
3.9.2 Bộ sưu tập dữ liệu và tăng cường 62
3.9.3 Mô hình chiến lược 63
3.9.4 Đào tạo, xác thực, và kiểm tra các mô hình 64
3.9.5 Kết quả phân tích 66
3.9.6 Xây dựng từ có giám sát để học tập có giám sát 68
3.9.7 Kết luận cho trường hợp nghiên cứu 69
3.10 Kết luận tổng thể 70
Tiểu sử 72
Trang 5Chương 1 TỔNG QUAN KHAI PHÁ DỮ LIỆU
1.1 Khai phá dữ liệu
Là một quá trình trích xuất tri thức từ lượng lớn dữ liệu
Là một quá trình không dễ trích xuất thông tin ẩn, hữu ích, chưa được biết trước từ dữ liệu
Các thuật ngữ thường được dùng tương đương: knowledge discovery/mining indata/databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence
Lượng lớn dữ liệu sẵn có để khai phá
Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúchay phi cấu trúc
Dữ liệu được lưu trữ
Các tập tin truyền thống (flat files)
Các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ đối tượng(object relational databases)
Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữ liệu (datawarehouses)
Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu không gian (spatialdatabases), cơ sở dữ liệu thời gian (temporal databases), cơ sở dữ liệukhông thời gian (spatio-temporal databases), cơ sở dữ liệu chuỗi thời gian(time series databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ liệu
đa phương tiện (multimedia databases), …
Các kho thông tin: the World Wide Web, …
Dữ liệu tạm thời: các dòng dữ liệu (data streams)
Tri thức đạt được từ quá trình khai phá
Mô tả lớp/khái niệm (đặc trưng hóa và phân biệt hóa)
Mẫu thường xuyên, các mối quan hệ kết hợp/tương quan
Mô hình phân loại và dự đoán
Mô hình gom cụm
Trang 6 Dự đoán (Predictive): có khả năng suy luận từ dữ liệu hiện có để dự đoán
Tri thức đạt được có thể có cấu trúc, bán cấu trúc, hoặc phi cấu trúc
Tri thức đạt được có thể được/không được người dùng quan tâm à các độ
đo đánh giá tri thức đạt được
Tri thức đạt được có thể được dùng trong việc hỗ trợ ra quyết định, điềukhiển quy trình, quản lý thông tin, xử lý truy vấn …
Trang 7 Khai phá dữ liệu là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết vàcông nghệ.
Khai phá dữ liệu và công nghệ cơ sở dữ liệu
Khả năng đóng góp của công nghệ cơ sở dữ liệu
Công nghệ cơ sở dữ liệu cho việc quản lý dữ liệu được khai phá
Dữ liệu rất lớn, có thể vượt quá khả năng của bộ nhớ chính (main memory)
Dữ liệu được thu thập theo thời gian
Các hệ cơ sở dữ liệu có khả năng xử lý hiệu quả lượng lớn dữ liệu với các
cơ chế phân trang (paging) và hoán chuyển (swapping) dữ liệu vào/ra bộnhớ chính
Các hệ cơ sở dữ liệu hiện đại có khả năng xử lý nhiều loại dữ liệu phức tạp(spatial, temporal, spatiotemporal, multimedia, text, Web, …)
Các chức năng khác (xử lý đồng thời, bảo mật, hiệu năng, tối ưu hóa, …)của các hệ cơ sở dữ liệu đã được phát triển tốt
Thực trạng đóng góp của công nghệ cơ sở dữ liệu
Các hệ quản trị cơ sở dữ liệu (DBMS) hỗ trợ khai phá dữ liệu
Oracle Data Mining (Oracle 9i, 10g, 11g)
Các công cụ khai phá dữ liệu của Microsoft (MS SQL Server 2000, 2005,2008)
Trang 8 Intelligent Miner (IBM)
Các hệ cơ sở dữ liệu qui nạp (inductive database) hỗ trợ khám phá tri thức
Chuẩn SQL/MM 6:Data Mining của ISO/IEC 13249-6:2006 hỗ trợ khaiphá dữ liệu
Đặc tả giao diện SQL cho các ứng dụng và dịch vụ khai phá dữ liệu từ các
cơ sở dữ liệu quan hệ
Khai phá dữ liệu và lý thuyết thống kê
Khai phá dữ liệu và học máy
Khai phá dữ liệu và trực quan hóa
- Dữ liệu: 3D cubes,distribution charts, curves, surfaces, link graphs, imageframes and movies, parallel coordinates
- Kết quả (tri thức): pie charts, scatter plots, box plots, association rules, parallel coordinates, dendograms, temporal evolution
Trang 9 Loại tri thức sẽ đạt được (kind of knowledge)
Tri thức nền (background knowledge)
Các độ đo (interestingness measures)
Các kỹ thuật biểu diễn tri thức/trực quan hóa mẫu (pattern visualizationand knowledge presentation)
Dữ liệu cụ thể sẽ được khai phá (task-relevant data)
Phần dữ liệu từ các dữ liệu nguồn được quan tâm
Tương ứng với các thuộc tính hay chiều dữ liệu được quan tâm
Bao gồm: tên kho dữ liệu/cơ sở dữ liệu, các bảng dữ liệu hay các khối
dữ liệu, các điều kiện chọn dữ liệu, các thuộc tính hay chiều dữ liệuđược tâm, các tiêu chí gom nhóm dữ liệu
Loại tri thức sẽ đạt được (kind of knowledge)
Bao gồm: đặc trưng hóa dữ liệu, phân biệt hóa dữ liệu, mô hình phântích kết hợp hay tương quan, mô hình phân lớp, mô hình dự đoán, môhình gom cụm, mô hình phân tích phần tử biên, mô hình phân tích tiếnhóa
Tương ứng với tác vụ khai phá dữ liệu cụ thể sẽ được thực thi
Tri thức nền (background knowledge)
Tương ứng với lĩnh vực cụ thể sẽ được khai phá
Hướng dẫn quá trình khám phá tri thức
Hỗ trợ khai phá dữ liệu ở nhiều mức trừu tượng khác nhau
Đánh giá các mẫu được tìm thấy
Bao gồm: các phân cấp ý niệm, niềm tin của người sử dụng về các mốiquan hệ của dữ liệu
Các độ đo (interestingness measures)
Thường đi kèm với các ngưỡng giá trị (threshold)
Dẫn đường cho quá trình khai phá hoặc đánh giá các mẫu được tìm thấy
Tương ứng với loại tri thức sẽ đạt được và do đó, tương ứng với tác vụkhai phá dữ liệu cụ thể sẽ được thực thi
Trang 10 Kiểm tra: tính đơn giản (simplicity), tính chắc chắn (certainty), tính hữudụng (utility), tính mới (novelty)
Các kỹ thuật biểu diễn tri thức/trực quan hóa mẫu (pattern visualization andknowledge presentation)
Xác định dạng các mẫu/tri thức được tìm thấy để thể hiện đến người sửdụng
Bao gồm: luật (rules), bảng (tables), báo cáo (reports), biểu đồ (charts),
đồ thị (graphs), cây (trees), và khối (cubes)
Khai phá dữ liệu
Phân loại dữ liệu
Giải thuật phân loại với cây quyết định
Giải thuật phân loại với mạng Bayes
…
Gom cụm dữ liệu
Giải thuật gom cụm k-means
Giải thuật gom cụm phân cấp nhóm
…
Khai phá luật kết hợp
Giải thuật Apriori
…
Trang 11 Bốn thành phần cơ bản của một giải thuật khai phá dữ liệu
Cấu trúc mẫu hay cấu trúc mô hình (model or pattern structure)
Hàm tỉ số (score function)
Phương pháp tìm kiếm và tối ưu hóa (optimization and search method)
Chiến lược quản lý dữ liệu (data management strategy)
Cấu trúc mẫu hay cấu trúc mô hình (model or pattern structure)
Mô hình là mô tả của tập dữ liệu, mang tính toàn cục ở mức cao
Mẫu là đặc điểm (đặc trưng) của dữ liệu, mang tính cục bộ, chỉ cho mộtvài bản ghi/đối tượng hay vài biến
Cấu trúc biểu diễn các dạng chức năng chung với các thông số chưađược xác định trị
Cấu trúc mô hình là một tóm tắt toàn cục về dữ liệu
Ví dụ: Y = aX + b là một cấu trúc mô hình và Y = 3X + 2 là một môhình cụ thể được định nghĩa dựa trên cấu trúc này
Cấu trúc mẫu là những cấu trúc liên quan một phần tương đối nhỏ của
dữ liệu hay của không gian dữ liệu
Ví dụ: p(Y>y1|X>x1) = p1 là một cấu trúc mẫu và p(Y>5|X>10) = 0.5
là một mẫu được xác định dựa trên cấu trúc này
Trang 12 Mục tiêu của phương pháp tìm kiếm và tối ưu hóa là xác định cấu trúc vàgiá trị các thông số đáp ứng tốt nhất hàm tỉ số từ dữ liệu sẵn có.
Tìm kiếm các mẫu và mô hình
Không gian trạng thái: tập rời rạc các trạng thái
Bài toán tìm kiếm: bắt đầu tại một node (trạng thái) cụ thể, dichuyển qua không gian trạng thái để tìm thấy node tương ứngvới trạng thái đáp ứng tốt nhất hàm tỉ số
Phương pháp tìm kiếm: chiến lược tham lam, có dùng heuristics,chiến lược nhánh-cận
Tối ưu hóa thông số
Chiến lược quản lý dữ liệu (data management strategy)
Dữ liệu được khai phá
Ít, toàn bộ được xử lý đồng thời trong bộ nhớ chính
Nhiều, trên đĩa, một phần được xử lý đồng thời trong bộ nhớ chính
Chiến lược quản lý dữ liệu hỗ trợ cách dữ liệu được lưu trữ, đánh chỉ mục,
và truy xuất
Giải thuật khai phá dữ liệu hiệu quả (efficiency) và có tính co giãn(scalability) với dữ liệu được khai phá
Công nghệ cơ sở dữ liệu
1.3 Các quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu là một chuỗi lặp (iterative) (và tương tác(interactive)) gồm các bước (giai đoạn) bắt đầu với dữ liệu thô (raw data) và kết thúc với tri thức (knowledge of interest) đáp ứng được sự quan tâm của người sử dụng
Cross Industry Standard Process for Data Mining (CRISP-DM atwww.crisp-dm.org)
SEMMA (Sample, Explore, Modify, Model, Assess) at the SAS Institute
Sự cần thiết của một quy trình khai phá dữ liệu
Trang 13 Cách thức tiến hành (hoạch định và quản lý) dự án khai phá dữ liệu có hệthống
Đảm bảo nỗ lực dành cho một dự án khai phá dữ liệu được tối ưu hóa
Việc đánh giá và cập nhật các mô hình trong dự án được diễn ra liên tục
1.3.1 Quy trình CRISP-DM
Chuẩn quy trình công nghiệp
Được khởi xướng từ 09/1996 và được hỗ trợ bởi hơn 200 thành viên
Chuẩn mở
Hỗ trợ công nghiệp/ứng dụng và công cụ khai phá dữ liệu hiện có
Tập trung vào các vấn đề nghiệp vụ cũng như phân tích kỹ thuật
Tạo ra một khung thức hướng dẫn qui trình khai phá dữ liệu
Có nền tảng kinh nghiệm từ các lĩnh vực ứng dụng
Quy trình CRISP-DM là một quy trình lặp, có khả năng quay lui (backtracking) gồm 6 giai đoạn:
Tìm hiểu nghiệp vụ (Business understanding)
Tìm hiểu dữ liệu (Data understanding)
Chuẩn bị dữ liệu (Data preparation)
Mô hình hoá (Modeling)
Đánh giá (Evaluation)
Triển khai (Deployment)
Trang 141.3.2 Các hệ thống khai phá dữ liệu
Hệ thống khai phá dữ liệu được phát triển dựa trên khái niệm rộng của khai phá dữliệu
Khai phá dữ liệu là một quá trình khám phá tri thức được quan tâm từ lượng lớn
dữ liệu trong các cơ sở dữ liệu, kho dữ liệu, hay các kho thông tin khác
Các thành phần chính có thể có
Database, data warehouse, World Wide Web, và information repositories
Database hay data warehouse server
Knowledge base
Data mining engine
Pattern evaluation module
User interface
1.3.3 Kiến trúc của một hệ thống khai phá dữ liệu
Trang 15 Các hệ thống khai phá dữ liệu
Database, data warehouse, World Wide Web, và information repositories
Thành phần này là các nguồn dữ liệu/thông tin sẽ được khai phá.Trong những tình huống cụ thể, thành phần này là nguồn nhập(input) của các kỹ thuật tích hợp và làm sạch dữ liệu
Database hay data warehouse server
Thành phần chịu trách nhiệm chuẩn bị dữ liệu thích hợp chocác yêu cầu khai phá dữ liệu
Knowledge base
Trang 16Thành phần chứa tri thức miền, được dùng để hướng dẫn quá trình tìm kiếm, đánh giá các mẫu kết quả được tìm thấy.
Tri thức miền có thể là các phân cấp khái niệm, niềm tin của người sử dụng, các ràng buộc hay các ngưỡng giá trị, siêu dữ liệu, …
Data mining engine
Thành phần chứa các khối chức năng thực hiện các tác vụ khai phá dữ liệu
Pattern evaluation module
Thành phần này làm việc với các độ đo (và các ngưỡng giá trị) hỗ trợ tìm kiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy là những mẫu được quan tâm bởi người
Người sử dụng cũng có thể xem các lược đồ cơ sở dữ liệu/kho dữ liệu, các cấu trúc
dữ liệu; đánh giá các mẫu khai phá được; trực quan hóa các mẫu này ở các dạng khác nhau
Các đặc điểm được dùng để khảo sát một hệ thống khai phá dữ liệu
o Kiểu dữ liệu
o Các vấn đề hệ thống
o Nguồn dữ liệu
o Các tác vụ và phương pháp luận khai phá dữ liệu
o Vấn đề gắn kết với các hệ thống kho dữ liệu/cơ sở dữ liệu
Trang 17o Khả năng co giãn dữ liệu
o Các công cụ trực quan hóa
o Ngôn ngữ truy vấn khai phá dữ liệu và giao diện đồ họa cho ngườidùng
Một số hệ thống khai phá dữ liệu:
o Intelligent Miner (IBM)
o Microsoft data mining tools (Microsoft SQL Server2000/2005/2008)
o Oracle Data Mining (Oracle 9i/10g/11g)
o Enterprise Miner (SAS Institute)
o Weka (the University of Waikato, New Zealand,www.cs.waikato.ac.nz/ml/weka)
…
Phân biệt các hệ thống khai phá dữ liệu với
Các hệ thống phân tích dữ liệu thống kê (statistical data analysis systems)
Các hệ thống học máy (machine learning systems)
Các hệ thống truy hồi thông tin (information retrieval systems)
Các hệ cơ sở dữ liệu diễn dịch (deductive database systems)
Các hệ cơ sở dữ liệu (database systems)
…
1.4 Ý nghĩa và vai trò của khai phá dữ liệu
Công nghệ hiện đại trong lĩnh vực quản lý thông tin
Hiện diện khắp nơi (ubiquitous) và có tính ẩn (invisible) trong nhiều khía cạnh củađời sống hằng ngày
Làm việc, mua sắm, tìm kiếm thông tin, nghỉ ngơi, …
Trang 18Được áp dụng trong nhiều ứng dụng thuộc nhiều lĩnh vực khác nhau
Hỗ trợ các nhà khoa học, giáo dục học, kinh tế học, doanh nghiệp, khách hàng, …
1.5 Ứng dụng của khai phá dữ liệu
Trong kinh doanh (business)
Trong tài chính (finance) và tiếp thị bán hàng (sales marketing)
Trong thương mại (commerce) và ngân hàng (bank)
Trong bảo hiểm (insurance)
Trong khoa học (science) và y sinh học (biomedicine)
Trong điều khiển (control) và viễn thông (telecommunication)
…
Trang 19Chương 2 CÁC VẤN ĐỀ TIỀN XỬ LÝ DỮ LIỆU
2.1 Tổng quan về giai đoạn tiền xử lý dữ liệu
2.1.1 Giai đoạn tiền xử lý dữ liệu
Quá trình xử lý dữ liệu thô/gốc (raw/original data) nhằm cải thiện chấtlượng dữ liệu (quality of the data) và do đó, cải thiện chất lượng của kếtquả khai phá
Dữ liệu thô/gốc
Có cấu trúc, bán cấu trúc, phi cấu trúc
Được đưa vào từ các nguồn dữ liệu trong các hệ thống xử lý tập tin(file processing systems) và/hay các hệ thống cơ sở dữ liệu (databasesystems)
Chất lượng dữ liệu (data quality): tính chính xác, tính hiện hành, tính toànvẹn, tính nhất quán
tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực
tính hiện hành (currency/timeliness): giá trị được ghi nhận không bịlỗi thời
tính toàn vẹn (completeness): tất cả các giá trị dành cho mộtbiến/thuộc tính đều được ghi nhận
tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn nhưnhau trong tất cả các trường hợp
Patterns
Trang 202.2 Các kỹ thuật tiền xử lý dữ liệu
Làm sạch dữ liệu (data cleaning/cleansing): loại bỏ nhiễu (remove noise),hiệu chỉnh những phần dữ liệu không nhất quán (correct datainconsistencies)
Tích hợp dữ liệu (data integration): trộn dữ liệu (merge data) từ nhiềunguồn khác nhau vào một kho dữ liệu
Biến đổi dữ liệu (data transformation): chuẩn hoá dữ liệu (datanormalization)
Thu giảm dữ liệu (data reduction): thu giảm kích thước dữ liệu (nghĩa làgiảm số phần tử) bằng kết hợp dữ liệu (data aggregation), loại bỏ các đặc
Trang 21điểm dư thừa (redundant features) (nghĩa là giảm số chiều/thuộc tính dữliệu), gom cụm dữ liệu
Các kỹ thuật tiền xử lý dữ liệu
Làm sạch dữ liệu (data cleaning/cleansing)
Tóm tắt hoá dữ liệu: nhận diện đặc điểm chung của dữ liệu và sự hiện diệncủa nhiễu hoặc các phần tử kì dị (outliers)
Xử lý dữ liệu bị thiếu (missing data)
Xử lý dữ liệu bị nhiễu (noisy data)
Tích hợp dữ liệu (data integration)
Tích hợp lược đồ (schema integration) và so trùng đối tượng (objectmatching)
Vấn đề dư thừa (redundancy)
Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection and resolution ofdata value conflicts)
Biến đổi dữ liệu (data transformation)
Làm trơn dữ liệu (smoothing)
Kết hợp dữ liệu (aggregation)
Tổng quát hóa dữ liệu (generalization)
Chuẩn hóa dữ liệu (normalization)
Xây dựng thuộc tích (attribute/feature construction)
Thu giảm dữ liệu (data reduction)
Kết hợp khối dữ liệu (data cube aggregation)
Chọn tập con các thuộc tính (attribute subset selection)
Thu giảm chiều (dimensionality reduction)
Thu giảm lượng (numerosity reduction)
Tạo phân cấp ý niệm (concept hierarchy generation) và rời rạc hóa(discretization)
Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính(central tendency) và sự phân tán (dispersion) của dữ liệu
Trang 22 Các độ đo về xu hướng chính: mean, median, mode, midrange
Các độ đo về sự phân tán: quartiles, interquartile range (IQR), varianceLàm nổi bật các giá trị dữ liệu nên được xem như nhiễu (noise) hoặc phần tử biên(outliers), cung cấp cái nhìn tổng quan về dữ liệu
Dữ liệu mẫu về đơn giá của các mặt hàng đã được bán
Các độ đo về xu hướng chính của dữ liệu
odd N
if x
Median
N N
N
2 / )
2 /
Mode: giá trị xuất hiện thường xuyên nhất trong tập dữ liệu
Midrange: giá trị trung bình của các giá trị lớn nhất và nhỏ nhất trong tập
dữ liệu
Các độ đo về xu hướng chính của dữ liệu
Trang 23 Mean = Σ(count[i]*price[i])/Σ(count[i])
Weighted arithmetic mean
Median
Mode = price[i] nếu count[i] lớn nhất
Midrange = (Σ(count[i]*price[i]) + Σ(count[j]*price[j]))/(Σ(count[i]) +Σ(count[j])) nếu price[i] lớn nhất và price[j] nhỏ nhất
Các độ đo về sự phân tán của dữ liệu
Quartiles
The first quartile (Q1): the 25th percentile
The second quartile (Q2): the 50th percentile (median)
The third quartile (Q3): the 75th percentile
Interquartile Range (IQR) = Q3 – Q1
Outliers (the most extreme observations): giá trị nằm cách trên Q3hay dưới Q1 một khoảng 1.5xIQR
Variance
2.3 Làm sạch dữ liệu
Xử lý dữ liệu bị thiếu (missing data)
Định nghĩa của dữ liệu bị thiếu Dữ liệu không có sẵn khi cần được
sử dụng
Nguyên nhân gây ra dữ liệu bị thiếu
Khách quan (không tồn tại lúc được nhập liệu, sự cố, …)
Chủ quan (tác nhân con người)
Giải pháp cho dữ liệu bị thiếu
Trang 24 Chủ quan (tác nhân con người)
Giải pháp nhận diện phần tử biên
Dựa trên phân bố thống kê (statistical distribution-based)
Dựa trên khoảng cách (distance-based)
Dựa trên mật độ (density-based)
Dựa trên độ lệch (deviation-based)
Giải pháp giảm thiểu nhiễu
Binning (by bin means, bin median, bin boundaries)
Dữ liệu có thứ tự
Phân bố dữ liệu vào các bins (buckets)
Bin boundaries: trị min và trị max
Trang 25 Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data)
Giải pháp giảm thiểu nhiễu
Hồi quy (regression)
Phân tích cụm (cluster analysis)
Xử lý dữ liệu không nhất quán
x
y
y = x + 1
X1 Y1
Y1’
Trang 26 Định nghĩa của dữ liệu không nhất quán Dữ liệu được ghi nhận khác nhaucho cùng một đối tượng/thực thể à discrepancies from inconsistent datarepresentations
Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu
Định dạng không nhất quán của các vùng nhập liệu
Thiết bị ghi nhận dữ liệu, …
Giải pháp
Tận dụng siêu dữ liệu, ràng buộc dữ liệu, sự kiểm tra của nhà phântích dữ liệu cho việc nhận diện
Điều chỉnh dữ liệu không nhất quán bằng tay
Các giải pháp biến đổi/chuẩn hóa dữ liệu tự động
Các thực thể (object/entity/attribute) đến từ nhiều nguồn dữ liệu
Hai hay nhiều thực thể khác nhau diễn tả cùng một thực thể thực
Ví dụ ở mức lược đồ (schema): customer_id trong nguồn S1 vàcust_number trong nguồn S2
Trang 27 Ví dụ ở mức thể hiện (instance): “R & D” trong nguồn S1 và “Research &Development” trong nguồn S2 “Male” và “Female” trong nguồn S1 và
“Nam” và “Nữ” trong nguồn S2
à Vai trò của siêu dữ liệu (metadata)
Phát hiện dư thừa: phân tích tương quan (correlation analysis)
Dựa trên dữ liệu hiện có, kiểm tra khả năng dẫn ra một thuộc tính B từthuộc tính A
Đối với các thuộc tính số (numerical attributes), đánh giá tương quan giữahai thuộc tính với các hệ số tương quan (correlation coefficient, akaPearson’s product moment coefficient)
Đối với các thuộc tính rời rạc (categorical/discrete attributes), đánh giátương quan giữa hai thuộc tính với phép kiểm thử chi-square (c2)
Phân tích tương quan giữa hai thuộc tính số A và B
rA,B Î [-1, 1]
rA,B > 0: A và B tương quan thuận với nhau, trị số của A tăng khi trị số của
B tăng, rA,B càng lớn thì mức độ tương quan càng cao, A hoặc B có thểđược loại bỏ vì dư thừa
rA,B = 0: A và B không tương quan với nhau (độc lập)
rA,B < 0: A và B tương quan nghịch với nhau, A và B loại trừ lẫn nhau
Trang 28 A có c giá trị phân biệt, a1, a2, …, ac.
B có r giá trị phân biệt, b1, b2, …, br
oij: số lượng đối tượng (tuples) có trị thuộc tính A là ai và trị thuộc tính B làbj
count(A=ai): số lượng đối tượng có trị thuộc tính A là ai
count(B=bj): số lượng đối tượng có trị thuộc tính B là bj
Phép kiểm thống kê chi-square kiểm tra giả thuyết liệu A và B có độc lậpvới nhau dựa trên một mức quan trọng (significance level) với độ tự do(degree of freedom)
Nếu giả thuyết bị loại bỏ thì A và B có sự liên hệ với nhau dựa trênthống kê
Độ tự do (degree of freedom): (r-1)*(c-1)
Tra bảng phân bố chi-square để xác định giá trị c2
Trang 29 Nếu giá trị tính toán được lớn hơn hay bằng trị tra bảng được thì haithuộc tính A và B độc lập nhau (giả thuyết đúng).
Vấn đề mâu thuẫn giá trị dữ liệu
Cho cùng một thực thể thật, các giá trị thuộc tính đến từ các nguồn dữ liệukhác nhau có thể khác nhau về cách biểu diễn (representation), đo lường(scaling), và mã hóa (encoding)
Representation: “2004/12/25” với “25/12/2004”
Scaling: thuộc tính weight trong các hệ thống đo khác nhau với cácđơn vị đo khác nhau, thuộc tính price trong các hệ thống tiền tệ khácnhau với các đơn vị tiền tệ khác nhau
Encoding: “yes” và “no” với “1” và “0”
2.5 Biến đổi dữ liệu
Biến đổi dữ liệu: quá trình biến đổi hay kết hợp dữ liệu vào những dạngthích hợp cho quá trình khai phá dữ liệu
Làm trơn dữ liệu (smoothing)
Các phương pháp binning (bin means, bin medians, bin boundaries)
Hồi quy
Các kỹ thuật gom cụm (phân tích phần tử biên)
Các phương pháp rời rạc hóa dữ liệu (các phân cấp ý niệm)
à Loại bỏ/giảm thiểu nhiễu khỏi dữ liệu
Kết hợp dữ liệu (aggregation)
Các tác vụ kết hợp/tóm tắt dữ liệu
Chuyển dữ liệu ở mức chi tiết này sang dữ liệu ở mức kém chi tiết hơn
Hỗ trợ việc phân tích dữ liệu ở nhiều độ mịn thời gian khác nhau
Tổng quát hóa (generalization)
Chuyển đổi dữ liệu cấp thấp/nguyên tố/thô sang các khái niệm ở mức caohơn thông qua các phân cấp ý niệm
Chuẩn hóa (normalization)
Trang 30 min-max normalization
Giá trị cũ: v Î[minA, maxA]
Giá trị mới: v’ Î [new_minA, new_maxA]
Ví dụ: chuẩn hóa điểm số từ 0-4.0 sang 0-10.0
Giá trị mới: v’ với j là số nguyên nhỏ nhất sao cho Max(|v’|) < 1
Xây dựng thuộc tính/đặc tính (attribute/feature construction)
Các thuộc tính mới được xây dựng và thêm vào từ tập các thuộc tínhsẵn có
Hỗ trợ kiểm tra tính chính xác và giúp hiểu cấu trúc của dữ liệunhiều chiều
Hỗ trợ phát hiện thông tin thiếu sót về các mối quan hệ giữa cácthuộc tính dữ liệu
à Các thuộc tính dẫn xuất
2.6 Thu giảm dữ liệu
Tập dữ liệu được biến đổi đảm bảo các toàn vẹn, nhưng nhỏ/ít hơn nhiều về
số lượng so với ban đầu
Trang 31 Kết hợp khối dữ liệu (data cube aggregation)
Dạng dữ liệu: additive, semi-additive (numerical)
Kết hợp dữ liệu bằng các hàm nhóm: average, min, max, sum, count,
…
Dữ liệu ở các mức trừu tượng khác nhau
Mức trừu tượng càng cao giúp thu giảm lượng dữ liệu càng nhiều
Chọn một số thuộc tính (attribute subset selection)
Giảm kích thước tập dữ liệu bằng việc loại bỏ những thuộctính/chiều/đặc trưng (attribute/dimension/feature) dư thừa/khôngthích hợp (redundant/irrelevant)
Mục tiêu: tập ít các thuộc tính nhất vẫn đảm bảo phân bố xác suất(probability distribution) của các lớp dữ liệu đạt được gần với phân
bố xác suất ban đầu với tất cả các thuộc tính
à Bài toán tối ưu hóa: vận dụng heuristics
Trang 32 Thu giảm chiều (dimensionality reduction)
Biến đổi wavelet (wavelet transforms)
Phân tích nhân tố chính (principal component analysis)
Thu giảm lượng (numerosity reduction)
Các kỹ thuật giảm lượng dữ liệu bằng các dạng biểu diễn dữ liệuthay thế
Các phương pháp có thông số (parametric): mô hình ước lượng dữliệu à các thông số được lưu trữ thay cho dữ liệu thật
Hồi quy
Các phương pháp phi thông số (nonparametric): lưu trữ các biểudiễn thu giảm của dữ liệu
Histogram, Clustering, Sampling
2.7 Rời rạc hóa dữ liệu
Giảm số lượng giá trị của một thuộc tính liên tục (continuous attribute) bằng cácchia miền trị thuộc tính thành các khoảng (intervals)
Các nhãn (labels) được gán cho các khoảng (intervals) này và được dùng thay giátrị thực của thuộc tính
Trang 33Các trị thuộc tính có thể được phân hoạch theo một phân cấp (hierarchical) hay ởnhiều mức phân giải khác nhau (multiresolution)
Rời rạc hóa dữ liệu cho các thuộc tính số (numeric attributes)
Các phân cấp ý niệm được dùng để thu giảm dữ liệu bằng việc thuthập và thay thế các ý niệm cấp thấp bởi các ý niệm cấp cao
Các phân cấp ý niệm được xây dựng tự động dựa trên việc phân tíchphân bố dữ liệu
Chi tiết của thuộc tính sẽ bị mất
Dữ liệu đạt được có ý nghĩa và dễ được diễn dịch hơn, đòi hỏi ítkhông gian lưu trữ hơn
Các phương pháp rời rạc hóa dữ liệu cho các thuộc tính số
Discretization by “natural/intuitive partitioning”
2.8 Tạo cây phân cấp ý niệm
Dữ liệu phân loại (categorical data)
Dữ liệu rời rạc (discrete data)
Miền trị thuộc tính phân loại (categorical attribute)
Số giá trị phân biệt hữu hạn
Không có thứ tự giữa các giá trị
à Tạo phân cấp ý niệm cho dữ liệu rời rạc
Các phương pháp tạo phân cấp ý niệm cho dữ liệu rời rạc(categorical/discrete data)
Trang 34 Đặc tả thứ tự riêng phần (partial ordering)/thứ tự toàn phần (total ordering)của các thuộc tính tường minh ở mức lược đồ bởi người sử dụng hoặcchuyên gia
Đặc tả một phần phân cấp bằng cách nhóm dữ liệu tường minh
2.9 Tạo cây phân cấp ý niệm
Các phương pháp tạo phân cấp ý niệm cho dữ liệu rời rạc (categorical/discretedata)
Đặc tả một tập các thuộc tính, nhưng không bao gồm thứ tự riêng phần của chúngĐặc tả chỉ một tập riêng phần các thuộc tính (partial set of attributes)
Tạo phân cấp ý niệm bằng cách dùng các kết nối ngữ nghĩa được chỉ định trước
Trang 35Chương 3. Bài báo “KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG
DỰ ĐOÁN RỦI RO GIẢI BÀI TOÁN KINH DOANH DÙNG PHẦN MỀM SAS®Enterprise Miner™”
sử dụng trong hai trường hợp nghiên cứu liên quan đến phát hiện gian lận
Các bước trong quá trình khai phá dữ liệu là:
• định nghĩa vấn đề
• thu thập dữ liệu và nâng cao
• Các chiến lược mô hình
• đào tạo, xác nhận, và thử nghiệm các mô hình
• Kết quả phân tích
• lặp đi lặp lại mô hình
• kết quả Thực hiệnMục tiêu nghiên cứu đầu tiên là sử dụng quá trình khai phá dữ liệu để phân tích các trường hợp gian lận trong ngành công nghiệp chăm sóc sức khỏe cộng đồng Trong nghiên cứu này, được gọi là "trường hợp chăm sóc sức khỏe," các dữ liệu chứa các ví dụ điển hình của gian lận được biết đến Mục tiêu của trường hợp chăm sóc sức khỏe là xác định, thông qua mô hình dự báo, những thuộc tính đặc trưng của gian lận