Nội dung Chương I. Tổng quan về khám phá tri thức (KDD) và khai phá dữ liệu (DM) Chương II. Tiền xử lý dữ liệu Chương III. Một số phương pháp khai phá dữ liệu Chương IV. Lượng giá và sử dụng tri thức được khám phá Chương V. Ứng dụng I.1. Khám phá tri thức và khai phá dữ liệu là gì? Giáo sư Tom Mitchell 4 đã đưa ra định nghĩa của KPDL như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.” Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad 3 đã phát biểu: “KPDL, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”
Trang 1KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG
Nguyễn Thị Hương Giang
Trang 2Nội dung
(KDD) và khai phá dữ liệu (DM)
liệu
được khám phá
Trang 3I Tổng quan về khám phá tri thức (KDD) và khai phá
dữ liệu (DM)
I.1 Khám phá tri thức và khai phá dữ liệu là gì?
- Giáo sư Tom Mitchell [4] đã đưa ra định nghĩa của KPDL
như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.”
- Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [3] đã phát biểu: “KPDL, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những
thông tin ẩn, trước đây chưa biết và có khả năng hữu ích,
dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ
liệu.”
Trang 4II Tiến trình khai phá tri thức
Knowledge
Pattern Discovery
Transformed Data
Cleansed Preprocessed Preparated
Trang 5II Tiến trình khai phá tri thức
Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 1 :
1 Gom dữ liệu (Gathering)
- Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web.
vô nghĩa và không có khả năng kết nối dữ liệu
- Ví dụ: tuổi = 673
Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên
Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử
lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng.
Trang 6II Tiến trình khai phá tri thức
4 Chuyển đổi dữ liệu (Transformation)
- Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác.
5 Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)
- Đây là bước mang tính tư duy trong khai phá dữ liệu Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự, v.v
6 Đánh giá kết quả mẫu (Evaluation of Result)
- Đây là giai đoạn cuối trong quá trình khai phá dữ liệu Ở giai đoạn này, các mẫu
dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải bất cứ mẫu
dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra.
Trang 7Transform values
Select DM method (s)
Create derived attributes
Extract knowledge
Find important attributes &
value ranges
Test knowledge knowledge Refine
Query & report generation Aggregation & sequences Advanced methods
Data warehousing
Trang 8III Các phương pháp KPDL (DM)
cơ sở dữ liệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị trong tương lai của các biến đáng quan tâm
- Mô tả tập trung vào việc tìm kiếm các mẫu mô tả
dữ liệu mà con người có thể hiểu được
Debt have defaulted
on their loans
-Lớp bài toán Dự đoán sẽ học ra các bộ dự
đoán Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông tin đang có để đưa ra một giá trị
số học cho hàm cần dự đoán.
- Ví dụ: Bài toán tiêu biểu của phương pháp này
Trang 9 2 Phân loại:
- Ánh xạ (phân loại) một mục dữ liệu vào trong một
trong nhiều lớp được định nghĩa trước
- Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ học ra bộ phân loại (classifier) dùng để phân các dữ
liệu mới vào một trong những lớp (còn gọi là loại) đã
được xác định trước Nhận dạng cũng là một bài toán thuộc kiểu Phân loại
Ví dụ: nhận dạng tự động các đối tượng trong CSDL
ảnh lớn
III Các phương pháp KPDL (DM) (tt)
Trang 10 3 Tìm luật liên kết (Association Rule):
- Tìm kiếm các mối liên kết giữa các phần tử
dữ liệu.
- Ví dụ: nhóm các món hàng thường được
mua kèm với nhau trong siêu thị.
III Các phương pháp KPDL (DM) (tt)
Trang 11 4 Hồi quy (Regression):
là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực
- Ví dụ: đánh giá khả năng sống của bệnh nhân với tập các kết quả kiểm tra chẩn đoán; đoán nhu cầu người tiêu dùng đối với sản phẩm
mới,…
III Các phương pháp KPDL (DM) (tt)
Trang 12 5 Phân cụm (Clustering)
- Nhóm các đối tượng dữ liệu có tính chất giống nhau vào cùng một nhóm.
- Có nhiều cách tiếp cận với những mục tiêu
khác nhau trong phân loại Các kỹ thuật trong bài toán này thường được vận dụng trong vấn
đề phân hoạch dữ liệu tiếp thị hay khảo sát
sơ bộ các dữ liệu.
III Các phương pháp KPDL (DM) (tt)
Trang 13 6 Tổng hợp (Summarization)
- Các phương pháp tìm kiếm một mô tả tóm tắt cho một tập con dữ liệu
- Các kỹ thuật tóm tắt thường được áp
dụng cho các phân tích dữ liệu tương tác
có tính thăm dò và tạo báo cáo tự động
III Các phương pháp KPDL (DM) (tt)
Trang 14 7 Mô hình ràng buộc (Dependency
modeling)
- Tìm mô hình mô tả các ràng buộc quan trọng,
có nghĩa giữa các biến.
- Mô hình ràng buộc có 2 mức: mức cấu trúc xác định các biến ràng buộc cục bộ với nhau như thế nào, trong khi mức định lượng xác
định độ lớn của ràng buộc sử dụng tỷ lệ số
III Các phương pháp KPDL (DM) (tt)
Trang 15 8 Dò tìm và biến đổi độ lệch (Change and
Trang 16Chương II Tiền xử lý dữ liệu
Mục tiêu chính của việc chuẩn bị dữ liệu:
- Để sắp xếp dữ liệu thành ở dạng chuẩn sẵn sàng được xử lý bởi các chương trình khai
phá dữ liệu
- để chuẩn bị các đặc tính tốt nhất cho việc
khai phá
Trang 17II Tiền xử lý dữ liệu
2 Tại sao phải tiền xử lý dữ liệu
Dữ liệu trong thế giới thực là hỗn tạp
chắc chắn cần quan tâm, hoặc chỉ chứa dữ liệu chung
mâu thuẫn nhau
Dữ liệu không đảm bảo chất lượng thì kết quả khai phá không hiệu quả
liệu có chất lượng
Trang 18b Lệch
tính khác đáng kể với phần lớn các đối tượng dữ liệu khác trong tập dữ liệu
Trang 19c Các giá trị bị mất
Lý do bị mất giá trị dữ liệu
Ví dụ: người được điều tra từ chối không
cung cấp thông tin tuổi và cân nặng của họ
trường hợp
Ví dụ: thu nhập hàng năm không áp dụng cho
trẻ con
Trang 203 Các vấn đề dữ liệu
phá?
Trang 214 Các chiều đo chất lượng dữ liệu
Trang 225 Nhiệm vụ chính trong tiền xử lý
Tích hợp dữ liệu từ nhiều CSDL, từ các khối dữ liệu hoặc từ các file
Chuẩn hóa hoặc kết hợp
Có được biểu diễn dữ liệu dạng thu nhỏ nhưng không ảnh hưởng tới kết quả phân tích
Một phần của thu nhỏ dữ liệu nhưng đặc biệt quan trọng với dữ liệu dạng số
Trang 24a Làm sạch dữ liệu
Thu nhận dữ liệu và siêu dữ liệu
Bổ sung các giá trị dữ liệu bị mất
Trang 25Làm sạch dữ liệu: Thu nhận dữ liệu
Các giao thức ODBC, JDBC
Định dạng các cột cố định
Định dạng phân cách: tab, dấu “,”,
làm sạch và sau khi làm sạch
Trang 26000000000000000.000000000000000.0000000 …
000000000000000.000000000000000.000000000000000.000000000000000.000000 000000000.000000000000000.000000000000000.000000000000000000000000000 00.000000000000000.000000000000000.000000000000000.000000000000000.000 000000000000.000000000000000.00000000000000000000000000000.0000000000 00000.000000000000000.000000000000000.000000000000000.000000000000000.
00 0000000000300.00 0000000000300.
000000000001,199706,1979.833,8014,5722 , ,#000310 … ,
111,03,000101,0,04,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0300,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0300,0300.00
Trang 27Làm sạch dữ liệu: Siêu dữ liệu
Các kiểu trường:
đủ
Vai trò của trường
Mô tả trường
Trang 29Dữ liệu bị mất
Dữ liệu không luôn có sẵn
VD: nhiều bộ dữ liệu có các thuộc tính không có dữ liệu, như thu nhập khách hàng trong dữ liệu bán hàng
Dữ liệu bị mất do:
Sự cố thiết bị
Mâu thuẫn với các bản ghi khác và do đó bị xóa
Dữ liệu không được nhập vào do hiểu nhầm
Không nhận thấy tầm quan trọng của dữ liệu nhập vào
Không ghi nhận lịch sử hoặc sự thay đổi dữ liệu
Trang 30Giải quyết dữ liệu bị mất
Bỏ qua: thường được dùng khi nhãn lớp bị mất
Điền giá trị bị mất bằng tay: nhàm chán + bất tiện?
Dùng một giá trị chung cho giá trị bị mất: VD:
Trang 31Dữ liệu nhiễu
Nhiễu là sự thay đổi giá trị gốc của dữ liệu
Ví dụ: sự biến dạng giọng nói của người khi nói trên một điện thoại có chất lượng kém và hiện tượng “mè” trên tivi
Trang 32Giải quyết dữ liệu nhiễu
bình, trung vị hoặc biên
Trang 33Phương pháp rời rạc hóa đơn giản
Chia (khoảng cách) thành các khoảng có độ rộng bằng
nhau:
đồng dạng
dài của các khoảng sẽ là: W = (B-A)/N
lý tốt
Chia (tần số) thành các khoảng có độ sâu bằng nhau:
số lượng mẫu
Trang 34Sử dụng phương pháp dãy để làm trơn dữ liệu
Giả sử có dãy dữ liệu giá (đôla) được sắp xếp như sau: 4, 8, 9, 15, 21, 21,
Trang 35Tích hợp dữ liệu
Tích hợp dữ liệu:
Kết hợp dữ liệu từ nhiều nguồn thành một kho lưu trữ
Tích hợp lược đồ:
Tích hợp siêu dữ liệu từ nhiều nguồn khác nhau
Vấn đề định danh đối tượng: xác định các thực thể trong thế giới thực từ nhiều nguồn dữ liệu:
Phát hiện và giải quyết mâu thuẫn dữ liệu:
tính từ nhiều nguồn khác nhau là khác nhau
VD: đơn vị đo mét với inche
Trang 36Giải quyết dữ liệu dư thừa trong
tích hợp dữ liệu
Dư thừa DL xảy ra khi tích hợp DL từ nhiều CSDL
Sự tích hợp tốt dữ liệu từ nhiều nguồn có thể giúp
giảm/tránh các dư thừa và mâu thuẫn để tăng tốc độ và chất lượng khai phá
Trang 37Biến đổi dữ liệu
Làm trơn: giảm nhiễu
Kết hợp: tổng quát hóa, xây dựng DL dạng khối
Tổng quát hóa: khái niệm cấu trúc phân cấp
Chuẩn hóa: đo trong một vùng dữ liệu nhỏ, xác định:
Xây dựng cấu trúc thuộc tính/đặc tính
Trang 38Biến đổi dữ liệu: Chuẩn hóa
Trang 39Thu nhỏ dữ liệu
Các kho dữ liệu có thể chứa tới hàng terabyte dữ liệu: phân tích/khai phá dữ liệu phức tạp có thể mất rất nhiều thời gian nếu thực hiện tập DL đầy đủ
Trang 40Kết hợp DL
Kết hợp hai hay nhiều thuộc tính (đối tượng)
thành một thuộc tính (đối tượng)
Mục đích:
Thu nhỏ dữ liệu
Giảm số thuộc tính của dữ liệu
Thay đổi tỉ lệ dữ liệu
Các thành phố được kết hợp lại thành các vùng, các bang, các quốc gia
Tạo ra sự bền vững cho dữ liệu
Trang 41a Kết hợp
Sự thay đổi lượng mưa ở Úc
Trang 42 Mẫu hóa được sử dụng trong khai phá dữ liệu vì nếu xử lý toàn bộ tập dữ liệu thì phải tốn chi phí lớn hoặc mất nhiều thời gian
Trang 43b Mẫu hóa
là:
Sử dụng một mẫu sẽ làm việc cũng như được
sử dụng trong toàn bộ tập dữ liệu, nếu mẫu
đó là tiêu biểu
Một mẫu là tiêu biểu nếu nó có xấp xỉ thuộc tính cùng với tập dữ liệu gốc
Trang 44Ví dụ
Trang 45Rời rạc hóa và khái niệm phân cấp
Rời rạc hóa:
Thu nhỏ số lượng giá trị của một thuộc tính có giá trị liên tục cho trước bằng cách chia vùng thuộc tính thành các khoảng Các nhãn khoảng có thể được dùng để thay thế giá trị DL thực sự
Khái niệm phân cấp:
Thu nhỏ DL bằng cách tập hợp và thay thế các khái niệm mức thấp (như giá trị kiểu số cho thuộc tính
tuổi) bằng khái niệm mức cao hơn (như trẻ, trung niên, hoặc lão niên)
Trang 46Rời rạc hóa và sinh ra khái niệm phân cấp cho DL kiểu số