Thuộc tính rời rạc và liên tục Chỉ có một tập hữu hạn hoặc hữu hạn đếm được các giá trị Chẳng hạn, mã zip, nghề nghiệp hoặc tập các từ trong một tập tài liệu Đôi lúc trình bày như c
Trang 1BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ
LIỆU
CHƯƠNG 3 HIỂU BÀI TOÁN, HIỂU DỮ LIỆU
VÀ TIỀN XỬ LÝ DỮ LIỆU
Trang 2Nội dung
Hiểu bài toán
Năm yếu tố để hiểu bài toán
Vai trò của hiểu dữ liệu
Đối tượng DL và kiểu thuộc tính
Độ đo tương tự và không tương tự của DL
Trang 3HIỂU BÀI TOÁN VÀ HIỂU DỮ LIỆU
Trang 4 Đặt vấn đề
5 yếu tố cốt yếu dưới dạng 5 câu hỏi
Giải đáp 5 yếu tố này Đặt được bài toán
Yếu tố 1: Ta đã biết (có) được gì ? Cho INPUT
Đây là bước đầu tiên cho mọi trường hợp nghiên cứu
Bán gia tăng (up-selling): bán sản phẩm với số lượng
nhiều hơn hoặc giá cao hơn cho khách hàng hiện tại
Ví dụ 2: Dự báo khách hàng dịch vụ mạng rời bỏ
1 HIỂU BÀI TOÁN: BIẾT ĐƯỢC GÌ?
Trang 5 Nội dung
Điều gì thực sự cần phải quyết định
Biến quyết định, Đầu ra (Output)
Quan trọng: Phân biệt biến đầu ra và biến đầu vào
Trường hợp dễ xác định
Ví dụ 1 Bán chéo” Các tập mục hàng đồng xuất hiện cao
Trường hợp khó xác định
Ví dụ 2 Dự báo khách hàng dịch vụ mạng rời bỏ: “biến
dự báo”, “biến phân lớp” v.v
Yếu tố 2: Cần quyết định điều gì ?
Trang 8 Nội dung
4 câu hỏi trên cho xây dựng mô hình
Phân tích bối cảnh mô hình rộng hơn: nâng cao ý nghĩa của mô hình Các khía cạnh phi mô hình
Trang 92.Hiểu dữ liệu qua hai phiên bản
sách
Thay đổi đáng kể phiên bản 2006 tới 2011
Phiên bản 2011 nhấn mạnh Hiểu dữ liệu !
Trang 10Một mô hình KPDL hướng ứng dụng
Khai phá DL hướng miền ứng dụng [CYZ10]
Bước P1 “Hiểu và định nghĩa vấn đề”, Bước P2 “Phân tích
ràng buộc”
Trang 11Vấn đề và ràng buộc
Vấn đề
Câu hỏi mục tiêu kinh doanh (Xem chương 1)
Thường từ 1-3 mục tiêu cụ thể
Phạm vi dữ liệu liên quan tới câu hỏi
Đăt bài toán sơ bộ: biến mục tiêu, dữ liệu điều kiện, mô
tả sơ bộ ràng buộc dữ liệu điều kiện tới biến mục tiêu
Phân tích ràng buộc
Ràng buộc kinh doanh: Làm rõ hơn mối liên quan giữa dữ liệu với mục tiêu kinh doanh
Ràng buộc nội tại: Ràng buộc dữ liệu về kiểu, ràng buộc
liên quan dữ liệu
Trang 12 Dữ liệu tài liệu: Tài
liệu văn bản dùng vector tần số từ …
3 0 5 0 2 6 0 2 0 2 0
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Trang 13Kiểu dữ liệu
Thứ tự
Dữ liệu thời gian:
chuỗi thời gian
Dữ liệu dãy: dãy
Trang 14Đặc trưng quan trọng của DL có cấu trúc
Trang 15Đối tượng dữ liệu
Tập DL được tạo nên từ các đối tượng DL
Mỗi đối tượng dữ liệu (data object, data point)
trình bày một thực thể
Ví dụ:
CSDL bán hàng: Khách hàng, mục lưu, doanh số
CSDL y tế: bệnh nhân, điều trị
CSDL đại học: sinh viên, giáo sư, môn học
Tên khác: mẫu (samples ), ví dụ (examples), thể hiện
(instances), điểm DL (data points), đối tượng (objects), bộ
Trang 16Đặc trưng (Thuộc tính)
Đặc trưng_feature (hoặc Thuộc tính_Attribute
chiều_dimension, biến_variables): một trường DL biểu diễn một đặc trưng/thuộc tính của một đối tượng DL
Ví dụ, ChisoKH, tên, địa chỉ
Trang 17Kiểu thuộc tính
Định danh: lớp, trạng thái, hoặc “tên đồ vật”
Hair_color = {auburn, black, blond, brown, grey, red,
white}
Tình trạng hôn nhân (marital status), nghề nghiệp
(occupation), số ID (ID numbers), mã zip bưu điện (zip codes)
Nhị phân
Thuộc tính định danh hai trạng thái (0 và 1)
Nhị phân đối xứng: Cả hai kết quả quan trọng như nhau
Chẳng hạn, giới tính
Nhị phân phi ĐX: kết quả không quan trọng như nhau
Chẳng hạn, kiểm tra y tế (tích cực/tiêu cực)
Quy ước: gán 1 cho kết quả quan trọng nhất (chẳng hạn, dương tính HIV)
Trang 19Thuộc tính rời rạc và liên tục
Chỉ có một tập hữu hạn hoặc hữu hạn đếm được các giá trị
Chẳng hạn, mã zip, nghề nghiệp hoặc tập các từ trong một tập tài liệu
Đôi lúc trình bày như các biến nguyên
Lưu ý: Thuộc tính nhị phân là trường hợp riêng của thuộc tính rời rạc
Có rất nhiều các giá trị thuộc tính
Như nhiệt độ, chiều cao, trong lượng
Thực tế, giá trị thực chỉ tính và trình bảng bằng sử dụng một hữu hạn chữ số
Thuộc tính liên tục được trình bày phổ biến như biến dấu phảy động
Trang 20Tương tự và phân biệt
Thường thuộc đoạn [0,1]
Độ đo bằng số cho biết hai đối tượng khác nhau
ra sao
Càng thấp khi các đối tượng càng giống nhau
Phân biệt tối thiểu là 0
Giới hạn trên tùy
Trang 21Đo khoảng cách thuộc tính định danh
Có thể đưa ra 2 các trạng thái, như “red, yellow, blue, green” (tổng quát hóa thuộc tính nhị phân)
Phương pháp 1: Đối sánh đơn giản
m: lượng đối sánh, p: tổng số lượng biến
Phương pháp 2: Dùng lượng lớn TT nhị phân
Tạo một TT nhị phân mới cho mỗi từ M
trạng thái định danh
p m
p j
i
d ( , )
Trang 22Đo khoảng cách thuộc tính nhị phân
Bảng kề cho dữ liệu nhị phân
Đo khoảng cách các biến nhị
phân đối xứng:
Đo khoảng cách các biến nhị
phân không đối xứng:
Hệ số Jaccard (đo tương tự cho
các biến nhị phân không ĐX):
Chú ý: Hệ số Jaccard giống độ “gắn kết” (coherence):
Trang 23Phân biệt giữa các biến nhị phân
Ví dụ
Giới tính (Gender): thuộc tính nhị phân đối xứng
Các thuộc tính còn lại: nhị phân phi đối xứng
Cho giá trị Y và P là 1, và giá trị N là 0:
Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4
75 0 2
1 1
2 1
) ,
(
67 0 1
1 1
1 1 )
, (
33 0 1
0 2
1 0 )
, (
d
jim jack
d
mary jack
d
Trang 24Chuẩn hóa dữ liệu số
Z-score:
X: DL thô sẽ được chuẩn hóa, μ: trung bình mẫu (kỳ vọng_ của tập số, σ: độ lệch chuẩn
Khoảng cách giữa DL thô và kỳ vọng theo đơn vị độ lệch chuẩn
Âm (-) khi DL thô nhỏ thua kỳ vọng, “+” khi lớn hơn above
Một cách khác: Tính độ lệch tuyệt đối trung bình
trong đó
Độ chuẩn hóa (z-score):
Dùng độ lệch tuyệt đố trung bình là mạnh mẽ hơn so với độ lệch chuẩn
.
)
2 1
1
nf f
|
|
|(|
Trang 25Khoảng cách DL số: KC Minkowski
với i = (xi1, xi2, …, xip) và j = (xj1, xj2, …, xjp) là hai
đối tượng DL p-chiều, và h là bậc (KC này còn
được gọi là chuẩn L-h)
Trang 26KC Minkowski: Trường hợp đặc biệt
h = 1: khoảng cách Manhattan (khối thành thị, chuẩn L1)
Chẳng hạn, khoảng cách Hamming: số lượng bit khác nhau của hai vector nhị phân
h = 2: Khoảng cách Ơcơlit - Euclidean (chuẩn L2)
h Khoảng cách “supremum” (chuẩn Lmax, chuẩn L)
Là sự khác biệt cực đại giữa các thành phần (thuộc tính) của các vector
)
|
|
|
|
| (|
) ,
2 2
2 1
1 x j x i x j x i p x j p
i x j
i
d
|
|
|
|
|
| ) , (i j x i1 x j1 x i2 x j2 x i p x j p
Trang 281
r
Trang 29Thuộc tính có kiểu pha trộn
Một CSDL chứa mọt kiểu thuộc tính
Định danh, nhị phân đối xứng, nhị phân phi đối xứng,
số, thứ tự
Có thể sử dụng công thức trọng số để kết hợp tác động của chúng
f là nhị phân hay định danh:
dij(f) = 0 nếu xif = xjf , hoặc dij(f) = 1 ngược lại
f là số: sử dụng khoảng cách đã chuẩn hóa
) ( )
( 1
) ,
ij
p f
f ij
f ij
p
j i
Trang 30Độ tương tự cosine
Một tài liệu có thể được trình bày bằng hàng nghìn thuộc tính, mỗi ghi nhận tần số của các phần tử (như từ khóa, n-gram)
hoặc cụm từ
Đối tượng vector khác: đặc trưng gene trong chuỗi phân tử, …
Ứng dụng: truy hồi thông tin, phân cấp sinh học, ánh xạ đặc trưng gene,
Độ đo Cosine: d 1 và d 2: hai two vector (như vector tần suất từ), thì
cos(d 1 , d 2 ) = (d 1 d 2 ) /||d 1 || ||d 2|| ,
với chỉ tích vector vô hướng, ||d||: độ dài vector d
Trang 31Ví dụ: Đô tương tự Cosine
cos(d 1 , d 2 ) = (d 1 d 2 ) /||d 1 || ||d 2|| ,
ở đây chỉ tích vô hướng, ||d|: độ dài vector d
Ví dụ: Tìm độ tương tự giữa hai tài liệu 1 và 2.
Trang 32So sánh hai phân bố XS: Phân kỳ KL
Phân kỳ Kullback-Leibler (KD) : Đo sự khác biệt hai phân bố xác suất trên cùng biến x
Từ lý thuyết thông tin: liên quan chặt với entropy tương đối,
phân kỳ thông tin, và thông tin để phân biệt
D KL (p(x), q(x)): phân kỳ của q(x) từ p(x), đo độ mất mát thông tin khi q(x) được dùng để xấp xỉ p(x)
Dạng rời rạc:
Phân kỳ KL đo số kỳ vọng các bit yêu cầu thêm để mã hóa ví
dụ từ p(x) (phân bố “true”) khi dùng một mã dựa trên q(x),
được biểu diễn như một lý thuyết, mô hình, mô tả, hoặc xấp xỉ
p(x)
Dạng liên tục:
Phân kỳ KL : không là độ đo khoảng cách, không là metric: phi
Trang 33 Khi p = 0 nhưng q != 0, D KL (p, q) được định nghĩa là ∞: một
sự kiện e là khả năng (p(e) > 0), và dự báo q là không thể
tuyệt đối (q(e) = 0), thì hai phân bố là khác biệt tuyệt đối
Thực tế: P và Q được cung cấp từ phân bố tần suất, không xem
xét khả năng của cái không nhìn thấy: làm trơn (smoothing )
Trang 34 Ngôn ngữ hỏi bậc cao truy nhập trực tiếp CSDL
Kết nối mức thấp để truy nhập trực tiếp CSDL
Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối lượng lớn dữ liệu
Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa
Rút gọn sự tăng không cần thiết của dữ liệu
Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối quan tâm đúng đắn
Trang 35Mô tả thống kê cơ bản của dữ liệu
Giá trị kỳ vọng (mean)
Xu hướng trung tâm của tập dữ liệu
Trung vị: (i) xếp lại dãy số, (ii) nếu dãy có 2*k+1 số thì lấy giá trị
số thứ k+1, nếu có 2*k số thì trung bình số thứ k và số thứ k+1.
Mode: Tập con dữ liệu xuất hiện với tần số cao nhất unimodal,
bimodal, trimodal, v.v.
Trang 36Một số độ đo thống kê
Độ lệch chuẩn (Standard deviation)
Phân bố dữ liệu xung quanh kỳ vọng
Cực tiểu (Minimum) và Cực đại (Maximum)
interquartile range (IQR): Q3-Q1
Min, Q1, Median, Q3, Max
Bảng tần suất (Frequency tables)
Phân bố tần suất giá trị của các biến
Lược đồ (Histograms)
Cung cấp kỹ thuật đồ họa biểu diễn tần số giá trị của
Trang 37Biểu diễn giá trị dữ liệu
Min, Q1, Median, Q3, Max Q1-1.5*IQR, Q1, Median, Q3, Q3+1.5*IQR nếu nằm ngoài cần kiểm tra là giá trị ngoại lai
Trang 38Mô tả dữ liệu: trực quan hóa
Trang 39Đánh giá và lập hồ sơ dữ liệu
Đánh giá dữ liệu
Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết
định cách nắm bắt vấn đề
Mô tả dữ liệu sẽ làm hiện rõ một số vấn đề
Kiểm toán dữ liệu: lập hồ sơ dữ liệu và phân tích ảnh hưởng
của dữ liệu chất lượng kém.
Lập hồ sơ dữ liệu (cơ sở căn cứ: phân
bố dữ liệu)
Tâm của dữ liệu
Các ngoại lai tiềm năng bất kỳ
Số lượng và phân bố các khoảng trong trong mọi trường hợp
Bất cứ dữ liệu đáng ngờ, như mã thiếu (miscodes), dữ liệu học,
dữ liệu test, hoặc chỉ đơn giản dữ liệu rác
Những phát hiện nên được trình bày dưới dạng các báo cáo và
liẹt kế như các mốc quan trọng của kế hoạch
Trang 40Thách thức dữ liệu: thiếu dữ liệu
Thiếu dữ liệu học
Con người học: cần ít dữ
liệu mẫu, cĩ thể một ví dụ nhiều lần
Học máy cho khai phá dữ
liệu cần đủ lượng dữ liệu
Memory-based Winnow
Perceptron Nạve Bayes Đơn vị: triệu từ
Trang 41Thách thức dữ liệu: không đại diện
Đặt vấn đề
Dữ liệu mẫu đại diện miền ứng dụng: Dữ liệu học, dữ liệu đánh giá đại diện; hoạt động tốt cho dữ liệu mới Lấy mẫu dữ liệu
Dữ liệu màu xanh: nhiều, không đại diện; đường đánh giá rời nét
Thêm ít dữ liệu đỏ: có tính đại diện; đường liền nét, chính xác hơn
Thu nhập quốc dân theo đầu người
Trang 42Thách thức dữ liệu khác
Chất lượng dữ liệu kém
Dữ liệu chứa lỗi, ngoại lệ, nhiễu
Phần công sức lớn trong KPDL
Bước tiền xử lý dữ liệu ở Chương này
Đặc trưng không liên quan
đặc trưng không liên quan
Trang 43 Đơn giản hóa mô hình: (i) giảm tham số mô hình, (ii) giảm số
đặc trưng (chiều) dữ liệu, (iii) hạn chế phạm vi mô hình
Thu thập thêm dữ liệu đào tạo
Giảm nhiễu dữ liệu (sửa lỗi dữ liệu, xóa ngoại lệ)
Chính quy hóa mô hình: khống chế siêu tham số
overfittin g
Trang 44Cùng tập dữ liệu: quá khớp và không khớp
Overfitting Rất tinh: Khó
đoán chính xác
đối với dữ liệu
Underfitting Rất thô: khó đoán chính xác đối với dữ liệu Quá khớp: Chính quy hóa tham số mô hình
Khống chế miền giá trị tham số để giảm số lượng tham số
Trang 45May 11, 2024 45
Thách thức mô hình: không khớp DL học
Không khớp dữ liệu học
Đối ngẫu với quá khớp: độ chính xác mô hình thấp
Nâng bậc mô hình: bổ sung tham số
Nâng cấp làm tốt đặc trưng dữ liệu
Giảm ràng buộc đối với các tham số mô hình
underfittin g
Trang 47May 11, 2024 47
Vai trò của tiền xử lý
Không có dữ liệu tốt, không thể có kết quả khai
Phân lớn công việc xây dựng một kho dữ liệu là
trích chọn, làm sạch và chuyển đổi dữ liệu —Bill
Inmon
Dữ liệu có chất lượng cao nếu như phù hợp với
mục đích sử dụng trong điều hành, ra quyết định,
và lập kế hoạch
Trang 48Các vấn đề chất lượng dữ liệu
[RD00]
- (Thiếu lược đồ toàn vẹn, thiết kế sơ đồ sơ sài) đơn trị, toàn vẹn tham chiếu…
- (Lỗi nhập dữ liệu) sai chính tả, dư thừa/sao, giá trị mâu thuẫn…
- (Mô hình dữ liệu và thiết kế sơ đồ không đồng nhất) xung đột tên, cấu trúc
- (Dữ liệu chồng chéo, mâu thuẫn và không nhất quán) không nhất quán tích hợp và thời gian
Trang 49Độ đo đa chiều chất lượng dữ liệu
Khung đa chiều cấp nhận tốt:
Tính chính xác (Accuracy)
Tính đầy đủ (Completeness)
Tính nhất quán (Consistency)
Tính kịp thời (Timeliness)
Độ tin cậy (Believability)
Giá trị gia tăng (Value added)
Biểu diễn được (Interpretability)
Tiếp cận được (Accessibility)
Phân loại bề rộng (Broad categories):
Bản chất (intrinsic), ngữ cảnh (contextual),
trình diễn (representational), và tiếp cận được (accessibility)
Trang 50Các bài toán chính trong tiền
Trang 51Các thành phần của tiền xử lý dữ liệu
Trang 52 Data Weighting and Balancing
Xử lý dữ liệu ngoại lai và không mong muốn khác:
Data Filtering
Cách thức nắm bắt dữ liệu thời gian/chuỗi thời gian:
Data Abstraction
Cách thức rút gọn dữ liệu để dùng: Data Reduction
Bản ghi : Data Sampling
Biến: Dimensionality Reduction
Giá trị: Data Discretization
Cách thức tạo biến mới: Data Derivation
Trang 53Làm sạch dữ liệu
Là quá trình
xác định tính không chính xác, không đầy đủ/tính bất hợp lý của dữ liệu
chỉnh sửa các sai sót và thiếu sót được phát hiện
nâng cao chất lượng dữ liệu
Quá trình bao gồm
kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn,
xem xét dữ liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi trường) hoặc các lỗi khác,
đánh giá dữ liệu của các chuyên gia miền chủ đề.
Trang 54Làm sạch dữ liệu
Nguyên lý chất lượng dữ liệu cần được áp dụng ở mọi giai đoạn quá trình quản lý dữ liệu (nắm giữ, số hóa, lưu trữ, phân tích, trình bày và sử dụng)
hai vấn đề cốt lõi để cải thiện chất lượng - phòng ngừa và chỉnh sửa
Phòng ngừa liên quan chặt chẽ với thu thập và nhập dữ liệu vào CSDL.
Tăng cường phòng ngừa lỗi, vẫn/tồn tại sai sót trong bộ dữ liệu lớn (Maletic và Marcus 2000) và không thể bỏ qua việc xác nhận và sửa chữa dữ liệu
Vai trò quan trọng
“là một trong ba bài toán lớn nhất của kho dữ liệu”—Ralph
Kimball
“là bài toán “number one” trong kho dữ liệu”—DCI khảo sát
Các bài toán thuộc làm sạch dữ liệu
Xử lý giá trị thiếu
Dữ liệu nhiễu: định danh ngoại lai và làm trơn.
Chỉnh sửa dữ liệu không nhất quán
Trang 55Xử lý thiếu giá trị
Bỏ qua bản ghi có giá trị thiếu:
Thường làm khi thiếu nhãn phân lớp (giả sử bài toán phân lớp)
không hiệu quả khi tỷ lệ số lượng giá trị thiếu lớn (bán giám
Trung bình giá trị thuộc tính các bản ghi hiện có
Trung bình giá trị thuộc tính các bản ghi cùng lớp: tinh hơn
Giá trị có khả năng nhất: dựa trên suy luận như công thức Bayes
hoặc cây quyết định
Trang 56Dữ liệu nhiễu
Nhiễu:
Lỗi ngẫu nhiên
Biến dạng của một biến đo được
Giá trị không chính xác
Lỗi do thiết bị thu thập dữ liệu
Vấn đề nhập dữ liệu: người dùng hoặc máy có thể sai
Vấn đề truyền dữ liệu: sai từ thiết bị gửi/nhận/truyền
Hạn chế của công nghệ: ví dụ, phần mềm có thể xử lý không đúng
Thiết nhất quán khi đặt tên: cũng một tên song cách viết khác nhau
Các vấn đề dữ liệu khác yêu cầu làm sạch dữ liệu
Bội bản ghi
Dữ liệu không đầy đủ
Dữ liệu không nhất quán