Nội dung Mục đích Các giai đoạn của quá trình xử lý dữ liệu Các phương pháp xử lý dữ liệu lỗi Chuẩn hoá dữ liệu Trích chọn đặc tính... Các giai đoạn của quá trình XLDL tính
Trang 1Bài 2 Tiền xử lý dữ liệu
Hồ Nhật Quang
BM Công nghệ phần mềm
Trang 2Nội dung
Mục đích
Các giai đoạn của quá trình xử lý dữ liệu
Các phương pháp xử lý dữ liệu lỗi
Chuẩn hoá dữ liệu
Trích chọn đặc tính
Trang 3Mục đích
Tăng tính hiệu quả của các thuật giải KPDL : giảm số chiều dữ liệu, giảm kích thước dữ liệu…
Chuẩn hoá dữ liệu để kiểu dữ liệu phù hợp với yêu cầu của thuật giải KPDL
Dữ liệu sau khi xử lý là INPUT của thuật giải KPDL
Trang 4I Các giai đoạn của quá trình XLDL
tính, dò tìm lỗi bất thường của dữ liệu đầu vào
– Phân tích dữ liệu
– Chuẩn hoá dữ liệu
các đặc tính, giảm về số chiều và tập giá trị của dữ liệu…
– Trích chọn đặc tính
– Trích chọn giá trị
Trang 5C ác giai đoạn của quá trình KPTT
Trang 6C ác giai đoạn của quá trình KPDL
The KDD Process
Data organized by
function (accounting etc.)
Create/select
target database
Select sampling
technique and
sample data
Supply missing
values
Normalize
values
Select DM
task (s)
Transform to
different
representation
Eliminate noisy data
Transform values
Select DM method (s)
Create derived attributes
Extract knowledge
Find important attributes &
value ranges
Test knowledge knowledge Refine
Query & report generation Aggregation & sequences Advanced methods
Data warehousing
Trang 7II.1 Phân tích dữ liệu
Quá trình xử lý dữ liệu
For each row in DataSer
If row is error then
Begin
Marked row
Delete Row | Replace Normal Value End
EndFor
Trang 8
II.1.a Phân tích dữ liệu - Các lỗi DL
Mất giá trị (Missing Value)
Sai kiểu dữ liệu: (Wrong Type data)
Giá trị ko mong muốn: (Outlier ) dữ liệu có những giá trị bất thường, (do giá trị đo của các trường hợp rất đặc biệt, do lỗi của công
cụ đo lường,…) Lỗi này là lỗi khó phát hiện nhất, gây ra các sai sót nghiêm trọng làm sai lệch, giảm hiệu quả thực hiện các thuật toán khai phá
Trang 9II.2.b Phân tích dữ liệu – Cách xử lý
Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất hiện nhiều nhất
Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất hiện ít nhất
Dữ liệu được sinh ngẫu nhiên trong phạm vi cho
trước
Chỉ đích danh giá trị sẽ dùng để thay thế
Riêng với kiểu dữ liệu số
Giá trị Min
Giá trị Max
Lấy trung bình chung giá trị của đặc tính của các bộ
dữ liệu trong lân cận
Trang 10Phân tích dữ liệu – Cách xử lý
Dò tìm lỗi dữ liệu bất thường:
Lọc ra các bộ dữ liệu nghi ngờ có lỗi bằng cách chỉ ra miền giá trị hợp lý của các đặc tính trong bộ dữ liệu
Ví dụ : Tuổi của người : 0 – 130
Chiều cao của người: …
Màu da: …
Trang 11II.2 Chuẩn hoá dữ liệu
Định nghĩa:
Là thao tác chỉnh sửa, chuyển đổi dữ liệu sao cho phù hợp với đầu vào của các thuật toán khai phá như: chuyển đối các giá trị kiểu ký
tự thành các giá trị kiểu số
Các giá trị kiểu ký tự, kiểu thời gian… đều
phải được chuyển đổi về kiểu số trước khi
nạp vào đầu vào của thuật giải
Trang 12II.2.b.Chuẩn hoá dữ liệu–Phương pháp
Một đặc tính có N giá trị khác nhau
Mã hoá một trong N (One of N encoding): sử dụng một tập gồm N các cột nguyên để chuẩn hoá,
low (0, 0, 1), mid (0, 1, 0), high (1,0,0)
Mã hoá nhị phân (Binary encoding): chuẩn hoá
thành M cột nhị phân, với M l= [log2N]
low (0,0), mid (1,0), high (1,1)
Mã hoá số nguyên (Numeric encoding): chuẩn hoá thành một cột có giá trị nguyên, mỗi giá trị của cột
tương ứng với thứ tự của giá trị gốc có trong tập giá trị ban đầu:
low (1), mid (2), high (3)
Trang 13II.2.b.Chuẩn hoá dữ liệu–Quy chuẩn
SF = (SRmax-SRmin)/(Xmax-Xmin)
Xp = SRmin + (X-Xmin)* SF
Với X - Là giá trị thực, giá trị gốc ban đầu của cột
Xmin - Giá trị nhỏ nhất trong các bộ dữ liệu Xmax - Giá trị lớn nhất trong các bộ dữ liệu SRmin - Giá trị cận dưới của phạm vi cần co dãn SRmax - Giá trị cận trên của phạm vi cần co dãn
SF - Hệ số co dãn
Xp - Giá trị sau khi thực hiện chuyển đổi co dãn theo
tỷ lệ
Trang 14III Trích chọn dữ liệu
Mục đích: tăng tính hiệu quả của thuật giải, không làm thay đổi độ chính xác của thuật giải
Phân loại:
– Trích chọn đặc tính : cột dữ liệu
– Trích chọn bộ dữ liệu: hàng
– Trích chọn giá trị
Trang 15III.1 Trích chọn đặc tính – Ý nghĩa
Việc giảm số lượng đầu vào có thể các thuật toán sẽ thực hiện nhanh hơn
Độ chính xác cao hơn do mô hình có khả năng khái quát hoá tốt hơn từ dữ liệu
Kết quả của quá trinh KPDL đơn giản hơn, và như vậy cũng dễ sử dụng và dễ hiểu hơn
Qua việc phân tích trích chọn có thể tại các lần thu nhận dữ liệu lần sau, không phải thu nhận các dữ liệu đã bị loại bỏ, các dữ liệu trùng lặp…
Trang 16III Trích chọn đặc tính – Phương pháp
Các thuật toán xếp hạng đặc tính: các đặc tính sẽ
được đánh giá, ước lượng ‘độ quan trọng’ thông qua
việc sử dụng một hàm lượng giá nào đó
– Việc ước lượng có thể thực hiện bằng nhiều cách thức
khác nhau như: tính chính xác của dữ liệu, tính nhất quán, nội dung thông tin, khoảng cách giữa các mẫu, các thống
kê đặc tính…
– Các thuật toán thuộc lớp xếp hạng này không chỉ ra được một tập con các đặc tính quan trọng là gì, mà chỉ mối quan
hệ của đặc tính với các đặc tính khác
Trang 17III Trích chọn đặc tính – Phương pháp
Các thuật toán thuộc lớp tối thiểu hoá tập
con: chỉ đưa ra một tập con các đặc tính
‘quan trọng’, các đặc tính đã chọn lựa đều có hạng như nhau, và chỉ liên quan đến tiến
trình tối thiểu hoá
Trang 18III.2 Trích chọn giá trị - Kỹ thuật rời rạc
hoá đặc tính
Chuyển đổi các giá trị về những khoảng giá trị, và những khoảng giá trị đó lại được thay thế bởi một giá trị khác,
Số lượng các giá trị của đặc tính ban đầu chỉ được quy về số các khoảng giá trị
Ví dụ, tuổi của người có thể quy về 5 khoảng
Child, Adolescent, Adult, Middle-age, Elderly
Trang 19Q & A