1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI BÁO CÁO-Bài 2. Tiền xử lý dữ liệu

19 476 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 269,11 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung  Mục đích  Các giai đoạn của quá trình xử lý dữ liệu  Các phương pháp xử lý dữ liệu lỗi  Chuẩn hoá dữ liệu  Trích chọn đặc tính... Các giai đoạn của quá trình XLDL tính

Trang 1

Bài 2 Tiền xử lý dữ liệu

Hồ Nhật Quang

BM Công nghệ phần mềm

Trang 2

Nội dung

 Mục đích

 Các giai đoạn của quá trình xử lý dữ liệu

 Các phương pháp xử lý dữ liệu lỗi

 Chuẩn hoá dữ liệu

 Trích chọn đặc tính

Trang 3

Mục đích

 Tăng tính hiệu quả của các thuật giải KPDL : giảm số chiều dữ liệu, giảm kích thước dữ liệu…

 Chuẩn hoá dữ liệu để kiểu dữ liệu phù hợp với yêu cầu của thuật giải KPDL

 Dữ liệu sau khi xử lý là INPUT của thuật giải KPDL

Trang 4

I Các giai đoạn của quá trình XLDL

tính, dò tìm lỗi bất thường của dữ liệu đầu vào

– Phân tích dữ liệu

– Chuẩn hoá dữ liệu

các đặc tính, giảm về số chiều và tập giá trị của dữ liệu…

– Trích chọn đặc tính

– Trích chọn giá trị

Trang 5

C ác giai đoạn của quá trình KPTT

Trang 6

C ác giai đoạn của quá trình KPDL

The KDD Process

Data organized by

function (accounting etc.)

Create/select

target database

Select sampling

technique and

sample data

Supply missing

values

Normalize

values

Select DM

task (s)

Transform to

different

representation

Eliminate noisy data

Transform values

Select DM method (s)

Create derived attributes

Extract knowledge

Find important attributes &

value ranges

Test knowledge knowledge Refine

Query & report generation Aggregation & sequences Advanced methods

Data warehousing

Trang 7

II.1 Phân tích dữ liệu

Quá trình xử lý dữ liệu

For each row in DataSer

If row is error then

Begin

Marked row

Delete Row | Replace Normal Value End

EndFor

Trang 8

II.1.a Phân tích dữ liệu - Các lỗi DL

 Mất giá trị (Missing Value)

 Sai kiểu dữ liệu: (Wrong Type data)

 Giá trị ko mong muốn: (Outlier ) dữ liệu có những giá trị bất thường, (do giá trị đo của các trường hợp rất đặc biệt, do lỗi của công

cụ đo lường,…) Lỗi này là lỗi khó phát hiện nhất, gây ra các sai sót nghiêm trọng làm sai lệch, giảm hiệu quả thực hiện các thuật toán khai phá

Trang 9

II.2.b Phân tích dữ liệu – Cách xử lý

 Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất hiện nhiều nhất

 Thay thế dữ liệu lỗi bằng các giá trị có tần suất xuất hiện ít nhất

 Dữ liệu được sinh ngẫu nhiên trong phạm vi cho

trước

 Chỉ đích danh giá trị sẽ dùng để thay thế

Riêng với kiểu dữ liệu số

 Giá trị Min

 Giá trị Max

 Lấy trung bình chung giá trị của đặc tính của các bộ

dữ liệu trong lân cận

Trang 10

Phân tích dữ liệu – Cách xử lý

 Dò tìm lỗi dữ liệu bất thường:

Lọc ra các bộ dữ liệu nghi ngờ có lỗi bằng cách chỉ ra miền giá trị hợp lý của các đặc tính trong bộ dữ liệu

Ví dụ : Tuổi của người : 0 – 130

Chiều cao của người: …

Màu da: …

Trang 11

II.2 Chuẩn hoá dữ liệu

 Định nghĩa:

Là thao tác chỉnh sửa, chuyển đổi dữ liệu sao cho phù hợp với đầu vào của các thuật toán khai phá như: chuyển đối các giá trị kiểu ký

tự thành các giá trị kiểu số

 Các giá trị kiểu ký tự, kiểu thời gian… đều

phải được chuyển đổi về kiểu số trước khi

nạp vào đầu vào của thuật giải

Trang 12

II.2.b.Chuẩn hoá dữ liệu–Phương pháp

Một đặc tính có N giá trị khác nhau

 Mã hoá một trong N (One of N encoding): sử dụng một tập gồm N các cột nguyên để chuẩn hoá,

low (0, 0, 1), mid (0, 1, 0), high (1,0,0)

 Mã hoá nhị phân (Binary encoding): chuẩn hoá

thành M cột nhị phân, với M l= [log2N]

low (0,0), mid (1,0), high (1,1)

 Mã hoá số nguyên (Numeric encoding): chuẩn hoá thành một cột có giá trị nguyên, mỗi giá trị của cột

tương ứng với thứ tự của giá trị gốc có trong tập giá trị ban đầu:

low (1), mid (2), high (3)

Trang 13

II.2.b.Chuẩn hoá dữ liệu–Quy chuẩn

SF = (SRmax-SRmin)/(Xmax-Xmin)

Xp = SRmin + (X-Xmin)* SF

Với X - Là giá trị thực, giá trị gốc ban đầu của cột

Xmin - Giá trị nhỏ nhất trong các bộ dữ liệu Xmax - Giá trị lớn nhất trong các bộ dữ liệu SRmin - Giá trị cận dưới của phạm vi cần co dãn SRmax - Giá trị cận trên của phạm vi cần co dãn

SF - Hệ số co dãn

Xp - Giá trị sau khi thực hiện chuyển đổi co dãn theo

tỷ lệ

Trang 14

III Trích chọn dữ liệu

 Mục đích: tăng tính hiệu quả của thuật giải, không làm thay đổi độ chính xác của thuật giải

 Phân loại:

– Trích chọn đặc tính : cột dữ liệu

– Trích chọn bộ dữ liệu: hàng

– Trích chọn giá trị

Trang 15

III.1 Trích chọn đặc tính – Ý nghĩa

 Việc giảm số lượng đầu vào có thể các thuật toán sẽ thực hiện nhanh hơn

 Độ chính xác cao hơn do mô hình có khả năng khái quát hoá tốt hơn từ dữ liệu

 Kết quả của quá trinh KPDL đơn giản hơn, và như vậy cũng dễ sử dụng và dễ hiểu hơn

 Qua việc phân tích trích chọn có thể tại các lần thu nhận dữ liệu lần sau, không phải thu nhận các dữ liệu đã bị loại bỏ, các dữ liệu trùng lặp…

Trang 16

III Trích chọn đặc tính – Phương pháp

 Các thuật toán xếp hạng đặc tính: các đặc tính sẽ

được đánh giá, ước lượng ‘độ quan trọng’ thông qua

việc sử dụng một hàm lượng giá nào đó

– Việc ước lượng có thể thực hiện bằng nhiều cách thức

khác nhau như: tính chính xác của dữ liệu, tính nhất quán, nội dung thông tin, khoảng cách giữa các mẫu, các thống

kê đặc tính…

– Các thuật toán thuộc lớp xếp hạng này không chỉ ra được một tập con các đặc tính quan trọng là gì, mà chỉ mối quan

hệ của đặc tính với các đặc tính khác

Trang 17

III Trích chọn đặc tính – Phương pháp

 Các thuật toán thuộc lớp tối thiểu hoá tập

con: chỉ đưa ra một tập con các đặc tính

‘quan trọng’, các đặc tính đã chọn lựa đều có hạng như nhau, và chỉ liên quan đến tiến

trình tối thiểu hoá

Trang 18

III.2 Trích chọn giá trị - Kỹ thuật rời rạc

hoá đặc tính

 Chuyển đổi các giá trị về những khoảng giá trị, và những khoảng giá trị đó lại được thay thế bởi một giá trị khác,

 Số lượng các giá trị của đặc tính ban đầu chỉ được quy về số các khoảng giá trị

 Ví dụ, tuổi của người có thể quy về 5 khoảng

Child, Adolescent, Adult, Middle-age, Elderly

Trang 19

Q & A

Ngày đăng: 17/05/2015, 11:20

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w