1. Trang chủ
  2. » Kinh Doanh - Tiếp Thị

Xử lý giá trị thiếu trong khai phá dữ liệu

27 342 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 329,02 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các tập dữ liệu có chứa giá trị thiếu trên thuộc tính định lượng .... Để có thể khai phá hiệu quả các cơ sở dữ liệu CSDL lớn một lĩnh vực khoa học mới ra đời: Khám phá tri thức trong CSD

Trang 1

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

1

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN - -

ĐOÀN XUÂN NGỌC

TRONG KHAI PHÁ DỮ LIỆU

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hướng dẫn khoa học: TS NGUYỄN THANH TÙNG

THÁI NGUYÊN 2010

Trang 2

LỜI CẢM ƠN

Luận văn được hoàn thành dưới sự hướng dẫn, chỉ bảo tận tình, chu đáo

của TS Nguyễn Thanh Tùng Qua đây, tôi xin gửi lời cảm ơn sâu sắc đến

Thầy cùng sự giúp đỡ nhiệt tình của Thầy trong suốt quá trình tôi thực hiện luận văn

Tôi xin cảm ơn các Thầy, Cô giáo và các Cán bộ trong Viện Công Nghệ Thông Tin - Viện Khoa Học Công Nghệ Việt Nam, Khoa Công Nghệ Thông Tin - Đại học Thái Nguyên đã truyền thụ kiến thức, kinh nghiệm học tập, nghiên cứu khoa học cho tôi trong suốt quá trình học tập tại trường

Tôi cũng xin gửi lời cảm ơn tới Cục thuế tỉnh Thái Nguyên cùng các đồng nghiệp đã tạo điều kiện trong công việc giúp tôi thực hiện tốt kế hoạch học tập của mình

Cuối cùng, tôi xin bày tỏ lòng biết ơn tới gia đình tôi đã luôn bên cạnh động viên, ủng hộ và tạo điều kiện tốt nhất cho tôi học tập và hoàn thành luận văn này

Học viên thực hiện ĐOÀN XUÂN NGỌC

Trang 3

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

3

MỤC LỤC

DANH SÁCH CÁC HÌNH VẼ 5

DANH SÁCH CÁC BẢNG 6

MỞ ĐẦU 7

CHƯƠNG 1: KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ VẤN ĐỀ DỮ LIỆU THIẾU 9

1.1 Khai phá dữ liệu 9

1.2 Vấn đề dữ liệu thiếu trong cơ sở dữ liệu cần khai phá 14

1.3 Kết luận chương 1 19

CHƯƠNG 2: CÁC PHƯƠNG PHÁP CƠ BẢN XỬ LÝ GIÁ TRỊ THIẾU 21

2.1 Các phương pháp thống kê 21

2.1.1 Phương pháp Trung bình-Mốt (Mean-Mode - MM) 21

2.1.2 Phương pháp Trung bình-Mốt dựa vào cụm tự nhiên (Natural Cluster Based Mean-Mode - NCBMM) 23

2.1.3 Thay giá trị thiếu bằng giá trị cho cùng độ lệch chuẩn (Replacement Under Same Standard Deviation - RUSSD) 24

2.1.4 Hồi quy tuyến tính (Linear regression – LR) 24

2.2 Các phương pháp học máy 25

2.2.1 Phương pháp Trung bình-Mốt dựa vào cụm sinh bởi thuộc tính gần nhất (Attribute Rank Cluster Based Mean-Mode algorithm - RCBMM) 25

2.2.2 Phương pháp Trung bình – Mốt dựa vào phân cụm k-Means (K-means clustering based Mean - Mode - KMCMM) 27

2.3 Các phương pháp nhúng 32

2.3.1 Loại bỏ các bộ dữ liệu có chứa giá trị thiếu (discarding data tuples with missing values) 32

2.3.2 Phương pháp C4.5 33

2.3.3 Phương pháp CART 36

2.4 Đánh giá 36

Trang 4

2.4.1 Đánh giá lý thuyết 37

2.4.2 Đánh giá thực nghiệm 38

2.5 Kết luận chương 2 45

CHƯƠNG 3: PHƯƠNG PHÁP XỬ LÝ GIÁ TRỊ THIẾU PHỐI HỢP KHAI PHÁ LUẬT KẾT HỢP VỚI PHƯƠNG PHÁP K-LÁNG GIỀNG GẦN NHẤT 47

3.1 Mở đầu 47

3.2 Khai phá luật kết hợp 48

3.3 Thuật toán RAR khai phá luật kết hợp trong cơ sở dữ liệu không đầy đủ 53

3.4 Phương pháp xử lý giá trị thiếu HMiT 55

3.5 Tính toán thực nghiệm 57

3.6 Kết luận chương 3 63

TÀI LIỆU THAM KHẢO 64

Trang 5

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

5

DANH SÁCH CÁC HÌNH VẼ

Hình 1.1 Các bước thực hiện của quá trình khai phá dữ liệu 11

Hình 1.2 Phân bố giá trị thiếu trong trường hợp 1 16

Hình 1.3 Phân bố giá trị thiếu trong trường hợp 2 16

Hình 1.4 Phân bố giá trị thiếu trong trường hợp 3 16

Hình 1.5 Kết quản mô tả phân bố giá trị thiếu trong tập dữ liệu edu.data của UCI 17

Hình 2.1 Thuật toán MM 22

Hình 2.1 Thuật toán NCBMM 23

Hình 2.3 Thuật toán RUSD 24

Hình 2.4 Thuật toán RCBMM 26

Hình 2.5 Thuật toán KMCMM 28

Hình 2.6 Thuật toán phân cụm k-means 29

Hình 2.7 Thuật toán kNN 30

Hình 2.8 Tỷ lệ lỗi của mỗi phương pháp trên tập dữ liệu định lượng 43

Hình 2.9 Tỷ lệ lỗi của mỗi phương pháp trên tập dữ liệu định tính 44

Hình 2.10 Tỷ lệ lỗi của mỗi phương pháp trên tập dữ liệu hỗn hợp 45

Hình 3.1 Sơ đồ khối của thuật toán gán giá trị thiếu HMiT 56

Hình 3.2 Sự phụ thuộc của độ chính xác vào số lượng giá trị thiếu trong CSDL 59

Hình 3.3 Sự phụ thuộc của độ chính xác vào độ tin cậy khi sử dụng HMVI 60 Hình 3.4 Sự phụ thuộc của độ chính xác vào độ hỗ trợ khi sử dụng HMVI 61 Hình 3.5 Thời gian xử lý giá trị thiếu bằng HMVI và bằng K-NNI 62

Trang 6

DANH SÁCH CÁC BẢNG

Bảng 2.8 Đánh giá về mặt lý thuyết 10 phương pháp xử lý giá trị thiếu 38

Bảng 2.9 Các tập dữ liệu có chứa giá trị thiếu trên thuộc tính định lượng 39

Bảng 2.10 Các tập dữ liệu có chứa giá trị thiếu trên thuộc tính định tính 39

Bảng 2.11 Các tập dữ liệu có giá trị thiếu trên cả thuộc tính định lượng và định tính 40

Bảng 2.12 Thời gian thực thi việc thay thế trên tập dữ liệu định lượng (phút:giây) 41

Bảng 2.13 hời gian thực thi việc thay thế trên tập dữ liệu định tính (phút:giây) 41

Bảng 2.14 Thời gian thực thi việc thay thế trên tập dữ liệu hỗn hợp (phút:giây) 42

Bảng 2.15 Tỷ lệ lỗi phân lớp trên tập dữ liệu định lượng (%) 42

Bảng 2.16 Tỷ lệ lỗi trên tập dữ liệu định tính (%) 43

Bảng 2.17 Tỷ lệ lỗi trên tập dữ liệu hỗn hợp (%) 44

Trang 7

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

7

MỞ ĐẦU

Trong những năm gần đây, cùng với sự phát triển vượt bậc của công nghệ thông tin, truyền thông, khả năng thu thập và lưu trữ thông tin của các

hệ thống thông tin không ngừng được nâng cao Với lượng dữ liệu tăng nhanh

và khổng lồ như vậy, rõ ràng các phương pháp phân tích dữ liệu truyền thống

sẽ không còn hiệu quả, gây tốn kém và dễ dẫn đến những kết quả sai lệch Để

có thể khai phá hiệu quả các cơ sở dữ liệu (CSDL) lớn một lĩnh vực khoa học mới ra đời: Khám phá tri thức trong CSDL (Knowledge Discovery in Databases – KDD) Khai phá dữ liệu (Data Mining) là một công đoạn chính trong quả trình KDD và được định nghĩa như sau [6]:

Khai phá dữ liệu là quá trình tìm kiếm, phát hiện các tri thức mới, hữu ích tiềm ẩn trong cơ sở dữ liệu lớn

Trong những năm gần đây, nhiều kỹ thuật khai phá dữ liệu đã được nghiên cứu và ứng dụng thành công trong nhiều lĩnh vực Tuy nhiên, việc nghiên cứu và ứng dụng các kỹ thuật khai phá dữ liệu cũng gặp phải những khó khăn, thách thức lớn, trong đó có vấn đề giá trị thiếu

Trong thực hành, các CSDL cần khai phá thường không đầy đủ, tức là

có những giá trị thuộc tính bị thiếu Có nhiều nguyên nhân khác nhau dẫn tới hiện tượng này: thiết bị thu thập dữ liệu bị hỏng, sự thay đổi thiết kế thí nghiệm, sự từ chối cung cấp dữ liệu nhằm bảo vệ tính riêng tư, sự sơ xuất khi nhập dữ liệu, các sự cố xảy ra trong quá trình truyền dữ liệu, …

Dữ liệu thiếu gây khó khăn cho việc khai phá, ảnh hưởng trực tiếp đến chất lượng tri thức khám phá được Làm thế nào để xử lý các các giá trị thiếu,

vì vậy là một nhiệm vụ quan trọng hàng đầu của quá trình khám phá tri thức

từ cơ sở dữ liệu

Trang 8

Cho đến nay, nhiều phương pháp xử lý giá trị thiếu đã được đề xuất và

áp dụng [5, 10, 12] Các phương pháp này cho phép xử lý trực tiếp các giá trị thiếu, tuy nhiên chúng cũng có thể mang nhiễu vào tập dữ liệu Việc xử lý các giá trị thiếu cần phải được cân nhắc và thực hiện một cách thận trọng, nếu không sẽ làm cho tri thức khai phá bị sai lệch [5]

Trong những năm gần đây, xử lý giá trị thiếu trong các CSDL khai phá

là đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu và ứng dụng Tại nhiều trung tâm nghiên cứu trên thế giới có cả một bộ phận chuyên nghiên cứu về các phương pháp và xây dựng phần mềm xử lý giá trị thiếu trong các CSDL Hầu hết các phần mềm phân tích dữ liệu thống kê, khai phá dữ liệu và học máy đều có nội dung liên quan đến xử lý giá trị thiếu

Luận văn này trình bày các nghiên cứu của học viên về vấn đề xử lý giá trị thiếu trong các CSDL lớn phục vụ khai phá dữ liệu, khám phá tri thức Nội dung chính của luân văn gồm ba chương

Chương 1: Trình bày khái quát về khai phá dữ liệu và vấn đề giá trị thiếu

Chương 2: Trình bày một số phương pháp cơ bản, thường được sử dụng

xử lý giá trị thiếu

Chương 3: Trình bày một phương pháp mới, xử lý hiệu quả giá trị thiếu, phương pháp sử dụng phối hợp kỹ thuật khai phá luật kết hợp trong CSDL không đầy đủ với phương pháp k-láng giềng gần nhất

Trang 9

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Với lượng dữ liệu tăng nhanh và khổng lồ như vậy, rõ ràng các phương pháp phân tích dữ liệu truyền thống sẽ không còn hiệu quả, gây tốn kém và dễ dẫn đến những kết quả sai lệch Để có thể khai phá hiệu quả các cơ sở dữ liệu (CSDL) lớn cần phải có những kỹ thuật mới: kỹ thuật khai phá dữ liệu (Data Mining)

Khai phá dữ liệu là một lĩnh vực khoa học mới xuất hiện, nhằm tự động hóa khai thác những thông tin, tri thức hữu ích, tiềm ẩn trong các CSDL lớn cho các tổ chức, doanh nghiệp, từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của tổ chức, doanh nghiệp này Các kết quả nghiên cứu cùng với những ứng dụng thành công trong khám phá tri thức cho thấy khai phá dữ liệu là một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có những ưu thế hơn hẳn so với các công cụ phân tích dữ liệu truyền thống

Tuy mới ra đời khoảng 20 năm, nhưng khai phá dữ liệu là lĩnh vực khoa học phát triển vô cùng nhanh chóng Do sự phát triển nhanh chóng cả về

Trang 10

phạm vi áp dụng lẫn các phương pháp tìm kiếm tri thức, đã có nhiều quan điểm khác nhau về khai phá dữ liệu Tuy nhiên, ở một mức độ trừu tượng nhất định, chúng ta định nghĩa khai phá dữ liệu như sau [6]:

Khai phá dữ liệu là quá trình tìm kiếm, phát hiện các tri thức mới, hữu ích tiềm ẩn trong cơ sở dữ liệu lớn

Khám phá tri thức trong CSDL (Knowledge Discovery in Databases – KDD) là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm khai phá

dữ liệu và KDD được các nhà khoa học xem là tương đương nhau Thế nhưng, nếu phân chia một cách chi tiết thì khai phá dữ liệu là một bước chính trong quá trình KDD

Khám phá tri thức trong CSDL là lĩnh vực liên quan đến nhiều ngành như: Tổ chức dữ liệu, xác suất, thống kê, lý thuyết thông tin, học máy, CSDL, thuật toán, trí tuệ nhân tạo, tính toán song song và hiệu năng cao, Các kỹ thuật chính áp dụng trong khám phá tri thức phần lớn được thừa kế từ các ngành này

Quá trình khám phá tri thức có thể phân thành các công đoạn sau [6]:

phá từ các tập dữ liệu lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất định

liệu nhiễu, dữ liệu không nhất quán, ), tổng hợp dữ liệu, rời rạc hóa dữ liệu, Biến đổi dữ liệu Đây được xem là bước quan trọng và tiêu tốn thời gian nhất của toàn bộ quá trình KDD Sau bước tiền sử lý này, dữ liệu sẽ nhất quán, đầy

đủ, được rút gọn và rời rạc hóa

Trang 11

data error !!! can't not

read

Trang 12

data error !!! can't not

read

Trang 13

data error !!! can't not

read

Trang 14

data error !!! can't not

read

Trang 15

data error !!! can't not

read

Trang 17

data error !!! can't not

read

Trang 18

data error !!! can't not

read

Trang 19

data error !!! can't not

read

Trang 20

data error !!! can't not

read

Trang 21

data error !!! can't not

read

Trang 22

data error !!! can't not

read

data error !!! can't not

Trang 23

data error !!! can't not

read

data error !!! can't not

read

Trang 24

data error !!! can't not

read

data error !!! can't not

Trang 26

read

Trang 27

data error !!! can't not

read

Ngày đăng: 15/04/2017, 10:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm