1. Trang chủ
  2. » Thể loại khác

DSpace at VNU: Ứng dụng cây quyết định mờ trong khai phá dữ liệu

15 137 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 413,77 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CAO HÙNG CƯỜNG ỨNG DỤNG CÂY QUYẾT ĐỊNH MỜ TRONG KHAI PHÁ DỮ LIỆU Ngành: Công nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS... V

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

CAO HÙNG CƯỜNG

ỨNG DỤNG CÂY QUYẾT ĐỊNH MỜ TRONG KHAI

PHÁ DỮ LIỆU

Ngành: Công nghệ thông tin

Mã số: 1.01.10

LUẬN VĂN THẠC SỸ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS HỒ THUẦN

Hà Nội - 2007

Trang 2

MỤC LỤC

DANH MỤC CÁC HÌNH VẼ 4

MỞ ĐẦU 5

CHƯƠNG 1 LÝ THUYẾT KHAI PHÁ DỮ LIỆU 7

1.1 Giới thiệu tổng quan về khai phá dữ liệu 7

1.1.1 Quy trình khai phá tri thức 7

1.1.2 Các kỹ thuật khai phá dữ liệu 8

1.1.2.1 Kỹ thuật tiền xử lý 8

1.1.2.2 Kỹ thuật học có giám sát 9

1.1.2.3 Kỹ thuật học không có giám sát 9

1.2 Bài toán học có giám sát 9 1.3 Cây quyết định Error! Bookmark not defined 1.3.1 Mô hình toán học của cây quyết định Error! Bookmark not defined 1.3.2 Cấu trúc chung của giải thuật cây quyết định Error! Bookmark not defined

1.3.3 Giải thuật ID3 Error! Bookmark not defined

1.3.3.1 Giới thiệu Error! Bookmark not defined

1.3.3.2 Mã giả Error! Bookmark not defined

1.3.3.3 Yếu điểm Error! Bookmark not defined

1.4 Tập mờ Error! Bookmark not defined 1.4.1 Khái niệm về tập mờ Error! Bookmark not defined 1.4.2 Logic mờ Error! Bookmark not defined 1.4.3 Hệ thống suy luận mờ Error! Bookmark not defined

1.5 Cây quyết định mờ Error! Bookmark not defined

1.6 Kết luận chương 1 Error! Bookmark not defined

Trang 3

CHƯƠNG 2 THUẬT TOÁN QUY NẠP CÂY QUYẾT ĐỊNH MỜ Error! Bookmark not defined

2.1 Biểu diễn của nhận thức không chắc chắn trong bài toán phân loại Error! Bookmark not defined

2.1.1 Bài toán phân loại cổ điển Error! Bookmark not defined 2.1.2 Tính mơ hồ và nhập nhằng trong bài toán phân loại Error! Bookmark not defined

2.1.3 Lý thuyết tập mờ Error! Bookmark not defined 2.1.4 Bài toán phân loại mờ Error! Bookmark not defined

2.2 Định lượng nhận thức không chắc chắn Error! Bookmark not defined 2.2.1 Đo tính mơ hồ Error! Bookmark not defined 2.2.2 Phân bố khả năng và độ đo sự nhập nhằng Error! Bookmark not defined

2.3 Luật phân loại mờ và nhập nhằng phân loại Error! Bookmark not defined

2.3.1 Luật mờ và mức độ chính xác của các luật mờ Error! Bookmark not defined

2.3.2 Khả năng phân loại với bằng chứng mờ Error! Bookmark not defined

2.3.3 Nhập nhằng phân loại với bằng chứng mờ và phân vùng mờ Error! Bookmark not defined

2.4 Quy nạp cây quyết định mờ Error! Bookmark not defined 2.4.1 Tư tưởng thuật toán Error! Bookmark not defined 2.4.2 Mờ hóa dữ liệu huấn luyện Error! Bookmark not defined 2.4.3 Quy nạp cây quyết định mờ Error! Bookmark not defined 2.4.4 Chuyển cây quyết định thành tập các luật phân loại Error! Bookmark not defined

2.4.5 Áp dụng các luật cho phân loại Error! Bookmark not defined

Trang 4

2.5 Kết luận chương 2 Error! Bookmark not defined

CHƯƠNG 3 CÀI ĐẶT THUẬT TOÁN Error! Bookmark not defined

3.1 Mã giả thuật toán Error! Bookmark not defined

3.2 Kết luận chương 3 Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined

TÀI LIỆU THAM KHẢO 11

Trang 5

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Các bước của quy trình khai phá tri thức 8

Hình 1.2: Người chơi tennis 12

Hình 1.3: Cây quyết định được xây dựng bởi ID3 21

Hình 2.1: Một tập ví dụ huấn luyện 46

Hình 2.2: Cây quyết định mờ được xây dựng từ thuật toán 60

Hình 2.3: Kết quả học từ tập ví dụ huấn luyện 63

Trang 6

MỞ ĐẦU

Trong vài thập kỷ gần đây, cùng với sự phát triển nhanh chóng của công nghệ, mà định luật Moore là một minh chứng, là sự bùng nổ chóng mặt của lượng thông tin trên thế giới Các công cụ lưu trữ thông tin cổ điển như sổ sách, tài liệu không còn đáp ứng được nhu cầu lưu trữ thông tin nữa và việc

sử dụng công cụ lưu trữ thông tin mới như băng từ, ổ cứng, là điều tất yếu Bên cạnh sự phát triển nhanh chóng về dung lượng cũng như độ tin cậy của các thiết bị kỹ thuật số nhằm lưu trữ thông tin, một câu hỏi được đặt ra là làm thế nào để xử lý lượng thông tin khổng lồ đó?

Rõ ràng việc xử lý thông tin nhằm rút ra tri thức nằm trong đó đã vượt quá khả năng xử lý đơn thuần của con người Ví dụ như một chuyên gia phân tích thị trường có thể mất hàng năm trời để tính toán mô hình quyết định dựa trên hàng ngàn thông số dữ liệu trong khi thị trường thay đổi nhanh chóng đòi hỏi phải ra quyết định kịp thời Chính vì thế người ta nghĩ đến việc xử lý dữ liệu tự động bằng máy tính nhằm khai thác tri thức tiềm ẩn bên trong Điều này là nền tảng ra đời của một môn khoa học mới được gọi khai phá dữ liệu Khai phá dữ liệu được ứng dụng vào rất nhiều mặt trong cuộc sống, có thể kể đến một số ứng dụng như:

 Y học: phân tích phản ứng phụ của thuốc, phân tích gen, chẩn đoán bệnh,

 Tài chính: phán đoán xu hướng của thị trường chứng khoán, phát hiện gian lận tài chính,

 Phân tích xu hướng mua, phán đoán tâm lý khách hàng,

Trang 7

 Kỹ thuật số: mã hóa dữ liệu, ước lượng thông tin,

Trong khuôn khổ luận văn bảo vệ thạc sĩ Công Nghệ Thông Tin tại trường Đại Học Quốc Gia Hà Nội, tôi quyết định chọn hướng nghiên cứu kết hợp kỹ thuật cây quyết định cùng với độ đo mờ và áp dụng trong vấn đề khai phá dữ liệu Luận văn này được tổ chức thành các chương với nội dung như sau Chương 1 sẽ mô tả lý thuyết về khai phá dữ liệu, cây quyết định và độ đo mờ nói chung Chương 2 sẽ trình bày thuật toán quy nạp cây quyết định mờ và đưa ra ưu khuyết điểm của thuật toán Chương 3 giới thiệu về chương trình

mô phỏng thuật toán quy nạp xây dựng cây quyết định mờ

Em xin chân thành gửi lời cảm ơn PGS TS Hồ Thuần, các thầy cô giáo của trường Đại học Công nghệ, các anh chị đồng nghiệp và các bạn cùng lớp

đã trang bị kiến thức và có nhiều đóng góp quý báu giúp em hoàn thành luận văn

Trang 8

CHƯƠNG 1

LÝ THUYẾT KHAI PHÁ DỮ LIỆU

1.1 Giới thiệu tổng quan về khai phá dữ liệu

1.1.1 Quy trình khai phá tri thức

Người ta có thể coi khai phá dữ liệu là một bước của quá trình phát hiện tri thức Quy trình phát hiện tri thức về cơ bản bao gồm các bước sau:

1 Tìm hiểu về lĩnh vực áp dụng, các thông tin liên quan đến vấn đề cần giải quyết và xác định mục tiêu của quá trình khai phá tri thức dưới quan điểm người sử dụng

2 Tạo ra tập dữ liệu đích bằng cách lựa chọn dữ liệu sử dụng hoặc tập trung vào tập con các biến của dữ liệu mà ở đó sự khai phá tri thức được thực hiện

3 Áp dụng các kỹ thuật tiền xử lý nhằm loại bỏ nhiễu, tập hợp các thông tin cần thiết dùng để mô hình hóa, lựa chọn chiến lược xử lý các thông tin bị thiếu và các thông tin thời gian thực

4 Giảm số chiều của không gian dữ liệu, tìm các thuộc tính quan trọng đối với mục tiêu phát hiện tri thức bằng cách chuyển sang không gian mới

5 Áp dụng một kỹ thuật khai phá dữ liệu tương ứng với mục đích đã đề

ra Điều này cũng đồng nghĩa với việc lựa chọn mô hình tri thức về thế giới Sau bước này, tri thức ẩn chứa trong mô hình đã lựa chọn và các tham số tìm thấy của mô hình đó

Trang 9

6 Cuối cùng là việc đánh giá kết quả thu được và chuyển nó sang dạng thông tin hiểu được cho người sử dụng

Hình 1.1 tóm lược các giai đoạn trong quá trình khai phá tri thức

Hình 1.1: Các bước của quy trình khai phá tri thức

1.1.2 Các kỹ thuật khai phá dữ liệu

 Các kỹ thuật tiền xử lý

 Các kỹ thuật học có giám sát

 Các kỹ thuật học không có giám sát

1.1.2.1 Kỹ thuật tiền xử lý

Các kỹ thuật tiền xử lý là các kỹ thuật dùng để chuyển dữ liệu sang dạng mới tạo điều kiện dễ dàng hơn cho quá trình xử lý tiếp theo Ví dụ như việc loại bỏ nhiễu trong dữ liệu, loại bỏ dữ liệu thừa, giảm chiều của dữ liệu nhằm giảm độ phức tạp của bài toán, chuyển dữ liệu sang không gian mới để làm nổi bật các chiều quan trọng, Một số ví dụ về kỹ thuật tiền xử lý như kỹ

thuật phân tích thành phần chính nhằm giảm số chiều của dữ liệu, kỹ thuật

Trang 10

bootstrap nhằm sinh thêm dữ liệu cho bài toán khi dữ liệu đầu vào quá ít, các

kỹ thuật rời rạc hóa dữ liệu để xử lý vấn đề thuộc tính liên tục,

1.1.2.2 Kỹ thuật học có giám sát

Khai phá dữ liệu về bản chất là nhằm xây dựng một mô hình về thế giới thực dựa trên dữ liệu được cung cấp Với các kỹ thuật học có giám sát, chúng

ta có thể hình dung là chúng ta đã có mô hình về thế giới nhưng không biết được các tham số của mô hình đó Dữ liệu được cung cấp bao gồm đầu vào và đầu ra của mô hình Từ những bộ dữ liệu đầu vào và đầu ra này, chúng ta điều chỉnh tham số của mô hình, cố gắng xấp xỉ bộ dữ liệu đã cho một cách tốt nhất có thể Các kỹ thuật thuộc nhóm này có thể kể đến là cây quyết định, mạng neuron lan truyền ngược, các kỹ thuật hồi quy, các bộ lọc tối ưu,

1.1.2.3 Kỹ thuật học không có giám sát

Tuy nhiên đôi khi đầu ra của dữ liệu không được cho trước, chúng ta xử

lý dữ liệu hoàn toàn chỉ dựa trên thuộc tính của dữ liệu đã cho Nhiệm vụ lúc này là nhằm tách ra các phân bố dữ liệu một cách độc lập nhất có thể dựa trên một độ đo nào đó cho trước

1.2 Bài toán học có giám sát

Trong phần này, kỹ thuật học có giám sát sẽ được trình bày chi tiết hơn Bài toán học có giám sát là một kỹ thuật cho phép xây dựng một hàm từ

dữ liệu huấn luyện Dữ liệu huấn luyện bao gồm các đối tượng đầu vào và đầu

ra mong muốn Từ dữ liệu huấn luyện, mô hình học được tạo ra Sau đó, một

bộ dữ liệu khác gọi là dữ liệu kiểm thử được đưa vào nhằm đánh giá độ chính xác của mô hình vừa xây dựng Chúng ta có thể mô hình bài toán học có giám sát bằng toán học như sau:

Trang 11

Cho trước một bộ các cặp (xi, yi) Mối quan hệ giữa x và y là một hàm số

f mà ta không biết trước Bài toán đặt ra là tìm cách xây dựng một ước lượng của y khi biết x một cách tốt nhất có thể từ các cặp (xi, yi)

Đầu tiên ta xét trường hợp giá trị đầu ra là liên tục, khi đó bài toán học

có giám sát còn có tên gọi là bài toán hồi quy Chúng ta đặt tên cho ước lượng cần tìm là ^f Khi đó với một giá trị x, sai số của ước lượng ^f và y sẽ là:

y x f

x  ( ) 

^

Với định nghĩa về , chúng ta sẽ tìm cách trả lời một câu hỏi quan trọng, thế nào là tốt nhất? Có nhiều định nghĩa thế nào là tốt nhất về ước lượng, phổ biến nhất là tiêu chuẩn bình phương tối thiểu:

  f x y p x dx

E

x

2

^ 2

với p(x) là hàm phân bố của x trên miền giá trị của nó và E là toán tử kỳ vọng Các giải thuật sẽ tìm cách tối thiểu hàm  2

x

E Thế nhưng trên thực tế chúng

ta không biết chính xác về phân bố của x cũng như không thể vét cạn các giá trị x có thể Tất cả thông tin chúng ta có chỉ gói gọn trong các cặp số (xi, yi) Thế nên thông thường người ta hi vọng tối ưu công thức 1.2 bằng cách tối ưu công thức sau:

2

^

) (

i

i

i y x f G Minimize

Tuy nhiên ngay cả khi chúng ta đạt được tối ưu với công thức 1.2 (G = 0) thì cũng không đồng nghĩa với việc chúng ta đạt được tối ưu với công thức 1.2 (  2

Trang 12

TÀI LIỆU THAM KHẢO

[1] R.L.P Chang and T Pavlidis, Fuzzy decision tree algorithms, IEEE Trans Systems Man Cybernet SMC-7 (1977) 28 35 [2] K.J Cios and L.M Sztandera, Continuous ID3 algorithm with fuzzy entropy measures, Proc IEEE lnternat Con/i on Fuzz Systems (San Diego, CA, 8 12 March 1992) 469 476

[3] M.R Civanlar and H.J Trussell, Constructing membership functions using statistical data, Fuzzy Sets and Systems 18 (1986) 1 14

[4] A De Luca and S Termin, A definition of a nonprobabilistic entropy in the setting of fuzzy sets theory, InJorm and Control

20 (1972) 301-312

[5] M.M Gupta, Twenty-five years of fuzzy sets and systems: A tribute to Professor Lotfi A Zadeh, Fuzzy Sets and Systems 40 (1991) 409-413

[6] C Hagg, Possibility and cost in decision analysis, Fuzzy Sets and Systems 1 (1978) 81 86

[7] M Higashi and G.J Klir, Measures of uncertainty and information based on possibility distributions, lnternat J Gen Systems 9 (1983) 43 58

[8] G.J Klir, Where do we stand on measures of uncertainty, ambiguity, fuzziness and the like? Fuzzy Sets and Systems 24 (1987) 141 160

Trang 13

[9] G.J Klir, and T.A Folger, Fuzzy Sets, Uncertainty, and lnformation (Prentice-Hall, Englewood Cliffs, N J, 1988) [10] G.J Klir and M Mariano, On the uniqueness of possibilistic measure of uncertainty and information, Fuzzy Sets and Systems 24 (1987) 197-219

[11] T Kohonen, Self-Organization and Associative Memory (Springer, Berlin, 1988)

[12] B Kosko, Fuzzy entropy and conditioning, Inform Sci

30 (1986) 165 174

[13] B Kosko, Neural Networks and Fuzzy Systems (Prentice-Hall, Englewood Cliffs, N J, 1992)

[14] C.C Lee, Fuzzy logic in control systems: fuzzy logic controller, Part II, IEEE Trans Systems Man Cybernet 20 (1990) 419-435

[15] C.-T Lin and C.S.G Lee, Neural-network-based fuzzy logic control and decision system, IEEE Trans Comput 12 (1991) 1320-1336

[16] W Meier, R Weber and H.-J Zimmermann, Fuzzy data analysis - methods and industrial applications, Fuzzy Sets and Systems 61 (1994) 19-28

[17] J.R Quinlan, Induction of decision trees, Mach Learning 1(1)(1986) 81 106

[18] J.R Quinlan, Decision trees as probabilistic classifiers, Proc 4th lnternat Workshop on Machine Learning (Morgan Kauffman, LosAltos, CA, 1987) 31 37

Trang 14

[19] J.R Quinlan, Simplifying decision trees, lnternat J Man Mach Studies 27 (1987) 221 234

[20] J.R Quinlan, Decision trees and decision making, 1EEE Trans Systems Man Cybernet 20 (1990) 339 346

[21] D Ruan and E.E Kerre, Fuzzy implication operators and generalized fuzzy method of cases, Fuzzy Sets and Systems 54 (1993) 23-37

[22] S.R Safavian and D Landgrebe, A survey of decision tree classifier methodology, IEEE Trans Systems Man Cybernet 21 (1991) 66(~674

[23] C.E Shannon, A mathematical theory of communication, Bell System Tech J 27 (1948) 379 423; 623-656

[24] T Tani and M Sakoda, Fuzzy modeling by ID3 algorithm and its application to prediction of heater outlet Nhiệt độ, Proc.IEEE lnternat Conj' on Fuzz), Systems (San Diego, CA, 8-12 March 1992) 923 930

[25] R Weber, Automatic knowledge acquisition for fuzzy control applications, Proc lnternat Symp on Fuzzy Systems (lizuka, Japan, 12 15 July 1992) 9 12

[26] R Weber, Fuzzy-ID3: a class of methods for automatic knowledge acquisition, Proc 2nd Internat (lizuka, Japan, 17 22 July 1992) 265 268

[27] L.A Zadeh, Fuzzy Sets, Inform and Control 8 (1965)

338 353

Trang 15

[28] L.A Zadeh, Fuzzy Sets as a basis for a theory of possibility, Fuzzy Sets and Systems 1 (1978) 3 28

[29] Yufei Yuan, Michael J.Shaw, Induction of fuzzy decision trees

Ngày đăng: 18/12/2017, 05:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm