Tiểu luận môn Toán cho khoa học máy tính TẬP THÔ & ỨNG DỤNG TRONG KHAI PHÁ DỮ LIỆU

Hiện này lý thuyết tập thô được phát triển trên một nền tảng toán học vững chắc, cung cấp các công cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng…

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

NGÀNH KHOA HỌC MÁY TÍNH

-o0o -Tiểu luận: Toán Mờ

TẬP THÔ & ỨNG DỤNG TRONG

KHAI PHÁ DỮ LIỆU

Người hướng dẫn :TS Dương Tôn Đảm

Họ và tên : Lê Chí Cảnh – CH1301081

TP HồChí Minh, tháng 11 năm 2014

Trang 2

LỜI MỞ ĐẦU

Ngày nay, phát hiện tri thức (Knowledge Discovery) và khai phá dữ liệu (Data mining) là lĩnh vực nghiên cứu đang phát triển mạnh mẽ Khai phá dữ liệu được sử dụng với những cái tên như là sự thăm dò và phân tích bằng cách tự động hoặc bán tự động của một số lượng lớn dữ liệu theo một thứ tự để tìm kiếm được những mẫu có ích hoặc các luật.

Mặc khác, trong môi trường cạnh tranh khốc liệt như hiện nay, người

ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có Với những lý do như vậy dẫn tới sự phát triển một khuynh hướng kỹ thuật mới đó là kỹ thuật phát hiện tri thức và khai phá dữ liệu.

Hiện này lý thuyết tập thô được phát triển trên một nền tảng toán học vững chắc, cung cấp các công cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng… Đặc biệt thích hợp với các bài toán phân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắc chắn

Lý thuyết tập thô (Rough Set Theory) do Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 đã được ứng dụng ngày càng rộng rãi trong lĩnh vực khoa học máy tính.

Trang 3

LỜI CẢM ƠN

Lời đầu tiên chúng em muốn bày tỏ sự cảm ơn sâu sắc của mình tới TS Dương Tôn Đảm giảng viên bộ môn Toán Mờ, trường Đại học Công Nghệ Thông Tin, ĐHQG – Tp.HCM đã hướng dẫn chúng em cũng như chia sẽ những kinh nghiệm của thầy Trong thời gian học, chúng em đã tiếp thu nhiều kiến thức bổ ích để hoàn thành bài tiểu luận này

Chúng em rất mong nhận được sự đóng góp ý kiến của thầy và các bạn để đề tài

có thể hoàn thiện hơn

Chúng em xin chân thành cảm ơn!

Tp Hồ Chí Minh, tháng 11 năm 2014 Học viên: Lê Chí Cảnh

Nguyễn Thị Diễm An

Trang 4

NHẬN XÉT (Của giảng viên)

………

Giảng viên (Họ tên và chữ kí)

Trang 5

MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU 5

1.1 Tập thô 5

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 6

2.1 Hệ thông tin 6

2.2 Bảng quyết định 7

2.3 Quan hệ không phân biệt 7

2.4 Tập xấp xỉ 8

2.5 Rút gọn (Reduction)và lõi (Core) 10

CHƯƠNG 3: ROSE2 - TRIỂN KHAI LÝ THUYẾT TẬP THÔ 12

3.1 Giới thiệu: 12

3.2 Thực hiện với ROSE2 12

CHƯƠNG 4: KẾT LUẬN 17

Trang 6

CHƯƠNG 1: GIỚI THIỆU

1.1 T p thô ập thô

Lý thuyết tập thô được Zdzislaw Pawlak đề xuất vào đầu những năm 1980 và

nó nhanh chóng được các nhà khoa học tiếp nhận như một công cụ toán học mới để

xử lý những thông tin đầy đủ và không chắc chắn

Các phương pháp của lý thuyết tập thô tỏ ra hết sức quan trọng đối với lĩnh vực trí tuệ nhân tạo và các ngành khoa học liên quan đến nhận thức ( máy học; các

hệ chuyên gia; các hệ hỗ trợ ra quyết định; lập luận dựa trên quy nạp và nhận dạng )

Triết lý của tập thô dựa trên nhân định rằng mọi đôi tượng trong cũ trụ đều gắn với một loại thông tin nào đó ( như dữ liệu; tri thức; ) Ví dụ nếu các đối tượng là các bệnh nhân bị một căn bệnh nào đó, thì các triệu chứng của bệnh tạo nên thông tin về bệnh nhân

Các đối tượng được đăc trưng bởi cùng thông tin thì không thể phân biệt được ( các đối tượng tương tự) được gọi là tập cơ bản ( elementary set) và tạo thành nguyên tử ( atom hay granule) của tri thức về vũ trụ

Trong lý thuyết tập thô, bất cứ một khái niệm không rõ ràng nào đều được thay bằng một cặp khái niệm không chính xác gọi là xấp xỉ dưới và xấp xỉ trên của khái niệm

Xấp xỉ dưới gồm tất cả các đối tượng chắc chắn thuộc về khái niệm; xấp xỉ trên gồm tất cá các đối tượng có thể thuộc về khái niệm Hiệu của xấp xỉ trên và dướ tạo thành khoảng ranh giới của khái niệm

Các phép toán cơ bản của lý thuyết tập thô được sử dũng để phát hiên các mẫu cơ sở trong dữ liệu Do đó, với một ý nghĩa nhất định phương pháp lập luận thô cũng chính là học máy, phát hiên tri thức, suy diễn thống kê và suy diễn quy nạp

Trang 7

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1 Hệ thông tin

Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi dòng biểu diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo được của đối tượng Bảng này được gọi là một hệ thống thông tin

Hệ thống thông tin là một cặp S=(U,A), trong đó U là tập hữu hạn khác rỗng các đối tượng gọi là tập vũ trụ còn A là tập hữu hạn khác rỗng các thuộc tính

Với mỗi đối tượng u ∈U và thuộc tính a ∈ A , ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a Nếu gọi Ia là tập tất cả các giá trị của thuộc tính a, thì

u(a)∈ Ia với mọi u ∈U Bây giờ, nếu đặt B = {b1,b2, , bk } là tập con của tập thuộc tính A, ta ký hiệu bộ các giá trị u(bi) bởi u(B) Như vậy, nếu u và v là 2 đối tượng u(B) = v(B) nếu u(bi) = v(bi), với mọi i=1,2,…,k

Ví dụ có một hệ tin như sau:

Một hệ thống thông tin bao gồm 7 đối tượng U={u1,u2,u3,u4,u5,u6,u7}, tập thuộc tính A={Age, Lems,Walk }, và miền giá trị cho từng thuộc tính là IAge=

{16-30, 31-45, 46-60}, ILems = {50, 0, 1-25, 26-49 }

2.2 B ng quy t đ nh ảng quyết định ết định ịnh

Bảng quyết định là một hệ thống thông tin có dạng T=(U,A),với U là tập các

Trang 8

đối tượng và A là tập các thuộc tính, trong đó tập thuộc tính A được chia thành 2 tập thuộc tính rời nhau là C và D, C được gọi là tập thuộc tính điều kiện và D là tập thuộc tính quyết định Tức là T = (U ,C ∪ D)

Ví dụ: Bảng sau đây là một bảng quyết định Bảng này có 7 đối tượng như trong bảng trên, nhưng có thêm thuộc tính quyết định (Walk) Trong bài toán phân lớp thì thuộc tính quyết định chính là lớp của đối tượng cần xếp lớp Trong ví dụ này thuộc tính quyết định Walk có 2 giá trị là: Yes, No

2.3 Quan h không phân bi t ệ không phân biệt ệ không phân biệt

Xét hệ thống thông tin S = (U, A), khi đó mỗi tập thuộc tính đều tạo

ra một quan hệ 2 ngôi trên U, ký hiệu IND(B):

IND (B) = {(u,v) ∈UxU ∨∀ a∈ B , u(a)=v(a)}

INB(B) được gọi là quan hệ B không phân biệt được Dễ kiềm chứng, đây là một quan hệ tương đương trên U Nếu (u , v )ϵ IND(B)

Thì các đối tượng u, v là không thể phân biệt được với nhau trên tập thuộc tính B Với mọi đối tượng u ϵ U lớp tương đương của u trong quan hệ IND(B) được kí hiệu: [u]B Tập thương xác định bởi quan hệ IND(B) được kí hiệu U/IND(B) hay U/B: U/IND(B) = U/B ={[u]B | u ϵ U }

Ví dụ : Tập thuộc tính B= {Age, Lems} trong Bảng 2 phân hoạch tập 7 đối tượng thành tập các lớp tương đương như sau:

INB(B) = {{u1}, {u2}, {u3,u4}, {u5,u7}, {u6}}

Trang 9

Nhận xét: Ta thấy, các đối tượng u5và u7 cùng một lớp tương đương nên chúng không thể phân biệt với nhau trên tập thuộc tính {Age, Lems }

2.4 T p x p x ập thô ấp xỉ ỉ

Các tập xấp xỉ là cơ sở để rút ra các kết luận (tri thức) từ cơ sở dữ liệu Cho

hệ thống thông tin Với các tri thức được cho bởi tập thuộc tính B, vấn đề đặt ra là liệu chúng ta

có thể biểu diễn tập các đối tượng V bằng các tri thức có sẵn hay không? Hay nói cách khác, với tập thuộc tính B cho trước, chúng ta có các lớp tương đương của quan hệ IND(B), thế thì tập các đối tượng V có thể được diễn đạt thông qua các lớp tương đương này như thế nào? Trong lý thuyết tập thô, để biểu diễn tập đối tượng V bằng tri thức có sẵn B người ta xấp xỉ chúng bởi hợp của một số hữu hạn các lớp tương tương của IND(B) Có 2 cách xấp xỉ đó là B-Xấp xỉ dưới của V, ký hiệu Và B-Xấp xỉ trên của tập V, ký hiệu là Các tập xấp xỉ này được định nghĩa như sau:

và Tập bao bao gồm tất cả các phần tử của U chắc chắn thuộc vào V

Tập bao bao gồm các phần tử của U có khả năng được phân loại vào những phần tử thuộc V

Từ 2 tập xấp xỉ trên và xấp xỉ dưới của V, người ta định nghĩa các tập sau:

: B-miền biên của V Nếu thì V được gọi là tập thô, ngược lại V được gọi là tập rõ

: B-vùng dương của V : B-vùng âm của V Đối với một hệ thống thông tin , ký hiệu R= IND(B), người ta gọi B-miền khẳng định dương của D là tập được xác định như sau:

Trang 10

Ví dụ : xét hệ thông tin sau:

Từ hệ thống thông tin trên, ta có các lớp không phân biệt được B={Đau đầu, Thân Nhiệt} là {u1},{u2},{u3},{u4},{u5,u7},{u6,u8}

Nếu đặt V={u|u(Cảm cúm)=Có}={u2,u3,u6,u7}, lúc đó ta có:

BV = {u2,u3} và = {u2,u3,u5,u7,u6,u8}

Từ đó ta có B-miền biên của V là tập

2.5 Rút g n ( ọn ( Reduction)và lõi (Core)

Trong bảng quyết định, các thuộc tính điều kiện được phân thành 3 loại, đó là: thuộc tính lõi (core), thuộc tính rút gọn và thuộc tính không cần thiết Thuộc tính lõi là thuộc tính không thể thiếu trong việc phân hoạch tập dữ liệu Thuộc tính không cần thiết là những thuộc tính dư thừa (có thể loại bỏ một thuộc tính như vậy chứ không phải loại bỏ tất cả) mà không ảnh hưởng đến việc phân hoạch dữ liệu Thuộc tính rút gọn nằm giữa 2 tập thuộc tính trên, với một tổ hợp thuộc tính nào đó,

nó là thuộc tính dư thừa nhưng với tổ hợp thuộc tính khác, nó có thể là thuộc tính lõi

Cho một bảng quyết định T = (U ,C ∪ D ) Tập thuộc tính được gọi là một rút gọn của C nếu POSR(D)= POSC(D) Lõi của tập

Trang 11

thuộc tính C, ký hiệu CORE(C) là tất cả các thuộc tính giao của tất cả các tập rút gọn của C

Trong đó RED(C) là tập hợp tất cả các rút gọn của C

Ví dụ:Ta có bảng quyết định sau:

Bảng này có 2 tập rút gọn là R1={Đau đầu, Thân nhiệt} và R2= {Đau cơ, Thân nhiệt} Tập lõi Core={Thân nhiệt} Vậy Thân nhiệt là thuộc tính cần thiết duy nhất, các thuộc tính Đau đầu, Đau cơ đều không cần thiết Điều này có nghĩa rằng

có thể loại bỏ 1 trong 2 thuộc tính Đau đầu hoặc Đau cơ (không thể bỏ đồng thời cả 2) mà không ảnh hưởng đến kết quả chuẩn đoán bệnh

Có rất nhiều thuật toán đã được xây dựng để tìm các tập rút gọn tối thiểu các thuộc tính điều kiện của bảng quyết định Tuy nhiên, độ phức tạp của các thuật toán này là NP-khó Vì vậy, người ta thường sử dụng các thuật toán rút gọn xấp xỉ, trong

đó thuật toán rút gọn xấp xỉ Johnson được sử dụng rất phổ biến

Trang 12

CHƯƠNG 3: ROSE2 - TRIỂN KHAI LÝ THUYẾT TẬP THÔ

3.1 Gi i thi u: ới thiệu: ệ không phân biệt

Phần mềm ROSE2, đây là phần mềm triển khai khá đầy đủ các nhiệm vụ cơ bản của lý thuyết tập thô như tìm các rút gọn tập thuộc tính (reduction), tìm lập lõi (core), tìm các luật suy diễn (Induction), xấp xỉ (Approximation), ma trận phân biệt (Discernibility Matrix)…

Dữ liệu minh họa là bảng quyết định về dữ liệu cảm cúm (bảng 4) gồm có 6 đối tượng, 3 thuộc tính điều kiện (Đau đầu, Đau cơ, thân nhiệt) và 1 thuộc tính quyết định (Cảm cúm)

3.2 Th c hi n v i ROSE2 ực hiện với ROSE2 ệ không phân biệt ới thiệu:

Khởi động ROSE2, tạo file dữ liệu và nhập dữ liệu vào như sau

Trang 13

Kết quả sau khi nhập dữ liệu:

Trang 14

Tìm tập lõi (Core): Chọn file dữ liệu, chọn Reduction, chọn Core, chọn

thuộc tính quyết định (decision attribute) là Cảm cúm Kết quả tập lõi có 1 thuộc tính là Thân Nhiệt:

Tìm các tập rút gọn: Chọn Reduction, chọn Lattice Search, chọn thuộc tính quyết định (decision attribute) là Cảm cúm Kết quả có 2 tập rút gọn là {Đau đầu, Thân nhiệt} và {Đau cơ, thân nhiệt}

Trang 15

Tìm các luật suy diễn: Chọn Rule Induction, chọn Basic Minimal Covering, chọn thuộc tính quyết định (decision attribute) là Cảm cúm Kết quả có các luật suy diễn như sau:

Các luật được phát hiện chính là các tri thức được khai phá từ dữ liệu Đây là

cơ sở để suy đoán, ước lượng hoặc ra quyết định Trong ví dụ này, có thể dựa vào các luật này để chuẩn đoán một người có bị bệnh cảm cúm hay không

Tìm các tập xấp xỉ tương đương: Trong mục Similarity Relation, chọn

Trang 16

Approximations, chọn thuộc tính quyết định (decision attribute) là Cảm cúm Kết quả

Công cụ ROSE2 triển khai khá đầy đủ các nhiệm vụ cơ bản của lý thuyết tập thô với giao diện dễ sử dụng, trình bày kết quả dễ hiểu Tuy nhiên, để khai thác hết các chức năng của chương trình, bạn cần phải có kiến thức nhất định về lý thuyết tập thô

Trang 17

CHƯƠNG 4: KẾT LUẬN

Như vậy, lý thuyết tập thô là hết sức quan trọng đối với lĩnh vực trí tuệ nhân tao, khai phá dữ liêu, và hỗ trợ ra quyết định và nhiều lỉnh vực khác nữa

Lý thuyết tập thô cung cấp một công cụ để phân tích, trích chọn dữ liệu từ các dữ liệu không chính xác để phát hiện ra mối quan hệ giữa các đối tượng và những tiềm ẩn trong dữ liệu Nó cho ta một cách nhìn đặc biệt về mô tả, phân tích

và thao tác dữ liệu cũng như một cách tiếp cận đối với tính không chắc chắn và không chính xác của dữ liệu

Định dạng
Số trang	17
Dung lượng	253,42 KB