Hiện này lý thuyết tập thô được phát triển trên một nền tảng toán học vững chắc, cung cấp các công cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng…
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
NGÀNH KHOA HỌC MÁY TÍNH
-o0o -Tiểu luận: Toán Mờ
TẬP THÔ & ỨNG DỤNG TRONG
KHAI PHÁ DỮ LIỆU
Người hướng dẫn :TS Dương Tôn Đảm
Họ và tên : Lê Chí Cảnh – CH1301081
TP HồChí Minh, tháng 11 năm 2014
Trang 2LỜI MỞ ĐẦU
Ngày nay, phát hiện tri thức (Knowledge Discovery) và khai phá dữ liệu (Data mining) là lĩnh vực nghiên cứu đang phát triển mạnh mẽ Khai phá dữ liệu được sử dụng với những cái tên như là sự thăm dò và phân tích bằng cách tự động hoặc bán tự động của một số lượng lớn dữ liệu theo một thứ tự để tìm kiếm được những mẫu có ích hoặc các luật.
Mặc khác, trong môi trường cạnh tranh khốc liệt như hiện nay, người
ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có Với những lý do như vậy dẫn tới sự phát triển một khuynh hướng kỹ thuật mới đó là kỹ thuật phát hiện tri thức và khai phá dữ liệu.
Hiện này lý thuyết tập thô được phát triển trên một nền tảng toán học vững chắc, cung cấp các công cụ hữu ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng… Đặc biệt thích hợp với các bài toán phân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắc chắn
Lý thuyết tập thô (Rough Set Theory) do Zdzisaw Pawlak (1926-2006) đề xuất vào năm 1982 đã được ứng dụng ngày càng rộng rãi trong lĩnh vực khoa học máy tính.
Trang 3LỜI CẢM ƠN
Lời đầu tiên chúng em muốn bày tỏ sự cảm ơn sâu sắc của mình tới TS Dương Tôn Đảm giảng viên bộ môn Toán Mờ, trường Đại học Công Nghệ Thông Tin, ĐHQG – Tp.HCM đã hướng dẫn chúng em cũng như chia sẽ những kinh nghiệm của thầy Trong thời gian học, chúng em đã tiếp thu nhiều kiến thức bổ ích để hoàn thành bài tiểu luận này
Chúng em rất mong nhận được sự đóng góp ý kiến của thầy và các bạn để đề tài
có thể hoàn thiện hơn
Chúng em xin chân thành cảm ơn!
Tp Hồ Chí Minh, tháng 11 năm 2014 Học viên: Lê Chí Cảnh
Nguyễn Thị Diễm An
Trang 4NHẬN XÉT (Của giảng viên)
………
………
………
………
………
………
………
………
………
………
………
………
Giảng viên (Họ tên và chữ kí)
Trang 5MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU 5
1.1 Tập thô 5
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 6
2.1 Hệ thông tin 6
2.2 Bảng quyết định 7
2.3 Quan hệ không phân biệt 7
2.4 Tập xấp xỉ 8
2.5 Rút gọn (Reduction)và lõi (Core) 10
CHƯƠNG 3: ROSE2 - TRIỂN KHAI LÝ THUYẾT TẬP THÔ 12
3.1 Giới thiệu: 12
3.2 Thực hiện với ROSE2 12
CHƯƠNG 4: KẾT LUẬN 17
Trang 6CHƯƠNG 1: GIỚI THIỆU
1.1 T p thô ập thô
Lý thuyết tập thô được Zdzislaw Pawlak đề xuất vào đầu những năm 1980 và
nó nhanh chóng được các nhà khoa học tiếp nhận như một công cụ toán học mới để
xử lý những thông tin đầy đủ và không chắc chắn
Các phương pháp của lý thuyết tập thô tỏ ra hết sức quan trọng đối với lĩnh vực trí tuệ nhân tạo và các ngành khoa học liên quan đến nhận thức ( máy học; các
hệ chuyên gia; các hệ hỗ trợ ra quyết định; lập luận dựa trên quy nạp và nhận dạng )
Triết lý của tập thô dựa trên nhân định rằng mọi đôi tượng trong cũ trụ đều gắn với một loại thông tin nào đó ( như dữ liệu; tri thức; ) Ví dụ nếu các đối tượng là các bệnh nhân bị một căn bệnh nào đó, thì các triệu chứng của bệnh tạo nên thông tin về bệnh nhân
Các đối tượng được đăc trưng bởi cùng thông tin thì không thể phân biệt được ( các đối tượng tương tự) được gọi là tập cơ bản ( elementary set) và tạo thành nguyên tử ( atom hay granule) của tri thức về vũ trụ
Trong lý thuyết tập thô, bất cứ một khái niệm không rõ ràng nào đều được thay bằng một cặp khái niệm không chính xác gọi là xấp xỉ dưới và xấp xỉ trên của khái niệm
Xấp xỉ dưới gồm tất cả các đối tượng chắc chắn thuộc về khái niệm; xấp xỉ trên gồm tất cá các đối tượng có thể thuộc về khái niệm Hiệu của xấp xỉ trên và dướ tạo thành khoảng ranh giới của khái niệm
Các phép toán cơ bản của lý thuyết tập thô được sử dũng để phát hiên các mẫu cơ sở trong dữ liệu Do đó, với một ý nghĩa nhất định phương pháp lập luận thô cũng chính là học máy, phát hiên tri thức, suy diễn thống kê và suy diễn quy nạp
Trang 7CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Hệ thông tin
Một tập dữ liệu có thể biểu diễn dưới dạng một bảng, trên đó mỗi dòng biểu diễn thông tin ứng với một đối tượng, mỗi cột biểu diễn một thuộc tính có thể đo được của đối tượng Bảng này được gọi là một hệ thống thông tin
Hệ thống thông tin là một cặp S=(U,A), trong đó U là tập hữu hạn khác rỗng các đối tượng gọi là tập vũ trụ còn A là tập hữu hạn khác rỗng các thuộc tính
Với mỗi đối tượng u ∈U và thuộc tính a ∈ A , ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a Nếu gọi Ia là tập tất cả các giá trị của thuộc tính a, thì
u(a)∈ Ia với mọi u ∈U Bây giờ, nếu đặt B = {b1,b2, , bk } là tập con của tập thuộc tính A, ta ký hiệu bộ các giá trị u(bi) bởi u(B) Như vậy, nếu u và v là 2 đối tượng u(B) = v(B) nếu u(bi) = v(bi), với mọi i=1,2,…,k
Ví dụ có một hệ tin như sau:
Một hệ thống thông tin bao gồm 7 đối tượng U={u1,u2,u3,u4,u5,u6,u7}, tập thuộc tính A={Age, Lems,Walk }, và miền giá trị cho từng thuộc tính là IAge=
{16-30, 31-45, 46-60}, ILems = {50, 0, 1-25, 26-49 }
2.2 B ng quy t đ nh ảng quyết định ết định ịnh
Bảng quyết định là một hệ thống thông tin có dạng T=(U,A),với U là tập các
Trang 8đối tượng và A là tập các thuộc tính, trong đó tập thuộc tính A được chia thành 2 tập thuộc tính rời nhau là C và D, C được gọi là tập thuộc tính điều kiện và D là tập thuộc tính quyết định Tức là T = (U ,C ∪ D)
Ví dụ: Bảng sau đây là một bảng quyết định Bảng này có 7 đối tượng như trong bảng trên, nhưng có thêm thuộc tính quyết định (Walk) Trong bài toán phân lớp thì thuộc tính quyết định chính là lớp của đối tượng cần xếp lớp Trong ví dụ này thuộc tính quyết định Walk có 2 giá trị là: Yes, No
2.3 Quan h không phân bi t ệ không phân biệt ệ không phân biệt
Xét hệ thống thông tin S = (U, A), khi đó mỗi tập thuộc tính đều tạo
ra một quan hệ 2 ngôi trên U, ký hiệu IND(B):
IND (B) = {(u,v) ∈UxU ∨∀ a∈ B , u(a)=v(a)}
INB(B) được gọi là quan hệ B không phân biệt được Dễ kiềm chứng, đây là một quan hệ tương đương trên U Nếu (u , v )ϵ IND(B)
Thì các đối tượng u, v là không thể phân biệt được với nhau trên tập thuộc tính B Với mọi đối tượng u ϵ U lớp tương đương của u trong quan hệ IND(B) được kí hiệu: [u]B Tập thương xác định bởi quan hệ IND(B) được kí hiệu U/IND(B) hay U/B: U/IND(B) = U/B ={[u]B | u ϵ U }
Ví dụ : Tập thuộc tính B= {Age, Lems} trong Bảng 2 phân hoạch tập 7 đối tượng thành tập các lớp tương đương như sau:
INB(B) = {{u1}, {u2}, {u3,u4}, {u5,u7}, {u6}}
Trang 9Nhận xét: Ta thấy, các đối tượng u5và u7 cùng một lớp tương đương nên chúng không thể phân biệt với nhau trên tập thuộc tính {Age, Lems }
2.4 T p x p x ập thô ấp xỉ ỉ
Các tập xấp xỉ là cơ sở để rút ra các kết luận (tri thức) từ cơ sở dữ liệu Cho
hệ thống thông tin Với các tri thức được cho bởi tập thuộc tính B, vấn đề đặt ra là liệu chúng ta
có thể biểu diễn tập các đối tượng V bằng các tri thức có sẵn hay không? Hay nói cách khác, với tập thuộc tính B cho trước, chúng ta có các lớp tương đương của quan hệ IND(B), thế thì tập các đối tượng V có thể được diễn đạt thông qua các lớp tương đương này như thế nào? Trong lý thuyết tập thô, để biểu diễn tập đối tượng V bằng tri thức có sẵn B người ta xấp xỉ chúng bởi hợp của một số hữu hạn các lớp tương tương của IND(B) Có 2 cách xấp xỉ đó là B-Xấp xỉ dưới của V, ký hiệu Và B-Xấp xỉ trên của tập V, ký hiệu là Các tập xấp xỉ này được định nghĩa như sau:
và Tập bao bao gồm tất cả các phần tử của U chắc chắn thuộc vào V
Tập bao bao gồm các phần tử của U có khả năng được phân loại vào những phần tử thuộc V
Từ 2 tập xấp xỉ trên và xấp xỉ dưới của V, người ta định nghĩa các tập sau:
: B-miền biên của V Nếu thì V được gọi là tập thô, ngược lại V được gọi là tập rõ
: B-vùng dương của V : B-vùng âm của V Đối với một hệ thống thông tin , ký hiệu R= IND(B), người ta gọi B-miền khẳng định dương của D là tập được xác định như sau:
Trang 10Ví dụ : xét hệ thông tin sau:
Từ hệ thống thông tin trên, ta có các lớp không phân biệt được B={Đau đầu, Thân Nhiệt} là {u1},{u2},{u3},{u4},{u5,u7},{u6,u8}
Nếu đặt V={u|u(Cảm cúm)=Có}={u2,u3,u6,u7}, lúc đó ta có:
BV = {u2,u3} và = {u2,u3,u5,u7,u6,u8}
Từ đó ta có B-miền biên của V là tập
2.5 Rút g n ( ọn ( Reduction)và lõi (Core)
Trong bảng quyết định, các thuộc tính điều kiện được phân thành 3 loại, đó là: thuộc tính lõi (core), thuộc tính rút gọn và thuộc tính không cần thiết Thuộc tính lõi là thuộc tính không thể thiếu trong việc phân hoạch tập dữ liệu Thuộc tính không cần thiết là những thuộc tính dư thừa (có thể loại bỏ một thuộc tính như vậy chứ không phải loại bỏ tất cả) mà không ảnh hưởng đến việc phân hoạch dữ liệu Thuộc tính rút gọn nằm giữa 2 tập thuộc tính trên, với một tổ hợp thuộc tính nào đó,
nó là thuộc tính dư thừa nhưng với tổ hợp thuộc tính khác, nó có thể là thuộc tính lõi
Cho một bảng quyết định T = (U ,C ∪ D ) Tập thuộc tính được gọi là một rút gọn của C nếu POSR(D)= POSC(D) Lõi của tập
Trang 11thuộc tính C, ký hiệu CORE(C) là tất cả các thuộc tính giao của tất cả các tập rút gọn của C
Trong đó RED(C) là tập hợp tất cả các rút gọn của C
Ví dụ:Ta có bảng quyết định sau:
Bảng này có 2 tập rút gọn là R1={Đau đầu, Thân nhiệt} và R2= {Đau cơ, Thân nhiệt} Tập lõi Core={Thân nhiệt} Vậy Thân nhiệt là thuộc tính cần thiết duy nhất, các thuộc tính Đau đầu, Đau cơ đều không cần thiết Điều này có nghĩa rằng
có thể loại bỏ 1 trong 2 thuộc tính Đau đầu hoặc Đau cơ (không thể bỏ đồng thời cả 2) mà không ảnh hưởng đến kết quả chuẩn đoán bệnh
Có rất nhiều thuật toán đã được xây dựng để tìm các tập rút gọn tối thiểu các thuộc tính điều kiện của bảng quyết định Tuy nhiên, độ phức tạp của các thuật toán này là NP-khó Vì vậy, người ta thường sử dụng các thuật toán rút gọn xấp xỉ, trong
đó thuật toán rút gọn xấp xỉ Johnson được sử dụng rất phổ biến
Trang 12CHƯƠNG 3: ROSE2 - TRIỂN KHAI LÝ THUYẾT TẬP THÔ
3.1 Gi i thi u: ới thiệu: ệ không phân biệt
Phần mềm ROSE2, đây là phần mềm triển khai khá đầy đủ các nhiệm vụ cơ bản của lý thuyết tập thô như tìm các rút gọn tập thuộc tính (reduction), tìm lập lõi (core), tìm các luật suy diễn (Induction), xấp xỉ (Approximation), ma trận phân biệt (Discernibility Matrix)…
Dữ liệu minh họa là bảng quyết định về dữ liệu cảm cúm (bảng 4) gồm có 6 đối tượng, 3 thuộc tính điều kiện (Đau đầu, Đau cơ, thân nhiệt) và 1 thuộc tính quyết định (Cảm cúm)
3.2 Th c hi n v i ROSE2 ực hiện với ROSE2 ệ không phân biệt ới thiệu:
Khởi động ROSE2, tạo file dữ liệu và nhập dữ liệu vào như sau
Trang 13Kết quả sau khi nhập dữ liệu:
Trang 14Tìm tập lõi (Core): Chọn file dữ liệu, chọn Reduction, chọn Core, chọn
thuộc tính quyết định (decision attribute) là Cảm cúm Kết quả tập lõi có 1 thuộc tính là Thân Nhiệt:
Tìm các tập rút gọn: Chọn Reduction, chọn Lattice Search, chọn thuộc tính quyết định (decision attribute) là Cảm cúm Kết quả có 2 tập rút gọn là {Đau đầu, Thân nhiệt} và {Đau cơ, thân nhiệt}
Trang 15Tìm các luật suy diễn: Chọn Rule Induction, chọn Basic Minimal Covering, chọn thuộc tính quyết định (decision attribute) là Cảm cúm Kết quả có các luật suy diễn như sau:
Các luật được phát hiện chính là các tri thức được khai phá từ dữ liệu Đây là
cơ sở để suy đoán, ước lượng hoặc ra quyết định Trong ví dụ này, có thể dựa vào các luật này để chuẩn đoán một người có bị bệnh cảm cúm hay không
Tìm các tập xấp xỉ tương đương: Trong mục Similarity Relation, chọn
Trang 16Approximations, chọn thuộc tính quyết định (decision attribute) là Cảm cúm Kết quả
Công cụ ROSE2 triển khai khá đầy đủ các nhiệm vụ cơ bản của lý thuyết tập thô với giao diện dễ sử dụng, trình bày kết quả dễ hiểu Tuy nhiên, để khai thác hết các chức năng của chương trình, bạn cần phải có kiến thức nhất định về lý thuyết tập thô
Trang 17CHƯƠNG 4: KẾT LUẬN
Như vậy, lý thuyết tập thô là hết sức quan trọng đối với lĩnh vực trí tuệ nhân tao, khai phá dữ liêu, và hỗ trợ ra quyết định và nhiều lỉnh vực khác nữa
Lý thuyết tập thô cung cấp một công cụ để phân tích, trích chọn dữ liệu từ các dữ liệu không chính xác để phát hiện ra mối quan hệ giữa các đối tượng và những tiềm ẩn trong dữ liệu Nó cho ta một cách nhìn đặc biệt về mô tả, phân tích
và thao tác dữ liệu cũng như một cách tiếp cận đối với tính không chắc chắn và không chính xác của dữ liệu