Granular computing in discovering knowledge from information systems

Từ đó, IT = S, A là thể hiện của IS, được trình bày dưới dạng một bảng thông tin với tập mẫu các đối tượng quan trắc S và các trị thuộc tính trong A.. Khoảng cách giữa các trị thuộc tính

Trang 1

CƠ SỞ TÍNH TOÁN HẠT

1.1 Giới thiệu tổng quan

Các hạt thông tin (information granules) và tính kết hạt thông tin (information granularity) đóng vai trò quan trọng trong tính toán hạt (granular computing), tạo ra

triển vọng thuận lợi trong việc xử lý thông tin Về mặt kỹ thuật, tính toán hạt được

xem như một khung công việc (framework) để thực hiện việc biểu diễn và xử lý các

hạt thông tin trong các hệ thông tin thông minh, [1] Giao tiếp giữa người dùng với các

hệ thống thông tin này càng trở nên thuận lợi nhờ các hạt thông tin

(a) Từ những năm 1994-1996, Lotfi Zadeh đã nhấn mạnh tiềm năng của tính toán hạt

Năm 1997 ở Đại học Berkeley-California, Zadeh đã giao nhiệm vụ cho Tsau Young

Lin và các cộng sự nghiên cứu phát triển toán hạt (granular mathematics) trong ngành

toán theo hướng xem xét, nghiên cứu trên các hạt thay vì trên các điểm Quan điểm

này có cơ sở từ nguyên lý Heisenberg khi người ta cho rằng: vị trí chuyển động và

động lượng của một chất điểm chỉ có thể xác định một cách đồng thời với một độ chính xác nhất định trong một lân cận thích hợp Đây cũng là nguyên tắc cơ bản trong

nghiên cứu các sự vật và hiện tượng của nhiều lĩnh vực khoa học, như cơ học, vật lý, sinh học, môi trường, Quan điểm toán hạt vốn cũng đã là cơ sở gắn liền với các

phương pháp số - như sai phân hữu hạn (finite difference), phần tử hữu hạn (finite element), hay thể tích hữu hạn (finite volume)

Do thực hiện một nhiệm vụ được giao như vậy là quá rộng, T Y Lin và nhóm nghiên cứu đã giới hạn phạm vi nghiên cứu chỉ trong lĩnh vực tính toán hạt [2], tập

trung vào những tác vụ khởi đầu là phân hạt (granulation) nhằm tạo ra các hạt từ tập

hợp các đối tượng có chung những ràng buộc nào đó, chẳng hạn có chung tính năng,

tính bất khả phân biệt, tính đồng dạng, Thứ đến là xác định cấu trúc hạt (granular

structure) như một tập hợp các hạt mà cấu trúc bên trong của mỗi hạt được xem như

một cấu trúc con - nghĩa là xem cấu trúc hạt như một tập gồm các hộp trắng boxes) – khác với cấu trúc thương (quotient structure) xem đó là một tập các hộp đen

(white-(black-boxes)

Việc phân hoạch (partition) một tập hợp cho trước thành các tập hợp con rời nhau

là một quá trình phân hạt Nếu xem xét từng tập hợp con rời nhau này như chỉ là một phần tử thuần túy thì đó là cấu trúc thương Nhưng nếu xét đến cấu trúc bên trong của từng tập hợp con rời nhau này như một cấu trúc con thì đấy là cấu trúc hạt

Trang 2

(b) Do có sự tương ứng 1-1 giữa sự phân hoạch một tập S cho trước và một quan hệ

tương đương E, nên mỗi lớp tương đương tương ứng với một hạt Tập hợp các lớp

tương đương rời nhau này là không gian thương (quotient space) S/E với cấu trúc thương gồm các hạt tương đương Khi đó phân hoạch tương ứng của S chính là một phép phân hạt tương đương và (S, E) là một mô hình hạt (granular model)

Lân cận của đối tượng S cho trước là tập con N() của S Mỗi lân cận như vậy

là một hạt Tập hợp các lân cận của những điểm thuộc S lập thành một hệ các lân cận

có cấu trúc hạt mà hợp của tất cả các lân cận này là S Một hệ các lân cận như vậy

không nhất thiết rời nhau và được gọi là một hệ phủ (covering) lên S

Nếu R là quan hệ nhị phân, N() = { xS | (x, )R } gọi là lân cận nhị phân của

 R có thể không phản xạ, nên  có thể không thuộc về N() Họ {N()}pS là một

hệ lân cận nhị phân của S - đó là một phân hạt nhị phân với mô hình hạt (S, R)

Trong [2] đã giới thiệu nhiều mô hình tạo hạt khác nhau có tác dụng ảnh hưởng đến nhiều công bố đương thời [3-10]

(c) Trong tính toán hạt, mỗi hạt của tập S có thể được xem xét ở ba trạng thái:

- Trạng thái nội hạt (internal state): hạt được xem xét riêng lẻ, độc lập với S;

- Trạng thái khái niệm (conceptual state): hạt là tập con của S và các phương pháp

đồng cấu (homomorphism), tự đồng cấu (automorphism), có thể được áp dụng;

- Trạng thái ngoại hạt (external state): hạt chỉ là phần tử trong cấu trúc thương của

S, lúc đó người ta xem xét các quan hệ của hạt với bên ngoài tức là với các hạt khác

Khi gán mỗi hạt trong cấu trúc thương với một biểu tượng (symbol) hay một tên tượng trưng theo một nghĩa nào đó người ta có một cấu trúc tri thức (knowledge

structure) để biểu thị trực quan về cấu trúc thương Trong những trường hợp cụ thể, cấu trúc tri thức có thể được thể hiện bằng một bảng quan hệ n-cột mà người ta thường

gọi là bảng thông tin nhị phân (binary information table) hay bảng hạt

Mặt khác, nếu gán mỗi hạt như vậy với một từ (word) phản ánh một ý nghĩa nào đó của hạt người ta được một cấu trúc ngôn ngữ (linguistic structure) thường dùng trong

tính toán bằng từ (computing with words) Thông qua những cách gán này, quan hệ

giữa các tên hoặc từ trong cấu trúc tri thức hoặc cấu trúc ngôn ngữ có sự tương ứng thể hiện qua tương tác giữa các hạt với nhau

Từ quan điểm trên đây về tạo hạt có thể nhận ra rằng hạt, nói chung, là lân cận của một đối tượng nào đó, là tập con trong không gian các đối tượng đang xem xét Trong

lĩnh vực toán học, hệ các hạt hay hệ các lân cận như vậy có cấu trúc tôpô (topological

structure) Do vậy có thể áp dụng những kết quả nghiên cứu liên quan từ ngành học

tôpô (topology) để phát triển tính toán hạt

Trang 3

1.2 Hệ thống thông tin

Không gian  của hệ thống thông tin IS (information system) là tập hợp tất cả các

đối tượng  của IS Mỗi đối tượng  có thể nhận biết qua một số m đặc tính thể hiện

bởi các trị thuộc tính ai , i = 1, 2, , m, của tập thuộc tính A = { a1, a2, am } Miền trị của mỗi ai , kí hiệu Vai - có thể là một tập hợp liên tục hay rời rạc các giá trị của tập 

các số thực, hoặc cũng có thể là tập các trị mang tính định danh (nominal), như các

định danh của thuộc tính xếp loại: Kém; Yếu; Trung bình; Khá; Giỏi

Mỗi aiA liên kết với ánh xạ ai :   Vai gọi là hàm thông tin của thuộc tính ai với

 Ảnh ngược qua ai của mỗi vVa i, ký hiệu (ai = v), xác định bởi:

Nếu V là hợp của các Va i, V =  i=1,m Va i, IS được đặc tả bởi (, A) Thực tế, các đối tượng của IS được nhận biết qua những thể hiện trong một mẫu S gồm n quan trắc

1, 2, , n Từ đó, IT = (S, A) là thể hiện của IS, được trình bày dưới dạng một

bảng thông tin với tập mẫu các đối tượng quan trắc S và các trị thuộc tính trong A

Nếu có thuộc tính d, dA, phản ánh thông tin có tính quyết định về các đối tượng

trong S, thì d được gọi là thuộc tính quyết định Khi đó DT = (S, A{d}) gọi là một

bảng quyết định (decision table)

(a) Khoảng cách giữa các trị thuộc tính

Đo đạc khoảng cách giữa các trị thuộc tính người ta dùng các khoảng cách trên miền trị Va , aA, xác định bởi hàm không âm da : Va Va  + đáp ứng ba tính chất của một độ đo khoảng cách: phản xạ, đối xứng, và bất đẳng thức tam giác Hàm khoảng cách được xác định tùy trường hợp cụ thể [7], chẳng hạn:

- Khoảng cách chồng nhau (overlay distance) hay là khoảng cách rời rạc (discrete):

Trang 4

(b) Khoảng cách giữa các đối tượng

Cho , S, độ sai khác thuộc tính – cũng thường gọi là khoảng chồng nhau (overlay distance) xác định bởi số các thuộc tính có trị sai khác nhau giữa  và 

Liên quan đến độ đo này là khoảng cách Hamming theo các vectơ thông tin (a,a()) và

(a,a()) của , :

h(,) = |{ aA: (a,a())  (a,a())}| / |A| (1.5)

Ký hiệu |X| là bản số (cardinality) của tập X, hoặc là số phần tử của X khi tập hợp

này là hữu hạn và đếm được

Thông dụng là khoảng cách Euclide  giữa ,  là hàm : SS  +, xác định theo các trị thuộc tính, như sau:

2 i i i

d)

,

Trong đó, nếu thuộc tính ai có trị là số thực thì da i(ai(),ai()) = | ai() – ai()|, nếu ai được định danh da i(ai(),ai()) bằng 1 nếu ai() = ai() và bằng 0 nếu ngược lại Với khoảng cách  cho trước trên  và  > 0 có thể xác định một quan hệ T giữa các đối tượng của :

Quan hệ này có tính phản xạ và đối xứng , gọi là quan hệ dung nạp (tolerance)

(c) Quan hệ bao hàm và độ bao hàm

- Xét một khoảng cách  trên , quan hệ bao hàm thô (rough inclusion) (,,) giữa các đối tượng , với bán kính [0,1], được xác định bởi:

Chẳng hạn với khoảng cách Hamming (1.5), quan hệ bao hàm thô h(,,) theo h

và  cho bởi h(,,)  h(,)  1 – 

Quan hệ bao hàm thô là quan hệ đồng dạng (similarity relation), có tính phản xạ

nhưng không nhất thiết đối xứng hoặc bắc cầu, đây được xem là một “quan hệ với một

bộ phận ở cấp độ tối thiểu ”

Có thể chứng minh các tính chất sau đây:

(i) (,,1) khi và chỉ khi  = ;

(ii) Nếu (,,1) và (,,) thì (,,);

(ii) Nếu <  và (,,) thì (,,)

Trang 5

Từ quan hệ bao hàm thô  trên  và [0,1], với mỗi  có thể xác định một hạt

g(,) bao bọc  là g(,) = {: (,,) } Chẳng hạn, đó là lớp các đối tượng

 gồm cả  sao cho (,)  1 – , với  là một khoảng cách nào đó trên 

- Đối với hai tập con X, Y  S, tỉ lệ các đối tượng của X hiện hữu trong Y ký hiệu

(X, Y), được gọi là độ bao hàm chuẩn (standard inclusion):

1, nếu X = 

Độ đo  không đối xứng: (X,Y)  (Y,X) Nếu X   và (X,Y) = 1 thì có thể xem là YS theo  Hơn nữa, khi (X,Y) = (Y,X) thì X và Y được cho là bằng nhau theo , lúc đó người ta dùng ký hiệu X =Y

Độ bao hàm còn được xác định dựa trên tham số (0, 0.5) và , như sau:

(X, Y) = 0, nếu (X,Y) < ;

((X,Y) – ) / (1–2), nếu   (X,Y) < 1 – ; (1.10)

1, nếu (X,Y)  1 – 

1.3 Rời rạc hóa miền trị thuộc tính

(a) Các phương pháp truyền thống

Phương pháp rời rạc hóa (discretization) miền trị của thuộc tính thực hiện gần

giống như phương pháp phân tổ thống kê đối với các quan trắc thực nghiệm Nếu trị của thuộc tính không là số thực hoặc không có thứ tự, có thể lập tương ứng 1-1 với các

số nguyên để khảo sát, mặc dù phép tương ứng đó là không đồng cấu

Để rời rạc hóa một thuộc tính, aA chẳng hạn, cần xác định những nhát cắt (cuts)

để chia khoảng miền trị Va Thông thường các khoảng chia này là rời nhau từng đôi một và lập nên một phân hoạch của Va Trong một số trường hợp, chẳng hạn với các

hệ thống thông tin dịch bệnh thường gặp trong y khoa [7], các khoảng chia này có thể không rời nhau hoặc không tạo nên một phân hoạch mà là một họ khoảng chia bao phủ lên miền trị của Va

Các phương pháp rời rạc hóa miền trị thuộc tính thường quan tâm đến việc định ra

số lượng khoảng chia và độ rộng từng khoảng chia Do đó, các phương pháp rời rạc hóa thường thuộc một trong các loại:

- Rời rạc hóa đồng độ rộng (equal-width): các khoảng chia đều có cùng độ rộng;

- Rời rạc hóa đồng tần số (equal-frequency): các khoảng chia đều chứa cùng một số

các đối tượng, nghĩa là tần số hay số lần xuất hiện các trị thuộc tính trên mỗi khoảng chia đều như nhau;

Trang 6

- Rời rạc hóa theo chi-bình phương (chi-square): gồm những phương pháp ChiSplit,

ChiMerge, Khiops, Khởi đầu bằng một phép chia khoảng tự nhiên trên miền trị thuộc tính, các phương pháp này dùng những phép trộn khoảng khác nhau và dùng phép kiểm định 2 để xem xét và chọn giải pháp chia khoảng thích hợp, [11]

- Rời rạc hóa theo lập luận Boolean: dựa trên miền trị thuộc tính, ban đầu những

nhát cắt được xác định bởi các điểm giữa của từng cặp trị thuộc tính liên tiếp; sau đó dùng lập luận Boolean để chọn một ít số nhát cắt đủ phân biệt được các đối tượng của

S như ban đầu Những nhát cắt chọn được này là các biên của các khoảng chia

Lập luận Boolean không chỉ đáp ứng bài toán rời rạc hóa mà còn giúp xác định các

hàm thức nguyên tố (prime implicants) từ đó xác định được các tập thuộc tính thu gọn

(reduction of attributes) từ tập thuộc tính A mà vẫn giữ nguyên bản chất của hệ thống Chi tiết về lập luận này được trình bày trong phần Phụ lục Chuyên môn

(b) Rời rạc hóa đồng xác suất

Tương ứng với mỗi đối tượng quan sát  của DT là một bộ (tuple) hay vectơ trị

thuộc tính (v1, v2, , vm ) thể hiện của bộ thuộc tính (a1, a2, , am ) Theo quan điểm xác suất, do những yếu tố không thể lường trước được từ bối cảnh (context) quan trắc nên có thể xem những trị xuất hiện vij , j = 1, ,n , là n trị quan sát từ các biến ngẫu nhiên ai , i = 1, m Do đó, mỗi bảng thông tin DT được xem là một mẫu ngẫu nhiên

cở n: { (v1j, v2j, , vmj ): j = 1, ,n }, là thể hiện của vectơ ngẫu nhiên (a1, a2, , am ), quan trắc được từ hệ thống (,A{d})

Các trị vij của biến ngẫu nhiên ai, nói chung, có phân bố theo một quy luật phân bố xác suất cụ thể nào đó mà người ta có thể kiểm chứng bằng phép kiểm định thống kê

2 với mức xác suất có nghĩa cho trước, dựa trên mẫu quan trắc { vi1, vì2, , vin }, [12] Chương 7, trg 337-395

Rời rạc hóa đồng xác suất (equal-probability) là phương pháp được đề xuất từ

nghiên cứu đề tài này Trong đó, việc chia khoảng các trị của thuộc tính ai dựa trên các phân vị của phân bố xác suất của ai sao cho xác suất xuất hiện các trị của ai trên những khoảng chia đó là như nhau Phương pháp này yêu cầu xác định phân bố xác suất của các biến thuộc tính ai trên tập dữ liệu mẫu thu được

Lợi thế là trị thuộc tính có đồng xác suất xuất hiện trên mọi khoảng chia và các khoảng chia này lập thành một bao phủ trên toàn miền trị của ai Các điểm chia thường theo các mức tứ phân vị, bát phân vị, thập phân vị, từ các phân bố xác suất thường gặp là: nhị thức, chuẩn, gamma,

Một nghiên cứu thực nghiệm của đề tài về vần đề này đã thực hiện với tập dữ liệu thời tiết trong các năm 2003-2013 tại khu vực TP HCM nhận được từ trang web:

http://www.ncdc.noaa.gov/cdo-web/datasets của Tổ chức NOAA-USA Tập biến

o

Trang 7

R: lượng mưa (mm), W: tốc độ gió trung bình (knot), Wd: hướng gió, P: áp suất trên đất liền, Ps: áp suất trên biển (milibar), Cl: mây tầm thấp, Ct: mây che phủ toàn phần Dùng phép kiểm định 2 ở mức 5%, các phân bố xác suất được xác định như sau:

- Biến T có ước lượng giá trị trung bình ˆ= 27.378, độ lệch tiêu chuẩn ˆ= 1.495

Do trị tính toán (qua mẫu) 2obs = 29.39 < 20.95,22 = 33.92 (phân vị 95% của phân bố xác suất 2) [12],nên T được xem là có phân phối chuẩn N(ˆ,ˆ2) Hình 1.1 là đồ thị xác suất chuẩn (đường cong) và biểu đồ phân bố tần suất (hình thanh)

Hình 1.1 Phân bố xác suất chuẩn của nhiệt độ thời tiết T theo OC

- Biến áp suất P có phân phối chuẩn N(ˆ,ˆ 2), ˆ= 1008.249 milibar, ˆ = 1001.997,

ở đây 2obs = 1031.37 < 20.05,26 =1038.89 Hình 1.2 là đồ thị xác suất chuẩn và biểu đồ tần suất của trường hợp này -thang ở trục hoành giảm 1000 milibar để tiện hiển thị

Hình 1.2 Phân bố xác suất chuẩn của áp suất không khí P theo milibar

- Biến H-độ ẩm không khí, cũng có phân phối chuẩn N(ˆ,ˆ2), với ước lượng ˆ= 78.289, và ˆ= 8.628, vì 2obs = 28.52 < 20.95,26 = 32.67 Hình 1.3 mô tả đồ thị xác suất

và tần suất của biến H

- Biến W có phân phối gamma (ˆ ,ˆ) với ˆ = 4.850, ˆ= 0.925; ở đây ˆ= 4.485,

ˆ = 2.036, và 2obs = 21.984 < 20.95,15 = 24.996, [12] Hình 1.4 mô tả đồ thị xác suất và tần suất của biến thuộc tính W

Trang 8

Hình 1.3 Phân bố xác suất chuẩn của độ ẩm không khí H theo %

Hình 1.4 Phân bố xác suất gamma của biến tốc độ gió W theo knot

- Biến R có phân phối gamma (ˆ ,ˆ) với ˆ = 0.277, ˆ=21.113; ˆ= 5.843,

ˆ = 11.107, và 2obs = 20.791 < 20.95,14 = 23.685, biểu diễn trên Hình 1.5

Hình 1.5 Phân bố xác suất gamma của lượng nước mưa theo mm

Trang 9

Tham chiếu các bảng phân bố xác suất chuẩn và gamma [12], các điểm chia khoảng phân vị đồng xác suất 5%, 10%, 20% tính toán trong Bảng 1.1 Các nhát cắt mô tả ở Bảng 1.2 Kết quả thực nghiệm đã công bố trong {3}, chi tiết trong |3|, trg 60*

Bảng 1.1 Các điểm chia theo phân vị đồng xác suất của các thuộc tính thời tiết

T: Nhiệt độ P: Áp suất H: Ẩm độ W:Tốcđộ gió R:Lượng mưa

M c Các điểm chia khoảng theo các phân vị đồng xác suất của phân bố xác suất:

Phân Chuẩn Hình 1.1 Chuẩn Hình 1.2 Chuẩn Hình 1.3 Gamma Hình 1.4 Gamma Hình 1.5

Bảng 1.2 Tập hợp nhát cắt tính theo MD-heuristics+ trong Anodisys* từ các điểm chia

theo phân vị đồng xác suất 5%, 10%, 20% của các thuộc tính thời tiết

Trang 10

1.4 Kết hạt thông tin

(a) Theo Zadeh, kết hạt thông tin có nghĩa là gom nhóm các đối tượng thành các hạt

theo một độ đo nào đó về tính đồng dạng Nói cách khác, đó là việc phân loại những đối tượng của hệ thống thông tin theo các hạt, [4] Những đối tượng trong cùng một hạt đều đồng dạng với nhau, theo nghĩa cùng thỏa mãn yêu cầu độ đo về đồng dạng

Từ đó, tính toán hạt có nghĩa là tính toán trên các hạt thay vì trên tất cả các đối tượng của hệ thống thông tin

Trong kết hạt, việc thiết lập quan hệ bao hàm thô có ý nghĩa quan trọng bởi từ đó tạo được cơ chế kết hạt bằng cách xác định được độ đo về tính đồng dạng Đây cũng là

cơ chế tạo lập các bộ phân loại (classifier) trên các tập dữ liệu đã được kết hạt, hay phân loại dữ liệu theo hạt, [5] Khi phân loại, dữ liệu được phân thành tập huấn luyện

và kiểm tra Chất lượng của phương pháp phân loại được thể hiện qua:

- độ chính xác tuyệt đối (total accuracy) là tỉ số giữa các đối tượng được phân loại

đúng trên tổng số các đối tượng thỏa mãn điều kiện phân loại;

- độ bao phủ tuyệt đối (total coverage) là tỉ số giữa số đối tượng thỏa mãn điều kiện

phân loại trên tổng số các đối tượng được kiểm tra

Xét quan hệ bao hàm  =  ở (1.8) và các hạt g(,) = {: (,,) } với

 với bán kính  Thực nghiệm của Polkowski và cộng sự năm 2009, công bố trong [13], đã chứng tỏ rằng:

- Nếu  < 0.23, cả hai độ chính xác và độ bao phủ tuyệt đối đều rất bé;

- Nếu 0.23 <  < 0.462, độ chính xác tối đa 82.2%, độ bao phủ tăng dần đến 100%;

- Nếu 0.538 <  < 0.692, độ chính xác tuyệt đối tăng dần đến 97.4%;

- Nếu 0.769 < , cả độ chính xác và độ bao phủ tuyệt đối đều đạt đến 100%

Trong các năm 2000-2004, J.G Bazan, Nguyen Hung Son, Nguyen Sinh Hoa và các cộng sự đã tính toán theo các giải thuật phân loại dựa trên tập thô và kiểm tra các

độ đo trên đây với tập dữ liệu UCI (University of California at Irvine) về Credit tại http://www.ics.uci.edu/ mlearn/databases, [14,15] Đến năm 2007-2009, Polkowski và Artiemjew đã thực hiện giải thuật phân loại dựa trên tính toán hạt, kiểm tra các độ đo này với tập dữ liệu UCI đã nêu, [13,16-18] Kết quả trình bày trong Bảng 1.3

Bảng 1.3 So sánh các độ chính xác và độ bao phủ tuyệt đối khi phân loại theo tập thô

và tính toán hạt từ công bố của Nguyen Sinh Hoa, Polkowski, Artiemjew

Phân loại theo các giải thuật tập thô Phân loại theo các giải thuật tính toán hạt Nguồn: Độ chính xác Độ bao phủ Nguồn: Độ chính xác Độ bao phủ

Trang 11

Những vấn đề cơ bản trong tính toán hạt, gồm tạo các hạt cho bài toán và suy đoán lời giải cho bài toán dựa trên các hạt Quan hệ bao hàm trong (1.8) dùng để kết nạp các

 chung quanh  để tạo nên hạt g(,) = {: (,,) }, trong đó quan hệ

(,,) có nghĩa là (,)  1 – 

Phương pháp truyền thống trong kết hạt là kết hạt dùng các quan hệ nhị phân Chẳng hạn, với cách xác định quan hệ R(,)  (,)  1 –  cũng xác định được hạt g(,) = { : R(,) } – nhưng ở đây đã ngầm hiểu  và  Tổng quát, hạt trong không gian mẫu S của hệ thống thông tin là tập con của S, là phần tử của 2S Hạt

được tạo ra bởi hàm kết hạt dưới dạng:

Mỗi S tương ứng với tập g()2S, đó là một hạt hay lân cận của  trong S Số

các đối tượng có trong hạt gọi là cở hạt (granule size) Tập hợp các hạt tạo bởi hàm kết hạt g lập nên không gian hạt (granular space), ký hiệu là G = (S, g)

(b) Các không gian hạt thông dụng

 Không gian hạt quyết định: Xét DT = (S, A{d}) và d1, d2, , dr là r trị của d Quan hệ Ed định bởi (, )Ed  i{1, 2, ,r}, d() = d() = di là một quan hệ tương đương trên S Từ quan hệ này xác định được hàm kết hạt:

gEd :   gEd() = { S | (, )Ed } (1.12) Tập Si = { S | d() = di } là một lớp tương đương hay lớp quyết định thứ i và

GEd = (S,gEd) là không gian hạt quyết định với tập hạt quyết định d ={Sj}j=1, ,r

 Không gian hạt tương đương: Xét một IT, BA và aiB, cho Ea i SS là quan hệ tương đương trên S định bởi (,)Ea i  ai() = ai() Lớp tương đương của S: []Ea i = { S | (,)Ea i } cũng là một lân cận của  theo Ea i

Hàm kết hạt trên S xác định bởi những quan hệ không phân biệt được theo các aiB viết dưới dạng EB = a iB E a i , cho bởi:

gEB :   gEB() = { S | (,)EB } = a iB [] Ea i (1.13)

GEB = (S,gEB) là không gian hạt tương đương với tập hạt tương đương EB = S/EB

 Không gian hạt dung nạp: Cho Ta i là một quan hệ dung nạp (tolerance relation)

theo ai A trên S Ta i chỉ có tính phản xạ và đối xứng Một lớp dung nạp của S

gồm các đối tượng dung nạp được theo Ta i , N Ta i() = { S | (,)Ta i }, là lân cận của  Từ đây có thể xác định hàm kết hạt trên S theo những thuộc tính aiB  A bởi quan hệ dung nạp TB = a iBT a i :

gTB :   gT B() = { S | (, )TB } = a iBN Ta i() (1.14)

GTB = (S,gTB) gọi là không gian hạt dung nạp

Trang 12

 Xét tập hợp S các từ khóa (keywords) trong không gian D các bài báo khoa học

Hàm h: xDh(x)2S ánh xạ mỗi bài báo x vào một tập từ khóa Tần số K(1,2) đồng xuất hiện cặp từ khóa 1,2S trong D là |{ dD | {1,2}h(d) }| Lúc đó:

gK:   gK() = { S | K(, )   }  {} (1.15)

là hàm kết hạt với ngưỡng  = 0,1, GK = (S, gK ) là một không gian hạt

Khi phân hạt trên S, người ta có thể sử dụng những hàm kết hạt g khác nhau, như

gEd , gEB , gTB , gK, Nếu đã định rõ các cơ chế phân hạt Ed, EB , TB , K , ta có thể ngầm hiểu và dùng g*, G* = (S, g*) để chỉ định hàm kết hạt và không gian hạt

(c) Khoảng cách trên không gian hạt

Cho IT và không gian hạt G = (S, g), khoảng cách hạt (granular distance) giữa hạt

g1 và g2 được xác định theo khoảng cách các đối tượng  như sau:

2 1 2

gg

1)

g

,

g

Xét  > 0, độ cách ly ở mức  giữa một hạt gG cho trước so với các hạt khác trong

tập hạt gọi là hệ số ngoại vi hạt (granular outlier factor), ký hiệu (g), xác định bởi:

})g,g(Gg{G

1)

là đối tượng ngoại lai (outlier) Trong [9] các tác giả đã thực nghiệm phương pháp loại

đối tượng ngoại lai trên các tập dữ liệu của UCI khi chẩn đoán bệnh bạch huyết, bệnh ung thư, v.v Qua đó, bài báo khẳng định hiệu quả tốt của phương pháp này so với gom cụm kNN Phương pháp loại đối tượng ngoại lai ở đây tương tự như cách loại bỏ quan trắc lạ trong thống kê thực nghiệm

1.5 Các xấp xỉ theo phân hạt

Ứng với IT = (S, A) xét các tập con X  S, B  A Mỗi X tương ứng một vectơ thuộc tính các trị của B Những vectơ thông tin này là biểu hiện về tri thức có trong X,

nhưng đó chỉ là gần đúng hoặc xấp xỉ, do tri thức này chỉ nhận được thông qua mẫu

đối tượng trong S với những thuộc tính có trong B

(a) Xấp xỉ dưới và xấp xỉ trên

Tri thức có trong X cần được định rõ qua tập hạt: phần nào có khả năng xuất hiện trong X, phần nào chắc chắn là thể hiện tri thức riêng có trong X Hai phần này, là các

xấp xỉ dưới và xấp xỉ trên của tri thức hàm chứa trong X

Trang 13

Xét không gian hạt GRB = (S, gRB) định bởi quan hệ nhị phân R và tập con B của A,

xấp xỉ dưới (lower approximation) LRB(X) và xấp xỉ trên (upper approximation)

URB(X) của X theo GRB, định bởi:

LRB(X) = { S | *( gRB(), X ) = 1 } (1.18)

URB(X) = { S | *( gRB(), X ) > 1 } (1.19) Trong đó * là độ bao hàm xác định tại (1.9) hoặc (1.10) Ta có LRB(X)  URB(X) và

FRB(X) = URB(X) – LRB(X) gọi là biên của X Nếu biên của X là rỗng thì đó là tập cứng (crisp) hiểu theo quan niệm tập hợp cổ điển, ngược lại X là tập thô (rough) Biên khác

rỗng cho thấy chưa đủ tri thức trong việc xác định tập này một cách chính xác

LRB(X) được dùng để xấp xỉ tri thức chắc chắn có trong X Vì vậy, khi URB(X)  

chất lượng xấp xỉ X theo GRB là tỉ số:

Trên hệ quyết định DT xét không gian hạt GE d, miền dương (positive region) của

tập hạt quyết định Ed = {Sj}j=1,r ứng với phân hạt GRB trên S là tập:

Trang 14

Cho S là dãy các tập con A1, A2, ,As tinh dần của A: A1 » A2 » » As và X  S, xét dãy các tập X1 = X, X2 = X – LA 1(X1), X3 = X – (LA 1(X1)  LA 2(X2)), Tổng quát,

Xi = X – k=1,i-1 LA k(Xk), k = 2, ,s Theo định nghĩa, xấp xỉ s-dưới và xấp xỉ s-trên của X xác định bởi:

phân hạt động (dynamic granulation) theo dãy những tập thuộc tính tinh dần, [8]

Phương pháp này được đề tài phát triển trong một ứng dụng về sinh luật quyết định, trình bày trong Chương 2

(c) Cải thiện chất lượng xấp xỉ

Chất lượng xấp xỉ S và tập con X của S được xác định bởi phương pháp kết hạt của không gian hạt G* = (S, g*) Với tập S, yêu cầu tăng *(Ed) dẫn đến tăng | P*(Ed) | Điều này đáp ứng được nếu kết hạt mịn - nghĩa là với cở hạt bé Như vậy, không gian

hạt quá trùng khớp (over-fitting) với tập mẫu S Hơn nữa, các hạt trong phân hạt

không nhất thiết rời nhau như trong phân hoạch nên phải hạn chế sự tương giao giữa các hạt khi phân hạt thì càng dễ phân tách tri thức theo cấu trúc hạt Đây là yếu tố để tăng chất lượng xấp xỉ Ngoài ra, cách đánh giá theo lân cận đủ nhỏ cần thay cho dùng đẳng thức (1.13) Với mỗi aA có thể kết hạt lân cận tương tự như (1.8):

ga, a :   ga,  a() = { S | da( a(), a() )  a } (1.30) Trong đó, da là khoảng cách trị thuộc tính (1.2)-(1.4), a  0 là ngưỡng không vượt

Trang 15

Hàm kết hạt theo A và  = {a}aA, cho bởi:

gA:   gA() = aA ga, a() (1.31) Chất lượng xấp xỉ theo GA = (S, gA) ở (1.22) được ký hiệu ở đây là A(Ed)

Từ các phân hạt GA và GEd xác định được các tập hợp PE d = { (,) | gEd() }

và QA  = { (,) | gA() } Độ bao hàm giữa các tập này được xác định bằng cách mở rộng (1.9) qua sử dụng phép chiếu 1 lên thành phần thứ nhất của những cặp đối tượng trong PE d và QA  :

S(PEd,QA) = | 1(PEdQA) | / | 1(PEd) | nếu 1(PEd)  ;

Sự kết nối giữa ,  thể hiện qua tính chất của PE d và QA  Kết nối đó là tốt nếu (,)PE d QA  Do đó để tăng chất lượng xấp xỉ, từ (1.32), cần tăng các kết nối này Theo [7], số tối đa các kết nối đó có thể đạt đến ½aA(|Va|2 –|Va|)+1

Phương pháp học máy có thể dùng vào việc phân hạt GA - tức là học phân hạt

(granulation learning) Để đảm bảo kết quả, tỉ lệ đối tượng giữa học và kiểm tra thường là 2:1 Bảng quyết định DT được phân ra 3 bảng con rời nhau DTi, i = 1,2,3 Mỗi DTi được dùng một lần để kiểm tra kết quả học từ hai bảng còn lại Tỉ lệ phù hợp

qua kiểm tra chéo, ký hiệu *(GA), cũng là yếu tố tăng chất lượng xấp xỉ

Từ phân tích trên, để tăng chất lượng xấp xỉ cần xác định các tỉ lệ tăng cân đối giữa

ba yêu cầu đã nêu, thể hiện qua các tỉ lệ 1, 2, 3  0, 1 + 2 + 3 = 1 trong việc làm cực đại hàm mục tiêu  sau đây theo các phân hạt GEd ,GA :

(GEd ,GA) = 1 A(Ed) + 2 S(PEd,QA) + 3 *(GA)  max (1.33) Phần đầu của hàm mục tiêu (1.33) phản ánh sự gia giảm của miền dương ứng với phân hạt quyết định Phần thứ hai biểu thị sự gia tăng số các kết nối Cấu tạo của hàm mục tiêu là để sao cho có sự cân bằng giữa QA và PEd Điều này còn phụ thuộc việc xác định các i của người dùng theo từng bài toán và qua thực nghiệm học

Trong |4| đã tiến hành học theo di truyền cho (1.32) với tập dữ liệu bệnh tiểu đường trên tập dữ liệu 107 đối tượng từ [7], gồm 12 thuộc tính Thuộc tính thứ 2,3,8 là số trị,

9 thuộc tính khác là định danh nên không cần tham số hóa

Tham số điều khiển là 2, 3, 8 ứng với 3 thuộc tính số trị Thuật toán hội tụ sau

10, 15 bước lặp với tối đa 30 thế hệ và 1 [0.1,0.2] , 2 = 1-1 (GEd ,GA) đạt max với các giá trị ổn định 2 = 0.063, 3 = 0.091, 8 [0.001,0.0011], A(Ed) = 1 và

S(PEd,QA) = 0.041 Thực nghiệm số này cũng chỉ ra: với hàm mục tiêu (GEd ,GA) giải thuật hội tụ chỉ với những thay đổi nhỏ về trị của 2, 3 mà không phụ thuộc 8 Kết quả thử nghiệm đã được trình bày cụ thể trong |4| trg 60*

Trang 16

1.6 Thu gọn tập thuộc tính và đối tượng

(a) Thu gọn tập thuộc tính

Bài toán tìm các tập thuộc tính thu gọn là bài toán tìm kiếm trong không gian các tập con của tập A Số các tập thu gọn được tính và biểu diễn qua các biểu thức chứa giai thừa nên thuộc lớp các bài toán có độ phức tạp NP-khó

Từ những nghiên cứu của S.H Nguyen và H.S Nguyen (1996) khi chuyển bài toán: tìm các tập thuộc tính thu gọn sang bài toán tương đương: tìm các hàm thức nguyên tố theo lập luận Boolean - Phụ lục Chuyên môn, đến các công bố của Richard Jensen và cộng sự về việc tìm các tập thuộc tính thu gọn theo giải thuật EBR (Entropy-Based Reduction), ACO (Ant Colony Optimization) (2003), [19] đã một thời mang lại nhiều ứng dụng Đến 2011, giải pháp do J Qian và cộng sự đề xuất là một cải tiến được lưu ý nhất [10] Tuy nhiên, dẫu sao lời giải từ các phương pháp này vẫn phụ thuộc vào tập thuộc tính chọn lúc xuất phát để tìm lời giải và không chỉ ra tất cả các tập thu gọn có thể đối với bài toán Phát triển hướng lập luận Boolean với tính toán hạt

là phương thức được nhiều nghiên cứu quan tâm

Cho DT = (S, A{d}) và không gian hạt G*A = (S, g*A), B  A với các miền dương

P*A(Ed), P*B(Ed) lúc đó:

- B là tập các thuộc tính thu gọn của A trên S nếu chỉ nếu với mọi S, ta có:

g*A() = g*B() và điều này không thỏa mãn với mọi BB

- B là tập thuộc tính thu gọn tương đối của A nếu và chỉ nếu: P*B(Ed) = P*A(Ed) và điều này không thỏa mãn với mọi BB

 Trên IT = (S,A), ma trận khả phân biệt là ma trận cấp n = |S| gồm các phần tử:

c, = { aA | g*A() } với , S (1.34) + Nếu hàm Boolean được xác định trên A, với mỗi S:

* ' , c a S '

* m

i , ,a

a } là tập thuộc tính thu gọn của A ứng với S khi và chỉ khi biểu

thức a*i1 a*iklà một hàm thức nguyên tố của fA

+ Tương tự, nếu hàm Boolean được xác định trên A và S:

* ' , c a S ' ,

* m

* 1 A S

* m

Trang 17

Bảng 1.4 Thông tin đặc tính về mẫu lá cờ của 9 tiểu bang ở Hoa kỳ

Tập thuộc tính điều kiện A:

a1: số ngôi sao; a2: số sắc màu;

a3: số con số; a4: số các chữ;

Thuộc tính d: thời Nội chiến tại Hoa kỳ, gồm:

C: liên minh chiến đấu;

U: hợp nhất lại trong chiến đấu

Như vậy, hàm kết hạt trên A là g*A() = aA g*a() Ma trận khả phân biệt (1.34)

là ma trận vuông, đối xứng cấp 9 sau đây:

Trang 18

Theo (1.35), chẳng hạn với 3 ta có fA3(a1*, ,a*4)(a*2a*3)a*4 a1* ứng với hai hàm thức nguyên và các tập thuộc tính thu gọn { a1, a2, a4 }, { a1, a3, a4 }

Tương tự, các tập thuộc tính thu gọn ứng với các đối tượng khác của S gồm:

1: { a1,a2 }, 2: { a1, a2, a3 }, 4:{ a1, a2, a4 }, { a1, a3, a4 },

5: { a1,a3 }, 6: { a3 }, 7: { a3, a4 }, 8: { a1 }, 9: { a1,a2 }

Theo (1.36), tuyển fA của các hàm Boolean fAi chứng tỏ tập A không thể thu gọn

+ Trên DT = (S, A{d}), hàm Boolean ứng với đối tượng  xác định bởi:

* ' , c a ) ( d ) ' ( d , S '

* m

* 1 },

a   là một hàm thức nguyên tố của hàm Boolean fA{d},

+ Nếu hàm Boolean của bảng quyết định (S, A{d}) được định nghĩa như sau:

* ' , c a ) ( d ) ' ( d , S ' ,

* m

* 1 }, d { A S

* m

a   là hàm thức nguyên tố của hàm Boolean fA{d}

Từ Bảng 1.4, ma trận khả phân biệt tương đối cho DT có dạng thành lập tương tự,

đối xứng cấp 9 như trên, nhưng hai ma trận vuông cấp 5 ở góc trên trái và cấp 4 góc dưới phải đều gồm các  Từ đó, các tập thu gọn thuộc tính tương đối ứng với những đối tượng của bảng DT là 1: { a1,a2 }, 2: { a1,a3 }, 3,4: { a1,a2,a4 },{ a1,a3,a4 },

5: { a1,a3 }, 6:{ a3 }, 7:{ a4 }, 8:{ a1 }, 9:{ a2 }

(b) Thu gọn tập đối tượng

Theo cách phân hạt tương đương, người ta có thể thu gọn S bằng cách chọn ở mỗi lớp tương đương một phần tử đại diện Trường hợp tổng quát, cần phải dựa trên lập luận Boolean và các phép phân hạt

Xét bảng thông tin (S, A), tập SS là tập tối tiểu các đại diện cho S nếu chỉ nếu:

S, S: g*A() và điều này không xảy ra với các tập con thực sự Scủa S

 Trên IT = (S, A), xác định hàm Boolean:

* i ) j ( A

* i S j

* m

i , ,

 là tập tối tiểu các đại diện cho S trên IT,

ii a*  a* là hàm thức nguyên tố của hàm Boolean f

Trang 19

Trường hợp DT = (S, A{d}), tập SS là tối tiểu tương đối các đại diện cho S

nếu chỉ nếu: S, S: g*A(), d() = d() và điều này không xảy ra với các tập con thực sự S của S

 Đặt ST(i) = { iS | jg*A(i), d(i) = d(j) }, hàm Boolean xác định bởi:

* i ) i ( ST j S i

* m

i , ,

 là tập tối tiểu tương đối các đại diện cho S trên DT,

k i

*

1

a   là hàm thức nguyên tố của hàm Boolean f(S,A{d})

Trở lại thí dụ ở Bảng 1.4, xét một phân hạt gồm các lân cận của S:

Lập luận Boolean đã trình bày trong mục này cùng với MD-heuristic trình bày trong Phụ lục chuyên môn đã được lập trình trong một môđun của phần mềm Anodisys để tiền xử lý dữ liệu từ các bảng thông tin quyết định – thể hiện trên các Hình 3.19, 3.20

và 3.21 thuộc mục 3, chương 3 của bản Báo cáo này

Trang 20

Chương 2

KHÁM PHÁ TRI THỨC VÀ TÍNH TOÁN HẠT

2.1 Các khái niệm và định nghĩa

(a) Quan điểm về tri thức đã hình thành rất sớm, ít nhất là vào thời cổ đại Hy lạp

với Socrates, 369 năm trước công nguyên Theo Bender và Fish (2000), tri thức có từ

sự hiểu biết của từng cá nhân và phát triển thành thông tin thông qua sự biến đổi, làm giàu có hơn bằng những trải nghiệm của người đời, bằng niềm tin và giá trị liên quan đến hành động, quyết định của con người

Nickols (2010) cho rằng tri thức hàm chứa ba vấn đề Trước hết, tri thức liên quan đến sự hiểu biết, nhờ đó người ta tiếp nhận, thừa nhận, hay quen với các sự việc, phương pháp, nguyên tắc, kỹ thuật, tức liên quan đến cái gọi là "know about" Thứ đến, tri thức liên quan đến khả năng hành động, nắm được các sự việc, phương pháp, nguyên tắc, kỹ thuật, đủ để làm cho một sự vật hay hiện tượng nào đó xảy ra; tức liên quan đến "know how" Sau cùng, tri thức liên quan đến các sự việc, phương pháp, nguyên tắc, kỹ thuật, đã được hệ thống hóa, sở hữu và tích lũy; do đó liên quan đến lĩnh vực tri thức đã được chiết lọc, tổng hợp và thể hiện qua sách, báo, công trình, công thức, hướng dẫn thủ tục, bao gồm các dạng mã chương trình trên máy tính

Từng thành viên trong một xã hội tri thức đều quan tâm đến những nhiệm vụ cụ thể

trong một chu trình tri thức, chung nhất có thể là: tạo ra quyết định, tìm kiếm, chọn lọc

và tích hợp tri thức Khi tiến hành những nhiệm vụ đó, người ta đều phải đối diện với

tính không nhất quán của tri thức Do vậy, giải quyết vấn đề không nhất quán của tri

thức là một trong những bài toán cơ bản nhất khi tiến hành quản trị tri thức

Mặt khác, trong các bảng thông tin quyết định đã phân hạt cũng thường xảy ra trường hợp các đối tượng trong cùng một hạt hay trong một lớp tương đương nhưng lại

có những trị thuộc tính quyết định khác nhau Điều này dẫn đến các luật quyết định

không nhất quán Trong tình huống đó, nếu chưa minh giải được lý do thì trước tiên

hãy xem xét những luật quyết định nhất quán để tránh biểu hiện xung đột (conflict)

Trong từng cơ sở tri thức, tính không nhất quán thể hiện ở mức tập trung - ở đây có

Trang 21

hạn định về các quan hệ giữa các sự kiện hiện thực, Trong cơ sở tri thức phân tán, tính không nhất quán thường là do môi trường phân tán của tri thức Những thể hiện

không nhất quán ở đây được giải quyết bằng phương pháp đồng thuận (consensus)

Quá trình tìm kiếm, phát hiện tri thức tiềm ẩn trong hệ thống thông tin là quá trình khai thác dữ liệu Trong đó, tri thức tìm kiếm mang tính khái quát để diễn giải dữ liệu, mang tính quy luật để dự đoán khuynh hướng của các đối tượng dữ liệu – đặc biệt là

hỗ trợ ra quyết định dựa trên thông tin và tri thức nhận được

Từ đó, khám phá tri thức cơ bản diễn ra ở hai lĩnh vực: hình thành khái niệm dựa trên tập dữ liệu thu được; phát hiện các quy luật từ dữ liệu thu được để phục vụ các mục tiêu dự đoán, ra quyết định Thực hiện nhiệm vụ của đề tài, nội dung của chương này tập trung vào việc sinh luật quyết định và xấp xỉ khái niệm

(b) Xét bảng quyết định DT = (,A{d}) Luật quyết định trên DT có dạng:

if  then  hay   

Trong đó,  và  là các biểu thức lôgíc theo thứ tự được gọi là phần điều kiện và

phần quyết định của luật Phần điều kiện là tuyển của những bộ chọn (selector) hoặc

bộ mô tả (descriptor) Các bộ mô tả này bao gồm tuyển của các biểu thức nguyên tử

(atomic) dưới dạng (ai = v) xác định ở (1.1), hay vắn tắt là (ai,v) với aiA và vVai Biểu thức  = (ai,v) đúng khi có S sao cho ai() = v

Tổng quát, với hàm kết hạt g* trên S, lúc đó bộ mô tả cũng được thiết lập dưới dạng

 = aig*ai(), S Nếu có S để ai()g*ai() thì biểu thức aig*ai() đúng

Luật quyết định được đánh giá theo các tiêu chí về khả năng dự đoán hay thực thi (prediction, performance) và khả năng mô tả hay giải thích (description, explanatory)

Khả năng dự đoán chứng tỏ hiệu quả khi dùng luật để phân loại các đối tượng tốt đến chừng nào Khả năng mô tả chỉ ra mức độ có thể làm sáng tỏ luật đến đâu để có thể thấy được việc phân loại hay việc ra quyết định được thực hiện như thế nào Nếu tập luật được dùng trong môi trường tự vận hành thì người ta quan tâm nhiều đến tiêu chí thứ nhất Nhưng nếu luật sinh ra là để khám phá tri thức thì tiêu chí thứ hai có tầm quan trọng cao hơn

Liên quan đến ,  và   , những độ đo về đặc tính của luật đã được xác định theo ý nghĩa của ,  Ký hiệu [], [] theo thứ tự là [] = { S | () = true } và []= { S | () = true }, là các tập con của S Các độ đo thường dùng, như sau:

Trang 22

- Độ hỗ trợ (support): Supp(,) = | [][] |

- Độ chắc chắn (certainty): Cert(,) = Supp(,) / | [] |

- Độ bao phủ (coverage): Cove(,) = Supp(,) / | [] |

Trong sử dụng, độ chắc chắn có khi được gọi là độ chính xác (accuracy) Các tổ hợp lồi của Cert và Cove gọi là chất lượng (quality) của luật Ngoài ra, một độ đo thường dùng khác đó là độ bao quát (generality) của luật , theo định nghĩa, đó là tỉ lệ các

đối tượng của S thỏa điều kiện  của luật

(c) Khái niệm là thành phần cấu tạo tư duy, là yếu tố cơ bản để hình thành tri thức

Vì vậy, có những tranh cải do tiếp cận khác nhau về nhận thức, ngôn ngữ, thậm chí còn do những quan điểm triết học không có cùng chung nguồn gốc Nếu xem hệ thống thông tin với các đối tượng trong mẫu S là thể hiện về tri thức trên lĩnh vực tương ứng với hệ thống đó, thì mỗi tập con X khác  của S là một biểu hiện về khái niệm, về

tri thức từ S hàm chứa trong X Như vậy, khái niệm X gọi là xác định được nếu và chỉ

nếu nó được xác định một cách chắc chắn tức là với S thì phải chắc là X hay

X Ngược lại, khái niệm trong X gọi là không xác định được

Theo quan điểm tập thô, bài toán khái niệm của X được xác định theo xấp xỉ dưới

và xấp xỉ trên của X theo phân hạt tương đương, [20] Xấp xỉ dưới là tập con lớn nhất chứa các khái niệm có trong X, xấp xỉ trên là tập mẹ bé nhất của các khái niệm chứa trong X Các phương pháp phân hạt trong mục 4 Chương 1 và những phát triển cận đại khác đã mở rộng phương pháp xác định khái niệm phù hợp cho từng bài toán

2.2 Luật quyết định với sự có nghĩa của các thuộc tính

Phát triển ý tưởng phân hạt động trình bày tại mục 1.4 (b), cùng với phương pháp sinh luật quyết định do Liang và cộng sự đề xuất trong [8], ý tưởng tìm tập thuộc tính thu gọn bằng giải thuật ACO (Ant Colony Optimization) của R Jensen trong [19], dựa trên ý nghĩa của các độ đo đã nêu tại (1.22) (1.23), đề tài đề xuất thực hiện giải thuật CD-Rules sau đây để tìm luật quyết định nhất quán (consistent decision rules)

ALGORITHM CD-Rules

Trang 23

// Input: DT = (S, A{d}) A consistent decision table

{ S* = S* - T; aA-Pi, Find d,Pi(a*) = Max{ d,Pi(a)| aA-Pi };

Pi+1 = Pi{a*}; P = P{ Pi+1 }; i = i+1; goto 4; } else Return Rules;

End

Ý tưởng của giải thuật như sau: xuất phát từ tập thuộc tính quan trọng ban đầu - gồm các thuộc tính điều kiện có ý nghĩa cao, có độ phụ thuộc lớn đối với thuộc tính quyết định (Ain), để bổ sung dần các thuộc tính quan trọng khác tương ứng với phần các đối tượng còn lại, Thuật giải kết thúc khi đã vét cạn tập đối tượng của hệ thống

Giải thuật CD-Rules có độ phức tạp đa thức Thật vậy, độ phức tạp trong việc tìm

Ed và Ain là o(|S|2), o(|A||S|2) Khi tính các d,Pi(a) và tìm Max của chúng, độ phức tạp lần lượt là o(|A-Pi||A||S|2 và o(|A-Pi|) Những phần tính toán khác trong giải thuật đều có độ phức tạp tương đương hoặc nhỏ hơn Do đó độ phức tạp cuối cùng của giải thuật là o(|A|3|S|2) hay o(m3n2)

Minh họa CD-Rules, xét DT ở Bảng 2.1, A = { a1,a2, ,a5 } và S = { 1,2, ,12 } Phân hạt quyết định và phân hạt tương đương trên A của S là:

Ed = { {1,2,3,4,5,11},{6,7,8,9,10,12 } },

EA = S*/EP1 = {{1},{2},{3,11},{4},{5},{6},{7,12},{8},{9},{10}}

Bảng 2.1 Bảng quyết định DT = (S, A{d})

Trang 24

S a1

a2

a3

a4

a5

Bước 1: Theo (1.23), mức có nghĩa của các thuộc tính, gồm: d,A(a1) = d,A(a2) =

d,A(a3) =d,A(a4) =d,A(a5) = 0 Do đó, Ain =  Do đó, theo (1.22) độ phụ thuộc của thuộc tính quyết định d đối với các thuộc tính của A tính được, như sau:

R{a1}(Ed) = 1/12, R{a2}(Ed) = 0, R{a3}(Ed) = R{a4}(Ed) = 4/12, R{a5}(Ed) = 0 Như vậy, chọn P1 = {a4}, P= {P1} Đặt S*=S, X=, Rules= Lúc đó:

Trang 25

S*/EP1 = { {1, 2, 3, 4, 5, 6, 8, 11}, {7, 9, 10, 12} }

Y = { {7, 9, 10, 12} }, X = XY Từ đây, nhận được:

Rules = { R1: des{a4}({7, 9, 10, 12})des{d}({d6,d7,d8,d9,d10,d12}) }

Tại bước này, nhận được luật, R1: (a4 = 1)  (d = 0)

Do T  S, nên S* = S*– T = { 1, 2, 3, 5, 8, 11 } Theo (1.23):

d,{a4,a1}(a1) = E{a4,a1}(Ed) - E{a1}(Ed) = 7/12,

d,{a4,a2}(a2) = 7/12, d,{a4,a3}(a3) = 9/12, d,{a4,a5}(a5) = 5/12

Giá trị lớn nhất đạt ở a3, nên P2 = { a1, a5 } và P = { P1, P2 }

Bước 2: S*/EP2 = { {1, 2, 4, 5}, {3, 11}, {6, 8} }

Y = { {1, 2, 4, 5}, {3, 11}, {6, 8}, {7, 9, 10, 12 } }, X = XY

Rules = { R1: des{a4}({7, 9, 10, 12})des{d}({d6,d7,d8,d9,d10,d12}),

R2: des{a4,a3}({1, 2, 4, 5})des{d}({d1,d2,d3,d4,d5,d11}),

R3: des{a4,a3}({3, 11})  des{d}({d6,d7,d8,d9,d10,d12}),

R4: des{a4,a3}({6, 8})  des{d}({d1,d2,d3,d4,d5,d11}),

R5: des{a4,a3}({7, 9, 10, 12 })  des{d}({d6,d7,d8,d9,d10,d12}) }

Như vậy có thêm các luật:

Trang 26

giải thuật CD-Rules

Hình 2.1 Cây quyết định

Để kiểm chứng, phần mềm

See5/C5.0 (sẽ trình bày trong

Chương 3) đã chạy trên cùng

tập dữ liệu huấn luyện như ở

Bảng 2.1 cùng với 5 đối tượng

kiểm tra Kết quả trên Hình

2.2 chứng tỏ CD-Rules khá

trùng hợp với See5/C5.0

Hình 2.2 Kết quả thực hiện qua See5/C5.0

Cùng với sự phù hợp về sinh luật, đánh giá về tầm quan trọng của các thuộc tính a3

và a4 cũng thống nhất giữa giữa giải thuật CD-Rules và See5/C5.0 Thep quan điểm entropy {1}, R Quinlan - tác giả thiết kế ID3, C4.5 và See5/C5.0 đã đánh giá mức độ quan trọng của các thuộc tính điều kiện đối với thuộc tính quyết định theo entropy thông tin, [14] trg 20-24 Trong Bảng 2.1, lượng thông tin trung bình khi phân loại

một đối tượng của DT là info(DT) = 1 Dùng thuộc tính a4 để phân loại, kết quả cho:

info{a4}(DT) = 0.54082, split-info(a4) = 0.918296, gain-ratio(a4) = 0.5 Tương tự,

info{a3}(DT) = 0.54082 và split-info(a3) = 1.887919, gain-ratio(a3) = 0.248752

2.3 Luật quyết định theo phân hạt quyết định

Trong phân hạt quyết định, bảng thông tin được phân hoạch thành tập những hạt tương đương Nếu sinh luật từ các hạt này, theo (1.34), dẫn đến giảm được quy mô của

bài toán và giảm số các điều kiện trong luật Theo hướng đó, ma trận quyết định

(decision matrix) được dùng thay ma trận khả phân biệt, [6]

Gọi vd là trị của thuộc tính quyết định, đặt X = [d= vd] là một phân hoạch thuộc d, gọi X = S – X là phần bù của X trongs S Sử dụng chỉ số i, j lần lượt là thứ tự của các

Trang 27

đối tượng thuộc X, X Ma trận quyết định M = (mij), lúc đó, gồm những cặp (attribute,value) xác định như sau:

mij = { (a, a(i)) / a(i)  a(j), aA } (2.1)

Trong đó, a(i) là trị của i với thuộc tính aA, hàm quyết định là biểu thức

Boolean xác định từ các dòng trên M với các biến lôgic m*ij tương ứng mij :

Bi = j ( m*ij ) (2.2)

Từ đó, các luật quyết định được suy dẫn bằng cách biến đổi dạng tuyển của (2.1) thành dạng hội của các hàm thức nguyên tố để nhận được các luật tương ứng

Minh họa giải thuật sinh luật theo phân hạt quyết định [6], xét dữ liệu Bảng 2.2:

Bảng 2.2 Bảng quyết định năng lực nhân sự, [6]: DT = (S, A{d})

1

2

3

4

5

6

7

Trang 28

Tập thuộc tính điều kiện A, gồm: G: xếp loại tốt nghiệp (m: trung bình, g: khá, e: giỏi); E: khả năng tiếng Anh (m: trung bình, g: khá); P: có kinh qua thực tế (y: đã qua, n: chưa qua); C: kỷ năng giao tiếp (m:trung bình, g: khá); d: có hay không đáp ứng công việc được giao (m: có, n:không) Ma trận quyết định với [d=m] như sau:

Đây là ma trận 53, từ (2.2), hàm quyết định Bi , i = 1, 5, nhận được như sau:

B1 = ((E,g)(P,y)(C,g))((G,m)(P,y)(C,g))((P,y)(C,g)) = (P,y)  (C,g)

B2 =((G,e)(C,g))((E,m)(G,e)(C,g))((E,m)(G,e)(C,g)) = (G,e)  (C,g)

B3 =((E,g)(G,e))  (G,e)  (G,e) = (G,e)

Trang 29

B4

=((E,g)(G,e)(P,y)(C,g))((G,e)(P,y)(C,g))((G,e)(P,y)(C,g))=(G,e)(P,y)(C,g)

B5 =((P,y)(C,g))  ((E,m)(G,m)(P,y)(C,g))  ((E,m)(P,y)(C,g)) = (P,y)  (C,g)

Như vậy trích được các hàm thức nguyên tố (P,y), (C,g), (G,e) từ các Bi tương ứng với [d = m] và nhận được các luật quyết dạng tối tiểu:

2.4 Phân tích luật quyết định theo FCA

(a) Độ quan trọng của các bộ mô tả luật

Số lượng luật quyết định sinh ra thường là lớn Các luật này chỉ dẫn ra quyết định

trong những điều kiện cụ thể của các bộ mô tả, mà không chỉ ra mối quan hệ giữa các

bộ chọn và tầm quan trọng của các bộ chọn trong việc suy dẫn quyết định Do vậy,

cần phân tích tầm quan trọng của các bộ mô tả luật

FCA hay phân tích khái niệm hình thức (Formal Concept Analysis) là một công cụ

phân tích dữ liệu, có nhiều ứng dụng trong thực tế Mục đích chính yếu của FCA là để

trực quan hóa dữ liệu dưới dạng dàn khái niệm (concept lattice), cung cấp điều kiện để

bình giải các vấn đề liên quan Do đó, FCA cho phép thu nhận thêm tri thức dựa trên những kết quả bình giải của các chuyên gia

Cho tập mẫu các đối tượng O, tập các đặc tính F và lập nên bộ ba FC = (O, F, R)

gọi là bối cảnh hình thức (formal context) của DT – trong đó R là quan hệ nhị phân để

chỉ định có hay không một đối tượng trong O có đặc tính trong F

Với E  O, I  F, xác định hai toán tử dẫn xuất (derivation operator): tầm (extent)

và đích (intent) được xác định như sau:

Trang 30

E = { f  F | O, Rf } (2.2)

I  = { O | f  F, Rf } (2.4)

Cho E  O, I  F, khái niệm hình thức (formal concept) là cặp (E, I) cùng thỏa mãn

điều kiện E = I và I = E Bối cảnh hình thức và các khái niệm hình thức tạo nên một

cấu trúc dàn (lattice structure) mô tả quan hệ giữa các khái niệm trên (superconcept)

ký hiệu SupC, và khái niệm dưới (subconcept) ký hiệu SubC Dựa trên bảng giao nhau

(cross table) biểu thị bối cảnh hình thức giữa các đối tượng của O và đặc tính trong F

có thể dẫn ra các khái niệm và những mối liên kết tương ứng trên biểu đồ dàn

Một bao hàm thức (implication) dạng E  I xảy ra trong một bối cảnh nào đó của

FC khi mọi đối tượng có những đặc tính trong E thì cũng có những đặc tính đó trong I Trong FC, điều kiện cần và đủ để E  I là I  E Thống kê trên tập bao hàm thức chỉ ra các tần số quan hệ giữa các khái niệm trên và khái niệm dưới của các bộ mô tả trong các luật quyết định, từ đó xác định được tầm quan trọng của từng khái niệm

Để áp dụng FCA trong phân tích luật, trên DT = (S, A{d}) đặt:

- O là tập hợp các luật quyết định liên quan đến một phát biểu về d;

- F là tập những bộ mô tả tham gia trong các luật quyết định - chẳng hạn, khi ajA

và vVaj thì mô tả aj = v tương ứng với một đặc tính của F ký hiệu aj.v ;

- R là quan hệ: luật riO có bộ chọn sjF

Lúc đó, FC = (O, F, R) Khái niệm hình thức ở đây gồm những bộ ( ri ; aj.k , aj.h , ), trong đó ri là luật quyết định thứ i và các bộ mô tả: aj.k (aj = k), ap.h (ap = h), của ri

(b) Ứng dụng với hệ thống thông tin dịch bệnh

Dữ liệu trích từ https://archive.ics.uci.edu/ml/datasets/Statlog+%28Heart%29, gồm

270 người bệnh, 11 thuộc tính xét nghiệm, d có trị 1/0 ứng với có/không mắc bệnh tim

Trong thực tế, khi đã kết luận bệnh nhân mắc bệnh tim thì các xem xét bổ sung về

tình trạng cụ thể của bệnh như: động mạch vành (coronary heart disease), hoại tim (heart failure), bệnh tim kinh niên (cardiomyophathy), sẽ được tiếp tục chẩn đoán

Lúc đó, d có thêm các trị bổ sung khác nữa

Trang 31

Tập thuộc tính điều kiện A = { a1, a2, a11 } và trị đại diện cho từng phân khoảng rời rạc của từng thuộc tính trình bày trong Bảng 2.3

Bảng 2.3 Chẩn đoán tình trạng bệnh nhân mắc bệnh tim

Thuộc tính B

iến

Trị đại diện cho các phân hoạch thuộc tính

Độ tuổi (age) a1 1: trẻ, < 35; 2: trung niên, 36-60;

Huyết áp

(blood pressure)

a4 1: bình thường 120-139/80-90; 2: cao hơn bình thường 140-159/90-99; 3: cao; 160-179/100-109; 4: rất cao; 180/110

Tập thể dục a9 1: có; 2: không

Oldpeak a1 1: thấp, < 2; 2: nguy hiểm, 2-3; 3: rất nguy hiểm,

Trang 32

Sau tiền xử lý, Anodisys sinh được 16 luật Qua tham khảo chuyên gia (bác sĩ về

bệnh tim), cuối cùng nhận được 9 luật quyết định về khả năng mắc bệnh tim:

R1: (a2=2)  (a3=3)  (a5=1)  (a10=2)  (d=1)

R2: (a1=2)  (a3=4)  (a10=2)  (d=1)

R3: (a7=2)  (a10=1)  (a11=1)  (d=1)

R4: (a1=3)  (a3=3)  (a4=2)  (d=1)

R5: (a1=1)  (a3=2)  (a5=2)  (d=1)

R6: (a3=3)  (a5=4)  (a9=1)  (a11=1)  (d=1)

R7: (a3=2)  (a4=3)  (a10=1)  (d=1)

R8: (a1=3)  (a4=3)  (a11=1)  (d=1)

R9: (a1=3)  (a4=4)  (a5=3)  (a7=3)  (d=1)

Để tiến hành FCA, Bảng 2.4 thống kê bối cảnh hình thức của 9 luật trên đây với

những phản ánh hiện trạng từng luật theo các trị cụ thể của các thuộc tính điều kiện

Biểu đồ dàn theo bối cảnh ở Bảng 2.4 trình bày trong Hình 2.3

Bảng 2.4 Bối cảnh quan hệ giữa luật và các tiêu chí xét nghiệm bệnh nhân

G

Trang 34

Hình 2.3 Dàn tương ứng lớp quyết định về khả năng mắc bệnh tim

Ký hiệu ai.v dùng để mô tả ai = v, phương pháp bao hàm thức (implication) trong

FCA được dùng để xác định các tập bao hàm thức ứng với bối cảnh ở Bảng 2.4:

1 {a3.4}{a10.2, a1.2} 2 {a3.2, a4.3}{a10.1} 3 {a3.3, a2.3}{a10.1}

4 {a4.4}{a5.3,a7.3,a1.3} 5 {a5.1}{a3.3,a10.2,a2.2} 6 {a5.2}{a3.2,a9.1,a1.1}

7 {a5.3}{a4.4,a7.3,a1.3} 8 {a5.4}{a3.3, a11.1} 9 {a7.2}{a10.1, a11.1}

10 {a7.3}{a4.4,a5.3,a1.3} 11 {a9.1}{a3.2,a5.2,a1.1} 12 {a3.2, a10.1}{a4.3}

13 {a4.3, a10.1}{a3.2} 14 {a3.3,a10.2}{a5.1,a2.2} 15 {a3.3, a9.1}{a5.4}

16 {a4.3, a9.1}{a1.3} 17 {a10.1,a9.1}{a7.2} 18 {a2.2}{a3.3,a5.1,a10.2}

19 {a1.1}{a3.2,a5.2,a9.1} 20 {a1.2}{a3.4, a10.2} 21 {a3.3, a1.3}{a4.3}

22 {a11.1, a1.3}{a4.3}

Trang 35

Dựa trên tập bao hàm thức này, Bảng 2.5 cho một thống kê về tần số (Freq.) các quan hệ bao hàm thức đối với từng trường hợp của các trị thuộc tính điều kiện

Bảng 2.5 Quan hệ hàm thức trong quyết định bệnh nhân mắc bệnh tim

S

up

C

a1.1

a1.2

a3.4

a4.4 a5.3 a3.3 a7.3 a11.1 2a4.3

a3.3 a5.1 a10

2

a3.2 a10.1 a1.1 a9.1 a3.2

a5.1 a5.4 a2.2

a1.2

a3.2 a10.1 a3.3 a11.1 2a1.3

a5.3 a7.3

a5.2

a5.3

a5.4

a7.2

a7.3

a9.1

a10.1

a10.

2

a11.1

S

ub

C

a3.3 a10

2 a2.2

a9.1 a1.1

a4.4 a7.3

a3.3 a11

1

a10.1 a11

1

a4.4 a5.3

a5.2 a1.1

a3.2 a4.3 a7.2

a3.4 a5.1 a2.2 a1.2

a5.4 a7.2

Trang 36

Kết quả từ FCA trên đây là cơ sở để định ra các đặc trưng cần lưu ý khi sử dụng luật quyết định

2.5 Tính toán thử nghiệm

(a) Hệ thống thông tin tài chính

Nguồn thu ngân sách Nhà nước (NSNN, cấp nghìn tỷ) trong những năm 1999-2011

do DFIS (Cục Thống kê và Thông tin Tài chính, thuộc Bộ Tài chính, Việt nam) cung cấp Tập dữ liệu này có nhiều thuộc tính với nhiều nguồn phụ thuộc nhau Bảng quyết định DT, gồm các đối tượng là các mức thu NSNN tổng hợp theo từng quý, có 9 thuộc tính điều kiện cơ bản ai, i = 1, 8, như sau:

a1 : Thu từ các loại phí, a6 : Thuế thu nhập cá nhân,

a2 : Thu từ nguồn vốn, a7 : Thuế thu nhập doanh nghiệp,

a3 : Thu từ viện trợ, a8 : Thuế giá trị gia tăng,

a4 : Thuế gián tiếp, a9 : Thuế xuất nhập khẩu,

a5 : Thuế trực tiếp, d : Mức cân đối GDP

Mức cân đối GDP là thuộc tính quyết định, được phân theo 6 loại: E: tốt nhất, G: tốt, S: khá, A: trung bình, L: thấp, B: kém Dữ liệu huấn luyện gồm nguồn thu trong 8 năm đã rời rạc hóa theo phép phân khoảng đồng độ rộng như trong Bảng 2.6

Qua xử lý với Anodisys, tập thuộc tính thu gọn chỉ gồm a2, a3, a6, a7, a9, và a1, a4, a5,

a8 là các thuộc tính bị thu gọn Kết quả được trình bày trong {2}, |2| trang 60*

Bảng 2.6 Bảng thông tin về thu NSNN đã qua tiền xử lý

a

1

a2

a3

a4

a5

a6

a7

a8

a9

d



1.0

0.0

0.2

3.2

1.2

0.4

1.9

2.1

0.2

Trang 37

72 55 73 66 69 38 25 97 78

2

.61

0.12

0.52

1.92

2.59

0.66

4.41

4.70

0.52

1.92

2.59

0.66

4.41

4.70

0.52

1.92

2.59

0.66

4.41

4.70

1.07

1.92

2.59

0.66

4.41

4.70

0.52

1.92

2.59

0.66

8.26

4.70

0.52

1.92

2.59

0.66

8.26

4.70

0.52

1.92

2.59

0.66

8.26

4.70

0.52

1.92

2.59

0.66

8.26

4.70

0.52

5.18

5.13

0.66

8.26

4.70

0.52

5.18

2.59

0.66

8.26

4.70

0.52

1.92

2.59

0.66

8.26

4.70

0.52

1.92

5.13

0.66

12.1

1

9.10

3

Trang 38

0.52

1.92

5.13

0.66

12.1

1

9.10

0.52

5.18

7.67

0.66

12.1

1

13.4

1.07

8.45

17.8

2

0.66

23.6

6

9.10

0.52

5.18

7.67

0.66

15.9

6

13.4

0.52

5.18

7.67

1.54

15.9

6

13.4

0.52

5.18

7.67

1.54

15.9

6

13.4

0.52

5.18

7.67

1.54

19.8

1

13.4

5.42

5.18

17.8

2

1.54

39.0

6

17.8

3.25

14.9

8

25.4

3

2.42

39.0

6

17.8

9

7

Trang 39

5.42

14.9

8

20.3

5

4.17

39.0

6

13.4

1.07

14.9

8

7.67

2.42

23.6

6

22.2

1.61

18.2

5

10.2

0

3.29

23.6

6

22.2

1.61

18.2

5

12.7

4

2.42

27.5

1

26.6

2.16

34.5

8

25.4

3

5.92

35.2

1

31.0

1.07

21.5

1

10.2

0

4.17

31.3

6

31.0

1.07

14.9

8

15.2

8

5.92

35.2

1

35.4

1.61

21.5

1

17.8

2

6.80

39.0

6

44.2

1.07

28.0

5

25.4

3

8.55

39.0

6

44.2

Trang 40

R5: ( a2[1.000.055])  (a2[0.560.055  a7[8.261.925])  d = L

R6: ( a3[2.160.273])  (a6[8.550.438])  (a9[6.560.278])  ( a2[0.560.055]  a9[3.790.278])  d = B

Định dạng
Số trang	89
Dung lượng	1,79 MB