Mạng nơron phân cụm min-max mờ dựa trên tâm cụm dữ liệu

Bài viết này trình bày một mạng nơron được cải tiến từ mô hình mạng nơron phân cụm min-max mờ FMNN của Simpson. Mô hình cải tiến được gọi là Centroid-based FMNN (CFMNN) nhằm cải thiện hiệu suất phân cụm của FMNN.

Trang 1

MẠNG NƠRON PHÂN CỤM MIN-MAX MỜ DỰA TRÊN TÂM CỤM DỮ LIỆU

Vũ Đình Minh1, Nguyễn Doãn Cường2*, Nguyễn Thị Lan Hương1

Tóm tắt: Mạng nơron min-max mờ (FMNN) là một loại mạng nơron dựa trên

hình thức các hyperbox cho phân loại và dự báo Bài báo này trình bày một mạng nơron được cải tiến từ mô hình mạng nơron phân cụm min-max mờ FMNN của Simpson Mô hình cải tiến được gọi là Centroid-based FMNN (CFMNN) nhằm cải thiện hiệu suất phân cụm của FMNN CFMNN sử dụng khoảng cách của mẫu dữ liệu với tâm cụm dữ liệu thuộc hyperbox để điều chỉnh các hyperbox Các thực nghiệm đã được chúng tôi tiến hành trên các tập dữ liệu PID, Wine và tập dữ liệu thực tế bao gồm 1.500 hồ sơ bệnh nhân để so sánh CFMNN với FMNN đã được công bố trước đây Các kết quả thử nghiệm cho thấy tiềm năng của CFMNN trong phân cụm dữ liệu

Từ khóa: Min-max mờ, Mạng nơron min-max mờ, Phân cụm, Tâm cụm, Tâm hộp.

1 ĐẶT VẤN ĐỀ

Từ lý thuyết tập mờ [15] được Zadeh đưa ra vào năm 1965, đã có nhiều nghiên cứu về nhận biết và phân loại với tập mờ Trong đó, có rất nhiều nhà khoa học chú

ý đến sự hợp nhất của logic mờ và mạng nơron để phát triển hệ thống thông minh [3, 12, 14] Lý do chính là khả năng kết hợp lý luận mờ trong xử lý thông tin không chắc chắn với khả năng học của mạng nơron mờ [2, 13, 17, 16]

Dựa trên những ưu điểm của việc kết hợp logic mờ và mạng nơron, Simpson

đã đề xuất một mô hình mạng nơron mờ min-max (FMNN) [10, 11], cho phép kết hợp mạng nơron và lý thuyết min-max mờ (FMM) để giải quyết bài toán phân lớp

và phân cụm

Mô hình FMNN của Simpson sử dụng phương pháp dựa trên dữ liệu, là mô hình mạng nơron học gia tăng cho khẳ năng xử lý các bộ dữ liệu quy mô lớn [14] Học gia tăng là một kỹ thuật hiệu quả trong khám phá tri thức vì nó cho phép sử dụng lại, bổ sung thông tin trong một lần duyệt [4] Một lợi thế của việc học gia tăng là tất cả các dữ liệu huấn luyện có thể ngay lập tức sử dụng cho việc học thay

vì chờ đợi cho một tập huấn được đào tạo lại

FMNN dựa trên sự tổng hợp của các hyperbox mờ [1] để xác định và giới hạn các không gian con trong không gian mẫu n-chiều Mỗi hyperbox mờ là một không gian con được xác định bằng hai điểm min và max Kích thước của hyperbox mờ

là một giá trị trong khoảng từ 0 đến 1, mỗi mẫu vào được phân loại dựa trên mức

độ thuộc với các hyperbox mờ tương ứng

Thuật toán học của FMNN nhằm mục tiêu tạo và điều chỉnh các hyperbox trong không gian n-chiều Nếu quá trình mở rộng tạo ra sự chồng lấn giữa các hyperbox thì thực hiện quá trình co lại để khử chồng lấn Nói cách khác, FMNN phân cụm bằng cách tạo ra các hyperbox, mỗi hyperbox đại diện cho một cụm sẽ tương ứng là một nơron trong lớp đầu ra

Dựa trên mô hình FMNN gốc, một số biến thể đã được phát triển Các nghiên cứu trong [8, 9] đã cải tiến FMNN bằng cách sử dụng hệ số khoảng cách tương quan CCC (Cophenetic Correlation Coefficient) so với tâm hình học của hyperbox

Trang 2

Một mạng FMNN mới được Quteishat và Lim đề xuất để giải quyết hiện tượng mạng chỉ có số ít hyperboxes có kích thước lớn được tạo ra [7] Cả hai đề xuất trên đều dựa trên tâm hình học của các hyperbox, các tác giả đã hiệu chỉnh điểm min

và max của hyperbox dựa trên khoảng cách giữa mẫu và tâm hyperbox Điều này thật tốt khi dữ liệu có độ nhiễu thấp, phân bố tương đối đều Nhưng khi dữ liệu có

độ nhiễu cao, phân bố không đều trong hyperbox sẽ dẫn đến phân loại sai, làm giảm hiệu quả thuật toán

Trong bài báo này, chúng tôi đề xuất một mô hình nâng cao hiệu quả phân cụm được cải tiến từ mô hình gốc của Simpson và các tác giả trong [7, 8, 9], bằng cách xác định khoảng cách của các mẫu tới tâm của hyperbox và tâm của cụm dữ liệu thuộc hyperbox tương ứng trong FMNN Việc điều chỉnh điểm min và max của hyperbox phụ thuộc vào khoảng cách giữa mẫu vào và tâm cụm và tâm hình học của hyperbox khi giá trị hàm thuộc của hyperbox giảm nhiều Hiệu quả được đánh giá bằng cách sử dụng thuật toán sửa đổi để phân cụm trên các tập dữ liệu Wine, PID từ UCI và tập dữ liệu thực tế bao gồm 1.500 hồ sơ bệnh nhân đến khám và điều trị bệnh do tăng men gan tại bệnh viện Đa khoa TW Thái Nguyên và Bệnh Viện Gang Thép Thái Nguyên

Các phần còn lại của bài báo bao gồm: phần 2 tổng hợp lại nghiên cứu nền tảng

về thuật toán mờ min-max và mô hình mạng nơron phân cụm mờ min-max FMNN Phần 3 trình bày mô hình CFMNN đề xuất Phần 4 trình bày các kết quả thực nghiệm và phần 5 kết luận

2 MẠNG NƠRON PHÂN CỤM MIN-MAX MỜ 2.1 Hàm thuộc hyperbox mờ

Một hyperbox là một vùng của không gian mẫu n-chiều với các mẫu đi kèm với hàm thuộc Kích thước mỗi chiều (ký hiệu là ) của hyperbox nhận giá trị

trong khoảng từ 0 đến 1 Không gian mẫu n-chiều có đơn vị là I n Hàm thuộc b j của

hyperbox mờ mô tả mức độ thuộc của mẫu vào hyperbox B j, có giá trị trong khoảng từ 0 đến 1 Hình 1 là ví dụ biểu diễn giá trị min-max của hyperbox trong

không gian 2-chiều với V điểm min và W là điểm max

Hình 1 Hyperbox 2D

Hyperbox mờ B j thứ j được định nghĩa như sau:

j h j j j h j j

B  A V W b A V W

Trong đó:

- A h a h1 ,a h2 , ,a hnI n là mẫu dữ liệu thứ h trong tập dữ liệu

- V j v j1 ,v j2 , ,v jn là điểm min của B j

- W j w j1 ,w j2 , ,w jnlà điểm max của B j

Trang 3

- b jA V h, j, Wj là hàm thuộc của mẫu vào A h tương ứng với hyperbox B j ,

0 ≤b jA V h, j, Wj≤ 1

Giá trị hàm thuộc b j mô tả độ thuộc của mẫu A h vào hyperbox B j được nghĩa

thông qua V j và W j theo (1):

1

n

i

Trong đó:

- f(x,y) là hàm ngưỡng hai tham số, được xác định như sau:

-  là tham số độ nhạy dùng để điều chỉnh giảm nhanh giá trị hàm thuộc khi một mẫu vào bị tách ra khỏi hyperbox

Hình 2 là một ví dụ mô phỏng hàm thuộc bj với hyperbox có điểm min

V=(0,3;0,3) và điểm max W=(0,7;0,5)

Hình 2 Ví dụ về độ thuộc của hyperbox có V=(0,3;0,3), W=(0,7;0,5)

2.2 Thuật toán học phân cụm min-max mờ

Thuật toán học phân cụm min-max mờ là quá trình điều chỉnh mở rộng/co lại các hyperbox

Giả sử tập huấn luyện D ban đầu gồm m mẫu, với A h a h1 ,a h2 , ,a hnI n là

mẫu vào thứ h (h = 1, 2,…, m) của tập D Quá trình học bắt đầu bằng việc lựa chọn lần lượt các mẫu A h D và tìm các hyperbox gần nhất để có thể mở rộng thêm mẫu

Nếu không thể tìm thấy một hyperbox nào thỏa mãn các tiêu chí mở rộng, một hyperbox mới được tạo ra Quá trình tăng trưởng này cho phép các cụm được tinh chỉnh theo thời gian, và cho phép các cụm mới được thêm vào mà không cần đào tạo lại

Vấn đề xảy ra khi thực hiện mở rộng hyperbox tạo nên sự chồng lấn giữa các hyperbox Sự chồng lấn hyperbox tạo nên sự không rõ ràng, đây chính là điều gây nên sự một mẫu có giá trị hàm thuộc như nhau tới các cụm khác nhau, giá trị hàm thuộc bằng 1 FMNN thực hiện điều chỉnh co lại các hyperbox để loại trừ sự chồng

Trang 4

lấn FMNN sử dụng 2 tập C (Committed) và U (Uncommitted), tập C gồm các

hyperbox có các điểm min, max đã được điều chỉnh và U gồm các hyperbox đang

chờ điều chỉnh Với tập U do người dùng ước lượng số hyperbox tối đa có thể

được tạo ra

Thuật toán học gồm 4 bước:

- Khởi tạo các hyperbox

- Mở rộng hyperbox

- Kiểm tra chồng lấn hyperbox

- Điều chỉnh chồng lấn

Các bước được mô tả chi tiết như sau:

Bước 1 Khởi tạo các hyperbox trong tập U: Khởi tạo giá trị ban đầu của các

hyperbox B j U theo (2) và (3):

1

j

V  (2) 0

j

W  (3) trong đó, 1 là vector n-chiều có các giá trị bằng 1; 0 là vector n-chiều có các giá

trị = 0

Thuật toán học thực hiện chuyển hyperbox từ tập U đưa vào tập C Khi một

hyperbox được chuyển, các điểm min và max được điều chỉnh theo (4)

V j = W j = A h (4)

thuộc cao nhất theo (1) trong số các hyperbox thỏa mãn biểu thức điều kiện giới

hạn kích thước (5)

1

n

ji hi ji hi i



 (5)

Điều chỉnh các điểm min, max của hyperbox B j theo (6) và (7)

v new ji minv old ji ,a hi  i 1, 2, ,n (6)

w  w a  i n (7)

Nếu không có hyperbox nào thỏa mãn (5), tạo một hyperbox mới Việc tạo ra

hyperbox mới trong C thực chất là chuyển hyperbox từ tập U đưa vào tập C Khởi

tạo các điểm min, max của hyperbox đó theo (4)

cần được kiểm tra chồng lấn so với B j Thực hiện so sánh trên các chiều tương ứng

giữa B j và B k , nếu B j và B k có chồng lấn, thì xảy ra một trong các trường hợp sau

(trên mỗi chiều):

Trang 5

- Case 5: v ji v ki w ji w ki (12)

điều chỉnh để loại bỏ chồng lấn theo các trường hợp tương ứng:

- Case 1: if v jiv kiw jiw kithen: new new ( old old) / 2

- Case 2: if v kiv jiw kiw jithen: ( ) / 2

- Case 3: if w kiv ji w jiv kithen: new old

ji ki

otherwise: new old

ji ki

- Case 4: ifw jiv ki w kiv jithen: new old

ki ji

otherwise: new old

ki ji

- Case 5: if v ji v ki wji  wki then new new ( old old) / 2

ki ji ki ji

- Case 6: if v ji v ki w ji= w ki then v new ji w ki new  (v ki old w old ji ) / 2 (25)

- Case 7: if v ki v ji w ki w ji then v new ji w ki new  (v old ji w old ki ) / 2 (26)

- Case 8: if v ki v ji w ki= w jithen new new ( old old) / 2

ji ki ji ki

- Case 9: if v ji v ki w ji w ki then v new ji w ki new (v old ji w ki old) / 2 (28)

- Case 10: if v ji v ki w ji= w kithen v ki new w new ji  (v ki oldw old ji ) (29) Các bước từ 2 đến 4 được lặp lại đối với tất cả các mẫu trong tập dữ liệu Điều kiện dừng của thuật toán là khi các hyperbox ổn định, tức là tất cả các điểm min và max của các hyperbox không thay đổi hoặc thay đổi dưới một ngưỡng cho phép trong khi duyệt mẫu kế tiếp của tập dữ liệu

2.3 Mạng nơron phân cụm min-max mờ

Cấu trúc mạng nơron FMNN [11] gồm 2 lớp được mô tả trên hình 3, lớp vào F A gồm n nút (mỗi nút là một chiều của mẫu dữ liệu), lớp ra F B gồm m nút (mỗi nút là

một cụm)

a 2

a 3



b 1

b 2

b q



A h2

A h3

A hn

a 4

b 3

A h4

Hình 3 Mô hình mạng nơron FMNN

Trang 6

Mỗi một nơron thứ j được kết nối với các đầu vào thông qua một bộ trọng số kép, tương ứng là hai vector V j và W j (hình 4)

Hình 4 Minh họa cấu tạo của một nơron b j

Mỗi đầu vào gắn với một thành phần của A h Kết nối giữa đầu vào thứ i và nút thứ j trong F B thông qua hai trọng số min v ij và max w ij Tức là các điểm min và

max của nút thứ j là các vector:

 1 , 2 , , 

và

 1 , 2 , , 

Với mẫu vào A h , giá trị ra của b jA V h, j, Wjđược tính theo (1)

3 ĐỀ XUẤT CẢI TIẾN HÀM THUỘC DỰA TRÊN TÂM CỤM DỮ LIỆU CỦA HYPERBOX

Trong giai đoạn dự báo của FMNN [11], các mẫu được phân cụm dựa trên các giá trị hàm thuộc và mẫu sẽ thuộc về hyperbox có giá trị hàm thuộc cao nhất Bài báo đề xuất một phương pháp khác trong giai đoạn dự báo của FMNN Phương pháp này dựa trên khoảng cách giữa các mẫu vào và tâm cụm dữ liệu hay tâm hình học của hyperbox tương ứng gọi là CFMNN Ngoài hai điểm min và max, mỗi cụm dữ liệu thuộc hyperbox tương ứng có tâm cụm được tính theo (30)

và tâm của hyperbox tính theo (31)

1

1 k

l

k 

  (30)

2

ji ji ji

c   (31)

với d ji là tâm cụm dữ liệu của hyperbox thứ j theo chiều thứ i, l là số mẫu thuộc hyperbox j, c ji là tâm hình học của hyperbox thứ j theo chiều thứ i, v ji và w ji là 2

điểm min, max của hyperbox j theo chiều thứ i

Khoảng cách giữa mẫu vào thứ h và tâm hình học của hyperbox thứ j (EC jh) được tính theo (32):

2

1

1 1

n

i

    (32)

Khoảng cách giữa mẫu vào thứ h và tâm của cụm dữ liệu thuộc hyperbox thứ j (ED jh) được tính theo (33):

Trang 7

 

2

1

1 1

n

i

    (33)

với E jh là khoảng cách Euclidean giữa hyperbox thứ j và mẫu vào thứ h

Hình 2 cho thấy, khi b j ≤ 0.6 thì giá trị của b j không giảm dần khi mẫu dời xa

hyperbox Không những vậy, khi có nhiều hơn một b j đạt max, FMNN sẽ phân loại một cách ngẫu nhiên Đây chính là lý do khiến FMNN phân loại sai, làm giảm hiệu suất của mạng FMNN

Để khắc phục nhược điểm này, chúng tôi hiệu chỉnh như sau: Với mỗi mẫu vào

A h thỏa mãn điều kiện gới hạn kích thước (5) mà giá trị hàm thuộc

b j ≤ 0.6 hoặc có nhiều hơn một b j là cực đại, khoảng cách ED j , EC j được tính toán

và so sánh Mẫu vào A h sẽ thuộc vào hyperbox nào có giá trị ED j , EC j lớn nhất

(hay khoảng cách bé nhất) Điều này có nghĩa, việc điều chỉnh các điểm min, điểm

max của hyperbox thuật toán học trong CFMNN không những phụ thuộc vào hàm

thuộc b j và còn phụ thuộc vào khoảng cách giữa mẫu với tâm cụm dữ liệu và tâm hình học hyperbox tùy theo điều kiện cụ thể Tâm cụm dữ liệu và tâm hình học của hyperbox chỉ được tính toán khi có điều kiện phụ xảy ra

Hình 5 mô phỏng trường hợp so sánh khoảng cách giữa mẫu vào A h với hai

hyperbox D 1 là tâm dữ liệu của hyperbox 1, D 2 là tâm dữ liệu của hyperbox 2, C 1

là tâm hình học của hyperbox 1, C 2 là tâm hình học của hyperbox 2 c 1 , c 2 là

khoảng cách Euclidean giữa mẫu vào với tâm hình học của hyperbox 1, 2 tương ứng d 1 , d 2 là khoảng cách Euclidean giữa mẫu vào A h với tâm dữ liệu thuộc

hyperbox 1, 2 tương ứng Vì d 2 < c 1 < c 2 < d 1 dẫn tới ED2 đạt max, mẫu vào được

đưa vào hyperbox 2 (mở rộng hyperbox 2)

Hình 5 Ví dụ mô tả so sánh khoảng cách mẫu vào với tâm cụm dữ liệu

và tâm hình học của hyperbox

4 THỰC NGHIỆM

Trong phần này, hiệu năng của mô hình CFMNN được đánh giá và so sánh với các phương pháp FMNN [11], M-FMN [8]

4.1 Dữ liệu thực nghiệm

Các thực hiện thực nghiệm được tiến hành trên các tập dữ liệu Wine, PID (Pima Indian Diabetes), từ kho dữ liệu học máy UCI và một bộ dữ liệu được thu thập tại bệnh viện TN

Trang 8

- Tập dữ liệu PID gồm 768 mẫu với 8 thuộc tính được chia làm hai nhóm, nhóm thứ nhất gồm 268 bệnh nhân bị mắc bệnh tiểu đường và nhóm còn lại gồm 500 người được cho là khỏe mạnh

- Tập dữ liệu Wine chứa các thông tin về các loại rượu vang được trồng ở các khu vực tại Italy, nhưng xuất phát từ ba giống khác nhau Các phân tích xác định số lượng của 13 thành phần được tìm thấy trong mỗi loại rượu vang của 178 mẫu với 13 thuộc tính chia làm 3 nhóm thuộc 3 trường hợp: nhóm 1 gồm 59 mẫu, nhóm 2 gồm 71 mẫu, nhóm 3 gồm 48 mẫu

Trong thực nghiệm với bộ dữ liệu của các bệnh nhân được bác sĩ chỉ định cận lâm sàng với các xét nghiệm men gan để đánh giá chức năng gan Từ đó có thể đánh giá xơ hóa gan một cách rộng rãi, lặp lại nhiều lần đối với viêm gan mạn, do

đó rất có ý nghĩa trong việc phát hiện và theo dõi diễn tiến bệnh, nhất là theo dõi đáp ứng về mặt giảm mức độ xơ hóa sau điều trị viêm gan mạn do vi-rút, bệnh gan nhiễm mỡ không do rượu và bệnh gan rượu Tập dữ liệu này gồm 1.500 bệnh nhân đến khám và điều trị bệnh do rối loạn men gan tại Bệnh viện Gang thép Thái Nguyên và Bệnh Viện Đa khoa Trung ương Thái Nguyên Mỗi hồ sơ bệnh nhân chứa các thông tin liên quan đến bệnh nhân đến khám và điều trị các bệnh do rối loạn men gan Trong số 1.500 hồ sơ bệnh nhân gồm 3 nhóm: nhóm 1 gồm 650 hồ

sơ bệnh nhân được cho là không mắc các bệnh; nhóm 2 gồm 450 hồ sơ bệnh nhân được chuẩn đoán là viêm gan và nhóm 3 gồm 400 hồ sơ bệnh nhân được chuẩn

đoán là mắc bệnh xơ gan Các thông tin sau được trích từ hồ sơ bệnh nhân, có liên

quan đến chuẩn đoán bệnh của bác sĩ (một số thông tin khác được bảo vệ vì lý do bảo mật) Các thông tin bao gồm:

1) Tuổi: tính đến ngày làm xét nghiệm (tuổi lớn hơn 90 được coi là 90 tuổi) 2) Giới tính: mô tả giới tính của bệnh nhân (0: nam; 1: nữ)

3) Men AST (Aspartat transaminase) hay còn gọi là SGOT

4) Men ALT(Alanin aminotransferase)

5) Chỉ số AST/ALT

6) Men GGT (Gamma Glutamyl Transferase hay gamma GT)

7) Albumin

8) Bilirubin toàn phần

9) Bilirubin trực tiếp

10) Chỉ số Bilirubin trực tiếp / Bilirubin toàn phần

Các thông tin trên được cấu thành 10 thuộc tính đầu vào cho thực nghiệm

4.2 Thực nghiệm và đánh giá

4.2.1 Thực nghiệm trên bộ dữ liệu chuẩn

Thực nghiệm đầu tiên được tiến hành bằng cách sử dụng tập dữ liệu Wine và

PID Các mẫu dữ liệu mắc lỗi (“missing values”) được loại bỏ khỏi tập dữ liệu

Trang 9

thực nghiệm Chúng tôi chia tập dữ liệu thành 5 phần có kích thước xấp xỉ nhau, 4 phần được sử dụng cho tập huấn luyện và phần còn lại là tập kiểm tra Quá trình học và kiểm tra được thực hiện 5 lần, với mỗi lần tập huấn luyện và tập kiểm tra được hoán đổi cho nhau Kết quả là giá trị trung bình của các lần thực nghiệm Các

bộ dữ liệu đã được sử dụng sau khi chuẩn hóa mỗi giá trị thuộc tính cho một số thực trong khoảng [1,0]

Bảng 1 là kết quả phân loại đúng trên tập dữ liệu Wine của mô hình FMNN, M-FMN và CFMNN với  = 0.7 và  = 20 Acc là độ chính xác trên tập dữ liệu Wine AccC1, AccC2, AccC3 là độ chính xác trên tập dữ liệu Wine tính riêng cho từng cụm tương ứng Kết quả cho thấy CFMN tốt hơn hai phương pháp còn lại

Bảng 1 Tỉ lệ nhận dạng đúng trên tập dữ liệu Wine khi  = 0,7

Mô hình Acc AccC1 AccC2 AccC3 FMNN 87,33 96,00 83,75 82,50 M-FMN 89,00 96,00 85,00 85,83 CFMN 91,00 97,00 85,00 90,00

Bảng 2 là kết quả thực nghiệm trên tập dữ liệu PID khi chúng tôi thay đổi giá trị của tham số  từ 0,1 đến 0,9 Kết quả nhận dạng tốt nhất của FMNN là 61,92%

và CFMNN là 70,49% đối với tập dữ liệu PID khi tham số kích thước hyperbox 

là 0,4

Bảng 2 Tỉ lệ nhận dạng đúng của FMNN, M-FMN[8],

CFMNN trên tập dữ liệu PID

0,1 59,01 63,70 64,35 0,2 60,34 64,63 65,95 0,3 60,84 66,56 68,62 0,4 61,92 69,08 70,49 0,5 60,92 67,68 69,78 0,6 60,18 67,15 68,53 0,7 56,86 62,82 63,46 0,8 52,62 57,92 59,72 0,9 50,13 53,69 55,36 Hình 6 biểu diễn kết quả nhận dạng đúng của FMNN và CFMNN trên tập dữ liệu PID khi thay đổi tham số  từ 0,1 đến 0,9 với bước thay đổi bằng 0,1

Trang 10

Hình 6 Xu hướng biến động kết quả khi thay đổi tham số  trên tập dữ liệu PID 4.2.2 Thực nghiệm trên cơ sở dữ liệu bệnh nhân

Trong thực nghiệm với tập dữ liệu bệnh nhân, chúng tôi chọn ngẫu nhiên 400 mẫu từ mỗi nhóm hình thành tập dữ liệu với 1.200 mẫu chứa đầy đủ thông tin Từ 1.200 mẫu được chọn, chúng tôi chia thành 5 phần có kích thước xấp xỉ nhau, 4 phần được sử dụng cho tập huấn luyện và phần còn lại là tập kiểm tra Quá trình học và kiểm tra được thực hiện 5 lần, với mỗi lần tập huấn luyện và tập kiểm tra được hoán đổi cho nhau Kết quả là giá trị trung bình sau 5 lần thực nghiệm Trong mỗi thực nghiệm

Trong các thực nghiệm, phương pháp đánh giá các kết quả theo thống kê để tính trung bình bao gồm các chỉ số: độ chính xác Acc (Test Accuracy), độ nhạy AccSe (Accuracy Sensitivity), độ đặc hiệu AccSp (Accuracy Specificity), giá trị dự đoán

âm NPV (Negative predictive value), Giá trị dự đoán dương PPV (Positive Predictive Value) số các hyperbox NoH (Number of Hyperboxes): Cách tính độ nhạy và độ đặc hiệu như sau:

Acc =(a+d)/(a+b+c+d);

AccSe = a/(a+c);

AccSp = d/(b+d);

PPV = a / (a+b );

NPV = d/ (d+c)

trong đó a, b, c, d là các giá trị chuẩn đoán quy ước trên bảng 3

Bảng 3 Các giá trị quy ước trong chuẩn đoán

Bảng 4 là kết quả so sánh các chỉ số được thực hiện bởi FMM, M-FMM và CFMNN Tham số  = 20, kích thước hyperbox  =0.6

Định dạng
Số trang	13
Dung lượng	417,28 KB