Bayes cải tiến và hàm mật độ xác suất được trích xuất Trần Nam Hưng 1,† 1 E-mail: hungb1906052@student.ctu.edu.vn † Khoa Khoa học Tự nhiên, Đại học Cần Thơ Abstract: Tổng quan: Dựa trên
Trang 1Citation:Trần Nam Hưng Hung T.N.
Journal Not Specified 2022 , 1, 0.
https://doi.org/
Received: Ngày 30 tháng 4 năm 2022
Accepted:
Published:
Publisher’s Note:MDPI stays neutral
with regard to jurisdictional claims in
published maps and institutional
affil-iations.
Copyright: © 2022 by the authors.
Bayes cải tiến và hàm mật độ xác suất được trích xuất
Trần Nam Hưng 1,†
1 E-mail: hungb1906052@student.ctu.edu.vn
† Khoa Khoa học Tự nhiên, Đại học Cần Thơ
Abstract: Tổng quan: Dựa trên việc trích xuất các đặc trưng kết cấu, khoảng dữ liệu từ ma trận đồng 1
hiện mức xám (GLCM) và trích xuất hàm mật độ xác suất dựa vào tần số điểm ảnh, nghiên cứu này 2
đề xuất thuật toán phân lớp Bayes cho hình ảnh thuốc Pills QC với hai cải tiến chính – xác định xác 3
suất tiên nghiệm và ước lượng hàm mật độ xác suất; Phương pháp: phân lớp Bayes cho hai tổng thể 4
hình ảnh thuốc chuẩn và thuốc bị nhiễm bẩn cho kết quả sai số Bayes một cách nhanh chóng bởi các 5
chương trình MATLAB dựa vào nguyên tắc phân lớp Bayes; Kết quả: phân loại đúng đạt đến 97%. 6
Kết luận: Thực nghiệm cho thấy thuật toán phân lớp Bayes chứng minh được tính ưu việt so với các 7
phương pháp phân loại được công bố trước đó và cũng cho thấy tiềm năng ứng dụng thực tế cao 8
trong lĩnh vực phân loại hình ảnh y tế đang được các nhà thống kê y sinh đặc biệt quan tâm 9
Keywords:Bayes method, Bayes error, Convolutional Neural Network, Image Classification 10
của các thiết bị ghi hình, chụp ảnh thì hình ảnh trở nên rất phổ biến từ đó trở thành dữ liệu 17
tự nhiên và tín hiệu âm thanh như xây dựng các trợ lý ảo (như Siri, Google Assistant hay 19
mạng Neutron tích chập và phương pháp Bayes (Fisher, 1938; Cortes & Vapnik, 1995; Bedford 30
ưu cho tất cả dữ liệu đầu vào Nhìn chung, các mô hình phân loại đã được nghiên cứu theo 32
Trang 2để phân loại vừa nhanh, chính xác và nhẹ nhàng, thích hợp cho nhiều bộ số liệu thực tế 39
là vấn đề ước lượng tham số hay các yếu tố đầu vào từ số liệu thực Cụ thể là việc xác định 45
cho tất cả (Pham-Gia et al 2007, 2008) Bên cạnh xác suất tiên nghiệm, khi thực hiện phân 51
cho mỗi tổng thể Mặc dù có nhiều cải tiến khác nhau theo cả khía cạnh lý thuyết lẫn thực 53
tính chất khác nhau giữa các biến (Thao và Tai, 2017) Ngoài hai vấn đề trên, các phức tạp 55
cũng đang là các cản trở trong việc áp dụng thực tế của phương pháp này (Ha et al 2020). 57
trên việc cải tiến xác suất tiên nghiệm và ước lượng hàm mật độ xác suất với các công trình 59
tiêu biểu là (Tai, 2017; Tai et al., 2018; Tai, 2019; Thao and Tai, 2017; Tai et al., 2021) Một số 60
nghiên cứu cũng đề cập đến việc trích xuất ảnh thành dữ liệu rời rạc hoặc khoảng dựa trên 61
trong kinh tế Một số tác giả khác cũng đã áp dụng bài toán phân loại trong y học, trong 66
Đối với việc trích xuất hình ảnh, hiện nay, hình ảnh thường được trích xuất dưới dạng 69
dụng phân loại ảnh dựa vào hàm mật độ xác suất Đây có vẻ là hướng đi mới có thể cải tiến 71
Bài báo cáo này tập trung vào mục đích phân loại hình ảnh một số trạng thái của thuốc 73
Pills QC Bằng cách khảo sát nhiều mô hình phân loại từ cổ điển đến hiện đại, chúng tôi đề 74
ảnh được thảo luận trong phần 5 với ba kiểu trích xuất chính Phần 6-7 trình bày dữ liệu 83
Cho hai lớp{ω1, ω2}với X= {X1, X2}là dữ liệu liên tục d-chiều, và x= {x1, x2}là mẫu cụ thể Ngoài ra, đặt p(x|ωi)và p(ωi)lần lượt là các hàm likelihood trênRdvà xác suất
tiên nghiệm của mỗi lớp ωihiện có, tương ứng i=1, 2, với điều kiện p(ω1) +p(ω2) =1 Theo Pham Gia el al (2008), Thao và Tai (2017), Thao (2018), quy tắc phân loại theo xác suất
Trang 3được phát biểu như sau: xếp quan sát mới x0vào lớp thứ ωjnếu và chỉ nếu xác suất của lớp đó, p(ωj|x), là lớn nhất đối với tất cả các lớp khác, tức là
max{p(ω1)p(x|ω1), p(ω2)p(x|ω2)} =p(ωi)p(xωi), i=1 , 2 Hình1minh họa việc phân loại một phần tử x0vào một trong hai tổng thể với dữ liệu 87
thấy khi biến quan sát bất kỳ x nằm trong khoảng A, ta xếp x vào tổng thể ω1 Nói cách 90
khác khi f1(x0) > f2(x0)thì xếp phần tử mới vào tổng thể ω1và ngược lại
4 3 2 1 0 1 2 3 4
x
0.000 0.025 0.050 0.075 0.100 0.125 0.150 0.175 0.200
(1
A
Minh h a phân l p Bayes cho hai t ng th
(x|1 ) ( 1 )
(x|1 ) ( 2 )
Kho ng x x p vào 1
Hình 1.Minh họa hàm qifi(x)đối với phân loại hai lớp ω1 và ω2 Tổng thể ω1tuân theo phân phối
Gaussian với trung bình µ=0 và phương sai σ=1 , f1(x)i.i.d.∼ N (0 , 1) Tổng thể ω2tuân theo phân phối chuẩn kết hợp, f2(x)i.i.d.∼ 0.6N (1 , 1) +0.4N (−1 , 2) Xác suất tiên nghiệm đều nhau qua mỗi tổng thể q1=q2=0.5
91
nghiệm và hiểu biết của nhà nghiên cứu, hoặc dựa trên các tài liệu mang tính thống kê đã 94
sẽ được chọn theo phân phối đều: p(ω1) =p(ω2) =12 Khi ta dựa vào tập huấn luyện thì 97
tổng thể, tức p(ωi) =ni/N hoặc bởi phương pháp Laplace p(ω1) = (ni+d/C)/(N+d), 99
trong đó nilà số phần tử trong tổng thể ωi, d là số chiều, C là số các tổng thể và N là số 100
phần tử trong tập dữ liệu Tất cả các phương pháp tìm xác suất tiên nghiệm trên chỉ dựa 101
quan hệ giữa phần tử cần phân loại x0đối với các tổng thể ωi Nghiên cứu này cải tiến việc 103
Trang 4Algorithm 1Xác suất tiên nghiệm mờ Cho hai tổng thể ảnh w1và w2với số lượng lần lượt là n1và n2(n1+n2=N)và một ảnh cần phân loại I0, thuật toán tìm xác suất tiên nghiệm bằng phân tích chùm mờ phân loại ảnh I0đề nghị gồm các bước sau:
Thành lập ma trận phân vùng tại thời điểm t=0 bởi ma trậnU = [µij](2×(N+1), trong đó
Ncột đầu tiên xác định theo nguyên tắc µij =1 nếu phần tử thứ j thuộc về tổng thể ωi,
ngược lại, đặt µij =0 Trước nhất, ta chọn các xác suất phân loại µijbởi phân phối đều
whileS >ε do
Tính phần tử đại diện
∑N k=1(µ )mzk
N
∑ k=1
(µ )m, 1≤i≤2
trong đó, tham số m∈ [1 ,∞)là tham số xác định độ mờ, ziklà phần tử thứ k của tổng
thể i, µiklà xác suất thuộc về tổng thể i của phần thử thứ k
Tính ma trận khoảng cách[Dij](Khoảng cách giữa phần tử đại diện với từng phần tử trong chùm qua công thức khoảng cách D2ij(zj, vi) = ∥zj−vi∥2
Cập nhật ma trậnU(new)bởi quy tắc sau ifDik=j>0 then
∑2 j=1(Dij/Djk)2/(m−1), với i̸=j=1 , 2
else
µ(new)ij =0
end
TínhSt= ∥U(new)− U ∥ =max{|µik(new)−µ }
end
1 Tham số ε là hằng số nhỏ được chọn tùy ý Khi ε càng nhỏ thì thời gian vòng lặp thực 107
hiện càng lâu Thông thường, chúng ta có thể chọn ε=0.01 hoặc 10−5trong các ứng 108
2 Ma trận khoảng cáchDikdựa trên ma trận A Khi A bằng ma trận đơn vị I thìDiklà 110
định tham số mờ một cách hợp lý là một vấn đề khó Mặc dù đã có nhiều tác giả quan 116
Kết thúc bước này ta nhận được kết quả ma trận phân vùng có kích thước 2× (N+1) 119
quả tối ưu và đáp ứng mục tiêu thiết lập mô hình chính xác nhất
Trang 5Xác suất phân loại đúng toàn cục: metric này biểu diễn xác suất xảy ra các trường hợp 126
được phân loại đúng Ngược lại FP là số ảnh thuốc chuẩn bị phân loại sai và FN là 129
Độ chính xác
Chỉ số F1
1 Recall +
1 Precision
Hệ số Kappa
1−pe
của mô hình phân loại là xác suất phân loại đúng toàn cục Đơn giản là tỉ lệ của tất cả 132
chúng tôi đã đánh giá tất cả mô hình dự đoán với số lần lấy mẫu ngẫu nhiên 50 lần và báo 137
Ngoài ra, báo cáo còn nhìn nhận yếu tố tiện ích khi quan tâm đến thời gian đào tạo 139
mô hình và thời gian dự đoán hình ảnh mới Ở đây, thời gian đào tạo nhanh cùng với thời 140
xám G là một ma trận hai chiều P cấp G×G Mỗi phần tử p(i, j)của ma trận đại diện cho 145
tần số xuất hiện các giá trị cường độ sáng giống nhau của i và j ở khoảng cách d và một góc 146
pdθ(i , j) =#{((r , c),(r′, c′)) ∈M×N|d= ∥(r , c),(r′, c′)∥, θ=Θ((r , c),(r′, c′)), I(r , c) =i , I(r′, c′) =j}
Haralick (1979) đã đề xuất đến 14 đặc trưng kết cấu có thể tính được từ ma trận đồng hiện 148
đặc trưng quan trọng đại diện cho kết cấu (Thao và Tai, 2017; Zhang et al., 2018) Đó là các 150
Trang 6Bảng 1.Một số đặc trưng kết cấu phổ biến theo Thao and Tai (2017)
Correlation coefficient ∑i,j(i−µi)(j−µj )p(i ,j)
δiδj [0,(size(GLCM, 1) −1)2]
liên quan đến sản xuất thuốc viên PillsQC là ảnh chụp một loại thuốc trong ba trạng thái 156
khác nhau là thuốc bình thường (chuẩn), thuốc bị bẩn (dơ) và thuốc bị mẻ hoặc bể (bể) Đại 157
diện ba loại thuốc được hiển thị trong hình?? Dữ liệu có số ảnh và các nhãn định sẵn được 158
mô tả trong bảng2 Bài báo cáo sử dụng hai trong ba nhãn để xây dựng mô hình phân loại 159
Bảng 2.Bảng thông tin dữ liệu ảnh PillsQC với kích thước và mã hóa cho mô hình phân loại.
Hình 2.Một vài ảnh ví dụ trong bộ dữ liệu hình ảnh PillsQC.
Phần đầu tiên, để xử lý hình ảnh ta thực hiện ba bước: trích xuất hình ảnh, chuẩn hóa 165
hóa bởi các siêu tham số tốt nhất và được đào tạo thông qua các siêu tham số này Mô hình 168
đào tạo được đánh giá chất lượng bởi tập ảnh kiểm tra mới và so sánh với các nhãn thực tế 169
Trích xuất Ta tiến hành trích xuất dữ liệu lần lượt thành đặc trưng kết cấu, 173
khoảng dữ liệu và hàm mật độ xác suất Tất cả hình ảnh đầu tiên sẽ được 174
chuyển đổi từ ảnh màu thành ảnh trắng đen Đối với đặc trưng kết cấu,
Trang 7Bảng 3.Bảng kết quả phân chia dữ liệu.
bốn đặc trưng có công thức và khoảng giá trị từ bảng1 Đối với trích 176
xác suất, bài báo sử dụng thêm lệnh histeq nhằm cân bằng tần số Sau đó 178
xác suất cho mỗi tần số điểm ảnh Kết quả trích xuất hình ảnh được thể 180
hiện một cách thống kê, đối với kết cấu3a, đối với khoảng dữ liệu3bvà 181
Chuẩn hóa Các dạng dữ liệu kết cấu và hàm mật độ được chuẩn hóa về 183
Chia dữ liệu Dữ liệu sau khi được trích xuất theo từng loại khác nhau sẽ 185
được chia thành hai tập huấn luyện và tập kiểm tra với tỷ lệ lần lượt là 186
Tối ưu Mỗi mô hình phân loại đều được tối ưu hóa các siêu tham số tự 190
Đào tạo Các mô hình phân loại sẽ được đào tạo sử dụng siêu tham số đã 192
Đánh giá Mô hình được đánh giá sơ bộ trên tập dữ liệu và tính toán thời 195
Phân loại Mô hình với siêu tham số tối ưu được đánh giá bằng một số tiêu 198
Thuật toán phân loại được tóm tắt trong hình7 Để đánh giá mô hình có cơ sở, các câu hỏi 200
Trang 8Phrase 1 Tiền xử lý hình ảnh
Phrase 2 Xây dựng mô hình phân loại
Phương pháp
đề suất
Các phương
pháp khác
FCM Bayes
Machine Learning Deep Learning
Tối ưu hóa
mô hình
Đào tạo
Phrase 3 Áp dụng phân loại hình ảnh mới
Phương pháp
đề suất
Các phương pháp khác
Hình ảnh mới
ACC% Kiểm tra
206
xác suất phân loại đúng, chỉ số F1, độ chính xác cục bộ, hệ số Kappa và thời gian đào tạo 212
Trang 9(a)Các đặc trưng kết cấu trong dữ liệu.
(b)Khoảng dữ liệu được trích xuất
(c)Các hàm mật độ xác suất của tập dữ liệu hình ảnh PillsQC được cần bằng tần
số và chuẩn hóa về đoạn[0 , 1] Các hàm PDFs có màu xanh trích xuất từ ảnh thuốc chuẩn, các hàm PDFs màu đỏ thể hiện cho hình ảnh bị nhiễm bẩn
Hình 3.Mô tả trực quan từng loại trích xuất hình ảnh
Trang 10Bảng 4.Kết quả phân loại hình ảnh cho các mô hình phân loại cho dữ liệu được trích xuất thành đặc trưng kết cấu
Bảng 5.Kết quả phân loại hình ảnh cho các mô hình phân loại cho dữ liệu được trích xuất thành khoảng dữ liệu
Trang 11Bảng 6.Kết quả phân loại hình ảnh cho các mô hình phân loại cho dữ liệu được trích xuất thành hàm mật độ xác suất
Bảng 7.Kết quả phân loại của các mô hình ConvNet khác nhau
Kết quả thực nghiệm của nghiên cứu được trình bày để trả lời các câu hỏi RQ1 và RQ2 215
Bảng 8.Xác suất phân loại đúng và hệ số kappa của các mô hình phân loại thích hợp nhất cho từng phương pháp trích xuất dữ liệu và mạng ConvNet
nhưng mô hình cho xác suất phân loại và hệ số kappa cao nhất là thuật toán đề nghị (ACC: 217
Trả lời câu hỏiRQ2., thời gian đào tạo của các mô hình xây dựng trên dữ liệu được 219
trích xuất thì thời gian đào tạo và kiểm tra cho mô hình FCM-BayesKer thấp nhất (0.62) 222
bỏ ngõ về lý thuyết và nền tảng của nhiều ứng dụng thực tế Nghiên cứu này đã cải tiến bài 225
cho bài toán phân loại Từ kết quả trích xuất ảnh và áp dụng thuật toán đề nghị, nghiên 229
cứu tiến hành phân loại ảnh cho hai trạng thái thuốc Pills QC là thuốc chuẩn và thuốc bị 230
nhiễm bẩn Kết quả thực hiện cho thấy thuật toán đề nghị đã cho kết quả nổi bậc với tập 231
ảnh này khi so sánh với các thuật toán nổi tiếng được sử dụng phổ biến hiện nay Với tập 232
huấn luyện đủ lớn, chúng tôi tin rằng thuật toán đề nghị có thể cải thiện thêm hiệu quả 233
Ký hiệu viết tắt
Trang 12Các ký hiệu viết tắt được sử dụng trong bài báo cáo có ý nghĩa như sau 236
237
PDFs Các hàm mật độ phân phối xác suất (Probabiliby density functions) FDA Phân tích phân biệt Fisher (Fisher Dicriminant Analysis)
QDA Phân tích nhân dạng bậc hai SVM Máy học véc-tơ hỗ trợ
238
Processor 11th Gen Intel(R) Core(TM) i5-11400H @ 2.70GHz 2.69 GHz Installed RAM 8,00 GB
System type 64-bit operating system, x64-based processor (AMD64) Edition Windows 11 Home Single Language
1 Bao gồm các chỉ số đánh giá: Xác suất phân loại đúng toàn cục, độ chính xác và chỉ số F1 245
1 Bedford T & M Cooke R 2002 Vines: A new graphical model for dependent random variables Annals of Statistics, 30, 1031–1068. 247
3 Fisher R A 1938 The statistical utilization of multiple measurements, Annals of Eugenics, 8, 376–386. 249
4 Ha Che-Ngoc, Thao Nguyen-Trang, Tran Nguyen-Bao, Trung Nguyen-Thoi, Tai V V 2020 A new approach for face detection using 250
the maximum function of probability density functions Annals of Operations Research.https://doi.org/10.1007/s10479-020-03823-1 251
5 Haraclick R M 1979 Statistical and structural approaches to texture Proceedings of the IEEE, 67, 786-804. 252
6 Kung J Y, Wu C C, Hsu Lee S Y S & Yang C W 2010 Application of logistic regression analysis of home mortgage loan prepayment 253
7 Nhu VH, Zandi D, Shahabi H 2020 Comparison of support vector machine, Bayesian logistic regression, and alternating decision 255
tree algorithms for shallow landslide susceptibility mapping along a mountainous road in the west of Iran Applied Science; 10(15) 256
8 Pham-Gia T, Turkkan N & Bekker A 2007 Bounds for the bayes error in classification: a Bayesian approach using discriminant 258
9 Pham-Gia T, Turkkan N, Vovan T 2008 Statistical discrimination analysis using the maximum function Communications in Statistics 260
10 Phung S L., Bouzerdoum, A and Chai, D (2005) Skin segmentation using color pixel classification: analysis and comparison, 262
11 Sklar M 1959 Fonctions de repartition an dimensions etleurs marges, Universit’e Paris 8, 229-231. 264
12 Tai VV, Thao N T 2018 Similar coefficient of cluster for discrete elements Sankhya B, The Indian Journal of Statistics, 80(1): 19 - 36. 265
13 Pham-Gia, T., Turkkan, N., Vovan, T (2008) Statistical discrimination analysis using the maximum function Communications in 266
14 Tai V.V., Loc, T.P., & Ha, C.N (2018) Classifying two populations by Bayesian method and applications Communications in 268
15 Thao, N T., & Tai, V V (2017) A new approach for determining the prior probabilities in the classification problem by Bayesian 270
16 Zhao, D., Liu, H., Zheng, Y., He, Y., Lu, D., & Lyu, C (2019) A reliable method for colorectal cancer prediction based on feature 272
selection and support vector machine Medical & Biological Engineering & Computing, 57, 901–912. 273
17 Zhang, N., Ruan, S., Lebonvallet, S., Liao, Q., & Zhu, Y (2018) Kernel feature selection to fuse multi-spectral MRI images for brain 274
18 Che-Ngoc, H., Nguyen-Trang, T., Nguyen-Bao, T et al A new approach for face detection using the maximum function of 276
probability density functions Ann Oper Res (2020).https://doi.org/10.1007/s10479-020-03823-1 277
19 Vo-Van, Tai & Che Ngoc, Ha & Nguyen-Trang, Thao (2017) Textural Features Selection for Image Classification by Bayesian 278
Method 10.1109/FSKD.2017.8393365