Ứng dụng phương pháp bình chọn các mô hình trí tuệ nhân tạo để phân loại hai lớp và đa lớp trong xây dựng

Bài viết sử dụng hai bộ dữ liệu về sự hóa lỏng đất (hai lớp) và lỗi sai trên thép tấm (đa lớp) để kiểm tra tính hiệu quả của mô hình đề xuất. Kết quả cho thấy mô hình voting vượt trội so với các mô hình so sánh khác trong việc phân loại dữ liệu. Trong đó, NBDT là mô hình voting tốt nhất khi phân loại bộ dữ liệu hai lớp (87.168%) và SVM-DT cho hiệu suất làm việc tốt nhất khi phân loại bộ dữ liệu đa lớp (89.505%).

Trang 1

Ứng dụng phương pháp bình chọn các mô hình trí tuệ nhân tạo để

phân loại hai lớp và đa lớp trong xây dựng

Phạm Thị Phương Trang

Danang of Technology and Education, The University of Danang,

ptptrang@ute.udn.vn

Tóm tắt Phân loại là một trong những nhiệm vụ quan trọng trong lĩnh vực xây dựng Phân loại có hai dạng chính là phân loại hai lớp và đa lớp (nhiều hơn hai lớp) Nếu phân loại chính xác, các nhà quản lý

có thể giảm thiểu tối đa mức độ rủi ro trong quá trình thực hiện công việc Do đó, việc tạo ra mô hình

có thể dự báo đồng thời các bộ dữ liệu hai lớp và đa lớp với hiệu quả cao là mối quan tâm của các nhà nghiên cứu khoa học Mục tiêu của bài báo là đề xuất phương pháp bình chọn voting để tạo nên mô hình tối ưu nhất giải quyết bài toán phân loại trong xây dựng Mô hình voting được xây dựng từ ba mô hình phân loại trí tuệ nhân tạo đơn lẻ phổ biến đó là máy học vectơ hỗ trợ (SVM), Navie Bayes (NB)

và Cây quyết định (DT) Trong nghiên cứu này, tác giả sử dụng hai bộ dữ liệu về sự hóa lỏng đất (hai lớp) và lỗi sai trên thép tấm (đa lớp) để kiểm tra tính hiệu quả của mô hình đề xuất Kết quả cho thấy

mô hình voting vượt trội so với các mô hình so sánh khác trong việc phân loại dữ liệu Trong đó,

NB-DT là mô hình voting tốt nhất khi phân loại bộ dữ liệu hai lớp (87.168%) và SVM-NB-DT cho hiệu suất làm việc tốt nhất khi phân loại bộ dữ liệu đa lớp (89.505%)

Từ khóa: Trí tuệ nhân tạo, máy học vectơ hỗ trợ, Navie Bayes, cây quyết định

Abstract Classification can be considered one of critical tasks in civil engineering Classification problem includes two main forms - binary and multiclass classification (more than two classes) Clearly, with the accurate classification, the managers can reduce a minimum of the level of risk in work progress Therefore, creating a model which predicts both binary classification and multiclass classification is the concern of researchers The goal of the study is to propose models-based voting strategy to handle classification problem in civil engineering field Voting models are taken shape from three basic popular artificial intelligent classification models, including Support vector machine (SVM), Navie Bayes (NB) and Decision tree (DT) In the study, the author applies two datasets which are soil liquefaction and steel plate fault detection to evaluate the performance of proposed models The results show that voting model outperforms other models when classifying datasets Specifically, NB-DT is the best voting model with binary class dataset (87.168%) and SVM-DT yields the best performance when applying multiple class dataset (89.505%)

Keywords: Artificial intelligent, Support vector machine, Navie Bayes, Decision tree

1 Đặt vấn đề

Phân loại là chìa khoá giúp loài người nhận biết được thế giới Phân loại liên quan đến lĩnh vực xây dựng rất đa dạng, phong phú và cũng rất phức tạp Phân loại có hai dạng chính là phân loại hai lớp và phân loại

đa lớp Một số ví dụ về phân loại trong xây dựng có thể kể đến như sự hóa lỏng của đất (hóa lỏng hay không hóa lỏng), phân loại chất lượng công trình (tốt, trung bình, xấu…), phân loại rủi ro công trình, phân loại mức độ tranh cãi trong đấu thầu xây dựng (tranh cãi, không tranh cãi, ra tòa…), phân loại cường độ bê tông (cao, thấp hoăc trung bình), phân loại lỗi sai trên thép tấm … Vậy, mục đích của việc phân loại là giúp đưa ra những dự báo về rủi ro một cách nhanh chóng và chính xác để từ đó đề xuất phương án khắc phục và giải quyết khi sự cố xảy ra Hiện nay, trên thế giới có rất nhiều thuật toán và mô hình đã ra đời nhằm giải quyết bài toán này, nhưng những thuật toán này chưa có độ chính xác cao và rất ít công trình nghiên cứu giải quyết vấn đề phân loại hai lớp và đa lớp cùng một lúc Ngoài ra, hầu hết các công thức tính

Trang 2

tốn đều được xây dựng trên quan điểm của từng tác giả và các kết quả đo được từ thực nghiệm nên phạm

vi sử dụng và kết quả tính tốn của mỗi cơng thức rất khác nhau

Gần đây, các thuật tốn dựa trên trí tuệ nhân tạo (TTNT) là những cơng cụ hữu hiệu để giải quyết các bài tốn trong lĩnh vực xây dựng, trong đĩ cĩ cả phân loại Một số nghiên cứu đã sử dụng TTNT như ứng dụng TTNT để dự đốn vấn đề tranh cãi trong các dự án PPP [1] hay áp dụng các thuật tốn TTNT để dự đốn rủi ro các dự án thi cơng cầu [2], hay sử dụng TTNT phân loại chất lượng nguồn nước tại các hồ chứa trong dự án thủy lợi thủy điện [3] Trong nghiên cứu này, tác giả sử dụng ba thuật tốn TTNT được ứng dụng rộng rãi là máy học vecto hỗ trợ (SVM), Nạve Bayes (NB) và cây quyết định (DT) Những thuật tốn này đã được ứng dụng khá nhiều để phân loại dữ liệu Ví dụ, mơ hình phân loại dựa trên SVM được các nhà nghiên cứu sử dụng để phân loại chất lượng đất [4], hay mơ hình SVM kết hợp với véc tơ hồi quy thích hợp (RVR) để phân loại các loại khối đá trong quá trình xây dựng đường hầm [5] Jiangtao Ren và cộng sự

đã ứng dụng Naive Bayes tron việc phân loại bộ dữ liệu khơng chắc chắn [6] Ngồi ra, một vài nghiên cứu

đã dùng mơ hình Naive Bayes để phân loại dữ liệu lưu trữ trên Web [6], tài liệu văn bản [7] Các thuật tốn SVM, Logistic Regression and Neural Networks cũng được ứng dụng trong y học trong việc dự đốn các hội chứng về bệnh tim mạch [8] Rõ ràng, các thuật tốn TTNT đã được các nhà khoa học ứng dụng rộng rãi trong hầu hết các lĩnh vực khác nhau, và đã giải quyết được rất nhiều bài tốn trong phân loại

Tuy vậy, những thuật tốn trí tuệ nhân tạo đơn lẻ như SVM, Navie Bayes và DT cũng cĩ những điểm yếu riêng và khi hoạt động đơn lẻ cĩ thể sẽ khơng giải quyết được các bài tốn phức tạp một cách tối ưu nhất Vì vậy, việc kết hợp các thuật tốn TTNT đơn lẻ với nhau cĩ thể mang đễn kết quả tốt hơn Bình chọn

là một phương pháp kết hợp các thuật tốn đơn lẻ nhằm mục đích nâng cao tính chính xác kết quả nghiên cứu Do đĩ, việc đề xuất phương pháp bình chọn mơ hình TTNT để phân loại hai và đa lớp trong xây dựng

là cần thiết

Bài báo này đề xuất ba thuật tốn đơn lẻ TTNT và sau đĩ kết hợp chúng lại với nhau và sử dụng phương pháp bình chọn để tạo ra mơ hình tối ưu nhất cho bài tốn phân loại hai lớp và đa lớp trong xây dựng Để đánh giá tính hiệu quả của mỗi thuật tốn tác giả sử dụng tính chính xác để so sánh các thuật tốn

Bố cục bài báo được sắp xếp như sau Phần thứ hai, tác giả giới thiệu các mơ hình TTNT đơn lẻ, phương pháp bình chọn và tiêu chuẩn độ chính xác để đánh giá tính hiệu quả của mỗi mơ hình Tiếp theo, tác giả trình bày hai bộ dữ liệu hai lớp và đa lớp liên quan đến lĩnh vực xây dựng mà tác giả sử dụng Phần thứ tư

là phần phân tích kết quả và cuối cùng là kết luận

2 Thuật tốn

2.1 Các mơ hình trí tuệ nhân tạo cơ sở

Máy học vec-to hỗ trợ (SVM)

Máy véc tơ hỗ trợ (support vector machines – SVMs) là một tập hợp các phương pháp học cĩ giám sát liên quan đến nhau để phân loại và phân tích hồi quy Thuật tốn SVMs được phát triển bởi Vapnik (1995) [9]

SVMs xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một khơng gian nhiều chiều hoặc vơ hạn chiều Để phân loại tốt nhất thì các siêu phẳng nằm ở càng xa các điểm dữ liệu của tất cả các lớp (hàm lề) càng tốt, vì lề càng lớn thì sai số tổng quát hĩa của thuật tốn phân loại càng bé

Navie Bayes (NB)

Naive Bayes là mơ hình học máy cĩ xác suất được sử dụng cho nhiệm vụ phân loại Mấu chốt của phân loại dựa trên định lý Bayes Mặc dù Naive Bayes rất đơn giản, nhưng nĩ thường vượt trội hơn các phương pháp phân loại phức tạp khác [10]

Nhiều nhà nghiên cứu đã phát hiện ra rằng giả định sự độc lập khơng hoạt động trong mọi trường hợp

mà các phương pháp thay thế khác được đề xuất để tăng hiệu suất Tuy nhiên, phân loại Naive Bayesian dựa trên hai giả định quan trọng Đầu tiên, lược đồ đơn giản này cho thấy các thể hiện trong mỗi lớp cĩ thể được tĩm tắt bằng một mơ tả xác suất duy nhất và chúng đủ để phân biệt các lớp với nhau

Cây quyết định (Decision Tree-DT)

Thuật tốn này một cách liên tục phân tách tập dữ liệu theo một tiêu chí tối đa hĩa việc tách dữ liệu, dẫn đến cấu trúc làm việc giống như cây [7, 8] Tiêu chí phổ biến nhất được sử dụng với DT là đạt được thơng

Trang 3

tin; điều này có nghĩa là tại mỗi lần phân tách các lớp, mức giảm sự nhiễu loạn do sự phân tách này được tối đa hóa

Một nhược điểm lớn của cây quyết định đó là nó tạo ra bởi một quá trình xây tham lam: ở mỗi bước, sự kết hợp của biến tốt nhất duy nhất và điểm phân tách tối ưu được chọn; tuy nhiên, giao diện nhiều bước xem xét kết hợp các biến có thể thu được các kết quả khác nhau

So sánh với các thuật toán máy học khác, cây quyết định có ưu điểm là chúng không phải là mô hình hộp đen, nhưng có thể dễ dàng được thể hiện dưới dạng quy tắc Trong nhiều lĩnh vực ứng dụng, ưu điểm này thể hiện rất tốt do đó những mô hình này được sử dụng rộng rãi trong lĩnh vực y học

2.2 Phương pháp bình chọn (Voting algorithm)

Bình chọn hay bỏ phiếu là một phương pháp cho một nhóm để đưa ra quyết định tập thể hoặc bày tỏ ý kiến Chúng ta có thể nói bỏ phiếu là một phương pháp kết hợp nhiều phương pháp phân loại đơn lẻ [11, 12] Lý

do để kết hợp các phương pháp phân loại là nhằm nân cao tính hiệu quả và độ chính xác cho thuật toán đề xuất Hình 1 trình bày cấu trúc của một mô hình tập hợp bỏ phiếu

Hình 1 Cấu trúc mô hình tập hợp bỏ phiếu

Trong nghiên cứu, tác giả đề xuất ba thuật toán TTNT đơn lẻ là SVM, NB và DT Từ ba mô hình đơn lẻ này, tác giả đưa ra bốn mô hình tập hợp kết hợp từ hai đến ba thuật toán cơ bản TTNT khác nhau Các mô hình tập hợp từ hai thuật toán cơ bản là SVM - NB, SVM – DT and NB - DT Mô hình từ ba thuật toán cơ bản là SVM-NB-DT

2.3 Đánh giá kết quả

Để đánh giá hiệu quả các mô hình đề xuất, tác giả đưa ra chỉ tiêu độ chính xác (accuracy) Độ chính xác chính là chỉ tiêu quan trọng nhất trong việc đánh giá thuật toán

Độ chính xác có thể được định nghĩa là mức độ không chắc chắn trong phép đo đối với một tiêu chuẩn tuyệt đối Độ chính xác dự đoán của thuật toán phân loại được tính như sau

tp tn Accuracy

tp fp tn fn

+

= + + + Trong đó

tp (true positive): số lượng các dữ liệu được phân loại chính xác;

fp (false positive): số lượng các dữ liệu không thuộc lớp và bị phân loại nhầm vào lớp đó;

tn (true negative): số lượng các dữ liệu không thuộc lớp đó nhưng phân loại chính xác, tn đại diện cho phân loại chính xác;

fn (false negative): số lượng các dữ liệu thuộc lớp đó bị phân loại nhầm (vào các lớp khác), fn đại diện cho phân loại sai

Trang 4

2.4 Bộ dữ liệu

Đất hóa lỏng

Hóa lỏng đất là một trong những loại tác động địa chất tàn khốc nhất gây ra bởi các trận động đất Người

ta nhận thấy rằng nhiều cấu trúc kỹ thuật đã bị phá hủy nghiêm trọng do hóa lỏng đất hỗ trợ trong trận động đất

Bộ dữ liệu này đại diện cho phân loại hai lớp, dự đoán sự hóa lỏng hay không hóa lỏng đất sau khi động đất xảy ra (the liquefaction or non-liquefaction of soil), được thu thập từ các trận động đất xảy ra tại Mỹ, Trung Quốc và Đài Loan theo nghiên cứu đã công bố[13] Bộ dữ liệu đất hóa lỏng bao gồm 226 trường hợp, trong đó 133 trường hợp hóa lỏng (Lớp 1) và 93 trường hợp không hóa lỏng (Lớp 2)

Bảng 1 trình bày đặc trưng thống kê của các biến được trình bày bao gồm giá trị lớn nhất, giá trị nhỏ nhất, giá trị trung bình và độ lệch chuẩn

Bảng 1 Đặc trưng thống kê của dữ liệu Đơn vị Giá trị lớn nhất Giá trị nhỏ nhất trung bình Giá trị Độ lệch chuẩn Đầu vào

Sức kháng mũi (qc) MPa 25.00 0.90 5.82 4.09

Tỷ lệ ma sát (Rf) % 5.20 0.10 1.22 1.05

Ứng suất hữu hiệu (s’v) kPa 215.20 22.50 74.65 34.40

Tổng ứng suất (sv) kPa 274.00 26.60 106.89 55.36

Gia tốc mặt đất ngang (amax) gal 0.80 0.08 0.29 0.14

Cường độ di chuyển động

đất (Mw) N/A 7.60 6.00 6.95 0.44

Đầu ra

Đất hóa lỏng (1 = hóa lỏng,

2 = không hóa lỏng) N/A 2 1

Lỗi sai trong thép tấm

Dự đoán lỗi sai là một trong các bước quan trọng trong sản xuất công nghiệp Ví dụ, sản xuất các sản phẩm bị lỗi có thể gây ra chi phí cao cho nhà sản xuất các sản phẩm thép Do đó, trong nghiên cứu này tác giả đề xuất bộ dữ liệu về các lỗi trong các tấm thép, là nguyên liệu quan trọng trong hàng trăm sản phẩm công nghiệp, được sử dụng như một trường hợp thực tế về phân loại đa lớp

Bộ dữ liệu ban đầu được lấy từ kho lưu trữ máy học của Đại học California tại Irvine (UCI) (http://archive.ics.uci.edu/ml/datasets/steel+plates+faults) Trong bộ dữ liệu này, các lỗi trong các tấm thép được phân thành 7 loại, bao gồm Pastry, Zscratch, Kscratch, Stains, Dirtiness, Bumps và Other Cơ sở dữ liệu chứa 1941 điểm dữ liệu với 27 biến độc lập, được sử dụng làm dữ liệu đầu vào

2.5 Phân tích kết quả

Hình 2 so sánh độ chính xác của ba mô hình cơ sở và bốn mô hình tập hợp dựa trên biểu quyết với bộ dữ liệu hai lớp đất hóa lỏng Từ hình 2, ta nhận thấy với mô hình đơn lẻ NB cho độ chính xác cao nhất với 86.723%, và khi NB kết hợp với DT cho độ chính xác đạt 87.168% Mô hình kết hợp SVM - NB - DT cũng cho độ chính xác khá cao 86.726% Vì vậy, ta thấy với phương pháp bình chọn ta có được mô hình mới (NB-DT) đạt hiệu quả cao nhất khi sử dụng để phân loại sự hóa lỏng đất sau khi xảy ra động đất Mặc

dù, trong nghiên cứu của Goh và cộng sự [13] kết quả cho thấy SVM đạt 98% khi phân loại bộ dữ liệu đất hóa lỏng, tuy nhiên nghiên cứu này chỉ dừng lại ở phân loại hai lớp đơn giản Nghiên cứu này, với cách thiết lập thông số ban đầu cho các thuật toán TTNT cơ sở, tác giả mong muốn phân loại đồng thời cho cả

dữ liệu hai lớp và đa lớp

Tương tự như vậy, hình 3 so sánh tính hiệu quả của các mô hình với bộ dữ liệu đa lớp phân loại lỗi sai trên thép tấm Ta thấy, với các mô hình đơn lẻ DT lại cho kết quả cao nhất với độ chính xác là 88.407%

Trang 5

Ngoài ra, khi kết hợp SVM và DT ta có được một mô hình mới với độ chính xác đạt 89.505% Do đó, với

bộ dữ liệu đa lớp này, mô hình kết hợp SVM-DT làm việc hiệu quả nhất

Có thể nói, tùy thuộc vào chất lượng bộ dữ liệu và sự kết hợp lần lượt của các mô hình đơn lẻ, ta thấy một vài sự kết hợp làm việc hiệu quả và cho kết quả cao hơn các mô hình đơn lẻ

Hình 3 So sánh độ chính xác các mô hình với bộ dữ liệu đất hóa lỏng

Hình 4 So sánh độ chính xác các mô hình với bộ dữ liệu phân loại lỗi sai trên thép tấm

3 Kết luận

Trong bài báo này, tác giả đã đề xuất các mô hình bỏ phiếu được kết hợp từ ba mô hình riêng lẻ (SVM, NB

và DT) trong việc phân loại hai bộ dữ liệu ứng với hai lớp và đa lớp Độ chính xác đã được sử dụng để so sánh hiệu suất dự đoán của các mô hình được kiểm tra

Nhìn chung, với bộ dữ liệu phân loại hai lớp mô hình bỏ phiếu NB-DT cho kết quả cao nhất, còn dữ liệu phân loại lỗi sai trên thép tâm mô hình SVM-NB cho kết quả cao nhất

Mặc dù các mô hình đơn lẻ làm việc cũng khá hiệu quả khi dự đoán với kết quả tốt, nhưng hiệu quả hơn khi ứng dụng phương pháp bình chọn để tạo nên mô hình tối ưu nhất Trong tương lai, tác giả mong muốn

sẽ thu thập được thêm nhiều bộ dữ liệu phân loại phức tạp hơn trong lĩnh vực xây dựng và phát triển nhiều hơn những mô hình TTNT làm việc hiệu quả hơn

Tài liệu tham khảo

1 J.-S Chou, C Lin, Predicting Disputes in Public-Private Partnership Projects: Classification and Ensemble Models, Journal of Computing in Civil Engineering 27(1) (2013) 51-60

85,909 80,521 88,407 81,073 89,505

87,85588,171

SVM Naivy DT SVM-NB SVM-DTNB-DT SVM-NB-DT

Độ chính xác (%)

84,956 86,723 82,743

84,956 84,513

87,168 86,726

SVMNB DT SVM-NB SVM-DTNB-DT SVM-NB-DT

Độ chính xác (%)

Trang 6

2 M.-Y Cheng, N.-D Hoang, Risk Score Inference for Bridge Maintenance Project Using Evolutionary Fuzzy Least Squares Support Vector Machine, Journal of Computing in Civil Engineering 28(3) (2014) 04014003

3 Y Liao, J Xu, W Wang, A Method of Water Quality Assessment Based on Biomonitoring and Multiclass Support Vector Machine, Procedia Environmental Sciences 10 (2011) 451-457

4 Y Liu, H Wang, H Zhang, K Liber, A comprehensive support vector machine-based classification model for soil quality assessment, Soil and Tillage Research 155 (2016) 19-26

5 R Gholami, V Rasouli, A Alimoradi, Improved RMR Rock Mass Classification Using Artificial Intelligence Algorithms, Rock Mechanics and Rock Engineering 46(5) (2013) 1199-1209

6 J Ren, S.D Lee, X Chen, B Kao, R Cheng, D Cheung, Naive Bayes Classification of Uncertain Data,

2009 Ninth IEEE International Conference on Data Mining, 2009, pp 944-949

7 W Zhang, F Gao, An Improvement to Naive Bayes for Text Classification, Procedia Engineering 15 (2011) 2160-2164

8 R.S Divyansh Khanna, Veeky Baths, and Bharat Deshpande, Comparative Study of Classification Techniques (SVM, Logistic Regression and Neural Networks) to Predict the Prevalence of Heart Disease, International Journal of Machine Learning and Computing 5 (2015)

9 V.N Vapnik, The nature of statistical learning theory, Springer-Verlag, New York, 1995

10 P Langley, Iba, W., & Thompson, K , An analysis of Bayesian classifiers, Proceedings of the Tenth National Conference on Artificial Intelligence (1992) 223-228

11 J Kittler, M Hatef, R.P.W Duin, J Matas, On combining classifiers, IEEE Transactions on Pattern Analysis and Machine Intelligence 20(3) (1998) 226-239

12 L I Kuncheva, Combining Pattern Classifiers: Methods and Algorithms, 2007

13 A.T.C Goh, S.H Goh, Support vector machines: Their use in geotechnical engineering as illustrated using seismic liquefaction data, Computers and Geotechnics 34(5) (2007) 410-421

Định dạng
Số trang	6
Dung lượng	319,4 KB