Ứng dụng thuật toán “rừng ngẫu nhiên” cho phân tích hồi qui khả năng chịu tải của khung thép phi tuyến

Trong bài viết này, tác giả giới thiệu một phương pháp dựa trên thuật toán “rừng ngẫu nhiên” để phân tích hồi quy khả năng chịu tải của khung thép. Phân tích trực tiếp được sử dụng để xác định khả năng chịu tải của khung thép. Các thông số đầu vào của mô hình là các đặc trưng về tiết diện của phần tử khung và đặc tính vật liệu.

Trang 1

Tạp chí Khoa học Công nghệ Xây dựng, NUCE 2021 15 (2V): 110–120

ỨNG DỤNG THUẬT TOÁN “RỪNG NGẪU NHIÊN”

CHO PHÂN TÍCH HỒI QUI KHẢ NĂNG CHỊU TẢI CỦA

KHUNG THÉP PHI TUYẾN

Hà Mạnh Hùnga,∗

a Khoa Xây dựng dân dụng và Công nghiệp, Trường Đại học Xây dựng,

55 đường Giải Phóng, quận Hai Bà Trưng, Hà Nội, Việt Nam Nhận ngày 11/04/2021, Sửa xong 06/05/2021, Chấp nhận đăng 07/05/2021

Tóm tắt

Các bài toán thiết kế công trình phức tạp như thiết kế tối ưu hay tính toán độ tin cậy tiêu tốn thời gian rất lớn đặc biệt là trong trường hợp sử dụng các phân tích phi tuyến Vấn đề này có thể được giải quyết bằng cách sử dụng các mô hình dự báo như sử dụng các thuật toán máy học nhằm dự đoán ứng xử của công trình Thuật toán

“rừng ngẫu nhiên” được xem là một trong những thuật toán máy học tốt nhất hiện nay nhờ sự ứng dụng hiệu quả của nó trong nhiều lĩnh vực nghiên cứu đối với cả bài toán phân tích hồi qui và phân loại Trong bài báo này, tác giả giới thiệu một phương pháp dựa trên thuật toán “rừng ngẫu nhiên” để phân tích hồi quy khả năng chịu tải của khung thép Phân tích trực tiếp được sử dụng để xác định khả năng chịu tải của khung thép Các thông số đầu vào của mô hình là các đặc trưng về tiết diện của phần tử khung và đặc tính vật liệu Một khung thép không gian 6 tầng được sử dụng làm ví dụ để đánh giá hiệu quả của mô hình Kết quả thu được cho thấy,

số lượng cây ra quyết định nên sử dụng ≥ 100; Đối với bài toán hồi quy, cây ra quyết định nên được phân chia đến độ sâu tối đa; Và, độ chính xác của mô hình tăng lên khi số lượng mẫu huấn luyện tăng lên nhưng cần xem xét dựa trên tương quan giữa hiện quả mang lại về mặt kết quả và thời gian tính toán.

Từ khoá: rừng ngẫu nhiên; máy học; phân tích trực tiếp; khung thép; phi tuyến.

RANDOM FOREST-BASED METHOD FOR REGRESSION OF LOAD-CARRYING CAPACITY OF NON-LINEAR STEEL FRAMES

Abstract

Complex structural design problems such as optimal design or reliability calculation take excessive computa-tional efforts, especially in the case of using nonlinear analyzes This problem can be solved by using meta-models such as using machine learning algorithms to predict building responses The random forest has been considered as one of the most robust Machine Learning techniques since it has been successfully applied for both regression and classification problems in many fields In this paper, we develop a random forest-based method for regression and classification of the load-carrying capacity of steel frames Direct analysis is used

to estimate the load-carrying capacity of this frame The input variables are the information of cross-sections

of structural members and material A six-story space frame is studied to demonstrate the efficiency of the proposed method The obtained results show that the number of decision-making trees should be greater than 100; For regression problems, decision trees should be divided up to maximum depth; And, the accuracy of the model increases when the number of trained samples increases but it should be considered based on the correlation between the results in terms of efficiency and calculation time.

Keywords: random forest; machine learning; direct analysis; steel frame; nonlinear.

∗

Tác giả đại diện Địa chỉ e-mail:hunghm@nuce.edu.vn (Hùng, H M.)

Trang 2

1 Giới thiệu

Phân tích kết cấu công trình đòi hỏi phản ánh càng sát ứng xử thực tế của công trình càng tốt Chính vì vậy, các phương pháp phân tích hiện đại dựa trên phân tích trực tiếp ngày càng được sử dụng rộng rãi, đặc biệt là đối với kết cấu thép [1, 2] Phân tích trực tiếp cũng được chấp nhận trong các phiên bản mới của các tiêu chuẩn AISC LRFD [3] Ưu điểm của các phương pháp phân tích trực tiếp

là chúng có khả năng mô tả ứng xử của cả hệ thống kết cấu công trình khi chịu tải trọng, đặc biệt là

sự thay đổi của công trình khi tải trọng thay đổi Qua đó, khả năng chịu tải của toàn bộ hệ thống công trình sẽ được xác định Tính an toàn của công trình sẽ được đánh giá một cách đơn giản thông qua việc so sánh khả năng chịu tải của công trình không được nhỏ hơn áp lực do tải trọng gây ra [1,2] Tuy nhiên, các phân tích trực tiếp thường rất tốn thời gian Do vậy, ứng dụng của chúng còn hạn chế, đặc biệt là đối với các bài toán đòi hỏi phải có nhiều lần phân tích kết cấu như là bài toán tối ưu hay tính toán độ tin cậy của công trình [4 6] Để giảm bớt số lượng phân tích kết cấu trong các bài toán này, một cách tiếp cận gần đúng sử dụng các mô hình thuật toán máy học (Machine learning) (ML) đang thu hút được sự quan tâm nghiên cứu trong thời gian gần đây [7,8]

Nói một cách tổng quát, các thuật toán ML trang bị cho máy tính khả năng tự động hiểu, phân tích, xử lý và học hỏi từ thông tin/dữ liệu đầu vào và từ đó để thực hiện các nhiệm vụ được giao Dựa trên đặc điểm này, thuật toán máy học có thể được sử dụng để huấn luyện máy tính có khả năng ước lượng ứng xử của kết cấu công trình dựa trên các thông tin đầu vào của kết cấu ví dụ như: kích thước, đặc điểm vật liệu, đặc điểm tải trọng, v.v Một số nghiên cứu nổi bật về việc ứng dụng các thuật toán ML vào đánh giá ứng xử của kết cấu có thể kể đến ở đây như sau Vũ và cs [9] đã ứng dụng thuật toán Gradient Tree Boosting (GTB) để ước lượng khả năng chịu tải của cọc ống thép nhồi bê tông (CFST) Hùng và cs [10] trình bày các xử lý hiện tượng quá khớp trong mô hình học sâu (Deep Learning) (DL) cho giàn thép phi tuyến Ứng dụng các thuật toán ML để tính độ tin cậy của công trình cũng được nhiều nhà khoa học quan tâm nghiên cứu như: Yang và Hsieh [11] sử dụng Support Vector Machine (SVM), Chen và cs [12] sử dụng Kriging, Gholizadeh [13] sử dụng mạng nơ-ron lan truyền ngược (back-propagation neural network), v.v Bên cạnh đó, việc đánh giá/nhận diện hư hỏng của công trình bằng các thuật toán ML cũng thu được áp dụng ngày càng nhiều Ví dụ như Oh và cs [14] sử dụng Bayesian để phân loại các trạng thái hư hỏng của công trình chịu động đất Hasni và cs [15] sử dụng SVM để theo dõi sức khỏe công trình thép

Trong việc ứng dụng thuật toán ML vào các bài toán thiết kế công trình, sự hiệu quả phụ thuộc rất nhiều yếu tố, trong đó có 2 yếu tố cơ bản cần lưu ý như sau Thứ nhất, không có một thuật toán nào được xem là vượt trội hơn cả mà tùy thuộc vào lớp bài toán hay cụ thể hơn là đặc điểm của bài toán thiết kế Do vậy, sự nghiên cứu và ứng dụng các thuật toán ML mới luôn là hết sức cần thiết nhằm tối

ưu hóa trong công việc Thứ hai, tính hiệu quả của mỗi thuật toán ML ảnh hưởng khá nhiều bởi việc lựa chọn các giá trị tham số hệ thống mà số lượng tham số hệ thống của mỗi thuật toán lại khá nhiều Cho nên, đối với mỗi lớp bài toán cụ thể, chúng ta cần thực hiện các phân tích, đánh giá nhằm tìm ra cách sử dụng các tham số là hiệu quả nhất cho mô hình huấn luyện

Dựa trên quan điểm đó, trong bài báo này, tác giả trình bày chi tiết cách xây dựng mô hình huấn luyện cho bài toán ước lượng khả năng chịu tải của khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên (Random Forest) (RF) Thuật toán rừng ngẫu nhiên được lựa chọn dựa trên sự hiệu quả, mạnh mẽ của nó trong việc giải quyết các bài toán phân tích hồi qui và phân loại [16,17] Thêm vào

đó, chưa có nghiên cứu cụ thể nào trình bày sự áp dụng thuật toán này vào bài toán ước lượng khả năng chịu tải của khung thép phi tuyến Một khung thép không gian 6 tầng được sử dụng để minh họa cho cách thiết lập mô hình huấn luyện sử dụng RF Ảnh hưởng của các tham số hệ thống của RF đến hiệu quả của mô hình cũng được tiến hành phân tích nhằm đưa ra các đề xuất lựa chọn giá trị tham số

Trang 3

Hùng, H M / Tạp chí Khoa học Công nghệ Xây dựng hợp lý

2 Thuật toán rừng ngẫu nhiên

RF được giới thiệu lần đầu tiên bởi Breiman vào năm 2001 [18] Nó là một phương pháp phân loại và hồi quy theo phương thức học có kiểm soát, bao gồm sự kết hợp nhiều cây dự báo/cây ra quyết định Mỗi cây ra quyết định được tạo ra dựa trên một tập mẫu huấn luyện ngẫu nhiên được tạo ra

từ tập mẫu huấn luyện ban đầu với cùng độ lớn theo nguyên tắc lấy mẫu có hoàn lại (phương pháp Bootstrap) nghĩa là một mẫu có thể được lấy nhiều lần Các cây ra quyết định dựa trên tập mẫu vừa tạo ra với nguyên tắc chỉ sử dụng một số lượng biến đầu vào tại mỗi nút phân chia Kết quả cuối cùng

là giá trị trung bình kết quả thu được từ tất cả các cây ra quyết định Bằng cách sử dụng thật nhiều cây

ra quyết định, sai số ước lượng của mô hình sẽ được giảm đi đáng kể Nguyên lý của thuật toán được tóm tắt trong Hình1

Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489

4

106

Hình 1 Thuật toán rừng ngẫu nhiên

107

Trong bài toán hồi quy, các cây dự báo sẽ nhận các giá trị số cụ thể thay vì kỹ

108

thuật phân loại (ra quyết định) [19] Trong thiết kế các cây ra quyết định của phân tích

109

hồi quy, các cây được cho phép phát triển đến độ sâu tối đa của dữ liệu huấn luyện mà

110

không tiến hành giản lược lại (ngắt cành) Đây cũng là một ưu điểm chính của thuật

111

toán này bởi vì việc thực hiện giản lược cây là một yếu tố chính ảnh hưởng đến hiệu

112

suất của mô hình [20] Breiman [19] cũng cho rằng khi số lượng cây tăng lên, sai số

113

tổng quát luôn hội tụ ngay cả khi không giản lược cây, và việc xử lý hiện tượng mô hình

114

quá khớp được thực hiện dựa trên nguyên tắc luật số lớn (Strong Law of Large

115

Numbers) [21] Số lượng biến được sử dụng (N) tại mỗi nút để tạo ra một cây ra quyết

116

định và số lượng cây ra quyết định (k) được sử dụng là hai tham số do người dùng lựa

117

chọn trước [19]

118

Dựa trên trình bày trên đây, chúng ta rút ra được các thông số quan trọng có thể

119

ảnh hưởng đến hiệu suất của mô hình rừng ngẫu nhiên là: (1) số lượng cây ra quyết định

120

được sử dụng; (2) kỹ thuật lấy mẫu (sử dụng hay không sử dụng kỹ thuật bootstrap);

121

(3) số lượng biến được sử dụng tại mỗi nút; (4) đặc điểm của tập dữ liệu bao gồm thông

122

số đầu vào và thông số đầu ra của mô hình

123

3 Xây dựng thuật toán sử dụng rừng ngẫu nhiên để ước lượng khả năng chịu tải

124

của khung thép

125

3.1 Khả năng chịu tải của khung thép

126

Trong các phương pháp phân tích trực tiếp, sự an toàn của kết cấu được đánh giá

127

thông qua việc so sánh khả năng chịu tải của toàn bộ hệ thống với tải trọng tác dụng lên

128

công trình Nếu khả năng chịu tải lớn hơn tải trọng tác dụng thì ta có công trình an toàn,

129

ngược lại thì công trình sẽ mất an toàn Để chuẩn hóa tính chất này, thay vì sử dụng

130

Hình 1 Thuật toán rừng ngẫu nhiên

Trong bài toán hồi quy, các cây dự báo sẽ nhận các giá trị số cụ thể thay vì kỹ thuật phân loại (ra quyết định) [19] Trong thiết kế các cây ra quyết định của phân tích hồi quy, các cây được cho phép phát triển đến độ sâu tối đa của dữ liệu huấn luyện mà không tiến hành giản lược lại (ngắt cành) Đây cũng là một ưu điểm chính của thuật toán này bởi vì việc thực hiện giản lược cây là một yếu tố chính ảnh hưởng đến hiệu suất của mô hình [20] Breiman [19] cũng cho rằng khi số lượng cây tăng lên, sai

số tổng quát luôn hội tụ ngay cả khi không giản lược cây, và việc xử lý hiện tượng mô hình quá khớp được thực hiện dựa trên nguyên tắc luật số lớn (Strong Law of Large Numbers) [21] Số lượng biến được sử dụng (N) tại mỗi nút để tạo ra một cây ra quyết định và số lượng cây ra quyết định (k) được

sử dụng là hai tham số do người dùng lựa chọn trước [19]

Dựa trên trình bày trên đây, chúng ta rút ra được các thông số quan trọng có thể ảnh hưởng đến hiệu suất của mô hình rừng ngẫu nhiên là: (1) số lượng cây ra quyết định được sử dụng; (2) kỹ thuật lấy mẫu (sử dụng hay không sử dụng kỹ thuật bootstrap); (3) số lượng biến được sử dụng tại mỗi nút; (4) đặc điểm của tập dữ liệu bao gồm thông số đầu vào và thông số đầu ra của mô hình

112

Trang 4

3 Xây dựng thuật toán sử dụng rừng ngẫu nhiên để ước lượng khả năng chịu tải của khung thép

3.1 Khả năng chịu tải của khung thép

Trong các phương pháp phân tích trực tiếp, sự an toàn của kết cấu được đánh giá thông qua việc

so sánh khả năng chịu tải của toàn bộ hệ thống với tải trọng tác dụng lên công trình Nếu khả năng chịu tải lớn hơn tải trọng tác dụng thì ta có công trình an toàn, ngược lại thì công trình sẽ mất an toàn

Để chuẩn hóa tính chất này, thay vì sử dụng khái niệm khả năng chịu tải của kết cấu, chúng ta có thể

sử dụng thông số “hệ số khả năng chịu tải của kết cấu” (LF) được định nghĩa là tỉ lệ giữa khả năng chịu tải của công trình (R) và hiệu ứng do tải trọng gây ra (S):

LF= R

Lúc này kết cấu được xem là an toàn nếu LF ≥ 1 và ngược lại Trong nghiên cứu này, LF của

khung thép được tính toán dựa trên phân tích phi tuyến tính phi đàn hồi trình bày trong tài liệu [1]

3.2 Xây dựng tập dữ liệu huấn luyện

Xây dựng tập dữ liệu luôn là bước đầu tiên và quan trọng nhất cho việc xây dựng mô hình huấn luyện Để việc nắm bắt cách thức xây dựng dữ liệu cho bài toán ước lượng khả năng chịu tải củaTạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489

148

Hình 2 Khung thép không gian 6 tầng

149

Một tập dữ liệu gồm 20000 dữ liệu được tạo ra bằng cách tổ hợp ngẫu nhiên các

150 tiết diện dầm và cột khác nhau Phần mềm phân tích phi tuyến PAAP [1] được sử dụng

151

để tạo mẫu Với một bộ thông số tiết diện của dầm cột, phần mềm phân tích kết cấu phi

152 tuyến tính phi đàn hồi được thực hiện để thu được LFtương ứng Hình 3 thể hiện sự

153

Hình 2 Khung thép không gian 6 tầng

113

Trang 5

Hùng, H M / Tạp chí Khoa học Công nghệ Xây dựng khung thép, một ví dụ khung thép không gian 6 tầng như trong Hình 2được sử dụng để minh họa trực tiếp Trong khung, các dầm và cột được chia thành 13 nhóm tiết diện khác nhau như trên Hình2 Các cột được thiết kế sử dụng tiết diện W12 và W14, và các dầm được thiết kế sử dụng tiết diện W10, W12, W14 và W16 Vật liệu thép là A992 với mô-đun đàn hồi bằng 200 (Gpa) và cường độ chảy bằng

345 (Mpa) Tải trọng gió tác dụng theo phương Y tại các nút khung có giá trị là 20 kN Tải trọng thẳng đứng phân bố trên các dầm bằng 5,5 kN/m

7

phân bố giá trị LFcủa 20000 dữ liệu được tạo ra Dựa vào hình chúng ta thấy, LFcủa

154

khung nằm chủ yếu trong khoảng giá trị từ (0.5 – 4.0) Tỉ lệ LF < 1 chiếm khoảng 29%

155

LFđược lựa chọn là thông số đầu ra của mô hình huấn luyện Thông số đầu vào của mô

156

hình là các đặc trưng của tiết diện dầm và cột Đối với bài toán khung, rất nhiều đặc

157

trưng của tiết diện có thể ảnh hưởng đến ứng xử của kết cấu Do vậy, để độ chính xác

158

của mô hình càng cao, càng nhiều đặc tính của tiết diện được xét đến trong mô hình

159

huấn luyện càng tốt Trong nghiên cứu này, 16 loại đặc tính của tiết diện được trình bày

160

trong Bảng 1 được sử dụng như biến đầu vào của mô hình do chúng có ảnh hưởng lớn

161

trong chương trình phân tích phi tuyến tính phi đàn hồi được sử dụng Với 13 nhóm tiết

162

diện của khung, chúng ta sẽ có tổng cộng là 208 biến đầu vào

163

164

Hình 3 Phân bố giá trị của LF của tập dữ liệu

165

Bảng 1 Đặc trưng hình học của tiết diện được xem xét như biến đầu vào

166

Đặc trưng của tiết diện

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

Hệ số cong vênh Bán kính hồi chuyển đối với trục yếu

Mô men tĩnh đối với trục y

Mô men tĩnh đối với trục z

Hệ số xoắn

Mô men quán tính đối với trục y

Mô men quán tính đối với trục z Diện tích tiết diện

Diện tích miền cắt để tính cắt dọc theo trục y Diện tích miền cắt để tính cắt dọc theo trục z

Mô men quán tính dẻo đối với trục y

Mô men quán tính dẻo đối với trục z Chiều cao tiết diện

Chiều rộng bản cánh Chiều dày bản cánh Chiều dày vách

Hình 3 Phân bố giá trị của LF của tập dữ liệu

Bảng 1 Đặc trưng hình học của tiết diện được xem xét như biến đầu vào

Đặc trưng của tiết diện

Một tập dữ liệu gồm 20000 dữ liệu được tạo ra bằng cách tổ hợp ngẫu nhiên các tiết diện dầm và cột khác nhau Phần mềm phân tích phi tuyến PAAP [1] được sử dụng để tạo mẫu Với một bộ thông

số tiết diện của dầm cột, phần mềm phân tích kết cấu phi tuyến tính phi đàn hồi được thực hiện để thu

được LF tương ứng Hình3thể hiện sự phân bố giá trị LF của 20000 dữ liệu được tạo ra Dựa vào

Trang 6

hình chúng ta thấy, LF của khung nằm chủ yếu trong khoảng giá trị từ (0,5 – 4,0) Tỉ lệ LF < 1 chiếm khoảng 29% LF được lựa chọn là thông số đầu ra của mô hình huấn luyện Thông số đầu vào của mô

hình là các đặc trưng của tiết diện dầm và cột Đối với bài toán khung, rất nhiều đặc trưng của tiết diện có thể ảnh hưởng đến ứng xử của kết cấu Do vậy, để độ chính xác của mô hình càng cao, càng nhiều đặc tính của tiết diện được xét đến trong mô hình huấn luyện càng tốt Trong nghiên cứu này,

16 loại đặc tính của tiết diện được trình bày trong Bảng1được sử dụng như biến đầu vào của mô hình

do chúng có ảnh hưởng lớn trong chương trình phân tích phi tuyến tính phi đàn hồi được sử dụng Với

13 nhóm tiết diện của khung, chúng ta sẽ có tổng cộng là 208 biến đầu vào

3.3 Xây dựng mô hình huấn luyện

Trình tự các bước xây dựng mô hình huấn luyện sử dụng thuật toán rừng ngẫu nhiên như sau: Bước 1: Xây dựng bài toán Trong bước này chúng ta cần xây dựng được tập dữ liệu, xác định được các biến đầu vào và biến đầu ra của mô hình huấn luyện Đây chính là nội dung đã được trình bày chi tiết trong phần 3.2

Bước 2: Phân chia tập dữ liệu và chuẩn hóa dữ liệu Tập dữ liệu ban đầu sẽ được phân chia thành

2 tập riêng biệt: (1) tập huấn luyện được sử dụng cho quá trình huấn luyện mô hình và (2) tập kiểm tra được sử dụng để đánh giá hiệu quả của mô hình Đối với các tập dữ liệu có giá trị của các thông

số đầu vào khác nhau quá nhiều, các dữ liệu thường được chuẩn hóa bằng cách đưa về trong khoảng [0, 1] nhằm việc huấn luyện đạt hiệu quả cao hơn Công thức để chuẩn hóa được sử dụng như sau:

x0i = xi

trong đó [xi] là giá trị lớn nhất của biến đầu vào xi

Bước 3: Xây dựng mô hình huấn luyện Một số tham số chính của mô hình như sau:

- Hàm mất mát (loss function): Hàm mất mát được hiểu là hàm mục tiêu sẽ được tối thiểu hóa trong quá trình huấn luyện của mô hình Đối với bài toán phân tích hồi quy, các dạng hàm mất mát thường dùng: “sai số toàn phương trung bình” (mean-squared-error) (MSE), “sai số tuyệt đối trung bình” (mean-absolute-error) (MAE) Trong nghiên cứu này, hàm MSE được sử dụng

- Số lượng cây ra quyết định (n_estimators): đây là một tham số có ảnh hưởng rất lớn đến độ chính xác cùa mô hình Vai trò của cây ra quyết định đã được trình bày và phân tích trong phần 2

- Kỹ thuật lấy mẫu: có 2 kỹ thuật cơ bản là: (1) lấy mẫu có hoàn lại (phương pháp Bootstrap) và (2) toàn bộ mẫu được sử dụng để xây dựng mỗi cây ra quyết định

Bước 4: Huấn luyện mô hình Đây là dạng huấn luyện có kiểm soát trên tập huấn luyện Hiệu suất của mô hình được đánh giá dựa vào tập kiểm tra Mô hình thu được được sử dụng để ước lượng hệ số khả năng chịu tải của khung thép

4 Kết quả

Trong phần này, chúng ta lần lượt đánh giá ảnh hưởng của các thông số mô hình đến hiệu suất làm việc của mô hình rừng ngẫu nhiên Từ đó, các khuyến nghị được đưa nhà nhằm giúp người đọc có thể lựa chọn hiệu quả hơn khi áp dụng thuật toán này vào trong công việc của mình Ngôn ngữ lập trình Python cùng thư viện Sklearn được sử dụng để mô hình hóa mô hình huấn luyện rừng ngẫu nhiên

Trang 7

Hùng, H M / Tạp chí Khoa học Công nghệ Xây dựng

4.1 Ảnh hưởng của số lượng cây ra quyết định

Trong phân tích đầu tiên về ảnh hưởng của số lượng cây ra quyết định đến mô hình huấn luyện rừng ngẫu nhiên, số lượng mẫu dữ liệu cho tập huấn luyện và tập kiểm tra được lấy bằng 5000, kỹ thuật lấy mẫu là kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng cây ra quyết định được thay đổi từ 1 đến 1000 Dạng hàm mất mát được sử dụng là MSE Để giảm ảnh hưởng của tính ngẫu nhiên đến kết quả tính toán, tương ứng với mỗi trường hợp chương trình được chạy độc lập 10 lần Kết quả tính toán được thể hiện trong Hình4 Ta có thể thấy rằng khi số lượng cây ra quyết định tăng lên, giá trị hàm mất mát của cả tập huấn luyện và tập kiểm tra đều giảm đi, tức mô hình huấn luyện càng tốt lên Khi số lượng cây ra quyết định được sử dụng ≥ 100, giá trị hàm mất mát của 2 tập dữ liệu hầu như không thay đổi nữa (đã hội tụ) Do vậy, số lượng cây ra quyết định nên được sử dụng với giá trị

đủ lớn và khuyến nghị là ≥ 100

9

dụng để mô hình hóa mô hình huấn luyện rừng ngẫu nhiên

200

4.1 Ảnh hưởng của số lượng cây ra quyết định

201

Trong phân tích đầu tiên về ảnh hưởng của số lượng cây ra quyết định đến mô

202

hình huấn luyện rừng ngẫu nhiên, số lượng mẫu dữ liệu cho tập huấn luyện và tập kiểm

203

tra được lấy bằng 5000, kỹ thuật lấy mẫu là kỹ thuật lấy mẫu có hoàn lại (sử dụng

204

bootstrap), số lượng cây ra quyết định được thay đổi từ 1 đến 1000 Dạng hàm mất mát

205

được sử dụng là MSE Để giảm ảnh hưởng của tính ngẫu nhiên đến kết quả tính toán,

206

tương ứng với mỗi trường hợp chương trình được chạy độc lập 10 lần Kết quả tính toán

207

được thể hiện trong Hình 4 Ta có thể thấy rằng khi số lượng cây ra quyết định tăng lên,

208

giá trị hàm mất mát của cả tập huấn luyện và tập kiểm tra đều giảm đi, tức mô hình huấn

209

luyện càng tốt lên Khi số lượng cây ra quyết định được sử dụng ≥ 100, giá trị hàm mất

210

mát của 2 tập dữ liệu hầu như không thay đổi nữa (đã hội tụ) Do vậy, số lượng cây ra

211

quyết định nên được sử dụng với giá trị đủ lớn và khuyến nghị là ≥ 100

212

213

Hình 4 Ảnh hưởng của số cây ra quyết định đến hiệu suất của mô hình huấn luyện

214

Để làm rõ hơn hiệu quả của thuật toán RF, Hình 5 trình bày so sánh giá trị hàm

215

mất mát của thuật toán RF với 2 thuật toán khác là thuật toán cây ra quyết định (DT) và

216

thuật toán SVM Lưu ý rằng kết quả trình bày trong hình là cho tập kiểm tra với số

217

lượng mẫu trong tập kiểm tra được cố định là 5000 Số lượng mẫu trong tập huấn luyện

218

được thay đổi từ 500 đến 20000 mẫu Kết quả cho thấy rằng thuật toán RF cho giá trị

219

hàm mất mát thấp hơn khá nhiều so với DT và SVM Điều này có nghĩa là RF hiệu quả

220

và mạnh hơn trong trường hợp nghiên cứu này

221

Để làm rõ hơn hiệu quả của thuật toán RF, Hình5trình bày so sánh giá trị hàm mất mát của thuật toán RF với 2 thuật toán khác là thuật toán cây ra quyết định (DT) và thuật toán SVM Lưu ý rằng kết quả trình bày trong hình là cho tập kiểm tra với số lượng mẫu trong tập kiểm tra được cố định là

5000 Số lượng mẫu trong tập huấn luyện được thay đổi từ 500 đến 20000 mẫu Kết quả cho thấy rằng thuật toán RF cho giá trị hàm mất mát thấp hơn khá nhiều so với DT và SVM Điều này có nghĩa là

RF hiệu quả và mạnh hơn trong trường hợp nghiên cứu này.Tạp chí Khoa học Công nghệ Xây dựng, NUCE2020 p-ISSN 2615-9058; e-ISSN 2734-9489

10

222

Hình 5 So sánh hiệu quả của các thuật toán máy học

223

4.2 Ảnh hưởng của kỹ thuật lấy mẫu

224

Hình 4 trong phần 4.1 cũng thể hiện kết quả của kỹ thuật lấy mẫu có hoàn lại đến

225

hiệu suất của mô hình Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ

226

thuật lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn

227

luyện Điều này có nghĩa là tất cả dữ liệu được sử dụng trong mỗi cây ra quyết định

228

Kết quả tính toán được thể hiện trong Hình 6 Ta có thể thấy rằng giá trị hàm mất mát

229

của cả tập huấn luyện và tập kiểm tra không thay đổi khi số lượng cây ra quyết định

230

tăng lên, tương ứng bằng 4.15E-05 và 2.5E-03 Đồng thời, giá trị hàm mất mát đối với

231

tập kiểm tra trong trường hợp sử dụng kỹ thuật lấy mẫu thông thường kém hơn rất nhiều

232

so với khi sử dụng kỹ thuật lấy mẫu có hoàn lại được trình bày trong Hình 4 (bằng

1.1E-233

03) Điều này có nghĩa là kỹ thuật lấy mẫu có hoàn lại nên được sử dụng trong thuật

234

toán ngẫu nhiên

235

236

237

116

Trang 8

4.2 Ảnh hưởng của kỹ thuật lấy mẫu

Hình4trong phần 4.1 cũng thể hiện kết quả của kỹ thuật lấy mẫu có hoàn lại đến hiệu suất của

mô hình Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ thuật lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn luyện Điều này có nghĩa là tất cả dữ liệu được

sử dụng trong mỗi cây ra quyết định Kết quả tính toán được thể hiện trong Hình6 Ta có thể thấy rằng giá trị hàm mất mát của cả tập huấn luyện và tập kiểm tra không thay đổi khi số lượng cây ra quyết định tăng lên, tương ứng bằng 4,15E-05 và 2,5E-03 Đồng thời, giá trị hàm mất mát đối với tập kiểm tra trong trường hợp sử dụng kỹ thuật lấy mẫu thông thường kém hơn rất nhiều so với khi sử dụng kỹ thuật lấy mẫu có hoàn lại được trình bày trong Hình4(bằng 1,1E-03) Điều này có nghĩa là kỹ thuật lấy mẫu có hoàn lại nên được sử dụng trong thuật toán ngẫu nhiên

10

222

223

4.2 Ảnh hưởng của kỹ thuật lấy mẫu

224

Hình 4 trong phần 4.1 cũng thể hiện kết quả của kỹ thuật lấy mẫu có hoàn lại đến

225

hiệu suất của mô hình Để đánh giá kỹ hơn, chúng ta tiếp tục xem xét ảnh hưởng của kỹ

226

thuật lấy mẫu thông thường (không sử dụng bootstrap) đến hiệu suất mô hình huấn

227

luyện Điều này có nghĩa là tất cả dữ liệu được sử dụng trong mỗi cây ra quyết định

228

Kết quả tính toán được thể hiện trong Hình 6 Ta có thể thấy rằng giá trị hàm mất mát

229

của cả tập huấn luyện và tập kiểm tra không thay đổi khi số lượng cây ra quyết định

230

tăng lên, tương ứng bằng 4.15E-05 và 2.5E-03 Đồng thời, giá trị hàm mất mát đối với

231

tập kiểm tra trong trường hợp sử dụng kỹ thuật lấy mẫu thông thường kém hơn rất nhiều

232

so với khi sử dụng kỹ thuật lấy mẫu có hoàn lại được trình bày trong Hình 4 (bằng

1.1E-233

03) Điều này có nghĩa là kỹ thuật lấy mẫu có hoàn lại nên được sử dụng trong thuật

234

toán ngẫu nhiên

235

236

237

4.3 Ảnh hưởng của một số thông số khác

Bên cạnh 2 tham số quan trọng ảnh hưởng đến hiệu suất của mô hình rừng ngẫu nhiên được trình bày ở trên, một số tham số khác cần quan tâm là: (1) số lượng mẫu tối thiểu tại 1 nút, (2) số lượng mẫu tối thiểu tại một lá và (3) số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định Ảnh hưởng của 3 tham số này được trình bày trong Hình7,8và9 Hình7và8cho thấy rằng khi quy định số lượng mẫu tối thiểu tại nút và lá tăng lên, độ chính xác của mô hình bị giảm đi

4.3 Ảnh hưởng của một số thông số khác

238

Bên cạnh 2 tham số quan trọng ảnh hưởng đến hiệu suất của mô hình rừng ngẫu

239

nhiên được trình bày ở trên, một số tham số khác cần quan tâm là: (1) số lượng mẫu tối

240

thiểu tại 1 nút, (2) số lượng mẫu tối thiểu tại một lá và (3) số lượng biến đầu vào lớn

241

nhất cho phép sử dụng đối với một cây ra quyết định Ảnh hưởng của 3 tham số này

242

được trình bày trong Hình 7, 8 và 9 Hình 7 và 8 cho thấy rằng khi quy định số lượng

243

mẫu tối thiểu tại nút và lá tăng lên, độ chính xác của mô hình bị giảm đi đối với cả tập

244

huấn luyện và tập kiểm tra Do vậy, đối với các bài toán phân tích hồi quy, các cây ra

245

quyết định nên được xây dựng với độ sâu tối đa của dữ liệu Hay nói một cách khác là

246

số lượng mẫu tối thiểu tại mỗi lá là 1 và tại mỗi nút là 2 Hình 9 cho thấy rằng việc giới

247

hạn số lượng biến đầu vào cho phép sử dụng tại mỗi cây ra quyết định không ảnh hưởng

248

lớn đến hiệu suất của bài toán hồi quy Điều đó có nghĩa là người dùng có thể sử dụng

249

số lượng biến đầu vào tối đa cho mỗi cây tùy ý (lưu ý không được quá bé) Tuy nhiên,

250

dựa trên Hình 9, hiệu suất của mô hình sẽ tăng lên một chút (không đáng kể) nếu số

251

lượng biến đầu vào tối đa cho mỗi cây bé hơn tổng số lượng biến đầu vào của dữ liệu

252

253

Hình 7 Ảnh hưởng của số lượng mẫu tối thiểu tại một nút đến hiệu suất của mô hình

254

huấn luyện

255

Hình 7 Ảnh hưởng của số lượng mẫu tối thiểu tại một nút đến hiệu suất của mô hình huấn luyện

117

Trang 9

12

256

Hình 8 Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình

257

huấn luyện

258

259

260

huấn luyện

261

4.4 Ảnh hưởng của độ lớn dữ liệu huấn luyện

262

Dựa trên các phân tích trên, để đánh giá ảnh hưởng của độ lớn dữ liệu huấn luyện

263

đến mô hình, trong phần này các tham số của mô hình được lựa chọn như sau: số lượng

264

cây ra quyết định = 100, kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng mẫu

265

tối thiểu tại 1 nút = 2, số lượng mẫu tối thiểu tại một lá = 1 và số lượng biến đầu vào

266

lớn nhất cho phép sử dụng đối với một cây ra quyết định = số lượng biến đầu vào Số

267

Hình 8 Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình huấn luyện

12

256

257

huấn luyện

258

259

260

huấn luyện

261

4.4 Ảnh hưởng của độ lớn dữ liệu huấn luyện

262

Dựa trên các phân tích trên, để đánh giá ảnh hưởng của độ lớn dữ liệu huấn luyện

263

đến mô hình, trong phần này các tham số của mô hình được lựa chọn như sau: số lượng

264

cây ra quyết định = 100, kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng mẫu

265

tối thiểu tại 1 nút = 2, số lượng mẫu tối thiểu tại một lá = 1 và số lượng biến đầu vào

266

lớn nhất cho phép sử dụng đối với một cây ra quyết định = số lượng biến đầu vào Số

267

Hình 9 Ảnh hưởng của số lượng mẫu tối thiểu tại một lá đến hiệu suất của mô hình huấn luyện

đối với cả tập huấn luyện và tập kiểm tra Do vậy, đối với các bài toán phân tích hồi quy, các cây ra quyết định nên được xây dựng với độ sâu tối đa của dữ liệu Hay nói một cách khác là số lượng mẫu tối thiểu tại mỗi lá là 1 và tại mỗi nút là 2 Hình9cho thấy rằng việc giới hạn số lượng biến đầu vào cho phép sử dụng tại mỗi cây ra quyết định không ảnh hưởng lớn đến hiệu suất của bài toán hồi quy Điều đó có nghĩa là người dùng có thể sử dụng số lượng biến đầu vào tối đa cho mỗi cây tùy ý (lưu ý không được quá bé) Tuy nhiên, dựa trên Hình9, hiệu suất của mô hình sẽ tăng lên một chút (không đáng kể) nếu số lượng biến đầu vào tối đa cho mỗi cây bé hơn tổng số lượng biến đầu vào của dữ liệu

4.4 Ảnh hưởng của độ lớn dữ liệu huấn luyện

Dựa trên các phân tích trên, để đánh giá ảnh hưởng của độ lớn dữ liệu huấn luyện đến mô hình, trong phần này các tham số của mô hình được lựa chọn như sau: số lượng cây ra quyết định = 100, kỹ thuật lấy mẫu có hoàn lại (sử dụng bootstrap), số lượng mẫu tối thiểu tại 1 nút = 2, số lượng mẫu tối thiểu tại một lá = 1 và số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định

= số lượng biến đầu vào Số lượng mẫu dữ liệu tập kiểm tra là 5000, còn của tập huấn luyện được thay đổi từ 1000 đến 20000 Mỗi trường hợp chương trình được chạy độc lập 10 lần Kết quả được trình bày trong Hình 10 Có thể nhận ra rằng khi số lượng mẫu của tập huấn luyện tăng lên thì độ chính xác của mô hình đối với tập kiểm tra tăng lên MSE tương ứng với số lượng mẫu là 5000 = 1,13E-03 bằng 44,8% so với MSE của 500 mẫu ( = 2,52E-03) và bằng 168% so với MSE của 20000 mẫu (= 6,72E-04) Rõ ràng yếu tố số lượng mẫu mang tính quyết định nhất đến độ chính xác của mô hình

Trang 10

Hùng, H M / Tạp chí Khoa học Công nghệ Xây dựng huấn luyện Tuy nhiên, việc lựa chọn nhiều số lượng mẫu sẽ làm tăng thời gian tính toán, đặc biệt là thời gian tạo ra dữ liệu đối với các bài toán sử dụng phân tích phi tuyến tính phi đàn hồi như trong bài báo này Cụ thể, đối với 5000 mẫu thì thời gian tạo dự liệu huấn luyện là 8,3 (giờ), còn 20000 mẫu là 33,3 (giờ) Do vậy, sự lựa chọn số lượng mẫu huấn luyện cần phải được xem xét dựa trên mối quan hệ giữa hiệu quả của mô hình và thời gian tính toán

13

lượng mẫu dữ liệu tập kiểm tra là 5000, còn của tập huấn luyện được thay đổi từ 1000

268

đến 20000 Mỗi trường hợp chương trình được chạy độc lập 10 lần Kết quả được trình

269

bày trong Hình 10 Có thể nhận ra rằng khi số lượng mẫu của tập huấn luyện tăng lên

270

thì độ chính xác của mô hình đối với tập kiểm tra tăng lên MSE tương ứng với số lượng

271

mẫu là 5000 = 1.13E-03 bằng 44.8% so với MSE của 500 mẫu ( = 2.52E-03) và bằng

272

168% so với MSE của 20000 mẫu ( = 6.72E-04) Rõ ràng yếu tố số lượng mẫu mang

273

tính quyết định nhất đến độ chính xác của mô hình huấn luyện Tuy nhiên, việc lựa chọn

274

nhiều số lượng mẫu sẽ làm tăng thời gian tính toán, đặc biệt là thời gian tạo ra dữ liệu

275

đối với các bài toán sử dụng phân tích phi tuyến tính phi đàn hồi như trong bài báo này

276

Cụ thể, đối với 5000 mẫu thì thời gian tạo dự liệu huấn luyện là 8.3 (giờ), còn 20000

277

mẫu là 33.3 (giờ) Do vậy, sự lựa chọn số lượng mẫu huấn luyện cần phải được xem xét

278

dựa trên mối quan hệ giữa hiệu quả của mô hình và thời gian tính toán

279

280

Hình 10 Ảnh hưởng của số lượng mẫu của tập huấn luyện đến hiệu suất của mô hình

281

huấn luyện

282

5 Kết luận

283

Bài báo này giới thiệu chi tiết một chương trình ước lượng khả năng chịu tải của

284

khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên Thông số đầu vào của mô

285

hình huấn luyện là các tiết diện của dầm và cột với 16 đặc trưng hình học cho mỗi loại

286

tiết diện Thông số đầu ra là hệ số khả năng chịu tải của kết cấu được xác định sử dụng

287

phân tích trực tiếp phi tuyến tính phi đàn hồi Một khung thép không gian 6 tầng với

288

208 biến đầu vào được sử dụng để đánh giá hiệu quả của mô hình huấn luyện Ảnh

289

hưởng của các thông số quan trọng của mô hình như số lượng cây ra quyết định, kỹ

290

thuật lấy mẫu, số lượng mẫu tối thiểu tại 1 nút và 1 lá, số lượng biến đầu vào lớn nhất

291

cho phép sử dụng đối với một cây ra quyết định và số lượng mẫu của tập huấn luyện

292

Hình 10 Ảnh hưởng của số lượng mẫu của tập huấn luyện đến hiệu suất của mô hình huấn luyện

5 Kết luận

Bài báo này giới thiệu chi tiết một chương trình ước lượng khả năng chịu tải của khung thép phi tuyến sử dụng thuật toán rừng ngẫu nhiên Thông số đầu vào của mô hình huấn luyện là các tiết diện của dầm và cột với 16 đặc trưng hình học cho mỗi loại tiết diện Thông số đầu ra là hệ số khả năng chịu tải của kết cấu được xác định sử dụng phân tích trực tiếp phi tuyến tính phi đàn hồi Một khung thép không gian 6 tầng với 208 biến đầu vào được sử dụng để đánh giá hiệu quả của mô hình huấn luyện Ảnh hưởng của các thông số quan trọng của mô hình như số lượng cây ra quyết định, kỹ thuật lấy mẫu, số lượng mẫu tối thiểu tại 1 nút và 1 lá, số lượng biến đầu vào lớn nhất cho phép sử dụng đối với một cây ra quyết định và số lượng mẫu của tập huấn luyện đến mô hình huấn luyện được phân tích, đánh giá Kết quả thu được cho thấy, số lượng cây ra quyết định nên sử dụng ≥ 100; Đối với bài toán hồi quy, cây ra quyết định nên được phân chia đến độ sâu tối đa; và độ chính xác của mô hình tăng lên khi số lượng mẫu huấn luyện tăng lên nhưng cần xem xét dựa trên tương quan giữa hiệu quả mang lại về mặt kết quả và thời gian tính toán

Tài liệu tham khảo

[1] Thai, H.-T., Kim, S.-E (2011) Nonlinear inelastic analysis of space frames Journal of Constructional Steel Research, 67(4):585–592.

[2] Kim, S.-E., Choi, S.-H (2001) Practical advanced analysis for semi-rigid space frames International Journal of Solids and Structures, 38(50-51):9111–9131.

[3] ANSI/AISC 360-10 (2010) Specification for structural steel buildings Chicago (IL): American Institute

of Steel Construction.

[4] Ha, M.-H., Vu, Q.-V., Truong, V.-H (2020) Optimization of nonlinear inelastic steel frames considering panel zones Advances in Engineering Software, 142:102771.

[5] Ha, M.-H., Vu, Q.-A., Truong, V.-H (2018) Optimum Design of Stay Cables of Steel Cable-stayed Bridges Using Nonlinear Inelastic Analysis and Genetic Algorithm Structures, 16:288–302.

Định dạng
Số trang	11
Dung lượng	1,58 MB