Điều này minh họa tầm quan trọng của các phương pháp tối ưu hóa hình dạng trong nhiều ứng dụng, trên các chủ đề được cả học thuật và công nghiệp quan tâm.. II.LÝ THUYẾT CÁC TÀI LIỆU LIÊN
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CNTT&TT - -
BÁO CÁO MÔN HỌC MẠNG MÁY TÍNH
Đề Tài: Direct shape optimization through deep
reinforcement learning
Giảng viên hướng dẫn: TS Nguyễn Đức Toàn
Hà Nội, ngày 21 tháng 07 năm 2021
Năm học 2021 - 2
Trang 2MỤC LỤC
I.ĐẶT VẤN ĐỀ 2
II.LÝ THUYẾT CÁC TÀI LIỆU LIÊN QUAN 3
2.1.Phương pháp dựa trên độ dốc 3
2.2.Phương pháp không có độ dốc 3
2.3.Phương pháp tối ưu hóa nhóm hạt 4
2.4.Đánh giá các giải pháp và các hướng phát triển của tối ưu hóa hình dạng 4
III GIẢI PHÁP 5
3.1 Lý thuyết về học tăng cường(DRL), độ dốc chính sách và thuật toán PPO 5
3.1.1 Thuật toán Qlearning 6
3.1.2 Phương pháp PPO tối ưu hóa phương pháp sử dụng thuật toán Q_Learning 7
3.1.3.Tạo hình dạng bằng cách sử dụng đường cong Bézier 8
IV.TRIỂN KHAI VÀ ĐÁNH GIÁ 9
4.1 Triển khai 9
4.1.1Tạo môi trường mô phỏng CFD 10
4.2.2 Học tập củng cố sâu 12
4.3.3.Tạo DRL 13
4.4.4 Kết quả 14
4.4.5 Phần thưởng định hình 17
V.KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 20
5.1 Kết quả 20
5.2.Hướng phát triển 21
TÀI LIỆU THAM KHẢO 22
Trang 3Hình 1 Khung học tập củng cố sâu trong việc tối ứu hóa hình dạng 5
Hình 2 Tạo hình dạng bằng cách sử dụng các đường cong Bézier khối 9
Hình 3 Lưới và trường vận tốc tại Re=200 11
Hình 4 Ví dụ về hình dạng được tạo với các ràng buộc hình học 14
Hình 5 Khung học tập củng cố thoái hóa 14
Hình 5 Kết quả của quá trình tối ưu hóa hình dạng đường cơ sở 16
Hình 6 Một số biểu diễn tốt nhất tại 4 điểm miễn phí 16
Hình 7 Tiến hóa phần thưởng điển hình( tức thời và trung bình) 17
Hình 8 Đường cơ sở và các chức năng phần thưởng đã định hình và các phần quan sát được trên 4 điểm miễn phí 18
Hình 9 Hình dạng tối ưu thu được có và không có hình phạt diện tích sử dụng 4 và 3 điểm miễn phí 19
Trang 4I.ĐẶT VẤN ĐỀ
Tối ưu hóa hình dạng là một chủ đề nghiên cứu lâu đời với vô số ứng dụng công nghiệp, từ cơ học kết cấu đến điện từ và cơ sinh học Trong động lực học, sự quan tâm đến việc tối ưu hóa hình dạng đã được thúc đẩy bởi nhiều vấn đề trong thế giới thực Ví dụ, trong khí động học, việc giảm lực cản và do đó tiêu thụ nhiên liệu của
xe tải và ô tô, hoặc giảm tiêu thụ nhiên liệu máy bay và chi phí vận hành, là những trường hợp mà trên đó có một lượng lớn tài liệu Tuy nhiên, tối ưu hóa hình dạng cũng đóng một vai trò quan trọng trong nhiều khía cạnh khác của hiệu suất, ví dụ, máy bay và các kỹ thuật tối ưu hóa hiện đại cũng được áp dụng cho nhiều vấn đề như tối ưu hóa máy bay tàng hình điện từ, hoặc giảm tiếng ồn âm thanh Điều này minh họa tầm quan trọng của các phương pháp tối ưu hóa hình dạng trong nhiều ứng dụng, trên các chủ đề được cả học thuật và công nghiệp quan tâm
II.LÝ THUYẾT CÁC TÀI LIỆU LIÊN QUAN
Sau sự phát triển của các kỹ thuật tối ưu hóa, hai loại phương pháp tiếp cận chính đã xuất hiện để giải quyết các vấn đề về tối ưu hóa hình dạng, cụ thể là các phương pháp dựa trên độ dốc và không có độ dốc
2.1.Phương pháp dựa trên độ dốc
Các phương pháp dựa trên độ dốc dựa trên việc đánh giá ∇x J, độ dốc của hàm
mục tiêu J đối với các thông số thiết kế x Những phương pháp này đã được sử dụng
vì chi phí tính toán thấp của chúng trong không gian tối ưu hóa lớn , trong đó việc tính toán độ dốc bằng các phương pháp liền kề đã được chứng minh là rất hiệu quả
Hạn chế chính của các phương pháp dựa trên độ dốc là chúng có thể dễ dàng
bị mắc kẹt trong giá trị tối ưu cục bộ và do đó rất nhạy cảm với điểm xuất phát được cung cấp, đặc biệt là khi các hệ thống phi tuyến được nghiên cứu mạnh mẽ, và hiệu suất của chúng bị thách thức nghiêm trọng trong các tình huống mà hàm mục tiêu biểu hiện sự gián đoạn hoặc rất phi tuyến tính
2.2.Phương pháp không có độ dốc
Các phương pháp không có độ dốc ưu việt hơn phương pháp có độ dốc trong, tuy nhiên, việc triển khai và áp dụng chúng có thể phức tạp hơn Trong số các phương pháp không có độ dốc, các thuật toán di truyền được biết đến là tốt trong việc sắp xếp giá trị tối ưu toàn cục, và cũng ít nhạy cảm với nhiễu tính toán hơn các
Trang 5phương pháp dựa trên độ dốc Tuy nhiên, chi phí tính toán của chúng thường cao hơn các phương pháp dựa trên độ dốc, do đó hạn chế số lượng các tham số thiết kế
mà phương pháp có thể giải quyết
2.3.Phương pháp tối ưu hóa nhóm hạt
Tối ưu hóa nhóm hạt là một phương pháp nổi tiếng khác được ca ngợi vì dễ thực hiện và chi phí bộ nhớ thấp Hạn chế lớn của nó là khó áp đặt các ràng buộc đối với các thông số thiết kế.Một lớp chính cuối cùng của các thuật toán không có độ dốc là các thuật toán đô thị, chẳng hạn như ủ mô phỏng Phương pháp này, dựa trên quá trình vật lý làm nguội kim loại nóng chảy, nổi tiếng với khả năng thoát cực tiểu cục bộ, mặc dù kết quả thu được có thể phụ thuộc nhiều vào các tham số meta đã chọn của thuật toán
2.4.Đánh giá các giải pháp và các hướng phát triển của tối ưu hóa hình dạng
Với cả phương pháp dựa trên độ dốc và không có độ dốc, một mô hình thay thế có thể được sử dụng cho phần tính toán, thay vì dựa vào một bộ giải CFD một cách có hệ thống Nhiều phương pháp để xây dựng các mô hình thay thế như vậy tồn tại, chẳng hạn như các hàm cơ sở xuyên tâm, kriging hoặc mạng nơron nhân tạo được giám sát Trong tất cả các phương pháp này, tham số hóa hình học đóng một vai trò quyết định, cả đối với các dạng hình học có thể đạt được và tính khả thi của quá trình tối ưu hóa Đặc biệt, các tham số hóa dựa trên đường cong Bézier, Bsplines
và NURBS đã được nghiên cứu rộng rãi trong các khuôn khổ tối ưu hóa thông thường
Cho đến ngày nay, việc sử dụng mạng nơ-ron có giám sát kết hợp với các phương pháp dựa trên độ dốc và không có độ dốc để tối ưu hóa hình dạng được hỗ trợ bởi một tài liệu phong phú Trong học tập có giám sát, tập dữ liệu được gắn nhãn (i.e các cặp đầu vào và đầu ra dự kiến) được sử dụng để huấn luyện mạng nơ-ron cho đến khi nó xấp xỉ chức năng ánh xạ giữa các không gian đầu vào và đầu ra một cách chính xác Có thể tìm thấy một số cách tiếp cận như vậy đối với các bài toán động lực học trong tính toán trong bài đánh giá Trong RL, một tác nhân tương tác với một môi trường trong một vòng khép kín Tại mỗi thời điểm trong tương tác, tác nhân (ở đây, mạng nơron) được cung cấp một phần quan sát về trạng thái môi trường
St, và trong phản hồi đầu ra một hành động action(at) được thực thi, điều này cản trở sự phát triển tiếp theo của môi trường Hơn nữa, tác nhân định kỳ nhận được tín hiệu phần thưởng rt điều chỉnh lại chất lượng của các hành động được thực hiện gần
Trang 6đây, và mục tiêu của RL là đạt được một chính sách quyết định tối ưu at =π (St) tối
đa hóa phần thưởng tích lũy của nó.Như được thấy ở hình 1
Hình 1 Khung học tập củng cố sâu trong việc tối ứu hóa hình dạng
cụ thể Một giải pháp được đề cập trong việc tối ưu hóa hình dạng trực tiếp bằng phương pháp học tập củng cố sâu là sử dụng phương pháp tối ưu hóa chính sách gần (PPO) kết hợp với mạng nơ_ron nhân tạo để tạo ra các hình dạng 2D được mô tả bởi đường cong Bezier.OW xung quang quanh hình dạng được đánh giá thông qua mô phỏng số 2D ở số Reynolds vừa phải bằng cách sử dụng FeniCs
3.1 Lý thuyết về học tăng cường(DRL), độ dốc chính sách và thuật toán PPO
Học tăng cường là một lớp phương pháp học máy tập trung vào việc đưa ra quyết định tối ưu trong một môi trường phức tạp Tại bất kỳ bước thời gian rời rạc nào t
∈N, một đặc vụ quan sát tình trạng thế giới hiện tại St, quyết định cho một hành động at và nhận được m/ột tín hiệu khen thưởng rt ∈R Trong tài liệu, quan sát và trạng thái đôi khi được phân biệt, nhưng để dễ ký hiệu, những hai khái niệm thường được hợp nhất thành khái niệm trạng thái St Tuy nhiên, phải lưu ý rằng các trạng thái thường là quan sát một phần hoặc nhiễu về trạng thái thực tế của môi trường
Trang 7Mục tiêu cuối cùng của tác nhân là cập nhật phần thưởng(Reward) tích lũy chiết khấu qua việc triển khai chính sách của đại lý π, i,e là quỹ đạo của các trạng thái, hành động và phần thưởng τ = (s0, a0, r0s1 ) phân phối tuân theo chính sách nào π: R(𝜏) = ∑𝑇𝑡=0𝛾𝑡𝑟𝑡
Ở đây γ ∈ [0, 1] là hệ số chiết khấu để ưu tiên phần thưởng tức thì hơn so với phần thưởng ở xa hơn Hai loại thuật toán học tăng cường phổ biến là Qlearning và các phương pháp có độ dốc chính sách:
3.1.1 Thuật toán Qlearning
Q-learning giả định một không gian hành động rời rạc, nhỏ gọn và chọn các hành động dựa trên giá trị Q ước tính của chúng, là phần thưởng tích lũy chiết khấu dự kiến nhận được khi bắt đầu từ trạng thái S với hành động a, và sau đó đi theo quỹ đạo τ theo chính sách π:
Q (s, a) = E [R (τ) |s, a]
τ∼π Trong DRL, Q-Learning được thực hiện như một mạng nơron sâu và được tối ưu hóa để tạo ra giải pháp tối ưu được đặc trưng đệ quy, được đưa ra bởi phương trình Bellman:
Q*(s,a)=R(s,a) +𝛾𝑚𝑎𝑥𝑎′Q*(s’,a’)
2 Phương pháp chính sách có độ dốc
Mặt khác, các phương thức chính sách có độ dốc (PG) có thể xử lý cả không gian hành động rời rạc và liên tục Ngược lại với Q-learning, các phương pháp PG trực tiếp tối ưu hóa chính sách thay vì một chức năng giá trị phụ trợ Họ giả định một chính sách ngẫu nhiên π (a | s), thường được tham số hóa bởi một mạng nơron sâu, có tối ưu hóa dựa trên gradient trực tiếp tối đa hóa phần thưởng tích lũy chiết khấu dự kiến E τ∼ [πR], xấp xỉ bằng một lô phát hành nhỏ So với Q-learning các phương pháp, phương pháp PG thể hiện khả năng tốt hơn trong việc xử lý không gian hành động chiều cao cũng như các thuộc tính hội tụ mượt mà hơn, mặc
dù chúng được biết là thường hội tụ về cực tiểu cục bộ Được giới thiệu vào năm
2000 bởi Sutton và cộng sự [41], vani PG dựa vào ước tính của gradient bậc nhất của
Trang 8log-policy ∇θ logπθ để cập nhật mạng của nó Cách tiếp cận này sau đó được theo sau bởi một số cải tiến lớn, bao gồm tối ưu hóa chính sách vùng tin cậy (TRPO) và tối ưu hóa chính sách vùng lân cận (PPO) Trong các phương pháp này, bản cập nhật mạng khai thác một chức năng lợi thế thay thế:
3.1.2 Phương pháp PPO tối ưu hóa phương pháp sử dụng thuật toán Q_Learning
Cách tiếp cận tương đối phức tạp này đã được thay thế trong phương pháp PPO bằng cách đơn giản cắt bớt biểu thức tối đa:
Trong đó ε là một tham số nhỏ, do người dùng xác định Khi 𝐴𝜋 𝜃𝑘 (s, a) là tích cực, thì việc thực hiện hành động a ở trạng thái s sẽ được ưu tiên hơn so với mức
Trang 9trung bình của tất cả các hành động có thể được thực hiện ở trạng thái đó và việc cập nhật chính sách để ưu tiên hành động này là điều đương nhiên Tuy nhiên, nếu
tỷ lệ này rất lớn, việc đi quá xa so với chính sách trước đó πθk có thể làm hỏng hiệu suất Vì lý do đó, được cắt thành 1 + ε để tránh cập nhật chính sách quá lớn Nếu 𝐴𝜋𝜃𝑘 (s, a) là âm, thực hiện hành động a ở trạng thái s thể hiện sự lựa chọn kém hơn mức trung bình của tất cả các hành động có thể được thực hiện ở trạng thái đó và việc cập nhật chính sách là điều tự nhiên để giảm xác suất thực hiện hành động này Theo cách tương tự, được cắt xuống 1 −ε nếu nó xảy ra thấp hơn giá trị đó
Trong các biểu thức sau, 𝐴𝜋𝜃𝑘 (s, a) được ước tính bằng cách sử dụng công cụ ước tính lợi thế tổng quát (GAE), đại diện cho sự cân bằng giữa Monte-Carlo và các công cụ ước tính chênh lệch thời gian Ngoài ra, thay vì thực hiện một cập nhật toàn bộ, đơn lẻ, việc tối ưu hóa mạng được phân tách thành nhiều bản cập nhật được tính toán từ các lô nhỏ được lấy mẫu con Cuối cùng, một quy luật hóa entropy được thêm vào tổn thất thay thế:
Điều khoản bổ sung này khuyến khích đại lý không nên quá tự tin, bằng cách giữ cho phân phối chính sách gần với đồng nhất trừ khi có tín hiệu mạnh mẽ là không nên
3.1.3.Tạo hình dạng bằng cách sử dụng đường cong Bézier
Phần này mô tả quy trình tiếp theo để tạo các hình dạng từ một tập hợp n điểm
do đại lý cung cấp Khi các điểm được thu thập, sắp xếp góc lượng giác tăng dần được thực hiện (xem Hình.2a), và các góc giữa các điểm được tính toán Sau đó, một góc trung bình được tính xung quanh mỗi điểm (xem Hình.2b) sử dụng:
với α ∈ [0, 1] Tham số trung bình α cho phép thay đổi cục bộ độ sắc nét của đường cong, đạt được độ mịn tối đa cho α = 0,5 Sau đó, mỗi cặp điểm được nối bằng cách
sử dụng một đường cong Bézier lập phương, tính bằng bốn điểm: điểm đầu tiên và
Trang 10điểm cuối cùng điểm, pi và pi+1, là một phần của đường cong, trong khi phần thứ hai và thứ ba, pi ∗Tôi và pi **, là các điểm kiểm soát để xác định tiếp tuyến của đường cong tại pi và pi+1 Các tiếp tuyến tại pi và pi+1 được kiểm soát tương ứng bởi θi *và
θ*
i+1 (xem Hình 2c).Việc lấy mẫu cuối cùng của các đường cong Bézier liên tiếp dẫn đến mô tả đường biên của hình dạng (Hình 2d) Sử dụng phương pháp này, có thể đạt được nhiều hình dạng khác nhau
Hình 2 Tạo hình dạng bằng cách sử dụng các đường cong Bézier khối
IV.TRIỂN KHAI VÀ ĐÁNH GIÁ
4.1 Triển khai
Trang 114.1.1Tạo môi trường mô phỏng CFD
Mô phỏng CFD, tạo thành môi trường tương tác với tác nhân DRL, bao gồm mô phỏng động lực học tính toán (CFD) dựa trên FeniCs giải các phương trình Navier-Stokes (NS) bằng số Mỗi hình dạng, có kích thước điển hình, được nhúng trong miền tính toán hình chữ nhật có chiều dài l = 45 và chiều rộng w = 30 (xem Hình 2a)
Một vận tốc không đổi v =v inex được áp dụng theo tỷ lệ trong, trong khi các điều kiện biên trượt tự do được áp dụng trên đầu và cuối miền Cuối cùng, điều kiện ranh giới không trượt được áp dụng cho chướng ngại vật và điều kiện không có lực kéo được thiết lập ở ngoài hồ sơ dòng chảy Để thực hiện các phép tính số cần thiết, việc tạo lưới của miền và hình học được thực hiện bằng cách sử dụng Gmsh Dòng tham chiếu tương ứng với tham chiếu của hình trụ có bán kính rcyl = 1 được nhúng trong cùng một miền Số Reynolds tham chiếu sau đó được xác định là:
Reref = 2𝜌𝑣𝑖𝑛𝑟𝑐𝑦𝑙
𝜇 (1)
Ở đây ρ là khối lượng thể tích của dòng chảy, và μ độ nhớt của nó Trong phần còn lại của bài báo này, ρ được giữ không đổi và bằng 1kg / m3, cũng như vin, được giữ bằng 1 m / s Phương thức điều chỉnh của các điều kiện được thực hiện thông qua việc lựa chọn số Reynolds tham chiếu, số này được điều chỉnh bằng cách điều chỉnh độ nhớt của dòng chảy Đối với tất cả các phép tính, số bước thời gian được chọn là:
Trang 12Trong phần sau, giá trị dương của Cd (đáp lại Cl) chỉ ra rằng lực lượng fd (đáp
lại fl) được định hướng về phía ex (đáp lại ey) Thời gian vật lý tối đa được sử dụng
trong các phép tính số được thiết lập để thu được các giá trị trung bình ổn định của
số lượng quan tâm theo dõi (xem phần tiếp theo) Trong thực tế, quy tắc ngón tay cái sau đây được sử dụng:
tmax = 2
𝑣𝑖𝑛(xmax –xmin) (5) Công thức số được sử dụng để giải các phương trình Navier-Stokes tùy ý là một
bộ giải không nén được nite-phần tử dựa trên phương pháp chiếu, kết hợp với một
sơ đồ hành quân trong thời gian BDF2 Điều này cho phép chúng tôi xem xét các khoản nợ ở số Reynolds thấp, thường là Re = 200 Sử dụng giá trị điển hình này của
số Reynolds cho phép giải quyết một nhiệm vụ tối ưu hóa hình dạng trình bày các thành phần không tuyến tính và kích thước cao đang thách thức trong loại bài toán này, đồng thời giữ cho ngân sách tính toán hạn chế, do đó, cho phép đào tạo tương đối nhanh mà không lớn tài nguyên tính toán Đây là một cách tiếp cận tương tự như những gì đã được sử dụng trong, và rất phù hợp cho một bằng chứng về khái niệm của phương pháp luận cũng như điểm chuẩn trong tương lai của các thuật toán chưa được điều chỉnh
Hình 3 Lưới và trường vận tốc tại Re=200
Hình 3 a, lưới của miền tính toán b, trường vận tốc vx được tính toán tại Re=200
Khu vực tuần hoàn phía sau chướng ngại vật có thể nhìn thấy rõ ràng, tiếp theo là một hẻm xoáy Von Karman được thiết lập tốt Trường vận tốc được chia tỷ lệ trong phạm vi [-1, 1],
Bảng 1