1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo môn học MẠNG máy TÍNH đề tài direct shape optimization through deep reinforcement learning

23 40 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 1,67 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Điều này minh họa tầm quan trọng của các phương pháp tối ưu hóa hình dạng trong nhiều ứng dụng, trên các chủ đề được cả học thuật và công nghiệp quan tâm.. II.LÝ THUYẾT CÁC TÀI LIỆU LIÊN

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN CNTT&TT - -

BÁO CÁO MÔN HỌC MẠNG MÁY TÍNH

Đề Tài: Direct shape optimization through deep

reinforcement learning

Giảng viên hướng dẫn: TS Nguyễn Đức Toàn

Hà Nội, ngày 21 tháng 07 năm 2021

Năm học 2021 - 2

Trang 2

MỤC LỤC

I.ĐẶT VẤN ĐỀ 2

II.LÝ THUYẾT CÁC TÀI LIỆU LIÊN QUAN 3

2.1.Phương pháp dựa trên độ dốc 3

2.2.Phương pháp không có độ dốc 3

2.3.Phương pháp tối ưu hóa nhóm hạt 4

2.4.Đánh giá các giải pháp và các hướng phát triển của tối ưu hóa hình dạng 4

III GIẢI PHÁP 5

3.1 Lý thuyết về học tăng cường(DRL), độ dốc chính sách và thuật toán PPO 5

3.1.1 Thuật toán Qlearning 6

3.1.2 Phương pháp PPO tối ưu hóa phương pháp sử dụng thuật toán Q_Learning 7

3.1.3.Tạo hình dạng bằng cách sử dụng đường cong Bézier 8

IV.TRIỂN KHAI VÀ ĐÁNH GIÁ 9

4.1 Triển khai 9

4.1.1Tạo môi trường mô phỏng CFD 10

4.2.2 Học tập củng cố sâu 12

4.3.3.Tạo DRL 13

4.4.4 Kết quả 14

4.4.5 Phần thưởng định hình 17

V.KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 20

5.1 Kết quả 20

5.2.Hướng phát triển 21

TÀI LIỆU THAM KHẢO 22

Trang 3

Hình 1 Khung học tập củng cố sâu trong việc tối ứu hóa hình dạng 5

Hình 2 Tạo hình dạng bằng cách sử dụng các đường cong Bézier khối 9

Hình 3 Lưới và trường vận tốc tại Re=200 11

Hình 4 Ví dụ về hình dạng được tạo với các ràng buộc hình học 14

Hình 5 Khung học tập củng cố thoái hóa 14

Hình 5 Kết quả của quá trình tối ưu hóa hình dạng đường cơ sở 16

Hình 6 Một số biểu diễn tốt nhất tại 4 điểm miễn phí 16

Hình 7 Tiến hóa phần thưởng điển hình( tức thời và trung bình) 17

Hình 8 Đường cơ sở và các chức năng phần thưởng đã định hình và các phần quan sát được trên 4 điểm miễn phí 18

Hình 9 Hình dạng tối ưu thu được có và không có hình phạt diện tích sử dụng 4 và 3 điểm miễn phí 19

Trang 4

I.ĐẶT VẤN ĐỀ

Tối ưu hóa hình dạng là một chủ đề nghiên cứu lâu đời với vô số ứng dụng công nghiệp, từ cơ học kết cấu đến điện từ và cơ sinh học Trong động lực học, sự quan tâm đến việc tối ưu hóa hình dạng đã được thúc đẩy bởi nhiều vấn đề trong thế giới thực Ví dụ, trong khí động học, việc giảm lực cản và do đó tiêu thụ nhiên liệu của

xe tải và ô tô, hoặc giảm tiêu thụ nhiên liệu máy bay và chi phí vận hành, là những trường hợp mà trên đó có một lượng lớn tài liệu Tuy nhiên, tối ưu hóa hình dạng cũng đóng một vai trò quan trọng trong nhiều khía cạnh khác của hiệu suất, ví dụ, máy bay và các kỹ thuật tối ưu hóa hiện đại cũng được áp dụng cho nhiều vấn đề như tối ưu hóa máy bay tàng hình điện từ, hoặc giảm tiếng ồn âm thanh Điều này minh họa tầm quan trọng của các phương pháp tối ưu hóa hình dạng trong nhiều ứng dụng, trên các chủ đề được cả học thuật và công nghiệp quan tâm

II.LÝ THUYẾT CÁC TÀI LIỆU LIÊN QUAN

Sau sự phát triển của các kỹ thuật tối ưu hóa, hai loại phương pháp tiếp cận chính đã xuất hiện để giải quyết các vấn đề về tối ưu hóa hình dạng, cụ thể là các phương pháp dựa trên độ dốc và không có độ dốc

2.1.Phương pháp dựa trên độ dốc

Các phương pháp dựa trên độ dốc dựa trên việc đánh giá ∇x J, độ dốc của hàm

mục tiêu J đối với các thông số thiết kế x Những phương pháp này đã được sử dụng

vì chi phí tính toán thấp của chúng trong không gian tối ưu hóa lớn , trong đó việc tính toán độ dốc bằng các phương pháp liền kề đã được chứng minh là rất hiệu quả

Hạn chế chính của các phương pháp dựa trên độ dốc là chúng có thể dễ dàng

bị mắc kẹt trong giá trị tối ưu cục bộ và do đó rất nhạy cảm với điểm xuất phát được cung cấp, đặc biệt là khi các hệ thống phi tuyến được nghiên cứu mạnh mẽ, và hiệu suất của chúng bị thách thức nghiêm trọng trong các tình huống mà hàm mục tiêu biểu hiện sự gián đoạn hoặc rất phi tuyến tính

2.2.Phương pháp không có độ dốc

Các phương pháp không có độ dốc ưu việt hơn phương pháp có độ dốc trong, tuy nhiên, việc triển khai và áp dụng chúng có thể phức tạp hơn Trong số các phương pháp không có độ dốc, các thuật toán di truyền được biết đến là tốt trong việc sắp xếp giá trị tối ưu toàn cục, và cũng ít nhạy cảm với nhiễu tính toán hơn các

Trang 5

phương pháp dựa trên độ dốc Tuy nhiên, chi phí tính toán của chúng thường cao hơn các phương pháp dựa trên độ dốc, do đó hạn chế số lượng các tham số thiết kế

mà phương pháp có thể giải quyết

2.3.Phương pháp tối ưu hóa nhóm hạt

Tối ưu hóa nhóm hạt là một phương pháp nổi tiếng khác được ca ngợi vì dễ thực hiện và chi phí bộ nhớ thấp Hạn chế lớn của nó là khó áp đặt các ràng buộc đối với các thông số thiết kế.Một lớp chính cuối cùng của các thuật toán không có độ dốc là các thuật toán đô thị, chẳng hạn như ủ mô phỏng Phương pháp này, dựa trên quá trình vật lý làm nguội kim loại nóng chảy, nổi tiếng với khả năng thoát cực tiểu cục bộ, mặc dù kết quả thu được có thể phụ thuộc nhiều vào các tham số meta đã chọn của thuật toán

2.4.Đánh giá các giải pháp và các hướng phát triển của tối ưu hóa hình dạng

Với cả phương pháp dựa trên độ dốc và không có độ dốc, một mô hình thay thế có thể được sử dụng cho phần tính toán, thay vì dựa vào một bộ giải CFD một cách có hệ thống Nhiều phương pháp để xây dựng các mô hình thay thế như vậy tồn tại, chẳng hạn như các hàm cơ sở xuyên tâm, kriging hoặc mạng nơron nhân tạo được giám sát Trong tất cả các phương pháp này, tham số hóa hình học đóng một vai trò quyết định, cả đối với các dạng hình học có thể đạt được và tính khả thi của quá trình tối ưu hóa Đặc biệt, các tham số hóa dựa trên đường cong Bézier, Bsplines

và NURBS đã được nghiên cứu rộng rãi trong các khuôn khổ tối ưu hóa thông thường

Cho đến ngày nay, việc sử dụng mạng nơ-ron có giám sát kết hợp với các phương pháp dựa trên độ dốc và không có độ dốc để tối ưu hóa hình dạng được hỗ trợ bởi một tài liệu phong phú Trong học tập có giám sát, tập dữ liệu được gắn nhãn (i.e các cặp đầu vào và đầu ra dự kiến) được sử dụng để huấn luyện mạng nơ-ron cho đến khi nó xấp xỉ chức năng ánh xạ giữa các không gian đầu vào và đầu ra một cách chính xác Có thể tìm thấy một số cách tiếp cận như vậy đối với các bài toán động lực học trong tính toán trong bài đánh giá Trong RL, một tác nhân tương tác với một môi trường trong một vòng khép kín Tại mỗi thời điểm trong tương tác, tác nhân (ở đây, mạng nơron) được cung cấp một phần quan sát về trạng thái môi trường

St, và trong phản hồi đầu ra một hành động action(at) được thực thi, điều này cản trở sự phát triển tiếp theo của môi trường Hơn nữa, tác nhân định kỳ nhận được tín hiệu phần thưởng rt điều chỉnh lại chất lượng của các hành động được thực hiện gần

Trang 6

đây, và mục tiêu của RL là đạt được một chính sách quyết định tối ưu at =π (St) tối

đa hóa phần thưởng tích lũy của nó.Như được thấy ở hình 1

Hình 1 Khung học tập củng cố sâu trong việc tối ứu hóa hình dạng

cụ thể Một giải pháp được đề cập trong việc tối ưu hóa hình dạng trực tiếp bằng phương pháp học tập củng cố sâu là sử dụng phương pháp tối ưu hóa chính sách gần (PPO) kết hợp với mạng nơ_ron nhân tạo để tạo ra các hình dạng 2D được mô tả bởi đường cong Bezier.OW xung quang quanh hình dạng được đánh giá thông qua mô phỏng số 2D ở số Reynolds vừa phải bằng cách sử dụng FeniCs

3.1 Lý thuyết về học tăng cường(DRL), độ dốc chính sách và thuật toán PPO

Học tăng cường là một lớp phương pháp học máy tập trung vào việc đưa ra quyết định tối ưu trong một môi trường phức tạp Tại bất kỳ bước thời gian rời rạc nào t

∈N, một đặc vụ quan sát tình trạng thế giới hiện tại St, quyết định cho một hành động at và nhận được m/ột tín hiệu khen thưởng rt ∈R Trong tài liệu, quan sát và trạng thái đôi khi được phân biệt, nhưng để dễ ký hiệu, những hai khái niệm thường được hợp nhất thành khái niệm trạng thái St Tuy nhiên, phải lưu ý rằng các trạng thái thường là quan sát một phần hoặc nhiễu về trạng thái thực tế của môi trường

Trang 7

Mục tiêu cuối cùng của tác nhân là cập nhật phần thưởng(Reward) tích lũy chiết khấu qua việc triển khai chính sách của đại lý π, i,e là quỹ đạo của các trạng thái, hành động và phần thưởng τ = (s0, a0, r0s1 ) phân phối tuân theo chính sách nào π: R(𝜏) = ∑𝑇𝑡=0𝛾𝑡𝑟𝑡

Ở đây γ ∈ [0, 1] là hệ số chiết khấu để ưu tiên phần thưởng tức thì hơn so với phần thưởng ở xa hơn Hai loại thuật toán học tăng cường phổ biến là Qlearning và các phương pháp có độ dốc chính sách:

3.1.1 Thuật toán Qlearning

Q-learning giả định một không gian hành động rời rạc, nhỏ gọn và chọn các hành động dựa trên giá trị Q ước tính của chúng, là phần thưởng tích lũy chiết khấu dự kiến nhận được khi bắt đầu từ trạng thái S với hành động a, và sau đó đi theo quỹ đạo τ theo chính sách π:

Q (s, a) = E [R (τ) |s, a]

τ∼π Trong DRL, Q-Learning được thực hiện như một mạng nơron sâu và được tối ưu hóa để tạo ra giải pháp tối ưu được đặc trưng đệ quy, được đưa ra bởi phương trình Bellman:

Q*(s,a)=R(s,a) +𝛾𝑚𝑎𝑥𝑎′Q*(s’,a’)

2 Phương pháp chính sách có độ dốc

Mặt khác, các phương thức chính sách có độ dốc (PG) có thể xử lý cả không gian hành động rời rạc và liên tục Ngược lại với Q-learning, các phương pháp PG trực tiếp tối ưu hóa chính sách thay vì một chức năng giá trị phụ trợ Họ giả định một chính sách ngẫu nhiên π (a | s), thường được tham số hóa bởi một mạng nơron sâu, có tối ưu hóa dựa trên gradient trực tiếp tối đa hóa phần thưởng tích lũy chiết khấu dự kiến E τ∼ [πR], xấp xỉ bằng một lô phát hành nhỏ So với Q-learning các phương pháp, phương pháp PG thể hiện khả năng tốt hơn trong việc xử lý không gian hành động chiều cao cũng như các thuộc tính hội tụ mượt mà hơn, mặc

dù chúng được biết là thường hội tụ về cực tiểu cục bộ Được giới thiệu vào năm

2000 bởi Sutton và cộng sự [41], vani PG dựa vào ước tính của gradient bậc nhất của

Trang 8

log-policy ∇θ logπθ để cập nhật mạng của nó Cách tiếp cận này sau đó được theo sau bởi một số cải tiến lớn, bao gồm tối ưu hóa chính sách vùng tin cậy (TRPO) và tối ưu hóa chính sách vùng lân cận (PPO) Trong các phương pháp này, bản cập nhật mạng khai thác một chức năng lợi thế thay thế:

3.1.2 Phương pháp PPO tối ưu hóa phương pháp sử dụng thuật toán Q_Learning

Cách tiếp cận tương đối phức tạp này đã được thay thế trong phương pháp PPO bằng cách đơn giản cắt bớt biểu thức tối đa:

Trong đó ε là một tham số nhỏ, do người dùng xác định Khi 𝐴𝜋 𝜃𝑘 (s, a) là tích cực, thì việc thực hiện hành động a ở trạng thái s sẽ được ưu tiên hơn so với mức

Trang 9

trung bình của tất cả các hành động có thể được thực hiện ở trạng thái đó và việc cập nhật chính sách để ưu tiên hành động này là điều đương nhiên Tuy nhiên, nếu

tỷ lệ này rất lớn, việc đi quá xa so với chính sách trước đó πθk có thể làm hỏng hiệu suất Vì lý do đó, được cắt thành 1 + ε để tránh cập nhật chính sách quá lớn Nếu 𝐴𝜋𝜃𝑘 (s, a) là âm, thực hiện hành động a ở trạng thái s thể hiện sự lựa chọn kém hơn mức trung bình của tất cả các hành động có thể được thực hiện ở trạng thái đó và việc cập nhật chính sách là điều tự nhiên để giảm xác suất thực hiện hành động này Theo cách tương tự, được cắt xuống 1 −ε nếu nó xảy ra thấp hơn giá trị đó

Trong các biểu thức sau, 𝐴𝜋𝜃𝑘 (s, a) được ước tính bằng cách sử dụng công cụ ước tính lợi thế tổng quát (GAE), đại diện cho sự cân bằng giữa Monte-Carlo và các công cụ ước tính chênh lệch thời gian Ngoài ra, thay vì thực hiện một cập nhật toàn bộ, đơn lẻ, việc tối ưu hóa mạng được phân tách thành nhiều bản cập nhật được tính toán từ các lô nhỏ được lấy mẫu con Cuối cùng, một quy luật hóa entropy được thêm vào tổn thất thay thế:

Điều khoản bổ sung này khuyến khích đại lý không nên quá tự tin, bằng cách giữ cho phân phối chính sách gần với đồng nhất trừ khi có tín hiệu mạnh mẽ là không nên

3.1.3.Tạo hình dạng bằng cách sử dụng đường cong Bézier

Phần này mô tả quy trình tiếp theo để tạo các hình dạng từ một tập hợp n điểm

do đại lý cung cấp Khi các điểm được thu thập, sắp xếp góc lượng giác tăng dần được thực hiện (xem Hình.2a), và các góc giữa các điểm được tính toán Sau đó, một góc trung bình được tính xung quanh mỗi điểm (xem Hình.2b) sử dụng:

với α ∈ [0, 1] Tham số trung bình α cho phép thay đổi cục bộ độ sắc nét của đường cong, đạt được độ mịn tối đa cho α = 0,5 Sau đó, mỗi cặp điểm được nối bằng cách

sử dụng một đường cong Bézier lập phương, tính bằng bốn điểm: điểm đầu tiên và

Trang 10

điểm cuối cùng điểm, pi và pi+1, là một phần của đường cong, trong khi phần thứ hai và thứ ba, pi ∗Tôi và pi **, là các điểm kiểm soát để xác định tiếp tuyến của đường cong tại pi và pi+1 Các tiếp tuyến tại pi và pi+1 được kiểm soát tương ứng bởi θi *và

θ*

i+1 (xem Hình 2c).Việc lấy mẫu cuối cùng của các đường cong Bézier liên tiếp dẫn đến mô tả đường biên của hình dạng (Hình 2d) Sử dụng phương pháp này, có thể đạt được nhiều hình dạng khác nhau

Hình 2 Tạo hình dạng bằng cách sử dụng các đường cong Bézier khối

IV.TRIỂN KHAI VÀ ĐÁNH GIÁ

4.1 Triển khai

Trang 11

4.1.1Tạo môi trường mô phỏng CFD

Mô phỏng CFD, tạo thành môi trường tương tác với tác nhân DRL, bao gồm mô phỏng động lực học tính toán (CFD) dựa trên FeniCs giải các phương trình Navier-Stokes (NS) bằng số Mỗi hình dạng, có kích thước điển hình, được nhúng trong miền tính toán hình chữ nhật có chiều dài l = 45 và chiều rộng w = 30 (xem Hình 2a)

Một vận tốc không đổi v =v inex được áp dụng theo tỷ lệ trong, trong khi các điều kiện biên trượt tự do được áp dụng trên đầu và cuối miền Cuối cùng, điều kiện ranh giới không trượt được áp dụng cho chướng ngại vật và điều kiện không có lực kéo được thiết lập ở ngoài hồ sơ dòng chảy Để thực hiện các phép tính số cần thiết, việc tạo lưới của miền và hình học được thực hiện bằng cách sử dụng Gmsh Dòng tham chiếu tương ứng với tham chiếu của hình trụ có bán kính rcyl = 1 được nhúng trong cùng một miền Số Reynolds tham chiếu sau đó được xác định là:

Reref = 2𝜌𝑣𝑖𝑛𝑟𝑐𝑦𝑙

𝜇 (1)

Ở đây ρ là khối lượng thể tích của dòng chảy, và μ độ nhớt của nó Trong phần còn lại của bài báo này, ρ được giữ không đổi và bằng 1kg / m3, cũng như vin, được giữ bằng 1 m / s Phương thức điều chỉnh của các điều kiện được thực hiện thông qua việc lựa chọn số Reynolds tham chiếu, số này được điều chỉnh bằng cách điều chỉnh độ nhớt của dòng chảy Đối với tất cả các phép tính, số bước thời gian được chọn là:

Trang 12

Trong phần sau, giá trị dương của Cd (đáp lại Cl) chỉ ra rằng lực lượng fd (đáp

lại fl) được định hướng về phía ex (đáp lại ey) Thời gian vật lý tối đa được sử dụng

trong các phép tính số được thiết lập để thu được các giá trị trung bình ổn định của

số lượng quan tâm theo dõi (xem phần tiếp theo) Trong thực tế, quy tắc ngón tay cái sau đây được sử dụng:

tmax = 2

𝑣𝑖𝑛(xmax –xmin) (5) Công thức số được sử dụng để giải các phương trình Navier-Stokes tùy ý là một

bộ giải không nén được nite-phần tử dựa trên phương pháp chiếu, kết hợp với một

sơ đồ hành quân trong thời gian BDF2 Điều này cho phép chúng tôi xem xét các khoản nợ ở số Reynolds thấp, thường là Re = 200 Sử dụng giá trị điển hình này của

số Reynolds cho phép giải quyết một nhiệm vụ tối ưu hóa hình dạng trình bày các thành phần không tuyến tính và kích thước cao đang thách thức trong loại bài toán này, đồng thời giữ cho ngân sách tính toán hạn chế, do đó, cho phép đào tạo tương đối nhanh mà không lớn tài nguyên tính toán Đây là một cách tiếp cận tương tự như những gì đã được sử dụng trong, và rất phù hợp cho một bằng chứng về khái niệm của phương pháp luận cũng như điểm chuẩn trong tương lai của các thuật toán chưa được điều chỉnh

Hình 3 Lưới và trường vận tốc tại Re=200

Hình 3 a, lưới của miền tính toán b, trường vận tốc vx được tính toán tại Re=200

Khu vực tuần hoàn phía sau chướng ngại vật có thể nhìn thấy rõ ràng, tiếp theo là một hẻm xoáy Von Karman được thiết lập tốt Trường vận tốc được chia tỷ lệ trong phạm vi [-1, 1],

Bảng 1

Ngày đăng: 16/08/2021, 06:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w