Ứng dụng trí tuệ nhân tạo trong việc dò điểm công suất cực đại của hệ thống pin mặt trời trong điều kiện lượng bức xạ không đều trên bề mặt

Đây cũng là nội dung chính trong đồ án của em, đó là: “Ứng dụng trí tuệ nhân tạo trong việc dò điểm công suất cực đại của hệ thống pin mặt trời trong điều kiện lượng bức xạ khô ng đều tr

Gi ớ i thi ệ u v ề h ệ th ống phát điệ n s ử d ụ ng pin m ặ t tr ờ i

C ấ u trúc, nguyên lý ho ạt độ ng c ủ a h ệ th ố ng

Pin năng lượng mặt trời có nhiều ứng dụng thực tế và mang lại nguồn điện bền vững cho những khu vực khó tiếp cận với lưới điện, như núi cao hay đảo xa Chúng cũng phục vụ các hoạt động ngoài không gian, đặc biệt cho các vệ tinh quay quanh quỹ đạo Trái Đất và các thiết bị di động Trong đời sống hàng ngày, pin năng lượng mặt trời được tích hợp vào máy tính bỏ túi, điện thoại di động và các hệ thống bơm nước, mang lại nguồn điện độc lập và đáng tin cậy ở những nơi thiếu nguồn lực.

1.1.1 Pin năng lượng mặt trời là gì? Hoạt động như thế nào?

Pin năng lượng mặt trời, còn gọi là pin mặt trời hoặc pin quang điện, là thiết bị chuyển đổi trực tiếp năng lượng ánh sáng mặt trời thành điện năng dựa trên hiệu ứng quang điện Hiệu ứng quang điện là khả năng của vật chất phát ra electron khi bị ánh sáng chiếu vào.

Tấm pin mặt trời là các tấm có bề mặt lớn nhằm thu thập ánh nắng mặt trời và chuyển hóa nó thành điện năng Chúng được cấu tạo từ nhiều tế bào quang điện có nhiệm vụ thực hiện quá trình biến đổi ánh sáng mặt trời thành điện năng cho hệ thống điện.

1.1.2 Cấu tạo của pin năng lượng mặt trời

1.1.2.1 Lớp tế bào quang điện Solar Cells bên trong

Như đã đề cập, tế bào quang điện là thành phần chủ chốt của pin mặt trời, có chức năng hấp thụ ánh sáng mặt trời và chuyển đổi nó thành điện năng Những tế bào silicon trong pin có thể là đơn tinh thể (pin mono) hoặc đa tinh thể (pin polycrystalline).

Pin mặt trời polycrystalline (poly) có sự khác biệt về đặc tính kỹ thuật tùy thuộc vào quy trình sản xuất của từng hãng Các yếu tố kỹ thuật nổi bật bao gồm kích thước, màu sắc và số lượng tế bào trên tấm pin, nhưng quan trọng nhất vẫn là hiệu suất chuyển đổi quang điện, quyết định khả năng sinh ra điện của hệ thống.

Hiện nay, các tế bào pin phổ biến nhất là tế bào đa tinh thể polycrystalline, có hiệu suất chuyển hóa khoảng 17,6%, cho ra một module pin mặt trời 250W gồm 60 tế bào Các tế bào này được liên kết với nhau bằng một dây đồng mỏng được phủ một lớp hợp kim thiếc.

1.1.2.2 Lớp kính trước của pin mặt trời

Phần kính mặt trước của pin mặt trời là thành phần chịu lực lớn nhất, có chức năng bảo vệ và đảm bảo độ bền cho toàn bộ tấm pin mặt trời đồng thời duy trì độ trong suốt cao để tối ưu việc truyền sáng Độ dày của lớp kính này thường khoảng 3,3 mm, nhưng có thể dao động từ 2 mm đến 4 mm tùy thuộc vào loại kính mà nhà sản xuất pin mặt trời chọn Khi lựa chọn kính cho pin mặt trời, cần chú ý đến các yếu tố như chất lượng, độ cứng, độ truyền quang và khả năng truyền ánh sáng để đảm bảo hiệu suất và tuổi thọ của tấm pin.

Pin càng tốt thì lớp kính trước này hấp thu ánh sáng đi qua tốt hơn, phản xạ ánh sáng ít hơn.

Tấm nền mặt sau của pin mặt trời được làm từ vật liệu nhựa có chức năng cách điện, nhằm bảo vệ và che chắn các tế bào quang điện khỏi thời tiết và độ ẩm Thông thường tấm nền này có màu trắng và được cung cấp ở dạng cuộn hoặc tấm Các loại pin của từng hãng có sự khác biệt về độ dày, màu sắc và sự hiện diện của các vật liệu che chắn đặc thù, giúp tăng khả năng bảo vệ và độ bền cơ học của module.

1.1.2.4 Vật liệu đóng gói hoàn thiện Pin mặt trời

Chất đóng gói là một trong những vật liệu quan trọng nhất của pin mặt trời, với EVA – Ethylene vinyl acetate – là chất kết dính giữa các lớp EVA là một polymer đục mờ được cuộn thành dạng màng và cắt thành tấm để đặt trước và sau các tế bào quang điện Khi trải qua quá trình nấu chân không, loại polymer đặc biệt này biến thành một keo trong suốt liên kết các tế bào quang điện với các lớp bảo vệ Chất lượng của quá trình cán màng quyết định tuổi thọ tấm pin, đồng thời ảnh hưởng tới truyền sáng, tốc độ xử lý và khả năng chống vàng do tia UV.

1.1.2.5 Khung tấm pin mặt trời

Khung là một trong những phần cuối cùng được lắp ráp cho pin mặt trời, thường được làm bằng nhôm và có chức năng đảm bảo độ bền cho tấm pin Khung nhôm mang lại sự vững chắc và bảo vệ cấu trúc khỏi tác động của thời tiết, gió và rung động Đối với các trường hợp sử dụng đặc biệt, cũng có sẵn các tấm pin không khung hoặc các giải pháp nhựa đặc biệt thay thế khung truyền thống Những giải pháp này thường liên quan đến việc sử dụng dung dịch hỗ trợ dán ở phía sau và công nghệ kính thủy tinh để tối ưu độ bám dính và hiệu quả quang học của hệ thống pin mặt trời.

1.1.2.6 Hộp đựng mối nối mạch điện

Hộp nối là thành phần quan trọng trong hệ thống pin mặt trời, có chức năng đưa các mối nối điện của mô-đun pin mặt trời ra bên ngoài và chứa các dây cáp để kết nối các tấm trong hệ thống Khi chọn hộp nối, chú ý đến chất lượng nhựa và độ bền của hộp để đảm bảo khả năng chống nước, chống bụi và chịu nhiệt, từ đó nâng cao an toàn và hiệu suất vận hành của hệ thống PV.

1.1.3 Sự chuyển đổi quang năng thành điện năng

Khi một photon chạm vào mảnh silic (chất bán dẫn), một trong hai trường hợp sau sẽ xảy ra:

Photon có thể truyền trực xuyên qua một mảnh silic khi năng lượng của photon thấp hơn ngưỡng cần để đưa electron lên các mức năng lượng cao hơn Điều này có nghĩa photon ở năng lượng thấp không đủ để kích thích electron, nên nó đi qua silic mà không bị hấp thụ.

Năng lượng của photon được silic hấp thụ khi photon có năng lượng lớn hơn sự chênh lệch năng lượng giữa các mức của electron, cho phép electron nhảy lên mức cao hơn Đây là nguyên lý cơ bản cho quá trình quang điện và các ứng dụng dựa trên hấp thụ photon ở silic.

Khi photon được hấp thụ bởi các nguyên tử trong màng tinh thể, năng lượng của photon được truyền đến các electron ở lớp ngoài cùng khiến chúng bị kích thích và có thể di chuyển tự do trong bán dẫn, từ đó hình thành các dẫn điện Quá trình này làm cho một nguyên tử bị thiếu một electron và được gọi là lỗ trống Lỗ trống này cho phép các electron ở các nguyên tử lân cận di chuyển đến để điền vào, từ đó tạo ra thêm lỗ trống ở các nguyên tử kế tiếp và duy trì quá trình dẫn điện trong vật liệu bán dẫn.

Cứ tiếp tục như vậy “lỗ trống” di chuyển xuyên suốt mạch bán dẫn

Một photon có năng lượng vượt ngưỡng kích thích electron ở lớp ngoài cùng dẫn điện Tuy nhiên, bức xạ mặt trời có phổ năng lượng tương đương nhiệt độ khoảng 6000 K, nên phần lớn năng lượng mặt trời được silic hấp thụ Điều này giải thích vì sao silic trở thành vật liệu chủ đạo cho công nghệ tế bào quang điện và các ứng dụng năng lượng mặt trời hiện đại.

Tuy nhiên hầu hết năng lượng mặt trời chuyển đổi thành năng lượng nhiệt nhiều hơn là năng lượng điện sử dụng được

1.1.4 Hệ thống phát điện sử dụng pin mặt trời

1.1.4.1 Cấu tạo của điện mặt trời bao gồm các bộ phận sau

Các bài toán điề u khi ể n trong h ệ th ống phát điệ n s ử d ụ ng pin m ặ t tr ờ i

Trong những năm gần đây, nhu cầu điện năng toàn cầu ngày càng tăng và bị thúc đẩy bởi ô nhiễm, nóng lên toàn cầu do sử dụng năng lượng hóa thạch Vì vậy, các nhà khoa học và nhà sản xuất đã chú ý tới nguồn năng lượng tái tạo, đặc biệt là năng lượng mặt trời, một nguồn điện bền vững không phát thải khí nhà kính và ít tác động đến môi trường, nhờ độ tin cậy cao và tiềm năng dồi dào từ ánh nắng mặt trời, nhất là ở các khu vực có nắng nhiều giờ trong ngày Trên toàn thế giới đã hình thành nhiều dự án điện mặt trời, từ công viên năng lượng mặt trời đến hệ thống điện mặt trời áp mái và các ứng dụng PV khác Để tối ưu hóa hiệu suất của pin mặt trời (PV), các kỹ thuật Maximum Power Point Tracking (MPPT) đã được đề xuất và phân thành hai loại chính là MPPT gián tiếp và MPPT trực tiếp.

Phương pháp gián tiếp dựa trên tính toán trước dữ liệu liên quan đến các đường cong Power-Voltage (PV) cho các điều kiện môi trường khác nhau hoặc hàm toán học thu được từ thử nghiệm thực tiễn, được thực hiện trên các nguồn PV khác nhau Một số phương pháp gián tiếp phổ biến nhất dựa trên Điện áp hở mạch (Open Circuit Voltage - Voc) và Dòng điện ngắn mạch (Short-Circuit Current - Isc) để ước lượng đặc tính làm việc của hệ PV trong những điều kiện vận hành khác nhau Các kỹ thuật này cho phép xây dựng các mô hình PV dựa trên dữ liệu thực nghiệm hoặc dữ liệu mô phỏng, từ đó tối ưu hiệu suất và độ tin cậy của hệ thống năng lượng mặt trời trên nhiều nguồn PV khác nhau.

Trong mạch PV, điểm công suất tối đa (MPP) được xác định dựa trên điện áp hở mạch và dòng ngắn mạch hiện tại [1] Bên cạnh đó, nhiều phương pháp tra cứu và so sánh điện áp và dòng điện đo được với MPP tương ứng dưới điều kiện môi trường cụ thể, kết hợp xấp xỉ đường cong và mô hình hóa đặc tính nguồn PV bằng các phương pháp số, được áp dụng phổ biến Ưu điểm của các phương pháp này là cấu trúc đơn giản và dễ triển khai, tuy nhiên chúng khó thích nghi với bất kỳ thay đổi bên ngoài nguồn PV nào như lão hóa hoặc thay đổi mức năng lượng đã cài đặt, vì hoạt động của chúng dựa trên các ước tính liên quan đến một nguồn cụ thể.

Các phương pháp trực tiếp dựa trên các phép đo dòng điện và điện áp có lợi thế là độc lập với kiến thức trước đó về nguồn PV, và các phương pháp trực tiếp phổ biến gồm P&O, logic mờ và mạng nơ-ron Phương pháp P&O có ưu điểm là thực hiện đơn giản, nhưng nhược điểm là dao động quanh điểm MPP tại vị trí làm việc ổn định Phương pháp logic mờ cho thấy sự ổn định, đồng thời loại bỏ dao động tại MPP, bám điểm cực đại nhanh hơn và thích ứng với các thay đổi bất chợt của môi trường; tuy nhiên độ tin cậy phụ thuộc vào kiến thức chuyên gia Để khắc phục các vấn đề trên, trong những năm gần đây các nhà nghiên cứu đã ứng dụng các kỹ thuật reinforcement learning (RL) để điều khiển MPPT.

Trong lĩnh vực học máy, học củng cố (RL) cho phép hệ thống học cách chọn hành động tối ưu dựa trên phản hồi từ môi trường để đạt được mục tiêu mong muốn Các nghiên cứu trước đó đã đề xuất mô hình Q-Learning để giải quyết bài toán MPPT cho pin mặt trời, và bài viết này tiếp nối bằng việc khám phá một thuật toán RL khác là Double Deep Q Network (DDQN) Cụ thể, thuật toán điều khiển MPPT dựa trên hai tham số quan trọng là dòng điện ngắn mạch (I_sc) và điện áp mạch mở (V_oc), được đánh giá ở điều kiện kiểm tra tiêu chuẩn (STC), với các tham số này có thể tính từ bảng dữ liệu của module PV và từ cấu hình hệ thống Những đóng góp chính của phương pháp này là cải thiện hiệu suất MPPT so với các phương pháp trước, tăng tốc độ hội tụ và giảm sai số dưới STC, đồng thời cho phép ước lượng I_sc và V_oc từ datasheet và cấu hình hệ thống.

- Đề xuất một phương pháp điều khiển MPPT sử dụng Double Deep Q

Phương pháp RLMPPT được đề xuất đã được chứng minh hoạt động hiệu quả dưới các điều kiện nhiệt độ khác nhau, cường độ bức xạ biến thiên và tải điện đa dạng Các kết quả từ mô phỏng và thử nghiệm thực nghiệm cho thấy RLMPPT nhanh chóng hội tụ về điểm tối ưu công suất (MPP), với sai số theo dõi MPP ở mức thấp và sự ổn định ngay cả khi nhiệt độ thay đổi, bức xạ mặt trời dao động hoặc tải điện thay đổi So với các phương pháp thay thế, RLMPPT thể hiện hiệu suất tối ưu cao hơn và độ bền trong phạm vi biến động rộng, giúp tối ưu hóa sản lượng PV và giảm tổn thất công suất Nghiên cứu cũng cho thấy RLMPPT thích nghi tốt với điều kiện làm việc phức tạp, mang lại vận hành tin cậy và hiệu quả dài hạn cho hệ thống PV.

- So sánh phương pháp MPPT sử dụng Double Deep Q Network và Q Learning khi làm việc với nguồn pin mặt trời công suất cao

Bài toán điề u khi ển MPPT trong điề u ki ệ n b ứ c x ạ đề u trên b ề m ặ t

Điểm hoạt động của nguồn PV được xác định bằng công suất tại thời điểm hiện tại, bằng tích của cường độ dòng I(pv) và điện áp V(pv) Chính công thức này cho thấy mối quan hệ giữa điện áp và dòng điện tạo thành đường cong PV khi điều kiện môi trường được giữ không đổi, tức là đường cong IV Đồ thị IV điển hình của nguồn PV được minh họa trong Hình 1.1.

Hình 1.1 Đường cong I-V của nguồn PV khi điều kiện môi trường không đổi

MPP là một điểm duy nhất trên đường cong IV của nguồn PV, nơi công suất mà nguồn PV sinh ra là tối đa Khi tải được kết nối với nguồn PV, điểm hoạt động của nguồn PV được xác định là giao điểm giữa đường IV của nguồn và đường IV của tải Ví dụ, nếu điện trở của tải thỏa mãn R = IPV/VPV thì điểm hoạt động trùng với MPP và không cần điều khiển MPPT Ngược lại, khi tải có đặc tính khác, điểm hoạt động sẽ lệch khỏi MPP và nguồn PV sẽ không tối ưu công suất, do đó cần thực hiện điều khiển MPPT để tối ưu hóa công suất và tận dụng tối đa nguồn PV.

MPPT là một nhiệm vụ quan trọng trong hoạt động của các nguồn PV, bởi vì giá trị tải điện trở thường khác với giá trị điện trở tương ứng với MPP dưới nhiều điều kiện môi trường Hơn nữa, tải không cố định và thường xuyên thay đổi Trong trường hợp MPPT được thực hiện và điểm hoạt động trùng với MPP, thay đổi tải sẽ đẩy điểm hoạt động ra khỏi MPP nếu điều kiện môi trường vẫn giữ nguyên Do đó, việc điều khiển MPPT phải được thực hiện liên tục Thêm vào đó, điều kiện môi trường không cố định có thể làm thay đổi đường cong IV của nguồn; khi môi trường thay đổi, đường cong IV cũng thay đổi Hình 1.2 mô tả đường cong IV khi bức xạ mặt trời là 1000 W/m2 và 500 W/m2.

Hệ số góc của đường đặc tính tải được xác định bởi giá trịđiện trở RL của tải và bằng 1

Đặc tính tải RL biểu diễn mối quan hệ giữa dòng điện và điện áp của một tải điện trở, thể hiện qua định luật Ohm; điểm làm việc trên đường đặc tính này tương ứng với MPP (điểm công suất tối đa) ở mức chiếu xạ nhất định.

Một nguồn PV có công suất 1000 W/mm^2 không khớp với MPP ở 500 W/mm^2, cho thấy độ dốc của đặc tính tải cần được điều chỉnh để dịch điểm hoạt động về MPP Để làm được điều này, ta thêm bộ chuyển đổi DC-DC Buck giữa nguồn PV và tải Bộ chuyển đổi sẽ điều chỉnh điện áp và dòng điện từ nguồn PV nhằm thay đổi độ dốc của đặc tính tải, từ đó đẩy điểm hoạt động về MPP và tối ưu hoá công suất Cách mà bộ chuyển đổi di chuyển điểm hoạt động được mô tả ở phần dưới.

Hình 1.2 Đường cong I-V tại các điều kiện bức xạ mặt trời khác nhau

Hình 1.3(a) trình bày mạch điện tương đương của PV Mô hình PV là một mô hình diode, trong đó dòng điện I_PV được tạo ra từ nguồn PV và được mô tả bởi các phương trình liên quan đến điện áp và các tham số của mô hình Mô hình này cho phép phân tích đường cong I–V và công suất của PV bằng cách kết hợp dòng I_PV với đặc tính diode, giúp dự báo hiệu suất và tối ưu hóa thiết kế hệ PV.

Hình 1.3 Mạch điện tương đương của: a)Nguồn PV, b) Bộ Buck Converter

𝑉𝑉𝑃𝑃𝑃𝑃 là điện áp trên mạch tương đương

𝐺𝐺𝑆𝑆 là bức xạ mặt trời tham chiếu, tương đương với 1000 W /𝑚𝑚 2

𝐺𝐺 𝑃𝑃𝑃𝑃 là sự bức xạ mặt trời trên nguồn PV

𝑇𝑇 𝑆𝑆 là nhiệt độ tham chiếu của nguồn PV điều kiện STC và bằng 25 0 C

𝑉𝑉 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 là điện áp của nguồn PV ở MPP tại STC

𝐼𝐼 𝑚𝑚𝑚𝑚𝑚𝑚𝑆𝑆 là dòng điện của nguồn PV tại MPP tại STC

𝑛𝑛 𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖 là hệ số nhiệt độ của điện áp mạch hở

𝑛𝑛𝑖𝑖𝑖𝑖𝑣𝑣𝑖𝑖 là hệ số nhiệt độ của dòng điện ngắn mạch

Bộ chuyển đổi buck DC/DC có khả năng di chuyển điểm hoạt động của nguồn PV bằng cách thay đổi độ dốc của đặc tính tải điện trở: S = 𝐷𝐷 2

� Trong đó D là duty cycle của bộ chuyển đổi Bộ chuyển đổi Buck Converter có khảnăng di chuyển điểm hoạt động về phía MPP chỉ khi nó nằm ở bên trái của MPP trong đường cong IV Do đó, bộ chuyển đổi Buck Converter có thể thực hiện tác vụ MPPT cho tải điện tiêu thụ nhiều năng lượng, nói cách khác là tải có giá trị điện trở thấp hơn tải tương ứng với MPP cho bất kỳđiều kiện nhất định.

Đ i ề u khi ển MPPT trong điề u ki ệ n b ứ c x ạ không đề u trên b ề m ặ t

Dựa vào các phương trình đặc tính và thông số của một Pin mặt trời, ta sử dụng công cụmatlab Simulink để mô phỏng tìm đường đặc tính của Pin như sau :

• Pin mặt trời được mô phỏng có các thông sốcơ bản như sau:

Bảng 1: Thông số cơ bản để mô phỏng pin mặt trời

Thông số Ký hiệu Giá trị Đơn vị

Công suất cực đại Pmax 59.85 W Điện áp tại điểm

Dòng điện tại điểm MPP

Imax 3.5 A Điện áp hở mạch Voc 21.1 V

Số tế bào mắc nối tiếp

Số tế bào mắc song song

Thông số thiết lập đầu vào cho pin gồm nhiệt độ 25 °C, cường độ bức xạ mặt trời lần lượt là G1 = 1000 W/m2, G2 = 800 W/m2 và G3 = 400 W/m2, cùng với thời gian mô phỏng là 30 s Từ các tham số này ta thu được kết quả mô phỏng như sau.

Hình 1.4: Hệ thống pin chiếu xạ không đều

Nhận xét cho thấy các đường đặc tính thu được hợp lý so với các đường đặc tính của một pin mặt trời bị che khuất Từ các đặc tính này, ta thấy mối quan hệ giữa dòng điện và điện áp I(V), mối quan hệ giữa công suất và điện áp P(V) và mối quan hệ giữa công suất và dòng điện P(I) là phi tuyến và phụ thuộc vào thông số của pin và điều kiện môi trường như nhiệt độ, bức xạ nhiệt.

Lý thuyế t v ề điề u khi ể n h ọc tăng cườ ng

H ọc tăng cườ ng là gì

Học tăng cường (reinforcement learning) là một nhánh của học máy, khác với các phương pháp có giám sát và không giám sát ở chỗ nó làm việc với dữ liệu từ một môi trường động thay vì tập dữ liệu tĩnh Mục tiêu của học tăng cường là tìm ra trình tự hành động tối ưu để đạt được kết quả tốt nhất, chứ không chỉ phân loại hay gán nhãn dữ liệu Để làm được điều này, tác nhân (agent) sẽ khám phá và tương tác với môi trường và học từ những kinh nghiệm thu thập được Trong mỗi lần tương tác, tác nhân dùng một chính sách (policy) để nhận quan sát từ môi trường rồi quyết định hành động Khi hành động được thực hiện, tác nhân nhận phần thưởng tương ứng với mức độ phù hợp với mục tiêu tối ưu hóa; hành động đúng sẽ nhận được phần thưởng cao, hành động sai sẽ nhận được phần thưởng thấp hoặc bị phạt Dựa trên phần thưởng nhận được, tác nhân tổng hợp kinh nghiệm và điều chỉnh chính sách để cải thiện hiệu suất cho các lần hoạt động tiếp theo.

Ví dụ về điều khiển robot bằng học tăng cường: các đầu vào từ môi trường bao gồm góc các khớp, vận tốc và gia tốc góc cùng hàng nghìn điểm ảnh từ cảm biến giám sát; dựa trên các thông tin này, hàm tính toán sẽ xác định các tác động động cơ để di chuyển các khớp của robot Khi robot vận hành, môi trường sẽ sinh ra một giá trị phần thưởng cho tác nhân nhằm phản ánh ảnh hưởng của việc phối hợp các hành động; phần thưởng cao khi robot duy trì thăng bằng và tiến về mục tiêu, và phần thưởng thấp hoặc bị phạt khi robot bị ngã Dựa vào giá trị phần thưởng nhận được, tác nhân sẽ điều chỉnh các hành động cho các lần chạy tiếp theo nhằm cải thiện hiệu suất điều khiển và khả năng thích nghi với môi trường.

Thiết kế một chính sách tối ưu nhằm lựa chọn đúng hành động ở từng trạng thái của hệ thống sẽ làm công việc thiết kế được xem là hoàn tất Tuy nhiên, điều này không hề dễ dàng vì môi trường bên ngoài luôn biến đổi và các phản ứng có thể thay đổi theo ngữ cảnh mới Vì vậy, để đạt được chính sách tối ưu thực sự, chính sách cần được liên tục điều chỉnh dựa trên hành động đã thực hiện, phản hồi từ môi trường và phần thưởng nhận được.

Học tăng cường (reinforcement learning) là một phương pháp dạy máy cho tác nhân (agent) thực hiện một nhiệm vụ (task) bằng cách tương tác với môi trường (environment) thông qua các hành động (actions) và nhận phần thưởng (reward) từ hệ thống Trong khuôn khổ học tăng cường, tác nhân học cách chọn hành động tối ưu để cải thiện chính sách hành vi (policy), nhằm tối đa hóa tổng phần thưởng tích lũy theo thời gian Quá trình học dựa trên trải nghiệm từ mỗi trạng thái của môi trường: tác nhân thực hiện hành động, nhận phần thưởng và cập nhật nhận thức về giá trị của các hành động để dần khám phá và tối ưu chiến lược Các khái niệm liên quan như Mô hình quyết định theo trạng thái (MDP), chính sách (policy), giá trị (value) và hàm lợi ích giúp hệ thống đánh giá và cải thiện hành vi của tác nhân.

Mục tiêu của một hệ thống điều khiển là tính toán các tín hiệu điều khiển (hành động) để hệ thống đạt được đáp ứng mong muốn Trong các hệ thống điều khiển phản hồi, bộ điều khiển sử dụng các trạng thái phản hồi để cải thiện chất lượng và hiệu suất của hệ thống Người kỹ sư thiết kế điều khiển sẽ kết hợp mô hình của hệ thống và môi trường để đạt được kết quả mong muốn Với học tăng cường, mục tiêu và yêu cầu tương tự như điều khiển truyền thống, chỉ khác ở cách thức thực hiện Việc tạo ra tín hiệu điều khiển phù hợp chỉ có thể đạt được sau một quá trình học do máy tính thực hiện thông qua tương tác với môi trường mà không cần biết trước mô hình cụ thể của đối tượng và môi trường.

Do vậy, học tăng cường thường được áp dụng trong các hệ thống có mô hình bất định hoặc có số lượng trạng thái và hành động lớn Vậy máy sẽ học như thế nào? Câu trả lời nằm ở cách xây dựng chính sách, tức một hàm toán học được xây dựng dựa trên một thuật toán và có các tham số có thể điều chỉnh Với mỗi chính sách được thiết kế, sẽ có một tập tham số làm cho hành động được chọn tối ưu Nhiệm vụ của quá trình học là điều chỉnh những tham số này sao cho hệ thống dần hội tụ về giá trị tối ưu Quá trình học sẽ được thực hiện thông qua các thuật toán, ở giai đoạn ban đầu có thể hiểu đơn giản như một quá trình thử và sai (trial and error).

Xét quá trình quyết định Markov (MDP) gồm X là tập trạng thái, U là tập hành động và hai hàm xác suất–phần thưởng P và R Xác suất chuyển tiếp P(x'|x,u) cho biết xác suất để trạng thái x ∈ X dưới tác động của hành động u ∈ U chuyển đến trạng thái x' ∈ X, và R(x,u,x') là phần thưởng mong đợi nhận được khi chuyển từ x sang x' dưới tác động của u Có thể thấy rằng P(x'|x,u) chỉ phụ thuộc vào trạng thái hiện tại x và hành động đang được thực thi u, không phụ thuộc vào cách mà hệ thống đạt tới trạng thái đó.

Vấn đề cơ bản của MDP là tìm ra ánh xạ π: X × U → [0,1] cho biết xác suất π(x,u) = P{u|x} của việc chọn hành động u khi MDP đang ở trạng thái x Ánh xạ này được xem như một chiến lược hay chính sách điều khiển vòng kín Chiến lược π(x,u) = P{u|x} được gọi là ngẫu nhiên nếu xác suất để chọn nhiều hơn một hành động tại trạng thái x lớn hơn 0 Ngược lại, nếu ánh xạ π: X × U → [0,1] chỉ cho phép một hành động với xác suất bằng 1 đối với mọi trạng thái x thì ánh xạ đó được gọi là tất định Khi đó π(x,u) = P{u|x} tương ứng với một hàm ánh xạ các trạng thái đến các hành động μ(x): X → U.

Các hệ thống động học thường là các hệ nhân quả theo thời gian Ở đây ta xét các bài toán ra quyết định tuần tự đang ở trạng thái x_k với hành động u_k, nhằm điều khiển quá trình chuyển đến trạng thái x_{k+1} Định nghĩa một chi phí (stage cost) tại thời điểm k là R_k(x_k, u_k, x_{k+1}) Như vậy, với E{·} là toán tử giá trị mong đợi, bài toán tối ưu được diễn giải qua hàm giá trị V(x_k) thỏa mãn quan hệ Bellman: V(x_k) = max_{u_k} E[ R_k(x_k, u_k, x_{k+1}) + V(x_{k+1}) ].

𝑅𝑅𝑥𝑥𝑥𝑥′ 𝑢𝑢 =𝐸𝐸{𝑅𝑅𝑘𝑘|𝑥𝑥𝑘𝑘 =𝑥𝑥,𝑢𝑢𝑘𝑘 =𝑢𝑢,𝑥𝑥𝑘𝑘+1 =𝑥𝑥′} (2.1) Định nghĩa chỉ số hiệu quả là tổng của các chi phí tương lai trong khoảng thời gian [k,k+T]:

Giá trị của một chính sách π được định nghĩa là giá trị mong đợi của các chi phí tương lai khi bắt đầu từ trạng thái x tại thời điểm k và tuân theo chính sách π(x,u) Nói cách khác, V^π(x) là tổng chi phí dự kiến mà hệ thống phải trả trong tương lai khi hành động được chọn theo π tại mọi thời điểm t từ x_t, với c(x_t,u_t) là chi phí tại từng bước Việc đo lường và so sánh giá trị này ở các trạng thái x cho các chính sách khác nhau cho phép xác định mức độ tối ưu của chính sách để tối thiểu hóa chi phí hoặc tối đa hóa phần thưởng trong môi trường động lực.

Trong đó, 𝐸𝐸 𝜋𝜋 { } là giá trị mong muốn khi tác tử tuân theo chính sách 𝜋𝜋(𝑥𝑥,𝑢𝑢), 𝑉𝑉 𝜋𝜋 (𝑥𝑥)còn được gọi là hàm giá trị cho chính sách 𝜋𝜋(𝑥𝑥,𝑢𝑢)

Nếu ta chỉ quan tâm đến các quá trình xác định và bỏ qua các quá trình ngẫu nhiên thì hàm (2.3) sẽ có dạng đơn giản như sau:

Nhiệm vụ chính của MDP là tính toán một chính sách 𝜋𝜋(𝑥𝑥,𝑢𝑢) để tối tiểu chi phí tương lai mong muốn

Chính sách này được gọi là chính sách tối ưu, tương ứng với chính sách tối ưu này là hàm giá trị tối ưu

Dạng đệ quy của hàm giá trị

Hàm giá trị của chính sách 𝜋𝜋(𝑥𝑥,𝑢𝑢)có thể được viết lại như sau:

Từ (2.8) và (2.9) có thể viết lại:

Dạng đơn giản của (2.10) khi bỏ qua quá trình ngẫu nhiên là:

Trong biểu thức (2.11), V_k^π(x) = R_k^π(x) + γ V_k^π(x′) = R(x_k, u_k, x_{k+1}) + γ V_k^π(x_{k+1}) cho thấy đây là dạng đệ quy của hàm giá trị ở thời điểm k dựa vào giá trị ở thời điểm k+1 Đây là dạng đệ quy của hàm giá trị ở thời điểm k dựa vào giá trị ở thời điểm k+1 Lưu ý trong học tăng cường, ta chủ yếu nghiên cứu các quá trình xác định; vì vậy (2.11) sẽ được sử dụng cho các thuật toán ở các phần trình bày phía sau.

Hàm giá trị tối ưu có dạng như sau:

Quy tắc tối ưu Bellman cho một chính sách tối ưu cho hệ động lực cho biết các hành động điều khiển tối ưu ở từng thời điểm chỉ phụ thuộc vào trạng thái nhận được từ các lần điều khiển trước đó và không bị ảnh hưởng bởi bản thân các tác động điều khiển đã thực hiện Chính nhờ đặc tính này, quan hệ giữa chính sách tối ưu và trạng thái hệ thống được diễn đạt dựa trên trạng thái hiện tại thay vì phải xét toàn bộ lịch sử điều khiển Vì vậy, công thức mô tả tính chất tối ưu có thể được viết lại dựa trên sự phụ thuộc vào trạng thái hiện tại, cụ thể là với tính chất này (2.12) được viết lại như sau:

Giả sử một tác động điều khiển u được áp dụng tại thời điểm k và từ thời điểm k+1 trở đi chính sách tối ưu được thực thi Theo quy tắc tối ưu Bellman, chính sách điều khiển tối ưu tại thời điểm k sẽ là u^*_k = argmax_{u ∈ U} [ r(x_k, u) + γ V^*_{k+1}( f(x_k, u) ) ], với x_{k+1} = f(x_k, u) Nói cách khác, việc chọn u^*_k tối ưu dựa trên sự cân nhắc giữa phần thưởng ngay lập tức và giá trị tối ưu của trạng thái kế tiếp được tính bằng hàm giá trị V^* và mô hình động học x_{k+1} = f(x_k, u). -**Support Pollinations.AI:** -🌸 **Ad** 🌸Powered by Pollinations.AI free text APIs [Support our mission](https://pollinations.ai/redirect/kofi) to keep AI accessible for everyone.

Giả sử mỗi MDP đều có một chính sách tối ưu xác định, ta có thể tối thiểu hóa tác động của điều khiển u trên mọi trạng thái x theo một cách tương đương Do đó, bài toán kiểm soát có thể được thu nhỏ thành việc tìm một chính sách tối ưu duy nhất cho MDP, từ đó đảm bảo sự tối ưu hóa của tác động điều khiển lên toàn bộ không gian trạng thái x.

Phương trình Bellman và phương trình tối ưu Bellman

Quy hoạch động là một kỹ thuật vòng ngược thời gian để tìm hàm và chính sách tối ưu Ngược lại, học tăng cường tập trung vào việc tìm ra chính sách tối ưu dựa vào kết quả thu được từ việc thực thi các quyết định một cách tuần tự để cải thiện các tác động điều khiển thông qua các kết quả thu được từ chính sách hiện hành Chuỗi hành động này sử dụng các phương pháp để tìm hàm tối ưu và các chính sách tối ưu Gốc rễ của vấn đề này là phương trình Bellman [7], [8].

Quá trình Markov

Quá trình quyết định Markov (Markov Decision Process – MDP) được mô tả bởi X là tập trạng thái và U là tập hành động hay điều khiển P: X×U×X → [0,1] cho xác suất để từ trạng thái x ∈ X dưới tác động của u ∈ U chuyển đến trạng thái x' ∈ X, ký hiệu P(x'|x,u) R: X×U×X → ℝ là phần thưởng mong đợi nhận được khi chuyển từ x sang x' dưới tác động của u Có đặc tính quan trọng là xác suất P(x'|x,u) chỉ phụ thuộc vào trạng thái hiện tại x và hành động u, và không phụ thuộc vào cách thức mà MDP đạt được trạng thái đó.

Vấn đề cơ bản của MDP là tìm ra một ánh xạ π: X × U → [0,1] cho biết xác suất π(x,u) = P{u|x} của việc chọn hành động u khi MDP ở trạng thái x Ánh xạ này được coi như một chiến lược (chính sách) điều khiển vòng kín Chiến lược π(x,u) = P{u|x} được gọi là ngẫu nhiên nếu xác suất để chọn nhiều hơn một hành động tại trạng thái x lớn hơn 0 Nếu ánh xạ π: X × U → [0,1] chỉ cho phép một hành động với xác suất bằng 1 đối với mọi trạng thái x thì ánh xạ đó được gọi là tất định Khi đó π(x,u) = P{u|x} tương ứng với một hàm ánh xạ các trạng thái đến các hành động μ(x): X → U.

Các hệ thống động học thường là các hệ nhân quả theo thời gian Ở đây ta xét các bài toán ra quyết định tuần tự ở trạng thái k với giá trị trạng thái x_k và hành động u_k Định nghĩa chi phí giai đoạn tại thời điểm k là R_k(x_k, u_k, x_{k+1}) Như vậy, với E{·} là toán tử giá trị mong muốn, bài toán tối ưu được đặt ra là tối thiểu hoá (hoặc tối đa hoá) kỳ vọng tổng chi phí theo đường đi của hệ thống dựa trên các chi phí giai đoạn và sự chuyển tiếp trạng thái x_k → x_{k+1}.

𝑅𝑅𝑥𝑥𝑥𝑥′ 𝑢𝑢 =𝐸𝐸{𝑅𝑅𝑘𝑘|𝑥𝑥𝑘𝑘 =𝑥𝑥,𝑢𝑢𝑘𝑘 =𝑢𝑢,𝑥𝑥𝑘𝑘+1 =𝑥𝑥′} (2.1) Định nghĩa chỉ số hiệu quả là tổng của các chi phí tương lai trong khoảng thời gian [k,k+T]:

Giá trị của một chính sách là giá trị kỳ vọng của các chi phí trong tương lai khi bắt đầu từ trạng thái x ở thời điểm k và tuân theo chính sách π(x,u) Nói cách khác, nó biểu thị mức chi phí mong đợi mà hệ thống phải trả khi hành động được chọn theo π và các trạng thái tiếp theo được sinh ra theo chu trình thời gian.

Trong đó, 𝐸𝐸 𝜋𝜋 { } là giá trị mong muốn khi tác tử tuân theo chính sách 𝜋𝜋(𝑥𝑥,𝑢𝑢), 𝑉𝑉 𝜋𝜋 (𝑥𝑥)còn được gọi là hàm giá trị cho chính sách 𝜋𝜋(𝑥𝑥,𝑢𝑢)

Nếu ta chỉ quan tâm đến các quá trình xác định và bỏ qua các quá trình ngẫu nhiên thì hàm (2.3) sẽ có dạng đơn giản như sau:

Nhiệm vụ chính của MDP là tính toán một chính sách 𝜋𝜋(𝑥𝑥,𝑢𝑢) để tối tiểu chi phí tương lai mong muốn

Chính sách này được gọi là chính sách tối ưu, tương ứng với chính sách tối ưu này là hàm giá trị tối ưu

Dạng đệ quy của hàm giá trị

Hàm giá trị của chính sách 𝜋𝜋(𝑥𝑥,𝑢𝑢)có thể được viết lại như sau:

Từ (2.8) và (2.9) có thể viết lại:

Dạng đơn giản của (2.10) khi bỏ qua quá trình ngẫu nhiên là:

V_k^π(x) = R_k + γ V_k^π(x') = R(x_k, u_k, x_{k+1}) + γ V_k^π(x_{k+1}) (2.11) Đây là dạng đệ quy của hàm giá trị tại thời điểm k dựa vào giá trị tại thời điểm k+1 Lưu ý trong học tăng cường, ta chủ yếu nghiên cứu các quá trình xác định nên (2.11) sẽ được dùng cho các thuật toán trình bày ở phần sau.

Hàm giá trị tối ưu có dạng như sau:

Quy tắc tối ưu Bellman cho biết một chính sách tối ưu có tính chất đặc trưng: các quyết định điều khiển để tạo thành chính sách tối ưu chỉ phụ thuộc vào trạng thái nhận được từ tác động điều khiển trước đó và không bị ảnh hưởng trực tiếp bởi chính tác động đã thực hiện Theo quan điểm này, phần còn lại của quá trình tối ưu hóa sau mỗi bước vẫn là một chính sách tối ưu với trạng thái hiện tại, cho phép tái hiện lại giá trị và quyết định ở từng trạng thái một cách độc lập với quá khứ hành động Vì vậy, với tính chất này, công thức (2.12) được viết lại để nhấn mạnh mối liên hệ giữa trạng thái, hành động và giá trị tối ưu trong từng bước của chu trình điều khiển.

Giả sử một tác động điều khiển u được áp dụng ở thời điểm k và từ thời điểm k+1 trở đi sẽ thực thi chính sách tối ưu Theo quy tắc Bellman, chính sách điều khiển tối ưu ở thời điểm k là u_k^* = argmin_{u ∈ U} [ g(x_k, u) + γ V_{k+1}( f(x_k, u) ) ], và hàm giá trị tại thời điểm k được cho bởi V_k(x_k) = g(x_k, u_k^*) + γ V_{k+1}( f(x_k, u_k^*) ).

Giả sử mỗi MDP có một chính sách tối ưu xác định, ta có thể tối thiểu hóa tác động của điều khiển u cho mọi trạng thái x một cách đồng nhất Do đó, tồn tại một chính sách tối ưu cố định có thể áp dụng cho toàn bộ tập trạng thái nhằm giảm thiểu tác động của u trong hệ thống.

Phương trình Bellman và phương trình tối ưu Bellman

Quy hoạch động là một kỹ thuật tối ưu theo thời gian, dùng phương pháp quay ngược (backward in time) để tìm hàm giá trị và chính sách tối ưu Trong khi đó, học tăng cường tập trung vào việc học chính sách tối ưu dựa trên kết quả từ việc thực thi các quyết định một cách tuần tự nhằm cải thiện các tác động điều khiển thông qua các kết quả từ chính sách hiện hành Chuỗi hành động này kết hợp các phương pháp để xác định hàm tối ưu và các chính sách tối ưu Gốc rễ của vấn đề này nằm ở phương trình Bellman.

Phương pháp vòng xuôi (forward in time) được dùng để tìm các hàm tối ưu và các chính sách tối ưu trong bài toán điều khiển, với giả thiết thời gian T được coi là vô hạn và chi phí vô cùng để phản ánh horizon vô hạn Khi xem T là vô hạn, mục tiêu là tối ưu hóa chi phí tích lũy trên toàn bộ quá trình và xác định các quy tắc điều chỉnh tối ưu dựa trên trạng thái hiện tại của hệ thống, từ đó hình thành các hàm giá trị và chính sách tối ưu Phương pháp này giúp phân tích hiệu quả dài hạn của hệ thống động lực học và gợi ý cách thiết kế chính sách phù hợp với ràng buộc về chi phí và hiệu suất.

∞ 𝑖𝑖=0 (2.17) Hàm giá trị vô cùng cho chính sách 𝜋𝜋(𝑥𝑥,𝑢𝑢) là:

Sử dụng biểu thức (2.9) với 𝑇𝑇 =∞ ta thấy rằng hàm giá trị với chính sách 𝜋𝜋(𝑥𝑥,𝑢𝑢)thỏa mãn phương trình Bellman:

Như vậy, phương trình Bellman (2.19) có thể được coi là một phương trình luôn được thỏa mãn bởi hàm giá trị ở mỗi thời điểm Điều này thể hiện mối quan hệ giữa hàm giá trị ở trạng thái x với hàm giá trị ở trạng thái tiếp theo x' khi chính sách π(x, u) được sử dụng.

Phương trình Bellman (2.19) là nền tảng để phát triển các thuật toán học tăng cường nhằm tìm chính sách tối ưu bằng cách khai thác kinh nghiệm nhân quả nhận được từ tương lai; Phương trình tối ưu Bellman (2.12) chỉ là một thành phần của khung lý thuyết tối ưu hóa trong học tăng cường.

Trong học tăng cưởng, nghiệm của hệ phương trình nhỏ nhất được xác định mà không chứa bất kỳ chính sách π(x,u) nào; điều này được tìm bằng hiểu động học thông qua xác suất chuyển đổi Ngược lại, phương trình Bellman có dạng đơn giản và dễ hiểu hơn phương trình tối ưu Bellman; nghiệm của nó là hàm giá trị V_π(x) tương ứng với một chính sách cụ thể π(x,u) Chính vì vậy, phương trình Bellman phù hợp với khung Actor-Critic, cung cấp cơ chế cho thành phần Critic để đánh giá hiệu quả của chính sách hiện tại Khi áp dụng phương trình Bellman (2.20) trong học tăng cưởng, V_π(x) được xem như một giá trị dự báo, với các thành phần là kỳ vọng của hành động theo phân phối π(u|x) và xác suất chuyển đổi P(x'|x,u); r(x,u,x') là phần thưởng ước lượng của một bước, và V_π(x') là giá trị dự báo cho đáp ứng tương lai.

Nếu như MDP là giới hạn với N trạng thái thì phương trình Bellman (2.19) là một hệ thống gồm N phương trình tuyến tính tức thời của hàm giá trị𝑉𝑉 𝜋𝜋 (𝑥𝑥)ứng

Hàm giá trị tối ưu thỏa mãn

Sử dụng nguyên tắc tối ưu Bellman, hàm tối ưu có dạng:

Với giả thiết bỏ qua các quá trình ngẫu nhiên, phương trình tối ưu Bellman có thể được viết lại như sau:

Phương trình này được biết đến là phương trình HJB trong lý thuyết điều khiển Nếu MDP là giới hạn và có N trạng thái thì phương trình tối ưu Bellman là một hệ gồm N phương trình phi tuyến của hàm giá trị tối ưu 𝑉𝑉 ∗ (𝑥𝑥) ở mỗi trạng thái Tác động điều khiển tối ưu được cho bởi:

𝑢𝑢 (𝑅𝑅(𝑥𝑥,𝑢𝑢,𝑥𝑥′) +𝛾𝛾𝑉𝑉 ∗ (𝑥𝑥′)) (2.24) Trong các hệ thống động học, (2.24) chính là bộđiều khiển phản hồi trạng thái tối ưu.

Áp dụ ng h ọc tăng cường vào bài toán điề u khi ể n MPPT

Các khái ni ệm thườ ng dùng trong h ọc tăng cườ ng

3.1.1 Không gian trạng thái (State space)

Một không gian trạng thái bao gồm tất cả các trạng thái có thể có của hệ thống ta đang xét Một không gian trạng thái cần được mô tả đầy đủ và bao gồm tất cả thông tin cần thiết để miêu tả hệ thống và cho phép ra quyết định Tuy nhiên, thông tin thừa có thể dẫn đến một không gian trạng thái rất lớn và gây khó khăn cho việc tính toán Mặt khác, thông tin không đầy đủ có thểgây khó khăn trong việc phân biệt giữa các trạng thái, dẫn tới việc lựa chọn hành động không hợp lí, dao động giữa các trạng thái và chính sách không tối ưu.

Mô hình cần duy trì tính chất Markov để thuật toán học tăng cường (RL) hội tụ về chính sách tối ưu Điều này có nghĩa là xác suất chuyển trạng thái từ trạng thái này sang trạng thái khác chỉ phụ thuộc vào trạng thái hiện tại và hành động được chọn, mà không bị ảnh hưởng bởi dữ liệu trong quá khứ.

Mục tiêu của bài toán MPPT là đạt công suất phát ra lớn nhất từ hệ thống pin mặt trời Hiệu quả của MPPT được định nghĩa bằng khoảng cách từ điểm công suất tối đa (MPP) đến điểm làm việc thực tế của pin mặt trời dưới điều kiện môi trường cụ thể Một số tài liệu trình bày các phương pháp tiếp cận dựa trên đường cong đặc tính I–V của module PV Những phương pháp này có lợi thế là tạo ra một không gian trạng thái nhỏ, nhưng chỉ hiệu quả khi nguồn PV làm việc ở điều kiện tĩnh; khi nhiệt độ hoặc cường độ bức xạ thay đổi, đặc tính I–V cũng thay đổi và điểm công suất tối đa sẽ di chuyển theo.

Phương pháp điều khiển RLMPPT được đề xuất dựa trên định nghĩa trạng thái gồm các biến I, V và Deg Công suất tối đa mà pin có thể sinh ra là kết quả của dòng và điện áp mà pin cung cấp, nên hai biến trạng thái I và V thể hiện điểm làm việc của pin Mặc dù các tham số trạng thái là liên tục, một không gian trạng thái rời rạc được đề xuất để cho phép vận hành thời gian thực Tuy nhiên, quá trình rời rạc hoá không gian trạng thái cần tạo ra một không gian trạng thái ngắn gọn và dễ điều khiển.

Điểm năng lượng tối ưu của nguồn PV ở một điều kiện làm việc cụ thể (nhiệt độ, bức xạ) có thể không tối ưu ở điều kiện môi trường khác Để phân biệt giữa các trường hợp này, người ta giới thiệu biến Deg Deg được định nghĩa là tổng θ1 + θ2, được tính bằng biểu thức (3.1) và thể hiện ở hình 3.1 Giá trị Deg phải nằm trong khoảng từ -90° đến 90°.

Trong hệ thống PV, tham số Deg bằng 0 khi đã đạt được điểm MPP; các giá trị Deg dương hoặc Deg âm lần lượt cho phép phân biệt rõ ràng giữa các điểm MPP khác nhau ở các điều kiện làm việc khác nhau.

Hình 3.1 Góc θ 1 và θ 2 trong MPP

3.1.2 Danh sách hành động (Action list)

Danh sách các hành động là một tập hữu hạn các thao tác có thể áp dụng cho nguồn PV để thay đổi điểm làm việc của hệ thống Trong bài toán điều khiển MPPT, hành động được xem xét là thay đổi duty cycle của bộ chuyển đổi DC/DC nhằm tác động lên công suất phát từ nguồn PV và hướng hệ thống tới điểm tối ưu công suất Việc xác định và triển khai các hành động phù hợp giúp tăng hiệu suất và đáp ứng nhanh với sự biến thiên của điều kiện làm việc.

Chu kỳ làm việc của PV (duty cycle) có thể dao động từ 0 đến 1 và mỗi nguồn PV cùng với các điều kiện làm việc khác nhau sẽ cho ra các giá trị tối ưu khác nhau Việc duy trì một danh sách các hành động liên tục để đạt được độ chính xác cao cho kết quả cuối cùng sẽ làm tăng số lượng giá trị hành động cần xem xét và yêu cầu nhiều phương pháp để giữ hệ thống dễ điều khiển Vì vậy, để giảm thiểu khối lượng tính toán, ta cần định nghĩa một danh sách hữu hạn các hành động rời rạc A dựa trên các nguyên tắc sau:

• Hành động cần bao gồm các giá trịdương và âm

• Giá trị nhỏ nhất cần đủ nhỏđể hội tụ về công suất tối đa

• Phải có một giá trịhành động bằng 0 để tránh sựdao động giữa các trạng thái

Xét theo các nguyên tắc bên trên, một danh sách trạng thái A={a1, a2, …an-

Dãy số (a1, an, an+1, …, a2n−1) được tạo ra với các điều kiện: a1 là giá trị lớn nhất, a_{n−1} là giá trị nhỏ nhất và a_n = 0 Từ dãy này, ta xây dựng danh sách các hành động gồm 2n−1 hành động khác nhau, phụ thuộc vào yêu cầu của nguồn PV.

Khi một hành động được áp dụng vào hệ thống, hệ thống sẽ tương tác với môi trường, chuyển sang trạng thái mới và trả lại phần thưởng để giúp cập nhật chính sách Đối với bài toán điều khiển MPPT, ta tính toán phần thưởng như sau: phần thưởng được thiết kế để phản ánh mức độ đạt được mục tiêu tối ưu hóa hiệu suất và được dùng để điều chỉnh chính sách điều khiển MPPT qua từng bước học.

𝛥𝛥𝑚𝑚 là biến thiên của công suất P trong khoảng thời gian 𝛥𝛥𝑡𝑡

Để phân tách rõ ràng giữa các trạng thái tích cực và tiêu cực, các trọng số wp và wn cần khác biệt với nhau (wp ≠ wn) Sự khác biệt này giúp tăng khả năng nhận diện và phân loại trạng thái, từ đó nâng cao tác động tích cực của mỗi hành động Việc tối ưu hóa các trọng số sẽ cải thiện độ nhạy và hiệu quả của hệ thống, mang lại kết quả tích cực rõ rệt trong ứng dụng thực tế.

Cách tính phần thưởng sẽ đánh giá tác động tích cực hoặc tiêu cực của mỗi hành động và tỉ lệ với độ biến thiên của công suất, giúp thuật toán nhận diện các hành động hiệu quả hơn Khi nguồn PV hoạt động ổn định ở công suất lớn nhất, phần thưởng sẽ bằng không, từ đó thuật toán tránh được dao động giữa các trạng thái khi đã hội tụ.

Phương pháp xác định phần thưởng được thiết kế độc lập với loại nguồn PV và điều kiện môi trường, cho phép nó được áp dụng cho các hệ thống khác nhau mà không cần biết trước các đặc điểm hoặc điều kiện môi trường của từng hệ thống.

M ộ t s ố thu ậ t toán h ọc tăng cường trong điề u khi ể n pin m ặ t tr ờ i

Q learning là một trong những thuật toán học củng cốđơn giản nhất Thuật toán Q learning có thể hiểu đơn giản như sau:

Mỗi giá trị Q-value ứng với một hành động tại một trạng thái nhất định là giá trị của tổng phần thưởng tích luỹ mong đợi nếu chọn hành động đó ở trạng thái tương ứng Q-value cho phép đánh giá và so sánh các hành động tại cùng một trạng thái để xác định hành động tối ưu trong quá trình học của agent Giá trị này bị ảnh hưởng bởi phần thưởng nhận được sau mỗi bước và trạng thái tiếp theo, nên nó phản ánh cả ngắn hạn lẫn dài hạn của chiến lược hành động Trong bối cảnh học tăng cường, Q-value là nền tảng cho các thuật toán như Q-learning nhằm tối ưu hoá chính sách và cải thiện hiệu suất theo thời gian.

- Thuật toán Q learning sẽ tạo ra một bảng để lưu các giá trị Q-value của từng hành động ứng với một trạng thái cụ thể

Qua quá trình khám phá, tại mỗi trạng thái nếu ta chọn hành động có giá trị Q-value lớn nhất, ta sẽ có được chính sách tối ưu cho MPPT Để áp dụng thuật toán Q-learning cho bài toán MPPT, ta định nghĩa các thành phần cơ bản của thuật toán gồm trạng thái, hành động, hàm Q, phần thưởng và quy trình cập nhật Q-learning, đồng thời nêu rõ cách cân bằng giữa khai phá và khai thác nhằm tối ưu hóa việc theo dõi điểm công suất tối đa.

Danh sách trạng thái được mô tả bằng ba biến I, V và Deg như đã đề cập ở trên Trong đó, I được rời rạc hoá từ 0 A đến 8 A theo các giá trị cách đều nhau là 0,4 A Các biến V và Deg được xác định đồng thời để hoàn thiện bảng trạng thái của hệ thống, nhằm phân tích đáp ứng và hành vi động lực của mạch dựa trên các giá trị I đã cho.

V đượ ờ ạc hoá trong đoạ ừ0V đế ớ ị o Deg bằng 1 khi lớn hơn 5 0 và bằng 0 khi nhỏhơn 5 0

- Danh sách hành động là độ biến thiên của duty cycle được định nghĩa gồm 5 giá trị: A = {-0.1; 0.01; 0; 0.01; 0.1}

Bảng Q-value có số hàng và số cột lần lượt bằng kích thước của danh sách trạng thái và danh sách hành động, được khởi tạo với giá trị bằng 0 Bảng này là công cụ trung tâm trong học tăng cường, dùng để lưu trữ ước lượng giá trị hành động tại mỗi trạng thái (Q-value) Mỗi ô (i, j) biểu thị giá trị Q cho trạng thái thứ i khi thực hiện hành động thứ j, từ đó giúp agent xây dựng và tối ưu hóa chính sách hành động Quá trình huấn luyện liên tục cập nhật các giá trị Q dựa trên phần thưởng nhận được và ước lượng giá trị của trạng thái kế tiếp, nhằm hội tụ về chính sách tối ưu.

- Bảng enum(s) lưu số lần khám phá đối với từng trạng thái s, với enum là số lần khám phá lớn nhất

Thuật toán khám phá ở đây tiến hành khám phá bằng cách chọn ngẫu nhiên các hành động cho các trạng thái có số lần khám phá nhỏ hơn số lần khám phá lớn nhất (enum(s) < enum) Với mỗi trạng thái, khi số lần khám phá vẫn ở mức thấp, hệ thống ưu tiên thử nghiệm các hành động mới một cách ngẫu nhiên nhằm mở rộng kiến thức về môi trường; khi số lần khám phá đạt ngưỡng tối đa, thuật toán sẽ chuyển sang khai thác dựa trên những gì đã học được Cách làm này giúp cân bằng giữa khám phá và khai thác, từ đó cải thiện khả năng tìm ra hành động tối ưu theo thời gian.

- Hàm tính toán phần thưởng:

Với wp = 4, wn = 1 a Nội dung thuật toán:

 Khởi tạo không gian trạng thái S, danh sách hành động A, bảng enum(s) và bảng Q-value Q(s,a)

 Xác định điểm làm việc ban đầu

 Thực hiện vòng lặp đến khi hội tụ: o Lựa chọn hành động a:

 Nếu enum(s) < enum (trạng thái chưa được khám phá đầy đủ): chọn hành động ngẫu nhiên

Nếu enum(s) ≥ enum (trạng thái đã được khám phá đầy đủ), hệ thống sẽ chọn hành động mang lại kết quả tốt nhất dựa trên giá trị Q-value lớn nhất Sau khi thực hiện hành động, agent chuyển sang trạng thái mới và nhận phần thưởng tương ứng Tiếp đó, bảng Q-value được cập nhật để phản ánh phần thưởng nhận được và giá trị dự đoán cho trạng thái tiếp theo, giúp cải thiện quyết định hành động ở các vòng lặp tiếp theo.

Q s a =Q s a +α R+γ Q s a −Q s a b Kết quả mô phỏng Để kiểm nghiệm các thuật toán, tôi sử dụng mô hình tấm pin có thông số như trong bảng dưới đây:

Bảng 3.1 Thông số của một số loại pin mặt trời

Tham số Định nghĩa Giá trị

𝑉𝑉𝑚𝑚𝑚𝑚𝑚𝑚𝑆𝑆(𝑉𝑉) MPP produced voltage at STC

𝐼𝐼𝑚𝑚𝑚𝑚𝑚𝑚𝑆𝑆(𝑊𝑊) MPP produced current at STC

7.47 7.47 14.94 67.23 niscT Short circuit current temperature coefficient

0.0010199 0.0010199 0.0010199 0.0010199 nvocT Open circuit voltage temperature coefficient

Bốn nguồn PV được chọn để nghiên cứu hiệu suất của bộ điều khiển RLMPPT được trình bày trong Bảng 3.1 Nguồn PV đầu tiên là một mô-đun thương mại 220 W, trong khi các nguồn PV còn lại là các thiết lập thử nghiệm khác nhau với nhiều mô-đun cùng loại Cụ thể, nguồn PV thứ hai được hình thành bởi hai mô-đun PV1 kết nối nối tiếp để kiểm tra bộ điều khiển ở các cấu hình điện áp và công suất khác nhau Nguồn PV thứ ba được tạo thành bởi hai hàng được kết nối song song, mỗi hàng gồm hai mô-đun PV1 mắc nối tiếp để kiểm tra bộ điều khiển dưới các điện áp, dòng điện và công suất khác nhau Nguồn PV thứ tư là nguồn công suất cao, bao gồm chín hàng nối song song và mỗi hàng gồm mười mô-đun PV1 được kết nối nối tiếp.

 Điều kiện NOCT và STC

 Norminal Operating Test Condition (NOCT): TPV = 47 0 C, GPV = 800 W/m 2

 Standard Test Condition (STC): TPV = 25 0 C, GPV = 1000 W/m 2

Hình 3.2 Công suất nguồn PV1 dưới điều kiện a) NOCT và b) STC

Sau khi kết thúc quá trình thăm dò, thuật toán đã hội tụ về công suất tối đa của hệ PV Sai số công suất nguồn PV cuối cùng là -0,015 W ở điều kiện NOCT và -0,3 W ở điều kiện STC, tương ứng.

Về tốc độ hội tụ, công suất đầu ra của nguồn PV ổn định ở 2,21 giây và 3,05 giây cho điều kiện NOCT và STC tương ứng, cho thấy phản ứng rất nhanh khi không có kiến thức ban đầu và một chính sách tối ưu được học Xét thời gian phản hồi của bộ điều khiển RLMPPT (0,01 s), thuật toán có thể được cho là hội tụ sau 221 vòng Thời gian phản hồi 0,01 s có thể được thực hiện từ bộ điều khiển phần cứng và trong khoảng thời gian này nguồn PV có thể đạt được quá trình chuyển đổi vận hành và ổn định đến điểm hoạt động mới Dựa trên thiết lập đó, thuật toán có thể được cho là hội tụ sau 221 và 305 vòng cho hai trường hợp NOCT và STC Nhìn chung, thuật toán hội tụ nhanh đến MPP với sai số công suất rất nhỏ và không có dao động ở điểm cuối.

 Điều kiện làm việc biến thiên

Trong thí nghiệm này, nhiệt độ nguồn PV được duy trì ổn định ở 25°C khi bức xạ mặt trời được điều chỉnh lần lượt ở 600, 800 và 1000 W/m² Sau quá trình hội tụ của thuật toán ở từng mức bức xạ, đầu vào được chuẩn hóa để tạo ra cùng một tín hiệu, nhằm quan sát khả năng lặp lại và tính nhất quán của kết quả bộ điều khiển.

Hình 3.3 Nhiệt độ không đổi Q-learning

Kết quả ở Hình 3.3 cho thấy, với mọi trường hợp, thuật toán hội tụ về trạng thái ổn định và sau khi hội tụ không còn dao động giữa các trạng thái quan sát được Điều này có nghĩa là công suất sinh ra được giữ ổn định khi tìm MPP bằng cách áp dụng hành động thay đổi bằng không Giá trị công suất ở trạng thái ổn định là 213,23 W, 167,34 W và 122,19 W cho từng trường hợp, và các giá trị này được lặp lại khi áp dụng cùng một tín hiệu đầu vào Sai số công suất lần lượt là 0,31 W, 0,003 W và 0,029 W cho ba trường hợp Ngoài ra, có thể thấy thời gian hội tụ khác nhau tùy điều kiện hoạt động Trong lần chạy đầu tiên, nó cần 3,04 s (304 chu kỳ) để hội tụ; thời gian này giảm còn 2,36 s (236 chu kỳ) và 1,09 s (109 chu kỳ) khi điều kiện hoạt động thay đổi Điều này cho thấy thuật toán có thể đi qua các trạng thái đã biết và việc khám phá sẽ ít hơn Khi các điều kiện hoạt động lặp lại sau lần hội tụ đầu tiên, MPP được tìm thấy trong thời gian ngắn hơn đáng kể: 0,09 s (9 chu kỳ) cho trường hợp thứ nhất, 0,60 s (60 chu kỳ) cho trường hợp thứ hai và 0,01 s (1 chu kỳ) cho trường hợp thứ ba Trong trường hợp đầu tiên, cần thực hiện 9 hành động để đạt được MPP Các kết quả cho thấy khi thuật toán đã học được chính sách tối ưu, nó có thể chuyển sang MPP với rất ít hành động.

Trong lần mô phỏng tiếp theo, độ chiếu xạđược giữổn định trên

Ở điều kiện cường độ bức xạ 1000 W/m² và nhiệt độ tế bào lần lượt ở 0°C, 25°C và 50°C, thuật toán hội tụ được thực hiện cho từng trường hợp Sau khi quá trình hội tụ kết thúc, cùng một đầu vào được tái tạo để quan sát khả năng lặp lại kết quả của bộ điều khiển.

Hình 3.4 Bức xạ không đổi Q-learning

Kết quả trong Hình 3.4 cho thấy hiệu suất của thuật toán RLMPPT đối với sự thay đổi nhiệt độ và tương đồng với mô phỏng trước đó Công suất ổn định ở các giá trị 226,7W, 213,4W và 198,9W với sai số công suất lần lượt là 0,309W, 0,036W và 0,012W Thời gian chuyển đổi ở mọi trường hợp đều dưới 2,19 s (219 chu kỳ) Thuật toán cho kết quả tối ưu như ở mô phỏng trước về thời gian yêu cầu và sai số công suất Điều này cho thấy phương pháp điều khiển RLMPPT được đề xuất có thể hoạt động dưới nhiều điều kiện khác nhau mà không cần thiết lập thêm giữa các trường hợp.

 Biến thiên đồng thời tải và điều kiện môi trường

Hình 3.5 Biến thiên đồng thời tải và điều kiện môi trường Q-learning

 Tải có công suất lớn

Hình 3.6 Tải có công suất lớn Q-learning c So sánh với P&0

Phần này so sánh bộ điều khiển được đề xuất với phương pháp P&O thông dụng Thuật toán P&O (Perturb and Observe) được sử dụng rộng rãi để tối ưu công suất của nguồn quang điện, dựa trên quá trình tính toán công suất điện và điều chỉnh điểm vận hành theo lưu đồ thuật toán được trình bày trong Hình 3.7.

Thuật toán tối ưu hóa công suất nguồn PV đo điện áp và dòng điện sinh ra tại hai thời điểm liên tiếp (k-1, k) để tính công suất và so sánh giá trị giữa hai lần đo trong mỗi khoảng thời gian nhất định Nếu hiệu số công suất dương, nhiễu loạn tiếp tục theo cùng hướng; ngược lại, nếu hiệu số âm, hướng nhiễu loạn sẽ bị đảo ngược Kích thước bước (C) của chu kỳ nhiệm vụ P&O cho các mô phỏng sau được đặt bằng 0,01, tương ứng với hành động nhỏ nhất của thuật toán RLMPPT.

Tiêu đề	Ứng dụng trí tuệ nhân tạo trong việc dò điểm công suất cực đại của hệ thống pin mặt trời trong điều kiện lượng bức xạ không đều trên bề mặt
Tác giả	Nguyễn Xuân Nam
Người hướng dẫn	TS. Vũ Thị Thúy Nga
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Điện tự động hóa
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	44
Dung lượng	2 MB