Ứng dụng mô hình thích nghi tuyến tính cho bài toán mô hình hóa sự tăng trưởng của lá lan hồ điệp

Lời cam đoan Tác giả luận văn xác nhận rằng đây là dự án nghiên cứu cá nhân của mình, bắt nguồn từ nhu cầu thực tế trong quá trình học cao học, cũng như nhu cầu phân tích dữ liệu và đề x

Trang 1

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

NGUYỄN TRUNG KIỆT

ỨNG DỤNG MÔ HÌNH THÍCH NGHI TUYẾN TÍNH CHO BÀI TOÁN

MÔ HÌNH HÓA SỰ TĂNG TRƯỞNG CỦA LÁ LAN HỒ ĐIỆP

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN

MÃ SỐ: 8480104

LUẬN VĂN THẠC SĨ

BÌNH DƯƠNG - 2023

Trang 2

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

NGUYỄN TRUNG KIỆT

ỨNG DỤNG MÔ HÌNH THÍCH NGHI TUYẾN TÍNH CHO BÀI TOÁN

MÔ HÌNH HÓA SỰ TĂNG TRƯỞNG CỦA LÁ LAN HỒ ĐIỆP

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN

Trang 3

Lời cam đoan

Tác giả luận văn xác nhận rằng đây là dự án nghiên cứu cá nhân của mình, bắt nguồn

từ nhu cầu thực tế trong quá trình học cao học, cũng như nhu cầu phân tích dữ liệu và đề xuất mô hình thích nghi tuyến tính cho bài toán tối thiểu hóa sai số cho mô hình hóa sự tăng trưởng của lá lan hồ điệp bằng phương trình Logistic Dữ liệu được sử dụng trong nghiên cứu được lấy từ tập dữ liệu trong bài báo nghiên cứu của Chiachung Chen về các yếu tố ảnh hưởng đến lá lan hồ điệp

Trong quá trình tìm hiểu, tác giả luận văn đã tham khảo các nghiên cứu liên quan, và tất cả các nguồn được trích dẫn và được dẫn nguồn cụ thể Tất cả nội dung và kết quả của luận văn này là sự học hỏi và thực hiện của bản thân, chưa được công bố trong bất kỳ công trình nghiên cứu khoa học hoặc bài báo liên quan nào khác

Tác giả luận văn

Nguyễn Trung Kiệt

Trang 4

Tác giả luận văn muốn bày tỏ lòng biết ơn đến các Thầy, Cô của Viện sau Đại Học - Trường Đại Học Thủ Dầu Một đã cung cấp những ý kiến xây dựng quý báu

Tác giả luận văn cũng muốn gửi lời cảm ơn đến Ban Giám đốc của Trường Đại học Thủ Dầu Một cùng với các Thầy, Cô trong Viện Đào tạo Sau đại học đã tạo điều kiện và môi trường thuận lợi để tác giả luận văn có thể thực hiện nghiên cứu và học tập tốt nhất

Tác giả luận văn

Nguyễn Trung Kiệt

Trang 5

Tóm tắt đề tài

Đề tài tập trung vào việc áp dụng mô hình thích nghi tuyến tính để mô hình hóa và dự đoán quá trình tăng trưởng của lá lan hồ điệp Nghiên cứu lựa chọn đề tài dựa trên sự quan tâm đối với mô hình hóa và ứng dụng thực tế của nó, cùng với những thách thức trong việc

mô hình hóa các hệ thống phức tạp Đề tài đề cập đến việc sử dụng dữ liệu để xây dựng mô hình thống kê và mô tả quá trình phát triển của lá lan hồ điệp

Mục tiêu của đề tài là áp dụng thuật toán LMS (Least Mean Square) để tối thiểu hóa sai số của mô hình tổ hợp thích nghi tuyến tính, dựa trên phương trình Logistic Điều này nhằm cải thiện độ chính xác trong việc mô hình hóa sự tăng trưởng của lá lan hồ điệp Nghiên cứu cũng xem xét và so sánh kết quả với các nghiên cứu trước đây trong lĩnh vực tương tự để đánh giá hiệu quả của phương pháp được đề xuất

Phạm vi nghiên cứu bao gồm việc tìm hiểu về mô hình hóa, phương trình Logistic và

mô hình tổ hợp thích nghi tuyến tính Nghiên cứu cũng áp dụng thuật toán LMS với kích thước bước thay đổi để tính toán các hệ số của mô hình và thực hiện các thí nghiệm để so sánh kết quả với các nghiên cứu khác đã được công bố Đối tượng của đề tài là bài toán mô hình hóa sự tăng trưởng của lá lan hồ điệp và các phương pháp liên quan trong lĩnh vực này

Trang 6

Mục lục

Trang

MỞ ĐẦU ix

1 Lý do chọn đề tài 1

2 Mục tiêu nghiên cứu 2

3 Tổng quan nghiên cứu của đề tài 2

4 Đối tượng, phạm vi nghiên cứu 3

Phạm vi nghiên cứu: 3

5 Phương pháp nghiên cứu 3

6 Đóng góp của đề tài 3

7 Cấu trúc của đề tài 4

Chương 1: Giới thiệu 5

1.1 Tổng quan tình hình nghiên cứu 5

1.2 Lý do chọn đề tài 6

1.3 Mục tiêu nghiên cứu 7

1.4 Đối tượng nghiên cứu 8

1.5 Phạm vi nghiên cứu 8

1.6 Ý nghĩa đề tài 8

Chương 2: Đề xuất áp dụng thuật toán LMS để tối thiểu hóa sai số của phương trình Logistic 9

2.1 Cơ sở lý thuyết 9

2.1.1 Phương trình tăng trưởng Logistic 9

2.1.2 Sai số trung bình bình phương 12

2.1.3 Thuật toán tối thiểu hóa sai số trung bình bình phương (Least Mean Square) 13

2.2 Công nghệ 16

2.2.1 Matlab 16

Chương 3: Bộ dữ liệu, thực nghiệm và đánh giá 18

3.1 Bộ dữ liệu 18

3.2 Thực nghiệm 18

3.2.1 Đọc dữ liệu 19

3.2.2 Quy trình thực hiện thuật toán LMS 20

3.3 Đánh giá 21

3.3.1 9506_HTHL_333_S1 22

Trang 7

3.3.2 9506_HTHL_333_S2 23

3.3.3 9506_HTHL_333_S3 24

3.3.4 9506_HTHL_167_S1 26

3.3.5 9506_HTHL_167_S2 27

3.3.6 9506_HTHL_167_S3 29

3.3.7 9506_HTLL_333_S1 31

3.3.8 9506_HTLL_333_S2 32

3.3.9 9506_HTLL_333_S3 33

3.3.10 9506_HTLL_167_S1 35

3.3.11 9506_HTLL_167_S2 36

3.3.12 9506_HTLL_167_S3 38

3.3.13 9508_HTHL_333_S1 39

3.3.14 9508_HTHL_333_S2 41

3.3.15 9508_HTHL_333_S3 42

3.3.16 9508_HTHL_250_S1 44

3.3.17 9508_HTHL_250_S2 45

3.3.18 9508_HTHL_250_S3 47

3.3.19 9508_HTHL_167_S1 48

3.3.20 9508_HTHL_167_S2 50

3.3.21 9508_HTHL_167_S3 51

Kết luận 54

1 Kết quả đạt được 54

2 Ưu điểm 55

3 Nhược điểm 55

4 Hướng phát triển 55

Tài liệu tham khảo 57

Trang 8

Danh mục bảng biểu

Trang

Bảng 2 1: Số liệu dân số Mỹ trong giai đoạn từ năm 1970 - 1890 9

Bảng 3 1: Mẫu 9506_HTHL_333_S1 cho bộ trọng số mới 22

Bảng 3 7: Mẫu 9506_HTLL_333_S1 cho bộ trọng số mới 31

Trang 9

Danh mục hình, đồ thị

Trang

Hình 1 1: Bảng giá trị bộ tham số L, b và x0 trong các điệu kiện khác nhau 7

Hình 2 1: Biểu đồ tăng trưởng dân số Mỹ giai đoạn 1790 – 1840 10

Hình 2 2: Ước lượng các tham số của phương trình 11

Hình 2 3: Minh họa RMSE 13

Hình 2 4: Mô hình tuyến tính 14

Hình 2 5: Matlab 17

Hình 3 1: 506_HTHL 18

Hình 3 2: 9506_HTLLL 18

Hình 3 3: Thư mục 9506_ht_hi 19

Hình 3 4: Thư mục 9506_ht_li 19

Hình 3 5 Thư mục 9508_ht_hi 19

Hình 3 6: 9506_ht_hi 19

Hình 3 7: 9506_ht_li 20

Hình 3 8: Độ lệch của dự đoán, dữ liệu chen và dữ liệu thực tế 21

Hình 3 9: Mô hình quy trình thuật toán LMS 21

Hình 3 10: 9506_HTHL_333_S1 logicstic 22

Hình 3 11: 9506_HTHL_333_S1 error 23

Hình 3 13: 9506_HTHL_333_S2 error 24

Hình 3 14: 9506_HTHL_333_3 logicstic 25

Hình 3 15: 9506_HTHL_333_S3 error 26

Hình 3 17: 9506_HTHL_167_S1 error 27

Hình 3 19: 9506_HTHL_167_S2 error 29

Hình 3 21: 9506_HTHL_167_S3 error 30

Hình 3 22: 9506_HTLL_333_S1 logicstic 31

Hình 3 23: 9506_HTLL_333_S1 error 32

Hình 3 25: 9506_HTLL_333_S2 error 33

Hình 3 27: 9506_HTLL_333_S3 error 35

Hình 3 29: 9506_HTLL_167_S1 error 36

Hình 3 31: 9506_HTLL_167_S2 error 38

Hình 3 33: 9506_HTLL_167_S3 error 39

Hình 3 35: 9506_HTLL_333_S1 error 41

Trang 10

Hình 3 37: 9508_HTLL_333_S2 error 42

Hình 3 39: 9508_HTLL_333_S3 error 44

Hình 3 41: 9508_HTLL_250_S1 error 45

Hình 3 43: 9508_HTLL_250_S2 error 47

Hình 3 45: 9508_HTLL_250_S3 error 48

Hình 3 47: 9508_HTHL_167_S1 error 50

Hình 3 49: 9508_HTHL_167_S2 error 51

Hình 3 51: 9508_HTHL_167_S3 error 53

Trang 11

Danh mục chữ viết tắt

1 RMSE Root Mean Square Error

2 LMS Least Mean Squares

Trang 12

Mở đầu

Mô hình hóa là một lĩnh vực nghiên cứu thu hút sự quan tâm của các nhà khoa học vì tính ứng dụng thực tế hiệu quả và mang đến nhiều thách thức trong cả nghiên cứu cơ bản David Mumford, một nhà toán học chuyên về mô hình hóa tại Đại học Havard và được trao huy chương Field năm 1966, đã chỉ ra rằng sử dụng Phương trình đạo hàm riêng (PDE) để mô hình hóa một hệ tiến hóa không phải là một việc đơn giản, mặc dù nó là một công cụ tuyệt vời Một tiếp cận đơn giản hơn và vẫn hiệu quả là sử dụng dữ liệu để xây dựng

mô hình thống kê, mô tả quá trình tiến hóa và phát triển của một hệ thống

Lan Hồ Điệp là một loại cây cảnh mang lại lợi ích kinh tế Để đảm bảo sự phát triển của Lan Hồ Điệp, việc theo dõi, kiểm soát và đánh giá sự phát triển của lá là rất quan trọng

Vì vậy, đã có nhiều nghiên cứu áp dụng các mô hình thống kê để mô hình hóa sự tăng trưởng của lá Lan Hồ Điệp Tuy nhiên, công cụ được sử dụng thường là các phần mềm chuyên dụng như SPSS, Stata, trong đó quá trình tính toán các tham số thống kê là bị che dấu như một "hộp đen" đối với người sử dụng Do đó, việc kiểm soát sai số trở nên khó khăn

Sau khi nắm bắt ý tưởng của Chen trong việc mô hình hóa sự phát triển của lá Lan Hồ Điệp bằng Phương trình Logistic, tác giả luận văn nhận ra rằng việc áp dụng mô hình hồi quy tuyến tính thông qua phần mềm thống kê có thể giảm thiểu sai số Tuy nhiên, việc sử dụng mô hình tuyến tính để xấp xỉ một đường cong bất kỳ luôn gây ra nhiều sai số Vì vậy, tác giả luận văn đã tìm hiểu và đề xuất áp dụng thuật toán LMS để tính lại các hệ số của phương trình Logistic, điều này sẽ phụ thuộc vào sự thay đổi của dữ liệu thực tế

Ban đầu, mục tiêu chính của đề tài tốt nghiệp này là giải quyết vấn đề cải thiện độ chính xác cho bài toán được Chen đề xuất Tuy nhiên, kết quả của tác giả luận văn sẽ được

áp dụng cụ thể tại địa phương, vì các điều kiện tự nhiên khác biệt so với các nghiên cứu trước đây, do đó cần tính lại các tham số tương ứng

Trang 13

Để so sánh và đánh giá, tác giả luận văn sử dụng độ đo RMSE và tiến hành so sánh trực tiếp với các kết quả trong quyển khóa luận này Kết quả này sẽ minh họa ưu điểm của giải pháp mà tác giả luận văn đề xuất

Mục tiêu của đề tài là áp dụng thuật toán LMS nhằm tói thiểu hóa sai số của việc mô hình hóa sự tăng trưởng lá lan hồ điệp bằng phương trình Logistic

Để đạt được mục tiêu trên, đề tài cần thực hiện các nội dung sau:

• Tìm hiểu về mô hình hóa: Nghiên cứu các khái niệm và nguyên tắc cơ bản liên quan đến mô hình hóa, đặc biệt là trong lĩnh vực mô hình hóa sự phát triển của cây Lan Hồ Điệp

• Tìm hiểu về phương trình Logistic và ứng dụng cho mô hình hóa quá trình phát triển lá Lan hồ điệp

• Tìm hiểu mô hình Tổ hợp thích nghi tuyến tính và thuật toán LMS: Nghiên cứu chi tiết về mô hình Tổ hợp thích nghi tuyến tính và thuật toán Least Mean Square (LMS) để hiểu cách áp dụng chúng trong việc tối thiểu hóa sai số của

mô hình phát triển của Lan Hồ Điệp

• Tìm hiểu và phân tích các bài báo và công trình nghiên cứu liên quan: Xem xét

và phân tích các bài báo, công trình nghiên cứu đã được thực hiện trước đây có liên quan đến mô hình hóa sự phát triển của cây Lan Hồ Điệp hoặc các vấn đề tương tự

• Nghiên cứu giải pháp chọn kích thước bước của thuật toán LMS sao cho phù hợp với bài toán tối thiểu hóa sai số của phương trình Logistic khi mô hình hóa

sự tăng trưởng của lá Lan Hồ Điệp

• Sử dụng thuật toán LMS với kích thước bước thay đổi: Áp dụng thuật toán LMS với kích thước bước thay đổi để tính toán các hệ số của mô hình Tổ hợp thích nghi tuyến tính, nhằm giảm thiểu sai số và cải thiện độ chính xác của mô hình

• Thực hiện và so sánh kết quả: Thực hiện các thí nghiệm và tính toán kết quả dựa trên các tham số của phương trình Logistic có sẵn và tham số mới, dựa

Trang 14

trên thuật toán LMS So sánh kết quả đạt được với các nghiên cứu khác đã được công bố để đánh giá hiệu quả và ưu điểm của giải pháp được đề xuất

Đối tượng của đề tài nghiên cứu là:

- Bài toán Mô hình hóa phát triển của lá Lan Hồ Điệp

- Phương trình Logistic và ứng dụng vào mô hình hóa sự phát triển của lá Lan hồ điệp

- Bài toán tối thiểu hóa sai số của mô hình tổ hợp thích nghi tuyến tính, thuật toán LMS

Để thực hiện đề tài này, tác giả sử dụng các phương pháp nghiên cứu sau:

• Nghiên cứu lý thuyết: tìm kiếm, tổng hợp và nghiên cứu các tài liệu về Mô hình hóa, phương trình Logistic, mô hình Tổ hợp thích nghi tuyến tính với kích thước bước thay đổi, các kiến thức toán học, kiến thức liên quan kĩ thuật lập trình

• Phương pháp thực nghiệm: sau khi nghiên cứu phương pháp lý thuyết, xác định vấn đề bài toán, đề xuất mô hình; Tiến hành xây dựng và phát triển ứng dụng trên mô hình đề xuất; cài đặt thử nghiệm chương trình với ngôn ngữ lập trình Matlab

• Phương pháp so sánh và đánh giá: phân tích, đánh giá mô hình đề xuất với các

mô hình nghiên cứu trước

Đề tài nghiên cứu với kết quả đạt được như sau:

Trang 15

- Phát triển chương trình: phát triển một đoạn chương trình thực hiện các bước tối thiểu hóa sai số của phương trình Logistic khi mô hình hóa quá trình phát triển của lá cây Lan Hồ Điệp

Kết quả cho thấy thuật toán LMS có thể tính được tham số mới của phương trình Logistic, cho phép đạt được sai số nhỏ hơn sai số của bộ tham số cũ công bố trong [1] Điều này cho thấy tính hiệu quả và ưu điểm của đề xuất áp dụng thuật toán LMS để tối thiểu hóa sai số trong mô phỏng và dự đoán sự phát triển của lá cây Lan Hồ Điệp

Mở đầu Chương 1: Giới thiệu

Chương 2: Đề xuất thuậ toán LMS để tối thiểu hóa sai số của phương trình Logistic Chương 3: Thực nghiệm và đánh giá

Kết luận

Tài liệu tham khảo

Trang 16

Chương 1: Giới thiệu

1.1 Tổng quan tình hình nghiên cứu

Hiện nay, đã có nhiều nghiên cứu về sự tăng trưởng phi tuyến của lá Lan Hồ Điệp và ước lượng các tham số liên quan đến quá trình này Các nghiên cứu trước đây đã tiến hành

so sánh ba phương trình tăng trưởng phi tuyến để đánh giá dữ liệu chiều dài lá của hai giống cây khác nhau Đó là áp dụng phương trình:

3 3

t c b

Trang 17

Tuy nhiên, trong quá trình nghiên cứu, giả thiết vẫn còn tồn tại một mức độ sai số có thể làm nhỏ hơn nữa Điều này có nghĩa là các tham số của mô hình logistic hiện tại [1] vẫn chưa thể phản ánh tốt nhất mối quan hệ giữa chiều dài lá và số ngày nuôi Do đó, nghiên cứu tiếp theo cần tìm hiểu và cải thiện độ chính xác của mô hình để tạo ra kết quả ước lượng chính xác hơn về tăng trưởng lá Lan Hồ Điệp

1.2 Lý do chọn đề tài

Trong [1], Chen và cộng sự đề xuất sử dụng phương trình Logistic để mô phỏng sự tăng

trưởng chiều dài lá Lan Hồ Điệp Trong đó, phương trình Logistic được mô tả như sau:

e− −

=+ (1.1) Trong đó:

L: Độ dài lá tại thời điểm t

f

L : Độ dài cực đại của lá Lan Hồ Điệp

b: Tham số phản ánh tốc độ tăng trưởng của lá trong điều kiện về ánh sáng và phân bón

0

x : thời điểm uốn của hàm

Để áp dụng phương trình Logistic trong (1.1), chúng ta cần xác định 3 tham số L, b

và x0 Trong [1], các tác giả đã sử dụng phương pháp tính xấp xỉ 3 tham số này dựa trên dữ liệu tăng trưởng chiều dài lá trong suốt 45 ngày quan sát Điều này được thực hiện trong các điều kiện môi trường khác nhau, bao gồm nhiệt độ ban ngày, cường độ ánh sáng và tỷ lệ phân bón, để tính toán ra các bộ tham số tương ứng cho từng điều kiện cụ thể [1] Hình dưới đây minh họa việc này:

Trang 18

Hình 1 1: Bảng giá trị bộ tham số L, b và x0 trong các điệu kiện khác nhau

Dựa vào các kết quả trong [1], chúng tác giả luận văn đã tiến hành làm thực nghiệm

để đánh giá sai số giữa dữ liệu thực tế và dữ liệu mô phỏng được tạo ra từ công thức (1.1) với bộ tham số L , b và f x0 được công bố trong [1] Sai số được đánh giá theo độ đo RMSE như sau:

2 1

( )

n

i i i

L L RMSE

L : Kết quả mô phỏng độ dài lá tại ngày thứ i

n: Số ngày theo dõi sự tăng trưởng độ dài lá

Sau khi thực nghiệm, chúng tác giả luận văn đã tính toán được sai số do áp dụng phương pháp trong [1], và giá trị sai số nằm trong khoảng từ 2 đến 4 Từ góc độ xử lý thông tin chuỗi thời gian, đây là một sai số lớn Vì vậy, chúng tác giả luận văn đã tìm cách giảm thiểu sai số này Trong quá trình tìm kiếm giải pháp, chúng tác giả luận văn đã chọn thuật toán LMS để tính lại các tham số L , b và f x0 sao cho sai số RMSE nhỏ hơn phương pháp

mà Chen đã áp dụng trong [1]

Với kết quả sơ bộ, khi áp dụng thuật toán LMS, độ đo sai số RMSE đã giảm xuống xung quanh giá trị 0,5 Kết quả sơ bộ như vậy đã khích lệ chúng tác giả luận văn tiếp tục nghiên cứu sâu hơn về cơ sở khoa học của thuật toán, cũng như khả năng áp dụng thuật toán cực tiểu hóa vào các ứng dụng cụ thể

1.3 Mục tiêu nghiên cứu

Trang 19

Sai số của mô hình Logistic mô phỏng độ dài lá lan hồ điệp nhỏ hơn sai số trong bài báo của Chen

1.4 Đối tượng nghiên cứu

Phương trình Logistic mô phỏng sự tăng trưởng chiều dài lá Lan Hồ Điệp

Phương pháp tính các tham số của phương trình Logistic

Thuật toán LMS để tối thiểu hóa sai số

Trang 20

Chương 2: Đề xuất áp dụng thuật toán LMS để tối thiểu hóa sai số của phương trình

Logistic

2.1 Cơ sở lý thuyết

2.1.1 Phương trình tăng trưởng Logistic

Mô hình tăng trưởng Logistic, cũng được biết đến như mô hình tăng trưởng dân số Logistic, đã được P.F Verhulst đưa ra để giải quyết Bài toán dự đoán dân số Mỹ vào thời điểm năm 1840 Mô hình này được áp dụng để mô tả sự phát triển dân số theo thời gian với

sự giới hạn của các yếu tố như tài nguyên, không gian và sinh sản

Để minh hoạ việc áp dụng mô hình Logistic, ta có số liệu về dân số Mỹ trong giai đoạn từ năm 1790 đến năm 1890 như sau:

Bảng 2 1: Số liệu dân số Mỹ trong giai đoạn từ năm 1970 - 1890

Trang 21

Hình 2 1: Biểu đồ tăng trưởng dân số Mỹ giai đoạn 1790 – 1840

Qua quan sát biểu đồ, P.F Verhulst đã mô tả tốc độ tăng trưởng qua phương trình tuyến tính đơn giản sau:

dP rP

dt =

Trong đó:

dP : sự thay đổi của số lượng dân số

dt : đại diện cho thời gian

P: số lượng quần thể

r: hằng số tỷ lệ Least Mean Square

Theo [2], P tăng trưởng theo hàm mũ và được tính theo một hàm phụ thuộc thời gian t:

Trang 22

Trên thực tế, mọi quần thể đều có một giới hạn tăng trưởng, được biểu thị bởi một giá trị chặn trên K Khi số lượng cá thể trong quần thể tiến đến giới hạn này (P = K), tốc độ tăng trưởng (dP/dt) sẽ bằng 0 Điều này có nghĩa là sự tăng trưởng của quần thể dần dừng lại khi đạt đến giới hạn

Phương trình mô tả sự tăng trưởng của quần thể có thể được biểu diễn như sau:

Khi P = K quần thể đạt trạng thái cân bằng

Tiệm cận đến trạng thái cân bằng ổn định khi số lượng của quần thể P=C sao cho bất

kỳ P(t) bắt đầu tại C Khi đó, P(t) được gọi là hội tụ đến P = C:

Các tham số của phương trình (1) được ước lượng thông qua độ dốc của biểu đồ tăng

số lượng của quần thể như sau:

Hình 2 2: Ước lượng các tham số của phương trình

Trang 23

dt tại năm 1800 được tính xấp xỉ thông qua độ dốc (tg) giữa dữ liệu năm 1790 và

năm 1810

(1810) (1790)20

Nếu chọn điểm bắt đầu là năm 1790 thì b P= (1790) 3.929= Từ đó suy ra K

2.1.2 Sai số trung bình bình phương

Sai số trung bình bình phương (RMSE) là một phép đo độ lớn trung bình của sai số giữa các dự đoán và giá trị thực tế, được tính theo đơn vị của biến phụ thuộc Nó là một trong các biện pháp đánh giá phổ biến nhất để đo chất lượng dự đoán RMSE cho thấy mức

độ giảm xa giữa các dự đoán và các giá trị thực tế, được tính bằng cách sử dụng khoảng cách Euclide

Để tính RMSE, ta cần thực hiện các bước sau:

• Tính phần dư, tức chênh lệch giữa giá trị dự đoán và giá trị thực tế, cho từng điểm dữ liệu

• Tính bình phương của phần dư cho từng điểm dữ liệu

• Tính giá trị trung bình của các bình phương phần dư

• Lấy căn bậc hai của giá trị trung bình đó để có kết quả RMSE

y y RMSE

n

=

−

= 

Trang 24

Hình 2 3: Minh họa RMSE

RMSE tính toán bình phương của sai số trước khi lấy căn bậc hai, dẫn đến tính chất nhạy cảm với các giá trị sai số lớn Khi sai số giữa giá trị dự đoán và giá trị thực tế càng lớn, giá trị RMSE cũng tăng theo Vì vậy, RMSE được sử dụng để đánh giá chất lượng dự đoán của mô hình, và mô hình được coi là tốt hơn khi giá trị RMSE càng nhỏ

2.1.3 Thuật toán tối thiểu hóa sai số trung bình bình phương (Least Mean Square)

Least Mean Square (LMS) là một thuật toán thích nghi được sử dụng để tìm các trọng

số tối ưu tại một thời điểm cho một mô hình tổ hợp thích nghi tuyến tính [3] Nó được áp dụng trong các bài toán hồi quy, trong đó mục tiêu là dự đoán giá trị đầu ra dựa trên các giá trị đầu vào

Trang 25

Giả sử ta có một mô hình với các biến đầu vào x x1, , ,2 x n và đầu ra là y Mô hình được biểu diễn dưới dạng một hàm tuyến tính:

Thuật toán LMS tính toán lượng điều chỉnh của trọng số dựa trên sai số giữa các trị

dự đoán và giá trị thực tế, và cập nhật trọng số để giảm thiểu sai số này Thuật toán này được gọi là “least mean square” vì nó giảm thiểu lỗi trung bình của bình phương các sai số (RMSE) Nó dựa trên Root Mean Square Error (RMSE) để đánh giá sự khác biệt giữa dữ liệu dự đoán và dữ liệu thực tế

RMSE được sử dụng để tính toán lỗi trung bình của dự đoán so với dữ liệu thực tế Thuật toán LMS sử dụng RMSE để điều chỉnh các trọng số trong mô hình dự đoán để giảm thiểu sai số giữa dữ liệu dự đoán và thực tế Quá trình điều chỉnh trọng số được thực hiện bằng cách tính toán đạo hàm của RMSE và áp dụng nó để cập nhật các trọng số Quá trình này được lặp lại cho đến khi độ lỗi giảm đến mức chấp nhận được hoặc khi đạt đến số lượng lần lặp tối đa được xác định trước đó

Các bước chạy của LMS:

Trang 26

Bước 1: Khởi tạo các trọng số của mô hình, thường được chọn ngẫu nhiên

Bước 2: Tính giá trị đầu ra dự đoán bằng cách tính tích vô hướng giữa vector trọng số

và vector đầu vào:

X : là vector đầu vào, bao gồm các giá trị của các đặc trưng của mẫu dữ liệu đó

Bước 3: Tính sai số dự đoán bằng cách lấy hiệu giữa giá trị đầu ra dự đoán và giá trị

đầu ra thực tế:

e y y= − Trong đó:

e: là sai số dự đoán, hay còn gọi là độ lỗi (error) giữa giá trị thực tế và giá trị dự đoán của mô hình

y : là giá trị dự đoán của mô hình

y: là giá trị thực tế của mô hình

Bước 4: Cập nhật trọng số của mô hình bằng cách sử dụng thuật toán Gradient

Descent:

wnew =wold+2eX

Trong đó:

wnew: là vector trọng số mới sau khi cập nhật

wold: là vector trọng số cũ trước khi cập nhật

Trang 27

µ: là hệ số kích thước bước (step size), quyết định tốc độ hội tụ của thuật toán

e: là sai số dự đoán, là hiệu giữa giá trị thực tế y và giá trị dự đoán y

X: là vector dữ liệu

Bước 5: Lặp lại các bước 2 đến 4 cho đến khi hội tụ (convergence) hoặc đạt đến số

lần lặp tối đa

Bước 6: Để đánh giá hiệu quả của mô hình, ta sử dụng độ đo Root Mean Squared

Error (RMSE), được tính bằng cách lấy căn bậc hai của trung bình bình phương của sai số

dự đoán trên tập dữ liệu kiểm tra

1

n

i i i

y y RMSE

MATLAB là một phần mềm và môi trường tính toán số được MathWorks phát triển

Nó cung cấp ngôn ngữ lập trình mạnh mẽ và dễ sử dụng, kèm theo một loạt công cụ để thực hiện các phép toán số học, tính toán ma trận, xử lý tín hiệu, vi điều khiển, thiết kế và mô phỏng hệ thống, và nhiều lĩnh vực khác

MATLAB được thiết kế gần gũi với cú pháp toán học truyền thống, giúp người dùng

dễ dàng viết mã để thực hiện các tác vụ phức tạp và tính toán số Nó hỗ trợ mạnh mẽ cho các phép toán ma trận và vectơ, cho phép thực hiện các phép toán như nhân ma trận, nghịch đảo, giải hệ phương trình tuyến tính, và nhiều tác vụ liên quan đến ma trận

Ngoài ra, MATLAB cung cấp các công cụ và chức năng để xử lý tín hiệu và hình ảnh,

mô phỏng và vi điều khiển hệ thống Nó cũng hỗ trợ đồ họa và trực quan hóa dữ liệu, cho phép tạo biểu đồ 2D và 3D, biểu đồ cột, hình ảnh và nhiều loại biểu đồ khác

Trang 28

MATLAB có sẵn các toolbox và add-on mở rộng chức năng, giúp áp dụng các phương pháp và thuật toán chuyên sâu vào các dự án cụ thể Giao diện đồ họa người dùng (GUI) giúp tương tác với chức năng và dữ liệu một cách dễ dàng và có thể tạo ra các ứng dụng MATLAB với giao diện thân thiện

Cộng đồng MATLAB phát triển mạnh mẽ, cung cấp tài liệu hướng dẫn, tài liệu tham khảo, ví dụ mã nguồn và diễn đàn thảo luận MATLAB được sử dụng rộng rãi trong nhiều lĩnh vực như khoa học và kỹ thuật, nghiên cứu, tính toán số, phân tích dữ liệu và phát triển sản phẩm

Hình 2 5: Matlab

Trang 29

Chương 3: Thực nghiệm và đánh giá

3.1 Bộ dữ liệu

Sử dụng một phần bộ dữ liệu được thu thập bởi ông Chen và cộng sự, ta có hai bộ dữ liệu: 9506_HTHL; 9506_HTLL; 9508_HTHL Bộ 9506_HTHL chứa các mẫu trồng trong môi trường có nhiệt độ cao và ánh sáng cao, trong khi bộ 9506_HTLL chứa các mẫu trồng trong môi trường có nhiệt độ cao và ánh sáng thấp, trong khi bộ 9508_HTHL chứa các mẫu trồng trong môi trường ánh sáng cao, nhiệt độ cao Mỗi bộ dữ liệu bao gồm các mẫu được phân bón với hai tỷ lệ là 333 và 167

Cụ thể, các tập tin dữ liệu được lưu dưới dạng mat và có tên như sau: 9506_167_S1; 9506_167_S2; 9506_167_S3; 9506_333_S1; 9506_333_S2; 9506_333_S3; 9508_333_S1; 9508_333_S2; 9508_333_S3; 9508_250_S1; 9508_250_S2; 9508_250_S3; 9508_167_S1; 9508_167_S2; 9508_167_S3

Hình 3 1: 506_HTHL

Hình 3 2: 9506_HTLLL

3.2 Thực nghiệm

Trang 31

Hình 3 7: 9506_ht_li

3.2.2 Quy trình thực hiện thuật toán LMS

Bước 1: Tạo hàm chen_logicstic gồm các tham số x(L , f2 b2, x0) và t cho mô hình tăng trưởng logicstic:

e− −

=+

Bước 2: Load dữ liệu từ tệp '9506_333_S3.mat' và lấy biến 'data' từ tệp này

Bước 3: Sử dụng hàm interp để nội suy dữ liệu data với mức tăng mẫu là 125 Kết

quả được lưu trong biến y

Bước 4: Khởi tạo các giá trị ban đầu cho biến L , f2 b2, x0, tạo ma trận X từ các giá trị L , f2 b2, x0 Sao chép giá trị của ma trận X vào ma trận X1

Bước 5: Lặp qua các giá trị từ 1 đến L (độ dài của y)

• Gọi hàm chen_logistic với tham số X1 và t, và gán kết quả vào y_mu(t)

• Tính giá trị epsilon (sai số) bằng hiệu của y(t) và y_mu(t)

• Cập nhật giá trị X1(1) (phần tử đầu tiên của X1) sử dụng công thức của gradient descent để tối ưu hóa

Bước 6: Vòng lặp for t = 1:length(data): Lặp qua các giá trị từ 1 đến độ dài của data

• Gọi hàm chen_logistic với tham số X và t, và gán kết quả vào y_mu_chen(t)

• Gọi hàm chen_logistic với tham số X1 và t, và gán kết quả vào y_mu_cuoi(t)

Bước 7: Tính sai số tuyệt đối giữa y_mu_chen và data và lưu vào biến epsilon1 Tính

sai số tuyệt đối giữa y_mu_cuoi và data và lưu vào biến epsilon2

Trang 32

Bước 8: Gọi hàm rmse với tham số data và y_mu_chen, và gán kết quả vào biến

rmse_chen Hàm rmse được sử dụng để tính giá trị Root Mean Square Error (RMSE) giữa hai chuỗi dữ liệu

Bước 9: Gọi hàm rmse với tham số data và y_mu_cuoi, và gán kết quả vào biến

rmse_moi

Hình 3 8: Độ lệch của dự đoán, dữ liệu chen và dữ liệu thực tế

Quy trình các bước thực hiện được đề xuất:

Hình 3 9: Mô hình quy trình thuật toán LMS

3.3 Đánh giá

Ta chạy các mẫu lần lượt các mẫu dựa trên quy trình được đề xuất cho ra một số kết quả

Trang 33

Hình 3 10: 9506_HTHL_333_S1 logicstic

Khoảng cách lỗi từng thời điểm của bộ tham số mới so với bộ tham số cũ Bộ tham số mới cho mô hình cho độ sai số thấp so với bộ tham số cũ

Trang 34

Hình 3 11: 9506_HTHL_333_S1 error

3.3.2 9506_HTHL_333_S2

Mẫu 9506_HTHL_333_S2 cho bộ trọng số mới với MRSE nhỏ hơn 1,4 lần so với bộ

số của ông chen

Bảng 3 2: Mẫu 9506_HTHL_333_S2 cho bộ trọng số mới

𝐋𝐟𝟐 11.03 11.2794

𝐛𝟐 0.089786 0.0898

𝐱𝟎 17.4698 17.4698 𝐑𝐌𝐒𝐄 0.49135 0.34845 Biểu đồ vẽ hàm logicstic với bộ tham số mới gần sát với biểu đồ của dữ liệu thực tế

Trang 36

Bảng 3 3: Mẫu 9506_HTHL_333_S3 cho bộ trọng số mới

𝐋𝐟𝟐 10.7243 10.9599

𝐛𝟐 0.088431 0.0884

𝐱𝟎 16.4427 16.4427 𝐑𝐌𝐒𝐄 0.40282 0.26498 Biểu đồ vẽ hàm logicstic với bộ tham số mới gần sát với biểu đồ của dữ liệu thực tế

Hình 3 14: 9506_HTHL_333_3 logicstic

Khoảng cách lỗi từng thời điểm của bộ tham số mới so với bộ tham số cũ Bộ tham số mới cho mô hình cho độ sai số thấp hơn trong các đoạn đoạn 15 đến 45 và lớn hơn ở các đoạn 1 đến 14 so với bộ tham số cũ

Tiêu đề	Ứng Dụng Mô Hình Thích Nghi Tuyến Tính Cho Bài Toán Mô Hình Hóa Sự Tăng Trưởng Của Lá Lan Hồ Điệp
Tác giả	Nguyễn Trung Kiệt
Người hướng dẫn	TS. Hoàng Mạnh Hà
Trường học	Trường Đại Học Thủ Dầu Một
Chuyên ngành	Hệ Thống Thông Tin
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2023
Thành phố	Bình Dương

Định dạng
Số trang	76
Dung lượng	5,24 MB