TÓM TẮT LUẬN VĂN THẠC SỸ Nghiên cứu này sử dụng công cụ mạng nơ- ron nhân tạo và phân tích hồi quy tuyến tính đa biến để xây dựng mô hình dự báo tổng mức đầu tư và các chi phí từng phần
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-
LƯU NHẤT PHONG
ỨNG DỤNG MẠNG NƠ-RON NHÂN TẠO
VÀ HỒI QUY ĐA BIẾN ĐỂ DỰ BÁO TỔNG MỨC ĐẦU TƯ CÁC DỰ ÁN CÔNG TRÌNH
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học: TS Lưu Trường Văn ………
Cán bộ chấm nhận xét 1: TS Lê Hoài Long ………
Cán bộ chấm nhận xét 2: TS Nguyễn Duy Long ………
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp.HCM ngày 16 tháng 01 năm 2011
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1 Chủ tịch: TS Lương Đức Long
2 Thư ký: TS Lê Hoài Long
3 Ủy viên: PGS TS Nguyễn Thống, TS Ngô Quang Tường, ThS Đỗ Thị
Xuân Lan, TS Lưu Trường Văn, TS Nguyễn Duy Long, TS Đinh Công
Tịnh, TS Phạm Hồng Luân
Xác nhận của Chủ tịch hội đồng đánh giá luận văn và Bộ môn quản lý
chuyên ngành sau khi luận văn đã được sửa chữa
Chủ tịch Hội đồng đánh giá LV Bộ môn quản lý chuyên ngành
Trang 3TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
Tp HCM, ngày 05 tháng 7 năm 2010
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Lưu Nhất Phong Phái: Nam
Ngày, tháng, năm sinh: 18 – 11 - 1980 Nơi sinh: Phù Cát – Bình Định
Chuyên ngành: Công nghệ và quản lý xây dựng
1- TÊN ĐỀ TÀI:
ỨNG DỤNG MẠNG NƠ-RON NHÂN TẠO VÀ HỒI QUY ĐA BIẾN
ĐỂ DỰ BÁO TỔNG MỨC ĐẦU TƯ CÁC DỰ ÁN CÔNG TRÌNH
GIAO THÔNG 2- NHIỆM VỤ LUẬN VĂN:
Chương 1: Đặt vấn đề
Chương 2: Tổng quan
Chương 3: Phương pháp nghiên cứu
Chương 4: Mô hình ANN cho tổng mức đầu tư
Chương 5: Mô hình MLR cho tổng mức đầu tư
Chương 6: Tự động hóa dự báo tổng mức đầu tư
Chương 7: Kết luận và kiến nghị
3- NGÀY GIAO NHIỆM VỤ : 05/7/2010
4- NGÀY HOÀN THÀNH NHIỆM VỤ : 06/12/2010
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: TS LƯU TRƯỜNG VĂN
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành
thông qua
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN KHOA QL CHUYÊN NGÀNH
Trang 4LỜI CẢM ƠN
Luận văn này không thể thực hiện được hoàn thành nếu như không có sự giúp
đỡ, động viên của nhiều cá nhân và tổ chức trong suốt quá trình thực hiện
Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc của tôi đến TS Lưu Trường
Văn, người thầy dẫn đường, đóng góp những ý kiến quý báu, những nhận xét thẳng
thắn và nghiêm túc với một lòng nhiệt tình, tràn đầy trách nhiệm vì sự phát triển và
hoàn thiện kiến thức cho bản thân tôi trong trong suốt quá trình thực hiện nghiên
cứu
Tôi cũng xin gửi lời cảm ơn chân thành đến:
- Quý thầy cô trong hội đồng phản biện đề cương đã đóng góp những ý kiến
chuẩn mực giúp tôi sửa lại mục tiêu nghiên cứu, cũng như giúp tôi chuẩn bị những
mảng kiến thức cần thiết trong nghiên cứu
- Quý thầy cô đã tham gia giảng dạy khóa học Thạc sĩ ngành Công nghệ và
quản lý xây dựng, khóa 2009 Khóa học đã mở rộng tư duy, trang bị kiến thức cho
tôi đủ tự tin giải quyết những vấn đề về khoa học quản lý với cách thức tiếp cận mới
lạ và thú vị
- Các cơ quan quản lý nhà nước, các Chủ đầu tư, Ban QLDA CTGT Bình
Định đã cung cấp các số liệu cần thiết để thực hiện luận văn
- Các đồng nghiệp, bạn bè, nhất là các học viên cao học khóa 2009 đã cùng tôi
bàn luận và chia sẻ kiến thức, đưa ra các ý kiến thích đáng cho tôi trong quá trình
thực hiện nghiên cứu
Cuối cùng, tôi muốn bày tỏ lòng biết ơn đến tất cả người thân trong gia đình
tôi, họ là nguồn động viên to lớn, là sự giúp đỡ quý báu về vật chất và tinh thần cho
tôi thực hiện hoàn thành được nghiên cứu này
Trang 5TÓM TẮT LUẬN VĂN THẠC SỸ
Nghiên cứu này sử dụng công cụ mạng nơ- ron nhân tạo và phân tích hồi quy
tuyến tính đa biến để xây dựng mô hình dự báo tổng mức đầu tư và các chi phí từng
phần trong cơ cấu tổng mức dự án công trình giao thông (đường bộ) Dựa vào các
nghiên cứu trước và thảo luận nhóm các chuyên gia phát triển thêm các nhân tố ảnh
hưởng đến tổng mức đầu tư dự án Một cuộc khảo sát với kết quả thu được từ 75
ứng viên tham gia trả lời bảng câu hỏi đã tìm ra hai mươi yếu tố chính ảnh hưởng
đến tổng mức đầu tư xây dựng công trình giao thông đường bộ Dữ liệu thứ cấp từ
33 dự án xây dựng công trình giao thông đường bộ tại tỉnh Bình Định từ năm 2000 -
2009 được thu thập để làm thông tin cơ sở xây dựng mô hình mạng nơ- ron nhân tạo
và hồi quy tuyến tính đa biến
Sử dụng chương trình SPSS để huấn luyện mạng nơ-ron và phân tích hồi quy
đa biến Sau nhiều lần thử nghiệm các cấu trúc khác nhau và huấn luyện mạng, một
mạng nơ-ron nhân tạo 10 biến đầu vào, 1 lớp ẩn 8 nút và 4 nút xuất đã được lựa
chọn cho tính toán dự báo trong thực tế vì có kết quả Adjust R square trên 0,9 và
MAPE trung bình 4 nút đầu ra = 27%
Phân tích hồi quy tuyến tính đa biến chỉ xây dựng được mô hình cho biến
Tổng mức đầu tư với ảnh hưởng của 7 biến độc lập có quan hệ tuyến tính tương đối
và tương quan đã được kiểm định Sau khi phân tích hồi quy bằng chương trình
SPSS bằng nhiều phương pháp lựa chọn biến, một mô hình hồi quy vượt qua tất cả
các điều kiện giả định và kiểm định giả thuyết thống kê ở mức ý nghĩa tương ứng là
mô hình dựa trên 3 biến độc lập Kết quả R square xấp xỉ 0,9 và MAPE = 2,59%
Một chương trình tự động hóa tính toán ứng lượng ứng dụng hai mô hình được
lập trình bằng ngôn ngữ Visual Basic để tăng tính ứng dụng của mô hình vào thực
tế Giúp người dùng có được sự ước lượng nhanh chóng tổng mức đầu tư và các chi
phí cơ cấu trong tổng mức, phục vụ công tác lập dự án, bố trí kế hoạch vốn nhanh
chóng, hiệu quả và có cơ sở
Trang 6ABSTRACT
This study using artificial neural networks and multiple linear regression
modeling to predict the total investment and the cost structure of each part of the
total transportation projects (road) Based on previous research and discussion
group of experts to develop further the factors affecting the total project investment
A survey with the results obtained from 75 candidates to answer questionnaires,
which have found twenty major factors affecting the total capital construction road
Secondary data from 33 construction projects of road in Binh Dinh province from
2000 to 2009 were collected as background information to build models of artificial
neural networks and multiple linear regression variables
Using SPSS program to train neural networks and multiple linear regression
analysis After much experimenting with different structure and network training,
an artificial neural network 10 input variables, a hidden layer of 8 nodes and 4
nodes output were selected for calculating and forecasting in practice because
Adjust R square results on average 0.9 and 4 nodes output have MAPE = 27%
Analysis of multiple linear regression model developed only for variables with
a total investment of 7 effects of independent variables have a relatively linear
relationship and correlation has been verified After regression analysis using SPSS
program with many variable selection method, a regression model to overcome all
the assumptions and conditions hypothesis testing statistical significance levels
respectively based model three independent variables Results R square of
approximately 0.9 and MAPE = 2.59%
A program that automates of computing applications the two models are
programmed in Visual Basic to increase the application of the model into practice
Enables users to quickly estimate the total investment and the cost structure in the
total, to serve the project planning, capital allocation plans quick, efficient and
authoritative
Trang 7MỤC LỤC
2.1 Các khái niệm, lý thuyết, kiến thức và mô hình sử dụng trang 17
2.1.1.2 Cấu trúc của một nơron (node) trang 18
2.1.1.5 Quá trình học (training) của mạng nơ-ron nhân tạo trang 24
2.1.1.6 Tính quá khớp của mạng nơ-ron nhân tạo trang 31
2.1.2.3 Một số thông số quan trọng trong phân tích hồi quy đa biến trang 34
Trang 83.3 Các phương pháp, công cụ nghiên cứu trang 46
4.1 Xác định các nhân tố chính ảnh hưởng đến tổng mức đầu tư trang 59
4.1.3 Xếp hạng các yếu tố ảnh hưởng đến tổng mức đầu tư trang 60
4.2.3 Huấn luyện mạng nơ –ron nhân tạo bằng SPSS trang 66
Trang 95.2 Phân tích tương quan các biến trang 83
5.3 Xây dựng mô hình hồi quy đa biến bằng chương trình SPSS trang 84
6.1 Cơ sở và mục tiêu lập trình tự động hóa tính toán dự báo trang 96
6.3 Giới thiệu chương trình A&M Predictor và hướng dẫn sử dụng trang 96
Trang 10Hình 2.12 – Quy trình học tăng cường
Hình 2.13 – Quy trình học không giám sát
Hình 2.14 – Thông số một mạng nơ-ron truyền thẳng,
Hình 2.15 – Quá khớp của mạng nơ-ron nhân tạo
Hình 3.1 – Quy trình nghiên cứu
Bảng 3.1 Tóm tắt các phương pháp, công cụ nghiên cứu
Hình 3.2 – Quy trình thiết kế một bản câu hỏi
Bảng 3.2 Hệ số quy đổi chiều dài cống
Bảng 3.3 Các bước xây dựng mô hình ANN bằng SPSS
Bảng 3.4 Các bước xây dựng mô hình MLR bằng SPSS
Bảng 4.1 Phân tích hệ số tin cậy của thang đo
Bảng 4.2 Bảng xếp hạng các yếu tố theo giá trị trung bình
Hình 4.1 – Kinh nghiệm của các ứng viên tham gia phỏng vấn
Hình 4.2 – Cấu trúc mạng nơ-ron nhân tạo sử dụng trong nghiên cứu
Bảng 4.3 Kết quả huấn luyện mô hình 19 biến – cấu trúc 1
Bảng 4.4 Kết quả huấn luyện mô hình 19 biến – cấu trúc 2
Trang 11Bảng 4.5 Kết quả huấn luyện mô hình 19 biến – cấu trúc 3
Bảng 4.6 Kết quả huấn luyện mô hình 19 biến – cấu trúc 4
Bảng 4.7 Kết quả huấn luyện mô hình 19 biến – cấu trúc 5
Bảng 4.8 Kết quả huấn luyện mô hình 19 biến – cấu trúc 6
Bảng 4.9 Kết quả huấn luyện mô hình 19 biến – cấu trúc 7
Hình 4.3 – Mức độ quan trọng của các biến trong mô hình cấu trúc 2
Bảng 4.10 Kết quả huấn luyện mô hình 11 biến – cấu trúc 8
Bảng 4.11 Kết quả huấn luyện mô hình 18 biến – cấu trúc 9
Bảng 4.12 Kết quả huấn luyện mô hình 18 biến – cấu trúc 10
Hình 4.4 – Mức độ quan trọng của các biến trong mô hình cấu trúc 10
Bảng 4.13 Kết quả huấn luyện mô hình 10 biến – cấu trúc 11
Bảng 4.14 Kết quả huấn luyện mô hình 10 biến – cấu trúc 12
Bảng 4.15 Tóm tắt kết quả huấn luyện mô hình cấu trúc 12
Hình 4.5 – Cấu trúc mạng 10 nút vào– 8 nút ẩn – 4 nút xuất
Bảng 4.16 MAPE cho các biến đầu ra mô hình ANN
Bảng 4.17 Ma trận trọng số và bias lớp ẩn
Bảng 4.18 Ma trận trọng số và bias lớp xuất
Hình 5.1 – Biểu đồ phân tán của biến Tongmuc và biến thoigian
Hình 5.2 – Biểu đồ phân tán của biến Tongmuc và biến chieudai
Hình 5.3 – Biểu đồ phân tán của biến Tongmuc và biến Lcong
Hình 5.4 – Biểu đồ phân tán của biến Tongmuc và biến Lcauban
Hình 5.5 – Biểu đồ phân tán của biến Tongmuc và biến Lcaudam
Hình 5.6 – Biểu đồ phân tán của biến Tongmuc và biến Snen
Hình 5.7 – Biểu đồ phân tán của biến Tongmuc và biến Smat
Hình 5.8 – Biểu đồ phân tán của biến XDmat và biến chieudai
Bảng 5.1 Hệ số tương quan giữa các biến phân tích MLR
Bảng 5.2 – Tóm tắt hệ số các mô hình MLR stepwise có hằng số
Bảng 5.3 – Tóm tắt kết quả các mô hình MLR stepwise không chứa hằng số
Bảng 5.4 - Bảng ANOVA cho các mô hình MLR stepwise không chứa hằng số
Trang 12Bảng 5.5 - Các hệ số cho mô hình MLR stepwise không chứa hằng số
Hình 5.9 – Biểu đồ phân tán giữa Residual chuẩn hóa và Tongmuc
Hình 5.10 – Biểu đồ phân tán giữa Residual và Lcong
Hình 5.11 – Biểu đồ phân tán giữa Residual và Lcaudam
Hình 5.12 – Biểu đồ phân tán giữa Residual và Snen
Hình 5.13 – Biểu đồ tần suất của phần dư
Bảng 5.6 – Các hệ số cho mô hình MLR backward không chứa hằng số
Bảng 5.7 – Các hệ số cho mô hình MLR forward không chứa hằng số
Bảng 5.8 Kết quả tính MAPE của mô hình MLR
Hình 6.1- Giao diện chính thực hiện tính toán ước lượng dự án số 23
Bảng 6.1 – Liệt kê và so sánh kết quả tính toán dự án số 23 (triệu VNĐ)
Hình 6.2- Giao diện chính thực hiện tính toán ước lượng dự án số 28
Bảng 6.2 – Liệt kê và so sánh kết quả tính toán dự án số 28 (triệu VNĐ)
Hình 6.3- Cửa sổ thực hiện cập nhật trọng số của mô hình ANN
Hình 6.4- Cửa sổ thực hiện cập nhật hệ số hồi quy của mô hình MLR
Hình 6.5- Cửa sổ thực hiện lưu một file mới chương trình A&M Predictor
Hình 6.6- Cửa sổ thực hiện mở một file đã có chương trình A&M Predictor
Trang 13Chương 1: ĐẶT VẤN ĐỀ
1.1 Giới thiệu chung:
Giai đoạn chuẩn bị dự án tạo tiền đề và quyết định sự thành công hay thất bại
của giai đoạn sau Trong khi tình hình thủ tục triển khai dự án đầu tư xây dựng ở
Việt Nam còn chậm (trung bình để triển khai một dự án nhóm B từ bước chuẩn bị
dự án đến triển khai thực hiện dự án mất từ 04 – 06 tháng), việc rút ngắn thời gian
thực hiện và tăng tính chính xác trong giai đoạn chuẩn bị đầu tư đã được quan tâm
xem xét Đặt biệt là sử dụng mạng Nơ-ron nhân tạo (ANN) để tự động hóa quá trình
dự báo tổng mức đầu tư
Đến nay, đã có một số nghiên cứu về áp dụng ANN trong ước lượng tổng
mức đầu tư và chi phí như: Mô hình dữ liệu và ứng dụng của phương pháp mạng nơ
- ron trong việc dự đoán tổng chi phí xây dựng [1]; Một phương pháp tiếp cận mạng
neural để ước lượng chi phí công trình trong giai đoạn thiết kế sơ bộ [2]; Mô hình
mạng nơ - ron của chi phí công trình đường cao tốc [3]; Ước lượng chi phí xây
dựng chung cư bằng mạng nơ-ron nhân tạo [4] Tuy nhiên, chưa có nghiên cứu nào
về ứng dụng ANN và hồi quy đa biến để dự báo tổng mức đầu tư dự án công trình
giao thông tại Việt Nam
1.2 Xác định vấn đề nghiên cứu:
1.2.1 Lý do nghiên cứu:
- Việc xác định tổng mức đầu tư dự án xây dựng đặc biệt là xây dựng công trình
giao thông hiện nay (vốn đầu tư từ ngân sách nhà nước chiếm phần lớn) chủ yếu
dựa trên bốn phương pháp: Căn cứ vào thiết kế cơ sở; dựa vào dự án có các tiêu
chuẩn kinh tế - kỹ thuật tương tự cùng loại; tính theo diện tích hoặc công suất sử
dụng của công trình và giá xây dựng tổng hợp, suất vốn đầu tư xây dựng công trình
và kết hợp các phương pháp trên Các phương pháp này ít nhiều vẫn có các hạn chế
nhất định: Tốn nhiều thời gian và còn nhiều bất cập trong suất vốn đầu tư xây dựng
Trang 14công trình; các dạng công trình được đưa vào trong suất vốn đầu tư còn chưa đầy
đủ, thiếu tính đại diện, khó áp dụng
- Thực tế hiện nay, các Chủ đầu tư, Ban Quản lý dự án và các công ty tư vấn
trong ngành giao thông vận tải xác định tổng mức đầu tư thông qua cách lập dự toán
thiết kế cơ sở, việc này dẫn đến mất nhiều công sức trong khi chi phí cho công tác
này là nhỏ, chỉ từ khoảng 0,05% – 0,5% vốn đầu tư Do vậy việc nghiên cứu áp
dụng các mô hình dự báo từ cơ sở dữ liệu của các dự án đã thực hiện có ý nghĩa
quan trọng, giúp Chủ đầu tư, Ban quản lý dự án có những ước lượng chính xác hơn
tạo tiền đề cho các giai đoạn tiếp theo đạt hiệu quả kinh tế (đúng tiến độ, tránh trình
điều chỉnh dự án nhiều lần gây lãng phí thời gian và phát sinh chi phí không cần
thiết, hỗ trợ tốt công tác kế hoạch tài chính) Tạo điều kiện cho quá trình hoạt động
của dự án được thuận lợi, nhanh chóng đưa dự án vào khai thác sử dụng, đáp ứng
kịp thời nhu cầu kinh tế - xã hội của đất nước
1.2.2 Các câu hỏi nghiên cứu:
- Các yếu tố ảnh hưởng đến tổng mức đầu tư trong dự án xây dựng công trình
giao thông là gì?
- Liệu có thể tự động hóa quá trình dự báo chi phí xây dựng công trình giao
thông dựa trên các số liệu khách quan đã có hay không?
- Dùng các công cụ gì để thực hiện quá trình tự động hóa dự báo đó? Cách thức
tiến hành như thế nào? Phương pháp kiểm tra như thế nào để đảm bảo tin chắc rằng
mô hình dự báo là đáng tin cậy?
- Những nguyên nhân nào gây ra sự điều chỉnh tổng mức đầu tư trong dự án xây
dựng công trình giao thông?
1.3 Các mục tiêu nghiên cứu
Sử dụng lý thuyết mạng nơ - ron nhân tạo (Artificial Neural Network – ANN)
và hồi quy đa biến (multiple linear regression – MLR) để dự báo tổng mức đầu tư
cho dự án xây dựng công trình giao thông:
Cụ thể:
Trang 15- Xác định các yếu tố ảnh hưởng đến tổng mức đầu tư của dự án và các yếu tố
gây điều chỉnh tổng mức đầu tư để thu thập dữ liệu cho các biến đầu vào
- Thiết lập mô hình ANN dự báo các biến đầu ra gồm tổng mức đầu tư, chi phí
xây dựng nền đường, xây dựng móng mặt và công trình thoát nước
- Xây dựng mô hình hồi quy đa biến để so sánh với mô hình ANN
- Tự động hóa tính toán Áp dụng các mô hình dự báo cho một vài công trình cụ
thể
1.4 Phạm vi nghiên cứu
- Địa điểm: Phạm vi nghiên cứu của đề tài giới hạn ở các dự án xây dựng công
trình giao thông (đường bộ) tỉnh Bình Định, Việt Nam
- Không gian: Thời điểm thu thập số liệu, tháng 7/2010; nghiên cứu thực hiện
trong khoảng từ tháng 7/2010 đến tháng 12/2010
- Tính chất, đặc trưng của đối tượng nghiên cứu: Đối tượng nghiên cứu là dự án
xây dựng công trình giao thông (đường bộ), nghiên cứu trong giai đoạn chuẩn bị dự
án
- Quan điểm phân tích: Phân tích và thảo luận theo quan điểm của Chủ đầu tư
1.5 Đóng góp của nghiên cứu
Trên thế giới hiện nay đã có nhiều nghiên cứu liên quan đến ứng dụng mạng
nơ-ron và hồi quy đa biến để dự đoán các mục tiêu chi phí qua khai thác số liệu đã
thực hiện (data mining) Ở Việt Nam gần đây cũng có một số nghiên cứu về ứng
dụng ANN trong ngành Quản lý xây dựng Tuy nhiên chưa có nghiên cứu nào ứng
dụng mạng nơ-ron và hồi quy đa biến để dự đoán tổng mức đầu tư dự án xây dựng
công trình giao thông Do đó, đề tài nghiên cứu này đóng góp thêm một tình huống
ứng dụng ANN và MLR dự đoán chi phí trong xây dựng công trình
- Về mặt lý luận: Đề tài này giúp phân tích và hệ thống các nhân tố ảnh hưởng
đến tổng mức đầu tư xây dựng công trình giao thông, giúp định hướng phân tích và
kiểm soát chi phí tổng mức đầu tư hiệu quả hơn Đồng thời mở ra một triển vọng
ước lượng chi phí xây dựng công trình giao thông không chỉ dựa vào các phương
Trang 16pháp do nhà nước ban hành mà còn dựa vào các giá trị hiện thực của các dự án đã
xây dựng
- Về mặt thực tiễn: Đề tài này giúp Chủ đầu tư (Sở Giao thông vận tải Bình Định,
Ban Quản lý dự án CTGT Bình Định) ước lượng khách quan, chính xác hơn tổng
mức đầu tư xây dựng công trình giao thông, làm cơ sở triển khai các bước tiếp theo
đúng tiến độ, tránh trình điều chỉnh dự án nhiều lần, gây lãng phí thời gian và phát
sinh chi phí chậm trễ không cần thiết, hỗ trợ tốt công tác hoạch định và lập danh
mục vốn đầu tư Tạo điều kiện cho quá trình quản lý dự án được thuận lợi, nhanh
chóng đưa dự án vào khai thác sử dụng, đáp ứng kịp thời nhu cầu kinh tế - xã hội
của đất nước
Trang 17Chương 2: TỔNG QUAN
2.1 Các khái niệm, lý thuyết, kiến thức và mô hình sử dụng
2.1.1 Mạng nơ-ron nhân tạo
2.1.1.1 Khái niệm
Mạng nơ-ron nhân tạo hay thường gọi ngắn gọn là mạng nơ-ron là một mô hình
toán học hay mô hình tính toán được xây dựng dựa trên các mạng nơ-ron sinh học
Nó gồm có một nhóm các nơ-ron nhân tạo (nút) nối với nhau, và xử lý thông tin
bằng cách truyền theo các kết nối và tính giá trị mới tại các nút (cách tiếp cận
connectionism đối với tính toán) Trong nhiều trường hợp, mạng nơ-ron nhân tạo là
một hệ thống thích ứng (adaptive system) tự thay đổi cấu trúc của mình dựa trên các
thông tin bên ngoài hay bên trong chảy qua mạng trong quá trình học [5]
Trong thực tế sử dụng, nhiều mạng nơ-ron là các công cụ mô hình hóa dữ liệu
thống kê phi tuyến Chúng có thể được dùng để mô hình hóa các mối quan hệ phức
tạp giữa dữ liệu vào và kết quả hoặc để tìm kiếm các dạng/mẫu trong dữ liệu [5]
Hình 2.1 - Một mô hình nơron nhân tạo
(Nguồn: Wikipedia, 2010 [5])
Trang 182.1.1.2 Cấu trúc của một nơron (node)
Mc.Culloch và Pitts vào năm 1943 đề ra cấu trúc cơ bản của một nơ-ron thứ j
trong mô hình của mạng nơ-ron nhân tạo Một nơ-ron (Hình 2.2), cũng được gọi là
một nút (node), thực hiện một công việc rất đơn giản: nó nhận tín hiệu vào từ các
đơn vị phía trước hay một nguồn bên ngoài và sử dụng chúng để tính tín hiệu ra sẽ
được lan truyền sang các đơn vị khác
Hình 2.2 - Một nơron (node) Trong đó:
x i : các đầu vào
w ji : các trọng số tương ứng với các đầu vào
θj: độ lệch (bias)
aj : tổng trọng hóa các input (net-input)
z j : đầu ra của nơ-ron
g(x): hàm truyền (hàm kích hoạt)
Trong một mạng nơron có ba kiểu nút:
- Các nút đầu vào (Input units), nhận tín hiệu từ bên ngoài;
- Các nút đầu ra (Output units), gửi dữ liệu ra bên ngoài;
- Các nút ẩn (Hidden units), tín hiệu vào (input) và ra (output) của nó
nằm trong mạng
Mỗi nơ-ron j có thể có một hoặc nhiều đầu vào: x0, x1, x2, … xn, nhưng chỉ có
một đầu ra zj Một đầu vào tới một đơn vị có thể là dữ liệu từ bên ngoài mạng, hoặc
Trang 19đầu ra của một đơn vị khác, hoặc là đầu ra của chính nó
2.1.1.3 Hàm xử lý
- Hàm tổng hợp: Mỗi một nút trong một mạng kết hợp các giá trị đưa vào
nó thông qua các liên kết với các nút khác, sinh ra một giá trị gọi là net input Hàm
thực hiện nhiệm vụ này gọi là hàm kết hợp (combination function), được định
nghĩa bởi một luật lan truyền cụ thể Hàm tổng hợp để tổng hợp tất cả các thông tin
đến từ các đầu vào cho nút mà nó có liên kết Tổng đầu vào nơ-ron j là tổng trọng
số của các đầu ra riêng lẻ từ các nút kết nối cộng với ngưỡng hay độ lệch (bias):
Trường hợp wji > 0, nơ-ron được coi là đang ở trong trạng thái kích thích
Tương tự, nếu như w ji < 0, nơ-ron ở trạng thái ức chế, và nếu w ji = 0 thì không có sự
kết nối giữa hai nơ-ron
- Hàm hoạt động (hàm truyền): Phần lớn các nút trong mạng nơron chuyển
net input bằng cách sử dụng một hàm vô hướng (scalar-to-scalar function) gọi là
hàm hoạt động, kết quả của hàm này là một giá trị gọi là mức độ kích hoạt của
nút (unit's activation)
Hàm liên tục có thể chọn bất kỳ nhưng chọn các hàm phải có đặc tính sau:
Hàm bị chặn trên và chặn dưới; hàm có tính đơn điệu; hàm phải có tính liên tục và
trơn [6]
Các hàm kích hoạt thường bị ép vào một khoảng giá trị xác định, do đó
thường được gọi là các hàm bẹp (squashing) Các hàm kích hoạt hay được sử dụng
là:
• Hàm hard limit:
Trang 20Hình 2.3 – Đồ thị hàm hard limit (Nguồn: TS Lê Hoài Long [10])
• Hàm Linear:
Hình 2.4 – Đồ thị hàm linear (Nguồn: TS Lê Hoài Long [10])
• Hàm log-sigmoid: nhận giá trị đầu vào và ép giá trị đầu ra nằm trong
khoảng 0 đến 1 theo công thức: (2.2)
n
1a
=+
Hình 2.5 – Đồ thị hàm log - sigmoid (Nguồn: TS Lê Hoài Long [10])
Trang 21• Một số dạng hàm truyền khác:
Hình 2.6 – Một số hàm truyền thường dùng (Nguồn: TS Lê Hoài Long [10])
Trang 22ạng Nơron nhân tạo bao gồm tậ
trên nguyên tắc: Đầu ra của mỗi nơron được liên kết thông qua các trọng số
sẽ đến các nơ-ron khác hoặc tới chính nó Vì vậy, việc bố trí các nơ-ron và sơ đồ
liên kết qua lại giữa chúng sẽ hình thành một kiểu mạng nơ-ron nhân tạo Có 5 kiểu
cấu trúc mạng khác nhau, bao gồm:
a) Mạng truyền thẳng một lớ
Mạng nơ-ron truyền thẳng một lớ
Nhưng cấu trúc mạng nơ-ron một lớp giống như cấu trúc một nơ-ron gộp lại
nên nó không có khả năng biểu diễn các hệ phi tuyến Đối với hệ phi tuyến thì
chúng ta nên sử dụng mạng truyền thẳng nhiều lớp [6]
(Nguồn: TS Nguyễn Thiện Thành [7])
ện cho mạng nơ-ron truyền thẳng một lnhận những giá trị trọng số khác nhau của đầu vào (input), kết quả trả về của
lớp là tập các đầu ra ứng với số nơ-ron trong lớp
b) Mạng truyền thẳng nhiều lớp (multilay
Mạng Nơron truyền thẳng đa lớp có thể có thêm một vài lớp bên trong đ
mạng: Lớp nhận các vector đầu vào gọi là lớp nhập, các đầu ra của mạng hình
thành từ lớp xuất Các lớp nằm giữa các lớp nhập và lớp xuất gọi là các lớp ẩn vì
chúng chỉ có các liên kết bên trong mạng mà không liên kết trực tiếp với môi trường
Trang 23bên ngoài Mạng Nơron truyền thẳng đa lớp được gọi là liên kết đầy đủ nếu tất cả
các đầu ra từ lớp trước được liên kết với tất cả các Nơron trong lớp kế tiếp Hình 2.8
là một liên kết không đầy đủ
Hình 2.8 – Cấu trúc mạng truyền thẳng nhiều lớp
đồ liê
c) Mạng lặp một lớp
(Nguồn: TS Nguyễn Thiện Thành [7]) ong hình 2.7 và hình 2.8 được gọi là mạ
n kết các nơ-ron trong mạng lan truyền theo một hướng (không có đầu ra nào
của nơ-ron ở lớp sau lại là đầu vào của nơ-ron ở lớp trước nó)
Hình 2.9 – Cấu trúc mạng lặp một lớp (Nguồn: TS Nguyễn Thiện Thành [7])
Trang 24d) Mạng lặp n hiều lớp
Hình 2.10 – Cấu trúc mạng lặp nhiều lớp (Nguồn: TS Nguyễn Thiện Thà h [7])
1.5 Quá trình học (training) của mạng nơ-ron nhân tạo
là khả năng học củ
ọc trong mạng nơ-ron nhân tạo: học tham số tập trung vào cập nhật l
h học, bộ
nTuy có nhiều cấu trúc khác nhau, nhưng giá trị kết xuất của mạng đều tính
trên cơ sở thuật toán của một nơron (node) do Mc.Culloch và Pitts đề ra vào năm
1943
2.1.
Giống như bộ não người, đặc điểm quan trọng của mạng nơ-ron
a chúng Học để tích lũy những kinh nghiệm và điều chỉnh phản ứng đáp lại
môi trường tốt hơn
Có 2 kỹ thuật h
ại bộ trọng liên kết trong mạng nơ-ron nhân tạo và học cấu trúc đề cập đến sự
thay đổi cấu trúc mạng: gắn liền với sự thay đổi số lượng nơ-ron và các hình thức
liên kết giữa chúng Hai kiểu học này được thực hiện đồng bộ hoặc tách rời nhau
Quá trình học được phản ánh qua sự thay đổi của bộ trọng số Trong quá trìn
trọng số sẽ hội tụ dần về giá trị tối ưu Một mạng nơ-ron nhân tạo muốn hoạt
động hiệu quả phải tìm được bộ trọng số hay ma trận trọng số thích hợp nhất Việc
học trong mạng nơ-ron chính là xác định ma trận trọng số và xây dựng luật học hiệu
quả hướng ma trận trọng số W về ma trận tối ưu
Luật học có thể được chia làm làm ba loại
Trang 25Hình 2.11 – Quy trình học có giám sát (Nguồn: TS Nguyễn Thiện Thành [7])
Trong quy trình học có giám sát, kết quả mong muốn d của hệ thống tương
ứng với mẫu nhập X đã biết trước Mạng nơ-ron được thông báo chính xác giá trị
mà nó sẽ phải tính toán tại đầu ra Sự khác nhau giữa đầu ra thực sự Y và đầu ra
mong muốn d được đo lường bằng bộ phát sinh tín hiệu lỗi, và bộ này sẽ tạo ra
những tín hiệu lỗi cho mạng nơ-ron để điều chỉnh các trọng số của nó sao cho đầu
ra thực sự được chuyển gần đúng nhất đến đầu ra mong muốn
Hầu hết trong ngành quản lý xây dựng thường kết hợp cả thay đổi cấu trúc
mạng và học thông số có giám sát để huấn luyện mạng
Tín hiệu tăng cường
Trang 26Trong học có giám sát, các giá trị đầu ra thực tế đã được biết trước ứng với
từng mẫu nhập.Tuy nhiên, trong nhiều tình huống, chỉ rất ít thông tin chi tiết được
biết Ví dụ, ANN chỉ được báo rằng: giá trị đầu ra hiện tại của nó là “quá cao” hoặc
“chính xác 50%” Thậm chí chỉ có một giá trị phản hồi báo hiệu kết quả của ANN là
“đúng” hoặc “sai” Việc học dựa trên cơ sở thông tin đánh giá ANN gọi là học tăng
cường và thông tin phản hồi được gọi là tín hiệu tăng cường Học tăng cường là một
hình thức học có giám sát vì mạng vẫn còn nhận một vài phản hồi từ môi trường
của nó Tuy nhiên, phản hồi này mang ý nghĩa đánh giá, nhưng không mang tính chỉ
dẫn Nó chỉ nhận xét đầu ra thực sự là tốt hay không tốt mà không đưa ra một gợi ý
nào cho ANN
Hình 2.13 – Quy trình học không giám sát (Nguồn: TS Nguyễn Thiện Thành [7])
Trong học không giám sát, sẽ không có giá trị thực cung cấp thông tin phản
hồi cho mạng nơ-ron Cũng không có phản hồi từ môi trường để đánh giá mức độ
chính xác đầu ra của mạng nơ-ron Mạng phải dựa trên việc khai thác các mẫu, các
đặc trưng, các qui tắc, các mối liên hệ hoặc các chủng loại của dữ liệu nhập và mã
hoá chúng trong đầu ra Trong quá trình khai thác những đặc trưng trên, các tham số
trong mạng sẽ được sửa đổi: quá trình xử lý này được gọi là “tự tổ chức”
• Giải thuật học:
Một nền tảng của giải thuật học được biết đến là phương pháp giảm dốc nhất
(steepest descent), trong phương pháp này gradient vector nhận được do nguyên tắc
Trang 27kế thừa của các hàm hợp (chain rule) Phương pháp này và những hệ thống tính
toán của nó do độc lập Bryson và Ho đề xuất năm 1969, Werbos đề xuất năm 1974
và Parker đề xuất năm 1982 Tuy nhiên, bởi vì việc nghiên cứu về mạng nơ-ron
nhân tạo trong giai đoạn này còn sơ khai do đó những công việc của các nhà nghiên
cứu này bị thất bại trong việc nhận được sự lưu tâm xứng đáng Năm 1986,
Rumelhart và các đồng sự sử dụng các thủ tục tương tự và tìm gradient trong mạng
nơ-ron nhiều lớp Thủ tục của họ được gọi là luật học lan truyền ngược
(backpropagation), một thuật giải học được biết đến rộng rãi bởi vì việc làm của
Rumelhart và các đồng sự đã truyền cảm hứng to lớn cho sự say mê nghiên cứu về
mạng nơ-ron nhân tạo [8]
Một số nghiên cứu đã chỉ ra cấu trúc của mạng neuron ứng dụng trong dự
đoán chi phí là mạng truyền thẳng nhiều lớp (multilayer feed-forward networks)
và luật học lan truyền ngược (backpropagation) là thích hợp nhất [1,2,3,4] Vì vậy
trong nội dung của luận văn này chỉ tập trung vào mạng nơ-ron nhân tạo truyền
thẳng nhiều lớp và thuật giải lan truyền ngược (backpropagation)
- Thuật giải lan truyền ngược cho mạng nơ-ron truyền thẳng
Ví dụ ta có một mạng nơ-ron truyền thẳng có L lớp và lớp thứ l (l = 0, 1, …
L; l = 0 là lớp nhập) có N(l) nút Khi đó giá trị xuất ra và hàm truyền của nút thứ i
[i = 1, … N(l)] trong lớp thứ l có thể trình bày như là xl,i và fl,i như diễn tả ở hình
2.14 một ví dụ mạng truyền thẳng có 3 lớp và một lớp nhập
Hình 2.14 – Thông số một mạng nơ-ron truyền thẳng, (nguồn [8])
Trang 28Không mất tính tổng quát, giả thuyết rằng không có những kết nối nhảy cách
lớp giữa các nút Nghĩa là đầu ra của một nút chỉ phụ thuộc vào tín hiệu đến và
thông số của nút đó, có thể diễn tả thông qua hàm số fl,i như sau:
xl,i = fl,i(xl-1,1,… xl-1, N(l-1), α, β, γ, …), (2.3)
trong đó: α, β, γ là những thông số của nút này
Giả sử rằng tập huấn luyện có P giá trị, ta có thể định nghĩa một mức sai số
cho một bộ p (1 ≤ p ≤ P) trong tập huấn luyện như là tổng bình phương của sai số
xL,k là giá trị đầu ra của mạng nơ-ron của dữ liệu thứ k ứng với mỗi bộ p
Nếu Ep = 0 thì mạng nơ-ron đã xuất ra chính xác giá trị của bộ p so với giá trị
thực tế thu thập Vì vậy mục tiêu là phải tối thiểu hóa mức sai số tổng cộng của toàn
Sử dụng phương pháp giảm dốc nhất (steepest descent) để tối thiểu hóa mức
sai số, đầu tiên ta phải tính được gradient vector Trước khi tính gradient vector ta
xem xét các quan hệ nguyên nhân gây ra thay đổi mức sai số như sau
Thay đổi ở đầu ra của ANN
Thay đổi
ở mức sai số
Một sự thay đổi nhỏ trong thông số α sẽ dẫn đến một sự thay đổi ở đầu ra của
nút chứa α và sẽ dẫn đến sự thay đổi ở đầu ra của lớp cuối cùng của mạng, hiển
nhiên là ảnh hưởng đến mức sai số Vì vậy ý tưởng cơ bản trong tính toán vector
garadient là thông qua đạo hàm những thông tin bắt đầu tư lớp xuất và quay ngược
về từng lớp, từng lớp cho đến khi gặp lớp nhập
Trang 29Khi đó ta định nghĩa tín hiệu sai số (error signal) εl,i như là đạo hàm mức sai
số Ep của nút i và lớp l, lấy theo cả hai hướng trực tiếp và gián tiếp trong một ký
hiệu
εl,i = p
l,i
Ex
+
∂
∂ (2.5)
Biểu thức trên được gọi là đạo hàm theo thứ tự (ordered derivative) được đề
xuất bởi Werbos năm 1974 Sự khác nhau giữa đạo hàm theo thứ tự và đạo hàm
riêng phần thông thường là ở cách nhìn nhận hàm số theo các cách khác nhau Với
các nút bên trong (l ≠ L) thì p
l,i
Ex
∂
∂ = 0 vì Ep không phụ thuộc trực tiếp vào xl,i Tuy
nhiên Ep phụ thuộc một cách gián tiếp vào xl,i, khi có một sự thay đổi trong xl,i sẽ
lan truyền gián tiếp đến lớp xuất và ảnh hưởng đến mức sai số Ep Vì thế εl,i còn
được xem như là hệ số của những sự biến đổi hai lần
Tín hiệu sai số của nút i nào đó của lớp xuất (tại lớp L) có thể tính trực tiếp
như sau:
εL,i = p
L,i
Ex
+
∂
p L,i
Ex
+
+ +
=
∂ε
∂
∑ (2.7),
với 0 ≤ l ≤ L-1 tín hiệu sai
số tại lớp l tín hiệu sai số tại lớp l +1
Như vậy, tín hiệu sai số của lớp của các nút bên trong tại lớp l có thể biểu
diễn dưới dạng tổ hợp tuyến tính của tín hiệu sai số của lớp l+1 vì thế với bất kỳ l
Trang 30và i [0 ≤ l ≤ L và 1 ≤ i ≤ N(l)], chúng ta có thể tính εl,i = p
l,i
Ex
+
∂
∂ bằng cách đầu tiên
áp dụng công thức (2.6) một lần để tính tín hiệu sai số của lớp ra rồi sau đó áp dụng
công thức (2.7) lần lượt tính lặp lại cho đến lớp l mong muốn Thủ tục tính toán như
vậy gọi là lan truyền ngược tín hiệu sai số tuần tự từ lớp xuất ngược về lớp nhập
Gradient vector được định nghĩa là đạo hàm của mức sai số lấy theo mỗi thông
số Ta có thể áp dụng quy tắt hàm hợp để tìm gradient vector , nếu α là thông số của
x
+
l,i l,i
f ∂ ε
∂α (2.8)
Nếu ta cho phép thông số α để chia sẻ giữa các nút khác nhau, khi đó phương
trình (2.6) sẽ được thay đổi để phù hợp với dạng tổng quát
trong đó: S là tập hợp tất cả các nút có thông số α; x* và f* theo thứ tự là giá
trị đầu ra và hàm truyền của một nút đại diện trong S
Đạo hàm của toàn bộ mức sai số E liên quan đến α là:
tối thiểu hóa, công thức cập nhật hiệu chỉnh cho một thông số α là
Trang 31Có hai dạng học thông số mà có thể sử dụng tùy theo từng trường hợp ứng dụng
khác nhau Trong cách off-line learing (hoặc batch learing) công thức cập nhật
thông số α tính trên cơ sở phương trình (2.10) và hành động cập nhật chỉ sau khi
toàn bộ dữ liệu trong tập huấn luyện được truyền qua, đó là chỉ sau mỗi epoch
hoặc sweep Một cách khác, trong on – line learning (hoặc pattern-by–pattern
learning) thông số α được cập nhật tức thời sau khi một cặp giá trị đầu vào - đầu ra
được thực hiện và tính trên cơ sở phương trình (2.8) Trong thực hành có thể kết
hợp cả hai dạng học và cập nhật thông số sau k bộ dữ liệu huấn luyện được thực
hiện với 1 ≤ k ≤ P và đôi khi nó cũng được đề cập như là cỡ mẻ huấn luyện (batch
size) [8]
2.1.1.6 Tính quá khớp của mạng nơ-ron nhân tạo (lack of generality)
Việc huấn luyện mạng với số bước lớn hơn cần thiết sẽ làm mạng rơi vào tình
trạng quá khớp Khi đó, kết quả dự đoán của mạng sẽ không còn đúng nữa Nguyên
nhân là mạng đã được luyện với quá khớp với dữ liệu học (kể cả nhiễu), nên nó sẽ
trả lời chính xác những gì nó được học còn những gì nó không được học, nó không
quan tâm Nghĩa là mạng không có khả năng tổng quát hóa, điều mà ta cần khi sử
dụng mạng [9]
3000 thế hệ
7000 thế hệ
Trang 32Mạng bị quá khớp cần được đặc biệt quan tâm xem xét và trong quá trình
huấn luyện mạng cần có những giải pháp phù hợp để trách tình trạng quá khớp xảy
ra
2.1.2 Phân tích hồi quy đa biến
2.1.2.1 Khái niệm
Phân tích hồi quy đa biến (hồi quy tuyến tính bội) là một công cụ thống kê để
mô hình mối liên hệ giữa một biến phụ thuộc và các biến độc lập Mô hình có dạng
như sau:
Yi = β0 + β1X1i + β2X2i + … +βpXpi + ei (2.13)
Ký hiệu: Xpi biểu hiện giá trị của biến độc lập thứ p tại quan sát thứ i
Các hệ số βp được gọi là hệ số hồi quy riêng phần
Thành phần ei được gọi là một sai số thực hay phần dư (residual), là chênh
lệch giữa giá trị thực Yi quan sát được và giá trị dự báo từ mô hình Yli; là một biến
Trang 33độc lập ngẫu nhiên có phân phối chuẩn với trung bình là 0 và phương sai không đổi
σ2 [11]
2.1.2.2 Các giả định và điều kiện
a) Giả định tuyến tính: Nếu mối quan hệ khác xa với quan hệ tuyến tính và
chúng ta dùng đường thẳng để mô tả phù hợp dữ liệu, thì những phân tích đều
không có ý nghĩa, do đó luôn luôn phải kiểm tra giả định tuyến tính trước bằng cách
kiểm tra điều kiện khá thẳng (Straight Enough Condition) [12]
- Điều kiện khá thẳng: Biểu đồ phân tán (Scatter plot) của Y với mỗi biến X
phải thẳng ở điều kiện chấp nhận được [12]
b) Giả định độc lập: Các giá trị Y độc lập thống kê đối với nhau, tức là
quan sát này không bị ảnh hưởng bởi các quan sát khác [10] Trong thực tế chúng ta
không có cách gì để chắn chắn rằng giả định độc lập là đúng May thay, tuy có
nhiều biến dự đoán (predictor variables) nhưng chỉ có một biến hưởng ứng
(response variable) và một tập hợp sai số Giả định độc lập liên quan đến sai số, do
đó chúng ta kiểm tra khả năng đáp ứng giả định độc lập của phần dư [12]
- Điều kiện ngẫu nhiên: Dữ liệu phải được thu thập từ các mẫu ngẫu nhiên
hoặc thí nghiệm ngẫu nhiên Sự ngẫu nhiên đảm bảo cho chúng ta rằng dữ liệu là
đại diện trong vài đặc tính của quần thể Nếu ta không thể xác định được quần thể
thì không thể giải thích được mô hình cũng như bất kể phép kiểm định giả thuyết
nào bởi vì chúng là của mô hình hồi quy cho quần thể đó Phương pháp hồi quy mà
áp dụng các dữ liệu được thu thập không ngẫu nhiên, mô hình hồi quy phù hợp với
dữ liệu đó có thể mô phỏng tốt những dữ liệu đã thu thập chứ không có lý do gì để
tin những số liệu đó đại diện cho một quần thể đặc biệt Sẽ là miễn cưỡng nếu cho
rằng mô hình đó có tính tổng quát hóa cho các tình huống khác [12]
c) Giả định phương sai bằng nhau (equal variance):
Sự biến đổi của sai số (phần dư) phải là bằng một giá trị như nhau đối với mỗi
biến dự đoán Để có cơ sở xem xét vấn đề này, hãy quan sát biểu đồ phân tán [12]
Trang 34- Điều kiện: Đồ thị có dày đặc không? Biểu đồ phân tán của phần dư đối với
mỗi biến dự đoán, hoặc đối với giá trị dự đoán Yli, bằng kiểm tra trực quan, phải có
sự dàn trải gần như cân bằng xung quanh một đường thẳng Có cảm giác giống hình
dạng “quạt” hoặc có xu hướng của sự biến đổi dãn ra hoặc co lại trong một phần
của biểu đồ phân tán [12]
- Nếu đồ thị phân tán của phần dư cho thấy không theo bất kỳ khuôn mẫu
nào, nếu dữ liệu đáng tin cậy là độc lập và nếu đồ thị không dày đặc chúng ta có thể
yên tâm về khả năng diễn đạt của mô hình Tuy nhiên, trước khi kiểm tra các giả
thuyết, ta phải kiểm tra giả định phân phối chuẩn [12]
d) Giả định phân phối chuẩn:
Giả định rằng sai số của một mô hình hồi quy lý tưởng đối với bất kỳ giá trị
nào của biến dự đoán tuân theo phân phối chuẩn Chúng ta cần giả định này vì ta
cần dùng phân phối t (student) cho sự suy luận Cũng như các lần sử dụng phân
phối t, ta cần kiểm tra điều kiện gần chuẩn [12]
- Điều kiện gần chuẩn: Biểu đồ tần suất của phần dư phải thỏa mãn điều kiện
gần chuẩn Như ta cũng đã biết, điều kiện gần chuẩn sẽ càng giảm ý nghĩa khi số
mẫu là càng lớn [12]
Ngoài ra, một giả định quan trọng đối với mô hình hồi quy tuyến tính bội là
không có biến dự đoán nào có thể được biểu thị dưới dạng tổ hợp tuyến tính của
những biến dự đoán còn lại Nếu tồn tại một quan hệ tuyến tính như vậy, khi đó xảy
ra hiện tượng đa cộng tuyến [11]
2.1.2.3 Một số thông số quan trọng trong phân tích hồi quy đa biến
- Hệ số xác định R 2 : (coefficient of determination) là đại lượng để đo độ phù
hợp của phương trình hồi quy mẫu với các số liệu quan sát
Trang 35+ R2 nhận giá trị trong [0,1], R2 càng lớn thì phương trình hồi quy càng phù
hợp với số liệu quan sát
- Hệ số xác định hiệu chỉnh: R2 điều chỉnh (Adjusted R squared) là đại lượng
phản ảnh sát hơn mức độ phù hợp của mô hình hồi quy tuyến tính đa biến (vì R2 là
hàm tăng theo số biến độc lập của mô hình nên có khuynh hướng thổi phồng thước
đo sự phù hợp của mô hình khi có nhiều hơn 1 biến dự đoán)
R2adj =R2 -p(1 R )2
N p 1
−
− − , (2.15)
trong đó p là số biến độc lập trong phương trình, N là số dữ liệu quan sát
- Hệ số tương quan: (coefficient of correlation) là hệ số thể hiện độ chặt của
mối liên hệ giữa hai biến
r =
2 2
(x x)(y y) (x x) (y y)
- Hệ số hồi quy riêng phần: βk đo lường sự thay đổi trong giá trị trung bình Y
khi Xk thay đổi một đơn vị, giữ các biến độc lập còn lại không đổi [11]
- Hệ số beta: là hệ số của biến độc lập khi tất cả dữ liệu trên các biến được
biểu diễn bằng đơn vị đo lường độ lệch chuẩn Hệ số beta được tính trực tiếp từ hệ
số hồi quy riêng phần như sau:
betak =βk( k
Y
S
S ), (2.17) trong đó Sk là độ lệch chuẩn của biến độc lập thứ k [11]
- Hệ số tương quan từng phần: (part correlation coefficients) 2
Trang 36trong đó: R2(k) là bình phương hệ số tương quan bội khi tất cả các biến độc lập
đã ở trong phương trình ngoại trừ biến k [11]
2
change
R đặc trưng cho độ tăng R2 khi một biến giải thích được đưa vào trong
phương trình trong khi phương trình đã chứa sẵn các biến độc lập khác[11]
- Hệ số tương quan riêng phần: (partial correlation coefficients) là tương
quan giữa biến độc lập thứ k và biến phụ thuộc Y khi ảnh hưởng tuyến tính của các
biến độc lập khác đối với cả Y và Xk bị loại bỏ đo lường khả năng giải thích của
biến phụ thuộc do ảnh hưởng của một biến độc lập [11]
- Độ chấp nhận của biến (Tolerance): được định nghĩa bằng thường
được sử dụng để đo lường đa cộng tuyến (collinearity diagnostics), trong đó là
hệ số tương quan đa biến khi biến độc lập Xk được dự đoán từ các biến còn lại Nếu
độ chấp nhận của biến nhỏ, thì nó gần như là sự kết hợp tuyến tính của các biến độc
lập khác, và đó là dấu hiện của đa cộng tuyến[11]
2 k
1 R−
2 k
R
- Hệ số phóng đại phương sai: VIF (variance inflation factor) là nghịch đảo
của độ chấp nhận Quy tắc là khi VIF vượt quá 10, đó là dấu hiệu của đa cộng tuyến
2 k
1
1 R− (2.20)
Sử dụng hai công cụ thống kê nêu trên và bằng phương pháp đào mỏ dữ liệu
(data mining) để xây dựng mô hình dự báo tổng mức đầu tư dự án xây dựng công
trình giao thông, đồng thời so sánh rút ra kết luận về khả năng dự đoán của từng mô
hình
2.2 Các nghiên cứu tương tự đã được công bố:
Để ước lượng tổng mức đầu tư của dự án xây dựng công trình, nhiều nhà
nghiên cứu đã sử dụng mạng nơron nhân tạo dự báo giá trị chi phí đầu ra dựa trên
các biến đầu vào đã được nghiên cứu, đánh giá, thu thập bằng nhiều phương pháp
Trang 37khác nhau Sau đó có thể sử dụng mô hình hồi quy đa biến để kiểm tra lại mô hình
ANN
• Emsley [1] đã phát triển mô hình mạng nơron với dữ liệu thu được từ gần
300 dự án xây dựng lịch sử gần đây Thu thập dữ liệu về chi phí của các dự án xây
dựng theo các cách khác nhau Sử dụng mô hình hồi qui và mạng nơron để phân
tích dữ liệu Quá trình tiến hành nghiên cứu bao gồm: 2 giai đoạn
- Nghiên cứu thí điểm ban đầu để: Xác định biến; Kiểm tra dữ liệu; Xác định
chiến lược thu thập dữ liệu; Nghiên cứu mô hình thích hợp; Kiểm nghiệm sơ bộ lại
phương pháp đã dùng
- Nghiên cứu đầy đủ với dữ liệu nêu trên, phát triển các mô hình phức tạp
Phát triển mô hình hồi qui để so sánh
Kết quả đạt được là mạng nơron dự báo tốt hơn hồi quy tuyến tính
• Gunaydin [2] đã khảo sát tính ứng dụng của phương pháp mạng nơron để
giải quyết vấn đề chi phí cho giai đoạn thiết kế sơ bộ Dữ liệu “chi phí và thiết kế”
được thu thập từ 30 dự án Mạng nơron có thể giải quyết mối quan hệ phi tuyến và
cho kết quả đáng tin cậy hơn Mục tiêu của bài báo là dùng mô hình ANN để ước
lượng chi phí phần thô của công trình Mẫu thu thập để ước lượng chi phí từ các dự
án dân dụng (4 đến 8 tầng kết cấu bê tông cốt thép) ở Thổ Nhĩ Kỳ
- Mạng nơron gồm có, lớp vào 8 thông số đầu vào, lớp ẩn gồm 4 nơron và đầu
ra là 1 nút xem là mục tiêu Các thông số đầu vào bao gồm:
X1: tổng diện tích công trình
X2: tỷ số của diện tích sàn điển hình/tổng diện tích công trình
X3: tỷ số của diện tích sàn trệt/tổng diện tích công trình
Trang 38- Với độ chính xác trung bình 93% và có sai số bình phương trung bình (MSE)
= 3.8% cho thấy phương pháp sử dụng ANN cho kết quả tốt theo mục đích nghiên
cứu
• Wilmot [3] đã xây dựng mô hình ước lượng chi phí xây dựng đường cao tốc
gia tăng theo thời gian dựa vào chỉ số Louisiana Highway Construction Index
(LHCI), giá xây dựng đường cao tốc được xây dựng từ các mô hình con về yếu tố
đào đắp nền; mặt đường bê tông xi măng; mặt đường bê tông nhựa, kết cấu thép dự
ứng lực, kết cấu bê tông Mỗi mô hình con này dựa vào các yếu tố đầu vào:
+ Giá nhân công
+Khối lượng hợp đồng hàng năm
+Khối lượng phát sinh ngoài hợp đồng
+ Số lần kế hoạch thay đổi
+ Thay đổi tiêu chuẩn hay chỉ dẫn kỹ thuật
Kết quả: Dựa vào số liệu quá khứ từ năm 1984 -1997 có thể dự báo chỉ số
LHCI từ năm 1998 – 2015
• Khoa [4] trình bày ứng dụng mạng neuron nhân tạo để dự đoán chi phí xây
dựng cho các dự án chung cư Từ 6 biến liên quan (cấp công trình, tổng diện tích
xây dựng, số tầng cao, giá xăng, giá sắt thép, giá xi măng), bài báo trình bày cách
ước lượng được chi phí xây dựng chung cư với sai số 5,5%
- Các tác giả đã viết một chương trình tự động hóa ướng lượng chi phí xây
dựng chung cư với công cụ lập trình Visual C++.Tuy nhiên, khó khăn trong việc thu
Trang 39thập số liệu để huấn luyện mạng nên chưa bao quát hết tất cả các trường hợp dự án
xây dựng chung cư đã qua
Các kết quả đạt được:
- Dựa vào chương trình đã xây dựng, nhà đầu tư có thể ước lượng được chi phí
xây dựng dự án chung cư trong giai đoạn thực hiện nghiên cứu dự án đầu tư mà
không cần thể hiện chi tiết hóa giá trị của từng hạng mục hay thành phần cấu thành
- Có thể dự báo giá trị đầu tư khi dự án thay đổi quy mô hoặc giá cả vật liệu
phụ thuộc vào các biến đầu vào để vạch kế hoạch thực hiện hay không thực hiện
thay đổi
- Bài báo chỉ dừng lại ở mức độ giá trị nghiên cứu, do việc thu thập số liệu còn
hạn chế (tác giả không nêu cách lấy mẫu) và các biến đầu vào chưa đại diện hết các
ảnh hưởng Hướng đề tài tiếp theo sẽ mở rộng cho nhiều loại dự án như: xây dựng
công trình giao thông, thủy điện… và các biến ảnh hưởng được đưa vào đánh giá
nhiều hơn
• Tuấn [9] đánh giá rủi ro biến động chi phí và thời gian trong giai đoạn thi
công của dự án với công cụ neural network
- Xác định được 27 biến đầu vào thông qua một cuộc khảo sát còn 2 biến đầu
ra là giá trị tỷ lệ chi phí xây dựng dự trù/chi phí xây dựng thực tế và thời gian xây
dựng dự trù/thời gian xây dựng thực tế
- Sử dụng 6 hàm huấn luyện khác nhau và thực hiện huấn luyện mạng bằng
Matlab với tỷ lệ chia mẫu 75% huấn huyện + 25% kiểm tra đã chọn được hàm
Traingdx với số nơ-ron lớp ẩn 12 cho kết quả tốt nhất
- Lần lượt cố định hàm, thay đổi lớp ẩn với tỉ lệ chia mẫu 85% huấn huyện +
15% kiểm tra tiếp tục khẳng định số lớp ẩn là 12 cho kết quả tốt nhất
- Tiếp tục thay đổi tỉ lệ chia mẫu thành 95% huấn huyện + 5% kiểm tra cũng
chứng minh hàm truyền lớp ẩn là Logsig(n), số nơ-ron lớp ẩn là 12 và hàm huấn
luyện là Traingdx cho kết quả tốt nhất
- Kết quả đạt được: Sau khi thử huấn luyện với các số chu kỳ khác nhau
nghiên cứu đã tìm được cấu trúc tối ưu của ANN là: hàm huấn luyện: traingdx, số
Trang 40nơ-ron lớp ẩn là 12; hàm học là learngdm; hàm thực hiện là MSE; hàm truyền cho
lớp ẩn là Logsig(n); hàm truyền cho lớp xuất là purelin(n) và số chu kỳ huấn luyện
- Sâu hơn việc chỉ sử dụng các phần mềm Neural network như là các “hộp
đen”, một mô hình mạng Nơ-ron được tác giả phát triển từ các công thức của bảng
tính (là một công cụ rất thường được sử dụng cho người thực hành xây dựng)
- Các biến được đưa vào phân tích (input) gồm 10 biến sau:
+ Loại dự án (project type)
+ Phạm vi dự án (Project scope)
+ Năm
+ Mùa
+ Vị trí xây dựng
+ Thời gian xây dựng (duration)
+ Chiều dài tuyến (size)
+ Bề rộng mặt đường (capacity)
+ Tình trạng ngập nước
+ Tình trạng địa chất
- Biến đầu ra (output) là tổng chi phí xây dựng dự án
- Thay thế cho việc huấn luyện mạng nơ-ron, hai kỹ thuật đã được sử dụng để
xác định trọng số là tối ưu hóa đơn giản (simplex optimization) và thuật toán di
truyền (genetic algorithms) Bộ trọng số mà dự đoán tốt nhất chi phí từ dữ liệu quá
khứ đã được sử dụng một các phù hợp để tìm ra mạng nơ-ron tối ưu
- Kết quả đạt được: Để áp dụng rộng rãi được mạng nơ-ron này cho dự án mới,
một macro bảng tính đơn giản có giao diện thân thiện với người dùng được phát
triển để nhập và tính toán tự động chi phí dự đoán Một mô đun phân tích độ nhạy