Kết quả Dự đoán sự hài lòng về chất lượng dịch vụ tưới tiêu tại đồng bằng Sông Hồng dùng các mô hình hồi quy cho thấy mô hình hồi quy phi tuyến cho kết quả tốt hơn mô hình tuyến tính, tính đa dạng và khả thi của những mô hình dự đoán này có thể được áp dụng để xử lý các bài toán về kinh tế trong các lĩnh vực quản lý tài nguyên nước.
Trang 1Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015
DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY
Nguyễn Thanh Tùng 1
1 Khoa Công nghệ thông tin, Trường Đại học Thủy lợi
tungnt@tlu.edu.vn
TÓM TẮT - Việc xác định mức độ hài lòng của người dân về dịch vụ tưới tiêu trong chính sách thủy lợi phí có ảnh hưởng
lớn đến các tổ chức quản lý và khai thác công trình thuỷ lợi, ngân sách quốc gia và an sinh xã hội Trong bài báo này, các mô hình hồi quy được áp dụng cho phân tích hồi quy đa biến nhằm mục đích dự đoán độ hài lòng của người dân về hệ thống tưới tiêu tại đồng bằng Sông Hồng Kết quả thực nghiệm cho thấy mô hình hồi quy phi tuyến cho kết quả tốt hơn mô hình tuyến tính, tính đa dạng và khả thi của những mô hình dự đoán này có thể được áp dụng để xử lý các bài toán về kinh tế trong các lĩnh vực quản lý tài nguyên nước
Từ khóa - Hồi quy đa biến, LASSO, k láng giềng, mạng nơron, véctơ hỗ trợ hồi quy, rừng ngẫu nhiên hồi quy, khai phá dữ
liệu, máy học
I ĐẶT VẤN ĐỀ
Với mỗi hệ thống tưới tiêu cụ thể tại Việt Nam, việc đánh giá mức độ hài lòng của các hộ dùng nước tác động lớn đến chính sách thủy lợi phí của Chính phủ Từ những nghiên cứu, phân tích định lượng liên quan đến sự hài lòng của người dân giúp Chính phủ điều chỉnh chính sách thủy lợi phí phù hợp nhằm nâng cao chất lượng dịch vụ tưới tiêu nông nghiệp Trong nghiên cứu này, các mô hình hồi quy tiên tiến được nghiên cứu để phân tích, dự đoán mức độ hài lòng của người dân tại vùng đồng bằng Sông Hồng, từ đó lựa chọn mô hình phù hợp để áp dụng xử lý các bài toán về kinh tế, thủy văn trong thực tiễn
Xét mô hình hồi quy tổng quát để giải bài toán xác định mức độ hài lòng của các hộ dân dùng dịch vụ nước tưới tiêu, thông thường được viết như sau:
Y f X ϵ, 1
trong đó ϵ là lỗi của mô hình, E ϵ 0, Var ϵ σ Tập dữ liệu đầu vào X , Y dùng để xây dựng mô hình hồi quy được thu thập, khảo sát độc lập từ các hộ dùng nước với các tiêu chí quan sát X (predictor features) và biến đích Y (response feature) lưu giá trị đánh giá mức độ hài lòng của các hộ dùng nước Trong biểu thức (1), X ∈
và Y ∈ là các biến ngẫu nhiên với xác suất , cụ thể, X x, Y y là xác suất mà các biến ngẫu nhiên X, Y nhận các giá trị x và y Ở đây, M là số chiều của tập dữ liệu đầu vào và N là số mẫu thu thập được Mục tiêu của bài toán hồi quy là tìm mô hình mà giá trị ước lượng của nó được dự đoán bởi hàm f ∙ có trung bình sai số bình phương (mean squared errors) càng nhỏ càng tốt Các mô hình hồi quy trình bày trong bài báo này được dùng như 1 hàm f: → ước lượng giá trị y ∈ Y tương ứng với dữ liệu đầu vào x ∈
Các nghiên cứu về đánh giá độ hài lòng của các hộ dùng nước tưới tiêu nói riêng và những bài toán kinh tế lượng nói chung ở Việt Nam, sau bước khảo sát và tiền xử lý số liệu, mô hình hồi quy tuyến tính thường được sử dụng
để phân tích sự biến thiên của số liệu, dự báo mẫu trong tương lai Mô hình tuyến tính được ưa dùng do dễ sử dụng, dễ cài đặt và việc diễn giải kết quả khá dễ hiểu Tuy nhiên, kết quả hồi quy dùng mô hình tuyến tính thường có lỗi dự báo cao và gặp khó khăn khi dữ liệu phức tạp như có số liệu trống (missing value), số liệu không phải dạng số, số lượng biến gấp nhiều lần so với số lượng mẫu Ngoài ra, lớp những mô hình tuyến tính cần những giả định như phân bố chuẩn, dữ liệu quan hệ tuyến tính để có được những kết quả dự báo hợp lý
Trong nghiên cứu này, các mô hình hồi quy tuyến tính nhiều biến và phi tuyến được nghiên cứu áp dụng cho bài toán xác định mức độ hài lòng của các hộ dùng nước tưới tiêu tại đồng bằng Sông Hồng Kỹ thuật kiểm tra chéo (k-folds cross validation) [10] được sử dụng cho các mô hình hồi quy trên tập huấn luyện để tìm tham số tối ưu dùng cho
dự đoán dữ liệu kiểm thử Độ đo sự quan trọng của các tiêu chí liên quan đến sự hài lòng của các hộ dùng nước tưới tiêu được phân tích, đánh giá và hiển thị trực quan giúp nhà quản lý có thêm thông tin cần thiết để đầu tư, nâng cấp dịch vụ tưới tiêu Kết quả thực nghiệm trong bài báo này cho thấy mô hình phi tuyến cho kết quả dự đoán tốt hơn, đặc biệt là mô hình của tổ hợp các cây hồi quy, tính đa dạng của những mô hình hồi quy này có thể được ứng dụng giải quyết lớp các bài toán hồi quy trong lĩnh vực kinh tế ở Việt Nam
II CÁC MÔ HÌNH HỒI QUY
A Mô hình hồi quy tuyến tính nhiều biến
Mô hình hồi quy tuyến tính gồm hồi quy đơn biến (single) và nhiều biến (multivariate) Hồi quy đơn biến là mô hình hồi quy với một biến hoặc đặc trưng (biến độc lập), hồi quy đa biến là mô hình hồi quy với nhiều biến và thường được sử dụng rộng rãi trong thực tế Với tập dữ liệu đầu vào cho trước, mô hình hồi quy tổng quát ở công thức (1) có thể được viết lại ở dạng sau [10]:
Trang 2Nguyễn Thanh Tùng 245
trong đó ϵ ∼ 0, và
| , 3
là hệ số chặn (intercept) và các là độ dốc (slope) Để tìm các hệ số của mô hình, cách tiếp cận phổ biến là dựa trên phương pháp bình phương nhỏ nhất [11], trong đó chúng ta tìm các hệ số , , … , để cực tiểu hóa tổng bình phương phần dư (residual sum of squares, RSS):
(4)
Ta cần xác định véctơ cho các hệ số trong mô hình hồi quy, giả thiết các điều kiện cho mô hình tuyến tính được đáp ứng (xem Huber [11]) Công thức (4) có thể được viết như sau: (5)
Nếu không suy biến, véctơ được xác định bằng phương trình sau:
Từ (6) ta có phương trình hồi quy nhiều biến, để dự đoán giá trị mới ta tính đầu ra của mô hình hồi quy tuyến tính nhiều biến như sau:
Hồi quy LASSO
Phương pháp LASSO (Least absolute shrinkage and selection operator) [10], [18] là phương pháp hồi quy tuyến tính nhiều biến có hiệu chỉnh mô hình, phương pháp này đưa thêm hàm phạt vào hàm lỗi để lỗi hồi quy đạt nhỏ nhất:
(8) Trong đó là hệ số phạt dùng để điều chỉnh mô hình, chuẩn L1 được dùng cho việc dự đoán các tham số Trong trường hợp đủ lớn sẽ có một số tham số hồi quy tiến dần về 0, do đó chúng không đóng vai trò gì trong mô hình hồi quy Phương pháp LASSO cũng được dùng cho bài toán lựa chọn thuộc tính, với các biến có tham số hồi quy bằng 0 ta
có thể loại khỏi mô hình
B Phương pháp hồi quy k láng giềng
Phương pháp k láng giềng dùng cho bài toán hồi quy không có quá trình huấn luyện để xây dựng mô hình học [10], khi dự đoán 1 mẫu mới, giải thuật tìm k (k=1, 2, ) láng giềng gần nhất của mẫu này trong tập dữ liệu huấn luyện , sau đó tính giá trị trung bình (hoặc trung vị) để trả về kết quả cuối cùng
Quá trình tìm k láng giềng của mẫu mới thường sử dụng khoảng cách Euclidean được định nghĩa như sau:
C Cây hồi quy
Mô hình cây hồi quy tách đệ quy theo hàng của tập dữ liệu đầu vào thành các tập dữ liệu nhỏ hơn, hình thành nút và lá của cây Tại mỗi lần tách nút, một thuộc tính và giá trị tách của thuộc tính này được chọn để chia nút thành 2 nút con, nút con trái và nút con phải
1 Xây dựng cây hồi quy
Gọi là nút cha để tách nhánh trên cây hồi quy Việc tách nhánh trên thuộc tính được xác định bởi việc giảm
sự hỗn tạp [5] tại nút , ký hiệu ∆ , Kỳ vọng của ở nút được tối thiểu hóa nhờ hàm lỗi bình phương sai số được định nghĩa như sau:
∈
(10) Trong đó là tổng số mẫu hiện tại ở nút và là trung bình mẫu của tại
Trang 3h
m
đ
2
S
m
C
d
D
n
1
tr
n
n
m
n
đ
246
Gọi l
Trong đ
mẫu và kích th
Như vậ
Trong đ
được chọn trên
2 Dự đoán dù
Khi x
Sử dụng các k
mỗi cây hồi qu
Các mẫu ∈
dự đoán dùng
Với dữ
D Mạng nơro
Mạng n
nhân tạo được
1) Mỗi nơron
ruyền –transfe
nối Mỗi kết n
nơron là 1 quá
Trong đ
v
X
w
H
Y
θ
Khi kết
mà ta có các lo
nhân tạo biểu
điểm của một m
là giá trị chia
∈ ,
đó là trung
hước mẫu của
ậy, việc giảm đ
đó
n thuộc tính
ùng cây hồi qu
xây dựng cây
ký hiệu của Br
uy, ta tính toán
, , đượ cây hồi quy đ
liệu thử nghiệ
on nhân tạo
nơron nhân tạ
c xây dựng từ
nhân tạo giả
fer function), đ
ối có trọng số
á trình điều chỉ
đó:
v(t): Tổng tất
Xk(t): Các biế
wk: Trọng số l
H(.): Hàm kíc
Y(t): Tín hiệu
θ: Ngưỡng (là
t hợp các nơro
oại mạng khác
thị mô hình h
mạng nơron n
DỰ ĐOÁN S tách thuộc tín
và 1
g bình mẫu củ
độ hỗn tạp the Δ
cho mỗi nút
uy hồi quy, ta cầ reiman[4], gọ
n trọng số dươ
ợc gán các trọn đơn giản là tính
ạo giả lập quá những thành lập một nơron đặc trưng cho
ố kết nối (weig ỉnh các ngưỡn
cả các đầu và
ến đầu vào (cá liên kết ngoài
ch hoạt
u đầu ra nơron
à hằng số), xác
on lại với nhau
c nhau như: m hồi quy theo c nhân tạo là nó
SỰ HÀI LÒNG V
nh tại nút
∈ ,
∈
ủa và
eo việc chia tá ,
và chính là giá
ần phải tính to
ọi là véctơ c
ng số ,
h giá trị trung
là giá trị dự đ
,
á trình học tập phần cơ sở là
n sinh học, gồ tính chất của ght), đặc trưng
ng kích hoạt v
Hình 1 Kiến
ào mô tả toàn b
ác đặc trưng), k giữa các đầu
n
c định ngưỡng
au ta có một m mạng truyền th công thức (1) cho phép xây
VỀ CHẤT LƯỢNG
thành nút co , 1 ,
là kích thước
ch đối với
trị làm cho ∆
oán giá trị cho chứa tham số cho mỗi mẫu
bình của các oán của cây h
, ∈ ,
p và tính toán
à những nơron
ồm một ngưỡn nơron Các n
g cho khả năng
à các trọng số
n trúc một nơro
bộ thế năng tá k=1 M
vào k với nơr
g kích hoạt
mạng nơron nh hẳng (Hình 2), với X là véct
y dựng một mô
G DỊCH VỤ TƯỚ
on trái và n Độ biến thiê 1
∈
c mẫu của được tính nh
các tỷ lệ qua , đạt cự
o nút lá của câ ngẫu nhiên đ
u ∈ Đặt rong đó là mẫu tại nút lá hồi quy được tí
,
của bộ não c
n nhân tạo gồm
ng kích hoạt (b nơron nhân tạo
g nhớ của mạn
ố kết nối, dựa t
on nhân tạo
ác động ở thân ron hiện tại
hân tạo Tuỳ th , mạng phản h
ơ số liệu đầu
ô hình tính toá
ỚI TIÊU TẠI ĐỒ nút con phải
ên của các mẫ
Tương tự,
hư sau:
an sát trong
ực đại
ây, quá trình n
để xác định vi , , là nú
số mẫu trong
á của cây
tính như sau:
con người [1]
m nhiều đầu v bias) và một h
o được liên kế
ng nơron Quá trên dữ liệu họ
n nơron
heo cách thức hồi,… Ta có th vào và Y là v
án có khả năng
ỒNG BẰNG SÔN phụ thuộc
ẫu cho mỗi nút
và là
và Điểm
này được mô iệc xây dựng
út lá trong câ
g , , Ng
, [16] Một m vào và một đầ hàm kích hoạ
ết với nhau bằ
á trình huấn lu
ọc
c liên kết giữa
hể xem như m véctơ số liệu
g học dữ liệu
NG HỒNG… vào
t con là
(11) trung bình
(12)
m chia tách
tả sau đây cây Trong
ây hồi quy ghĩa là việc
(13)
mạng nơron
ầu ra (Hình
t (hay hàm ằng các kết uyện mạng
a các nơron mạng nơron đầu ra Ưu rất cao Có
Trang 4th
đ
đ
m
(
C
n
c
E
v
v
M
đ
tr
S
Nguyễn Thanh T
hể coi mạng n
đầu ra và đầu v
Quá trì
đích, giải thuậ
mẫu huấn luyệ
các ma trận tr
Có nhiều loại
nghiên cứu nà
co của mô hình
E Máy véctơ
Máy vé
với độ lệch ch
với biến đích Y
Trong đ
Mục đích ở đâ
đến giải bài to
Với điề
⎪
⎩
⎪
⎨
⎧ −
,
(
(
*
i
i
i
i
wX
w
Y
ξ
ξ
Ở đây,
rước tiên phải
Với ηi,
Lấy đạo
với ràng
Giải biể
SVR được trìn
Tùng
nơron nhân tạo
vào dựa trên d
nh huấn luyện
ật huấn luyện
ện Sau khi mạ
rọng số, các th
mạng nơron,
ày, chúng tôi c
h để λ tránh tì
hỗ trợ hồi qu
éctơ hỗ trợ hồ
huẩn ε Trong
Yi:
đó w ⊂ RM, Φ
ây là cần tìm w
án quy hoạch
ều kiện:
≥
+
≤
− +
+
≤ + 0
)
)
i
i
Y b
b wX
ε ε
ξi, ξi* là hai
i tìm cực tiểu
(
b (w, min
1
∑=
L
α
ηi*, αi, αi* là c
o hàm cấp 1 c
g buộc:
ểu thức (17) v
nh bày ở (14),
o là một hộp đ
dữ liệu được h
n mạng nơron
sẽ điều chỉnh ạng được huấn ham số tự do, nhiều tầng v cài đặt mạng n ình trạng học v
uy
i quy (Suppor hồi quy ε – S
Φ(X) biểu thị m
w và b để giá toàn phương
Φ min
*
i
i
ξ ξ
biến bù [17]
của hàm L the
(
,
* , ,
* , ,
− + +ξi Y i w
ε
ξ ξ α α
các hệ số Lag
ủa phương trì 1
với ràng buộc với
đen có nhiều đ học
Hình 2 Mạn
n dựa trên lỗi
h các trọng số
n luyện thành , v.v) sẽ được
và được dùng nơron 1 lớp tr vẹt (over-fittin
rt Vector Regr
SV, mục đích
f X w một hàm phi tu
á trị X=x có th như sau:
=
*) , b, (w, ξ ξ
và C > 0 dùn
eo w, b, ξi, ξi*
) ) ( 2
1 )
* ,
− Φ
=
b i X T w
w
η η
grange và thỏa ình (16), hồi q
c (18) xác địn
đầu vào và nh
ng nơron lan tru
hồi quy giữa kết nối của m công, các tri t cập nhật vào cho cả bài to ruyền thẳng, s ng), xem thêm
ression, SVR)
là tìm một hà
uyến được chu
hể được xác đ
∑
= +
i
C
w2
2 1
ng để chỉnh đ
(
*
( 2
1
1
∑
∑
=
=
−
+
N i
N i
i
C
ε α ξ
mãn điều kiện quy phi tuyến S
nh được các n
hiều đầu ra có
uyền thẳng
a giá trị dự đo mạng nơron nh thức tích luỹ đ
cơ sở tri thức
án học có giá
sử dụng trọng
m ở [16]
) [17] tìm siêu
àm f(X) trong
uyển từ không ịnh bằng cách
+
N
i i
1
*) (ξ ξ
độ rộng giữa l
*
)
+
− +
−
T w i Y i
i i
ξ
ξ ξ
n: ηi, ηi*, αi, SVR sử dụng
∗
∈ 0, nhân tử Lagran
khả năng học
oán và giá trị hằm cực tiểu được trong qu
c để sử dụng t
ám sát và học
số suy giảm
u phẳng đi qua công thức (1)
g gian RM vào
h tối thiểu hóa
lề và lỗi Để g
.) ) (
* (
1
=
+ Φ
+
N
b i X T
i i
η
, αi* ≥ 0, i=1 N hàm lỗi ε đượ
nge αi, αi* K
c được mối qu
quan sát đượ hóa lỗi hồi qu
uá trình huấn lu trong quá trìn
c không giám (weight decay
a tất cả các đi ) có sai số nhỏ
không gian nh
a lỗi hồi quy
giải quyết bài
)
*
i
ξ
N
ợc tính như sau
∗
Khi đó, mô hìn
247 uan hệ giữa
ợc của biến
uy trên các uyện mạng
h dự đoán sát Trong y) và hệ số
ểm dữ liệu
ỏ nhất ε so
(14) hiều chiều
Từ đó dẫn
(15)
toán (15),
(16)
u:
(17) (18)
nh hồi quy
Trang 5248 DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG…
Trong đó Xj và Xk là 2 véctơ hỗ trợ, ∈ 0, và ∗∈ 0,
SVR có thể dùng các hàm nhân khác nhau để giải quyết lớp các bài toán hồi quy phi tuyến mà không cần bất kỳ một thay đổi nào về mặt thuật toán, các hàm nhân được dùng thông dụng như:
− Hàm nhân đa năng Gaussian RBF có dạng: K u, v e || ||
− Hàm nhân đa thức bậc d > 0: K u, v C u v
F Rừng ngẫu nhiên hồi quy
Rừng ngẫu nhiên hồi quy (RF) [3], [4] gồm tập hợp các cây hồi quy đã trình bày ở mục II C Từ tập dữ liệu đầu
vào , RF dùng kỹ thuật lấy mẫu bootstrap có hoàn lại tạo ra nhiều tập dữ liệu khác nhau Trên mỗi tập dữ liệu con
này, lấy ngẫu nhiên một lượng cố định thuộc tính, thường gọi là mtry để xây dựng cây Mỗi cây hồi quy được xây dựng
không cắt nhánh với chiều cao tối đa Việc lấy hai lần ngẫu nhiên cả mẫu và thuộc tính đã tạo ra các tập dữ liệu con khác nhau giúp RF giảm độ dao động (variance) của mô hình học
1 Dự đoán bằng rừng ngẫu nhiên hồi quy
Việc xây dựng rừng ngẫu nhiên hồi quy và dự đoán mẫu mới được mô tả như sau Đặt Θ là tập gồm K các véctơ tham số ngẫu nhiên cho rừng được sinh ra từ , trong đó là một véctơ tham số ngẫu nhiên để xác định độ lớn của cây thứ trong rừng k 1 K Gọi là tập dữ liệu thứ sinh ra từ dùng kỹ thuật bootstrap, trong mỗi cây hồi quy từ , ta tính trọng số dương , cho từng mẫu ∈ Đặt , , là nút lá trong cây Mẫu ∈ , , được gán cùng một trọng số , 1/ , trong đó là số các mẫu trong , , Trong trường hợp này, tất cả các mẫu trong được gán trọng số dương và các mẫu không trong được gán bằng 0 Với một cây hồi quy , khi có giá trị thử nghiệm thì giá trị dự đoán tương ứng:
Trọng số được tính bởi rừng ngẫu nhiên là giá trị trung bình của các trọng số dự đoán của tất cả các cây trong rừng Công thức tính như sau:
Cuối cùng, giá trị dự đoán của rừng ngẫu nhiên hồi quy được cho bởi:
2 Độ đo sự quan trọng của thuộc tính
Khi cây hồi quy phân chia tập dữ liệu đầu vào thành các vùng không giao nhau (theo hàng), giá trị dự đoán là giá trị trung bình được gán vào các vùng tương ứng (lá của cây) Tại mỗi bước tính toán để tách nút , theo công thức (12) tất cả các giá trị của mỗi thuộc tính được xét để tìm điểm tách khi đạt độ giảm hỗn tạp (impurity) Δ , là lớn nhất Do đó, trong quá trình xây dựng cây hồi quy, việc giảm sự hỗn tạp trên từng thuộc tính cụ thể được dùng để tính độ đo sự quan trọng của thuộc tính khi dùng mô hình cây [5]
Với mô hình rừng ngẫu nhiên, độ đo sự quan trọng của thuộc tính được tính bằng cách lấy giá trị trung bình của tất cả các độ đo của các cây hồi quy độc lập Có một điểm lợi trong việc tính độ đo sự quan trọng của thuộc tính dùng mô hình rừng ngẫu nhiên là độ đo của các biến có tương tác lẫn nhau đều được xem xét một cách tự động, điều này khác hẳn với những phương pháp tính tương quan tuyến tính như Kendall, Pearson Độ đo sự quan trọng của thuộc tính còn được tính theo cách khác dùng phương pháp lặp hoán vị [13], [14] cho kết quả chính xác hơn, tuy nhiên thời gian tính toán lâu hơn do chạy nhiều lần rừng ngẫu nhiên trên tập dữ liệu mở rộng cỡ 2M chứa các biến giả
Gọi , lần lượt là độ đo sự quan trọng của thuộc tính X j trong một cây hồi quy Tk(k=1 K) và trong một rừng ngẫu nhiên Từ công thức (12), ta tính độ đo sự quan trọng của Xj từ cây hồi quy độc lập như sau:
và từ rừng ngẫu nhiên là:
G Boosting
Mô hình boosting [6], [7] ban đầu được phát triển xử lý bài toán phân lớp sau đó được mở rộng cho bài toán hồi
quy Trong mục này, kỹ thuật điển hình của boosting là AdaBoost (Adaptive Boost) được trình bày vắn tắt, sau đó mô
hình boosting của Friedman với hàm cơ sở là cây hồi quy được áp dụng xử lý bài toán dự đoán sự hài lòng của các hộ dân dùng nước tưới tiêu
Trang 6Nguyễn Thanh Tùng 249 Adaboost là một bộ phân loại mạnh phi tuyến dựa trên hướng tiếp cận boosting được Freund và Schapire đưa ra vào năm 1996 xử lý bài toán phân lớp nhị phân [8] Adaboost hoạt động trên nguyên tắc kết hợp tuyến tính các phân loại yếu để hình thành một phân loại mạnh Để có thể kết hợp các bộ phân loại yếu, adaboost sử dụng một trọng số (weight) để đánh dấu các mẫu khó nhận dạng Trong quá trình huấn luyện, cứ mỗi phân loại yếu được xây dựng, thuật toán sẽ tiến hành cập nhật lại trọng số để chuẩn bị cho việc xây dựng phân loại yếu tiếp theo: tăng trọng số của các mẫu
bị nhận dạng sai và giảm trọng số của các mẫu được nhận dạng đúng bởi phân loại yếu vừa xây dựng Bằng cách này, các phân loại yếu sau có thể tập trung vào các mẫu mà các phân loại yếu trước đó chưa thực hiện tốt Sau cùng các phân loại yếu sẽ được kết hợp tùy theo mức độ ‘tốt’ của chúng để tạo nên một phân loại mạnh
Các bước thực hiện thuật toán AdaBoost như sau:
- Khởi tạo trọng số ban đầu cho tất cả các mẫu: với m là số mẫu đúng (ứng với các mẫu có nhãn Y = 1) và l
là số mẫu sai (có nhãn tương ứng Y = -1)
, 1
2 ,
1 2
(22)
- Xây dựng T các phân loại yếu Lặp t = 1, …, T
• Với mỗi mẫu trong , xây dựng một phân loại yếu hj với ngưỡng θj và lỗi εj
(23)
• Chọn ra hj với εj nhỏ nhất, ta được : → 1, 1
• Cập nhật lại trọng số:
, ,
(24)
và hệ số dùng để đưa về đoạn [0,1] (normalization factor)
- Phân loại mạnh được xây dựng :
(26) Friedman [9] đề xuất mô hình máy boosting dùng hàm học cơ sở là cây quyết định xử lý được cả bài toán phân lớp và hồi quy Ý tưởng chính khi xây dựng mô hình hồi quy như sau: Mô hình học ban đầu khởi tạo với cây hồi quy
và hàm lỗi cho trước (thường dùng hàm lỗi bình phương), giải thuật tìm mô hình cực tiểu hóa lỗi hồi quy Bước đầu tiên, giải thuật dự đoán biến đầu ra i bằng cách lấy giá trị trung bình các biến quan sát được Yi Tiếp theo lặp lại K lần (số cây hồi quy K là tham số của mô hình) để thực hiện: (i) Tính toán phần dư và xây dựng mô hình cây hồi quy dùng phần dư là biến đích với mục tiêu cực tiểu hóa lỗi (ii) Dự đoán mẫu dùng mô hình cây hồi quy ở bước trước đó (iii) Cập nhật bằng cách thêm các giá trị dự đoán ở lần lặp trước vào các giá trị dự đoán được tạo ra trong bước trước đó Mô hình Boosting dùng cây hồi quy khác rừng ngẫu nhiên khi các cây trong Boosting có đóng góp khác nhau khi đưa ra kết quả dự đoán cuối và cây hồi quy sau được xây dựng phụ thuộc cây trước, ngoài ra chúng được xây dựng với chiều cao biết trước còn ở rừng ngẫu nhiên các cây hồi quy được xây dựng độc lập và không cắt nhánh
III KẾT QUẢ THỰC NGHIỆM
A Mô tả dữ liệu
Dữ liệu dùng trong thực nghiệm được thu thập tại vùng đồng bằng Sông Hồng (tỉnh Thái Bình, Nam Định, Bắc Ninh và Hà Nội) gồm 480 hộ dùng nước (mẫu quan sát) và 05 nhóm tiêu chí sau1:
- Tính hữu hình (Tangibility) gồm 7 biến quan sát:
Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước và phân phối nước đến các diện tích cần tưới, tiêu (HH1)
Các đơn vị cung cấp dành đủ kinh phí cho công tác quản lý, vận hành và bảo dưỡng hệ thống tưới, tiêu (HH2)
Nhân viên thủy lợi mặc đồng phục đơn vị (HH3)
Tổ chức cung cấp nước có tài liệu hướng dẫn quản lý vận hành công trình thủy lợi (HH4)
Hợp đồng cung cấp dịch vụ được trình bày rất dễ hiểu (HH5)
Các thiết bị của tổ chức cung cấp nước có chất lượng tốt (HH6)
1 Phần trong ngoặc viết tắt tên biến dùng cho huấn luyện mô hình hồi quy
Trang 7250 DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG…
Việc duy tu, bảo dưỡng hệ thống tưới được thực hiện đều đặn và khi cần (HH7)
- Độ tin cậy (Reliability) gồm 4 biến quan sát:
Đơn vị cung cấp dịch vụ tưới, tiêu giới thiệu đầy đủ nội dung hợp đồng với tổ chức cung cấp nước cũng như các kỹ thuật và cách sử dụng khi ông bà muốn đăng ký sử dụng (STC1)
Tổ chức cung cấp nước thực hiện đúng dịch vụ tưới tiêu như hợp đồng (STC2)
Tổ chức cung cấp nước xử lý sự cố ngay khi công trình hư hỏng, xuống cấp (STC3)
Từ năm 2008 đến nay tổ chức cung cấp nước không để xảy ra bất kỳ sai sót nào khi tính chi phí hàng tháng (STC4)
- Độ đáp ứng (Responsiveness) gồm 9 biến quan sát
Nhân viên thủy lợi cho ông bà biết khi nào thực hiện dịch vụ tưới tiêu (DDU1)
Nhân viên thủy lợi nhanh chóng thực hiện dịch vụ cho ông bà (DDU2)
Tổ chức cung cấp nước thực hiện đúng lịch cấp nước (DDU3)
Tổ chức cung cấp nước cung cấp tối đa khả năng cấp nước (DDU4)
Khối lượng nước cấp đáp ứng tốt nhu cầu theo từng giai đoạn sinh trưởng, phát triển của cây trồng (DDU5)
Nhân viên thủy lợi cung cấp luôn luôn sẵn sàng đáp ứng yêu cầu của ông bà (DDU6)
Chất lượng nước tưới được đảm bảo (DDU7)
Thời gian khắc phục hư hỏng nhanh chóng (DDU8)
Ông bà không bao giờ phải lặp lại các khiếu nại trước (DDU9)
- Sự đảm bảo (Assurance) gồm 7 biến quan sát:
Cách cư xử của nhân viên gây niềm tin cho ông bà (SBD1)
Ông bà cảm thấy rất an toàn khi giao dịch với tổ chức cung cấp nước (SBD2)
Nhân viên thủy lợi có đủ hiểu biết để trả lời tất cả các câu hỏi của ông bà liên quan đến hệ thống tưới, tiêu (SBD3)
Nhân viên thủy lợi của tổ chức cung cấp nước luôn luôn niềm nở với ông bà (SBD4)
Thời gian phân phối nước tới các thửa ruộng luôn luôn đủ nước trong mỗi đợt tưới (SBD5)
Từ năm 2008 đến nay nhân viên thủy lợi trả lời được tất cả các thắc mắc của ông bà liên quan đến số tiền ông
bà trả trong tháng (SBD6)
Nhân viên thủy lợi rất nhanh khắc phục khi hệ thống tưới, tiêu có sự cố (SBD7)
- Sự đồng cảm (Empathy) gồm 7 biến quan sát:
Nhân viên kỹ thuật thủy lợi luôn làm việc vào những giờ thuận tiện cho ông bà (SDC1)
Không có bất cứ ai ở Tổ chức cung cấp nước quan tâm đến những bức xúc của ông bà về dịch vụ tưới, tiêu (SDC2)
Lịch phân phối nước rất thuận tiện theo giờ sản xuất của gia đình ông bà (SDC3)
Ông bà được quan tâm và chú ý mỗi khi thắc mắc về dịch vụ tưới, tiêu (SDC4)
Tổ chức cung cấp nước điều chỉnh lịch tưới phù hợp với sự thay đổi của thời tiết (SDC5)
Nhân viên của tổ chức cung cấp nước luôn hiểu rõ những nhu cầu của ông bà (SDC6)
Đơn vị cung cấp lấy lợi ích của ông bà là mục tiêu phát triển bền vững của họ (SDC7)
Biến đích đo sự hài lòng (SHL) của các hộ dùng nước có giá trị kiểu thập phân, SHL ∈ [0.0, 10.0], giá trị càng cao càng phản ánh sự hài lòng về chất lượng dịch vụ tưới tiêu Các tiêu chí đo lường chất lượng dịch vụ ở trên được lấy theo mô hình Servqual do Parasuraman và đồng nghiệp [15] đề xuất, phương pháp Cronbach Alpha [2] cũng được dùng để kiểm định độ tin cậy của các biến, tiền xử lý chúng trước khi đưa vào các mô hình hồi quy để huấn luyện
B Tham số mô hình và phương pháp đánh giá
Chúng tôi dùng căn bình phương sai số (Root mean squared RMSE), sai số tuyệt đối (mean absolute
error-MAE) và hệ số xác định bội (coefficient of determination) R2 để đánh giá tính hiệu quả của các mô hình hồi quy:
Trong đó: Yi, Y và chỉ giá trị thực, giá trị dự đoán và giá trị trung bình của mẫu thứ i tương ứng Mô hình hồi quy cho kết quả tốt là mô hình đạt được sai số RMSE và MAE nhỏ Giá trị R2 cao là một dấu hiệu cho thấy mối liên hệ giữa các tiêu chí và biến số SHL chặt chẽ Giá trị R2 càng cao cho thấy mô hình sử dụng để phân tích có khả năng giải thích càng tốt các khác biệt về độ hài lòng giữa các hộ dùng nước
Gói phần mềm caret [12] được sử dụng để tiến hành các thực nghiệm trên môi trường R, các mô hình hồi quy
liệt kê ở mục II đều được tích hợp trong gói phần mềm này Từ tập dữ liệu ban đầu gồm 480 mẫu quan sát và 34 tiêu chí, chúng tôi chia làm 2 phần để huấn luyện và kiểm thử mô hình, tập dữ liệu huấn luyện gồm 336 mẫu (70%) và tập
dữ liệu kiểm thử gồm 144 mẫu (30%) Khi xây dựng mô hình hồi quy, chúng tôi sử dụng kỹ thuật kiểm tra chéo 5-folds với 2 lần lặp và dựa trên hàm lỗi RMSE để tìm tham số tối ưu của từng mô hình, sau đó lựa chọn mô hình có RMSE nhỏ nhất với tham số tìm được để dự đoán dữ liệu kiểm thử Kỹ thuật kiểm tra chéo cũng cho phép tính hệ số xác định bội R2 phản ánh khả năng giải thích của từng mô hình hồi quy Các thực nghiệm được tiến hành trên 2 máy phục vụ dùng hệ điều hành Windows Server 2012 64-bit, mỗi máy có cấu hình IntelR XeonR CPU E5-2640 2.5 GHz, 24 cores,
8 MB cache và 128 GB RAM Các mô hình đều được cài đặt song song sử dụng hết 24 cores trên mỗi máy để huấn luyện, tìm tham số tối ưu và các thực nghiệm khác
Trang 8C
tr
g
L
c
v
m
k
th
tr
th
tr
đ
b
th
th
h
R
p
th
m
K
h
d
t
tr
H
n
n
k
k
Nguyễn Thanh T
C Kết quả dự
Kết quả
rong Bảng 1
gạch dưới, các
Ta có t
LASSO có cải
các mô hình kh
và k láng giền
mô hình máy v
kiểm thử đang
hấp nhất, đây
rong khi thời
hể thấy rõ mô
Bảng 1.
TT
1 Hồi qu
2 Hồi qu
3 K láng
4 Cây hồ
5 Mạng
6 Máy v
7 Rừng
8 Boosti
Hình 3
rên tập huấn
được sắp xếp
biệt về độ hài
hấy mô hình r
hích khoảng 9
hộ dùng nước
R2=92.445% v
phương pháp c
hích của mô
mô hình hồi qu
Kết quả trên ch
hiệu quả cao n
dữ liệu kiểm th
ốt nhất
Kết quả
rên RMSE so
Hình 4 Đườn
ngang nhau th
ngang lệch san
kẻ ngang có độ
kẻ ngang sẽ ké
Tùng
ự đoán độ hài
ả các mô hình
Ở 3 cột R2, R
c kết quả tốt th
thể dễ dàng n
i thiện khả nă
hác Các mô h
g có kết quả d
véctơ hỗ trợ h
g tiến hành thự
y là phương p
gian tính toán
ô hình rừng ng
Kết quả của c
Mô hình hồi
uy tuyến tính (
uy LASSO
g giềng (KNN
ồi quy (CART
nơ ron nhân t
véctơ hỗ trợ (S
ngẫu nhiên (R
ing
hiển thị kết q
luyện (336 m
giảm dần the
i lòng giữa cá
rừng ngẫu nhi
93% các khác
tưới tiêu, theo
và SVR đạt
cây hồi quy có
hình cây hồi
uy tuyến tính
ho thấy mô hì
nhất dựa vào lỗ
hử và khả năn
ả huấn luyện c
o sánh theo t
g kẻ dọc (mố
hì tâm đường t
ng trái so với
ộ dài ngắn (ví
éo dài (chẳng h
i lòng về chất
h hồi quy dự RMSE và MA
hứ nhì và thứ b nhận thấy mô ăng dự đoán h hình hồi quy p
dự đoán với lỗ hồi quy và mô
ực nghiệm K pháp hồi quy p
n nhanh Tuy n gẫu nhiên dự đ
các mô hình hồi
i quy
(LM) N) T) tạo (ANN) SVR) RF)
quả của các m mẫu) dựa trên
eo khả năng g
ác hộ dùng n iên cho kết qu biệt về độ hà
o sát là mô hì
R2=92.444%
ó R2 thấp nhất quy khoảng nhiều biến có ình rừng ngẫu
ỗi dự đoán thấ
ng giải thích m
của các mô hìn từng cặp đượ
ốc 0.0) được d thằng nằm ng mốc, ngược lạ
í dụ LM-LASS hạn LM-KNN
lượng dịch vụ
đoán độ hài l
AE kết quả dự
ba được in vớ hình hồi quy hơn so với mô phi tuyến tỏ rõ
ỗi hồi quy nhỏ
ô hình boosting Kết quả trình b phi tuyến khá nhiên, xét khả đoán chính xác
i quy dự đoán đ
Th
Mặc định
λ= 0.01
k = 1 Complexity p Trọng số phâ RBF, σ = 0.0 mtry = 9 và K
K = 500, in shrinkage = 0
mô hình hồi qu
n giá trị R2 v giải thích khá nước Chúng t
uả tốt nhất, giả
ài lòng giữa cá
nh boosting c Xếp cuối l
t, khả năng giả 85% kém hơ
ó R2=87.481%
nhiên luôn đạ
ấp nhất trên tậ
mô hình với R
nh hồi quy dự
ợc trình bày dùng để làm m gang sẽ trùng v
ại sẽ lệch sang SO), ngược lạ N)
Hình 3.
ụ tưới tiêu
lòng của các h
ự đoán với R2
i số lượng dấu
y tuyến tính n hình tuyến tín
õ ưu thế hơn,
ỏ Mô hình câ
g có kết quả d bày ở Bảng 1
á hiệu quả, mô
ả năng dự đoá
c nhất
độ hài lòng về c
ham số tối ưu
parameter (cp
ân rã=0.1 và số
032, ε=0.1 và C K=1000 nteraction.dep 0.1
uy
và
ác
ta
ải
ác
ó
là
ải
ơn
%
ạt
ập
R2
ựa
ở mốc so sánh, k với mốc Nếu
g phải Khi ha
ại nếu mô hình
So sánh các mô
the
hộ dùng nước cao nhất và lỗ
u (**) và (***
nhiều biến có
nh nhiều biến
cụ thể như rừn
y hồi quy cho
dự đoán chỉ hơ cũng cho thấ
ô hình có khả
án của các mô
chất lượng dịch
u
)=0
ố nơ-ron=9
C = 32 pth = 7 và
khi hai mô hì
mô hình ở vị
ai mô hình hơn
h hồi quy nổi
ô hình hồi quy d
eo hệ số xác địn
c về dịch vụ t
ỗi dự đoán th ) tương ứng
kết quả dự đ
n nhưng kết qu ừng ngẫu nhiên
o kết quả kém
ơn mô hình tu
ấy mô hình k
ả năng dự đoá
ô hình hồi quy
vụ tưới tiêu trê
R 2
0.839 0.844
**0.894 0.835
***0.892 * 0.852
0.902
0.873
ình hồi quy c
ị trí bên trái tố
ơn kém nhau k trội hơn hẳn v
dựa trên kết quả
nh bội R 2
tưới tiêu được hấp nhất được
đoán kém nhấ
uả kiểm thử v
n, mạng nơ-ro
m nhất theo R2 uyến tính trên láng giềng đạ
án đạt độ chín
y liệt kê tại Bả
ên dữ liệu kiểm
RMSE
0.267 0.263
**0.216 0.272
***0.218 0.255
0.208 * 0.237
ó lỗi huấn luy
ốt hơn thì tâm không đáng kể
về lỗi dự đoán
251
ả huấn luyện
c trình bày
in đậm và
t, mô hình vẫn kém xa
on nhân tạo
và RMSE, tập dữ liệu
ạt lỗi MAE
nh xác cao ảng 1, ta có
thử
MAE
0.167 0.163
0.085
0.156
**0.106 0.143
***0.107 0.119
yện RMSE
m đường kẻ
ể thì đường
n thì đường
Trang 9v
c
c
đ
V
q
x
0
đ
c
th
h
h
th
(
c
t
n
n
đ
đ
c
v
n
ứ
252
Hình 5
với giá trị tươ
chí có tương q
cỡ hình tròn v
đồ là giá trị tư
Với những tiêu
quan hệ với n
xanh nhạt và m
0) Ta nhận th
đến dịch vụ t
chẳng hạn HH
hống tưới tiêu
hư hỏng nhanh
hiểu là sự cố c
huộc lớn vào
SBD7) v.v N
của các tiêu ch
Hình 6
iêu chí được s
này được tính
nhiên Ta thấy
độ quan trọng
đến các diện t
cung cấp nước
vị cung cấp nư
ngay khi công
ứng tốt nhu cầ
Hìn
thể hiện mối
ơng quan tuyệ
quan mạnh vớ
và màu xanh đ
ương quan củ
u chí có tương
nhau sẽ hiển
màu trắng tươ
hấy các tiêu ch
ưới tiêu thườ
H1 và DDU8
u có chất lượn
h chóng (DDU
công trình đượ
o nhân viên th
Những số liệu
hí rất dễ lý giả
6 hiển thị độ
sắp xếp theo c
h theo công
y các tiêu chí
cao, trong đó
tích cần tưới,
c tưới tiêu, hộ
ước, nó bao gồ
g trình hư hỏn
ầu theo từng gi
DỰ ĐOÁN S
nh 4 So sánh l
i quan hệ giữa
ệt đối từ 0 đến
ới nhau thể hiệ đậm (đường ch
ủa tiêu chí vớ
g quan yếu ho thị trên biểu ơng ứng (tươn
hí có ảnh hưở ờng có tương
có thể lý gi
ng tốt (HH1) s U8); STC3 và
ợc xử lý ngay hủy lợi khắc
u trên biểu đồ
ải trong bài toá
đo sự quan t chiều giảm dầ thức (21) từ như HH1, HH
HH1="Các h tiêu" có độ qu
dùng nước qu
ồm những yếu
ng hoặc xuống iai đoạn sinh t
SỰ HÀI LÒNG V
lỗi huấn luyện R
a 34 tiêu chí
n 1 Các tiêu
ện bằng kích héo của biểu
ới chính nó)
oặc không có
đồ với màu
ng quan bằng ởng lẫn nhau quan mạnh, iải là các hệ
sẽ khắc phục SBD7 có thể
y (STC3) phụ phục nhanh
ồ tương quan
án thực tế
trọng của 34
ần, các độ đo
ừ rừng ngẫu H7, STC3 có
hệ thống tưới,
uan trọng cao uan tâm nhất đ
u tố như duy t
g cấp, thực hiệ trưởng và phá
VỀ CHẤT LƯỢNG
RMSE của các m
tiêu có chất lư
nhất Kết quả đến các hệ thố
tu, bảo dưỡng
ện đúng lịch c
t triển của cây
G DỊCH VỤ TƯỚ
Hình 5 Biểu
mô hình hồi quy
ượng tốt, đảm
ả của 3 tiêu ch ống tưới tiêu c được thực hiệ cấp nước, cun
y trồng, chất lư
ỚI TIÊU TẠI ĐỒ
u đồ tương quan
y theo từng cặp
m bảo chuyển n
hí trên có thể
có chất lượng
ện đầy đủ và
ng cấp tối đa k ượng nước đư
ỒNG BẰNG SÔN
n giữa các tiêu
p
nước và phân
lý giải là tro tốt, độ đáp ứn đều đặn, sửa khả năng cấp ược đảm bảo
NG HỒNG…
chí
phối nước
ng dịch vụ
ng của đơn chữa sự cố nước, đáp
Trang 10c
đ
v
c
l
h
t
lý
tư
m
tư
t
tr
p
h
R
q
c
c
đ
n
r
c
[
[
[
[
[
[
[
[
[
[
[
[
[
[
Nguyễn Thanh T
Cũng tr
cung cấp luôn
độ quan trọng
viên thủy lợi c
của các hộ dùn
òng chung về
hồi quy ngoài
ích và hiển th
ý có thêm thô
ưới tiêu nhằm
Chúng
mức độ hài lò
ưới tiêu tại đồ
ính, LASSO,
rợ hồi quy, rừ
phân tích và so
hộ dùng nước
RMSE và MA
quy tuyến tính
cao, các mô hì
cho kết quả dự
độ đo sự quan
nắm bắt thông
rộng cho các b
Xin cảm
cấp tài liệu và
1] Christoph
2] J Martin
3] Leo Breim
4] Leo Breim
5] Leo Brei
CRC pres
6] Yoav Fre
Artificial
7] Yoav Fre
Behavior
8] Yoav Fre
148–156,
9] Jerome H
1189–123
10] Trevor H
statistica
11] Peter J H
12] Max Kuh
13] Thanh Tu
data class
S5, 2015
14] Thanh Tu
correction
Tùng
rong hình 6, ti
luôn sẵn sàn
g thấp nhất Đ
có hoặc khôn
ng nước cũng
ề chất lượng d
khả năng dự đ
hị trực quan cá
ông tin để đầu
m đáp ứng cao
IV K
tôi đã trình b
ng của các hộ
ồng bằng Sông
cây hồi quy, k
ừng ngẫu nhiê
o sánh với nh
c tưới tiêu dự
AE Kết quả th
h tuy dễ cài đặ
ình phi tuyến t
ự đoán chính x
n trọng của cá
g tin cần thiết đ
bài toán kinh t
m ơn thầy Đỗ
số liệu thử ng
her M Bishop
n Bland, Dougl
man Bagging
man Random
iman, Jerome
ss, 1984
eund, Robert
l Intelligence,
eund and Robe
r, 29(1):79–10
eund, Robert E
, 1996
H Friedman G
32, 2001
Hastie, Robert
l learning, vo
Huber Robust
hn Building p
ung Nguyen, J
sification and
ung Nguyen,
n in range pre
iêu chí DDU6
ng đáp ứng yê
Điều này cũng
ng đáp ứng nh không ảnh hư dịch vụ tưới tiê đoán còn trợ g
ác tiêu chí đán
u tư, nâng cấ
độ hài lòng củ
KẾT LUẬN
bày các mô h
ộ dùng nước l
g Hồng Các m
k láng giềng, m
ên và boosting
au khi dự đoá
ựa trên phươn hực nghiệm c
ặt và dễ sử dụ
tỏ ra vượt trội xác nhất và kh
ác tiêu chí cũn
để nâng cấp d
ế và những bà
Văn Quang, ghiệm
p et al Neural las G Altman
g predictors M
m forests Mach
Friedman, C
Schapire, an 14(771-780):
ert E Schapir
03, 1999
E Schapire, e Greedy functi
t Tibshirani, J lume 2 Sprin
statistics Spr
predictive mod Joshua Z Hua snps selection
Joshua Z Hu
ediction Mach
6="Nhân viên
êu cầu của ông
g dễ lý giải k hững yêu cầu ưởng nhiều đế
êu Như vậy, giúp người dù
nh giá, giúp n
ấp chất lượng
ủa người dân
hình hồi quy liên quan đến
mô hình hồi qu mạng nơron, v
g đã được ngh
án độ hài lòng
ng pháp đánh cho thấy mô h ụng nhưng lỗi
i hơn và khả n
hả năng giải t
ng được tính t dịch vụ tưới tiê
ài toán liên qu
V L
Phó trưởng K
VI TÀI L
networks for
n, et al Statisti
Machine learni hine learning,
Charles J Ston
d N Abe A
1612, 1999
re Adaptive g
et al Experime ion approxim
Jerome Friedm nger, 2009
ringer, 2011
dels in r using ang, Qingyao
n using two-st
uang, and Th
hine Learning
thủy lợi
g bà" có
khi nhân
cá nhân
ến sự hài
mô hình ùng phân nhà quản dịch vụ
dự đoán dịch vụ
uy tuyến véctơ hỗ hiên cứu,
g của các giá R2, hình hồi
dự đoán năng dự đoán c thích khác biệ toán từ rừng n
êu Trong tươn uan đến dự đoá
LỜI CẢM ƠN
Khoa kinh tế v
IỆU THAM K
pattern recogn ics notes: Cron
ing, 24(2):123
, 45(1):5–32, 2
ne, and Richar short introdu ame playing u ents with a ne mation: a gradi man, T Hastie
the caret pack
Wu, Thuy T
tage quality-b
huy Thi Nguy , pages 1–19,
Hình 6
chính xác hơn
t về biến đích ngẫu nhiên và
ng lai, chúng t
án với số chiều
N
và quản lý-Trư
KHẢO
nition 1995
nbach’s alpha 3–140, 1996
2001
rd A Olshen
uction to boo using multipli
ew boosting al ient boosting
e, J Friedman
kage Journal
Nguyen, and ased random f
yen Two-leve
2014
6 Độ đo sự qua
n, đặc biệt là m
h giữa các qua
à hiển thị trực tôi sẽ áp dụng
u cao ở Việt N ường Đại học
a Bmj, 314(70
Classificatio osting Journa
cative weight
lgorithm In I machine Ann
n, and R Tibs
of Statistical
Mark J Li G
forests BMC
el quantile reg
an trọng của cá
mô hình rừng n
an sát tốt nhất
c quan giúp n
g kết quả nghi Nam
Thủy lợi đã h
080):572, 1997
on and regres al-Japanese S
ts Games and ICML, volume nals of Statis shirani The e
Software, 28(
Genome-wide a
Genomics, 16
gression fores
253
c tiêu chí.
ngẫu nhiên Ngoài ra,
hà quản lý
ên cứu mở
hỗ trợ cung
7
sion trees ociety For
d Economic
e 96, pages
tics, pages elements of
5):1–26, 2008 association 6(Suppl 2):
ts for bias
8