1. Trang chủ
  2. » Nông - Lâm - Ngư

Dự đoán sự hài lòng về chất lượng dịch vụ tưới tiêu tại đồng bằng Sông Hồng dùng các mô hình hồi quy

13 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 720,91 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Kết quả Dự đoán sự hài lòng về chất lượng dịch vụ tưới tiêu tại đồng bằng Sông Hồng dùng các mô hình hồi quy cho thấy mô hình hồi quy phi tuyến cho kết quả tốt hơn mô hình tuyến tính, tính đa dạng và khả thi của những mô hình dự đoán này có thể được áp dụng để xử lý các bài toán về kinh tế trong các lĩnh vực quản lý tài nguyên nước.

Trang 1

Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015

DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG DÙNG CÁC MÔ HÌNH HỒI QUY

Nguyễn Thanh Tùng 1

1 Khoa Công nghệ thông tin, Trường Đại học Thủy lợi

tungnt@tlu.edu.vn

TÓM TẮT - Việc xác định mức độ hài lòng của người dân về dịch vụ tưới tiêu trong chính sách thủy lợi phí có ảnh hưởng

lớn đến các tổ chức quản lý và khai thác công trình thuỷ lợi, ngân sách quốc gia và an sinh xã hội Trong bài báo này, các mô hình hồi quy được áp dụng cho phân tích hồi quy đa biến nhằm mục đích dự đoán độ hài lòng của người dân về hệ thống tưới tiêu tại đồng bằng Sông Hồng Kết quả thực nghiệm cho thấy mô hình hồi quy phi tuyến cho kết quả tốt hơn mô hình tuyến tính, tính đa dạng và khả thi của những mô hình dự đoán này có thể được áp dụng để xử lý các bài toán về kinh tế trong các lĩnh vực quản lý tài nguyên nước

Từ khóa - Hồi quy đa biến, LASSO, k láng giềng, mạng nơron, véctơ hỗ trợ hồi quy, rừng ngẫu nhiên hồi quy, khai phá dữ

liệu, máy học

I ĐẶT VẤN ĐỀ

Với mỗi hệ thống tưới tiêu cụ thể tại Việt Nam, việc đánh giá mức độ hài lòng của các hộ dùng nước tác động lớn đến chính sách thủy lợi phí của Chính phủ Từ những nghiên cứu, phân tích định lượng liên quan đến sự hài lòng của người dân giúp Chính phủ điều chỉnh chính sách thủy lợi phí phù hợp nhằm nâng cao chất lượng dịch vụ tưới tiêu nông nghiệp Trong nghiên cứu này, các mô hình hồi quy tiên tiến được nghiên cứu để phân tích, dự đoán mức độ hài lòng của người dân tại vùng đồng bằng Sông Hồng, từ đó lựa chọn mô hình phù hợp để áp dụng xử lý các bài toán về kinh tế, thủy văn trong thực tiễn

Xét mô hình hồi quy tổng quát để giải bài toán xác định mức độ hài lòng của các hộ dân dùng dịch vụ nước tưới tiêu, thông thường được viết như sau:

Y f X ϵ, 1

trong đó ϵ là lỗi của mô hình, E ϵ 0, Var ϵ σ Tập dữ liệu đầu vào X , Y dùng để xây dựng mô hình hồi quy được thu thập, khảo sát độc lập từ các hộ dùng nước với các tiêu chí quan sát X (predictor features) và biến đích Y (response feature) lưu giá trị đánh giá mức độ hài lòng của các hộ dùng nước Trong biểu thức (1), X ∈

và Y ∈ là các biến ngẫu nhiên với xác suất , cụ thể, X x, Y y là xác suất mà các biến ngẫu nhiên X, Y nhận các giá trị x và y Ở đây, M là số chiều của tập dữ liệu đầu vào và N là số mẫu thu thập được Mục tiêu của bài toán hồi quy là tìm mô hình mà giá trị ước lượng của nó được dự đoán bởi hàm f ∙ có trung bình sai số bình phương (mean squared errors) càng nhỏ càng tốt Các mô hình hồi quy trình bày trong bài báo này được dùng như 1 hàm f: → ước lượng giá trị y ∈ Y tương ứng với dữ liệu đầu vào x ∈

Các nghiên cứu về đánh giá độ hài lòng của các hộ dùng nước tưới tiêu nói riêng và những bài toán kinh tế lượng nói chung ở Việt Nam, sau bước khảo sát và tiền xử lý số liệu, mô hình hồi quy tuyến tính thường được sử dụng

để phân tích sự biến thiên của số liệu, dự báo mẫu trong tương lai Mô hình tuyến tính được ưa dùng do dễ sử dụng, dễ cài đặt và việc diễn giải kết quả khá dễ hiểu Tuy nhiên, kết quả hồi quy dùng mô hình tuyến tính thường có lỗi dự báo cao và gặp khó khăn khi dữ liệu phức tạp như có số liệu trống (missing value), số liệu không phải dạng số, số lượng biến gấp nhiều lần so với số lượng mẫu Ngoài ra, lớp những mô hình tuyến tính cần những giả định như phân bố chuẩn, dữ liệu quan hệ tuyến tính để có được những kết quả dự báo hợp lý

Trong nghiên cứu này, các mô hình hồi quy tuyến tính nhiều biến và phi tuyến được nghiên cứu áp dụng cho bài toán xác định mức độ hài lòng của các hộ dùng nước tưới tiêu tại đồng bằng Sông Hồng Kỹ thuật kiểm tra chéo (k-folds cross validation) [10] được sử dụng cho các mô hình hồi quy trên tập huấn luyện để tìm tham số tối ưu dùng cho

dự đoán dữ liệu kiểm thử Độ đo sự quan trọng của các tiêu chí liên quan đến sự hài lòng của các hộ dùng nước tưới tiêu được phân tích, đánh giá và hiển thị trực quan giúp nhà quản lý có thêm thông tin cần thiết để đầu tư, nâng cấp dịch vụ tưới tiêu Kết quả thực nghiệm trong bài báo này cho thấy mô hình phi tuyến cho kết quả dự đoán tốt hơn, đặc biệt là mô hình của tổ hợp các cây hồi quy, tính đa dạng của những mô hình hồi quy này có thể được ứng dụng giải quyết lớp các bài toán hồi quy trong lĩnh vực kinh tế ở Việt Nam

II CÁC MÔ HÌNH HỒI QUY

A Mô hình hồi quy tuyến tính nhiều biến

Mô hình hồi quy tuyến tính gồm hồi quy đơn biến (single) và nhiều biến (multivariate) Hồi quy đơn biến là mô hình hồi quy với một biến hoặc đặc trưng (biến độc lập), hồi quy đa biến là mô hình hồi quy với nhiều biến và thường được sử dụng rộng rãi trong thực tế Với tập dữ liệu đầu vào cho trước, mô hình hồi quy tổng quát ở công thức (1) có thể được viết lại ở dạng sau [10]:

Trang 2

Nguyễn Thanh Tùng 245

trong đó ϵ ∼ 0, và

| , 3

là hệ số chặn (intercept) và các là độ dốc (slope) Để tìm các hệ số của mô hình, cách tiếp cận phổ biến là dựa trên phương pháp bình phương nhỏ nhất [11], trong đó chúng ta tìm các hệ số , , … , để cực tiểu hóa tổng bình phương phần dư (residual sum of squares, RSS):

(4)

Ta cần xác định véctơ cho các hệ số trong mô hình hồi quy, giả thiết các điều kiện cho mô hình tuyến tính được đáp ứng (xem Huber [11]) Công thức (4) có thể được viết như sau: (5)

Nếu không suy biến, véctơ được xác định bằng phương trình sau:

Từ (6) ta có phương trình hồi quy nhiều biến, để dự đoán giá trị mới ta tính đầu ra của mô hình hồi quy tuyến tính nhiều biến như sau:

Hồi quy LASSO

Phương pháp LASSO (Least absolute shrinkage and selection operator) [10], [18] là phương pháp hồi quy tuyến tính nhiều biến có hiệu chỉnh mô hình, phương pháp này đưa thêm hàm phạt vào hàm lỗi để lỗi hồi quy đạt nhỏ nhất:

(8) Trong đó là hệ số phạt dùng để điều chỉnh mô hình, chuẩn L1 được dùng cho việc dự đoán các tham số Trong trường hợp đủ lớn sẽ có một số tham số hồi quy tiến dần về 0, do đó chúng không đóng vai trò gì trong mô hình hồi quy Phương pháp LASSO cũng được dùng cho bài toán lựa chọn thuộc tính, với các biến có tham số hồi quy bằng 0 ta

có thể loại khỏi mô hình

B Phương pháp hồi quy k láng giềng

Phương pháp k láng giềng dùng cho bài toán hồi quy không có quá trình huấn luyện để xây dựng mô hình học [10], khi dự đoán 1 mẫu mới, giải thuật tìm k (k=1, 2, ) láng giềng gần nhất của mẫu này trong tập dữ liệu huấn luyện , sau đó tính giá trị trung bình (hoặc trung vị) để trả về kết quả cuối cùng

Quá trình tìm k láng giềng của mẫu mới thường sử dụng khoảng cách Euclidean được định nghĩa như sau:

C Cây hồi quy

Mô hình cây hồi quy tách đệ quy theo hàng của tập dữ liệu đầu vào thành các tập dữ liệu nhỏ hơn, hình thành nút và lá của cây Tại mỗi lần tách nút, một thuộc tính và giá trị tách của thuộc tính này được chọn để chia nút thành 2 nút con, nút con trái và nút con phải

1 Xây dựng cây hồi quy

Gọi là nút cha để tách nhánh trên cây hồi quy Việc tách nhánh trên thuộc tính được xác định bởi việc giảm

sự hỗn tạp [5] tại nút , ký hiệu ∆ , Kỳ vọng của ở nút được tối thiểu hóa nhờ hàm lỗi bình phương sai số được định nghĩa như sau:

(10) Trong đó là tổng số mẫu hiện tại ở nút và là trung bình mẫu của tại

Trang 3

h

m

đ

2

S

m

C

d

D

n

1

tr

n

n

m

n

đ

246

Gọi l

Trong đ

mẫu và kích th

Như vậ

Trong đ

được chọn trên

2 Dự đoán dù

Khi x

Sử dụng các k

mỗi cây hồi qu

Các mẫu ∈

dự đoán dùng

Với dữ

D Mạng nơro

Mạng n

nhân tạo được

1) Mỗi nơron

ruyền –transfe

nối Mỗi kết n

nơron là 1 quá

Trong đ

v

X

w

H

Y

θ

Khi kết

mà ta có các lo

nhân tạo biểu

điểm của một m

là giá trị chia

∈ ,

đó là trung

hước mẫu của

ậy, việc giảm đ

đó

n thuộc tính

ùng cây hồi qu

xây dựng cây

ký hiệu của Br

uy, ta tính toán

, , đượ cây hồi quy đ

liệu thử nghiệ

on nhân tạo

nơron nhân tạ

c xây dựng từ

nhân tạo giả

fer function), đ

ối có trọng số

á trình điều chỉ

đó:

v(t): Tổng tất

Xk(t): Các biế

wk: Trọng số l

H(.): Hàm kíc

Y(t): Tín hiệu

θ: Ngưỡng (là

t hợp các nơro

oại mạng khác

thị mô hình h

mạng nơron n

DỰ ĐOÁN S tách thuộc tín

và 1

g bình mẫu củ

độ hỗn tạp the Δ

cho mỗi nút

uy hồi quy, ta cầ reiman[4], gọ

n trọng số dươ

ợc gán các trọn đơn giản là tính

ạo giả lập quá những thành lập một nơron đặc trưng cho

ố kết nối (weig ỉnh các ngưỡn

cả các đầu và

ến đầu vào (cá liên kết ngoài

ch hoạt

u đầu ra nơron

à hằng số), xác

on lại với nhau

c nhau như: m hồi quy theo c nhân tạo là nó

SỰ HÀI LÒNG V

nh tại nút

∈ ,

ủa và

eo việc chia tá ,

và chính là giá

ần phải tính to

ọi là véctơ c

ng số ,

h giá trị trung

là giá trị dự đ

,

á trình học tập phần cơ sở là

n sinh học, gồ tính chất của ght), đặc trưng

ng kích hoạt v

Hình 1 Kiến

ào mô tả toàn b

ác đặc trưng), k giữa các đầu

n

c định ngưỡng

au ta có một m mạng truyền th công thức (1) cho phép xây

VỀ CHẤT LƯỢNG

thành nút co , 1 ,

là kích thước

ch đối với

trị làm cho ∆

oán giá trị cho chứa tham số cho mỗi mẫu

bình của các oán của cây h

, ∈ ,

p và tính toán

à những nơron

ồm một ngưỡn nơron Các n

g cho khả năng

à các trọng số

n trúc một nơro

bộ thế năng tá k=1 M

vào k với nơr

g kích hoạt

mạng nơron nh hẳng (Hình 2), với X là véct

y dựng một mô

G DỊCH VỤ TƯỚ

on trái và n Độ biến thiê 1

c mẫu của được tính nh

các tỷ lệ qua , đạt cự

o nút lá của câ ngẫu nhiên đ

u ∈ Đặt rong đó là mẫu tại nút lá hồi quy được tí

,

của bộ não c

n nhân tạo gồm

ng kích hoạt (b nơron nhân tạo

g nhớ của mạn

ố kết nối, dựa t

on nhân tạo

ác động ở thân ron hiện tại

hân tạo Tuỳ th , mạng phản h

ơ số liệu đầu

ô hình tính toá

ỚI TIÊU TẠI ĐỒ nút con phải

ên của các mẫ

Tương tự,

hư sau:

an sát trong

ực đại

ây, quá trình n

để xác định vi , , là nú

số mẫu trong

á của cây

tính như sau:

con người [1]

m nhiều đầu v bias) và một h

o được liên kế

ng nơron Quá trên dữ liệu họ

n nơron

heo cách thức hồi,… Ta có th vào và Y là v

án có khả năng

ỒNG BẰNG SÔN phụ thuộc

ẫu cho mỗi nút

và là

và Điểm

này được mô iệc xây dựng

út lá trong câ

g , , Ng

, [16] Một m vào và một đầ hàm kích hoạ

ết với nhau bằ

á trình huấn lu

ọc

c liên kết giữa

hể xem như m véctơ số liệu

g học dữ liệu

NG HỒNG… vào

t con là

(11) trung bình

(12)

m chia tách

tả sau đây cây Trong

ây hồi quy ghĩa là việc

(13)

mạng nơron

ầu ra (Hình

t (hay hàm ằng các kết uyện mạng

a các nơron mạng nơron đầu ra Ưu rất cao Có

Trang 4

th

đ

đ

m

(

C

n

c

E

v

v

M

đ

tr

S

Nguyễn Thanh T

hể coi mạng n

đầu ra và đầu v

Quá trì

đích, giải thuậ

mẫu huấn luyệ

các ma trận tr

Có nhiều loại

nghiên cứu nà

co của mô hình

E Máy véctơ

Máy vé

với độ lệch ch

với biến đích Y

Trong đ

Mục đích ở đâ

đến giải bài to

Với điề

⎧ −

,

(

(

*

i

i

i

i

wX

w

Y

ξ

ξ

Ở đây,

rước tiên phải

Với ηi,

Lấy đạo

với ràng

Giải biể

SVR được trìn

Tùng

nơron nhân tạo

vào dựa trên d

nh huấn luyện

ật huấn luyện

ện Sau khi mạ

rọng số, các th

mạng nơron,

ày, chúng tôi c

h để λ tránh tì

hỗ trợ hồi qu

éctơ hỗ trợ hồ

huẩn ε Trong

Yi:

đó w ⊂ RM, Φ

ây là cần tìm w

án quy hoạch

ều kiện:

+

− +

+

≤ + 0

)

)

i

i

Y b

b wX

ε ε

ξi, ξi* là hai

i tìm cực tiểu

(

b (w, min

1

∑=

L

α

ηi*, αi, αi* là c

o hàm cấp 1 c

g buộc:

ểu thức (17) v

nh bày ở (14),

o là một hộp đ

dữ liệu được h

n mạng nơron

sẽ điều chỉnh ạng được huấn ham số tự do, nhiều tầng v cài đặt mạng n ình trạng học v

uy

i quy (Suppor hồi quy ε – S

Φ(X) biểu thị m

w và b để giá toàn phương

Φ min

*

i

i

ξ ξ

biến bù [17]

của hàm L the

(

,

* , ,

* , ,

− + +ξi Y i w

ε

ξ ξ α α

các hệ số Lag

ủa phương trì 1

với ràng buộc với

đen có nhiều đ học

Hình 2 Mạn

n dựa trên lỗi

h các trọng số

n luyện thành , v.v) sẽ được

và được dùng nơron 1 lớp tr vẹt (over-fittin

rt Vector Regr

SV, mục đích

f X w một hàm phi tu

á trị X=x có th như sau:

=

*) , b, (w, ξ ξ

và C > 0 dùn

eo w, b, ξi, ξi*

) ) ( 2

1 )

* ,

− Φ

=

b i X T w

w

η η

grange và thỏa ình (16), hồi q

c (18) xác địn

đầu vào và nh

ng nơron lan tru

hồi quy giữa kết nối của m công, các tri t cập nhật vào cho cả bài to ruyền thẳng, s ng), xem thêm

ression, SVR)

là tìm một hà

uyến được chu

hể được xác đ

= +

i

C

w2

2 1

ng để chỉnh đ

(

*

( 2

1

1

=

=

+

N i

N i

i

C

ε α ξ

mãn điều kiện quy phi tuyến S

nh được các n

hiều đầu ra có

uyền thẳng

a giá trị dự đo mạng nơron nh thức tích luỹ đ

cơ sở tri thức

án học có giá

sử dụng trọng

m ở [16]

) [17] tìm siêu

àm f(X) trong

uyển từ không ịnh bằng cách

+

N

i i

1

*) (ξ ξ

độ rộng giữa l

*

)

+

− +

T w i Y i

i i

ξ

ξ ξ

n: ηi, ηi*, αi, SVR sử dụng

∈ 0, nhân tử Lagran

khả năng học

oán và giá trị hằm cực tiểu được trong qu

c để sử dụng t

ám sát và học

số suy giảm

u phẳng đi qua công thức (1)

g gian RM vào

h tối thiểu hóa

lề và lỗi Để g

.) ) (

* (

1

=

+ Φ

+

N

b i X T

i i

η

, αi* ≥ 0, i=1 N hàm lỗi ε đượ

nge αi, αi* K

c được mối qu

quan sát đượ hóa lỗi hồi qu

uá trình huấn lu trong quá trìn

c không giám (weight decay

a tất cả các đi ) có sai số nhỏ

không gian nh

a lỗi hồi quy

giải quyết bài

)

*

i

ξ

N

ợc tính như sau

Khi đó, mô hìn

247 uan hệ giữa

ợc của biến

uy trên các uyện mạng

h dự đoán sát Trong y) và hệ số

ểm dữ liệu

ỏ nhất ε so

(14) hiều chiều

Từ đó dẫn

(15)

toán (15),

(16)

u:

(17) (18)

nh hồi quy

Trang 5

248 DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG…

Trong đó Xj và Xk là 2 véctơ hỗ trợ, ∈ 0, và ∗∈ 0,

SVR có thể dùng các hàm nhân khác nhau để giải quyết lớp các bài toán hồi quy phi tuyến mà không cần bất kỳ một thay đổi nào về mặt thuật toán, các hàm nhân được dùng thông dụng như:

− Hàm nhân đa năng Gaussian RBF có dạng: K u, v e || ||

− Hàm nhân đa thức bậc d > 0: K u, v C u v

F Rừng ngẫu nhiên hồi quy

Rừng ngẫu nhiên hồi quy (RF) [3], [4] gồm tập hợp các cây hồi quy đã trình bày ở mục II C Từ tập dữ liệu đầu

vào , RF dùng kỹ thuật lấy mẫu bootstrap có hoàn lại tạo ra nhiều tập dữ liệu khác nhau Trên mỗi tập dữ liệu con

này, lấy ngẫu nhiên một lượng cố định thuộc tính, thường gọi là mtry để xây dựng cây Mỗi cây hồi quy được xây dựng

không cắt nhánh với chiều cao tối đa Việc lấy hai lần ngẫu nhiên cả mẫu và thuộc tính đã tạo ra các tập dữ liệu con khác nhau giúp RF giảm độ dao động (variance) của mô hình học

1 Dự đoán bằng rừng ngẫu nhiên hồi quy

Việc xây dựng rừng ngẫu nhiên hồi quy và dự đoán mẫu mới được mô tả như sau Đặt Θ là tập gồm K các véctơ tham số ngẫu nhiên cho rừng được sinh ra từ , trong đó là một véctơ tham số ngẫu nhiên để xác định độ lớn của cây thứ trong rừng k 1 K Gọi là tập dữ liệu thứ sinh ra từ dùng kỹ thuật bootstrap, trong mỗi cây hồi quy từ , ta tính trọng số dương , cho từng mẫu ∈ Đặt , , là nút lá trong cây Mẫu ∈ , , được gán cùng một trọng số , 1/ , trong đó là số các mẫu trong , , Trong trường hợp này, tất cả các mẫu trong được gán trọng số dương và các mẫu không trong được gán bằng 0 Với một cây hồi quy , khi có giá trị thử nghiệm thì giá trị dự đoán tương ứng:

Trọng số được tính bởi rừng ngẫu nhiên là giá trị trung bình của các trọng số dự đoán của tất cả các cây trong rừng Công thức tính như sau:

Cuối cùng, giá trị dự đoán của rừng ngẫu nhiên hồi quy được cho bởi:

2 Độ đo sự quan trọng của thuộc tính

Khi cây hồi quy phân chia tập dữ liệu đầu vào thành các vùng không giao nhau (theo hàng), giá trị dự đoán là giá trị trung bình được gán vào các vùng tương ứng (lá của cây) Tại mỗi bước tính toán để tách nút , theo công thức (12) tất cả các giá trị của mỗi thuộc tính được xét để tìm điểm tách khi đạt độ giảm hỗn tạp (impurity) Δ , là lớn nhất Do đó, trong quá trình xây dựng cây hồi quy, việc giảm sự hỗn tạp trên từng thuộc tính cụ thể được dùng để tính độ đo sự quan trọng của thuộc tính khi dùng mô hình cây [5]

Với mô hình rừng ngẫu nhiên, độ đo sự quan trọng của thuộc tính được tính bằng cách lấy giá trị trung bình của tất cả các độ đo của các cây hồi quy độc lập Có một điểm lợi trong việc tính độ đo sự quan trọng của thuộc tính dùng mô hình rừng ngẫu nhiên là độ đo của các biến có tương tác lẫn nhau đều được xem xét một cách tự động, điều này khác hẳn với những phương pháp tính tương quan tuyến tính như Kendall, Pearson Độ đo sự quan trọng của thuộc tính còn được tính theo cách khác dùng phương pháp lặp hoán vị [13], [14] cho kết quả chính xác hơn, tuy nhiên thời gian tính toán lâu hơn do chạy nhiều lần rừng ngẫu nhiên trên tập dữ liệu mở rộng cỡ 2M chứa các biến giả

Gọi , lần lượt là độ đo sự quan trọng của thuộc tính X j trong một cây hồi quy Tk(k=1 K) và trong một rừng ngẫu nhiên Từ công thức (12), ta tính độ đo sự quan trọng của Xj từ cây hồi quy độc lập như sau:

và từ rừng ngẫu nhiên là:

G Boosting

Mô hình boosting [6], [7] ban đầu được phát triển xử lý bài toán phân lớp sau đó được mở rộng cho bài toán hồi

quy Trong mục này, kỹ thuật điển hình của boosting là AdaBoost (Adaptive Boost) được trình bày vắn tắt, sau đó mô

hình boosting của Friedman với hàm cơ sở là cây hồi quy được áp dụng xử lý bài toán dự đoán sự hài lòng của các hộ dân dùng nước tưới tiêu

Trang 6

Nguyễn Thanh Tùng 249 Adaboost là một bộ phân loại mạnh phi tuyến dựa trên hướng tiếp cận boosting được Freund và Schapire đưa ra vào năm 1996 xử lý bài toán phân lớp nhị phân [8] Adaboost hoạt động trên nguyên tắc kết hợp tuyến tính các phân loại yếu để hình thành một phân loại mạnh Để có thể kết hợp các bộ phân loại yếu, adaboost sử dụng một trọng số (weight) để đánh dấu các mẫu khó nhận dạng Trong quá trình huấn luyện, cứ mỗi phân loại yếu được xây dựng, thuật toán sẽ tiến hành cập nhật lại trọng số để chuẩn bị cho việc xây dựng phân loại yếu tiếp theo: tăng trọng số của các mẫu

bị nhận dạng sai và giảm trọng số của các mẫu được nhận dạng đúng bởi phân loại yếu vừa xây dựng Bằng cách này, các phân loại yếu sau có thể tập trung vào các mẫu mà các phân loại yếu trước đó chưa thực hiện tốt Sau cùng các phân loại yếu sẽ được kết hợp tùy theo mức độ ‘tốt’ của chúng để tạo nên một phân loại mạnh

Các bước thực hiện thuật toán AdaBoost như sau:

- Khởi tạo trọng số ban đầu cho tất cả các mẫu: với m là số mẫu đúng (ứng với các mẫu có nhãn Y = 1) và l

là số mẫu sai (có nhãn tương ứng Y = -1)

, 1

2 ,

1 2

(22)

- Xây dựng T các phân loại yếu Lặp t = 1, …, T

• Với mỗi mẫu trong , xây dựng một phân loại yếu hj với ngưỡng θj và lỗi εj

(23)

• Chọn ra hj với εj nhỏ nhất, ta được : → 1, 1

• Cập nhật lại trọng số:

, ,

(24)

và hệ số dùng để đưa về đoạn [0,1] (normalization factor)

- Phân loại mạnh được xây dựng :

(26) Friedman [9] đề xuất mô hình máy boosting dùng hàm học cơ sở là cây quyết định xử lý được cả bài toán phân lớp và hồi quy Ý tưởng chính khi xây dựng mô hình hồi quy như sau: Mô hình học ban đầu khởi tạo với cây hồi quy

và hàm lỗi cho trước (thường dùng hàm lỗi bình phương), giải thuật tìm mô hình cực tiểu hóa lỗi hồi quy Bước đầu tiên, giải thuật dự đoán biến đầu ra i bằng cách lấy giá trị trung bình các biến quan sát được Yi Tiếp theo lặp lại K lần (số cây hồi quy K là tham số của mô hình) để thực hiện: (i) Tính toán phần dư và xây dựng mô hình cây hồi quy dùng phần dư là biến đích với mục tiêu cực tiểu hóa lỗi (ii) Dự đoán mẫu dùng mô hình cây hồi quy ở bước trước đó (iii) Cập nhật bằng cách thêm các giá trị dự đoán ở lần lặp trước vào các giá trị dự đoán được tạo ra trong bước trước đó Mô hình Boosting dùng cây hồi quy khác rừng ngẫu nhiên khi các cây trong Boosting có đóng góp khác nhau khi đưa ra kết quả dự đoán cuối và cây hồi quy sau được xây dựng phụ thuộc cây trước, ngoài ra chúng được xây dựng với chiều cao biết trước còn ở rừng ngẫu nhiên các cây hồi quy được xây dựng độc lập và không cắt nhánh

III KẾT QUẢ THỰC NGHIỆM

A Mô tả dữ liệu

Dữ liệu dùng trong thực nghiệm được thu thập tại vùng đồng bằng Sông Hồng (tỉnh Thái Bình, Nam Định, Bắc Ninh và Hà Nội) gồm 480 hộ dùng nước (mẫu quan sát) và 05 nhóm tiêu chí sau1:

- Tính hữu hình (Tangibility) gồm 7 biến quan sát:

ƒ Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước và phân phối nước đến các diện tích cần tưới, tiêu (HH1)

ƒ Các đơn vị cung cấp dành đủ kinh phí cho công tác quản lý, vận hành và bảo dưỡng hệ thống tưới, tiêu (HH2)

ƒ Nhân viên thủy lợi mặc đồng phục đơn vị (HH3)

ƒ Tổ chức cung cấp nước có tài liệu hướng dẫn quản lý vận hành công trình thủy lợi (HH4)

ƒ Hợp đồng cung cấp dịch vụ được trình bày rất dễ hiểu (HH5)

ƒ Các thiết bị của tổ chức cung cấp nước có chất lượng tốt (HH6)

1 Phần trong ngoặc viết tắt tên biến dùng cho huấn luyện mô hình hồi quy

Trang 7

250 DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG…

ƒ Việc duy tu, bảo dưỡng hệ thống tưới được thực hiện đều đặn và khi cần (HH7)

- Độ tin cậy (Reliability) gồm 4 biến quan sát:

ƒ Đơn vị cung cấp dịch vụ tưới, tiêu giới thiệu đầy đủ nội dung hợp đồng với tổ chức cung cấp nước cũng như các kỹ thuật và cách sử dụng khi ông bà muốn đăng ký sử dụng (STC1)

ƒ Tổ chức cung cấp nước thực hiện đúng dịch vụ tưới tiêu như hợp đồng (STC2)

ƒ Tổ chức cung cấp nước xử lý sự cố ngay khi công trình hư hỏng, xuống cấp (STC3)

ƒ Từ năm 2008 đến nay tổ chức cung cấp nước không để xảy ra bất kỳ sai sót nào khi tính chi phí hàng tháng (STC4)

- Độ đáp ứng (Responsiveness) gồm 9 biến quan sát

ƒ Nhân viên thủy lợi cho ông bà biết khi nào thực hiện dịch vụ tưới tiêu (DDU1)

ƒ Nhân viên thủy lợi nhanh chóng thực hiện dịch vụ cho ông bà (DDU2)

ƒ Tổ chức cung cấp nước thực hiện đúng lịch cấp nước (DDU3)

ƒ Tổ chức cung cấp nước cung cấp tối đa khả năng cấp nước (DDU4)

ƒ Khối lượng nước cấp đáp ứng tốt nhu cầu theo từng giai đoạn sinh trưởng, phát triển của cây trồng (DDU5)

ƒ Nhân viên thủy lợi cung cấp luôn luôn sẵn sàng đáp ứng yêu cầu của ông bà (DDU6)

ƒ Chất lượng nước tưới được đảm bảo (DDU7)

ƒ Thời gian khắc phục hư hỏng nhanh chóng (DDU8)

ƒ Ông bà không bao giờ phải lặp lại các khiếu nại trước (DDU9)

- Sự đảm bảo (Assurance) gồm 7 biến quan sát:

ƒ Cách cư xử của nhân viên gây niềm tin cho ông bà (SBD1)

ƒ Ông bà cảm thấy rất an toàn khi giao dịch với tổ chức cung cấp nước (SBD2)

ƒ Nhân viên thủy lợi có đủ hiểu biết để trả lời tất cả các câu hỏi của ông bà liên quan đến hệ thống tưới, tiêu (SBD3)

ƒ Nhân viên thủy lợi của tổ chức cung cấp nước luôn luôn niềm nở với ông bà (SBD4)

ƒ Thời gian phân phối nước tới các thửa ruộng luôn luôn đủ nước trong mỗi đợt tưới (SBD5)

ƒ Từ năm 2008 đến nay nhân viên thủy lợi trả lời được tất cả các thắc mắc của ông bà liên quan đến số tiền ông

bà trả trong tháng (SBD6)

ƒ Nhân viên thủy lợi rất nhanh khắc phục khi hệ thống tưới, tiêu có sự cố (SBD7)

- Sự đồng cảm (Empathy) gồm 7 biến quan sát:

ƒ Nhân viên kỹ thuật thủy lợi luôn làm việc vào những giờ thuận tiện cho ông bà (SDC1)

ƒ Không có bất cứ ai ở Tổ chức cung cấp nước quan tâm đến những bức xúc của ông bà về dịch vụ tưới, tiêu (SDC2)

ƒ Lịch phân phối nước rất thuận tiện theo giờ sản xuất của gia đình ông bà (SDC3)

ƒ Ông bà được quan tâm và chú ý mỗi khi thắc mắc về dịch vụ tưới, tiêu (SDC4)

ƒ Tổ chức cung cấp nước điều chỉnh lịch tưới phù hợp với sự thay đổi của thời tiết (SDC5)

ƒ Nhân viên của tổ chức cung cấp nước luôn hiểu rõ những nhu cầu của ông bà (SDC6)

ƒ Đơn vị cung cấp lấy lợi ích của ông bà là mục tiêu phát triển bền vững của họ (SDC7)

Biến đích đo sự hài lòng (SHL) của các hộ dùng nước có giá trị kiểu thập phân, SHL ∈ [0.0, 10.0], giá trị càng cao càng phản ánh sự hài lòng về chất lượng dịch vụ tưới tiêu Các tiêu chí đo lường chất lượng dịch vụ ở trên được lấy theo mô hình Servqual do Parasuraman và đồng nghiệp [15] đề xuất, phương pháp Cronbach Alpha [2] cũng được dùng để kiểm định độ tin cậy của các biến, tiền xử lý chúng trước khi đưa vào các mô hình hồi quy để huấn luyện

B Tham số mô hình và phương pháp đánh giá

Chúng tôi dùng căn bình phương sai số (Root mean squared RMSE), sai số tuyệt đối (mean absolute

error-MAE) và hệ số xác định bội (coefficient of determination) R2 để đánh giá tính hiệu quả của các mô hình hồi quy:

Trong đó: Yi, Y và chỉ giá trị thực, giá trị dự đoán và giá trị trung bình của mẫu thứ i tương ứng Mô hình hồi quy cho kết quả tốt là mô hình đạt được sai số RMSE và MAE nhỏ Giá trị R2 cao là một dấu hiệu cho thấy mối liên hệ giữa các tiêu chí và biến số SHL chặt chẽ Giá trị R2 càng cao cho thấy mô hình sử dụng để phân tích có khả năng giải thích càng tốt các khác biệt về độ hài lòng giữa các hộ dùng nước

Gói phần mềm caret [12] được sử dụng để tiến hành các thực nghiệm trên môi trường R, các mô hình hồi quy

liệt kê ở mục II đều được tích hợp trong gói phần mềm này Từ tập dữ liệu ban đầu gồm 480 mẫu quan sát và 34 tiêu chí, chúng tôi chia làm 2 phần để huấn luyện và kiểm thử mô hình, tập dữ liệu huấn luyện gồm 336 mẫu (70%) và tập

dữ liệu kiểm thử gồm 144 mẫu (30%) Khi xây dựng mô hình hồi quy, chúng tôi sử dụng kỹ thuật kiểm tra chéo 5-folds với 2 lần lặp và dựa trên hàm lỗi RMSE để tìm tham số tối ưu của từng mô hình, sau đó lựa chọn mô hình có RMSE nhỏ nhất với tham số tìm được để dự đoán dữ liệu kiểm thử Kỹ thuật kiểm tra chéo cũng cho phép tính hệ số xác định bội R2 phản ánh khả năng giải thích của từng mô hình hồi quy Các thực nghiệm được tiến hành trên 2 máy phục vụ dùng hệ điều hành Windows Server 2012 64-bit, mỗi máy có cấu hình IntelR XeonR CPU E5-2640 2.5 GHz, 24 cores,

8 MB cache và 128 GB RAM Các mô hình đều được cài đặt song song sử dụng hết 24 cores trên mỗi máy để huấn luyện, tìm tham số tối ưu và các thực nghiệm khác

Trang 8

C

tr

g

L

c

v

m

k

th

tr

th

tr

đ

b

th

th

h

R

p

th

m

K

h

d

t

tr

H

n

n

k

k

Nguyễn Thanh T

C Kết quả dự

Kết quả

rong Bảng 1

gạch dưới, các

Ta có t

LASSO có cải

các mô hình kh

và k láng giền

mô hình máy v

kiểm thử đang

hấp nhất, đây

rong khi thời

hể thấy rõ mô

Bảng 1.

TT

1 Hồi qu

2 Hồi qu

3 K láng

4 Cây hồ

5 Mạng

6 Máy v

7 Rừng

8 Boosti

Hình 3

rên tập huấn

được sắp xếp

biệt về độ hài

hấy mô hình r

hích khoảng 9

hộ dùng nước

R2=92.445% v

phương pháp c

hích của mô

mô hình hồi qu

Kết quả trên ch

hiệu quả cao n

dữ liệu kiểm th

ốt nhất

Kết quả

rên RMSE so

Hình 4 Đườn

ngang nhau th

ngang lệch san

kẻ ngang có độ

kẻ ngang sẽ ké

Tùng

ự đoán độ hài

ả các mô hình

Ở 3 cột R2, R

c kết quả tốt th

thể dễ dàng n

i thiện khả nă

hác Các mô h

g có kết quả d

véctơ hỗ trợ h

g tiến hành thự

y là phương p

gian tính toán

ô hình rừng ng

Kết quả của c

Mô hình hồi

uy tuyến tính (

uy LASSO

g giềng (KNN

ồi quy (CART

nơ ron nhân t

véctơ hỗ trợ (S

ngẫu nhiên (R

ing

hiển thị kết q

luyện (336 m

giảm dần the

i lòng giữa cá

rừng ngẫu nhi

93% các khác

tưới tiêu, theo

và SVR đạt

cây hồi quy có

hình cây hồi

uy tuyến tính

ho thấy mô hì

nhất dựa vào lỗ

hử và khả năn

ả huấn luyện c

o sánh theo t

g kẻ dọc (mố

hì tâm đường t

ng trái so với

ộ dài ngắn (ví

éo dài (chẳng h

i lòng về chất

h hồi quy dự RMSE và MA

hứ nhì và thứ b nhận thấy mô ăng dự đoán h hình hồi quy p

dự đoán với lỗ hồi quy và mô

ực nghiệm K pháp hồi quy p

n nhanh Tuy n gẫu nhiên dự đ

các mô hình hồi

i quy

(LM) N) T) tạo (ANN) SVR) RF)

quả của các m mẫu) dựa trên

eo khả năng g

ác hộ dùng n iên cho kết qu biệt về độ hà

o sát là mô hì

R2=92.444%

ó R2 thấp nhất quy khoảng nhiều biến có ình rừng ngẫu

ỗi dự đoán thấ

ng giải thích m

của các mô hìn từng cặp đượ

ốc 0.0) được d thằng nằm ng mốc, ngược lạ

í dụ LM-LASS hạn LM-KNN

lượng dịch vụ

đoán độ hài l

AE kết quả dự

ba được in vớ hình hồi quy hơn so với mô phi tuyến tỏ rõ

ỗi hồi quy nhỏ

ô hình boosting Kết quả trình b phi tuyến khá nhiên, xét khả đoán chính xác

i quy dự đoán đ

Th

Mặc định

λ= 0.01

k = 1 Complexity p Trọng số phâ RBF, σ = 0.0 mtry = 9 và K

K = 500, in shrinkage = 0

mô hình hồi qu

n giá trị R2 v giải thích khá nước Chúng t

uả tốt nhất, giả

ài lòng giữa cá

nh boosting c Xếp cuối l

t, khả năng giả 85% kém hơ

ó R2=87.481%

nhiên luôn đạ

ấp nhất trên tậ

mô hình với R

nh hồi quy dự

ợc trình bày dùng để làm m gang sẽ trùng v

ại sẽ lệch sang SO), ngược lạ N)

Hình 3.

ụ tưới tiêu

lòng của các h

ự đoán với R2

i số lượng dấu

y tuyến tính n hình tuyến tín

õ ưu thế hơn,

ỏ Mô hình câ

g có kết quả d bày ở Bảng 1

á hiệu quả, mô

ả năng dự đoá

c nhất

độ hài lòng về c

ham số tối ưu

parameter (cp

ân rã=0.1 và số

032, ε=0.1 và C K=1000 nteraction.dep 0.1

uy

ác

ta

ải

ác

ó

ải

ơn

%

ạt

ập

R2

ựa

ở mốc so sánh, k với mốc Nếu

g phải Khi ha

ại nếu mô hình

So sánh các mô

the

hộ dùng nước cao nhất và lỗ

u (**) và (***

nhiều biến có

nh nhiều biến

cụ thể như rừn

y hồi quy cho

dự đoán chỉ hơ cũng cho thấ

ô hình có khả

án của các mô

chất lượng dịch

u

)=0

ố nơ-ron=9

C = 32 pth = 7 và

khi hai mô hì

mô hình ở vị

ai mô hình hơn

h hồi quy nổi

ô hình hồi quy d

eo hệ số xác địn

c về dịch vụ t

ỗi dự đoán th ) tương ứng

kết quả dự đ

n nhưng kết qu ừng ngẫu nhiên

o kết quả kém

ơn mô hình tu

ấy mô hình k

ả năng dự đoá

ô hình hồi quy

vụ tưới tiêu trê

R 2

0.839 0.844

**0.894 0.835

***0.892 * 0.852

0.902

0.873

ình hồi quy c

ị trí bên trái tố

ơn kém nhau k trội hơn hẳn v

dựa trên kết quả

nh bội R 2

tưới tiêu được hấp nhất được

đoán kém nhấ

uả kiểm thử v

n, mạng nơ-ro

m nhất theo R2 uyến tính trên láng giềng đạ

án đạt độ chín

y liệt kê tại Bả

ên dữ liệu kiểm

RMSE

0.267 0.263

**0.216 0.272

***0.218 0.255

0.208 * 0.237

ó lỗi huấn luy

ốt hơn thì tâm không đáng kể

về lỗi dự đoán

251

ả huấn luyện

c trình bày

in đậm và

t, mô hình vẫn kém xa

on nhân tạo

và RMSE, tập dữ liệu

ạt lỗi MAE

nh xác cao ảng 1, ta có

thử

MAE

0.167 0.163

0.085

0.156

**0.106 0.143

***0.107 0.119

yện RMSE

m đường kẻ

ể thì đường

n thì đường

Trang 9

v

c

c

đ

V

q

x

0

đ

c

th

h

h

th

(

c

t

n

n

đ

đ

c

v

n

252

Hình 5

với giá trị tươ

chí có tương q

cỡ hình tròn v

đồ là giá trị tư

Với những tiêu

quan hệ với n

xanh nhạt và m

0) Ta nhận th

đến dịch vụ t

chẳng hạn HH

hống tưới tiêu

hư hỏng nhanh

hiểu là sự cố c

huộc lớn vào

SBD7) v.v N

của các tiêu ch

Hình 6

iêu chí được s

này được tính

nhiên Ta thấy

độ quan trọng

đến các diện t

cung cấp nước

vị cung cấp nư

ngay khi công

ứng tốt nhu cầ

Hìn

thể hiện mối

ơng quan tuyệ

quan mạnh vớ

và màu xanh đ

ương quan củ

u chí có tương

nhau sẽ hiển

màu trắng tươ

hấy các tiêu ch

ưới tiêu thườ

H1 và DDU8

u có chất lượn

h chóng (DDU

công trình đượ

o nhân viên th

Những số liệu

hí rất dễ lý giả

6 hiển thị độ

sắp xếp theo c

h theo công

y các tiêu chí

cao, trong đó

tích cần tưới,

c tưới tiêu, hộ

ước, nó bao gồ

g trình hư hỏn

ầu theo từng gi

DỰ ĐOÁN S

nh 4 So sánh l

i quan hệ giữa

ệt đối từ 0 đến

ới nhau thể hiệ đậm (đường ch

ủa tiêu chí vớ

g quan yếu ho thị trên biểu ơng ứng (tươn

hí có ảnh hưở ờng có tương

có thể lý gi

ng tốt (HH1) s U8); STC3 và

ợc xử lý ngay hủy lợi khắc

u trên biểu đồ

ải trong bài toá

đo sự quan t chiều giảm dầ thức (21) từ như HH1, HH

HH1="Các h tiêu" có độ qu

dùng nước qu

ồm những yếu

ng hoặc xuống iai đoạn sinh t

SỰ HÀI LÒNG V

lỗi huấn luyện R

a 34 tiêu chí

n 1 Các tiêu

ện bằng kích héo của biểu

ới chính nó)

oặc không có

đồ với màu

ng quan bằng ởng lẫn nhau quan mạnh, iải là các hệ

sẽ khắc phục SBD7 có thể

y (STC3) phụ phục nhanh

ồ tương quan

án thực tế

trọng của 34

ần, các độ đo

ừ rừng ngẫu H7, STC3 có

hệ thống tưới,

uan trọng cao uan tâm nhất đ

u tố như duy t

g cấp, thực hiệ trưởng và phá

VỀ CHẤT LƯỢNG

RMSE của các m

tiêu có chất lư

nhất Kết quả đến các hệ thố

tu, bảo dưỡng

ện đúng lịch c

t triển của cây

G DỊCH VỤ TƯỚ

Hình 5 Biểu

mô hình hồi quy

ượng tốt, đảm

ả của 3 tiêu ch ống tưới tiêu c được thực hiệ cấp nước, cun

y trồng, chất lư

ỚI TIÊU TẠI ĐỒ

u đồ tương quan

y theo từng cặp

m bảo chuyển n

hí trên có thể

có chất lượng

ện đầy đủ và

ng cấp tối đa k ượng nước đư

ỒNG BẰNG SÔN

n giữa các tiêu

p

nước và phân

lý giải là tro tốt, độ đáp ứn đều đặn, sửa khả năng cấp ược đảm bảo

NG HỒNG…

chí

phối nước

ng dịch vụ

ng của đơn chữa sự cố nước, đáp

Trang 10

c

đ

v

c

l

h

t

m

t

tr

p

h

R

q

c

c

đ

n

r

c

[

[

[

[

[

[

[

[

[

[

[

[

[

[

Nguyễn Thanh T

Cũng tr

cung cấp luôn

độ quan trọng

viên thủy lợi c

của các hộ dùn

òng chung về

hồi quy ngoài

ích và hiển th

ý có thêm thô

ưới tiêu nhằm

Chúng

mức độ hài lò

ưới tiêu tại đồ

ính, LASSO,

rợ hồi quy, rừ

phân tích và so

hộ dùng nước

RMSE và MA

quy tuyến tính

cao, các mô hì

cho kết quả dự

độ đo sự quan

nắm bắt thông

rộng cho các b

Xin cảm

cấp tài liệu và

1] Christoph

2] J Martin

3] Leo Breim

4] Leo Breim

5] Leo Brei

CRC pres

6] Yoav Fre

Artificial

7] Yoav Fre

Behavior

8] Yoav Fre

148–156,

9] Jerome H

1189–123

10] Trevor H

statistica

11] Peter J H

12] Max Kuh

13] Thanh Tu

data class

S5, 2015

14] Thanh Tu

correction

Tùng

rong hình 6, ti

luôn sẵn sàn

g thấp nhất Đ

có hoặc khôn

ng nước cũng

ề chất lượng d

khả năng dự đ

hị trực quan cá

ông tin để đầu

m đáp ứng cao

IV K

tôi đã trình b

ng của các hộ

ồng bằng Sông

cây hồi quy, k

ừng ngẫu nhiê

o sánh với nh

c tưới tiêu dự

AE Kết quả th

h tuy dễ cài đặ

ình phi tuyến t

ự đoán chính x

n trọng của cá

g tin cần thiết đ

bài toán kinh t

m ơn thầy Đỗ

số liệu thử ng

her M Bishop

n Bland, Dougl

man Bagging

man Random

iman, Jerome

ss, 1984

eund, Robert

l Intelligence,

eund and Robe

r, 29(1):79–10

eund, Robert E

, 1996

H Friedman G

32, 2001

Hastie, Robert

l learning, vo

Huber Robust

hn Building p

ung Nguyen, J

sification and

ung Nguyen,

n in range pre

iêu chí DDU6

ng đáp ứng yê

Điều này cũng

ng đáp ứng nh không ảnh hư dịch vụ tưới tiê đoán còn trợ g

ác tiêu chí đán

u tư, nâng cấ

độ hài lòng củ

KẾT LUẬN

bày các mô h

ộ dùng nước l

g Hồng Các m

k láng giềng, m

ên và boosting

au khi dự đoá

ựa trên phươn hực nghiệm c

ặt và dễ sử dụ

tỏ ra vượt trội xác nhất và kh

ác tiêu chí cũn

để nâng cấp d

ế và những bà

Văn Quang, ghiệm

p et al Neural las G Altman

g predictors M

m forests Mach

Friedman, C

Schapire, an 14(771-780):

ert E Schapir

03, 1999

E Schapire, e Greedy functi

t Tibshirani, J lume 2 Sprin

statistics Spr

predictive mod Joshua Z Hua snps selection

Joshua Z Hu

ediction Mach

6="Nhân viên

êu cầu của ông

g dễ lý giải k hững yêu cầu ưởng nhiều đế

êu Như vậy, giúp người dù

nh giá, giúp n

ấp chất lượng

ủa người dân

hình hồi quy liên quan đến

mô hình hồi qu mạng nơron, v

g đã được ngh

án độ hài lòng

ng pháp đánh cho thấy mô h ụng nhưng lỗi

i hơn và khả n

hả năng giải t

ng được tính t dịch vụ tưới tiê

ài toán liên qu

V L

Phó trưởng K

VI TÀI L

networks for

n, et al Statisti

Machine learni hine learning,

Charles J Ston

d N Abe A

1612, 1999

re Adaptive g

et al Experime ion approxim

Jerome Friedm nger, 2009

ringer, 2011

dels in r using ang, Qingyao

n using two-st

uang, and Th

hine Learning

thủy lợi

g bà" có

khi nhân

cá nhân

ến sự hài

mô hình ùng phân nhà quản dịch vụ

dự đoán dịch vụ

uy tuyến véctơ hỗ hiên cứu,

g của các giá R2, hình hồi

dự đoán năng dự đoán c thích khác biệ toán từ rừng n

êu Trong tươn uan đến dự đoá

LỜI CẢM ƠN

Khoa kinh tế v

IỆU THAM K

pattern recogn ics notes: Cron

ing, 24(2):123

, 45(1):5–32, 2

ne, and Richar short introdu ame playing u ents with a ne mation: a gradi man, T Hastie

the caret pack

Wu, Thuy T

tage quality-b

huy Thi Nguy , pages 1–19,

Hình 6

chính xác hơn

t về biến đích ngẫu nhiên và

ng lai, chúng t

án với số chiều

N

và quản lý-Trư

KHẢO

nition 1995

nbach’s alpha 3–140, 1996

2001

rd A Olshen

uction to boo using multipli

ew boosting al ient boosting

e, J Friedman

kage Journal

Nguyen, and ased random f

yen Two-leve

2014

6 Độ đo sự qua

n, đặc biệt là m

h giữa các qua

à hiển thị trực tôi sẽ áp dụng

u cao ở Việt N ường Đại học

a Bmj, 314(70

Classificatio osting Journa

cative weight

lgorithm In I machine Ann

n, and R Tibs

of Statistical

Mark J Li G

forests BMC

el quantile reg

an trọng của cá

mô hình rừng n

an sát tốt nhất

c quan giúp n

g kết quả nghi Nam

Thủy lợi đã h

080):572, 1997

on and regres al-Japanese S

ts Games and ICML, volume nals of Statis shirani The e

Software, 28(

Genome-wide a

Genomics, 16

gression fores

253

c tiêu chí.

ngẫu nhiên Ngoài ra,

hà quản lý

ên cứu mở

hỗ trợ cung

7

sion trees ociety For

d Economic

e 96, pages

tics, pages elements of

5):1–26, 2008 association 6(Suppl 2):

ts for bias

8

Ngày đăng: 19/05/2021, 17:04

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm