Những ứu điền oà hạn chế của để liệu dọc 3 Hai thuận lại quan trọng, đó là khi làm việc với dữ liệu dục thĩ cá khả năng nghiên cứu được các mỗi quan hệ động lực học và mô hình hốa đượ
Trang 1DẠI HỌC QUỐC GIA IIÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
ĐÀO THỊ AN
THU NGHIEM PHAN TÍCH DỮ LIỆU
KINH TẾ - XÃ HỘI VIỆT NAM
BANG THONG KÊ TOÁN HỌC
LUAN VAN THACG ST KHOA HOC
TIà Nội - 2013
Trang 2DẠI HỌC QUỐC GIA IIÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
ĐÀO THỊ AN
THU NGHIEM PHAN TÍCH DỮ LIỆU
KINH TẾ - XÃ HỘI VIỆT NAM
BANG THONG KÊ TOÁN HỌC
Chuyên ngành: Lý thuyết Xác suất và Thống kế Tuần học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ KHOA TIỌC
NGƯỜI HƯỚNG DAN KHOA HOG
PGS.TS.HO DANG PHÚC
lia Ngi - 2013
Trang 3Dank mac cúc kí kiểu
Danh mục các kí hiệu
dấp ứng của dỗi tượng thứ i, tại thời diễm L
vectơ các biển giải thích cha đổi tượng thứ ¡, tại thời điểm t tham số đặc trưng cho đối Lượng thứ í
tham số tổng thé
thành phần sai số.
Trang 41.1.2 Định nghĩa dữ liệu dọc và dữ liệu khổi
Những tru điểm và lan chế của đữ liệu dọc 1/21 Mối quan hệ động lực học và phần tích chuối thời gián 1.2.2 Dữ liệu đọc với chuỗi thời gian do lặp
1.2.3 Dữ liệu dọc với mặt cắt ngang lặp
Mô hình hiệu quã ngẫu nhiên
3 1 MG hinh cae thành phần sai lệch
2.11 Mũ bình cơ bân và giả thiết
2.12 Ước lượng bình phương nhỏ nhất tổng quất
Trang 5
2.2.1 Mô hình hiệu quả hỗn hẹp tuyến tính 1g 2.2.2 Mô hình tuyến tính hỗn hợp 21
23 Các kết luận về hệ số hỗi quy 22
2.3.1 Ước lượng bình phương nhỏ nhất tổng quét (GLS) 22
2.4.2 Udée lugng hop ly euc dai gidi han (REML) 26
Trang 7đời nới đầu vi
LGI NOI DAU
“Thống kê là một bộ phận quan trọng của chuyên ngành Xác suất Thống
a, OA,
kế, Phan hich thong ké TA néu ora mdf cach dng hdp béar chit en ube
hiện tượng và quá trình kinh tế xã hội trong điều kiện lịch sứ nhất định qua
biểu hiện bằng số lượng Nói œụ thé phân tích thống kê là xác định mức độ nêu
lên sự biến động biểu hiện tính chất và trình độ chặt chẽ của mối liên hệ hiện
tượng Phân tích thông kê phải lấy con số thống kê làm tư liệu, lấy các phương pháp thống kê làm công cụ nghiên cứu
Phân tích thống kê có ý nghĩa quan trọng trong quá trình quản lý kinh tế
Nhớ có lý luận và phương pháp phong phú mà thống kề có thế vạch ra nguyễn nhân của việc hoàn thành kế hoạch và các quyết định quản lý : phần tích ảnh
hưởng của các nhân tố đến việc sử dụng nguằn lực, xác định các mối liên hệ,
các tính quy luật chung của hệ thống
‘Vrong phain vi bài luận văn này, học viên sử dụng dữ liệu do 'Tổng cục
“Thống kế biên soan thuộc các ngành Nông - Làm - Ngữ nghiệp, Công nghiệp, Giao thông Vận tải & Bưu chính Viễn thông, Thương mại & Dịch vụ, Dân số
dé tap trung phần tích thử nghiệm sự phụ thuộc của hai yéu té Binh quan mức
bán lâ hàng hóa & đoanh thu dịch vụ tiêu dùng và Bình quản số thuế bao điện
thoại dược sử đụng vào các yêu tố kinh tế khác Luận văn được chia thành bến
chương:
Chương 1: Đưa ra các khái niệm vẻ dữ liệu dọc, dữ liệu khối, tính không đồng
nhất giữa các dối lượng quan sất, mũ hình hiện quả cố dịnh vã các phiưng, phấp đức lượng, các thanh sỐ
Chương 2: Giái thiệu mô hình hiện quả hỗn hợp cùng các kết quả ước lượng các tham số cỗ định, ngẫu nhiên, dự đoán các giá trị quan sát tương lai
Chương 3: Giới thiệu mô hình nhiễu mức
Chương 4: Ap dụng mô hình nhiều mức để phân tích thử nghiệm một số yếu
tố kinh tế của nước ta
Trang 8thập thông tin được định lượng, tức là thông tin này được chuyển về thang số
Có nhiều phương pháp để phân tích dữ hiệu bằng việc sử dụng phương pháp số
hay tóm lược đồ thị, Khi đó người ta có thể liên kết các phương pháp này với
một lý thuyết biển điễn hay mặt mũ hình mã thông quá đó đưa ra dược các
kết luận về thế giới xung quanh
Bước dầu tiền trong việc phân tích dữ Tiệu là chụn ra một đại lượng od bân làm đơn vị cho việc thu thập mẫu Dại lượng đó được gọi là đơn vị phân tích, được biết như đơn vị nghiên cứu hay đơn vị quan sát Trong khoa học xã hội, đơn vị phân tích có thể là một người, uột công ty hay một đơn vị hành chính nào đỏ
Thần tích hỗi quy và phân tích chuỗi thời gian là hai phương pháp quan trong để phan tích đữ liệu Phãn tích hỗi quy là mặt dạng đặc biệt của phân
tích nhiễu chiểu, trong đó các phép do lường dược thực hiện trên từng dỗi tượng Chúng ta xác định một phép đo được gọi là một đáp ưng hay biến phụ
thuộc mà chúng ta quan tâm việc đưa ra các phát biểu về phớp đo này và việc
Trang 91/2 Những ứu điền oà hạn chế của để liệu dọc 2
tượng và quan sát chúng theo thời gian Diều này cho phép chúng ta nghiên
cứu được các mối quan hệ theo thời gian, khía cạnh động lực học của bài toán
1.1.2 Định nghĩa đữ liệu đọc và đữ liệu khối
Định nghĩa 1 Dữ liệu đọc là đữ liệu chứa các quan sát của cùng một loại
thống tin trên một nhóm các đối tượng tại nhiều thời điểm khác nhau
Thăn tích dữ liện dọc là sự kết hợp của phăn tích hồi quy và phản tích chuỗi thời gian Như với nhiễu tập dữ liệu hỏi quy, dữ liệu đọc bao gầm mặt cất ngang của các đối tượng Không giống như dữ liệu hồi quy, với dư liệu dọc chúng ta quan sát các đối tượng theo thời gian Không giỗng như đữ liệu chuỗi
thời gian, với dữ liệu dọc chúng ta quan sát nhiều đối tượng Việc quan sát một mặt cất ngang rộng của các đối tượng theo thời gian cho phép chúng ta
nghiên cửu khía cạnh động hc họp của bãi toần
Định nghĩa 2 Dữ liệu khối là dữ liệu chữa các quan sát của nhiễu loại thông
tin, được theo dõi tại nhiều thời điểm khác nhan của nhóm các đối Lượng
“Thuật ngữ "dữ liệu khối" xuất phát từ việc quan sát các cá thể riêng biệt Một, khối là một nhóm các cá thể được quan sal Bip đi lắp lại theo thời gian Trước đây, đối với nhóm ngành kinh tế, phương pháp dữ liệu khối được sử dung trong ngành kinh tế lao dỡng, Nhưng ngày nay, các ứng dụng của đữ liệu khối
trang kinh tế đã không bị hạn chế và được sử dụng rồng rãi hơn
1.2 Những ưu điểm và hạn chế của dữ liệu dọc
® Un điểm: Có một, vài thuận di của dữ liệu dọc so với dữ liện cất ngàng và
dữ liện chuỗi thời gian Trong chương giới thiên này, chúng ta thân luận
Trang 101/2 Những ứu điền oà hạn chế của để liệu dọc 3
Hai thuận lại quan trọng, đó là khi làm việc với dữ liệu dục thĩ cá khả
năng nghiên cứu được các mỗi quan hệ động lực học và mô hình hốa được
sự khác biệt hay tính không đồng nhất giữa các đối tượng,
Hạn chế: dữ liệu dọc phức tạp hơn dữ liệu cắt ngàng hay dữ liệu chuỗi thời gian và hạn chế quan trọng nhất dõ là khó khăn trong việc xãy dựng
mõ hình mẫu để đơn giản vấn đề của các đổi tượng,
142.1 Mất quan hệ động lực học và phãn tích chuỗi thời gian
đối tượng khác nhan Nhưng dù một chiêu hay nhiều chiều thì phân tích chuỗi thời gian vẫn đời hỏi phải có một sở quan sát để đưa ra các kết luận đáng tin cậy Ví dụ, đối với một dãy đữ liệu kinh tế hàng năm với 30 quan sát, việc sử dụng phần tích chuối Vhời gián có nghĩa lR chúng ta sit dung cing mit ind Minh
đề biến diễn một hệ thống kinh tế với chu kì thời gian là 30 năm
1.2.2 Dữ liệu dọc với chuỗi thời gian đo lặp
Với dữ liệu dọc, chúng va sử dụng nhiều quan sát của một số đối tượng Các quan sát lặp đi lặp lại từ cùng một đối tượng thì sẽ tương quan, Một cách để biển điễn mỗi tưởng quan này là Hiông qua mồ hình đồng lực học, có dạng nhất
san:
wr — Pu + sa t-1 Qe Ty E— 1,9m,
trong đồ s biểu diễn dộ lạch cña đấp ứng so với trung bình của nó Kí hiệu
E biểu điển kì vạng của đáp ứng yy Mét cách trực giác, nếu có mã hình động
học chung cho các đối tượng thì bằng việc quan sát raô hình này trên nhiều đối tượng, chúng ta hi vọng sẽ ước lượng được mô hình với các quan sát chuỗi
Trang 111/2 Những ứu điền oà hạn chế của để liệu dọc 4
thời gian ngắn hơn
Đôi với nhiều tập dữ liệu, các đối tượng không cá trung bình đằng nhất Và kì
vọng này được biển điễn bằng phép xắp xỉ bậc nhất cña một tổ hợp tuyển tinh
các biễn giải thích sao cho
Ly —a +248,
ở đây, z¡ là một vectd các biển giải thích, hay các biển độc lập
1.2.3 Dữ liệu dọc với mặt cắt ngang lặp
Dĩ liệu đục dược eới như đữ liệu cất ngang lấp đi lắp lại, bỗ qua thông tin riêng
của cá thể được theo dõi theo thời gian Có nhiều cuộc diều tra quan trọng với
đữ liệu được thu thập lặp lại mà các đối tượng điều tra không được theo dõi theo thời gian Các cuộc điều tra như vậy rất hữu dụng cho việc hiểu được sự thay đối tổng hợp của, một, biển theo thấi gián, Thy nhiền nếu quan tầm bối
việc nghiên cửu các đặc trưng kính tế, nhân khẩu học bày các đặc Lrimp, xã hội
của cá nhãn về vẫn đề ly hön thì việc theo dõi các cá nhãn theo thời gian sẽ c6 nhiễu thông tin hơn việc sử dụng dữ liệu cất ngang lặp lại
1.2.4 Tĩnh khõng thuần nhất
Hằng việc thao dõi các đối tượng theo thời gian, chúng ta có thể mô hình hóa
được trạng thái của đối tượng Trong nhiều tập dữ liện, các đãi tượng thường
không giống nhau, có nghĩa là không thuẩn nhất lrong phân tích hổi quy cắt
ngàng, chúng tá sử dụng các mô hình, ví dụ như
1g = Œ + Thổ + cụ,
và gắn tính không duy nhất của các đổi tượng với số hạng nhiễu z¡, Ngược lại,
với dữ liệu dọc, chúng ta ed co hoi để mũ hình hóa tính không thuần nhất này
Mã tình dữ liện dục củ bắn hulp chat chẽ tính không thuần nhất giữa các đối tượng có dạng
Trang 121/2 Những ứu điền oà hạn chế của để liệu dọc 5
lượng Ø và œ,da,-:-, x„ Mặt khác, việc gán các tham số đặc trưng đối tượng
a¡ vào mồ hình đã đưa ra một quy tắc quan trọng để kiểm soát tính không
thuần nhất của các cá thế Các mô hình liên kết tính không đồng nhất như
phương trình trên, được gọi là :nô hành không thuần nhất: trường hợp ngược
lại được gợi là rnê lành thuần nhất,
Chẳng La cũng có thể giải thích tính không thuần nhẤt giữa các đối Lượng
theo nghĩa: các quan sắt trên cùng một đãi tượng thì tương đồng với nhau hơn các quan sắt uừ các đối tượng khác Dựa trên giải thích này, tính khãng thuần nhất có thể được mô hình hóa bằng việc kiếm tra sự tương quan giữa các quan
sát lặp đi lặp lại trên một đối tượng Có nghĩa là, đối với nhiều tập dữ liệu,
chúng ta đi tìm mỗi tương quan dương khi kiểm tra {0¡, Mựo - ,W7,}
C6 hai phường pháp dé md hinh héa cho đại lượng biểu diễn tính không thuần nhất giữa các déi tatung, a; © chương 3, chúng ta sẽ dì khảo sát mội,
phương pháp, trong đó các a; là những tham số cố định, chưa biết và cần được ước lượng Chương 3 sẻ giới thiệu phương pháp thứ hai, trong đó các œ, là những biến ngẫu nhiên, được chọn từ một tổng thể nào đó chưa biết Trong trường hợp này, phương trình (1.2.1) có thể được biểu diễn như sau
Eui|ai) = 4 + 23,8
Phương trình này mô tả mô hình với các hiệu quả ngẫu nhiên, đặc trưng bởi
các tham số ay,
1.2.5 Một vài khái niệm khác
Các mẽ hình dữ liệu đọe đồi khi khác với đữ liệu hồi quy và dữ liệu chuỗi thời
gian thông qua chỉ số kép của chúng Chúng ta có thể phân biệt giữa các đáp
ứng bằng các đối tượng và thời gian Dịnh nghĩa „ là đáp ứng cho đối tượng
thứ ¡ ở giai đoạn thời gian + Một tập dữ liệu dọc bao gồm các quan sát của
Trang 13đã Mô hành hiệu quả cỗ định 6
dỗi tượng thứ ì tại le giai doạn thời gian f — 1,2, -, T) chủ kĩ thời gian, với
t= 1,2,3, - n Như vậy, chúng ta quan sát được
đối tượng đầu tiên — {ti, a, ' :7};
dối tượng thứ hai — {Ma, 1s, ©*+ ; a7},
đối tượng thứ n — {Hmi, Maa, '*- ; MaT, E-
Với nhiều tập dữ liệu, người ta thường lấy số quan sát phụ thuộc vào từng đói
tượng, ? kí k u số quan sát cho đối tượng thứ ¡ Trường hợp này được biết như tập đữ liệu không cầm bằng Đỗi vữi các tập dữ Tiện kháu, mọi đỗi tượng đều có số quan sát như nhau thì được biết như tập dữ liệu cẩn bằng,
Dịnh nghĩa 3 (Tương quan chuỗi) Tương quan chuỗi là sự tương quan giữa
các quan sát được đo lặp ởi lặp lại theo thời gian trên cùng một đối tượng,
Định nghĩa 4 (Tương quan cất ngang) Tương quan cắt ngang là sự tương quan giữa các đối tượng dược quan sắt theo khöng gian
1.3 Mö hình hiệu quả cỗ định
Phần này giới thiệu vẻ việc phân tích dữ liệu dọc và dữ liệu khối bằng việc sử dụng khung mồ lình Luyễn tính tổng quất Ở đấy, mô hình đĩ liệu đọc được
coi như một bài toán hồi quy bằng việc sử dụng các tham số cố định để biểu
diễn tính không thuần nhất siữa các đối tượng, các đại lượng phi ngẫu nhiên được biết như những hiệu quả có định
1.8.1 Mô hình hiệu quả cố định cơ bản
Xót một r ngẫn nhiều gồm n đỗi Lượng, mỗi đối tượng là một, đơn vị quan sal, duce phiin biệt vái nhan bởi chữ gỗ ¿ với ¿ — 1,9, <‹+ , Mỗi đối Lượng cũ
Trang 14¬
đã Mô hành hiệu quả cỗ định
là đáp ứng của đối tượng thứ ¡ tại thời điểm quan sát È Ứng với mỗi đáp ứng
yy la mol tap K bién giải khích {#w,, #a2, - - + ,£á,£}, Chúng ta kí hiệu tap các
{tines teaver, hay (ty, yi)
Các đáp ứng biến đổi theo từng đối tượng với chỉ số 7 Dãy là trường hợp mô
hình không cân bằng Chúng ta kí hiệu 7'= max[7\, Ÿà, - 7a} là số đáp ứng
lớn nhất cho một đối tượng và trường hợp các 7; = 7 với mọi ¡ thì đây được
trình này cũng là tuyến tính đối với các biến
Trang 15Äô hành hiệu quả có dink 8
Co giả thiết của mô hình hồi quy tuyến tính quan sắt được
E1 Eụu — œ + đizga + đayna TT ÂN uy
F3 {rờa, sóc ,2w,c} là các biến phi ngẫu nhiên
F3 Vy
FA, {us} la cúc biển ngẫu thiên độc lập
Fõ {wu} có phân bá chuẩn,
Biểu diễn quan gắt được dựa trêu ý tưởng về kì vọng có diều kiện, trong
đó trung bình cña đáp ríng lẫy điền kiện trên tập các hiến giải thích qnan sắt
được {2w1,Tz2, -.##,} Vì vậy, chúng ta coi {Zøw1,Zg2, 2} là các
biến phi ngẫu nhiên Giả thiết '5 không đòi hỏi đối với tất cã các phương pháp kết luận thống kê,
Ngược lại với biểu diễn quan sát được, công thức cổ điển của mô hình hỏi quy
tuyến tĩnh tựa trên các thành phầu gai số Lrong ind Tình hồi quy dược định
nghĩa như sa:
Các giả thiết của mô hình biểu diễn sai số
El ya — a + Bitin, — Goria + + Ba ri,n + cụ nối Few — 0
B2 { tiga} Wa ede biến phí nuẫu nhiên,
BS Varey —
Ed (eu} là các biến ngẫu nhiên độc lập
Biểu diễn sai số được dựa trên lý thuyết về sai số Œiauss Các giả thiếu E1
E4 tương đương vái các giả thiết Fl - F4 Trong giả thiết F1, các hệ số
Trang 16đã Mô hành hiệu quả cỗ định 9
Pi, Ba++ /8 dược gần với Ấ biến giải thích Chúng ta biển diễn K thâm số
này như một vecbd cột với số chiều là K:
Và biểu diễn đầu tiên của chúng ta, sử dụng thông tin trên các phép đo lặp
đi lặp lại trên một đối tượng và chữa các số hạng chặn biến đổi theo từng đối
tượng, cô dạng,
Phương trình (1.3.3) và các giả thiết F4 kết hợp thành mô hình các hiệu
qué ei dink ed bin
1.3.2 Ý nghĩa tham số
« Các tham số {Øj}, i—1,2, - ,K, chung cho mỗi đối tượng và được gọi
là các tham số toàn cục hay các tham số tổng thể
« Các tham số œ; biến đổi theo rừng đối tượng được gọi là các tham số đặc trưng đối tượng hay các tham số cá thể Các tham số đặc trưng đối tượng này biểu diễn các đặc điểm khác nhau của các đối tượng và thường được
gọi là các than sỐ riêng,
Trang 17đã Mô hành hiệu quả cỗ định 10
Cae Cham số đặn trưng, dối Lượng tị biểu diễn tính không thuần nhất giữa các đổi tượng, Các ước lượng của các tham số này sử dụng thông tin trong các phép đo lặp lại trên từng đối tượng Ngược lại, các tham số này sẽ không định
lượng được trong các mô hình hỏi quy cắt ngang, không có các quan sát lặp đi
lặp lại theo thời gian Có nghĩa là với T‡ — 1 thì mô hình
ứ — G + tia + #aa T sỉ Baran +e
e6 (n-LR} tham số nhiều hơn số quan sát (n) và như vậy ta khöng xác định được tất cả các tham số Bố hạng nhiễu e„ chứa thông tin về œ¿ trong các mô
hình hồi quy cắt ngang Một thuận lợi quan trọng của các mô hình dữ liệu dọc
so với các mô hình hồi quy cắt ngang là kha nang tách các hiệu quả của {ai}
Lách sấu:
từ các số hạng nhidu {ey} Ning vay, bang việt iệu quả đặc trưng đối
bượng nầy, các đc lượng của chúng ta sẽ chính xác hơn và sẽ Phú được các kết
luận đáng tin cây hơn
1.8.8 Ude lượng bình phương nhỏ nhất (OLS)
Định lý 1.3.1 (Gauss- Markov) Với các giả thiết F!-5, các trớc lượng bình pphuatng trhhủ nhất là náo túc lưựng tuyển Kính, kuông chích tù dó puưứng su nhà
nhất trung lấp oñc tt lượng luyến lính không chộch
Xét phương trình (1.3.3);
Bay gid ching ta sé ude lgng céc tham sé 3,0; va phuong sai ø? và đây là các
ước lượng không chệch tuyển tính tốt nhất của Ø và a¿ Goi @:,isby ++ bic
của các Lham sỗ œá, ZN, đu, cac
Trang 18đã Mô hành hiệu quả cỗ định 11
trong 46 @ — (4, @, ++» 2a} và P— (l,ñ, - ,ðw)' Dễ cực tiểu hóa đại lượng
này, đầu tiên chúng ta cần tính đạo hàm riêng theo ñ;, Ta có
Ude lugng binh phudng nhé nhat cha a; JA nghiém cha phudng trinh
Phương trình chuẩn tắc này đã đưa ra cho ta các ước lượng OLS:
(i) Uớc lưựng Q18 của Ø:
Trang 19đã Mô hành hiệu quả cỗ định 12
Jác ưốu lượng O8 của Ø có thể dược Biểu diễn như trung bình có trong gỗ
của các ước lượng đặc trưng đổi tượng Đặc biệt, giả sử rằng tất cã các tham
số đều đặc trưng đối tượng để hàm hổi quy có dạng Z/w = œ¡ — z4 3; Khi đó,
ước lượng OLS của ổ có dạng
Tỉ phương trình (1.3.4) và (1.3.5), lại xét một vectở trọng số khác
Với vectd nay, ta cé một biểu diễn khác chơ phương trình (1.3.4):
Trang 20đã Mô hành hiệu quả cỗ định 1ã
không Hức lượng dược nếu sử dụng phương trình (1.3.4) Giá sử biến thứ j
không đổi theo thời gian và z¡ = #,;.Khi đó, các phẩn tử trên bàng và cột
phương nhỏ nhất, và cụ thể, đó là những ức lượng không chệch Theo Định lý
Gauss - Markov, chúng có phương sai nhô nhất trong lớp các ước lượng không
chéch va phương sai của b sẽ là
Để mỡ rộng mũ hình cơ bắn, chúng ta sẽ đưa ra một biểu diễn đẹp hơn bằng
việc sử dụng khái niệm ma trận Dạng ma trận cña phương trình (1.3.2):
trong đó gị là vectơ N x 1 các đáp ứng của đối tượng thứ ¡, = (Mù, ' ;ượy)
va Xj la ma tran cdc biến giải thích mức 7‡ x Ñ,
far Bag oc Đa Tại rae
Bina Tay ++ Tek Zip,
hay e6 thé viét X; = (xa tia, + xin)’ Va 1; la vecte T; x 1 các số 1
Ma trận hiệp phương sai
Trang 21đã Mô hành hiệu quả cỗ định 14
irony dé Ay — Contests) Ta phiin từ ð hàng thứ r và cốt Lhứ g trong mã trận
R và 7 là vectd các tham số chưa biết, được gọi là các thành phẫn phương sai
Với tập các quan sát bé hơn, xét đối rượng thứ ¡ có 7¡ quan sát Ở đây, ta định
nghia Vary — Ïl;(r), ma trận mức 7; x Tj Giả thiết rằng ma trận (7) xác định dương va chi phụ thuộc vào đối tượng thứ ¡, thông qua số quan sát của
nó Dưới day là một số trường hợp đặc biệt của R;
() R— #?T, trong đá I là ma trận đẳng nhất mức 7' x 7 Đây là trường hợp không có sự tương quan chuỗi hay độc lập
(i) R- FC — gì! + n4), trong đồ 1 là ma tran mite T x T các số 1 Đây
là trường hợp được biêt đến trong mô hình tương quan đều
() R„„ — ø?s!—$L Đấy là mổ lành tự hồi quy mức một, kí hiệu AR(1)
Lễ đưa ra biểu diễn phức tạp hơn bằng khái niệm ma trận, chúng ta định
nghĩa Z; = (4u, - 2¿)' là ma tran các biển giải thích mức ?; x g, trong đó
Các đáp ứng giữa các đối tượng là độc lập Các giả thiết này đã đặt ra mô
hình dữ liệu đọc tuyến tính hiệu quả cố định Dưới đây là các giả thiết của mô hình:
Trang 22Chương 2
Mô hình hiệu quả ngẫu nhiên
Ở chương 2, chúng ta đã làm việc với mô hình hiệu quả có định, tức là, các tham số a; là có định, phi ngẫu nhiên Sang chương 3, tính khỏng thuận nhất
gifta các đối Lượng dược xây dựng bằng việc sử dụng các dại Tượng ngẫu nhiên
thay cho các tham số cố định, được biết như những hiện quả ngẫn nhiên M&
đần cho chương này, chúng ta sẽ làm việc với một trường hạp đặc biệt với hệ số chặn, đơn, ngẫu nhiên, được gọi là znô hành thành phần sai lệch - trường hợp
đặc biệt của mô hành hiệu quả hỗn hợp tuyến tính Liếp thoo, các tốc lượng
của các hệ số hồi quy và các thành phẩn phương sai cñug như việc kiểm định giả thuyết cho các lệ số hồi quy sẽ được trình bày trong chường này
Định nghĩa 5 Mô tồnh hiệu ml hỗn hợp Tà những mô hình cha cá hiệu quả
ngẫu nhiên cũng nhị hiện quả cố định
2.1 Mô hình các thành phần sai lệch
Giả sử chúng ta quan tâm đến việc nghiên cứu đặc thù của các cá thể được
chọn ngấu nhiên từ một tổng thể, Không giếng chương 2, chương 3 sẽ thản
luận các trường lợp biến điễn œ nhữ các biển ngắu nhiền, thay cho các tham
gỗ cố định, chưa biết Bằng việc chững tổ ø; dược chọn ra Lừ một phần bố,
chting ta sẽ có thể đưa ra những kết luận về các đối tượng trong tổng thể mà
không có mặt trong mẫu.
Trang 232.4 Mô hành cúc thành phần sai lậch 16
2.1.1 Mi h ved ban vA gid thiết
Xét mö hình thành phan sai lệch như sau
Trong mô hình này, tra piả thiết, „ là đặc lặp va cing phan bd, vai trun
binh 0 và phương sai ø2 llơn nữa, chúng ta giả thiết rằng, {a¿} độc lập với
các biến ngẫu nhiên sai sé {ey} va cy là một vecbd các biến giải thích, đ là
vectơ cố định, các tham số tổng thể chứa biết
Các giá thiết của mô hình thành phần sai lệch
RỊ #(wu/@) — tị Lời
Hồ (xa, zune} là các biến phì ngẫu nhiên,
R3 Vdr(gu/o) — đề,
RA {yu} la cde bid ngẫu nhiên độc lập trên điều kiện {oy,a2. - , a}
RB {uu} có phân bố chuẩn trên điều kiên {ea,ds, ca}
R6 Key = 0, Vere = 22 và {ai,os,ssc ay} de lap
RY fai} ed phan bb chuẩn
Các giả thiết R1 - R5 giống như trong mô hình hiệu quả có định Sự khác biệt
ở đầy chính là chúng ta đặt điền kiện trên cáo số hạng đặc trứng đỗi tượng ơi
Giả thiết Rũ và R7 dưa ra các diều kiển cơ bản cho các nỗ hạng đặc trưng đối
Trang 242.4 Mô hành cúc thành phần sai lậch 17
Tuy nhiền, oáo giả Lhiết RI - R7 không dựa ra dược biểu diễn quan sắt dược của
mô hình vì chúng dựa trên các đại lượng khêng quan sát được {øn, - ; @n†}
Chúng ta sẽ tổng kết các hiệu quả của các giá thiết này trên các biến quan sắt
được [tựa, ' #2, Vu}:
Tiểu diễn quan sát được của mô hình thành phần sai số
ROL Fry — 248
RO3 (zza, - xu} là các biến phì ngẫu nhiên
ROB Varyy =o? +02 va Cou(yin, ta) = 2À với r khác 3
RO4 (} là các biến ngẫu nhiên độc lập
ROS {yi} có phần bồ chuẩn
Đối với các tình huống phức tạp hơn, chúng ta sẽ dùng khái niệm ma trận để
mũ tả các giả thiết nay Haan hồi quy cố thể được biển diễn chặt chẽ hơn như
điễn lại cho giả thiết H1 với khái niệm ma trận Phương trình (2
với ống tho tính kĩ vọng của kĩ vọng cố điền kiện vì
Ry, = BE (us fea)
Bol, 1 Xi8 = X49 do Ba; = 0
Với giả thiét ROB, chúng ta cố
Vargi :— Vị — nẠ Ji +aŸH, (2.1.3)
trong đó J; là ma trận các số 1 mức ?‡ x ?‡, ï¡ là ma trận đơn vị mức 7‡ x ?¡.
Trang 252.4 Mô hành cúc thành phần sai lậch 18
2.1.2 Ước lượng bình phương nhỏ nhất tổng quát
Phương trình (2.1.3) và (2.1.3) đã chỉ ra trung bình và phương sai của các đáp
tứng và giả sử rằng các thành phần phương sai z2,ơ? đã biết Để tước lượng
các hệ số hồi quy, phần này sử dụng phương trình bình phương nhỏ nhất, lồng quái có dạng
Để giải thích cho bgc, chúng ta đưa ra một dạng thay thế, tương đương với
ước lượng hiệu quả cố định đã chỉ ra ở Chương 2, Từ phương trình (1.3.4), ta
cú
b— (= X;(:— Tị *ñ) x) (ị — Tí)
i
Nin vay, chúng ta thấy rằng hiệu quả ngẫu nhiền bgợ và liệu quả cố dinh b
xấp xi hằng nhan khi ø2 lớn hơn một cách đáng kể so với 3
2.1.3 K Em dinh tính không thuần nhất,
Việc kiểm định tính không thuần nhất tương đương với việc kiểm định giả thuyét Hp : o2 = Ú), Mặc dù đây là một vấn dé khé cho trường hợp tổng quát,
Trang 262.2 Md hink hi¢e quả hỗu hạp 19
những Trong krường hợp mồ hình thành phần sai lạch thì phương pháp kiểm
định này vẫn được sử dụng
Phương pháp kiểm định tính không thuần nhất
1 Chạy mỏ hình hồi quy cắt ngang gu — zj; + eø để nhận được các phần
Ở phần trước, chúng ta đã được giới thiệu mã hình thành phần sai lạch, một
trường hợp đặc biệt của mô hình hiệu quả hỗn hợp Và phần này, chúng ta sẽ
xổ rộng mõ hình thành phần sai lệch với các hệ số biến đổi, sự tương quan
chuỗi và phương sai sai số thay đổi
2.2.1 Mô hình hiệu quả hỗn hợp tuyến tinh
Bấy giờ chúng bà sẽ xét các hầm hồi quy điền kiện có dạng
Eo yie/e) — cei zir,a + Capzin2 + + Oigzing — Botita + Barta + + + Baten
= tog 248
(24)
Trang 27
trong dó số hạng zÿ4ym — (na,cc-,oa]} chứa thành phần hiệu quả ngẫn
nhiên; số hạng z/,# chứa thành phần hiệu quả cố định
Dinh nghia Z; — ( zi;) 18 ma tran cdc bién gidi thich mtte T; xq Khi đó dạng ma trận của phương trình (2.3.1) là
Giá sứ rằng các hiệu quả dậo trưng dõi Lượng {ey} doc lap với trung bình
Hoy — 0 vac ina trận hiệp phương, sai (mức ø x g) Vareœ — Í2 xâo dịnh dương,
Với giá thiết này thì các hiệu quả ngẫu nhiên có trung bình 0 và ta định nghĩa
Var(ui/o;} — Fj, ma trận mức T, x T; Các cột của ma trận Z; thường là tập con của ma trận X; Với các giả thiết này, chúng ta gọi mô hình (2.3.2) là mô
hình hiệu quả hỗn hợp tuyến tính,
Các giá thiết cúa mô hình hiệu quá hỗn hợp tuyển tính
L 1 Elyje fos) — Zag t+ X38
R2 421 + Ba} v2 [onr.-++ , tng fla cde bien khong ngdu nhién
R3 Varlyg fag) = Hị
HA (} là các biến ngẫu nhiên độc lập đổi với điều kiện (0Œ, dạ, ca , 0y)
RS {u} có phan bb chudn déi voi didu bien {a4, a9, - a}
R6 Ea; = 0, Vara; = D va (ay, 02, » , an} de lap
Trang 282.2 Md hink hi¢e quả hỗu hạp 21
Trong phan 2.2.1, mô hình hiệu quã hỗn hợp tuyến tính, chúng ta đã, giả thiết
vẻ sự độc lập giữa các đối tượng Giả thiết này không áp dụng được với tất cả
các mô hình có các quan sát lặp đi lặp lại theo thời gian trên một đối tượng, vì
vậy cần đưa ra một mô hình tông quát - rô hành tuyên lính bẩn hợp, Phương
trình của mô hình này cổ dạng
Ở đấy, y là vectơ N x 1 các đáp mg; ¢ 1A vecta N x 1 các sai số, 2 và X là
những ma trận các biến giải thích, với mức lần lưạt là Ä' x ạ và W x Ñ; œ và
ổ là những vectơ tham số với mức lần lượt là g và x 1
#a \ X8 và Ea = 0 Khi đó
(y/o) — R,Vure — D
vi cou(u,e) — 0 Didu nay suy ra Vary — ZDZ"+ ROY
Với câu trúc ki vong, ching ta gia sit E'(y,
By — XA Voi cu totic phatung sai, chiing ta gid sit Va
Không giống như mô hình hiệu quả hỗn hợp ở phần 3.3.1, mô hình tuyến tính hỗn hợp không đồi hỏi sự độc lập giữa các đối tượng Để thấy được mô
Tình hiệu quả buyến tính hỗn hợp là trường hợp đặc biệt của mô hình tuyến
Với cách chọn này, mổ hình tuyển tính hỗn húp rút pọn thành mô hình hiểu
quả hỗn hợp tuyến tính Mö hình thành phần sai số hai cách là một mô hình
Trang 292.5 Cle Kết luận về hệ số hồi guy 32
dữ liệu khối quan trọng, không phải là trường hợp đặc biết ei md Minh hiệu
quả hỗn hợp tuyến tính, mặc dù nó là một trường hợp đặc biệt của mô hình
tuyến tính hỗn hợp Mô hình này có thể được biểu điễn như sau
Me -TÀi T ald + ei
2.3 Oác kết luận về hệ số hồi quy
Việc trúc lượng các mõ lình liệu quả hỗn hợp tuyến tính được thực hiện theu
hai bước Bưác dầu tiên, chúng ta ước lượng các hệ số hồi quy ở Tiếp đó ổ hước hai, chúng ta ước lượng các thành phần phương sai 7 Phần này sẽ trình bày về các kết luận hệ số hồi quy với giả thiết các thanh phần phương sai đã
biết
3.8.1 Ướu lượng bình phiđng nhủ nhất tổng quát (G8)
G phn 2.2, chúng ta đã cé Ey; — X,8 va phương sai /arg; — #,DZj + Ri —
Vitr) — Vj Nhu vay, viếc tính taán trực tiếp đã chỉ ra rằng ước lượng G18 của
Trang 302.5 Cle Kết luận về hệ số hồi guy 33
2.3.2 Ước lượng hợp lý cực đại
Với giả thiết RO5, hàm hợp lý loga của mỗi đối tượng có dạng như sau
1 , 48,7) — F(a) + IndetVi(r) + (= XB) Vay = 8) 2.5.3)
Với phương trình trên, hàm hợp lý cho toàn bộ tập đữ liện sẽ có đang
- SN
=
Dịnh nghĩa 6 Giá trị của 3 va z làm cực đại (8,7), được gợi là các ước
lượng hợp lý cực đại (MLE) Kĩ hiệu là đyr và ?r
Chúng ta ký hiệu Ø — (Ø', 7z") là vectơ các tham số Trước tiên chúng ta lấy đạo hàm của (2,7) theo 8
Trang 312.5 Cle Kết luận về hệ số hồi guy 24
2.3.3 Kiểm định giả thuyết
Đối với nhiều phân tích thống kẻ, việc kiểm tra giả thuyết hệ số hồi quy bằng
một giá trị đặc trừng não đá là mục đích chính Có nghĩa là chẳng tá quan
tâm đến giả thuyết Hạ : đ; — đ;ạ, trong đó giá trị đặc trưng thường bằng 0
Phương pháp quen thuộc là chúng ta tính thống kê để kiểm định giả thuyết
với
bias — địn se(biers) với ð¡o„s là thanh phan tht j cia bere va se(bjgis) 1 cin bậc hai của phần
tử thứ j trên đường chéo chính của ma trận (33; XƒW/(7} !X;} !, còn 7 là
tộc lượng của thành phẫn phương sai Khi đó, tá sẽ đánh giá Hạ bằng viếu mo
gảnh giá trị của thông kẽ £ với phần vị của phân bố chuẩn tắc
6 nhiều phương pháp để kiểm định giả thuyết nhưng phổ biến và thông
thường hơn là phương pháp kiểm định tỉ số hợp lý Người ta có thể biểu diễn
giả thuyết theo dang Hy: CS = d, với Ở là mạ trận mức p x K với hang la p
và d là vectd p x 1: & là veeto K x 1 các hệ số hỏi quy Cả C va d đều được
xắc dịnh
Phương pháp kiếm định tỉ số hợp lý
1 8h đụng mö hành không bị ràng buộc, tính các tốc lượng hợp lý cực doi va ham hap ly tuang tng, Late
8 Đãi nồi ma hink rig bude sit dung Hy: CO — d, tính các wà: bượng húp
l cực đại tà hàm hạn lý tưởng ting, Lreaucca
- Tính l xh hat lý LNT — 9(IM1E — bRatuerd)-
4 Báo bà Hạ nda LRP vital quả giá trí x2 nổi bậc tt do tip
Kiểm định tỉ số hợp lý là phương pháp chuẩn để đánh giá các giả thuyết về
hệ số hồi quy Tuy nhiên cũng có thể tồn tại những phương pháp tết hơn với
Trang 322.4 Uấc lượng cáo thành phần phương sai 25
những tập dữ liệu nhỏ Ví dụ, Pinheiro va, Bates da nhắc lại viêu nữ dụng các
kiẩm định F cé điều kiện khi p có quan hệ chặt chẽ với cä mẫu Với việc kiểm
định các hệ số hồi quy riêng, chúng ta sẽ làm việc với các tập dữ liệu lớn với
phương sai sai số thay đổi Irong trường hợp này, phương pháp kiểm định Wald
được sử dụng hữu hiệu
Với phường phap Wald, (a tính thống kế
1
(Chace — dy G is Arras 1X) c) (Cbmm — đồ
va so sanh thing ké nay với giá trị của phan bé y? vdi bac ty do p
2.4 Ước lượng các thành phần phương sai
2.4.1 Ước lượng hợp lý cực đại (MLE)
Hàm loga hợp lý đã được giới thiệu trong phần trước Việc thay thế biểu diễn
chủ tốc lượng G16 ở phường trình: (9.3.1) thành hãm loạn hợp lý đ phường trình (3.3.3)dã dưa ra ditée haan loga hop lý trung tầm liồa là một hầm của 7:
(ESS),(z) — (m — Xiders), '(rÌ(mn — Xihars)
Nhữ vậy, chúng 1á sẽ phải làm cife dại hàm loga hợp lý, dược đói nhì một,
ham của 7 Xét rô hình thành phần sai lệch với các thành phần phương sai
Trang 332.4 Uấc lượng cáo thành phần phương sai 26
trong đá bzrs được cho trong phương trình (2.1.4)
2.4.2 Ước lượng hợp lý cực đại giới han (R LL)
Ước lượng hợp lý cực đại giới hạn là một trong những phương pháp có nhiều tinh chất đẹp đối với mô hình hiệu quả hỗn hợp Phương pháp hợp lý cực đại
thường dưa ra những tốc lượng, chếch cứa các hành phần phương sai Nghtực
lại, cáo túc lượng difa trên phương pháp REMT, là cáu ước lượng không chệch
của 7 Ý tưởng đằng sau phương pháp ước lượng REML là xét hàm hợp lý của
tổ hợp tuyến tính các đáp ứng mà không phụ thuộc vào các tham số trung
bình
Xét mõ hình hiệu quả hỗn hợp (2.2.3).Ciá sử rằng, các đáp ứng được kí hiệu
bởi vecbơ y, có phân bé chuẩn, có ki vong Ey = Xổ và có ma trận hiệp phương
gai Vang — V — V(r) 86 chiều gủa y là Ñ x1 và số chiền của X Tà N x p Ta
định nghĩa ma trận chiếu
QT—T7-X[XA" +
và xét tổ hợp tuyến tính các đáp ứng Qy Ta chứng mỉnh được răng (3y có kì
vọng 0 và nà trận Hiệp phường sài là Var(Qy) — QVQ" That vay
E(Qu) — Flu— X(X'X)"'X'y|— X8 — X(X'X)"'X'X48 — 0
Yar(Qu) = E(Qu)(Qu)' — (E(Qu))? = E(QuW@) = QVar(w)Q' = QVQ'
Vi Qy có phân bé chuẩn nhiều chiều và kì vụng, ma trận hiệp phương sai của
Qýy không phụ thuộc vào Ø nên phân bố ca Qy sũng khăng phụ thuộc vào j3
Vì hạng của Q là — p nến chăng tà bị mắt một gỗ thông tín khi xét sự biến đổi của dữ liêu ; điều này thúc đẩy cho việc sử dụng phương pháp hợp lý cực
đại giới hạn Thompson, Datterson và Harville đã đưa ra hàm hợp lý loga giới
Trang 34Sự khác biệt duy nhất giữa hai hàm hợp lý này là số hang Inđef(X'V(z)~1X)
Trên đầy, chúng ta dã thào luận các phương pháp ốc lượng và kiểm dinh giá thuyết, cho mô lành hiệu quả hỗn hợp tuyến tính, Bang phần tiếp theo, chúng 1a sẽ thảo luận dạng kết luận Thống, kế thứ ha, dự duám, Dự doán là mi khâu quan trọng đối với mô hình hiệu quả hỗn hợp để tóm lược một thành
phần hiệu quả ngẫu nhiên,
2.5 Dự đoán
Trong tổng quát, chúng ta sử dụng Thuật ngữ "dự đoán” cho một đe lượng: của một biển ngẫu nhiên Cũng như các ước lượng, một đự doán dược nói là tuyến tính nếu nó là một tổ hợp tuyến tính các đấp ứng
2.5.1 Dự đoán không chệch tuyến tính tốt nhất (BLUP)
Xét mô hình tuyến tính hỗn hợp
—#Za+X8+e
Giả sử rằng chúng ta quan sát một vectơ ngẫu nhiên y mức NV x 1 véi tring
bình ÄX/ và phương sai Vary — W, trong đó ma trận V cá dạng chéo khối
Trang 35(i) Gid sit các tham gỗ Ø dã biết, Khí đó lấy e¡ là một hằng số 1
là một vectz hằng số Với cách chọn này, ta zẽ di tìm dự đoán của có dạng eị + củ Sai số bình phương trung bình bằng
A4SE(e,oœ) = Ele: | ạu— 0}
MSE(m(es)ts) = Bl&(y — Ey) — (w — Bw)?
— Varlehy — w) — Ven t 2, — 2Covlw, yer
Dé tim cách chọn tốt nhất cho ca, ta lại lấy đạo hàm riêng của MSB theo
ta, lra ditge
28/5B(a(6).5) = Wey — 2Cor(w, yy
Giải phương trình -MSEfa(s 2) = 0 có nghiệm eÿ = ~IŒat(se, g)'
ca Nhu vậy dự đoán bình phương trung bình nhẻ nhất của œ là
w=chl ey = Bw Covlw.y)¥(y— Ey) (2.5.1)
Trang 362.5 Dự đoán 29
(ii) Truéng hop cdc tham sé hai quy tổng thể chưa biết Với trường hợp này,
chúng ta sử dụng bz¡s = (X”V~1X)-LX'V-!¿ là ước lượng GL8, ước lượng tuyến tính không chệch tốt nhất của đ Thay đ bởi &¿„„; trong
phương trình (3.2.1) của tu", ta có
ngập — Xhogux + Ởou(e,9)V '{g— Xiois) (2.5.2)
— {AI TGoum,w}V lX)hejs - Ởuo(m,)V 'ụ
Đây là dự đoán không chệch tuyến tính tết nhất của uw That vậy, xét tất
cả các dự đoán tuyến tính không chệch có dạng tegr;p — đự, trong đồ e
là một vectd hằng Do tính không chệch, ta có
Fily = Bu — Bwppyp = 0
, Œ là một tước lượng không chệch của Ú Diễu kiện cần và đủ để
ky = U) là X =), Bay giờ, chúng ta xét #(oprpp | đụ — ø)? để cực tiểu sai số dự đoán bình phương trung bình trên tất cả các cách chọn của
© Tach
Cov(weryp — w, cy) —Cou(ugiup, ye — Cou(w, yjc
LOW 'Corlyyde L (V — Cue(m,u}V 'ÄX)
ng thức cuỗi clmg suy ra ttt ¢X — 0 Nhu vay, ta có
E(mpuup + Đụ — tr) — Vir(nguep — we) + Varley),
đạt giá trị nhỏ nhất khi chọn e = 0, Và ta có phương sai của 0prrrp bằng,
Varugisn — Coutw, yWVCoulw, yy — (N — Con, g)V—LX)
Trang 37'Thay vào phương trình (2.5.4) ta được
wan — GDZV"(y — Xbers) + ho:
Dé dan giản biểu dién nay, chúng ta chọn c, — 0 va cé BLUP cita a; bang
apie — DEV, (yi — X,bars) (2.5.5)
Nha vậy, lá 88 66 ditge BLUP cia i — choy (bf Tk
Trang 382.5 Dự đoán al
Dự đoán phần dư
Xáu dự doần một, tổ hdp tuyển tính các phân đt, øt — c‡e;, trong đó c là vecbd
các hằng số Với sự lựa chọn này, chúng ta có iu — 0, suy ra À — Ú Ta có
GR vải Tổ,
Corley) =
Như vậy, từ phương trinh (2.5.4) chang ta ¢6 vecto phan dit BLUP bing
é.piup = BVO (yi — Xibars)
Dự đoán các quan sát tương lai
Giá sữ rằng đối tượng thứ ï không có mặt trong tập dữ liệu và chúng bà muốn