ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊNTĂNG THỊ NGỌC QUỲNH SỰ HỘI TỤ CỦA TỔNG CÁC BIẾN NGẪU NHIÊN VÀ ÁP DỤNG CHO MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN Chuyên ngành: Lý thuyết xá
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
TĂNG THỊ NGỌC QUỲNH
SỰ HỘI TỤ CỦA TỔNG CÁC BIẾN NGẪU NHIÊN VÀ ÁP DỤNG CHO MÔ HÌNH HỒI
QUY TUYẾN TÍNH ĐƠN
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS Tạ Công Sơn
Hà Nội - Năm 2017
Trang 3LỜI CẢM ƠN
Em xin chân thành bày tỏ lòng biết ơn sâu sắc đối với các Thầy Cô đã giảngdạy cho em trong suốt quá trình em học tập tại trường Những kiến thức quýbáu mà Thầy Cô trang bị cho em sẽ là hành trang giúp em vững bước trên conđường sau này
Đặc biệt em xin gửi lời cảm ơn sâu sắc nhất tới Thầy giáo, Tiến sĩ Tạ CôngSơn, Thầy đã trực tiếp hướng dẫn em hoàn thành luận văn tốt nghiệp này
Em cũng muốn gửi lời cảm ơn sâu sắc tới các anh chị, bạn bè và đặc biệttới gia đình, những người đã luôn kịp thời hỗ trợ và động viên em trong nhữnglúc khó khăn nhất
Trang 4Mục lục
1.1 Một số khái niệm 5
1.2 Một số bổ đề quan trọng 7
1.3 Mô hình hồi quy tuyến tính đơn 11
1.4 Mô hình hồi quy EV tuyến tính đơn 13
1.4.1 Ước lượng bình phương cực tiểu của θ và β 14
1.4.2 Hiệu giữa ˆβn và β, ˆθn và θ 16
Chương 2 Định lý giới hạn 19 2.1 Sự hội tụ hoàn toàn của tổng các biến ngẫu nhiên NSD 19
2.2 Sự hội tụ hầu chắc chắn của tổng các biến ngẫu nhiên NSD 31
Chương 3 Áp dụng sự hội tụ của tổng các biến ngẫu nhiên cho mô hình hồi quy EV tuyến tính đơn 43 3.1 Áp dụng định lí hội tụ hoàn toàn cho dãy NSD vào mô hình hồi quy EV tuyến tính đơn 43
3.2 Áp dụng định lí hội tụ hầu chắc chắn cho dãy NSD vào mô hình hồi quy EV tuyến tính đơn 53
Trang 5LỜI MỞ ĐẦU
Phân tích hồi quy là một phương pháp phân tích thống kê để dự đoán cácgiá trị của một hoặc một số biến phụ thuộc (biến đáp ứng) theo một tập hợpcác biến độc lập (các biến dùng để dự báo) Mô hình hồi quy EV (sai số trongbiến) đã được Deaton (1985) đưa ra để sửa lại những ảnh hưởng của lỗi lấymẫu và thực tế hơn mô hình hồi quy bình thường Ý chính của luận văn là tínhvững hoàn toàn và tính vững mạnh của ước lượng ˆβn và ˆθn cho tham số chưabiết β và θ dưới giả định hai dãy sai số {δi, i ≥ 1}, {εi, i ≥ 1} là hai dãy biếnngẫu nhiên NSD
Luận văn trình bày về sự hội tụ của tổng các biến ngẫu nhiên và áp dụngcho mô hình hồi quy tuyến tính đơn Luận văn gồm 3 chương:
Chương 1 Kiến thức chuẩn bị
Nội dung chương này bao gồm các kiến thức cơ bản liên quan tới đề tài :– Một số định nghĩa: Dãy NSD, dãy bị chặn ngẫu nhiên, định nghĩahội tụ hoàn toàn và hội tụ hầu chắc chắn
– Một số bổ đề quan trọng: Các tính chất của dãy NSD, dãy bị chặnngẫu nhiên
– Mô hình hồi quy tuyến tính đơn cổ điển
– Mô hình hồi quy EV tuyến tính đơn
Chương 2 Định lý giới hạn
Tiếp theo nội dung Chương 2 sẽ trình bày hai phần chính:
– Định lý về sự hội tụ hoàn toàn của tổng các biến ngẫu nhiên NSD.– Định lý về sự hội tụ hầu chắc chắn của tổng các biến ngẫu nhiênNSD
Chương 3 Áp dụng sự hội tụ của tổng các biến ngẫu nhiên cho
mô hình hồi quy đơn
Chương cuối cùng sẽ trình bày các định lý áp dụng sự hội tụ của tổng cácbiến ngẫu nhiên NSD cho mô hình hồi quy EV tuyến tính đơn Cụ thể:
Trang 6– Chứng minh tính vững hoàn toàn của ước lượng bình phương tốithiểu cho tham số chưa biết β và θ.
– Chứng minh tính vững mạnh của ước lượng bình phương tối thiểucho tham số chưa biết β và θ
Mục đích của học viên là tìm hiểu và trình bày lại những kiến thức về sự hội tụ
từ những tài liệu trong các bài báo khoa học được trích dẫn trong trang cuốiluận văn
Vì hiểu biết và thời gian còn hạn chế, luận văn của em không thể tránh khỏinhững thiếu sót Em rất mong nhận được những chỉ dẫn tận tình của Thầy
Cô, những ý kiến đóng góp của các bạn để cho luận văn của em được hoànthiện hơn
Hà Nội, ngày 31 tháng 10 năm 2017
Học viên
Tăng Thị Ngọc Quỳnh
Trang 7Định nghĩa 1.1.1 ([9, trang 167]) Hàm φ : Rn → R được gọi là siêu cộngtính (superadditive) nếu
φ(x ∨ y) + φ(x ∧ y) ≥ φ(x) + φ(y) ∀x, y ∈ Rn,trong đó ∨ là kí hiệu lấy giá trị lớn nhất từng thành phần, ∧ là kí hiệu lấy giátrị nhỏ nhất từng thành phần
Ví dụ 1.1.2 Các hàm đơn điệu (tăng, giảm) đều là hàm siêu cộng tính Xét
φ : R2 → R được xác định như sau: φ(x1, x2) = x1+ x2
Khi đó với x = (x1, x2) ∈ R2, y = (y1, y2) ∈ R2 sao cho x1 < y1, x2 < y2 thìhàm φ là hàm siêu cộng tính
Định nghĩa 1.1.3 ([9, trang 167]) Véc-tơ ngẫu nhiên X = (X1, X2, , Xn)được gọi là NSD (negatively superadditive dependent) nếu
Eφ(X1, X2, , Xn) ≤ Eφ(X1∗, X2∗, , Xn∗) , (1.1)trong đó X1∗, X2∗, , Xn∗ là độc lập sao cho Xi∗ và Xi có cùng phân bố với mỗi
i và φ là hàm siêu cộng tính sao cho kì vọng trong (1.1) tồn tại
Trang 8Qua định nghĩa của biến ngẫu nhiên NSD ta thấy dãy biến ngẫu nhiên độclập là dãy NSD.
Ví dụ 1.1.4 Cho {Zn, n ≥ 1} là dãy biến ngẫu nhiên độc lập cùng phân bố
N (0, 1) Đặt Xn = Zn− Zn+1 với n ≥ 1 Khi đó {Xn, n ≥ 1} là dãy biến ngẫunhiên cùng phân bố N (0, 2)
Định nghĩa 1.1.6 ([9, trang 170]) Dãy biến ngẫu nhiên {Xn, n ≥ 1} được gọi
là bị chặn ngẫu nhiên bởi biến ngẫu nhiên X nếu tồn tại C > 0 sao cho
P (|Xn| > x) ≤ CP (|X| > x) Định nghĩa 1.1.7 ([9, trang 167]) Một dãy biến ngẫu nhiên {Xn, n ≥ 1} đượcgọi là hội tụ hoàn toàn tới hằng số θ nếu
∞
X
n=1
P (|Xn− θ| > ε) < ∞, ∀ε > 0
Định nghĩa 1.1.8 ([2, trang 81]) Cho dãy {Xn, n ≥ 1} các biến ngẫu nhiên
(i) Nếu P {ω : ∃ lim
n→∞Xn(ω)} = 1 thì ta nói dãy {Xn, n ≥ 1} hội tụ hầu chắcchắn
(ii) Nếu X là một biến ngẫu nhiên và P {ω : lim
n→∞Xn(ω) = X(ω)} = 1 thì tanói dãy {Xn, n ≥ 1} hội tụ hầu chắc chắn tới X
Trang 91.2 Một số bổ đề quan trọng
Bổ đề 1.2.1 ([2, trang 82]) (i) Điều kiện cần và đủ để dãy {Xn, n ≥ 1} hội
tụ hầu chắc chắn là với mọi ε > 0
Bổ đề 1.2.2 [Bổ đề Borel - Cantelli] Cho A1, A2, , An, là dãy các biến
cố trong không gian xác suất Nếu tổng các xác suất của (An) hữu hạn, tức là
Nhận xét 1.2.3 Theo Định nghĩa 1.1.7, (ii) Bổ đề 1.2.1 và Bổ đề Borel
- Cantelli ta suy ra nếu Xn −→ θ thì XC n → θ h.c.c Điều ngược lại là đúngnếu Xn là dãy biến ngẫu nhiên độc lập
Qua định nghĩa của dãy hội tụ hoàn toàn, suy ra nếu Xn −→ θ thì XC n −→ θ.p
Bổ đề 1.2.4 Cho dãy {Xn, n ≥ 1} các biến ngẫu nhiên Nếu Xn
C
−→ 0 và
an → 0 thì
Xn+ an −→ 0 CChứng minh Với mọi ε > 0 bất kỳ, ta cần chứng minh
Trang 10Từ đó, ta thấy
|Xn+ an| ≤ |Xn| + |an|
< |Xn| + ε
2.Vậy
Trang 11 β < 0 suy ra −β > 0 và g(x) = −βx là hàm không giảm.
Theo (i) Bổ đề 1.2.5 (−Z1, −Z2, , −Zn) là NSD, suy ra (X1+(−β)(−Z1), X2+(−β)(−Z2), , Xn+ (−β)(−Zn)) là NSD
Mà
(X1 + βZ1, X2 + βZ2, , Xn+ βZn)
=(X1 + (−β)(−Z1), X2+ (−β)(−Z2), , Xn + (−β)(−Zn))Vậy ta cũng suy ra được (X1+ βZ1, X2 + βZ2, , Xn+ βZn) là NSD
n)
Bổ đề 1.2.10 Cho {Xn, n ≥ 1} là một mảng các biến ngẫu nhiên bị chặn bởibiến ngẫu nhiên X Với α > 0 và b > 0 bất kì, ta có phát biểu sau:
E|Xn|αI(|Xn| ≤ b) ≤ C1[E|X|αI(|X| ≤ b) + bαP (|X| > b)],
E|Xn|αI(|Xn| > b) ≤ C2E|X|αI(|X| > b),
trong đó C1 và C2 là hằng số dương Do vậy, E|Xn|α ≤ CE|X|α, trong đó C
là hằng số dương
Trang 12Chứng minh Ta chứng minh bất đẳng thức thứ nhất Đầu tiên ta sẽ chỉ ra
Tiếp theo ta chứng minh bất đẳng thức thứ hai, ta đã biết
Trang 13Một mô hình hồi quy tuyến tính cổ điển cho một chuỗi các kết quả thựcnghiệm là một mô hình mà mỗi kết quả là giá trị quan sát được của một biếnngẫu nhiên H(x), mô hình là
H(x) = θ + βx + ε ,
Trang 14trong đó các tham số (θ, β) được cố định nhưng chưa biết, giá trị x được chohoặc được chọn bởi thí nghiệm và trong đó ε ∼ N (0, σ2) và cho các quan sátkhác nhau của ε là độc lập cùng phân bố.
Đây là một mô hình hồi quy tuyến tính, nó được gọi như vậy vì nó tuyến tínhtheo θ, β và ε không phụ thuộc vào x Biến x được gọi là biến giải thích và biếnngẫu nhiên H được gọi là biến phụ thuộc
Cho (η1, η2, , ηn) là n quan sát độc lập, với giá trị hồi quy (x1, x2, , xn) Khiđó
ηi = θ + βxi+ εi, i = 1, , ntrong đó εi là các biến ngẫu nhiên độc lập cùng phân bố N (0, σ2)
Bây giờ ta sẽ xét phương pháp bình phương cực tiểu cho ước lượng tham số
θ và β Phương pháp ước lượng bình phương tối thiểu là xác định giá trị của
L(θ, β) = nη2
n+ nθ2+ nβ2x2
n − 2nθ ¯ηn − 2nβxnηn+ 2nθβ ¯xn (1.7)
Trang 15Pn i=1(xi− ¯xn)2
Từ (1.8) suy ra
ˆ
θn = ¯ηn− ˆβnx¯n
Phân tích hồi quy thường được dùng trong tất cả các lĩnh vực ứng dụng củathống kê để giải thích một biến phụ thuộc liên quan đến các biến độc lập như
Trang 16thế nào Tuy nhiên, trong nhiều ứng dụng, thường có các sai số khi lấy mẫu.
Mô hình hồi quy EV (errors variables) đã được Deaton (1985) đưa ra để sửa lạinhững ảnh hưởng của lỗi lấy mẫu và thực tế hơn mô hình hồi quy bình thường.Một nghiên cứu cẩn thận về các mô hình như vậy thường là cần thiết Để biếtthêm chi tiết về mô hình hồi quy EV, ta có thể tham khảo Fuller và cộng sự(1987), Fusek và Fusková (1989), Mittag (1989), Carrolletal (1995), Hslao vàcộng sự (1997),
Mô hình hồi quy tuyến tính đơn
ηi = θ + βxi+ εi, ξi = xi+ δi, 1 ≤ i ≤ n, (1.11)trong đó
θ, β, x1, x2, là các hằng số chưa biết (tham số)
(1, δ1), (2, δ2), là các véctơ ngẫu nhiên hai chiều
ξi, ηi, i = 1, 2, là biến quan sát
Từ (1.11) ta có:
ηi = θ + βξi + νi, νi = εi− βδi, 1 ≤ i ≤ n (1.12)Dạng (1.12) là mô hình của ηi theo ξi, mô hình (1.11) được viết lại như sau
1.4.1 Ước lượng bình phương cực tiểu của θ và β
Áp dụng phương pháp bình phương cực tiểu ta có ước lượng của θ và β là
ˆ
βn =
Pn i=1(ξi − ¯ξn)(ηi− ¯ηn)
Pn i=1(ξi− ¯ξn)2 ,
ˆ
θn = ¯ηn− ˆβnξ¯n, (1.14)
Trang 18Pn i=1(ξi− ¯ξn)2 .
i=1(δi − ¯δn)2
Pn
(1.19)Chứng minh Ta có:
ˆ
βn− β =
Pn i=1(ξi − ¯ξn)(ηi− ¯ηn) − βPn
i=1(ξi− ¯ξn)2
Pn i=1(ξi − ¯ξn)2Phân tích tử số:
Trang 19βn− β =
Pn i=1(xi − ¯xn)(εi− βδi) +Pni=1(δi− ¯δn)εi− βPn
i=1(δi − ¯δn)2
Pn
Trang 20Mệnh đề 1.4.2 Cho ˆθn là ước lượng của θ Khi đó,
ˆ
θn− θ = (β − ˆβn)¯xn+ (β − ˆβn)¯δn+ ¯εn− β ¯δn (1.20)Chứng minh Ta có:
ˆ
θn− θ = (β − ˆβn)¯xn+ (β − ˆβn)¯δn+ ¯εn− β ¯δn
Tiếp theo chương 2 và chương 3 ta sẽ xem xét sai số giữa ˆβn và β, ˆθn và θ
Cụ thể là tính vững hoàn toàn và tính vững mạnh của ước lượng ˆβn và ˆθn chotham số chưa biết β và θ dưới giả định hai dãy sai số {δi, i ≥ 1}, {εi, i ≥ 1} làhai dãy biến ngẫu nhiên NSD
Trang 21Định lý 2.1.1 ([9, trang 171]) Cho {Xn, n ≥ 1} là dãy biến ngẫu nhiên NSD,
bị chặn ngẫu nhiên bởi biến ngẫu nhiên X sao cho E|X|2p < ∞ với p > 0 nào
đó Giả định thêm rằng EXn = 0 nếu p > 1 Cho {ani, i ≥ 1, n ≥ 1} là mộtmảng các hằng số thỏa mãn:
> ε
!
< ∞, ∀ε > 0 (2.3)
Trang 22Trước khi chứng minh định lí, ta viết a+ = max(0, a), a− = max(0, −a).Cho C > 0 là hằng số dương (có thể khác nhau ở một vài chỗ), cho a = O(b)
> ε2
> ε2
... ∞, áp dụng định nghĩa dãy bị chặn ngẫu nhiên
Trang 33Cho {X, Xn, n ≥ 1} dãy biến ngẫu nhiên. .. b+ = max(0, b), b− = max(0, −b) Cho
C > số dương (có thể khác vài chỗ), cho a b kí hiệucủa a ≤ Cb
Chứng minh Khơng tính tổng qt, ta giả định kn = n, ∀n... bn,iN1Xn,iN1(2) 6= 0)
Do đó, dựa vào giả thiết định lí, bất đẳng thức Markov sử dụng tínhchất dãy NSD ta có
>
!
1≤i1<i2<···<iN1≤n