1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Mô hình hồi quy cho biến định tính và ứng dụng

79 367 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 2,53 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

1.1.2 Ước lượng các tham số hồi quy Một bài toán trước tiên đặt ra là hãy dựa trên ma trận X và vecto Y của các giá trị quan sát, hãy ước lượng vecto tham số β.. 1.3 Phân bố tiên nghi

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LUẬN VĂN THẠC SỸ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS.TRẦN MẠNH CƯỜNG

Hà Nội – Năm 2016

Trang 3

Mục lục

LỜI MỞ ĐẦU 2

Chương 1 - Kiến thức chuẩn bị 5

1.1 Mô hình tuyến tính cổ điển 5

1.1.1 Mô hình 5

1.1.2 Ước lượng các tham số hồi quy 7

1.1.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu 9

1.1.4 Khoảng tin cậy của các hệ số hồi quy β 9

1.1.5 Kiểm định các giả thiết về hệ số hồi quy 11

1.1.6 Kiểm tra sự phù hợp của mô hình 12

1.2 Một số hàm phân bố 13

1.2.1 Phân bố beta 13

1.2.2 Phân bố chuẩn 14

1.2.3 Phân bố đa thức 14

1.3 Phân bố tiên nghiệm và phân bố hậu nghiệm 16

1.3.1 Phân bố tiên nghiệm 16

1.3.2 Phân phối hậu nghiệm 18

Chương 2 - Các mô hình hồi quy cho dữ liệu nhị phân 20

2.1 Giới thiệu mô hình 20

2.2 Ước lượng các tham số hồi quy 28

2.2.1 Phương pháp ước lượng hợp lý cực đại 30

2.2.2 Phương pháp Bayes 32

2.2.3 Ví dụ 34

2.3 Kiểm tra sự phù hợp của mô hình 39

2.3.1 Sử dụng phương pháp cổ điển 39

2.3.2 Phương pháp Bayesian 42

2.4 Biến giả 45

Chương 3 - Các mô hình hồi quy cho dữ liệu thứ tự 49

3.1 Dữ liệu thứ tự 49

3.2 Ước lượng các hệ số hồi quy 54

3.2.1 Phương pháp ước lượng hợp lý cực đại 56

3.2.2 Phương pháp Bayes 58

Trang 4

3.2.3 Ví dụ 62

Chương 4 - Sử dụng mô hình probit thứ tự để phân tích chất lượng sinh trưởng của cây rừng 66

4.1 Giới thiệu về địa bàn nghiên cứu và mục đích nghiên cứu 66

4.2 Mô tả dữ liệu 67

4.3 Phân tích chất lượng sinh trưởng của cây 70

KẾT LUẬN 76

TÀI LIỆU THAM KHẢO 77

LỜI MỞ ĐẦU

Trang 5

Trong phân tích hoạt động kinh doanh cũng như trong nhiều lĩnh vực khác, hồi quy là công cụ phân tích đầy sức mạnh không thể thay thế Nó là phương pháp thống kê dùng để ước lượng, dự báo những sự kiện xảy ra trong tương lai dựa vào quy luật quá khứ Phân tích hồi quy là nghiên cứu mối liên hệ phụ thuộc của một biến (gọi là biến phụ thuộc) vào một hay nhiều biến khác (gọi là biến độc lập) Trong phân tích hồi quy, có hai loại biến chính là biến định lượng và biến định tính

Biến định lượng là biến mà giá trị của những quan sát đó là những con số

Biến định tính thường biểu thị có hay không có một tính chất hoặc biểu thị các mức

độ khác nhau của một tiêu thức, thuộc tính nào đó, chẳng hạn như giới tính, tôn giáo, chủng tộc, nơi cư trú, Những biến định tính này cũng có sự ảnh hưởng đối với biến phụ thuộc và phải được đưa vào mô hình hồi quy

Trong luận văn này đưa ra một cách tiếp cận theo phương pháp thống kê là xây dựng mô hình hồi quy với biến phụ thuộc là biến định tính Từ đó đưa ra các phương pháp đánh giá hiệu quả, ít tốn kém và dễ thực hiện được áp dụng rộng rãi trong đời sống, xã hội Với mục tiêu như vậy, luận văn này có tên “Mô hình hồi quy cho các biến định tính và ứng dụng”

Luận văn được chia làm bốn chương Chương 1 giới thiệu về mô hình hồi quy tuyến tính cổ điển với biến phụ thuộc là biến định lượng, mô hình này được xem là nền tảng, cơ sở để xây dựng các mô hình hồi quy khác Trong chương này, ta nghiên cứu các bài toán ước lượng và kiểm định giả thiết cho sự phù hợp của mô hình Ngoài ra một phương pháp ước lượng theo hướng suy luận Bayes cũng được giới thiệu trong chương này

Chương 2 trình bày về mô hình hồi quy với biến phụ thuộc là biến nhị phân, chỉ nhận hai giá trị là 0 và 1 Trong mô hình này nghiên cứu cách thành lập mô hình, một số dạng mô hình phổ biến, các bài toán ước lượng và kiểm định kèm theo ví dụ minh họa

Trang 6

Chương 3 tiếp tục trình bày về mô hình hồi quy với biến phụ thuộc là biến định tính được săp thứ tự Các diễn giải về kết quả mô hình này được xem như là sự mở rộng đối với các diễn giải của mô hình hồi quy với dữ liệu nhị phân

Chương 4 là phần ứng dụng của mô hình hồi quy thứ tự để phân tích chất lượng sinh trưởng của cây rừng từ bộ dữ liệu được lấy thực tế Trong chương này, một số kết quả đạt được có ý nghĩa thực tế như chất lượng sinh trưởng của cây rừng phụ thuộc mạnh vào những yếu tố như đường kính tán, chiều cao, đường kính 1m3 Các loài cây khác nhau cũng có sự đánh giá khác nhau về chất lượng sinh trưởng, mức

độ quý hiếm của cây không có ý nghĩa trong việc đánh giá đó

Bản luận văn này được hoàn thành với sự hướng dẫn nghiêm khắc và chỉ bảo tận tình của Ts Trần Mạnh Cường Thầy đã dành rất nhiều thời gian quý báu của mình

để hướng dẫn, giải đáp thắc mắc cho tôi trong suốt quá trình bắt đầu tới khi hoàn thành luận văn Nhân dịp này, tôi xin tỏ lòng biết ơn sâu sắc nhất tới Thầy

Qua đây, tôi xin cảm ơn các Thầy, Cô khoa Toán- Cơ- Tin, trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các Thầy đã tham gia giảng dạy khóa Cao học Toán 2013-2015

Tôi cũng xin cảm ơn gia đình, các bạn và mọi người đã giúp đỡ, cổ vũ để tôi có thể khắc phục những khó khăn gặp phải trong suốt quá trình học

Hà Nội, ngày 10 tháng 3 năm 2016

Học viên

Nguyễn Thị Nhung

Trang 7

Chương 1 - Kiến thức chuẩn bị

1.1 Mô hình tuyến tính cổ điển

1.1.1 Mô hình

Giả sử X1, …, Xk là k biến độc lập dùng để dự báo và Y là biến phụ thuộc cần dự

báo Ví dụ, ta giả sử Y là giá nhà ở Khi đó Y phụ thuộc vào các yếu tố sau:

• X1 là diện tích sử dụng (m2)

• X2 là vị trí vùng (thành phố )

• X3 là giá của năm trước

• X4 là chất lượng xây dựng

Sự phụ thuộc giữa biến Y theo các biến X1, …, Xk nói chung là rất phức tạp Tuy

nhiên có một số trường hợp sự phụ thuộc đó tương đối đơn giản Mô hình hồi quy

tuyến tính cổ điển khẳng định rẳng Y phụ thuộc tuyến tính vào các Xk (nghĩa là Y là

một biểu thức bậc nhất của X1, …, Xk ) và sai số ngẫu nhiên 𝜺 Như vây:

Y = β0 + β1X1 +…+ βkXk + 𝜺 (1.1)

Trong đó: βi, i = 0 ,…, k là các hệ số chưa biết gọi là các hệ số hồi quy; β0 gọi là hệ

số chặn; β1, …… , βk là các hệ số góc (độ dốc)

Bây giờ ta tiến hành n quan sát độc lập đồng thời về (k+1) biến X1, …, Xk, Y Giả

sử các số liệu quan sát tuân theo mô hình sau:

y1 = β0 + β1x11 +…+ βkx1k + 𝜺1

y2 = β0 + β1x21 +…+ βkx2k + 𝜺2 (1.2)

yn = β0 + β1xn1 +…+ βk xnk + 𝜺n

Trang 8

Trong đó các sai số: 𝜺1, …, 𝜺n thỏa mãn 3 điều kiện sau:

a, E(𝜺j) = 0 (Việc đo đạc không chịu sai lệch hệ thống)

b, D(𝜺j) = 𝜎2 (phương sai không đổi )

c, cov(𝜺i , 𝜺j) = 0 i ≠ j = 1, …, n (các sai lệch từng bước không ảnh hưởng đến nhau)

Mô hình (1.2) có thể viết dưới dạng ma trận như sau:

= [

] được gọi là ma trận thiết kế cấp n (k+1) của các biến độc

lập

Y = [ y1, , yn ]Tgồm n vecto quan sát; β = [β0, …, βk]T gồm k vecto các hệ số hồi quy; 𝜺 = [𝜺1, …, 𝜺n]T gồm n vecto sai số ngẫu nhiên

Trang 9

Và:

i, E(𝜺) = 0

ii, cov(𝜺) = E(𝜺𝜺T) = 𝜎2In

1.1.2 Ước lượng các tham số hồi quy

Một bài toán trước tiên đặt ra là hãy dựa trên ma trận X và vecto Y của các giá trị

quan sát, hãy ước lượng vecto tham số β Ở đây, chúng ta sử dụng phương pháp bình phương cực tiểu

Nếu chúng ta sử dụng vecto b = (b0, …, bk) là giá trị thử của β thì giữa các quan sát

yj và b0 + b1xj1 +….+ bkxjk ; ( j=1,…,n) sẽ có một độ lệch:

yj - ( b0 + b1xj1 + … + bkxjk), nói chung độ lệch này sẽ khác 0

Nội dung của phương pháp bình phương cực tiểu là hãy chọn giá trị của vecto b sao

cho:

S(b) = ∑

= (Y-Xb)T(Y-Xb) → min

Đại lượng ̂ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình phương cực tiểu của β, còn:

̂ = yj – ( ̂ ̂ ̂ ); j =1, …, n gọi là các phần dư của phép hồi quy Trong trường hợp này, vì biểu thức theo

X1,…, Xk là tuyến tính, nên phương trình :

̂ = ̂ ̂ ̂ , được gọi là phương trình hồi quy tuyến tính mẫu

Trang 10

Vì phiếm hàm S(b) là hàm bậc 2 theo b nên dễ thấy ̂ có thể tìm được từ hệ phương

trình sau:

= 0; i = 0, …., k

Hoặc tương đương:

{

∑( )

∑( )

∑( )

Do đó: ∑ ( ) ∑

b0∑ + b1∑ + ……….+ bk∑ = ∑ .

………

b0∑ + b1∑ +……….+ bk∑ = ∑ .

Chú ý rằng nếu đặt: xj0 =1 cho j = 1,…, n ta có phương trình sau:

[ ∑

∑ ][ ]

= [ ∑

∑ ]

Trang 11

1.1.3 Tính chất ước lượng bằng phương pháp bình phương cực tiểu

i Ước lượng ̂ là ước lượng không chệch với :

1.1.4 Khoảng tin cậy của các hệ số hồi quy β

Trong phần này ta xét mô hình hồi quy cổ điển (1.2) và (1.3)với giả thiết thêm rằng: Các 𝜺j có cùng phân bố chuẩn N(0, 𝜎2

Trang 12

Giả sử tn - k - 1( ) là phân vị trên mức

của phân bố Student với n - k -

1 bậc tự do Khi đó đồng thời ta có các khoảng tin cậy của β, với mức tin cậy (1 - α) cho bởi các đầu mút:

̂ √ ̂ ̂

Trang 13

1.1.5 Kiểm định các giả thiết về hệ số hồi quy

Xét mô hình hồi quy tuyến tính cổ điển đã xét trong (1.3) Trong khi thiết lập mô hình, ta giả thiết tất cả các biến độc lập X1,…, Xk đều tham gia vào phương trình hồi quy Song, trên thực tế có một số biến độc lập không tham gia vào phương trình hồi quy, tức là các hệ số của nó trong phương trình bằng 0 Tuy nhiên các giá trị ước lượng của nó có thể khác 0 Vậy khi nào các hệ số ước lượng được xem là bằng

0 thực sự? Điều này dẫn ta đến bài toán kiểm định giả thiết :

H0 = βp + 1 = … = βk (0 < p < k) (1.4) Với đối thiết :

K: {p + 1, …, k} sao cho βi

Giả thiết H0 có nghĩa là các biến độc lập Xp+1, …, Xk không tham gia vào biểu thức tuyến tính (1.1), ngược lại đối thiết K nói rằng: có ít nhất một trong các biến này quả thực cần tính đến trong mô hình Tổng quát hơn, ta xét bài toán kiểm định dạng: H0: {

(1.5)

Cβ= a

Trong đó: C = [ cij] là ma trận cấp (k - p) (k + 1); a= [a1, …, ak - p]T

Ta giả thiết rằng: ma trân C của các hệ số của (k - p) tổ hợp tuyến tính này có hạng

(k - p)

Giả thiết H0 xác định bởi (1.4) là trường hợp đặc biệt của giả thiết (1.5) với:

C = [ ] = [ 0 ]; a = [0, 0, …, 0]T

Trang 14

Xét giả thiết :

H0: Cβ = a (đã cho) và 𝜺 có phân bố chuẩn N (0, 𝜎2

In)

Theo mệnh đề 1, ̂ có phân bố chuẩn Nk + 1(β, 𝜎2

(XT X)-1) nên C ̂ là ước lượng không chệch với phương sai nhỏ nhất của Cβ và C ̂ có phân bố chuẩn Nk-

p(Cβ,𝜎2C(XT X)-1CT) Vì vậy ta sẽ bác bỏ giả thiết H0: Cβ = a nếu a nằm ngoài ellipsoid tin cậy của Cβ

Quy tắc kiểm định: Bác bỏ giả thiết H0: Cβ = 0 nếu:

(C ̂ (C(XT

X)-1CT)-1C ̂ / ̂ > (k - p)Fk - p, n - k - 1 (α)

Nhận xét: Ngoài phương pháp kiểm định trên, ta có thể sử dụng mệnh đề 3, về

khoảng tin cậy của βp+1, , βk với các mút ̂ tn - k - 1(

)√ ̂ ̂ để kiểm định giả thiết (1.4) Điều đó có nghĩa là: Nếu 0 không thuộc vào các khoảng đó, tức là với 1 chỉ số i mà:

| ̂ | > ̂ tn - k - 1(

)√ ̂ ̂ Thì ta coi βi

1.1.6 Kiểm tra sự phù hợp của mô hình

Xét mô hình hồi quy tuyến tính (1.2) Mô hình hồi quy tuyến tính sẽ phù hợp với dãy số liệu đang quan sát nếu các sai số 𝜺i quả thật chỉ do các yếu tố ngẫu nhiên tạo nên, tức chúng là dãy biến ngẫu nhiên độc lập, cùng phân phối Vì mô hình đang xét

có phân phối chuẩn, nên ta cần phải kiểm tra xem các sai số có phân bố chuẩn N(0,

𝜎 ) hay không? Để kiểm tra giả thiết đó người ta thường xét các tiêu chuẩn sau đây:

Tiêu chuẩn F

Xét đại lượng:

Trang 15

F =

(1.6) Trong đó:

Chẳng hạn cấu trúc của tiêu chuẩn F mức ý nghĩa α = 0.02/2 như sau:

+ Tra bảng phân bố F với k và (n - k - 1) bậc tự do ta được giá trị Fk, n - k - 1 (0.02/2)

+ Khi đó nếu thấy F > Fk, n - k - 1 (0.01) hoặc F <

Trong đó: p, q là các tham số quan tâm; a, b tương ứng là các giới hạn trên và giới hạn dưới của phân phối và B(p,q) là hàm beta Hàm beta có công thức là:

B(α, β) = ∫

Trang 16

Trường hợp: a = 0, b = 1 thì được gọi là phân phối beta tiêu chuẩn Phương trình cho phân phối beta tiêu chuẩn là:

Hàm mật độ xác suất của phân phối chuẩn với trung bình μ và phương sai ζ2 (hay

độ lệch chuẩn ζ) là một ví dụ của một hàm Gauss,

Trang 17

Giả sử rằng chúng ta có một thí nghiệm với n phép thử độc lập, trong đó mỗi phép thử đưa ra một cách chính xác một trong các sự kiện E1 ,…, Ek và mỗi phép thử Ej xảy ra với xác suất πj, j = 1,…, k Chú ý rằng: π1 + π2 + …+ πk = 1

Định nghĩa các biến ngẫu nhiên:

X1 = số phép thử trong đó E1 xảy ra

X2 = số phép thử trong đó E2 xảy ra

………

Xk = số phép thử trong đó Ek xảy ra

Khi đó: X = (X1, X2,…, Xk) được cho là có một phân bố đa thức với chỉ số n và tham số π = (π1, π2, …, πk) Trong hầu hết các vấn đề, n được xem là cố định và đã biết

Các thành phần của vecto đa thức ngẫu nhiên thì tuân theo phân phối nhị thức:

Trang 18

Các giá trị có thể của X là một tập vecto x mà mỗi xj {0, 1, 2, …, n} và x1 + x2 +

…+ xk = n

1.3 Phân bố tiên nghiệm và phân bố hậu nghiệm

1.3.1 Phân bố tiên nghiệm

Phân bố tiên nghiệm của tham số p là một phân phối xác suất thể hiện cho sự không chắc chắn về p trước khi quan sát dữ liệu Từ phân bố tiên nghiệm chúng ta

có thể tìm được phân bố hậu nghiệm của p Chúng ta sử dụng phân bố hậu nghiệm

để thực hiện tất cả các suy luận Chúng ta không thể thực hiện bất kỳ suy luận Bayesian hay thực hiện bất kỳ mô phỏng nào mà không sử dụng một phân phối tiên nghiệm

Để minh họa cho việc sử dụng một mật độ tiên nghiệm trong suy luận, chúng ta xét

ví dụ p là tỷ lệ sinh viên thuận tay trái trong một cuộc khảo sát các sinh viên trường Đại học Khoa học tự nhiên Khi đó p có thể là bất kỳ giá trị nào trong khoảng (0, 1) Tất cả các giá trị của p 0,1) có thể là một tiên nghiệm hợp lý như nhau Để mô phỏng thông tin này, tiên nghiệm cho p có thể được chọn là một hàm mật độ đồng đều:

g(p) = 1, 0 < p < 1

như trong hình 1.1(trên)

Trang 19

Hình 1.1: Hai hàm mật độ tiên nghiệm cho p

Hàm mật độ đồng đều này phản ánh niềm tin tiên nghiệm mà Pr(p < 0.25 ) = Pr(p > 0.75) = 0.25 Tiên nghiệm này thường gọi là mơ hồ hay không mang thông tin, bởi

vì nó phản ánh sự thiếu thông tin tiên nghiệm về giá trị của p

Một tiên nghiệm thứ 2 có thể chính xác hơn về giá trị của p Giả sử tiên nghiệm này cho rằng: Chỉ một tỷ lệ nhỏ sinh viên thuận tay trái Khi đó, hàm mật độ tiên nghiệm cho p có thể tập trung vào các giá trị nhỏ trong khoảng (0, 1) Hàm mật độ thể hiện cho tiên nghiệm này được trình bày trong hình 1.1(dưới) Quan sát thấy rằng hầu hết phần lớn của hàm mật độ này nằm giữa 0 và 0.5 Xác suất mà p (0, 0.25) và p (0.75,1) cho mật độ tiên nghiệm này tương ứng là: 0.8 và xấp xỉ 0 Phân phối này phản ánh quan điểm của một cá nhân về tỷ lệ sinh viên thuận tay trái

có khả năng dưới 25% Một tiên nghiệm như vậy được gọi là một tiên nghiệm mang thông tin

Trang 20

1.3.2 Phân phối hậu nghiệm

Như trên, hàm mật độ tiên nghiệm g(p) phản ánh niềm tin của một nhà nghiên cứu trước khi quan sát bất kỳ dữ liệu nào Một khi đã thu được dữ liệu, hàm mật độ tiên nghiệm được cập nhật trên cơ sở các thông tin mới Chúng ta gọi phân bố xác suất được cập nhật trên tham số quan tâm là phân bố hậu nghiệm, bởi vì nó phản ánh niềm tin xác suất sau khi nhìn thấy các dữ liệu

Theo định lý Bayes, phân bố xác suất hậu nghiệm được tính bằng cách nhân hàm hợp lý với mật độ tiên nghiệm Mật độ hậu nghiệm thu được theo chiến lược cập nhật đơn giản:

Hậu nghiệm ∝ tiên nghiệm hàm hợp lý

Trong đó: ∝ biểu thị mối quan hệ tỷ lệ Trong điều kiện của các hàm mật độ xác suất,

g(p|data) ∝ g(p)L(p)

Ví dụ: Giả sử rằng một mẫu ngẫu nhiên cỡ n = 16 được chọn và có y = 5 sinh viên

được báo cáo là thuận tay trái

Hàm hợp lý cho dữ liệu xác định bởi:

g(p| data) ∝ ( ) p5

(1 - p)11, 0 < p < 1

Trang 21

Đối với các khả năng nhị thức, một lớp tiên nghiệm thích hợp cho p là họ beta(a, b) Hàm mật độ tiên nghiệm beta(a,b) là tỷ lệ với:

g(p) ∝ pa - 1(1 - p)b - 1, 0 < p < 1

Chúng ta xem cuộc khảo sát trước đây như là một mẫu có kích thước a + b, bao gồm a thành công và b thất bại Trong ví dụ khảo sát, chúng ta có thể giả sử thông tin tiên nghiệm của chúng ta là tương đương với một cuộc điều tra sơ bộ mà chúng

ta đã quan sát thấy 1 sinh viên thuận tay trái và 9 sinh viên thuận tay phải Trong trường hợp này, chúng ta đang ngầm tuyên bố rằng chúng ta có thông tin tiên nghiệm tương đương với một cuộc điều tra mẫu của 10 cá nhân, và dự đoán tốt nhất của chúng ta về tỷ lệ p là: 1 / (1 + 9) = 0.1 Thông tin cụ thể này tương ứng với một

tiên nghiệm beta (2, 10) (được vẽ trong Hình 1.2, phía dưới)

Trong trường hợp mà có ít thông tin tiên nghiệm về p, để thuận tiện chúng ta thường giả sử rằng p có mật độ đồng đều trên khoảng (0, 1) Nhìn vào công thức tổng quát của mật độ beta, chúng ta thấy mật độ đồng đều là một trường hợp đặc biệt của mật độ beta với a = 1 và b = 1

Bởi vì mật độ beta là liên hợp với dữ liệu nhị thức, phân phối hậu nghiệm mà được tạo ra từ một mật độ beta cũng có dạng hàm mật độ beta Cụ thể, nếu chúng ta quan sát thấy y thành công, (n - y) thất bại và sử dụng tiên nghiệm beta (a, b), thì định lý Bayes đưa đến một mật độ hậu nghiệm cho p với hình thức:

Trang 22

Chương 2 - Các mô hình hồi quy cho dữ liệu nhị phân

2.1 Giới thiệu mô hình

Để minh họa cho mô hình, trước tiên chúng ta xét ví dụ sau: Giả sử ta muốn xây dựng mô hình hồi quy biểu diễn mối quan hệ giữa điểm thi của sinh viên trong một lớp xác suất dựa trên điểm của môn học tiên quyết (grade) và điểm SAT-phần toán (SAT-M) với dữ liệu cho trong bảng 2.1

Bảng 2.1: Các mức điểm giả thiết cho một lớp các sinh viên thống kê

Sinh viên Điểm môn xác suất Y i Điểm SAT-M Điểm môn học tiên quyết

Trang 23

Trong bảng trên, cột thứ nhất đánh số thứ tự các sinh viên trong lớp học thống kê

Cột thứ 2 liệt kê các điểm nhận được trong lớp học này Cột thứ 3 chỉ rõ nếu sinh viên thứ i thi đậu hoặc thi trượt Cột thứ 4 và thứ 5 cung cấp số điểm trong bài kiểm tra SAT-M và mức điểm của môn học tiên quyết Ta quan tâm đến biến cố “thi đậu” (điểm C) của sinh viên Gọi Yi là biến biểu thị kết quả của quan sát thứ i:

Tuy nhiên, nhìn vào biểu đồ này khó có thể thấy mối quan hệ giữa biến nhị phân Yi

và biến SAT-M Do đó người ta vẽ tỉ lệ của các sinh viên thi đậu trong mỗi nhóm dựa vào điểm giữa của khoảng nhóm (Hình 2.1b)

Trang 24

Hình 2.1b: Đường bình phương tối thiểu được mô tả bởi một đường chấm chấm trong đồ thị

Từ hình 2.1b, dường như có một mối quan hệ giữa số điểm SAT-M và xác suất thi

đậu khóa học thống kê Để mô phỏng mối quan hệ này, chúng ta phải giải quyết các câu hỏi sau:

1 Dạng hàm số nào là tốt nhất để mô tả mối quan hệ giữa xác suất thành công

pi và biến SAT-Mi ?

2 Cho một dạng hàm số phù hợp mô tả mối quan hệ này Làm thế nào chúng ta

có thể ước lượng các tham số trong mô hình và làm thế nào chúng ta có thể đánh giá sự không chắc chắn trong các ước lượng của chúng ta về những tham số đó?

3 Mô hình mô tả tốt như thế nào mối quan hệ hàm số giữa xác suất thành công

Trang 25

Trong phương trình cụ thể (2.1), chúng ta đã giả định rằng xác suất mà sinh viên i thi đậu pi, tăng (hoặc giảm) một cách tuyến tính đối với số điểm SAT-Mi của sinh viên đó

Xem lại hình 2.1b, giả định rằng có một mối quan hệ tuyến tính giữa các xác suất thành công pi và các điểm số SAT-toáni hình 2.1b mô tả đường bình phương tối thiểu Phương trình cho đường này là:

̂i = −3.44 + 0.0074 SAT-Mi (2.2)

Từ phương trình trên, chúng ta có thể dự đoán một sinh viên với số điểm SAT-M là

580 sẽ có xác suất thi đậu khóa học thống kê là:

Một giải pháp cho vấn đề này là sử dụng các hàm mà chỉ nhận các giá trị trong khoảng (0,1) Đối với các nhà thống kê, một lớp tự nhiên của các hàm như vậy được cung cấp bởi các hàm phân phối tích lũy Nhớ lại rằng, với bất kỳ biến X ngẫu

Trang 26

nhiên nào, hàm phân phối tích lũy của X tại một điểm a, ký hiệu là F(a), được định

nghĩa là xác suất mà X bé hơn hoặc bằng a:

F(a) = Pr(X )

Để đưa một hàm phân phối tích lũy vào trong mối quan hệ giữa các xác suất thi đậu

và biến SAT-M, chúng ta giả định rằng:

pi = F(β0 + β1 SAT-Mi) (2.3) Trong (2.3), F được gọi là hàm liên kết bởi vì nó liên kết hàm tuyến tính của các

biến SAT-Mi với các xác suất thi đậu pi Các hàm liên kết khác nhau thì sẽ sinh ra

các mô hình khác nhau

Có nhiều hàm liên kết khác nhau được đề xuất cho F(.) Trong đó chúng ta sẽ thảo

luận về ba hàm liên kết phổ biến nhất

a Mô hình Probit

Mô hình probit sử dụng hàm liên kết F(.) là hàm phân bố tích lũy chuẩn chuẩn hóa:

F(x) = 𝚽 (x) = ∫ Trong đó: là hàm mật độ chuẩn tắc:

Mô hình này được suy ra từ một mô hình biến tiềm ẩn (biến không quan sát được)

Y* nhận tất cả các giá trị trong khoảng (- ) xác định bởi:

Yi* = β0 + β1 SAT-Mi + i Với εi là biến ngẫu nhiên rút ra từ phân bố chuẩn tắc với μ = 0 và ζ2 =1

Khi đó:

Trang 27

Mô hình (2.3) được áp dụng cho dữ liệu của bảng 2.1 với F(.) = 𝚽(.) Thủ tục hợp

lý cực đại được sử dụng để ước lượng các hệ số hồi quy β0 và β1 Trong ví dụ này β0

= -17.96 và β1 = 0.0334

Như vậy các ước lượng hợp lý cực đại của các xác suất thành công pi là:

̂i = 𝚽 (-17,96 + 0,0334 * SAT-Mi ) (2.4) Bằng cách sử dụng (2.4), một sinh viên với số điểm SAT-M là 600 sẽ thi đậu lớp học thống kê với xác suất ước tính là: 𝚽 (-17,96 + 0,0334 × 600) = 0.98 Tương ứng, những sinh viên mà có số điểm SAT-M là 350 và 800 được dự đoán tương tự như vậy để thi đậu khóa học với xác suất nhỏ hơn 0.001 (nhưng lớn hơn 0) và lớn hơn 0,999 (nhưng bé hơn 1)

Trang 28

Hình 2.2.Sự minh họa cho các xác suất thi đậu của 2 sinh viên Mật độ chuẩn tắc thể hiện cho phân

bố của các biến ẩn và khu vực bóng mờ thể hiện cho xác suất mà các sinh viên đó thi đậu

Hình trên minh họa các xác suất thi đậu của 2 sinh viên với số điểm SAT-M tương ứng là: 574 và 525 Các dự đoán tuyến tính về các xác suất thành công cho 2 sinh viên này là: -17,96 + 0,0334 × 574 = 1.21 và -17,96 + 0,0334 × 525 = -0.43

Các giá trị này được xem như là những biến ẩn ( không quan sát được) Trong hình 2.2, các hàm mật độ chuẩn tắc định tâm tại 1.21 và -0.43 Nếu biến ẩn rút ra cho một sinh viên là > 0, sinh viên đó được giả sử là thi đậu khóa học, sự kiện này xảy

ra với xác suất bằng khu vực bóng mờ Ngược lại, nếu biến ẩn rút ra cho một sinh viên là 0, thì một thất bại xảy ra Bằng cách so sánh 2 biểu đồ, chúng ta thấy rằng phân bố của những biến ẩn đối với sinh viên có số điểm SAT-M cao hơn có phần lớn là > 0, và do đó những sinh viên này được dự đoán là có một xác suất thi đậu cao hơn

b Mô hình Logistic

Mô hình logistic sử dụng hàm liên kết F(.) là hàm phân bố logistic tiêu chuẩn:

Trang 29

Đại lượng: Log (

) được gọi là phép biến đổi logistic của xác suất thành công

pi , gọi tắt là logit

c Mô hình log-log.

Giống như mô hình probit và mô hình logistic, mô hình log-log cũng được suy ra từ một mô hình biến ẩn (giá trị không quan sát được) với sai số ε được rút ra từ phân

bố chuẩn với trung bình μ = 0 và phương sai ζ2 =

Mô hình log-log sử dụng hàm liên kết là hàm phân phối giá trị cực trị:

Trang 30

Không giống với các hàm phân phối logistic và phân phối chuẩn tắc, phân phối giá trị cực trị là bất đối xứng xung quanh giá trị 0

Áp dụng cho các dữ liệu của bảng 2.1, sử dụng ước lượng hợp lý cực đại để ước lượng các hệ số hồi quy β0, β1 Mô hình phù hợp cho các hàm liên kết logit và liên kết bổ sung log- log là:

log ( ) = −31.115 + 0.0578 SAT- Mi log [− log(1 ) ] = −17.836 + 0.0323 SAT-Mi

Từ phương trình, ta thấy các giá trị khác nhau của các tham số hồi quy chỉ ra sự khác biệt lớn giữa các mô hình được phù hợp Các tham số này không được so sánh một cách trực tiếp bởi vì những khác biệt của các hàm phân phối cơ bản Ví dụ độ lệch chuẩn của hàm phân phối logistic là ζ =

√ , trong khi độ lệch chuẩn của phân phối giá trị cực trị là ζ =

2.2 Ước lượng các tham số hồi quy

Trong phần trên, chúng ta nhận thấy mối quan hệ giữa biến SAT-M trong mô hình hồi quy nhị phân và các xác suất thi đậu pi là không thể mô hình hóa một cách đầy

đủ thông qua một mối quan hệ tuyến tính đơn giản Tương tự, tiêu chuẩn bình phương tối thiểu đối với việc ước lượng các hệ số hồi quy trong các thiết lập hồi quy cổ điển là không thích hợp đối với các mô hình hồi quy nhị phân

Trong tiêu chuẩn bình phương tối thiểu, các sai số quan sát được giả định là có phân phối Gausian, và các hệ số hồi quy được ước lượng bằng cách sử dụng phương pháp bình phương tối thiểu Tiếp tục ví dụ của phần trước, giả sử chúng ta mô hình hóa sinh viên GPA như một hàm tuyến tính của số điểm SAT-M cộng với một sai

số ngẫu nhiên thông qua mối quan hệ:

GPAi = β0 + β1 SAT-Mi + εi, i = 1, , n

Trang 31

Chúng ta cũng có thể giả sử rằng phân phối của sai số εi là phân phối Gausian với trung bình μ = 0 và phương sai ζ2 không đổi Do vậy, hàm mật độ của một biến ngẫu nhiên có phân phối N(0, ζ2) là:

f(x) =

√ exp(

).

Biến đổi chúng ta thấy hàm hợp lý cho β0, β1 và ζ2 là:

β = β0 + β1 SAT-Mi Tổng quát hơn, mô hình chứa r biến giải thích thì :

Trang 32

β = β0 + β1xi1 + β2xi2 + + βrxir Trong đó: xi1, xi2, …, xir là các giá trị ứng với thành phần thứ i

Đối với n quan sát độc lập với các xác suất thi đậu được mô tả bởi (2.9), hàm hợp lý

cho β với Y = { Y1, ,Yn} thu được là:

L(β) = ∏ –

Dựa vào hàm hợp lý (2.10), chúng ta có thể tiến hành ước lượng các tham số hồi quy theo hai cách hoặc là ước lượng theo phương pháp hợp lý cực đại hoặc là dựa trên phương pháp suy luận Bayes

2.2.1 Phương pháp ước lượng hợp lý cực đại

Các ước lượng hợp lý cực đại có thể thu được bằng cách sử dụng các thủ tục bình phương tối thiểu được sửa đổi (Nelder and Wedderbrn, 1972) Dựa trên sự tối đa hóa hàm Newton-Raphson, phương pháp bình phương tối thiểu có trọng số lặp (IRLS) đã đưa ra cho các nhà thống kê một cơ hội để phù hợp các mô hình hồi quy nhị phân

Phương pháp bình phương tối thiểu có trọng số lặp được thực hiện bởi việc hồi quy một đại lượng ngẫu nhiên phụ thuộc zi được điều chỉnh trên mô hình hồi quy β, sử

dụng một ma trận có trọng số W

Các thành phần vecto z được gán các giá trị:

zi = ηi +

, trong đó:

• ηi là giá trị hiện tại của yếu tố dự báo tuyến tính β

• Yi là số quan sát nhị thức đã quan sát được trong lần quan sát thứ i (Yi = 0, 1, ,

ni đối với các quan sát Bernoulli được gộp nhóm bởi các giá trị đồng biến chung)

Trang 33

• ni là số các quan sát nhị phân trong nhóm đồng biến i

• là đạo hàm của pi đối với yếu tố dự báo tuyến tính ηi, được đánh giá theo giá trị hiện tại của yếu tố dự đoán tuyến tính Ví dụ, trong một mô hình probit mà ở đó

.

Cho X biểu thị ma trận của các biến giải thích với các hàng (bao gồm cả cột 1 là

hệ số chặn, nếu có) và z là vecto của đại lượng ngẫu nhiên phụ thuộc được điều chỉnh, thì một thuật toán để thu được các ước lượng hợp lý cực đại và ma trận hiệp biến tiệm cận bao gồm các bước sau:

0 Khởi tạo tham số hồi quy ̂ = 0

1 Tính toán yếu tố dự báo tuyến tính: ̂ = ̂, hoặc trong ma trận dạng ̂ = X ̂

2 Tính xác suất được phù hợp: ̂ = F( ̂)

3 Tính đạo hàm của hàm liên kết: dp i /dη i = dF (ηi)/dηi

4 Tính z

5 Tính ma trận trọng số W

6 Tính toán ma trận hiệp phương sai tiệm cận ̂ ( W X)-1

7 Cập nhật giá trị của hệ số hồi quy theo ̂ = ̂ Wz

Trang 34

8 Lặp lại các bước (1) - (7) cho đến khi thay đổi ước lượng các hệ số hồi quy ̂ và

hợp lý-log là đủ nhỏ Trong hầu hết các ứng dụng, 6 hoặc 7 bước lặp của thuật toán

này là đủ

Khi kết thúc thuật toán, ̂ chứa ước lượng hợp lý cực đại của các hệ số hồi quy, ̂

chứa ma trận hiệp biến tiệm cận và ̂ chứa các xác suất được phù hợp

2.2.2 Phương pháp Bayes

Chọn phân phối tiên nghiệm:

Giả sử có r biến giải thích x1, …, xr Để đưa vào một cách chủ quan thông tin tiên

nghiệm, chúng ta xét b = r + 1 các giá trị khác nhau của các biến giải thích Trong

ví dụ lớp thống kê, có r = 1 biến giải thích (SAT-M), vì vậy chúng ta nghiên cứu b

= 2 giá trị khác nhau của số điểm SAT-M Đối với mỗi giá trị của SAT-M, chúng ta

chỉ rõ 2 giá trị:

i Một dự đoán tại xác suất thi đậu pi – gọi dự đoán này là gi

ii Một tuyên bố về việc chúng ta chắc chắn như thế nào về những dự đoán này Kí hiệu cỡ mẫu cho tiên nghiệm này là Ki

Trong ví dụ lớp thống kê, chúng ta chọn 2 giá trị SAT-M là 500 và 600 là các giá

trị mà chúng ta đã sẵn sàng để đánh giá các xác suất thi đậu tiên nghiệm Đối với

mỗi số điểm SAT-M này, chúng ta ước lượng xác suất mà một sinh viên với những

số điểm này sẽ thi đậu Ngoài ra, chúng ta cũng chỉ ra số quan sát nhiều như thế nào

để các ước lượng trên là có giá trị Ví dụ, chúng ta có thể ước lượng rằng một sinh

viên với số điểm SAT-M là 500 có xác suất thi đậu khóa học là 0.3, trong khi một

sinh viên với số điểm SAT-M là 600 có xác suất thi đậu là 0.7 Với 5 quan sát, đầu

vào tiên nghiệm này tương ứng với các giá trị g1 = 0.3, g2 = 0.7, K1 = 5 và K2 = 5

Để đưa những dự đoán này vào trong một mật độ tiên nghiệm, chúng ta phù hợp

thông tin tiên nghiệm này theo hàm mật độ beta với các tham số Ki gi và Ki(1 – gi )

Trang 35

Nếu chúng ta giả sử rằng các xác suất b = ( p1 , , pb ) là một tiên nghiệm độc lập thì mật độ chung của xác suất này được xác định bởi:

g(p1, , pb) ∝ ∏ – (2.11) Phân phối này trên xác suất {pi} bao hàm một tiên nghiệm trên vecto hồi quy β

Cho F(.) biểu thị hàm phân phối liên kết và f(.) là đạo hàm của nó, tiên nghiệm được

cảm sinh dựa trên (2.11) là:

Mô phỏng từ phân phối hậu nghiệm:

Nhiều phương pháp lấy mẫu Gibbs và các thuật toán Metropolis đã được đề xuất cho việc thu thập các mẫu từ phân phối hậu nghiệm chung dựa trên các tham số hồi quy trong các mô hình nhị phân Ở đây chúng ta xem xét sự thay đổi của bộ lấy mẫu Metropolis – Hasting mà xuất hiện để làm việc tốt cho các vấn đề hồi quy nhị phân

mà ở đó số lượng các biến giải thích là không vượt quá 10

Thuật toán mô phỏng theo Metropolis – Hasting này sử dụng ước lượng hợp lý cực đại ̂ như một giá trị khởi đầu của nó và ma trận hiệp biến tiệm cận ̂ của ước lượng hợp lý cực đại

Tiếp theo, giả sử ζMH biểu thị một tham số có thể điều chỉnh được trong kế hoạch Metropolis – Hasting và m là các cập nhật được yêu cầu Với kí hiệu này, thuật toán Metropolis – Hasting đối với việc lấy mẫu từ hậu nghiệm dựa trên các tham số hồi quy có thể được xác định theo các bước sau:

Trang 36

4 Nếu u < r, đặt β(j) = β(c), ngược lại thì đặt β(j)

= β(j - 1) và a = a + 1

5 Nếu j < m , trở lại (1)

Các bước (1) - (4) được lặp đi lặp lại một số lượng lớn các lần, cho đến khi một cỡ mẫu thu được là đủ lớn, giá trị ζMH nên được điều chỉnh để tỉ lệ chấp nhận: (0.25, 0.50) Việc giảm ζMH làm tăng tỷ lệ chấp nhận, và việc tăng ζMH làm giảm

Các sai số chuẩn tiệm cận của những ước lượng này (thu được từ ma trận ước lượng hiệp biến ̂) tương ứng là 12.56 và 0.0255

Trang 37

Chúng ta xem xét hai phân tích Bayesian: một phân tích sử dụng tiên nghiệm đồng đều (tiên nghiệm không mang thông tin) và một phân tích sử dụng tiên nghiệm mang thông tin

Trước tiên, chúng ta xem xét tiên nghiệm là mật độ đồng đều Khi đó, mật độ hậu nghiệm chung cho (β0, β1) là:

Trang 38

Hình 2.3: Biểu đồ phân tán và biểu đồ biên của các giá trị được mô phỏng từ phân phối

hậu nghiệm của (β0, β1) sử dụng tiên nghiệm đồng đều

Tất cả các giá trị được mô phỏng nằm gần một đường có độ dốc âm, điều này chỉ ra

rằng các tham số β0 và β1 là không tương quan Những biểu đồ này là hình ảnh của

các hàm mật độ biên của hai tham số β0 và β1 Chú ý rằng cả hai hàm mật độ biên

đã lệch ra khỏi gốc tọa độ, cho thấy cả 2 xấp xỉ chuẩn với mật độ hậu nghiệm và

phân phối chuẩn tiệm cận của ước lượng hợp lý cực đại là không chính xác Bảng

2.2 hiển thị tóm tắt các hàm phân phối hậu nghiệm biên cho các tham số β0 và β1

Bảng 2.2: Hợp lý cực đại và bản tóm tắt các số liệu Bayesan đối với sự phù hợp của mô hình

logit cho tập dữ liệu lớp thống kê

5 phân vị -61.99 0.0326

50 phân vị -35.67 0.0661

95 phân vị -17.26 0.1142 97.5 phân vị -14.73 0.1266

Bảng 3.2 hiển thị tóm tắt của các phân bố hậu nghiệm biên cho các tham số β0 và

β1 Trung bình hậu nghiệm, các độ lệch chuẩn, và điểm phân vị được chọn lựa đã

được cung cấp Lưu ý rằng: trung bình hậu nghiệm của β1 là 0.0695, trong khi mode

hậu nghiệm ( mà tương đương với MLE) là hơi nhỏ hơn, lấy giá trị = 0.0578 Các

điểm phân vị được cung cấp trong bảng có thể được sử dụng cho ước lượng khoảng

.Ví dụ, một khoảng xác suất 95% cho β1 là (0.0282, 0.1266)

Giả sử chúng ta quan tâm đến việc ước lượng các xác suất thi đậu pi cho tất cả các

sinh viên Những xác suất này được xác định bởi:

Trang 39

pi =

(2.13)

Bằng cách thay thế các giá trị được mô phỏng của β0 và β1 vào (2.13), chúng ta thu được biểu đồ các ước lượng của phân phối hậu nghiệm đối với các xác suất thành công được phù hợp cho mỗi sinh viên Những hàm phân phối này được hiển thị trong Hình 2.4

Hình 2.4: Các biểu đồ đường của các phân phối hậu nghiệm cho các xác suất được phù hợp pi

Trong hình trên, mỗi đoạn thẳng chỉ ra vị trí của các điểm phân vị thứ 5, 50, và 95 của các hàm phân phối này Các giá trị đã quan sát của Yi được thể hiện rõ bằng những chấm đen

Mỗi hậu nghiệm được mô tả như một đường thẳng đứng, số trung vị (median) của mỗi phân phối được chỉ định bởi một vòng tròn và các điểm cuối của các đoạn thẳng tương ứng với các điểm phân vị thứ 5 và 95 của các hàm phân phối Chú ý rằng, hệ số bất đối xứng của các hàm mật độ hậu nghiệm tập trung gần các giá trị 0

và 1

Ngày đăng: 03/03/2017, 13:05

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đặng Hùng Thắng (2010), Thống kê ứng dụng,”” NXB Khoa học và kỹ thuật, Vĩnh Phúc Sách, tạp chí
Tiêu đề: Thống kê ứng dụng",”
Tác giả: Đặng Hùng Thắng
Nhà XB: NXB Khoa học và kỹ thuật
Năm: 2010
[2] Đào Hữu Hồ (2009), Xác suất – Thống kê, NXB Đại học Quốc Gia Hà Nội, Hà Nội Sách, tạp chí
Tiêu đề: Xác suất – Thống kê
Tác giả: Đào Hữu Hồ
Nhà XB: NXB Đại học Quốc Gia Hà Nội
Năm: 2009
[3] Nguyễn Văn Hữu, Nguyễn Hữu Dư (2011), Phân tích thống kê và dự báo, NXB Đại học Quốc Gia Hà Nội, Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Phân tích thống kê và dự báo
Tác giả: Nguyễn Văn Hữu, Nguyễn Hữu Dư
Nhà XB: NXB Đại học Quốc Gia Hà Nội
Năm: 2011
[4] Alan Agresti (2010), Analysis of Ordinal Categorial Data, NXB Wiley, Canada Sách, tạp chí
Tiêu đề: Analysis of Ordinal Categorial Data
Tác giả: Alan Agresti
Nhà XB: NXB Wiley
Năm: 2010
[5] Ann A. O’Connell (2006), Logistic regression models for ordinal response variables, NXB Sage, London Sách, tạp chí
Tiêu đề: Logistic regression models for ordinal response variables
Tác giả: Ann A. O’Connell
Nhà XB: NXB Sage
Năm: 2006
[6] J. Scott Long (1997), Regression models for Categorial and Limited dependent variables, NXB Cambridge University Press, London Sách, tạp chí
Tiêu đề: Regression models for Categorial and Limited dependent variables
Tác giả: J. Scott Long
Nhà XB: NXB Cambridge University Press
Năm: 1997
[9] Walter A. Shewhart and Samuel S. Wilks (2013), Applied Logistic Regression, NXB Wiley, Canada Sách, tạp chí
Tiêu đề: Applied Logistic Regression
Tác giả: Walter A. Shewhart and Samuel S. Wilks
Nhà XB: NXB Wiley
Năm: 2013

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w