Các lựa chọn trả lời là: Rất khác biệt strongly disagree SD Khác biệt Disagree D Hoàn toàn như nhau Strong agree SA Biến tính trạng này liên kết với biến ẩn liên tục y∗, trong đó biến y∗
Trang 1Mục lục
1.1 Mô hình biến ẩn đối với biến thứ tự 2
1.1.1 Giả thiết về phân phối của sai số 4
1.1.2 Xác suất của giá trị quan sát 5
1.2 Xác định mô hình 6
1.3 Ước lượng 7
1.4 Giải thích 9
1.4.1 Hiệu quả riêng phần của các biến độc lập đối với y∗ 9
1.4.2 Xác suất dự báo 11
1.4.3 Biến đổi riêng phần của biến độc lập đối với xác suất dự báo 14
1.4.4 Biến đổi gián đoạn 15
1.4.5 Mô hình số chênh trong mô hình logit thứ bậc 18
1.5 Giả thuyết hồi quy song song 20
1.6 Các mô hình liên kết đối với dữ liệu tính trạng 24
1.6.1 Mô hình hồi quy ghép nhóm 24
1.6.2 Các mô hình khác về dữ liệu tính trạng 25
2 Mô hình logit đa thức đối với biến đầu ra định danh và các mô hình liên quan 26 2.1 Giới thiệu về mô hình logit đa thức 27
2.2 Mô hình logit đa thức 29
2.2.1 Mô hình MNLM được xét như mô hình xác suất 30
2.2.2 Mô hình MNLM như một mô hình tỉ số 31
2.2.3 Mô hình logit đa thức như mô hình lựa chọn rời rạc 32
2.3 Ước lượng hợp lí cực đại 33
2.4 Tính toán và kiểm tra các hệ số tương phản khác 34
2.5 Hai kiểm định hữu dụng 36
2.5.1 Kiểm tra biến không có ảnh hưởng 36
2.5.2 Kiểm định về hai đầu ra có thể được kết hợp với nhau 37
2.6 Giải thích mô hình 38
2.6.1 Xác suất dự báo 39
2.6.2 Biến đổi riêng 39
2.6.3 Biến đổi rời rạc 40
2.6.4 Lí giải tỉ số chênh 42
2.6.5 Vẽ các hệ số 44
2.7 Mô hình logit có điều kiện 47
Trang 23 Sử dụng mô hình logit thứ bậc để phân tích chất lượng sinh trưởng của
3.1 Giới thiệu về địa bàn nghiên cứu và mục đích nghiên cứu 51
3.2 Mô tả dữ liệu 52
3.3 Phân tích chất lượng sinh trưởng của cây 56
3.3.1 Phân tích bộ số liệu “Rừng nguyên sinh” 56
3.3.2 Phân tích phẩm chất gỗ đối với dữ liệu từ rừng trồng 63
3.4 Bàn luận về các kết quả của mô hình hồi quy 66
Trang 3Lời mở đầu
Trong nghành Lâm Nghiệp, một trong những công việc rất quan trọng làđánh giá chất lượng sinh trưởng của rừng Từ kết quả thu được, người ta sẽđưa ra các phương pháp bảo tồn, phát triển hoặc khai thác rừng một cáchhiệu quả nhất Thông thường, các chuyên gia đến tận nơi đo đạc, khảo sát vàdựa vào cả kinh nghiệm của mình để đưa ra kết luận rằng cây được xem xét
là sinh trưởng tốt, sinh trưởng trung bình hay sinh trưởng kém Một phươngpháp như vậy là khá tốn kém và khó thực hiện khi những người có trình độcao, kinh nghiệm dày dặt không nhiều Vấn đề đặt ra là có phương pháp nào
ít tốn kém hơn nhưng cũng có độ chính xác cao hay không Trong luận vănnày đưa ra một cách tiếp cập theo phương pháp thống kê là xây dựng môhình hồi quy với biến phụ thuộc là chất lượng sinh trưởng, biến giải thích làcác tiêu chí đo đạc được của cây Với mục tiêu như vậy, luận văn này có tên
“ Phân tích chất lượng gỗ và các vấn đề liên quan”
Luận văn được chia thành ba chương Chương 1 giới thiệu về mô hình hồiquy thứ bậc với biến phụ thuộc là biến tính trạng có thứ tự Trong chươngnày, ta nghiên cứu các mô hình là mô hình Probit, mô hình Logit và mô hình
số chênh Những phương pháp diễn giải các kết quả rất hữu ích của mô hìnhnhư: hiệu quả riêng, biến đổi gián đoạn cũng được giới thiệu trong chươngnày
Chương thứ 2 trình bày về mô hình Logit đa thức Mô hình này áp dụngvới biến phụ thuộc là biến định danh Các diễn giải về kết quả mô hình nàyđược xem như là sự mở rộng đối với các diễn giải của mô hình Logit thứbậc, tuy nhiên khi biến phụ thuộc có nhiều tính trạng hoặc có nhiều biếngiải thích thì mô hình khá phức tạp do có nhiều hệ số Khó khăn này đượcgiải quyết bằng phương pháp vẽ đồ thị thể hiện mối liên hệ giữa các hệ số.Chương thứ 3 là phần chạy các mô hình từ dữ liệu thực tế và diễn giảicác kết quả từ mô hình đã xây dựng Trong chương này, một số các kết quảđạt được có những ý nghĩa thực tế như: chất lượng sinh trưởng của cây rừngphụ thuộc mạnh vào những yếu tố đường kính tán, chiều cao, đường kính1m3 Các loài cây khác nhau cũng có sự đánh giá khác nhau về sinh trưởng,
Trang 4mức độ quý hiếm của cây không có ý nghĩa trong việc đánh giá đó Đối vớichất lượng gỗ của rừng trồng thì yếu tố quyết định để phân loại chất lượng
gỗ là đường kính 1m3 Các yếu tố khác có ảnh hưởng không đáng kể
Bản luận văn này được hoàn thành với sự hướng dẫn nghiêm khắc và chỉbảo tận tình của PGS.TS Hồ Đăng Phúc Thầy đã dành rất nhiều thời gianquý báu của mình để hướng dẫn, giải đáp thắc mắc cho tôi trong suốt quátrình bắt đầu tới khi hoàn thành luận văn Nhân dịp này, tôi xin bày tỏ lòngbiết ơn sâu sắc nhất tới thầy Hồ Đăng Phúc
Qua đây, tôi xin cảm ơn tới các thầy cô khoa Toán –Cơ – Tin, trường Đạihọc Khoa học Tự nhiên, Đại học Quốc gia Hà Nội, đặc biệt là các thầy đãtham gia giảng dạy khóa Cao học Toán 2011-2013
Tôi cũng xin cảm ơn gia đình, các bạn và mọi người đã giúp đỡ, cổ vũ đểtôi có thể khác phục những khó khăn gặp phải trong suốt quá trình học
Hà Nội, ngày 11 tháng 12 năm 2014
Học viên
Vũ Ngọc Trìu
Trang 5Biến thứ tự (ordinal variable) là biến có các tính trạng được sắp thứ tự.
Ví dụ trong cuộc điều tra các câu hỏi được đưa ra và phương án trả lời cóthể là các lựa chọn: tuyệt đối đồng ý, đồng ý, không đồng ý và hoàn toànkhông đồng ý
Biến định danh (nominal variable) là biến có nhiều tính trạng và các tínhtrạng không có thứ hạng Ví dụ tình trạng hôn nhân có thể là các tính trạngsau: độc thân, đã kết hôn, li dị, góa bụa
Đối với biến có thứ tự, các tính trạng có thể được sắp thứ tự từ thấp tới cao,nhưng khoảng cách giữa các tính trạng gần kề chưa được xác định Nhữngtính trạng này được đánh số lần lượt và mô hình hồi quy tuyến tính (LRM)
có thể được áp dụng Tuy nhiên, ta ngầm giả thiết rằng khoảng cách giữa cáctính trạng là bằng nhau Một vấn đề là khi dùng mô hình hồi quy tuyến tínhđối với biến LDV, ước lượng có thể chệch và vì thế dẫn tới những kết quả sailầm, thậm chí không chấp nhận được Cho nên các mô hình phi tuyến được
đề xuất mặc dù những lí giải về nó phức tạp hơn nhiều
Trong chương đầu tiên, ta xét các mô hình logit thứ bậc và probit thứ bậc(ordered logit and ordered probit models) Hai mô hình này có quan hệ chặt
Trang 6chẽ với nhau và được gọi chung là mô hình hồi quy thứ bậc (ordered regressionmodels, ORM) Một số mô hình liên quan với hai mô hình trên cũng đượcgiới thiệu.
1.1 Mô hình biến ẩn đối với biến thứ tự
Mô hình hồi quy thứ bậc ORM có thể nhận được từ một mô hình hồi quythông thường với biến phụ thuộc là một biến liên tục Trong mô hình ORM,biến phụ thuộc định lượng là một biến ẩn y∗ có thể nhận giá trị từ−∞ tới+∞, song bị ẩn dưới biến phụ thuộc quan sát được y thông qua một ánh xạđược xác định như sau:
yi = m khi τm−1 ≤ y∗ < τm, m = 1, , JCác điểm τ được gọi là điểm cắt Tính trạng đầu tiên và cuối cùng tươngứng với m = 1 và m = J được định nghĩa bởi khoảng mở tương ứng với
τ0 = −∞ và τJ = +∞ Để hiểu rõ hơn về ý tưởng trên, ta xét ví dụ sau đây
về cuộc điều tra phỏng vấn do General Social Survey Trong một cuộc điềutra phỏng vấn, mọi người được yêu cầu trả lời câu hỏi sau đây: “Một người
mẹ làm việc thì tình cảm và sự quan tâm tới con cái của họ có như nhữngngười mẹ không đi làm hay không ?” Các lựa chọn trả lời là:
Rất khác biệt (strongly disagree) SD
Khác biệt (Disagree) D
Hoàn toàn như nhau (Strong agree) SA
Biến tính trạng này liên kết với biến ẩn liên tục y∗, trong đó biến y∗ chỉ racác mức khác biệt đối với câu hỏi về “Người mẹ làm việc thì tình cảm và sựquan tâm mà họ dành cho con cái có như người mẹ không đi làm không?”.Biến quan sát được y được xác định thông qua y∗ bởi ánh xạ sau:
Ánh xạ này được minh họa bằng hình vẽ sau
Đường thẳng nét liền thể hiện biến ẩn y∗, các điểm cắt được xác định vàđược đánh dấu bằng τ1, τ2 và τ3 Giá trị của biến quan sát y trên mỗi khoảngcủa y∗ được đánh dấu với đường chấm Cấu trúc của mô hình là:
yi∗ = xiβ + εi
Trang 7Trong đó, xi là véc tơ hàng với các số 1 ở cột đầu tiên và quan sát thứ i đốivới biến độc lập xk được xuất hiện ở cột thứ k + 1, β là véc tơ hệ số với hệ
số chặn β0
Hình 1.1: Hồi quy với biến ẩn y∗ Hình 1.2: Hồi quy với biến y
Mô hình chỉ chứa một biến độc lập có cấu trúc như sau:
y∗i = α + βxi + εiTrong Hình 1.1, biến ẩn y∗ là trục tung, các giá trị 15, 0 ,-5 phân chia tỷ lệcủa y∗ Các điểm cắt τ1, τ2 và τ3 được chỉ ra bởi đường ngang chấm chấm.Đường này chia y∗ thành 4 miền giá trị của biến quan sát y, τ0 = −∞ ở
vị trí dưới cùng và τ4 ở trên cùng Đường hồi quy E(y∗|x) = α + βx với
α = 1, β = 0.1 được vẽ là đường liền Vì y∗ không quan sát được nên α, βkhông ước lượng được bằng hồi quy y∗ theo x
Trong Hình 1.2 vẽ biến quan sát y theo x, biến y được xác định từ biến ẩn
y∗ bằng cách gán tất cả các trường hợp mà y∗ lớn hơn τ3 tương ứng với số 4,trường hợp y∗ nằm giữa τ2 và τ3 là số 3 Tương tự cho các trường hợp tiếptheo của y∗ Uớc lượng bình phương tối thiểu (OLS) của hàm hồi quy y theo
x, được chỉ ra bởi đường đứt với ước lượng độ dốc là 0,026
Đường hồi quy y theo x không xấp xỉ đường hồi quy y∗ theo x, vì đường này
có độ dốc lớn hơn 4 lần
Đường hồi quy trong Hình 1.1 và Hình 1.2 trông có vẻ giống nhau bởi vì tỷ
lệ của các trục là khác nhau Nếu trục y trong Hình 1.2 được vẽ với cùng tỷ
lệ như Hình 1.1 thì đường hồi quy y theo x trông như đường ngang Một vấn
đề khác khi hồi quy y theo x là sai số không có phân phối chuẩn và phươngsai không thuần nhất Tổng quát, mô hình hồi quy tuyến tính (LRM) chỉ có
Trang 8cùng kết quả như mô hình hồi quy thứ bậc (ORM) nếu những điểm cắt cókhoảng cách như nhau Khi khoảng cách giữa các điểm này khác nhau thìkết quả của mô hình hồi quy tuyến tính (LRM) có thể đưa tới những kết quảsai lầm.
Hình 1.1 còn chỉ ra một tính chất quan trọng của mô hình ORM Trong hìnhnày, bạn có thể thêm hoặc bỏ đi những điểm cắt mà không làm thay đổicấu trúc mô hình Tưởng tượng rằng, ta vẽ một đường ngang giữa τ1 và τ2.Điều này tương ứng thêm một tính trạng khác như “ không ý kiến” giữa “khác biệt ” và “ giống nhau” Đường hồi quy của y∗ theo x sẽ không bị ảnhhưởng Trong Hình 1.2, nếu ta thêm một tính trạng mới sẽ tương ứng thêmmột đường ngang mới của biến quan sát y, điều này ảnh hưởng tới kết quảcủa hồi quy y theo x
Để dùng được phương pháp ước lượng hợp lí cực đại, ta phải giả thiết vềphân phối của sai số Ta xét hai phân phối là phân phối chuẩn và phân phốilogistic tương ứng với mô hình probit thứ bậc và logit thứ bậc Đối với môhình probit thứ bậc, sai số ε được giả thiết có phân phối chuẩn với trungbình 0 và phương sai 1 (phân phối chuẩn tắc) Hàm mật độ của phân phối
Trang 91.1.2 Xác suất của giá trị quan sát
Khi phân phối của sai số đã xác định, ta có thể tính được xác suất củagiá trị quan sát y với giá trị x biết trước Hình 1.3 minh họa phân phối của
y∗ đối với 3 giá trị của x Sai số có phân phối logitic hoặc chuẩn xung quanhđường hồi quy E(y∗|x) = α + βx Xác suất để biến đầu ra nhận giá trị là mtương ứng với điểm cắt τm−1 và τm Xác suất để sai số rơi vào miền mà biến
y∗ nằm trong khoảng [τm−1; τm) được tính như sau: Đầu tiên, ta tính xácsuất khi y = 1 Với y = 1 khi đó y∗ nhận các giá trị trong khoảng (−∞, τ1).Điều này chỉ ra rằng:
Hình 1.3: Phân phối của y∗ theo x trong mô hình hồi quy thứ bậc
P r(yi = 1 | xi) = P r(τ0 ≤ y∗ < τ1 | xi)Thay y∗ = xβ + ε và phương trình trên, ta có
P r(yi = 1 | xi) = P r(τ0 ≤ xiβ + εi < τ1 | xi)
Từ đó suy ra
P r(yi = 1 | xi) = P r(τ0− xiβ ≤ εi < τ1− xiβ | xi)Vậy, ta có kết quả:
P r(yi = 1 | xi) = F (τ1− xiβ) − F (τ0− xiβ)Với cách làm tương tự, khi biến quan sát nhận giá trị y = m, ta có
P r(yi = m) | xi = F (τm − xiβ) − F (τm−1 − xiβ) (1.3)Chú ý rằng, trong công thức trên vì F (τ0− xiβ) = F (−∞) = 0 và F (τJ −
xiβ) = F (+∞ − xiβ) = 1 Do đó, đối với mô hình có 4 biến đầu ra, như ví
Trang 10dụ được xét ở trên, công thức xác suất của mô hình probit thứ bậc là
1.2 Xác định mô hình
Vì y∗ là biến ẩn, trung bình và phương sai của nó không ước lượng được.Phương sai được xác định bằng giả thiết V ar(ε | x) = π2/3 đối với mô hìnhlogit và V ar(ε | x) = 1 với mô hình probit (ordered probit model) Mặc dù
đã giả thiết phương sai xác định nhưng trung bình của biến ẩn y∗ vẫn chưađược biết Kết quả của điều này có thể được thấy bằng việc xét mô hình
y∗ = α + βx + ε với điểm cắt τm Các tham số α và τm được coi như tham
số “chính xác” theo nghĩa chúng đã được sử dụng để tạo ra dữ liệu được lưutrữ Ta định nghĩa tập tham số mới:
α∗ = α − δ; τ∗ = τ − δ (1.4)
Trang 11trong đó, δ là hằng số bất kì Xác suất để y = m luôn được xác định với bất
cứ tập tham số nào như vậy được dùng Ta có
hệ số chặn α trong mô hình cấu trúc luôn có thể được điều chỉnh bằng việcthay đổi các ngưỡng của điểm cắt τm Như vậy, có thể nói mô hình khôngxác định Tuy nhiên, có rất nhiều giả thiết có thể làm cho mô hình trở lênxác định được Hai giả thiết thường được dùng nhất bao gồm:
1 Giả sử rằng τ1 = 0 Điều này liên quan tới đặt δ = τ1 Đây là giả thiếtnhận dạng được dùng với mô hình nhị phân (biến quan sát nhận 2 giátrị 0 hoặc 1)
2 Giả sử rằng α = 0 Điều này liên quan tới đặt δ = α trong phương trình(1.4)
Cả hai giả thiết để xác định mô hình đều chứa một ràng buộc đối với tham
số của mô hình Những giả thiết khác nhau để xác định mô hình cho ta cáccách tham số hóa khác nhau đối với mô hình đang xét Việc lựa chọn cáchtham số hóa là bất kì miễn sao không ảnh hưởng tới các hệ số β khác với hệ
số chặn β0 và không ảnh hưởng tới các phép kiểm định thống kê
1.3 Ước lượng
Đặt β là véctơ tham số từ cấu trúc mô hình với hệ số chặn β0 ở hàngđầu tiên Đặt τ là véctơ chứa tham số là các điểm cắt Để mô hình được xácđịnh, thì hoặc β0 hoặc τ1 bằng 0 Từ phương trình (1.3), ta có
P r(yi = m | xi, β, α) = F (τm− α − xβ) − F (τm−1 − α − xβ) (1.6)Xác suất của giá trị bất kì của biến quan sát y với điều kiện xi là
Trang 12Ví dụ: Mô hình ORM và LRM đối với quan điểm về người mẹ làmviệc
Năm 1977 và 1989 General Social Sunver đề nghị phản hồi với ước đoáncủa phát biểu sau: “ Một người mẹ đi làm có tình cảm và sự chăm sóccon cái như người mẹ ở nhà hay không?” Câu trả lời được mã hóa bằngbiến WARM, với các tính trạng được gán tương ứng với các số như sau:
1 = SD; 2 = D; 3 = A; 4 = SA Mẫu gồm 2293 quan sát, tỉ lệ phần trămtương ứng là 13, 32, 37, 18 Các biến dùng trong phân tích được mô tả ởBảng 1.1 Bảng 1.2 chứa ước lượng đối với 4 mô hình Cột 1 chứa ước lượngđối với mô hình tuyến tính (LRM):
W ARM = β0+β1Y R89+β2M ALE+β3W HIT E+β4AGE+β5ED+β6P RST +εCột 2 chứa ước lượng đối với mô hình probit thứ bậc với ràng buộc τ1 = 0 ;cột 3 chứa ước lượng của mô hình probit thứ bậc với β0 = 0 và cột 4 chứaước lượng của mô hình logit thứ bậc với β0 = 0 Trong phần tiếp, ta chỉ racách lí giải hệ số bằng biến ẩn và cách dùng những hệ số này để tính ảnhhưởng về xác suất của biến quan sát
Trang 13Bảng 1.1: Thống kê cơ sở các biến ở ví dụ 1 Tên biến Trung bình Độ lệch Giá trị Giá trị Mô tả
chuẩn nhỏ nhất lớn nhất
AGE 44.94 16.78 18.00 89.00 Tuổi của người được điều tra
Bảng 1.2: Hệ số hồi quy của các mô hình LRM; probit và logit thứ bậc
Tên biến LRM Orderd probit Orderd probit Orderd logit
Đối với mô hình hồi quy thứ bậc ORM
y∗ = xβ + εbiến đổi riêng của y∗ theo xk là:
• Đối với việc tăng lên 1 đơn vị của xk, y∗ được kì vọng biến đổi βk đơn
vị nếu tất cả các biến độc lập giữ nguyên giá trị không đổi
Vì phương sai của y∗ không thể ước lượng được từ dữ liệu quan sát được nên
ý nghĩa của biến đổi β đơn vị của y∗ là không rõ ràng Sự lí giải nên dựa trên
Trang 14hệ số của mô hình hồi quy chuẩn hóa đầy đủ, là mô hình hồi quy có được saukhi biến phụ thuộc và tất cả các biến độc lập đều được đưa về dạng chuẩnhóa, có kì vọng bằng 0 và phương sai bằng 1 Nếu σy∗ là độ lệch chuẩn củabiến ẩn y∗, khi đó trong mô hình hồi quy hệ số chuẩn hóa đối với xk là
βSy∗
k = βk
σy ∗
Hệ số có thể được lí giải như sau
• Khi xk tăng 1 đơn vị thì y∗ được kì vọng tăng thêm βkSy∗lần độ lệch chuẩnnếu các biến độc lập khác được giữ nguyên giá trị không đổi
Hệ số chuẩn hóa chỉ ra hiệu quả của biến độc lập đối với một đơn vị đo củaban đầu nó Hệ số chuẩn đầy đủ tiêu chuẩn hóa biến độc lập theo nghĩa nếu
σk là độ lệch chuẩn của xk, khi đó hệ số chuẩn đầy đủ là:
βkS = βkσk
σy ∗
Hệ số chuẩn hóa đầy đủ của mô hình hồi quy được lí giải như sau:
• Đối với việc tăng lên 1 đơn vị độ lệch chuẩn của xk thì y∗ được kì vọngtăng βkS lần độ lệch chuẩn nếu các biến độc lập khác được giữ nguyêngiá trị không đổi
Phương sai của y∗ được ước lượng bởi:
ˆ
σ2y∗ = ˆβ0V ar(x) ˆ\ β + V ar(ε) (1.10)
ở đó \V ar(x) là ma trận hiệp phương sai của các biến độc lập; ˆβ chứa ướclượng có được bằng phương pháp hợp lí cực đại và var(ε) = 1 đối với môhình probit thứ bậc và var(ε) = π2/3 đối với mô hình logit thứ bậc
Hệ số trong Bảng 1.3 được tính từ độ dốc trong Bảng 1.2 và mô tả thống kê
Trang 15trong Bảng 1.1 Phương sai của y∗ được ước lượng bằng cách sử dụng đẳngthức (1.9) với kết quả ˆσ2
y ∗ = 3.77 đối với mô hình logit thứ bậc và ˆσ2
y ∗ = 1.16đối với mô hình probit thứ bậc Chú ý ˆσ2y∗
L/ ˆσy2∗
P = 3, 25 tỉ số này rất gần với
tỉ số giả thiết var(εP)/var(εL) = 3, 29 Sự sai khác về phương sai của y∗giũa hai mô hình được phản ánh trong độ lớn của các β ở đó hệ số của môhình logit lớn hơn mô hình probit từ 1,0 đến 1,8 lần Hệ số chuẩn hóa đầy
đủ và hệ số chuẩn hóa của y∗ gần như bằng nhau
Bên cạnh mô hình hồi quy chuẩn hóa đầy đủ nêu trên, ta còn sử dụng môhình hồi quy chuẩn hóa không đầy đủ với biến phụ thuộc được chuẩn hóa,còn các biến độc lập được giữ nguyên
Xác suất dự báo tại y=m khi biết trước x là:
P r(y = m | x) = F (ˆτm− x ˆβ)) − F (ˆτm−1 − x ˆβ)Những xác suất này có thể được dùng bằng nhiều cách để phân tích mốiquan hệ giữa các biến độc lập và biến tính trạng phụ thuộc
1 Xác định giá trị trung bình và khoảng biến đổi của xác suất dự báo Rấthữu ích nếu ta bắt đầu việc nghiên cứu bằng khảo sát trung bình, giátrị nhỏ nhất và giá trị lớn nhất của xác suất dự báo trên mẫu
minP r(y = m | x) = minb iP r(yb i = m | xi)
maxP r(y = m | x) = maxb iP r(yb i = m | xi)
Ở đó, ký hiệu mini và maxi dùng để chỉ việc lấy minimum (maximum)của xác suất dự báo trên tất cả các quan sát Trong bảng Bảng 1.4, xétbiến đầu ra SD với xác suất nhỏ nhất là 0.02 và xác suất lớn nhất là0.47, khoảng biến động 0.45 Tương tự các kết quả được liệt kê đối vớitất cả các tính trạng trong ví dụ của chúng ta Khi có những biến động
đủ lớn trong mỗi tính trạng những phân tích sâu sắc hơn nên được đưa
Trang 16ra Trong trường hợp khoảng biến động quá nhỏ sự phân tích sâu hơnkhông cần thiết.
2 Vẽ xác suất dự báo
Với một biến độc lập, toàn bộ đường cong xác suất có thể được vẽ Khi
có nhiều biến hơn , hiệu quả của từng biến được tính riêng trong khicác biến còn lại được giữ nguyên Ví dụ hiệu quả của độ tuổi đối vớixác suất của biến đầu ra có thể được vẽ với việc giữ nguyên giá trị củatất cả các biến khác và chỉ cho phép độ tuổi thay đổi Để làm điều này,đặt x∗ chứa cột đầu tiên là 1, cột thứ hai là 1 để chỉ cuộc điều tra năm
1989, 0 ở cột thứ ba để chọn phụ nữ Và các biến khác trừ biến tuổiđược gán bằng giá trị trung bình tương ứng Khi đó:
b
P r(W ARM = m | x∗) = F (ˆτm− x∗β)) − F (ˆˆ τ
m−1− x∗β)ˆ
là xác suất dự báo của biến đầu ra nhận giá trị m đối với phụ nữ năm
1989 thuộc vào một nhóm tuổi cố định nào đó và các biến khác nhậngiá trị được giữ nguyên tại trung bình của nó
Những xác suất được vẽ trong Hình 1.4 Xét xác suất đối với tính trạng
SA, đường cong này được chỉ ra bởi đường cong gắn với hình tròn, tại
20 tuổi xác suất là 0.39 Khi độ tuổi tăng lên xác suất dự báo giảm tới0.25 ở độ tuổi 50 và 0.15 ở tuổi 80 Đường cong xác suất của tính trạng
D được chỉ ra bởi đường cong gắn với hình tam giác Nó bắt đầu tại 0.16
ở độ tuổi 20 và kết thúc là 0.34 ở độ tuổi 80 Độ dịch chuyển hay biếnđổi về xác suất của tính trạng D nhỏ hơn của tính trạng SD, đường congxác suất đối với tính trạng SD được chỉ ra bởi đường cong gắn với hìnhthoi, nó bắt đầu tại 0.04 và kết thúc 0.12 đường cong xác suất của tínhtrạng A được chỉ ra bởi đường cong gắn với hình vuông Đường congnày minh họa một đặc trưng hiếm gặp của mô hình ORM Đường congxác suất này bắt đầu từ 0.42 tăng tới 0.44 và sau đó giảm xuống 0.38.Hiệu quả của độ tuổi đối với tính trạng A đầu tiên là tăng và sau đó làgiảm xuống Điều này xảy ra là vì khi tuổi tăng từ 20 nhiều trường hợp
Trang 17từ tính trạng SA chuyển sang tính trạng A hơn từ tính trạng A chuyểnsang tính trạng D do vậy xác suất của tính trạng A tăng lên Khi tuổilớn hơn, nhiều trường hợp ở tính trạng A chuyển sang tính trạng D hơn
từ tính trạng A chuyển sang tính trạng SA kết quả là xác suất nhỏ hơn
3 Vẽ hàm phân phối xác suất tích lũy
Hàm phân phối xác suất tích lũy là xác suất của biến đầu ra nhận giátrị nhỏ hơn hoặc bằng giá trị nào đó Một cách công thức, xác suất đểbiến quan sát y nhận giá trị nhỏ hơn hoặc bằng m là:
Hình 1.4: Xác suất dự báo Hình 1.5: Xác suất tích lũy
4 Bảng xác suất dự báo
Dạng bảng cũng có thể được dùng để biểu diễn xác suất xuất hiện cáctính trạng Bảng 1.5 chứa các xác suất dự báo đối với Nam và Nữ quacác năm của cuộc điều tra, có thể so sánh sự khác biệt về xác suất giữahai giới tính trong từng năm và giữa các năm Thứ nhất, có thể ghinhận rằng đối với quan điểm cho rằng “ Không có sự khác biệt giữanhóm phụ nữ đi làm và nhóm phụ nữ không đi làm về sự gắn bó và cởi
mở của họ đối với con cái” thì khả năng xuất hiện câu trả lời “khôngđồng tình” và “ hoàn toàn không đồng tình” sẽ cao hơn ở nhóm namgiới so với nhóm phụ nữ, đồng thời khả năng đưa ra ý kiến “đồng tình”
và “hoàn toàn đồng tình” lại thấp hơn ở nhóm nam giới so với nhóm nữ
Trang 18giới Thứ hai, từ năm 1977 đến năm 1989 đã có sự dịch chuyển tích cựchơn ở cả hai nhóm nam và nữ.
báo
Phương pháp thứ ba để giải thích mô hình ORM là tính biến đổi riêngđối với xác suất khi biến quan sát nhận một giá trị nào đó Nhắc lại rằng,xác suất biến quan sát nhận giá trị bằng m với x cho trước là:
P r(y = m | x) = F (τm− xβ) − F (τm−1 − xβ)Lấy đạo hàm riêng theo xk của phương trình trên, ta có
Biến đổi riêng hay hiệu quả biên là độ dốc của đường cong liên hệ giữa xk
và P r(y = m | x) khi tất cả các biến khác giữ nguyên một giá trị nào đó.Chú ý rằng dấu của hiệu quả riêng không nhất thiết phải cùng dấu với β, vì
f (τm − xβ) − f (τm−1 − xβ) có thể âm Thật vậy, có thể hiệu quả riêng của
xk thay đổi dấu khi xk biến đổi Nhìn vào Hình 1.4 đối với xác suất của tínhtrạng A (ký hiệu bằng các hình vuông) Ban đầu độ dốc là dương điều nàychỉ ra rằng hiệu quả riêng là tăng theo độ tuổi Đến quá tuổi 40, hiệu quảriêng có dấu âm cho thấy độ tuổi tăng sẽ làm giảm xác suất của tính trạngA
Vì hiệu quả riêng phụ thuộc vào từng mức của tất cả các biến độc lập nênkhi tính hiệu quả đó chúng ta phải xác định rõ là dựa trên giá trị cụ thể nàocủa các biến Một cách xử lý là tính hiệu quả riêng trung bình trên tất cả
Trang 19xác suất khi quan sát thấy xk thay đổi một đơn vị Tuy nhiên, nếu đườngcong xác suất đối với biến độc lập gần như tuyến tính thì hiệu quả riêng cóthể được dùng để tính tác động của việc thay đổi biến độc lập một đơn vịlên xác suất của biến đầu ra Ví dụ, cho trước một quan hệ tuyến tính giữatuổi và xác suất của tính trạng D được chỉ ra trong Hình 1.4 Chúng ta kếtluận :
• Đối với nữ giới năm 1989, nếu độ tuổi tăng thêm 10 tuổi thì xác suấtcủa tính trạng D tăng thêm 0,032
Giá trị 0,032 bằng 10 lần hiệu quả riêng của độ tuổi đối với tính trạng D.Chú ý rằng, lí giải này về hiệu quả riêng chỉ hợp lí khi đường cong xác suất
là gần như tuyến tính
Sự giải thích dùng hiệu quả riêng có thể không dẫn đến kết quả khi đườngcong xác suất thay đổi quá nhanh hoặc khi biến độc lập là biến giả Đối với
Trang 20mô hình ORM, ta nhận thấy rằng đo những biến đổi gián đoạn có nhiềuthông tin hơn.
Biến đổi gián đoạn là biến đổi về xác suất đối với sự dịch chuyển của biếnđộc lập xk từ giá trị bắt đầu xS tới xE và được tính như sau:
4P r(y = m | x)
4xk = P r(y = m | x, xk = xE) − P r(y = m | x, xk = xs)trong đó, kí hiệu P r(y = m | x, xk) là xác suất để cho y = m với x cho trước
và xk là một giá trị xác định
• Khi xk thay đổi từ xE tới xS xác suất dự báo biến đầu ra nhận giá trị
m thay đổi 4P r(y = m | x)/4xk, khi tất cả các biến khác được giữnguyên giá trị nào đó
Vì mô hình đang xét là phi tuyến, giá trị của biến đổi gián đoạn phụ thuộcvào 3 nhân tố: (1) mức của tất cả các biến khác với giá trị được giữ nguyên,(2) giá trị ban đầu của biến xk, (3) lượng thay đổi của biến xk Phổ biếnnhất là cách tính biến đổi gián đoạn của biến độc lập xk từ giá trị xS tới giátrị xE theo công thức trên và tất cả các biến khác được lấy giá trị không đổi
và bằng giá trị trung bình của chúng Đối với biến độc lập là biến giả, biếnđổi riêng có thể được tính ở cả hai giá trị Ví dụ, ta có thể tính biến đổi giánđoạn đối với tuổi cho nam và nữ riêng biệt
Giá trị ban đầu và lượng thay đổi của biến xk được chọn phụ thuộc vào mụcđích của phân tích Những lựa chọn hữu ích thường là những lựa chọn sau:
1 Tổng hiệu quả của biến xk được tính bằng cách cho biến này thay đổi từgiá trị nhỏ nhất tới giá trị lớn nhất
2 Hiệu quả của biến nhị phân tính được bằng việc cho biến xk thay đổi từ
0 đến 1
3 Hiệu quả của 1 đơn vị biến đổi được tính bằng thay đổi từ ¯x tới ¯x + 1
và biến đổi gián đoạn ở trung tâm được tính bằng thay đổi từ ¯x − 1/2tới ¯x + 1/2
4 Hiệu quả của sự thay đổi với khoảng biến đổi bằng độ lệch chuẩn của xkđược tính bằng biến đổi từ ¯x tới ¯x + sk và biến đổi tương ứng ở trungtâm được tính bằng biến đổi từ ¯x − 1/2sk tới ¯x + 1/2sk
Bảng 1.7 chứa giá trị về biến đổi gián đoạn đối với ví dụ ta đang xét và môhình được dùng là mô hình logit Đối với biến nhị phân, thay đổi về xác suất
Trang 21dự báo khi biến độc lập thay đổi giá trị từ 0 đến 1.
• Xác suất đối với tính trạng SD của Nam cao hơn Nữ là 0.08, khi tất cảbiến khác được giữ nguyên giá trị tại giá trị trung bình của nó
Đối với biến không phải nhị phân, ta nên kiểm tra thay đổi về xác suất dựbáo đối với 1 đơn vị biến đổi gần kề giá trị trung bình, sự thay đổi với khoảngbiến đổi là độ lệch chuẩn quanh giá trị trung bình và thay đổi khi biến độclập thay đổi từ giá trị nhỏ nhất tới giá trị lớn nhất Ví dụ
• Nếu tăng thêm 1 năm đi học thì xác suất của tính trạng SA tăng lên0.01 khi các biến khác được giữ nguyên giá trị tại giá trị trung bình củachúng
• Nếu độ tuổi tăng lên một lượng bằng độ lệch chuẩn của biến này thì xácsuất của tính trạng D tăng lên 0.05 khi các biến khác được giữ nguyêngiá trị tại giá trị trung bình của chúng
• Nếu tiền lương thay đổi từ min tới max thì biến đổi về xác suất dự báocủa tính trạng SA là 0.06 khi các biến khác được giữ nguyên giá trị tạigiá trị trung bình của chúng
Hiệu quả của mỗi biến được tính bằng trung bình của tổng của giá trị tuyệtđối đối với biến đổi riêng của biến đầu ra theo từng tính trạng
¯
4 = 1J
J
X
j=1
4P r(y = j | ¯x)4xk
Những giá trị được liệt kê trong cột ¯4 trong Bảng 1.7 là hiệu quả của từngbiến tương ứng Rõ ràng, sự phản ánh của giới tính, giáo dục, độ tuổi có hiệu
Trang 22quả mạnh nhất đối với quan điểm “một người mẹ làm việc có tình cảm và sựchăm sóc con mình như người mẹ không đi làm”.
Ý tưởng về biến đổi gián đoạn có thể được mở rộng theo nhiều cách, phụthuộc vào ứng dụng trong phân tích Nếu một biến độc lập có độ lệch lớn thìviệc đánh giá dựa trên biến đổi gián đoạn quanh giá trị trung bình có thểkhông dẫn tới kết luận tốt, khi đó biến đổi gián đoạn quanh giá trị trung vịcủa biến có thể có ích hơn Nếu mức thay đổi theo một lượng xác định nào
đó của biến độc lập được coi là quan trọng và có ý nghĩa thực tế thì nên xét
sự thay đổi theo mức đó, chứ không dùng khoảng biến đổi có độ dài 1 đơn
vị hoặc có độ dài bằng độ lệch chuẩn
Mô hình logit thứ bậc thường được lý giải bằng số chênh của xác suấttích lũy, xác suất mà biến đầu ra nhận giá trị nhỏ hơn hoặc bằng m đượctính theo công thức sau:
ln Ωm = τm− xβNếu không dùng khái niệm biến ẩn thì các mô hình logit thường bắt đầu từphương trình trên Trong trường hợp này, mô hình có tên là mô hình logittích lũy (cumulative logit model)
Để xác định hiệu quả của biến độc lập x, xét hai giá trị của x : x = xi và
x = xl, tỉ số xác suất tại xi trên xác suất tại xl bằng:
Ωm(xi)
Ωm(xl) =
exp(τm − xiβ)exp(τm − xlβ) = exp([xl − xi]β)
Trang 23Phương trình này rất dễ giải thích ý nghĩa thực tế, khi chỉ có một biến thayđổi Ví dụ, nếu xk thay đổi một lượng δ, khi đó
Ωm(x, xk + δ)
Ωm(x, xk) = exp(−δβk)Điều này được giải thích như sau
• Khi biến xk tăng lên δ đơn vị thì tỉ số giữa xác suất để biến đầu ra nhỏhơn hoặc bằng m trên xác suất để biến nhận giá trị lớn hơn m thay đổimột lượng bằng exp(−δβ) khi các biến độc lập khác được giữ nguyên tạimột giá trị cố định nào đó
Nếu biến xk thay đổi 1 đơn vị, tỉ số chênh của biến đầu ra bằng:
Ωm(x, xk + 1)
Ωm(x, xk) = exp(−βk) (1.11)
Để minh họa cho việc diễn giải khi dùng tỉ số chênh này, xét hệ số rút ra từBảng 1.3 Ở đó β2 = −0.73, do vậy e−β2 = 2.1 Có thể diễn giải kết quả nàynhư sau:
• Tỉ số giữa xác suất nhận tính trạng SD trên xác suất nhận các tínhtrạng D,A và SA của nam giới là gấp 2.1 lần so với phụ nữ, khi cácbiến khác được giữ nguyên giá trị Tương tự, tỉ số giữa xác suất nhậncác tính trạng SD và D trên xác suất nhận các tính trạng A và SA củanam giới là gấp 2.1 lần so với phụ nữ
Hệ số hồi quy đối với độ tuổi là β4 = −0.02 và độ lệch chuẩn s4 = 16.8
Do đó 100[exp(−s4β4) − 1] = 44, điều này có thể diễn giải như sau:
• Nếu độ tuổi tăng một khoảng bằng độ lệch chuẩn của nó thì tỉ số giữaxác suất nhận tính trạng SD trên xác suất nhận các tính trạng SA,D,Atăng 44 % khi các biến khác được giữ nguyên giá trị Tương tự, tỉ sốgiữa xác suất nhận các tính trạng SD và D trên xác suất nhận các tínhtrạng A, SA tăng 44%
Phương trình (1.11) chỉ ra tỉ số chênh Ωm(x, xk + 1)/Ω(x, xk) bằng nhauvới tất cả giá trị của m Điều này được biết như giả thuyết về tỉ số xác suất
Từ những ví dụ này, ta đặt ra câu hỏi rằng sự thay đổi trong độ tuổi có cùnghiệu quả về tỉ số giữa xác suất của câu trả lời SD đối với những tính trạngkhác, hoặc tỉ số giữa xác suất của câu trả lời là SD, D hoặc A trên xác suấtcủa câu trả lời là SA hay không Điều này dẫn tới một kiểm định thống kê
về tỉ số xác suất giả thuyết, giả thuyết này được biết đến như giả thuyết hồiquy song song Ta xem xét vấn đề này dưới đây
Trang 241.5 Giả thuyết hồi quy song song
Giả thuyết về tỉ số xác suất trong mô hình logit tương ứng với ý tưởngtổng quát hơn về hồi quy song song đối với cả hai mô hình logit và probitthứ bậc Ý tưởng về hồi quy song song có thể được xem xét bằng việc viếtlại mô hình xác suất tích lũy Đối với mô hình này, xác suất để biến đầu ranhận giá trị nhỏ hơn hoặc bằng m là:
P r(y ≤ m | x) = F (τm− xβ) (1.12)Xác suất tích lũy là phân phối xác suất tích lũy được tính tại τm− xβ Vì βbằng nhau đối với tất cả các m, phương trình (1.12) định nghĩa một tập môhình nhị phân với các hệ số chặn khác nhau Để thấy điều này, chú ý rằng
có bốn tính trạng, kết quả ba đường cong với các hệ số chặn lần lượt là:
τ1− β0, τ2− β,τ3− β0 Để thấy tại sao các đường cong là song song Ta chọnmột giá trị xác suất của giá trị biến đầu ra Ví dụ chọn xác suất bằng 0.5được chỉ ra bởi đường ngang chấm chấm Khi đó kiểm tra độ dốc của 3 đườngcong tại điểm này ta thấy
Trang 25Hình 1.6: Giả thuyết hồi quy song song
Chúng ta có thể kiểm tra giả thuyết hồi quy song song bằng ước lượng J − 1hàm hồi quy nhị phân
P r(y ≤ m | x) = F (τm− xβ)Hàm hồi quy nhị phân đầu tiên là đối với biến được định nghĩa bằng 1 nếu
y ≤ 1 và 0 trong trường hợp còn lại Hàm hồi quy thứ hai đối với biến nhậngiá trị bằng 1 nếu y ≤ 2 và 0 trong trường hợp khác Và tiếp tục tới biếnnhận giá trị bằng 1 nếu y ≤ J − 1 Kết quả này cho J − 1 ước lượng ˆβm Nếu giả thuyết hồi quy song song là đúng, khi đó
β1 = β2 = = βJ −1 = β
và mỗi ˆβm là ước lượng vững của β trong phương trình (1.12) Kiểm tra sựgiống và khác nhau giữa ˆβm từ mô hình nhị phân logit (probit) và ˆβ từ môhình logit (probit) thứ bậc cung cấp thông tin để kiểm tra giả thuyết hồi quysong song
Đối với ví dụ đang xét, ước lượng từ mô hình logit thứ bậc được cho ở cột
đầu tiên Bảng 1.8 Ước lượng từ ba mô hình nhị phân được cho ở cột cuốicùng Trong khi một vài ước lượng là gần bằng nhau qua các phương trìnhnhưng có những hệ số khá khác nhau như đối với biến MALE Để hiểu rõ
Trang 26hơn cách kiểm định điểm được dùng để xử lí giả thuyết về hồi quy song song,
ta coi mô hình ORM như một tập gồm J − 1 mô hình logit nhị phân
bị vi phạm
Kiểm định Wald
Phép kiểm định trên đây không chỉ ra được giả thuyết hồi quy song song bị
vi phạm đối với tất cả các biến độc lập hay chỉ với một vài biến Kiểm địnhWald được đề xuất bởi Brant (1990) cho phép kiểm định cả giả thuyết tất
cả các βm bằng nhau đối với tất cả các biến và giả thuyết chỉ có một số các
hệ số tương ứng với các biến độc lập phân biệt bằng nhau Kiểm định nàyđược xây dựng như sau:
1 Ước lượng các βm và các V ar( ˆβm)
Chạy J − 1 mô hình nhị phân logit với biến đầu ra được định nghĩa bởi
2 Ước lượng hiệp phương sai giữa ˆβ m và ˆβ l, trong đó dấu "ba chấm"
để nhấn mạnh rằng có thể bỏ đi từ mỗi vectơ hệ số một véctơ hằng sốnào đó Ta định nghĩa
wiml = ˆπl(xi) − ˆπm(xi)ˆπl(xi)
Trang 27và đặt Wml là ma trận chéo cỡ N × N , phần tử thứ i của nó là wiml.Đặt X là ma trận cỡ N × (K + 1) với các số 1 ở cột đầu tiên và cácbiến độc lập ở cột còn lại Brant chỉ ra rằng hiệp phương sai giữa các ˆβ
từ các mô hình nhị phân khác nhau và V ar( ˆb β m, ˆβ l) được ước lượngbằng việc bỏ đi hàng đầu tiên và cột đầu tiên của ma trận
d
V ar( ˆβ J −1, ˆβ 1) · · · V ar( ˆd β J −1)
Các phần tử trên đường chéoV ar( ˆd β m) là mỗi ma trận hiệp phương sai
từ mô hình hồi quy nhị phân Các phần tử ngoài đường chéo được địnhnghĩa ở bước 2
4 Xây dựng kiểm định Wald đối với giả thuyết H0 : β 1 = = β J −1.Giảthuyết này tương đương với H0 : D ˆβ∗ = 0 trong đó
I 0 0 −I
với I là ma trân đơn vị cấp (K + 1) × (K + 1) và 0 là ma trận mà tất
cả các phần tử bằng 0 có cấp (K + 1) × (K + 1) Dạng chuẩn của kiểmđịnh Wald là
W = (D ˆβ∗)0[DV ar( ˆd β∗)D0]−1(D ˆβ∗)với bậc tự do (J − 2)K
5 Xây dựng kiểm định với mỗi biến phân biệt
Giả thuyết H0 : βk1 = = βk,J −1 có thể được kiểm định bằng việc chỉchọn những hàng và cột của D, ˆβ∗ và V ar( ˆd β∗) tương ứng với các hệ sốđược kiểm định Kết quả là kiểm định có phân phối khi- bình phươngvới J − 2 bậc tự do
Đối với ví dụ của chúng ta, kiểm định Wald được chứa trong Bảng 1.9 Kiểmđịnh Wald đối với tất cả các biến có kết quả khá gần với kiểm định điểm
Trang 28(S = 48, 4) Kiểm định giả thuyết các hệ số đối với các biến phân biệt làbằng nhau của cũng được chỉ ra ở bảng trên, như được gợi ý trong Bảng 1.8,rằng đối với một số biến nào đó thì có độ tin cậy cao để bác bỏ giả thuyếtnhưng với một số biến khác thì không có cơ sở để bác bỏ giả thuyết hồi quysong song.
1.6 Các mô hình liên kết đối với dữ liệu tính trạng
Trong mô hình ORM, biến quan sát được định nghĩa bởi
y = m khi τm−1 < y∗ < τm, m = 1, 2, , J
ở đó điểm cắt chưa được biết Một loại biến tương tự được xác định khi biếnliên tục nào đó được ghép nhiều giá trị lại thành một nhóm và xem đó nhưcác tính trạng, trong trường hợp này điểm cắt τ đã biết Ví dụ, thu nhập cóthể được đo bởi
đề là có một sự điều chỉnh nhỏ với dữ liệu được mã hóa Sau đó, biến đượclàm việc như biến tính trạng và mô hình ORM được dùng Tuy nhiên vì điểmcắt đã biết, chúng ta không cần ước lượng chúng Hơn nữa với những điểmcắt đã biết nó có thể ước lượng V ar(ε) cái mà phải được giả thiết trong môhình ORM
Trang 29Mô hình tỉ số liên tục (continuation ration model) được đề xuất bởi Fieberg
lnP r(y = m | x)
P r(y > m | x) = τm− xβBiến đầu ra là log của tỉ số giữa xác suất của tính trạng m trên xác suất đểbiến nhận giá trị lớn hơn m Trong mô hình này, ước lượng sẽ khác nếu cácnhóm tính trạng gần kề được kết hợp Anderson đề xuất mô hình
ln P r(y = j | x)
P r(y = m | x) = τm− xβ
ở đó các ràng buộc là bắt buộc đối với các điểm cắt τ để đảm bảo thứ tựcác tính trạng và các β khác nhau đối với các tính trạng đầu ra, do đó tránhđược giả thuyết hồi quy song song Mô hình này có quan hệ chặt chẽ với môhình logit đa thức sẽ được thảo luận trong chương tiếp theo
Trang 30Các mô hình đối với biến định danh cũng thường được dùng khi biến phụthuộc là biến tính trạng có thứ tự Đôi khi điều này được dùng để tránh giảthuyết về hồi quy song song của mô hình hồi quy thứ tự hoặc có thể đượcdùng trong trường hợp không chắc chắn rằng biến phụ thuộc là biến có thứ
tự hay chỉ đơn giản là những nhà nghiên cứu quen với mô hình logit đa thức(multinomial logit model) hơn các mô hình khác Nếu biến phụ thuộc là biến
có thứ tự và các mô hình đối với biến định danh được sử dụng để phân tíchthì tính hiệu quả sẽ giảm đi vì có những thông tin đã bị bỏ qua Mặt khác,khi các mô hình đối với biến có thứ tự lại được áp dụng đối với biến địnhdanh thì kết quả là ước lượng là chệch và có thể không hợp lí
Chương này sẽ thảo luận về hai mô hình có liên hệ chặt chẽ với nhau
Mô hình logit đa thức được dùng thường xuyên nhất đối với biến định danh.Ảnh hưởng của biến độc lập được cho phép khác nhau đối với mỗi đầu ra.Với mô hình logit có điều kiện, đặc trưng của biến đầu ra được dùng để dựbáo sự lựa chọn được thực hiện Trong khi những mô hình probit có thể đượcxây dựng một cách lí thuyết nhưng những khó khăn trong tính toán làm cho
mô hình trở nên phi thực tế
Trang 312.1 Giới thiệu về mô hình logit đa thức
Mô hình logit đa thức (MNLM) có thể được xem như ước lượng đồng thờicủa nhiều mô hình logit nhị phân Các mô hình logit nhị phân này là môhình đối với các cặp tính trạng của biến quan sát Thật vậy, ước lượng từ môhình logit nhị phân cho ta ước lượng vững về tham số của mô hình MNLM.Theo hướng này, mô hình MNLM đơn giản là sự mở rộng của mô hìnhlogit nhị phân Tuy nhiên, sự mở rộng này gặp những khó khăn bởi việc sosánh một số lớn các cặp tính trạng của biến đầu ra Với biến đầu ra nhận
ba giá trị, mô hình MNLM nói chung tương đương với việc chạy ba mô hìnhlogit nhị phân để so sánh biến đầu ra nhận giá trị 1 với giá trị 2, 1 với 3 và
2 với 3 Với 4 tính trạng của biến đầu ra, ta phải bổ sung thêm các so sánhđối với các cặp giá trị của biến đầu ra: 1 với 4, 2 với 4 và 3 với 4 Để giảithích mô hình rõ ràng hơn, ta xét mô hình với biến đầu ra có 3 tính trạng vàmột biến độc lập Mô hình được thể hiện như một tập của ba mô hình logitnhị phân
Để giải thích mô hình rõ ràng hơn, ta xét mô hình với biến đầu ra có 3 tínhtrạng và một biến độc lập Mô hình được thể hiện như một tập của ba môhình logit nhị phân
Xét biến định danh y với các tính trạng A, B và C với NA, NB, NC là sốquan sát tương ứng với mỗi tính trạng Giả sử rằng chỉ có một biến độc lập
x Chúng ta có thể phân tích mối quan hệ giữa x và y bằng việc chạy mộtchuỗi mô hình logit nhị phân Để kiểm tra ảnh hưởng của biến x đối với tỉ
số giữa xác suất để biến đầu ra nhận tính trạng A trên xác suất để biến đầu
ra nhận tính trạng B, chúng ta chọn NA + NB quan sát tương ứng với biếnđầu ra nhận các tính trạng A hoặc B và ước lượng mô hình logit đối với cặptính trạng A và B là:
Hệ số β1,A/B có thể được giải thích như sau: nếu tăng 1 đơn vị của biến độclập x thì tỉ số giữa xác suất để biến đầu ra nhận tính trạng A trên xác suất
để biến đầu ra nhận tính trạng B thay đổi bởi thừa số exp β1,A/B
Mô hình đối với các cặp tính trạng còn lại có thể được phân tích một cáchtương tự Xét mô hình logit đối với biến đầu ra nhận cặp tính trạng B và C,
Trang 32chọn NB + NC quan sát và ước lượng mô hình logit
Đẳng thức (2.4) tương đương với đẳng thức sau:
β0,A/B + β1,A/Bx + β0,B/C + β1,B/Cx = β0,A/C + β1,A/Cx
Nếu xét riêng hệ số chặn và độ dốc một cách riêng biệt, ta có
β0,A/B + β0,B/C = β0,A/C
β1,A/B + β1,B/C = β1,A/C (2.5)
Do đó, có thể một vài mô hình là không cần thiết Như ví dụ trên, ta thấynếu biết kết quả của mô hình logit đối với cặp tính trạng A và B, kết quảcủa mô hình đối với cặp tính trạng B và C, thì ta sẽ đưa ra được kết quả của
mô hình giữa tính trạng A và C như (2.5)
Tuy nhiên, có một vấn đề là đẳng thức (2.5) mô tả mối quan hệ tất yếu giữacác tham số một cách lý thuyết Nó sẽ không thỏa mãn với ước lượng từ mẫucủa ba mô hình logit Lí do rất đơn giản: ba mô hình dựa trên ba mẫu khácnhau Mẫu đầu tiên có NA + NB quan sát, mẫu thứ hai có NB + NC quansát và mẫu thứ ba có NA + NC quan sát Trong mô hình logit đa thức, tất
cả các mô hình logit nhị phân được ước lượng đồng thời, điều này làm mạnh
Trang 33mối quan hệ logic giữa các tham số của các mô hình và dữ liệu được sử dụnghiệu quả hơn Tuy nhiên, ý tưởng coi mô hình logit đa thức như sự liên kếtcủa một tập các mô hình logit nhị phân vẫn rất đúng đắn.
2.2 Mô hình logit đa thức
Mô hình MNLM bắt đầu bằng việc xem xác suất của mỗi biến đầu ra như
là một hàm phi tuyến của các biến độc lập Sau đó, vấn đề nhận dạng đượcgiải quyết Mô hình xác suất phi tuyến này sẽ đưa tới một mô hình tuyếntính đối với log của tỉ số giữa xác suất của các tính trạng của biến phụ thuộc.Dạng mô hình này, ta vừa mới xem xét ở trên
Hai phương pháp giải thích được đưa ra là: biến đổi gián đoạn về xác suất
và nhân tố làm thay đổi tỉ số này được xem xét Trong khi những phươngpháp này cơ bản giống nhau đối với việc dùng các mô hình logit nhị phân,những xác suất và tỉ số liên quan đòi hỏi đưa ra các đồ thị để tóm tắt cáckết quả Cụ thể, ta dùng ví dụ về các loại nghề nghiệp
Năm 1982, trong cuộc điều tra xã hội, mỗi người được yêu cầu trả lời câu hỏi
để xác định nghề nghiệp của họ Những nghề nghiệp được mã hóa tương ứngvới những tính trạng về nghề nghiệp và sử dụng mô hình MNLM để phântích Trong mẫu gồm 337 người đàn ông được hỏi, nghề nghiệp của họ đượcchia thành các nhóm với tỉ lệ tương ứng như sau: người giúp việc gia đình(9%), công nhân bậc thấp (21%), thợ thủ công (25%), công nhân bậc cao(12%) và chuyên viên trình độ cao (33%) Có ba biến độc lập được kì vọngảnh hưởng tới xác suất của các tính trạng phân biệt Biến thứ nhất: chủngtộc, biến này được xem như biến giả nhận giá bằng 1 nếu câu trả lời là người
da trắng và bằng 0 trong các trường hợp còn lại Biến thứ 2 là số năm đihọc và biến thứ 3 là thâm niên làm việc Mô tả thống kê và tóm tắt đối với
3 biến đó được cho trong Bảng 2.1
Trang 342.2.1 Mô hình MNLM được xét như mô hình xác suất
Gọi y là biến phụ thuộc nhận J tính trạng định danh Các tính trạng đượcđánh số từ 1 tới J , nhưng không được coi là có thứ tự Đặt Pr (y = m/x) làxác suất của biến quan sát nhận giá trị m với điều kiện x cho trước Một môhình xác suất đối với biến y có thể được xây dựng như sau:
1 Giả sử rằng, Pr (y = m/x) ) là một hàm tuyến tính của các biến độclập Vectơ βm = (β0m, , βkm, , βKm)0 bao gồm hệ số chặn β0m vàcác hệ số dốc βkm thể hiện ảnh hưởng của xk đối với khả năng biến đầu
ra nhận giá trị bằng m Đối lập với mô hình logit thứ tự, các hệ số βmkhác nhau khi biến đầu ra nhận các giá trị khác nhau Ví dụ, hệ số vềảnh hưởng của giáo dục đối với xác suất của tính trạng nghề nghiệp làcông nhân bậc thấp khác với hệ số ảnh hưởng của giáo dục đối với tínhtrạng nghề nghiệp là thợ thủ công
2 Để cho xác suất không âm, chúng ta lấy mũ cơ số e của xβm Khi đókết quả là không âm nhưng tổng PJj=1exp (xβj) có thể không bằng 1
3 Để làm cho xác suất có tổng bằng 1, ta chia exp (xβm) choPJj=1exp (xβj)
Pr (yi = m/xi) = exp (xiβm)
PJ j=1exp (xβm) (2.6)Với việc chuẩn hóa này, ta có PJ
j=1Pr (y = m/x) = 1
Bây giờ xác suất có tổng bằng 1 nhưng chúng ta vẫn không xác định được
mô hình vì có hơn một tập tham số mà các tập tham số này sinh ra cùngmột giá trị xác suất của biến quan sát Để thấy rõ điều này, ta có thể nhânphương trình (2.6) với exp (xτ )/exp (xτ ) Vì ta nhân với 1 nên giá trị xácsuất không đổi
Pr (yi = m/xi) = exp (xiβm)
PJ j=1exp (xβm).
exp (xiτ )exp (xiτ ) =
exp (xi[βm+ τ ])
PJ j=1exp (xi[βj + τ ])Trong khi xác suất không đổi nhưng tập tham số ban đầu βm được thay bởitập tham số βm+ τ Như vậy, với mỗi τ khác 0, có một tập tham số khác và
nó có cùng xác suất dự báo với tập tham số ban đầu Nghĩa là, mô hình là
vô định
Để xác định mô hình, ta bắt buộc đưa vào các ràng buộc đối với β Có hai loạiràng buộc thường được dùng Đầu tiên là ràng buộc PJj=1βj, thường được
Trang 35dùng với mô hình log tuyến tính phân cấp (hierarchical log- linear model).Thứ 2, phổ biến hơn với mô hình MNLM, là ràng buộc một trong các β bằng
0 Ví dụ β1 = 0 hoặc βJ = 0 Việc chọn lựa ràng buộc là tùy ý và ta có thểgiả sử rằng
β1 = 0Khi thêm ràng buộc này, mô hình mới là
Pr (yi = m/xi) = exp (xiβm)
PJ j=1exp (xβj), β1 = 0
Mô hình MNLM có thể được thể hiện bằng mô hình tỉ số giữa xác suấtcủa các biến đầu ra như được thể hiện trong phần 2.1 Tỉ số giữa xác suất
để biến đầu ra nhận giá trị m trên xác suất để biến đầu ra nhận giá trị n với
x cho trước, được kí hiệu bởi Ωm\n(x) và bằng:
Ωm\n(x) = Pr (y = m/xi)
Pr (y = n/xi) =
exp(x i β m )
P J j=1 exp(x i β j ) exp(x i β n )
P J j=1 exp(x i β j )
= exp (xiβm)exp (xiβn).Dùng tính chất của hàm mũ ta có kết quả sau
Ωm\n(xi) = exp (xi[βm − βn])Lấy log của phương trình trên ta có
ln Ωm\n(xi) = xi[βm − βn] Hiệu βm− βn được gọi là hệ số tương phản (contrast) và nó là ảnh hưởngcủa biến x đối với log của tỉ số giữa xác suất để biến đầu ra nhận giá trị mtrên xác suất để biến đầu ra nhận giá trị n
Trang 36Vì mô hình là tuyến tính đối với log của tỉ số xác suất nên ta có thể dễ dàngtính được đạo hàm riêng theo các biến như sau
• Khi xk thay đổi một đơn vị, log của tỉ số giữa xác suất để biến đầu ranhận giá trị m trên xác suất để biến đầu ra nhận giá trị n được kì vọngthay đổi βkm − βkn đơn vị, với các biến khác nhận giá trị không đổi nàođó
Vì β1 = 0 nên phương trình so sánh với biến đầu ra nhận giá trị bằng 1 đượcđơn giản hóa như sau:
Lí giải này của βkm là đơn giản vì ảnh hưởng của một đơn vị biến đổi của xkđối với log của tỉ số xác suất không phụ thuộc vào giá trị của xk hoặc giá trịcủa các biến khác
Mô hình lựa chọn rời rạc dựa trên nguyên tắc là một cá thể sẽ lựa chọngiá trị của biến đầu ra sao cho cực đại hóa lợi ích thu được từ chọn lựa đó.Đơn giản, giả sử rằng có hai lựa chọn được đánh số là 1 và 2 Gọi u1 là lợiích từ việc lựa chọn 1 và u2 là lợi ích từ việc lựa chọn 2 Một người nào đó
sẽ chọn 1 nếu u1 > u2 và chọn lựa 2 khi u2 > u1, giả sử không có sự trùnglặp của các lựa chọn Mỗi người sẽ có lí theo nghĩa lựa chọn đem lại lợi íchđạt được là lớn nhất
Lợi ích đạt được từ sự lựa chọn giá trị m với mỗi cá thể i phân biệt bằng:
uim = µim + εim
... (MNLM) xem ước lượng đồng thờicủa nhiều mơ hình logit nhị phân Các mơ hình logit nhị phân mơhình cặp tính trạng biến quan sát Thật vậy, ước lượng từ mơhình logit nhị phân cho ta ước lượng vững tham... tính trạng A C (2.5)Tuy nhiên, có vấn đề đẳng thức (2.5) mô tả mối quan hệ tất yếu giữacác tham số cách lý thuyết Nó khơng thỏa mãn với ước lượng từ mẫucủa ba mơ hình logit Lí đơn giản:... data-page="22">
quả mạnh quan điểm “một người mẹ làm việc có tình cảm sựchăm sóc người mẹ khơng làm”.
Ý tưởng biến đổi gián đoạn mở rộng theo nhiều cách, phụthuộc vào ứng dụng phân tích Nếu biến độc