Chẳng hạn, nếu hiện tượng đa cộng tuyến không được xử lý thì tính xác định không được đảm bảo, vì các tham số ước lượng được có thể có độ biến động lớn và khi đó việc thay đổi một vài qu
Trang 1BÀI 7 LỰA CHỌN MÔ HÌNH HỒI QUY
Mục tiêu
Sau khi kết thúc bài, học viên sẽ hiểu được những vấn đề sau đây:
• Các thuộc tính của một mô hình tốt
• Các loại sai lầm về định dạng của
mô hình
• Hậu quả khi chọn mô hình định dạng sai
• Kiểm định phát hiện mô hình định dạng sai
• Giới thiệu mô hình dạng lôga tuyến tính
• Giới thiệu mô hình với biến giả
• Tiêu chuẩn cho một mô hình tốt
• Các loại sai lầm định dạng của mô hình
• Hậu quả nếu một mô hình định dạng sai
• Các kiểm định phát hiện sai lầm định dạng
• Các loại mô hình với biến giả
Thời lượng
• 12 tiết
• Ôn lại các bài học trước để hiểu được các loại mô hình hồi quy
• Tập trung phân biệt các hậu quả xảy
ra khi có một loại sai lầm định dạng nào đó
• Tập trung vào các phương pháp kiểm định để phát hiện các sai lầm định dạng
• Tập trung hiểu rõ bản chất của việc đưa biến giả vào mô hình và các loại
mô hình có biến giả
• Xem xét kỹ các ví dụ trong giáo trình
và bài giảng
Trang 2TÌNH HUỐNG DẪN NHẬP
Tình huống
Tình huống 1: Trong tình huống của bài học số 4, chúng ta đã sử dụng
mô hình dưới dạng lôgarit của các biến Một nhà nghiên cứu khác lại đề
xuất sử dụng dạng tuyến tính của các biến (là dạng ban đầu) Vậy dạng
mô hình nào tốt hơn để phân tích trong tình huống này?
Tình huống 2: Một nhà nghiên cứu về bình đẳng giới muốn xem
xét việc liệu thu nhập của người lao động có bị ảnh hưởng bởi giới
tính của họ hay không Nhà nghiên cứu này xem xét mô hình hồi quy
E(TN/Di) = β1 + β2Di trong đó TN là thu nhập, D là biến giả, nhận giá trị bằng 1 nếu là nam, bằng 0 nếu là nữ
Câu hỏi
• Với mô hình này làm thế nào để kết luận về liệu có ảnh hưởng của giới tính đến thu nhập hay không?
• Trong bài học số 7, ta sẽ xem xét việc lựa chọn một mô hình tốt sẽ dựa trên các tiêu chí
nào? Và chúng ta sẽ trả lời được câu hỏi thu nhập có bị ảnh hưởng bởi giới tính hay không
Trang 3Trong phần trình bày ở các bài trước, ta giả định rằng một mô hình
hồi quy được lựa chọn là một mô hình đúng, nghĩa là hiện tượng cần
nghiên cứu được mô hình hóa đúng với bản chất và phù hợp với quy
luật vốn có của nó Tuy nhiên, thông thường ở bước ban đầu ta chưa
biết rõ về bản chất và quy luật của hiện tượng, mà phải dựa vào số
liệu để khám phá ra bản chất và quy luật đó Vậy thế nào là một mô
hình tốt, có phải một mô hình hồi quy có các phần dư càng nhỏ thì
càng tốt hay không, hay một mô hình phải có phương trình hồi quy
Nói rộng ra, mô hình phải có những tính chất gì sẽ được coi là một mô hình đúng đắn?
Việc đánh giá một mô hình có đúng đắn, phù hợp với bản chất của hiện tượng hay không phải được dựa trên những tiêu chuẩn nhất định A.C Harvey đã đưa ra các tiêu chuẩn để đánh giá chất lượng của mô hình hồi quy Các tiêu chuẩn này đã được vận dụng rộng rãi trong thực tế, bao gồm:
• Tính tiết kiệm: Mô hình càng đơn giản càng tốt, tuy
nhiên phải chứa đựng những biến độc lập chủ yếu ảnh hưởng đến biến phụ thuộc để giải thích được các hiện tượng cần nghiên cứu
Việc đánh giá biến độc lập nào ảnh hưởng một cách có ý nghĩa đến biến phụ thuộc, một mặt phải dựa trên ý nghĩa thực tế của mô hình Mặt khác có thể dựa vào phép kiểm định về các hệ số trong phương trình hồi quy
• Tính xác định: Các tham số ước lượng được phải có tính ổn định và duy nhất đối với một tập số liệu cho trước
Chẳng hạn, nếu hiện tượng đa cộng tuyến không được xử lý thì tính xác định không được đảm bảo, vì các tham số ước lượng được có thể có độ biến động lớn
và khi đó việc thay đổi một vài quan sát trong số liệu có thể làm cho các tham số ước lượng được thay đổi rất nhiều Vậy việc khử đa cộng tuyến có thể giúp cho mô hình hồi quy có tính xác định
• Tính thích hợp: Các biến độc lập giải thích được sự thay đổi của biến phụ thuộc càng nhiều càng tốt
Hệ số xác định của mô hình hồi quy tuyến tính cung cấp một thước đo để đánh giá tính thích hợp của mô hình so với số liệu
Trang 4• Tính bền vững về mặt lý thuyết: Mô hình phải phù hợp với cơ sở lý thuyết nền tảng Chẳng hạn, các giả thiết về tính độc lập của các quan sát, tính phân phối chuẩn và phương sai thuần nhất của sai số, sẽ đảm bảo về mặt lý thuyết của mô hình hồi quy tuyến tính cổ điển
• Có khả năng dự báo tốt: Mô hình tốt là một mô hình có khả năng cung cấp các kết quả dự báo càng sát với thực tế càng tốt
7.2 Cách tiếp cận lựa chọn mô hình
Để lựa chọn được mô hình hồi quy thích hợp với bộ số liệu và mục tiêu nghiên cứu, ta
có thể tiến hành lần lượt theo các bước sau:
• Bước 1: Xác định danh sách các biến độc lập có
thể có trong mô hình Dựa vào ý nghĩa thực tế của bài toán đã được đặt ta, ta cần liệt kê tất cả những biến độc lập có thể có của mô hình, là những biến
có khả năng ảnh hưởng đến giá trị của biến phụ thuộc Những biến này có thể đã có sẵn trong danh sách các biến của bộ số liệu, song cũng có thể là biến được tạo ra từ các biến trong danh sách đó thông qua các phép biến đổi
• Bước 2: Kiểm tra sự vi phạm các giả thiết của mô hình hồi quy Bước này bao
gồm việc tiến hành kiểm định các vấn đề như đa cộng tuyến, phương sai thay đổi,
tự tương quan, phân bố không chuẩn của sai số, và khắc phục các vi phạm phát hiện được
• Bước 3: Chọn dạng hàm hồi quy Dạng hàm hồi quy có thể được xác định dựa trên
kiến thức chuyên ngành liên quan đến số liệu hoặc dựa vào dạng hàm đã được sử dụng trong các nghiên cứu trước đó Bên cạnh đó, có thể xác định dạng hàm hồi quy thông qua việc khảo sát các đồ thị biểu diễn sơ bộ mối quan hệ giữa biến độc lập và biến phụ thuộc Chẳng hạn nếu trên đồ thị, các chấm tương ứng với các quan sát của tập số liệu nằm tập trung hai bên một đường thẳng nào đó, thì có thể chọn dạng hàm hồi quy tuyến tính Còn nếu các chấm đó lại nằm hai bên một đường cong thì có thể dựa vào dạng của đường cong đó mà đưa ra dạng hàm hồi quy phi tuyến thích hợp
• Bước 4: Áp dụng các tiêu chuẩn để đánh giá và lựa
chọn mô hình Hệ số xác định là một thước đo
thường được dùng đầu tiên để đánh giá chất lượng của mô hình hồi quy Nếu hệ số xác định có giá trị lớn hơn 50% thì có thể coi mô hình khá phù hợp với tập số liệu Còn nếu hệ số xác định nhỏ hơn 30% thì có thể khẳng định mô hình không phù hợp
và nên tìm mô hình khác
Ngoài hệ số xác định, còn có một số tiêu chuẩn khác có thể dùng để đánh giá các
mô hình hồi quy như:
o Tiêu chuẩn log-hợp lý (log-likelihood):
Trang 5Có thể chứng minh L có phân phối tiệm cận với phân phối khi bình phương Giá trị này càng lớn (tương ứng với xác suất ý nghĩa càng nhỏ) thì càng tốt, vì cho thấy mô hình đang xét rất khác biệt với mô hình “tầm thường” (là mô hình cho rằng không hề có quan hệ giữa các biến độc
lập và biến phụ thuộc) Trong thực hành, giá trị của hàm L được ước lượng bằng công thức:
trong đó k là số tham số trong mô hình hồi quy Giá trị AIC này càng nhỏ thì
mô hình càng phù hợp với số liệu
o Tiêu chuẩn Schwarz (Schwarz criterion):
Có thể việc loại bỏ bớt một số biến nào đó ra khỏi phương trình hồi quy tuy làm giảm hệ số xác định, song về thực chất lại không làm giảm đáng kể chất lượng của mô hình Mặt khác, trong thực hành, nhiều khi dùng ít biến độc lập trong mô hình thì “kinh tế” hơn, mặc dù sai số ước lượng có thể lớn hơn
Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình Tiêu
chuẩn F dưới đây có thể giúp tiến hành một trong những phép kiểm định như vậy:
o Tiêu chuẩn F (F criterion) Với mô hình hồi quy (7.1) ta xét bài toán kiểm định:
BÀI TOÁN KIỂM ĐỊNH 1
Trang 6Để giải quyết bài toán kiểm định này, ta thiết lập tỷ số:
2 2
R / kF
xỉ phân phối Fisher với bậc tự do (k, n – k –1) Qua đó có thể xác định được
xác suất ý nghĩa (p-value) tương ứng, được dùng so sánh với mức ý nghĩa đã cho (5% chẳng hạn) để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết H 0
Ta xét lại ví dụ ở bài trước về số liệu báo cáo phát triển thống kê ở 73 nước đang phát triển năm 1988, trong đó biến phụ thuộc là nợ nước ngoài D và 88biến độc lập là tổng sản phẩm quốc nội Y Thực hiện hồi quy 88 D theo 88 Y , 88
ta có kết quả trong bảng sau:
Trong bảng trên, ta thấy mô hình có hệ số xác định lớn hơn 77%, cho biết mô hình hồi quy này phù hợp với tập số liệu Kết luận đó cũng khẳng định qua giá trị 244.9136 của thống kê F, tương ứng với xác suất ý nghĩa bằng 0.000000 (rất nhỏ) Ngoài ra, bảng còn cung cấp giá trị của các tiêu chuẩn AIC, SC và log - hợp lý
7.3 So sánh hai mô hình hồi quy
Cùng với hệ số xác định, các tiêu chuẩn từ 1 đến 4 trên đây đều có thể dùng để đánh giá chất lượng của mô hình Tuy nhiên sự đánh giá đó mới đề cập đến sự phù hợp của
Trang 7mô hình với bộ số liệu, chứ chưa đánh giá so sánh về chất lượng của các mô hình Như vậy, cần dựa vào các phép kiểm định để đánh giá, lựa chọn mô hình Với hai mô hình hồi quy (7.1) và (7.2), ta xét bài toán kiểm định:
BÀI TOÁN KIỂM ĐỊNH 2
Việc chấp nhận giả thuyết H0 có nghĩa các biến độc lập Xm 1+ , Xm 2+ , , Xk không có vai
trò đáng kể đối với biến Y , tức là hai mô hình (7.1) và (7.2) là như nhau về khả năng dự
báo giá trị của biến phụ thuộc Ngược lại, việc bác bỏ giả thuyết H0 có nghĩa mô hình (7.1) với nhiều biến độc lập hơn, sai số hồi quy nhỏ hơn, sẽ cung cấp dự báo chính xác hơn cho biến phụ thuộc
Trong thực hành, nếu giả thuyết H được chấp nhận 0
thì rõ ràng nên chọn mô hình (7.2) vì số biến độc lập ít
hơn, nên có lợi hơn về mặt kinh tế Còn nếu giả thuyết
bị bác bỏ thì nên chọn mô hình (7.1), vì dự báo sẽ cho
n kF
này có phân phối xấp xỉ phân phối Fisher với bậc tự do (n – k, k – m), qua đó có thể
xác định được xác suất ý nghĩa (p-value) tương ứng, được dùng để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết H 0
7.4 Hậu quả của việc chọn mô hình không phù hợp
Giáo sư Rick Nordheim đã khẳng định rằng trong Thống kê ứng dụng, không có khái niệm về mô hình đúng hay sai, mà chỉ có mô hình phù hợp hay không phù hợp với thực tế, mô hình có phản ánh được bản chất của hiện tượng được nghiên cứu hay không Đây là quan điểm xuất phát từ thực nghiệm và là quan điểm chung của tất cả các nhà làm ứng dụng Vì vậy, ta luôn phải xét đến tính phù hợp của mô hình mỗi khi giải quyết một bài toán hồi quy Việc chọn mô hình không phù hợp có thể do một trong những nguyên nhân sau gây ra:
• Chọn dạng hàm không thích hợp Dạng hàm hồi
quy không thích hợp có thể dẫn đến các hậu quả sau:
o Các hệ số hồi quy bị ước lượng chệch, thậm chí dấu của hệ số hồi quy bị sai, dẫn đến những diễn giải mâu thuẫn với thực tế;
o Hệ số xác định thể hiện độ phù hợp của mô hình với số liệu có thể không cao;
Trang 8o Có thể có rất ít hệ số hồi quy ước lượng được có ý nghĩa thống kê;
o Phần dư của các quan sát có thể có thể lớn về giá trị tuyệt đối và có xu thế biến động mang tính hệ thống Điều này có thể dẫn đến sự vi phạm các giả thiết cơ bản của mô hình hồi quy
• Bỏ sót biến: Việc bỏ sót biến cũng có thể gây ra hậu quả nghiêm trọng Giả sử mô
hình phù hợp thực sự phải là
Y= β + βX + β X + , unhưng ta lại sử dụng mô hình
Y= α + αX + vnghĩa là biến X bị thiếu, trong khi biến này thực 2
sự ảnh hưởng đến biến phụ thuộc Điều này có thể dẫn đến những hậu quả khác nhau Nếu biến X tương quan với biến 2 X thì các ước lượng 1 α và 0 α của 1 α và 0
1
α sẽ là những ước lượng chệch và không vững của β và 0 β , tức là 1
E( )α ≠ β ; E( )α ≠ β1 1 Thực vậy, vì hai biến X và 1 X tương quan với nhau nên ta có 2
X = γ + γX + ε , với γ , 0 γ và 1 ε lần lượt là các hệ số hồi quy và sai số trong mô hình hồi quy biến
• Thừa biến: Việc đưa vào mô hình những biến không thích hợp cũng đem lại
những nguy hại đáng kể Thật vậy, giả sử mô hình phù hợp là
Trang 9nghĩa là dùng thừa biến X Khi đó các hệ số hồi 2quy ước lượng được từ mô hình (7.4) vẫn là các ước lượng vững, không chệch, nghĩa là ta vẫn có
E( )α = β ; E( )α = β1 1 và E( )α = β =2 2 0 Đồng thời, phương sai của của sai số vẫn được ước lượng một cách không chệch, do đó khoảng tin cậy vẫn được xác định tương đối chính xác và phương pháp kiểm định thông thường vẫn có hiệu lực Tuy nhiên các ước lượng thu được từ mô hình (7.4) không phải là ước lượng hiệu quả, vì phương sai của chúng sẽ lớn hơn phương sai của ước lượng tương ứng thu được từ mô hình (7.3) Hệ quả là các khoảng tin cậy của các hệ số
sẽ rộng hơn, do đó vai trò của một biến độc lập đối với biến phụ thuộc có thể bị đánh giá sai (khoảng tin cậy ước lượng quá rộng sẽ có khả năng chứa điểm 0 - thể hiện biến độc lập không ảnh hưởng đến biến phụ thuộc, trong khi nếu được ước lượng đúng thì khoảng tin cậy không chứa điểm 0 - chứng tỏ biến độc lập tác động một cách có ý nghĩa lên biến phụ thuộc)
7.5 Kiểm định phát hiện sự bỏ sót biến
Với một tập số liệu cho trước, giả sử ta sử dụng mô hình hồi quy
Y = β + βX + u (7.5) Vấn đề đặt ra là ngoài biến X ảnh hưởng đến biến phụ thuộc Y, còn có biến độc lập nào khác có ảnh
hưởng quan trọng đến Y mà chưa được đưa vào mô hình hay không? Lúc đó, ta cần
giải quyết bài toán kiểm định sau:
BÀI TOÁN KIỂM ĐỊNH 3
0
H : Không có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)
1
H : Có hiện tượng bỏ sót biến độc lập trong mô hình (7.5)
Việc chấp nhận giả thuyết H có nghĩa mô hình (7.5) đã chứa đủ số biến độc lập thực sự 0ảnh hưởng tới biến phụ thuộc, những ảnh hưởng thực sự của các biến độc lập khác chưa có mặt, nếu có thì đã được thể hiện một cách gián tiếp thông qua ảnh hưởng của các biến độc lập đã có mặt trong mô hình Ngược lại, việc bác bỏ giả thuyết H0 có nghĩa là mô hình (7.5) chưa chứa đủ số biến độc lập cần thiết, biến phụ thuộc Y còn chịu ảnh hưởng quan trọng của một hay nhiều biến độc lập nào đó chưa có mặt trong mô hình
Để kiểm tra xem trong mô hình (7.5) còn bỏ sót biến độc lập W hay không, ta xét mô hình hồi quy đầy đủ hơn, với sự có mặt của biến độc lập W
Y = α + αX + α W + v (7.6) Với mô hình này, ta xét hai trường hợp như sau:
• Trường hợp 1: Có số liệu về biến W Trong trường hợp này, ta có thể giải quyết
bài toán 3 bằng nhiều cách khác nhau, chẳng hạn như:
Trang 10o Cách 1: Dùng kiểm định t Để kiểm tra xem có phải biến W đã bị bỏ sót khi
dùng mô hình hồi quy (7.5) hay không, ta có thể tiến hành hồi quy theo mô hình (7.6) và kiểm định giả thuyết α = Lúc đó, nếu giả thuyết này bị bác 2 0
bỏ thì thực sự biến W đã bị bỏ sót Ngược lại, nếu giả thuyết α = được chấp 2 0nhận thì không có hiện tượng bỏ sót biến W, vì bất kể biến đó có mặt trong mô hình hồi quy hay không, ta đều thu được chất lượng dự báo của mô hình như nhau
o Cách 2: Sử dụng hàm log-hợp lý Xét thống
kê LR= −2(l1−l )0 , trong đó l và 1 l tương 0ứng là giá trị lớn nhất của lôgarit hàm hợp lý ứng với mô hình (7.6) và (7.5) Khi giả thuyết
0
H đúng, thống kê LR có phân phối tiệm cận phân phối khi bình phương với 1 bậc tự do (χ2(1)) Nếu LR≥ χ2α(1) (α thường được lấy bằng 5%) thì ta bác bỏ H và kết luận có hiện 0tượng bỏ sót biến độc lập W
o Cách 3: Sử dụng Bài toán kiểm định 2 Ta có thể áp dụng bài toán kiểm định
2 để so sánh hai mô hình (7.6) và (7.5) thay cho việc so sánh hai mô hình (7.1)
và (7.2) Khi ấy, việc giả thuyết được chấp nhận (chất lượng của hai mô hình như nhau) đồng nghĩa việc không có hiện tượng bỏ sót biến W Ngược lại, nếu giả thuyết bị bác bỏ thì có nghĩa biến W đã bị bỏ sót trong mô hình hình quy
Chú ý: Trên đây đã trình bày 3 cách phát hiện việc bỏ sót 1 biến độc lập W trong
mô hình hồi quy Tuy nhiên, Cách 2 và Cách 3 còn có thể dùng để phát hiện việc
bỏ sót một nhóm biến độc lập trong mô hình
Thật vậy, khi giải quyết bài toán kiểm định 2, so sánh hai mô hình (7.1) chứa k – 1 biến độc lập với mô hình (7.2) chứa m – 1 biến độc lập (m < k), về thực chất ta đã kiểm tra xem nhóm k – m biến độc lập có mặt trong mô hình (7.1) nhưng không có mặt trong (7.2) có phải là nhóm biến bị bỏ sót nếu chỉ dùng mô hình hồi quy (7.2) hay không
Cũng có thể sử dụng hàm log-hợp lý để giải quyết bài toán kiểm định trên bằng cách lập thống kê LR= −2(lk−l )m , trong đó l và k l tương ứng là giá trị lớn nhất mcủa lôgarit hàm hợp lý ứng với mô hình (7.1) và (7.2) Khi giả thuyết H đúng, 0thống kê LR có phân phối tiệm cận phân phối khi bình phương với k – m bậc tự do (χ2(k m)− ), từ đó ta có thể tính được xác suất ý nghĩa của phép kiểm định để đưa
ra kết luận thống kê về việc liệu có phải nhóm biến độc lập bị bỏ sót hay không
• Trường hợp 2: Không có số liệu về biến W Khi không có số liệu của biến độc
lập bị nghi là đã bị bỏ sót trong mô hình (7.5), ta có thể sử dụng các thông tin của các giá trị dự báo thu được từ mô hình (7.5) để xem các biến độc lập trong mô hình
đó đã cung cấp cho biến phụ thuộc một lượng thông tin đạt đến mức bão hòa hay chưa, tức là liệu có còn thiếu một phần thông tin của biến bị bỏ sót nào đó ảnh hưởng đến biến phụ thuộc nữa hay không? Cụ thể, ta lần lượt tiến hành các bước như sau:
Trang 11o Bước 1: Dùng số liệu để ước lượng các giá trị ˆβ0 và ˆβ1 của các hệ số hồi quy trong mô hình (7.5);
o Bước 2: Dùng các hệ số ˆβ0 và ˆβ1 và các giá trị quan sát được của biến độc lập
để ước lượng các giá trị của biến phụ thuộc
ˆY = β + βX Biến ˆY với các giá trị trên được gọi là biến dự báo Từ biến dự báo này, ta lập thêm các biến phụ ˆY , 2 ˆY và 3 ˆY Có thể thấy 4
biến ˆY chứa phần thông tin của biến phụ thuộc được thể hiện qua biến độc lập X Đồng thời có thể cho rằng các biến ˆY , 2 ˆY và 3 ˆY có thể còn 4
chứa một phần thông tin khác của biến phụ thuộc chưa được mô tả qua biến X Như vậy, để kiểm tra xem mô hình (7.5) có bỏ sót biến độc lập nào đó hay không, ta có thể tiến hành kiểm định để biết liệu các biến ˆY , 2 ˆY và 3 ˆY đúng 4
là nhóm biến bị bỏ sót hay không
Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng hạn như:
o Bước 3: Ta kiểm định giả thuyết H :0 γ = γ = γ = bằng cách dùng thống kê 2 3 4 0
2 k
n kF
có nghĩa trong mô hình (7.5) còn sót biến độc lập
Tới đây, ta có thể tiếp tục giải quyết bài toán bằng một số cách khác nhau, chẳng hạn như:
o Áp dụng bài toán kiểm định 2 để kiểm tra xem có phải nhóm các biến ˆY , 2 ˆY 3
và ˆY đã bị bỏ sót khi dùng mô hình hồi quy (7.5) hay không, ta xét mô hình 4
o Phương pháp kiểm định nhân tử Lagrange Phương pháp này được tiến hành,
bắt đầu bằng Bước 1 và Bước 2 như đã nói ở trên, với một bổ sung nhỏ:
Trang 12 Thứ nhất: Dùng các hệ số ˆβ0 và ˆβ1 và các giá trị quan sát được của biến độc lập để thu ước lượng biến phụ thuộc ˆY và biến phụ ˆY , 2 ˆY , 3 ˆY , đồng 4
thời xác định các giá trị của biến phần dư
và dùng số liệu để ước lượng hệ số xác định R của phương trình hồi quy đó; 2
Thứ ba: Lập giả thuyết H :0 γ = γ = γ = 2 3 4 0
và dùng thống kê nR để kiểm định giả 2
thuyết ấy Thống kê này có phân phối khi bình phương với 3 bậc tự do, qua đó tính được xác suất ý nghĩa để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết H Việc 0chấp nhận giả thuyết này đồng nghĩa với việc khẳng định không có hiện tượng bỏ sót biến Ngược lại, nếu giả thuyết bị bác bỏ thì
mô hình (7.5) còn bỏ sót biến độc lập
Chú ý: Trong Trường hợp 2 này, ta chỉ có thể đưa ra kết luận về chất lượng
của mô hình, khẳng định mô hình có bỏ sót biến hay không, mà không xác định được chính xác biến bị bỏ sót Nếu biết chắc chắn là có hiện tượng bỏ sót biến
và cần xác định rõ biến bị bỏ sót thì cần dựa vào kinh nghiệm và kiến thức của chuyên ngành có số liệu Lúc ấy có thể tiến hành bổ sung số liệu của biến bị bỏ sót để cải tiến mô hình
7.6 Kiểm định phát hiện hiện tượng thừa biến
Ta thấy bài toán kiểm định phát hiện hiện tượng thừa
biến độc lập trong mô hình hồi quy chính là một phần
của bài toán “ngược” đối với bài toán kiểm định 3
nhằm phát hiện sự bỏ sót biến độc lập trong mô hình,
với giả thuyết của bài toán này được đổi thành đối
thuyết của bài toán kia, và ngược lại, đối thuyết được
chuyển tương ứng thành giả thuyết, hơn nữa đã có số
liệu của biến W , là biến đang bị nghi vấn là biến thừa trong mô hình Như vậy, hoàn toàn có thể dùng các phương pháp đã trình bày cho trường hợp 1, mục 7.5 trên đây, để phát hiện hiện tượng thừa biến
7.7 Lựa chọn giữa mô hình hồi quy tuyến tính và mô hình hồi quy lôga tuyến tính
Một trong các giả thiết của mô hình hồi quy tuyến tính là giả thiết về tính phân bố chuẩn của các phần dư (hay còn được gọi là sai số) Dễ dàng thấy nếu phần dư của mô hình hồi quy có phân bố chuẩn thì bản thân biến phụ thuộc cũng phải có phân bố chuẩn Tuy nhiên, trong thực hành rất hay gặp phải những biến phụ thuộc không có phân bố chuẩn mà lại có phân bố lôga-chuẩn Thí dụ, với số liệu về thu nhập trên đầu