Mặc cho thực tế rằng các phần dư trong mô hình tuyến tính xác suất có phân phối không chuẩn, người ta có thể vẫn biện minh ược cho việc sử dụng chúng bởi vì sự tương ồng tồn tại giữa hàm biệt thức tuyến tính và mô hình tuyến tính xác suất (Ladd, 1966).
Đầu tiên ta sẽ thảo luận hàm biệt thức tuyến tính và sau ó là mối quan hệ của nó ối với mô hình xác suất tuyến tính.
Trong phân tích biệt thức tuyến tính, ta cố gắng tìm ược một hàm tuyến tính, dạng λ’x, với k biến giải thích, mà nó cung cấp sự phân biệt tốt nhất giữa hai nhóm tương ứng với tốt nhất giữa hai nhóm tương ứng với y =1 và y=0. Nó gợi ý một cách trực quan rằng λ phải ược lựa chọn sao cho phương sai của λ’x giữa hai nhóm là cực ại tương ứng với phương sai trong cùng một nhóm (λ và x là các vector k chiều).
Giả sử rằng có n1 quan sát mà y =1 và n2 quan sát theo ó y = 0. Ký hiệu các giá trị x trong các nhóm này là x1 và x2, tương ứng. Định nghĩa
(4.2)
và
(4.3) Thì phương sai giữa hai nhóm của λ‟x là . Phương sai trong cùng nhóm là λ‟x là λ‟Sλ. Do ó, ta chọn λ ể cực ại
Ta thu ược
(4.4) Trung bình của các hàm biệt thức của hai mẫu là, một cách tương ứng,
Với các quan sát mới cho trước với đặc trưng, là, x0, ta tính ược
và gán cho nó vào nhóm thứ nhất nếu y0 gần y1 hơn y2. Nếu y1 là lớn hơn y2, giá trị của y0 sẽ gần y1 hơn y2 nếu
nghĩa là, nếu
Do ó iểm giới hạn (ngưỡng) là trung bình của hai giá trị trung bình. Bình phương của khác biệt giữa hai trung bình thường ược gọi là Khoảng cách tổng quát hóa Mahalanobis và ược ký hiệu là D4. Do ó .
(4.5) Nếu S = I, thì ó chính là khoảng cách Euclid giữa iểm x1 và x2.
Để áp dụng các kiểm ịnh các mức ý nghĩa, chúng ta cần ưa vào giả thiết về tính chuẩn. Giả thuyết thông thường ược áp dụng là các biến giải thích ở hai nhóm thu ược từ tổng thể có phân phối chuẩn với trung bình là μ1 và μ2 tương ứng và có cùng ma trận hiệp phương sai Σ. Với giả thiết này, ể kiểm ịnh có sự khác biệt có ý nghĩa thống kê không giữa hai nhóm, chúng ta sử dụng thống kê
(4.6)
là thống kê F với bậc tự do k và (n1 +n2 –k -1), trong ó k là số biến giải thích. Đây là kiểm ịnh ( ược biết ến là kiểm ịnh Hotelling T2) ối với giả thuyết μ1 = μ2, với giả thiết x có phân phối chuẩn và có chung ma trận hiệp phương sai Σ.
Phương pháp ược trình bày ở ây trong việc xác ịnh λ là distribution – free (không có yêu cầu gì về phân phối xác suất), nhưng kiểm ịnh F thì không. Cũng vậy, iểm giới hạn ẵ (y1+y2) cú thể ược cải thiện nếu chỳng ta cú ược cỏc xỏc suất của x thuộc vào tổng thể nảo, và nếu chúng ta chấp nhận ược giá của việc không phân loại ược.
1.3. Sự giống nhau của hồi quy bội và mô hình xác suất tuyến tính.
Fisher (1936) cũng gợi ý sự giống nhau giữa hồi quy bộ và phân tích biệt thức.
Giả sử rằng chúng ta ịnh nghĩa một biến giả như sau:
nếu thành phần ( ó) thuộc vào nhóm π1 (nhóm thứ nhất) nếu thành phần ( ó) thuộc vào nhóm π2 (nhóm thứ 2)
trong ó n1 và n2 số mẫu quan sát trong π1 và π2 . Nó cho ta y=0, trong ó ylà trung bình mẫu của y trên tổng n1 +n2 quan sát. Chúng ta cũng ịnh nghĩa
(4.7) trong ó x1
và x2
là, một cách tương ứng, trung bình của x trong hai mẫu con tương ứng với hai nhóm. Chúng ta sử dụng Σ1,2 ể ký hiệu tổng của tổng thể tất cả n1+n2 quan sát, Σ1 ể ký hiệu tổng trên tổng thể n1 quan sát trong hóm thứ nhất , và Σ2 ể ký hiệu tổng trên n2 quan sát ở nhóm thứ 4.
Xem xét hồi quy bộ của y ối với x, các ước lượng của α và β trong
Hàm chuẩn là:
(4.8)
và (bởi vì y=0). Ta thu ược vì và
Cũng vậy,
(4.9)
Thành phần thứ nhất của (4.9) có thể ược viết lại là
(vì thành phần tổng chéo (cross – product term) bị triệt tiêu). Một cách tương tự, thành phần thứ 2 của (4.9) có thể ược viết lại là
Cũng vậy , sử dụng (2,2), có thể rút gọn lại là
Chú ý ịnh nghĩa của S trong (4.3), cuối cùng chúng ta thu ược
Nếu chúng ta ịnh nghĩa
(4.10) Hàm chuẩn(4.8) có thể viết lại là
(4.11) hoặc
(4.12)
Do vậy hệ số hồi quy ˆ là tỷ lệ với hệ số biệt thức ˆ thu ược trong (4.4). Chúng ta có thể chỉ ra một cách dễ dàng rằng hằng số của tỷ lệ này chính là RSS/(n1+n2-2), trong ó RSS tổng bình phương các phần dư từ hồi quy của biến giả y ối với x. Để thấy rõ, chú ý rằng
The regression sum of squares là
Do vậy, tổng bình phương phần dư là [n1n2/(n1+n2)](1-θ), và R2 = θ. Do vậy, phương trình (4.12) có thể viết lại là
(4.13) Do vậy, khi chúng ta có các hệ số hồi quy và tổng bình phương phần dư từ hồi quy với biến giả là biến phụ thuộc, chúng ta có thể dễ dàng thu ược các hệ số của hàm biệt thức.
Mô hình tuyến tính xác suất chỉ là sự khác biệt nhỏ ối với công thức Fisher. Trong mô hình tuyến tính xác suất chúng ta ịnh nghĩa
y=1 nếu thành phần ó ến từ π1
y=0 nếu thành phần ó ến từ π2
Nó chỉ là sự thêm vào một lượng nhỏ n1/(n1+n2) ối với mỗi quan sát của y như ược ịnh nghĩa bởi Fisher. Do vậy, chỉ có ước lượng của α, thành phần hằng số, là thay ổi còn các ˆ và các thống kê vẫn giữ nguyên.
Thống kê F ể kiểm ịnh ộ tin cậy của β = 0, as though yi có phân phối chuẩn là
với k và n1+n2 –K -1 bậc tự do. Nhưng từ (4.10) và (4.12) chúng ta thu ược
Do vậy
Trong ó D2 ược ịnh nghĩa ở (4.5). Do vậy,
Đó chính xác là công thức ở (4.6)
Bằng các biến ổi tương tự người ta có thể chỉ ra rẳng thống kê t ể kiểm ịnh λi = 0 (hoặc βi =0 trong mô hình tuyến tính xác suất) thực sự có phân phối t với n1+n2 –k-1 bậc tự do, bất chấp dạng nhị thức của biến phụ thuộc. Đó chính xác là (không phải tiệm cận) kiểm ịnh F và t có iều kiện ối với phân phối chuẩn joint của x‟s. Cũng vậy, các kiểm ịnh ối với bất kỳ tập con nào của λ (hoặc β) có thể thực hiện ược như bình thường, như ối với giả thuyết tuyến tính.
Giả sử chúng ta chia vector x thành (x1, x2), trong ó x1 có k1 (<k) biến. Một kiểm ịnh giả thuyết rằng k1 biến trong x1 là ủ cho sự phân biệt ược cho bởi
Trong ó D2 và D12
là các khoảng cách Mahalanobí với tập ầy ủ x và tập con x1, tương ứng, và
Và nó có phân phối F với bậc tự do là k-k1 và n1+n2 –k -1 (Rao, 1970). Cũng có thể chỉ ra rằng thống kê này là tương tự như thống kê F cho kiểm ịnh giả thuyết tuyến tính β2
=0 nếu vector β là có thể phân tách thành (β1, β2)