Có thể thấy phân tích khác biệt là một phương pháp phân tích trong thống kê được dùng rất nhiều trong khai thác dữ liệu để phân loại đối tượng vào các nhóm dựa trên việc đo lường các đặc
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN -
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN -
Trang 3LỜI CẢM ƠN
Để hoàn thành khóa luận này, tôi xin chân thành cảm ơn các thầy cô giáo
đã tận tình hướng dẫn, giảng dạy trong suốt quá trình học tập, nghiên cứu và
rèn luyện tại Trường Đại học sư phạm Hà Nội 2 Đặc biệt, tôi xin gửi lời cảm
ơn sâu sắc tới Thầy giáo hướng dẫn PGS.TS Trần Trọng Nguyên đã tận tình,
chu đáo hướng dẫn tôi thực hiện khóa luận này
Mặc dù đã có nhiều cố gắng để thực hiện đề tài một cách hoàn chỉnh
nhất song do còn hạn chế về kiến thức và kinh nghiệm nên không thể tránh
khỏi những thiếu sót nhất định mà bản thân chưa thấy được Tôi rất mong
được sự góp ý của các Thầy, Cô giáo và của bạn bè để khóa luận được hoàn
chỉnh hơn
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 10 tháng 04 năm 2017
Tác giả khóa luận
Đoàn Thị Ngà
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan những nội dung trình bày trong khóa luận là kết quả quá trình nghiên cứu của bản thân tôi và được sự hướng dẫn khoa học của PGS.TS Trần Trọng Nguyên Các nội dung này không trùng khớp với kết quả nghiên cứu của người khác Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo Ngoài ra, trong khóa luận còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác với thái độ trân trọng biết ơn và đều có trích dẫn, chú thích nguồn gốc
Hà nội, ngày 10 tháng 04 năm 2017
Tác giả khóa luận
Đoàn Thị Ngà
Trang 5MỤC LỤC
LỜI NÓI ĐẦU 1
CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ 3
1.1 Kiến thức về xác suất thống kê 3
1.1.1 Một số kiến thức xác suất 3
1.1.2 Kiến thức về thống kê 6
1.2 Phương pháp ước lượng hợp lý cực đại 9
1.3 Điểm trung bình hay trung tâm của đám mây số liệu và ma trận trung tâm hóa 10
1.4.Công thức xác định tâm và ma trận hiệp phương sai của các đám mây 10
1.5 Phân tích hồi quy 11
1.5.1 Khái niệm phân tích hồi quy 11
1.5.2 Hàm hồi quy 11
1.5.3 Hồi quy tổng thể và hồi quy mẫu 12
1.5.4 Hồi quy tuyến tính 12
1.5.5 Hồi quy đơn và hồi quy bội 13
1.5.6 Biến giả 14
1.5.7 Phân tích ANOVA 14
CHƯƠNG 2: PHÂN TÍCH KHÁC BIỆT 15
2.1 Tổng quan về phân tích khác biệt 15
2.1.1 Khái niệm 15
2.1.2 Mục tiêu của phân tích khác biệt 15
2.1.3 Mối quan hệ giữa phân tích hồi quy, phân tích ANOVA và phân tích khác biệt 16
2.1.4 Phân loại phân tích khác biệt 17
2.1.5 Mô hình phân tích biệt số 17
Trang 62.1.7 Tiến trình phân tích khác biệt 19
2.2 Một số phương pháp phân tích khác biệt 22
2.2.1 Một minh họa cụ thể của phân tích khác biệt 22
2.2.2 Phương pháp hồi quy logistic 24
2.2.3 Phương pháp Fisher 26
2.2.4 Phương pháp Bayes 27
CHƯƠNG 3: SPSS VỚI PHÂN TÍCH KHÁC BIỆT VÀ ỨNG DỤNG 34
3.1 Giới thiệu SPSS 34
3.2 SPSS với phân tích khác biệt 35
3.3 Ứng dụng 39
KẾT LUẬN 47
TÀI LIỆU THAM KHẢO 48
Trang 7LỜI NÓI ĐẦU
1 Lý do chọn đề tài
Phân tích khác biệt hay phân tích khác biệt theo nhân tố là một trong những phương pháp phân tích có nhiều ứng dụng trong thống kê Phân tích khác biệt cho phép thiết lập mối quan hệ của các tiêu thức, trên cơ sở đó tìm một đặc trưng định tính làm cơ sở phân biệt các cá thể của một tổng thể vốn được thể hiện bằng nhiều tiêu thức, nói chung là định lượng khác nhau Tiêu thức định tính này thường được gọi là biến phân biệt hay biến được giải thích
Có thể thấy phân tích khác biệt là một phương pháp phân tích trong thống kê được dùng rất nhiều trong khai thác dữ liệu để phân loại đối tượng vào các nhóm dựa trên việc đo lường các đặc trưng của đối tượng
Về mặt thực tiễn, phân tích khác biệt được dùng để giải quyết một số tình huống khi nhà nghiên cứu muốn tìm thấy sự khác biệt giữa những nhóm đối tượng nghiên cứu với nhau Ví dụ phân biệt khách hàng trung thành và không trung thành bằng một số đặc điểm nhân khẩu học, phân biệt các phân khúc khách hàng bằng một số tiêu chí lợi ích khi sử dụng một sản phẩm Các lĩnh vực đã có nhiều ứng dụng của lớp bài toán phân tích khác biệt là chuẩn đoán lâm sàng trong y học; dự báo thời tiết với các vùng áp suất khác nhau và cấu trúc, mật độ các đám mây; phân nhóm các loại cổ phiếu, các đối tượng đầu tư và các hoạt động tài chính, Phân tích khác biệt giúp nhà nghiên cứu phân loại đối tượng vào các nhóm và dự báo một đối tượng mới sẽ thuộc vào nhóm nào trong các nhóm đã có sẵn
Từ ý nghĩa to lớn về mặt thực tiễn của phân tích khác biệt, tôi muốn
chọn đề tài “Phân tích khác biệt với SPSS và ứng dụng” để tìm hiểu cách
giải quyết bài toán phân loại Ngoài ra, hiện nay có nhiều phương pháp được
Trang 8đưa ra để phân tích khác biệt với bài toán phân loại Tôi muốn tìm hiểu một
số phương pháp phổ biến và tối ưu để phân tích khác biệt đồng thời có thể
ứng dụng phân tích khác biệt trên phần mềm thống kê SPSS
2 Mục đích nghiên cứu
Nghiên cứu một số phương pháp khác biệt, tìm ra ưu điểm và nhược
điểm của mỗi phương pháp này và có thể ứng dụng tìm kiếm mô hình tối ưu
để áp dụng vào một số ví dụ cụ thể
Ứng dụng phần mềm thống kê SPSS trong thực hành phân tích khác biệt
3 Phạm vi nghiên cứu
Bài viết đề cập đến ba phương pháp tiêu biểu trong rất nhiều phương
pháp phân loại hiện nay là: Fisher, hồi quy logistic, Bayes; đồng thời bài viết
cũng trình bày phân tích khác biệt trên phần mềm SPSS
4 Phương pháp, công cụ nghiên cứu
Phương pháp nghiên cứu: nghiên cứu tài liệu và phân tích thống kê, xử
lý dữ liệu
5 Nội dung chính của đề tài
Ngoài lời nói đầu, nội dung chính của đề tài gồm các nội dung sau:
Chương 1: Kiến thức chuẩn bị
Chương 2: Phân tích khác biệt
Chương 3: SPSS với phân tích khác biệt và ứng dụng
Trang 9CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ
Trong chương này tôi sẽ trình bày một số kiến thức về xác suất thống
kê là biến ngẫu nhiên, hàm phân bố xác suất, bảng phân bố xác suất, hàm mật
độ xác suất, một số đặc trưng của biến ngẫu nhiên và mẫu ngẫu nhiên, giá trị tới hạn chuẩn, một số phân phối thường gặp, mẫu ngẫu nhiên, tổng thể nghiên cứu, kiểm định giả thuyết; về đám mây số liệu, ma trận hiệp phương sai,
phương pháp ước lượng hợp lý cực đại, phân tích hồi quy
1.1 Kiến thức về xác suất thống kê
1.1.1 Một số kiến thức xác suất
1.1.1.1 Biến ngẫu nhiên
Một đại lượng hay một biến nhận các giá trị của nó với xác suất nào đấy được gọi là biến ngẫu nhiên Ký hiệu X, Y, Z, …
- Nếu các giá trị của biến ngẫu nhiên rời nhau (cách xa nhau một khoảng nào đấy) thì biến ngẫu nhiên được gọi là rời rạc
- Nếu các giá trị của biến ngẫu nhiên lấp đầy một khoảng nào đó thì biến ngẫu nhiên được gọi là liên tục (theo [3])
1.1.1.2 Hàm phân bố xác suất
Định nghĩa 1.1: Hàm phân bố xác suất (hay hàm phân bố) của biến
ngẫu nhiên X, ký hiệu bởi F x( ), là hàm xác định với mọi xR theo công thức sau:
( )
F x P X x
1.1.1.3 Bảng phân bố xác suất
Phân bố xác suất của một biến ngẫu nhiên rời rạc X là một bảng trên đó
ta ghi các giá trị mà X có thể nhận kèm theo các xác suất để nó nhận các giá trị đó Như vậy phân bố xác suất của X sẽ là một bảng có dạng:
Trang 10ở đó p i P X x i với
1
1
n i i
P aX b f x dx 1.1.1.5 Một số đặc trưng của biến ngẫu nhiên
a Kì vọng
Giả sử biến ngẫu nhiên rời rạc X nhận một trong các giá trị có thể có
x1, x2, …, xn với xác suất tương ứng p1, p2, …, pn Kì vọng của biến ngẫu nhiên rời rạc X, ký hiệu E(X) là tổng các tích giữa các giá trị có thể có của biến ngẫu nhiên với các xác suất tương ứng:
Trang 11Giả sử biến ngẫu nhiên X có kì vọng EX Độ chệch khỏi giá trị trung bình là X Phương sai của X, ký hiệu var( )X , là độ lệch bình phương trung bình tức là kì vọng của 2
X Vậy ta có định nghĩa:
ar( )
Giá trị tới hạn chuẩn mức của biến ngẫu nhiên U, kí hiệu là u là một giá trị thỏa mãn:
P U( u)
P U( u) 1
1.1.1.7 Một số phân phối thường gặp
a Phân phối đều
Biến ngẫu nhiên liên tục X được gọi là có phân bố đều trên đoạn [a, b] nếu X có thể nhận bất kì giá trị nào trên [a, b] với xác suất như nhau và không nhận giá trị nào bên ngoài [a, b] (theo [7])
Hàm mật độ xác suất của biến ngẫu nhiên phân phối đều cho bởi công thức:
b Phân phối chuẩn tắc
Biến ngẫu nhiên U được gọi là có phân bố chuẩn tắc nếu hàm mật độ của nó là:
2
2
1 ( )
Trang 12c Phân phối chuẩn
Biến ngẫu nhiên liên tục X được gọi là có phân phối chuẩn với tham số
và 2 (ở đó 0) nếu hàm mật độ xác suất của nó có dạng:
2 2
( ) 2
1 ( )
2 2
( ) 2
1 ( )
2
t x
Định nghĩa 1.3 (theo [2]): Toàn bộ tập hợp các phần tử đồng nhất theo
một dấu hiệu nghiên cứu định tính hoặc định lượng nào đó được gọi là tổng thể nghiên cứu hay tổng thể
Số lượng các phần tử của tổng thể được gọi là kích thước của tổng thể,
ký hiệu là N (kích thước N của tổng thể là hữu hạn)
Với mỗi tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà thông qua một hay nhiều dấu hiệu đặc trưng Chúng được gọi là dấu hiệu nghiên cứu, ký hiệu là
1.1.2.2 Mẫu ngẫu nhiên
Tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó Ta gọi Xi là việc quan sát lần thứ i về biến ngẫu nhiên X Khi đó (X1, X2, …, Xn) được gọi
là mẫu ngẫu nhiên, n được gọi là cỡ mẫu Như vậy, mẫu ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, cùng phân phối như biến ngẫu nhiên X (theo [3])
1.1.2.3 Một số đặc trưng của mẫu ngẫu nhiên
a Trung bình mẫu
Trang 13Trung bình mẫu của mẫu ngẫu nhiên W = (X1, X2, …, Xn) của biến ngẫu nhiên X được định nghĩa và kí hiệu:
1
1 n
i i
b Phương sai mẫu
Phương sai mẫu là trung bình cộng của độ lệch bình phương các thành phần của mẫu với trung bình mẫu và kí hiệu 2
S được xác định như sau:
• Giả thuyết: Một mệnh đề (một câu khẳng định) về một vấn đề
chưa biết nào đó được gọi là giả thuyết
• Giả thuyết thống kê: Giả thuyết thống kê là những phát biểu về các tham số, quy luật phân phối, hoặc tính độc lập của các đại
lượng ngẫu nhiên
• Kiểm định giả thuyết là việc tìm ra kết luận để bác bỏ hay chấp
trong đó là tham số liên quan đến giả thuyết cần kiểm định
Trang 14Nếu H0 đúng thì thống kê T có quy luật phân bố xác suất xác định, từ
đó có thể xây dựng miền bác bỏ W
c Miền bác bỏ giả thuyết
Sau khi đã chọn tiêu chuẩn kiểm định T , với bé cho trước (thường
được lấy bằng 0,05 hoặc 0,01) và với điều kiện H0 đúng ta có thể tìm được miền Wsao cho T nhận giá trị trong miền W với xác suất bằng :
W / 0
P T H Giá trị được gọi là mức ý nghĩa của kiểm định và miền W gọi là miền bác bỏ giả thuyết H0với mức ý nghĩa
d Giá trị quan sát của tiêu chuẩn kiểm định
Thực hiện phép thử với mẫu ngẫu nhiên X (X X1, 2, ,X n) thu được mẫu cụ thể x ( ,x x1 2, ,x n), thay giá trị này vào thống kê T T X X( 1, 2, ,X n, )
ta được giá trị quan sát của tiêu chuẩn kiểm định: T qs ( ,x x1 2, ,x n, 0)
e Sai lầm trong bài toán kiểm định
• Sai lầm loại I: Bác bỏ giả thuyết H0 trong khi H0 đúng
Xác suất mắc sai lầm loại I đúng bằng mức ý nghĩa Thật vậy, xác suất ta bác bỏ H0 bằng xác suất biến cố T W, do đó khi H0 đúng thì xác suất này là xác suất có điều kiện P T W / H
Sai lầm loại I sinh ra do kích thước mẫu quá nhỏ, do phương pháp lấy mẫu
• Sai lầm loại II: Thừa nhận giả thuyết H0 trong khi H0 sai
Điều này xảy ra khi giá trị quan sát T qs không thuộc miền bác bỏ Wtrong khi H1đúng
Vậy xác suất sai lầm loại II là và được xác định như sau:
W / 1
P T H
Trang 151.2 Phương pháp ước lượng hợp lý cực đại
Ước lượng hợp lý cực đại là một kỹ thuật thống kê dùng để ước lượng giá trị tham số của một mô hình xác suất dựa trên những dữ liệu có được Phương pháp này được nhà toán học R.A Fisher phát triển vào khoảng những năm 1912 – 1922 Phương pháp này dựa trên giả thiết các mẫu ngẫu nhiên (X1, X2, …, Xn) có được đều độc lập và có cùng phân phối, với hàm phân phối thuộc một lớp cụ thể với tham số chưa biết Mục tiêu của phương pháp này là đi tìm giá trị của tham số để tối ưu hóa hàm hợp lý:
1
( / ) ( , )
n k
Trang 16tại 0 hàm hợp lý L X( / ) đạt cực đại (theo [1])
1.3 Điểm trung bình hay trung tâm của đám mây số liệu và ma trận trung tâm hóa
x x
p p
x x X x
1
T
Trong đó 1 là véc tơ có tất cả các thành phần bằng 1 trong không gian
Rn Dễ dàng kiểm tra thấy g là một véc tơ p chiều
Việc trung tâm hóa đám mây số liệu thực hiện bằng cách lập các véc tơ chênh lệch của các cá thể với véc tơ g
Đặt ma trận: Y X 1g T, g là chuyển vị của g T (1.2) Tích 1g là một ma trận có các dòng là đều là véc tơ T g T
1.4 Công thức xác định tâm và ma trận hiệp phương sai của các đám mây
i j
Trang 171.5 Phân tích hồi quy
1.5.1 Khái niệm phân tích hồi quy
Là việc tìm quan hệ phụ thuộc của một biến, được gọi là biến phụ thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập (theo [1])
1.5.2 Hàm hồi quy
Giả sử có cơ sở cho rằng sự biến động của X1 (chẳng hạn) phụ thuộc vào tình trạng của các biến còn lại X2,…, Xk (k >2) Như vậy chúng ta đã coi như các biến X2,…, Xk là phi ngẫu nhiên Trong trường hợp này với mỗi trạng thái của X2,…, Xk biến ngẫu nhiên X1 có một phân phối có điều kiện tương ứng F(X1/X2,…, Xk) có trung bình và phương sai hữu hạn Để phân biệt biến ngẫu nhiên và phi ngẫu nhiên trong trường hợp này ta đổi tên biến X1 là Y
Như vậy khi (X2,…, Xk) = (x21,…, xk1) xác định duy nhất E1(Y/X2,…, Xk) Tương tự khi (X2,…, Xk) = (x2i,…, xki) xác định duy nhất Ei(Y/X2,…, Xk) Quan hệ trên xác định một hàm số biểu thị quan hệ phụ thuộc của giá trị trung bình có điều kiện của Y theo các biến được coi là phi ngẫu nhiên (X2,…, Xk)
Định nghĩa 1.4 [8]: Hàm hồi quy của Y theo X2,…, Xk là trung bình có điều kiện của Y theo X2,…, Xk
Ta có thể viết: F(Y/X2,…, Xk) = f (X2,…, Xk) (1.3)
Trang 18và gọi f là hàm hồi quy Y theo (X2,…, Xk) Y gọi là biến phụ thuộc và (X2,…,
Xk) gọi là các biến độc lập Trường hợp đơn giản nhất: E(Y/X) = f(X) ta có một hồi quy đơn Hồi quy với hơn một biến độc lập ta gọi là một hồi quy bội
1.5.3 Hồi quy tổng thể và hồi quy mẫu
Định nghĩa 1.5 [8]: Giả sử tổng thể đang xét có số đông cá thể, với cá
thể i biến Y và (X2,…, Xk) nhận bộ giá trị Yi và (X2i,…, Xki) ta có quan hệ sau nhận được từ (1.3) và gọi là hồi quy tổng thể:
Quan hệ của Yi và ước lượng của nó có thể mô tả như sau:
(1.5) gọi là hồi quy mẫu và ei gọi là phần dư của Yi trong hồi quy mẫu
1.5.4 Hồi quy tuyến tính
Trong (1.3) khi xem xét cấu trúc của f, người ta có thể quan tâm đến hai vấn đề:
Thứ nhất là các biến độc lập: với bậc của các biến độc lập ta có các hàm tuyến tính hay phi tuyến tính theo nghĩa giải tích
Thứ hai là các tham số cấu trúc của hàm hồi quy f: với bậc của các tham số người ta chia hàm hồi quy thành các dạng hồi quy tuyến tính hay phi tuyến tính Do yêu cầu của các kĩ thuật ước lượng cũng như ý nghĩa các tham
Trang 19số cấu trúc trong phân tích hồi quy, người ta quan niệm một hồi quy tuyến tính là hồi quy có f tuyến tính theo các tham số
Thực tế có nhiều mô hình phi tuyến tính có thể tuyến tính hóa nhờ các phép biến đổi trên các biến Có thể xếp các mô hình này là các mô hình tuyến tính, các mô hình thông dụng trong kinh tế xã hội là:
1.5.5 Hồi quy đơn và hồi quy bội
Mô hình hồi quy đơn là mô hình hồi quy với 1 biến độc lập duy nhất, biến này giải thích cho biến phụ thuộc với một ý nghĩa duy nhất Trong trường hợp hồi quy tuyến tính hồi quy đơn luôn có dạng:
1 2 2
Mô hình hồi quy bội là mô hình có hơn 1 biến độc lập, có thể có những biến là biến thứ sinh của các biến khác Trong trường hợp hồi quy tuyến tính, một hồi quy bội có dạng sau:
1 2 2 k k
Y X X (1.6)
Có thể viết (1.6) dưới dạng sau: Y X U (1.7)
Hồi quy mẫu tương ứng được mô tả như sau:
Trang 20Biến định lượng là các biến mà giá trị quan sát là những con số Ví dụ :
thu nhập, chi tiêu, …
Trang 21CHƯƠNG 2: PHÂN TÍCH KHÁC BIỆT
Trong chương này, tôi sẽ trình bày một số kiến thức về tổng quan phân tích khác biệt như là khái niệm, mục tiêu, …; một số phương pháp phân tích khác biệt là phương pháp hồi quy logistic, phương pháp Fisher và phương pháp Bayes
2.1 Tổng quan về phân tích khác biệt
2.1.1 Khái niệm
Phân tích khác biệt là một kỹ thuật phân tích sử dụng cho việc phân biệt giữa các nhóm bằng cách phân tích dữ liệu với một biến phụ thuộc được phân loại và các biến độc lập được đo bằng thang đo khoảng Ví dụ, biến phụ thuộc có thể chọn một nhãn hiệu máy tính cá nhân (A, B hoặc C) và các biến độc lập có thể là chất lượng được đánh giá theo ba loại (chất lượng tốt, chất lượng trung bình và chất lượng kém)
2.1.2 Mục tiêu của phân tích khác biệt
Phân tích khác biệt nhằm đạt được những mục tiêu sau đây:
- Phát triển những hàm phân biệt kết hợp tuyến tính những nhân tố dự báo (các biến độc lập) Hàm này có sự phân biệt tốt nhất giữa các tiêu chuẩn nhóm đã phân loại (biến phụ thuộc)
- Xác định xem có sự khác biệt có ý nghĩa tồn tại giữa các nhóm về nội dung của các biến độc lập không
- Xác định biến độc lập nào gây ra sự khác biệt giữa các nhóm
- Phân loại nhóm này so với nhóm khác dựa vào các giá trị của các biến độc lập
- Ðánh giá tính chính xác của việc phân loại
Trang 222.1.3 Mối quan hệ giữa phân tích hồi quy, phân tích ANOVA và phân tích khác biệt
Giữa các phân tích hồi quy, ANOVA và phân tích khác biệt có những điểm giống nhau và khác nhau như sau:
Bảng 1.1: Phân biệt giữa ba loại phân tích
Hồi quy ANOVA Khác biệt Giống
Trong thực tế phân tích dữ liệu, tùy theo mục tiêu nghiên cứu, tính chất của dữ liệu (do điều kiện thu thập dữ liệu hay do đặc điểm của đối tượng được khảo sát) mà người phân tích dữ liệu sử dụng linh hoạt các phương pháp phân tích Điều cần lưu ý là khi thiết kế nghiên cứu, người nghiên cứu cần hình dung ra các mô hình phân tích để thiết kế thang đo thu thập các dữ liệu phù hợp với mô hình phân tích sử dụng
Ví dụ 1: Một nhà nghiên cứu muốn giải thích lượng tiền bảo hiểm nhân
thọ được trả (biến phụ thuộc) dựa vào tuổi và thu nhập (biến độc lập) Cả ba biến này đều có liên quan với nhau nhưng có bản chất khác nhau Trong phân tích ANOVA và hồi quy, bản chất của biến phụ thuộc dùng đơn vị tính cho chỉ tiêu lượng tiền bảo hiểm nhân thọ là đồng, trong khi đó trong phân tích khác biệt (biến phụ thuộc) thì lượng tiền bảo hiểm có thể được phân loại một trong ba mức độ: cao, trung bình hay thấp Ngược lại, các biến độc lập tuổi và
Trang 23thu nhập trong phân tích ANOVA chia làm ba loại: cao, trung bình và thấp còn trong hồi quy và phân tích khác biệt nó sử dụng đơn vị tính của tuổi là năm và đơn vị tính của thu nhập là triệu đồng
2.1.4 Phân loại phân tích khác biệt
Phân tích khác biệt giữa hai nhóm: Là phân tích được sử dụng
trong trường hợp biến phụ thuộc được chia làm hai loại, biến phụ thuộc được
mã hóa theo hai số 0 hoặc số 1 (dummy variables) Kết quả phân tích thể hiện các hệ số hồi quy thì tỷ lệ với các hệ số hàm phân biệt
Phân tích khác biệt đa nhóm: Là kỹ thuật phân tích được sử dụng trong
trường hợp biến phụ thuộc được phân loại thành ba hay nhiều nhóm
2.1.5 Mô hình phân tích biệt số
Mô hình phân tích khác biệt được dựa vào mô hình thống kê như sau:
D = bo + b1x1 + b2x2 + + bkxk
trong đó:
D: Ðiểm phân biệt (biến phụ thuộc)
bi: Các hệ số hay trọng số phân biệt (i = 1,n)
xi: Các biến độc lập (i = 1,n)
Trong mô hình phân tích, hệ số hay trọng số (bi) được ước lượng để phân biệt sự khác nhau giữa các nhóm dựa vào giá trị của hàm phân biệt Ðiều này xuất hiện khi tỷ số giữa tổng bình phương giữa các nhóm và tổng bình phương trong từng nhóm có điểm phân biệt lớn nhất
2.1.6 Các tham số thống kê trong phân tích khác biệt
Canonical correlation: hệ số tương quan đo lường mức độ liên hệ giữa
các biệt số và các nhóm Nó là một thước đo mối liên hệ giữa hàm phân biệt
đơn và tập hợp các biến giả xác định các nhóm
Trang 24Centroid: trung bình của các giá trị biệt số trong mỗi nhóm Số
Centroid bằng với số nhóm vì mỗi nhóm có một Centroid
Classification matrix: ma trận phân loại (ma trận dự đoán) chứa số
quan sát được phân loại đúng và số quan sát phân loại sai Số quan sát phân loại đúng sẽ nằm trên đường chéo chính của ma trận, và số quan sát phân loại sai nằm ngoài đường chéo Tổng của các số nằm trên đường chéo được chia cho tổng số quan sát và được gọi là tỉ lệ đúng (tỉ lệ thành công)
Discriminant function coefficients: hệ số hàm phân biệt (chưa chuẩn
hóa) là các trọng số của các biến khi các biến được đo lường bằng đơn vị tính nguyên thủy
Discriminant scores: các biệt số được tính bằng cách nhân các hệ số
không chuẩn hóa được với giá trị của các biến, sau đó lấy tổng của các tích tìm được theo phương trình ở phần trên
Eigenvalue: là tỉ số giữa tổng các độ lệch bình phương giữa các nhóm
và tổng các độ lệch bình phương trong nội bộ nhóm Eigenvalue càng lớn thì hàm phân biệt càng tốt
F value and their significane: giá trị F được tính từ ANOVA một yếu
tố, trong đó biến phân loại được sử dụng như biến độc lập, và mỗi biến dự đoán được sử dụng như biến phụ thuộc kiểu định lượng
Group means and group standard deviations: trung bình nhóm và
độ lệch chuẩn nhóm được tính cho mỗi biến dự đoán cho mỗi nhóm
Pooled within-group correlation matrix: ma trận tương quan nội bộ
nhóm chung được tính bằng cách lấy trung bình các ma trận hiệp phương sai riêng cho tất cả các nhóm
Standarzed discriminant function coefficients: các hệ số hàm phân
biệt chuẩn hóa là các hệ số hàm phân biệt được sử dụng như trọng số khi các biến được chuẩn hóa có trung bình là 0 và phương sai là 1
Trang 25Structure correlation: tương quan kết cấu cho biết các hệ số tương
quan đơn giữa các biến dự đoán và hàm phân biệt
Total correlation matrix: ma trận tương quan toàn bộ là ma trận
tương quan khi các quan sát được coi như xuất phát từ một mẫu duy nhất
Wilks’٨ : đôi khi được gọi là đại lượng thống kê U ( U statistic)
2.1.7 Tiến trình phân tích khác biệt
2.1.7.1 Xác định vấn đề nghiên cứu
Bước 1: Xác định vấn đề nghiên cứu bao gồm nhận biết các mục tiêu,
biến phụ thuộc, và các biến độc lập Biến phụ thuộc phải là biến có hai hay nhiều biểu hiện Khi biến phụ thuộc được đo trên thang khoảng cách hay tỉ lệ,
ta phải chuyển đổi về kiểu biến phân loại
Ví dụ 2: Thái độ đối với nhãn hiệu được đo trên thang khoảng cách có
6 điểm có thể được chuyển đổi thành biến phân loại là không thuận lợi (gồm 1,2,3) và thuận lợi (gồm 4,5,6)
Bước 2: Chia mẫu quan sát thành 2 phần Phần dùng để ước lượng hàm
phân biệt được gọi mà mẫu ước lượng hay mẫu phân tích (estimation or analysis sample) Phần còn lại được gọi là mẫu kiểm tra (holdout or validation sample) dùng để kiểm tra tính đúng đắn của hàm phân biệt Khi mẫu đủ lớn,
ta có thể chia mẫu thành hai phần bằng nhau: một để phân tích và một để kiểm tra Vai trò của hai nửa mẫu này có thể được thay đổi và việc phân tích được lập lại Điều này gọi là kiểm tra chéo hai lần (double cross- validation) Thông thường phân phối của số quan sát trong mẫu phân tích và mẫu kiểm tra giống như phân phối trong toàn bộ mẫu
Ví dụ 3: Nếu toàn bộ mẫu gồm 50% người tiêu dùng trung thành và
50% người tiêu dùng không trung thành, thì mẫu phân tích và mẫu kiểm tra cũng gồm 50% trung thành và 50% không trung thành
Trang 26Có hai phương pháp ước lượng các hệ số của hàm phân biệt:
Phương pháp trực tiếp (Enter independents together): ước lượng
hàm phân biệt khi tất cả các biến dự đoán được đưa vào cùng một lúc Trong trường hợp này mỗi biến được đưa vào bất kể khả năng phân biệt của nó Phương pháp này thích hợp khi dựa vào nghiên cứu trước đó hay mô hình lý thuyết, người nghiên cứu muốn hàm phân biệt được xây dựng trên tất cả các biến dự đoán
Phương pháp từng bước (Use stepwise method): các biến dự đoán
được đưa vào hàm phân biệt một cách tuần tự dựa vào khả năng phân biệt được các nhóm của chúng Phương pháp này thích hợp khi nhà nghiên cứu muốn chọn ra một tập con các biến dự đoán để đưa vào phương trình
2.1.7.3 Xác định mức ý nghĩa
Chúng ta không được giải thích kết quả phân tích nếu hàm phân biệt được ước lượng không có ý nghĩa về mặt thống kê Giả thiết không ở đây là trong tổng thể các trung bình của các hàm phân biệt trong tất cả các nhóm là bằng nhau, giả thiết này phải được kiểm định xem có ý nghĩa thống kê không Trong SPSS, kiểm định này được thực hiện trên tiêu chuẩn kiểm định Wilk’٨ Nếu hàm phân biệt được kiểm định cùng một lúc (trong trường hợp phân tích bội số), thì đại lượng Wilk’٨ là tích của các đại lượng đơn biến của từng hàm Mức ý nghĩa ước lượng dựa trên phép biến đổi sang đại lượng Chi- square của đại lượng này
2.1.7.4 Giải thích kết quả
Trị số của hệ số của một biến dự đoán phụ thuộc vào việc đưa các biến
dự đoán khác vào trong hàm phân biệt Dấu của các hệ số này thì tùy ý, nhưng chúng cho biết biến nào làm trị số của hàm phân biệt lớn hay nhỏ và nên gắn
chúng với nhóm nào
Trang 27Tầm quan trọng của các biến được thể hiện qua độ lớn tuyệt đối của hệ
số chuẩn hóa của hàm phân biệt Nói chung, các biến có hệ số chuẩn hóa càng lớn thì càng đóng góp nhiều hơn vào khả năng phân biệt của hàm Tầm quan trọng của các biến cũng có thể được thể hiện qua các hệ số tương quan kết cấu, bảng này được sắp theo thứ tự giảm dần của độ lớn, hay còn gọi là hệ số biệt tải hay trọng số canonical Những hệ số tương quan đơn giữa từng biến
dự đoán và hàm phân biệt này cho biết phương sai biến dự đoán này tham gia trong phương trình
2.1.7.5 Đánh giá
Như đã đề cập trong phần trên, các dữ liệu được chia làm hai phần: mẫu phân tích dùng để ước lượng hàm phân biệt, và mẫu kiểm tra dùng để xây dựng ma trận phân loại Các hệ số phân biệt (discriminant weights) sau khi được ước lượng từ mẫu phân tích, sẽ được nhân với các giá trị của các biến dự đoán trong mẫu kiểm tra để tính biệt số của từng mẫu quan sát trong mẫu kiểm tra
Tiếp theo các quan sát này được phân vào các nhóm dựa trên biệt số của chúng và dựa trên một nguyên tắc quyết định thích hợp Trong phân tích biệt số hai nhóm thì các quan sát được phân vào nhóm có centroid gần nhất Nguyên tắc quyết định thường tính ra một điểm phân biệt, nếu quan sát có biệt số lớn hơn giá trị này thì được xếp vào nhóm có centroid lớn, ngược lại nếu biệt số của quan sát này nhỏ hơn giá trị này thì sẽ được xếp vào nhóm có centroid nhỏ
Sau đó, tỉ lệ đúng (hit ratio) hay phần trăm số quan sát được phân loại đúng, được tính bằng cách cộng các con số trên đường chéo của bảng kết quả phân loại (classification results) và chia cho tổng số quan sát Kết quả phân loại tính từ mẫu phân tích luôn luôn tốt hơn kết quả phân loại tính từ mẫu kiểm tra bởi vì hàm phân biệt được ước lượng từ các dữ liệu trong mẫu phân tích