1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích khác biệt với SPSS và ứng dụng

55 37 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 1,4 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Có thể thấy phân tích khác biệt là một phương pháp phân tích trong thống kêđược dùng rất nhiều trong khai thác dữ liệu để phân loại đối tượng vào cácnhóm dựa trên việc đo lường các đặc t

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

KHOA TOÁN -

Trang 2

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

KHOA TOÁN -

Trang 3

LỜI CẢM ƠN

Để hoàn thành khóa luận này, tôi xin chân thành cảm ơn các thầy cô giáo

đã tận tình hướng dẫn, giảng dạy trong suốt quá trình học tập, nghiên cứu vàrèn luyện tại Trường Đại học sư phạm Hà Nội 2 Đặc biệt, tôi xin gửi lời cảm

ơn sâu sắc tới Thầy giáo hướng dẫn PGS.TS Trần Trọng Nguyên đã tận tình,chu đáo hướng dẫn tôi thực hiện khóa luận này

Mặc dù đã có nhiều cố gắng để thực hiện đề tài một cách hoàn chỉnhnhất song do còn hạn chế về kiến thức và kinh nghiệm nên không thể tránhkhỏi những thiếu sót nhất định mà bản thân chưa thấy được Tôi rất mongđược sự góp ý của các Thầy, Cô giáo và của bạn bè để khóa luận được hoànchỉnh hơn

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 10 tháng 04 năm 2017

Tác giả khóa luận

Đoàn Thị Ngà

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan những nội dung trình bày trong khóa luận là kết quảquá trình nghiên cứu của bản thân tôi và được sự hướng dẫn khoa học củaPGS.TS Trần Trọng Nguyên Các nội dung này không trùng khớp với kếtquả nghiên cứu của người khác Những số liệu trong các bảng biểu phục vụcho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ cácnguồn khác nhau có ghi rõ trong phần tài liệu tham khảo Ngoài ra, trongkhóa luận còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tácgiả khác, cơ quan tổ chức khác với thái độ trân trọng biết ơn và đều có tríchdẫn, chú thích nguồn gốc

Hà nội, ngày 10 tháng 04 năm 2017

Tác giả khóa luận

Đoàn Thị Ngà

Trang 5

MỤC LỤC

LỜI NÓI ĐẦU 1

CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ 3

1.1 Kiến thức về xác suất thống kê 3

1.1.1 Một số kiến thức xác suất 3

1.1.2 Kiến thức về thống kê 6

1.2 Phương pháp ước lượng hợp lý cực đại 9

1.3 Điểm trung bình hay trung tâm của đám mây số liệu và ma trận trung tâm hóa 10

1.4.Công thức xác định tâm và ma trận hiệp phương sai của các đám mây 10

1.5 Phân tích hồi quy 11

1.5.1 Khái niệm phân tích hồi quy 11

1.5.2 Hàm hồi quy 11

1.5.3 Hồi quy tổng thể và hồi quy mẫu 12

1.5.4 Hồi quy tuyến tính 12

1.5.5 Hồi quy đơn và hồi quy bội 13

1.5.6 Biến giả 14

1.5.7 Phân tích ANOVA 14

CHƯƠNG 2: PHÂN TÍCH KHÁC BIỆT 15

2.1 Tổng quan về phân tích khác biệt 15

2.1.1 Khái niệm 15

2.1.2 Mục tiêu của phân tích khác biệt 15

2.1.3 Mối quan hệ giữa phân tích hồi quy, phân tích ANOVA và phân tích khác biệt 16

2.1.4 Phân loại phân tích khác biệt 17

2.1.5 Mô hình phân tích biệt số 17

2.1.6 Các tham số thống kê trong phân tích khác biệt 17

Trang 6

2.1.7 Tiến trình phân tích khác biệt 19

2.2 Một số phương pháp phân tích khác biệt 22

2.2.1 Một minh họa cụ thể của phân tích khác biệt 22

2.2.2 Phương pháp hồi quy logistic 24

2.2.3 Phương pháp Fisher 26

2.2.4 Phương pháp Bayes 27

CHƯƠNG 3: SPSS VỚI PHÂN TÍCH KHÁC BIỆT VÀ ỨNG DỤNG 34

3.1 Giới thiệu SPSS 34

3.2 SPSS với phân tích khác biệt 35

3.3 Ứng dụng 39

KẾT LUẬN 47

TÀI LIỆU THAM KHẢO 48

Trang 7

Có thể thấy phân tích khác biệt là một phương pháp phân tích trong thống kêđược dùng rất nhiều trong khai thác dữ liệu để phân loại đối tượng vào cácnhóm dựa trên việc đo lường các đặc trưng của đối tượng.

Về mặt thực tiễn, phân tích khác biệt được dùng để giải quyết một sốtình huống khi nhà nghiên cứu muốn tìm thấy sự khác biệt giữa những nhómđối tượng nghiên cứu với nhau Ví dụ phân biệt khách hàng trung thành vàkhông trung thành bằng một số đặc điểm nhân khẩu học, phân biệt các phânkhúc khách hàng bằng một số tiêu chí lợi ích khi sử dụng một sản phẩm Cáclĩnh vực đã có nhiều ứng dụng của lớp bài toán phân tích khác biệt là chuẩnđoán lâm sàng trong y học; dự báo thời tiết với các vùng áp suất khác nhau vàcấu trúc, mật độ các đám mây; phân nhóm các loại cổ phiếu, các đối tượngđầu tư và các hoạt động tài chính, Phân tích khác biệt giúp nhà nghiên cứuphân loại đối tượng vào các nhóm và dự báo một đối tượng mới sẽ thuộc vàonhóm nào trong các nhóm đã có sẵn

Từ ý nghĩa to lớn về mặt thực tiễn của phân tích khác biệt, tôi muốn

chọn đề tài “Phân tích khác biệt với SPSS và ứng dụng” để tìm hiểu cách

giải quyết bài toán phân loại Ngoài ra, hiện nay có nhiều phương pháp được

Trang 8

đưa ra để phân tích khác biệt với bài toán phân loại Tôi muốn tìm hiểu một

số phương pháp phổ biến và tối ưu để phân tích khác biệt đồng thời có thểứng dụng phân tích khác biệt trên phần mềm thống kê SPSS

4 Phương pháp, công cụ nghiên cứu

Phương pháp nghiên cứu: nghiên cứu tài liệu và phân tích thống kê, xử

lý dữ liệu

5 Nội dung chính của đề tài

Ngoài lời nói đầu, nội dung chính của đề tài gồm các nội dung sau:Chương 1: Kiến thức chuẩn bị

Chương 2: Phân tích khác biệt

Chương 3: SPSS với phân tích khác biệt và ứng dụng

Trang 9

CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ

Trong chương này tôi sẽ trình bày một số kiến thức về xác suất thống

kê là biến ngẫu nhiên, hàm phân bố xác suất, bảng phân bố xác suất, hàm mật

độ xác suất, một số đặc trưng của biến ngẫu nhiên và mẫu ngẫu nhiên, giá trịtới hạn chuẩn, một số phân phối thường gặp, mẫu ngẫu nhiên, tổng thể nghiêncứu, kiểm định giả thuyết; về đám mây số liệu, ma trận hiệp phương sai,phương pháp ước lượng hợp lý cực đại, phân tích hồi quy

1.1 Kiến thức về xác suất thống kê

1.1.1 Một số kiến thức xác suất

1.1.1.1 Biến ngẫu nhiên

Một đại lượng hay một biến nhận các giá trị của nó với xác suất nàođấy được gọi là biến ngẫu nhiên Ký hiệu X, Y, Z, …

- Nếu các giá trị của biến ngẫu nhiên rời nhau (cách xa nhau một khoảngnào đấy) thì biến ngẫu nhiên được gọi là rời rạc

- Nếu các giá trị của biến ngẫu nhiên lấp đầy một khoảng nào đó thì biếnngẫu nhiên được gọi là liên tục (theo [3])

1.1.1.2 Hàm phân bố xác suất

Định nghĩa 1.1: Hàm phân bố xác suất (hay hàm phân bố) của biến

ngẫu nhiên X, ký hiệu bởi

Phân bố xác suất của một biến ngẫu nhiên rời rạc X là một bảng trên đó

ta ghi các giá trị mà X có thể nhận kèm theo các xác suất để nó nhận các giátrị đó Như vậy phân bố xác suất của X sẽ là một bảng có dạng:

Trang 10

Giả sử biến ngẫu nhiên rời rạc X nhận một trong các giá trị có thể có

nhiên rời rạc X, ký hiệu E(X) là tổng các tích giữa các giá trị có thể có củabiến ngẫu nhiên với các xác suất tương ứng:

Trang 11

f (x)  b  a

1.1.1.7 Một số phân phối thường gặp

a Phân phối đều

Biến ngẫu nhiên liên tục X được gọi là có phân bố đều trên đoạn [a, b]nếu X có thể nhận bất kì giá trị nào trên [a, b] với xác suất như nhau và khôngnhận giá trị nào bên ngoài [a, b] (theo [7])

Hàm mật độ xác suất của biến ngẫu nhiên phân phối đều cho bởi côngthức:

chuẩn tắc

a,b

Biến ngẫu nhiên U được gọi là có phân bố chuẩn tắc nếu hàm mật độcủa nó là:

1 x2

(x)  e 2

2

Trang 12

N( ,

2

c Phân phối chuẩn

Định nghĩa 1.3 (theo [2]): Toàn bộ tập hợp các phần tử đồng nhất theo

một dấu hiệu nghiên cứu định tính hoặc định lượng nào đó được gọi là tổngthể nghiên cứu hay tổng thể

Số lượng các phần tử của tổng thể được gọi là kích thước của tổng thể,

ký hiệu là N (kích thước N của tổng thể là hữu hạn)

Với mỗi tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà thôngqua một hay nhiều dấu hiệu đặc trưng Chúng được gọi là dấu hiệu nghiên

1.1.2.2 Mẫu ngẫu nhiên

là mẫu ngẫu nhiên, n được gọi là cỡ mẫu Như vậy, mẫu ngẫu nhiên cỡ n thựcchất là n biến ngẫu nhiên độc lập, cùng phân phối như biến ngẫu nhiên X(theo [3])

1.1.2.3 Một số đặc trưng của mẫu ngẫu nhiên

a Trung bình mẫu

Trang 13

2 1 n

i

ngẫu nhiên X được định nghĩa và kí hiệu:

b Phương sai mẫu

X   X i

Phương sai mẫu là trung bình cộng của độ lệch bình phương các thành

 1

• Kiểm định giả thuyết là việc tìm ra kết luận để bác bỏ hay chấpnhận một giả thuyết

• Trong bài toán kiểm định giả thuyết, giả thuyết cần được kiểm

1

b.Tiêu chuẩn kiểm định giả thuyết thống kê

chuẩn kiểm định và được xác định như sau:

Từ biến ngẫu nhiên gốc X của tổng thể lập mẫu ngẫu nhiên kích thướcn:

W  (X1, X2 , , X n )

Trang 14

Nếu H0 đúng thì thống kê T có quy luật phân bố xác suất xác định, từ

c Miền bác bỏ giả thuyết

PT  W / H0  

d Giá trị quan sát của tiêu chuẩn kiểm định

T  T (X1, X2 , , X n ,  )

e Sai lầm trong bài toán kiểm định

xác

khi

pháp

Trang 15

PT  W / H1   .

Trang 16

i j

1.2 Phương pháp ước lượng hợp lý cực đại

Ước lượng hợp lý cực đại là một kỹ thuật thống kê dùng để ước lượnggiá trị tham số của một mô hình xác suất dựa trên những dữ liệu có được.Phương pháp này được nhà toán học R.A Fisher phát triển vào khoảng nhữngnăm 1912 – 1922 Phương pháp này dựa trên giả thiết các mẫu ngẫu nhiên

này là đi tìm giá trị của tham số để tối ưu hóa hàm hợp lý:

Cụ thể :

n L( X /  )   f ( X , )





 ln L ( X /  ) 0

 r .Đây là điều kiện cần để

 2 ln L( X , )

L( X /  ) đạt cực đại

Đặt uij 

Trang 17

nên 1 tập hợp gọi là một đám mây số liệu, ta gọi véc tơ trung tâm của X hayđiểm trung tâm của đám mây này là g thì g có thể tính như sau:

D1 (1.1)

Trong đó 1 là véc tơ có tất cả các thành phần bằng 1 trong không gian

Việc trung tâm hóa đám mây số liệu thực hiện bằng cách lập các véc tơchênh lệch của các cá thể với véc tơ g

Trang 18

+ V  1 p (X

 g ) (X

1.5 Phân tích hồi quy

1.5.1 Khái niệm phân tích hồi quy

Là việc tìm quan hệ phụ thuộc của một biến, được gọi là biến phụ thuộcvào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ướclượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trịcủa biến độc lập (theo [1])

1.5.2 Hàm hồi quy

của giá

trị trung bình có điều kiện của Y theo các biến được coi là phi ngẫu nhiên

Định nghĩa 1.4 [8]: Hàm hồi quy của Y theo X2,…, Xk là trung bình có

Trang 19

và gọi f là hàm hồi quy Y theo (X2,…, Xk) Y gọi là biến phụ thuộc và (X2,…,

một hồi quy đơn Hồi quy với hơn một biến độc lập ta gọi là một hồi quy bội

1.5.3 Hồi quy tổng thể và hồi quy mẫu

Định nghĩa 1.5 [8]: Giả sử tổng thể đang xét có số đông cá thể, với cá

nhận được từ (1.3) và gọi là hồi quy tổng thể:

lệch của cá thể so với trung bình khi sử dụng (1.3)

)

1.5.4 Hồi quy tuyến tính

Trong (1.3) khi xem xét cấu trúc của f, người ta có thể quan tâm đếnhai vấn đề:

Thứ nhất là các biến độc lập: với bậc của các biến độc lập ta có cáchàm tuyến tính hay phi tuyến tính theo nghĩa giải tích

Thứ hai là các tham số cấu trúc của hàm hồi quy f: với bậc của cáctham số người ta chia hàm hồi quy thành các dạng hồi quy tuyến tính hay phituyến tính Do yêu cầu của các kĩ thuật ước lượng cũng như ý nghĩa các tham

Trang 20

Y  1  2 X 2   k X k (1.6)

Hồi quy mẫu tương ứng được mô tả như

1.5.5 Hồi quy đơn và hồi quy bội

Mô hình hồi quy đơn là mô hình hồi quy với 1 biến độc lập duy nhất,biến này giải thích cho biến phụ thuộc với một ý nghĩa duy nhất Trongtrường hợp hồi quy tuyến tính hồi quy đơn luôn có dạng:

Mô hình hồi quy bội là mô hình có hơn 1 biến độc lập, có thể có nhữngbiến là biến thứ sinh của các biến khác Trong trường hợp hồi quy tuyến tính,một hồi quy bội có dạng sau:

Trang 21

Biến định lượng là các biến mà giá trị quan sát là những con số Ví dụ :thu nhập, chi tiêu, …

1.5.7 Phân tích ANOVA

Phân tích ANOVA hay phân tích phương sai một yếu tố là phân tích ảnhhưởng của một yếu tố nguyên nhân (định tính) ảnh hưởng đến một yếu tố kếtquả (định lượng) đang nghiên cứu

Trang 22

CHƯƠNG 2: PHÂN TÍCH KHÁC BIỆT

Trong chương này, tôi sẽ trình bày một số kiến thức về tổng quan phântích khác biệt như là khái niệm, mục tiêu, …; một số phương pháp phân tíchkhác biệt là phương pháp hồi quy logistic, phương pháp Fisher và phươngpháp Bayes

2.1 Tổng quan về phân tích khác biệt

2.1.1 Khái niệm

Phân tích khác biệt là một kỹ thuật phân tích sử dụng cho việc phânbiệt giữa các nhóm bằng cách phân tích dữ liệu với một biến phụ thuộc đượcphân loại và các biến độc lập được đo bằng thang đo khoảng Ví dụ, biến phụthuộc có thể chọn một nhãn hiệu máy tính cá nhân (A, B hoặc C) và các biếnđộc lập có thể là chất lượng được đánh giá theo ba loại (chất lượng tốt, chấtlượng trung bình và chất lượng kém)

2.1.2 Mục tiêu của phân tích khác biệt

Phân tích khác biệt nhằm đạt được những mục tiêu sau đây:

- Phát triển những hàm phân biệt kết hợp tuyến tính những nhân tố dựbáo (các biến độc lập) Hàm này có sự phân biệt tốt nhất giữa các tiêu chuẩnnhóm đã phân loại (biến phụ thuộc)

- Xác định xem có sự khác biệt có ý nghĩa tồn tại giữa các nhóm về nộidung của các biến độc lập không

- Xác định biến độc lập nào gây ra sự khác biệt giữa các nhóm

- Phân loại nhóm này so với nhóm khác dựa vào các giá trị của các biếnđộc lập

- Ðánh giá tính chính xác của việc phân loại

Trang 23

2.1.3 Mối quan hệ giữa phân tích hồi quy, phân tích ANOVA và phân tích khác biệt

Giữa các phân tích hồi quy, ANOVA và phân tích khác biệt có nhữngđiểm giống nhau và khác nhau như sau:

Bảng 1.1: Phân biệt giữa ba loại phân tích

độc lập

Trong thực tế phân tích dữ liệu, tùy theo mục tiêu nghiên cứu, tính chấtcủa dữ liệu (do điều kiện thu thập dữ liệu hay do đặc điểm của đối tượng đượckhảo sát) mà người phân tích dữ liệu sử dụng linh hoạt các phương pháp phântích Điều cần lưu ý là khi thiết kế nghiên cứu, người nghiên cứu cần hìnhdung ra các mô hình phân tích để thiết kế thang đo thu thập các dữ liệu phùhợp với mô hình phân tích sử dụng

Ví dụ 1: Một nhà nghiên cứu muốn giải thích lượng tiền bảo hiểm nhân

thọ được trả (biến phụ thuộc) dựa vào tuổi và thu nhập (biến độc lập) Cả babiến này đều có liên quan với nhau nhưng có bản chất khác nhau Trong phântích ANOVA và hồi quy, bản chất của biến phụ thuộc dùng đơn vị tính chochỉ tiêu lượng tiền bảo hiểm nhân thọ là đồng, trong khi đó trong phân tíchkhác biệt (biến phụ thuộc) thì lượng tiền bảo hiểm có thể được phân loại mộttrong ba mức độ: cao, trung bình hay thấp Ngược lại, các biến độc lập tuổi và

Trang 24

thu nhập trong phân tích ANOVA chia làm ba loại: cao, trung bình và thấpcòn trong hồi quy và phân tích khác biệt nó sử dụng đơn vị tính của tuổi lànăm và đơn vị tính của thu nhập là triệu đồng.

2.1.4 Phân loại phân tích khác biệt

Phân tích khác biệt giữa hai nhóm: Là phân tích được sử dụng

trong trường hợp biến phụ thuộc được chia làm hai loại, biến phụ thuộc được

mã hóa theo hai số 0 hoặc số 1 (dummy variables) Kết quả phân tích thể hiệncác hệ số hồi quy thì tỷ lệ với các hệ số hàm phân biệt

Phân tích khác biệt đa nhóm: Là kỹ thuật phân tích được sử dụng

trong

trường hợp biến phụ thuộc được phân loại thành ba hay nhiều

nhóm

2.1.5 Mô hình phân tích biệt số

Mô hình phân tích khác biệt được dựa vào mô hình thống kê như sau:

trong đó:

D: Ðiểm phân biệt (biến phụ thuộc)

phân biệt sự khác nhau giữa các nhóm dựa vào giá trị của hàm phân biệt Ðiềunày xuất hiện khi tỷ số giữa tổng bình phương giữa các nhóm và tổng bìnhphương trong từng nhóm có điểm phân biệt lớn nhất

2.1.6 Các tham số thống kê trong phân tích khác biệt

Canonical correlation: hệ số tương quan đo lường mức độ liên hệ giữa

các biệt số và các nhóm Nó là một thước đo mối liên hệ giữa hàm phân biệtđơn và tập hợp các biến giả xác định các nhóm

Trang 25

Centroid: trung bình của các giá trị biệt số trong mỗi nhóm Số

Centroid bằng với số nhóm vì mỗi nhóm có một Centroid

Classification matrix: ma trận phân loại (ma trận dự đoán) chứa số

quan sát được phân loại đúng và số quan sát phân loại sai Số quan sát phânloại đúng sẽ nằm trên đường chéo chính của ma trận, và số quan sát phân loạisai nằm ngoài đường chéo Tổng của các số nằm trên đường chéo được chiacho tổng số quan sát và được gọi là tỉ lệ đúng (tỉ lệ thành công)

Discriminant function coefficients: hệ số hàm phân biệt (chưa chuẩn

hóa) là các trọng số của các biến khi các biến được đo lường bằng đơn vị tínhnguyên thủy

Discriminant scores: các biệt số được tính bằng cách nhân các hệ số

không chuẩn hóa được với giá trị của các biến, sau đó lấy tổng của các tíchtìm được theo phương trình ở phần trên

Eigenvalue: là tỉ số giữa tổng các độ lệch bình phương giữa các nhóm

và tổng các độ lệch bình phương trong nội bộ nhóm Eigenvalue càng lớn thìhàm phân biệt càng tốt

F value and their significane: giá trị F được tính từ ANOVA một yếu

tố, trong đó biến phân loại được sử dụng như biến độc lập, và mỗi biến dựđoán được sử dụng như biến phụ thuộc kiểu định lượng

Group means and group standard deviations: trung bình nhóm và

độ lệch chuẩn nhóm được tính cho mỗi biến dự đoán cho mỗi nhóm

Pooled within-group correlation matrix: ma trận tương quan nội bộ

nhóm chung được tính bằng cách lấy trung bình các ma trận hiệp phương sairiêng cho tất cả các nhóm

Standarzed discriminant function coefficients: các hệ số hàm phân

biệt chuẩn hóa là các hệ số hàm phân biệt được sử dụng như trọng số khi cácbiến được chuẩn hóa có trung bình là 0 và phương sai là 1

Trang 26

Structure correlation: tương quan kết cấu cho biết các hệ số tương

quan đơn giữa các biến dự đoán và hàm phân biệt

Total correlation matrix: ma trận tương quan toàn bộ là ma trận

tương quan khi các quan sát được coi như xuất phát từ một mẫu duy nhất

Wilks’٨ : đôi khi được gọi là đại lượng thống kê U ( U statistic).

2.1.7 Tiến trình phân tích khác biệt

2.1.7.1 Xác định vấn đề nghiên cứu

Bước 1: Xác định vấn đề nghiên cứu bao gồm nhận biết các mục tiêu,

biến phụ thuộc, và các biến độc lập Biến phụ thuộc phải là biến có hai haynhiều biểu hiện Khi biến phụ thuộc được đo trên thang khoảng cách hay tỉ lệ,

ta phải chuyển đổi về kiểu biến phân loại

Ví dụ 2: Thái độ đối với nhãn hiệu được đo trên thang khoảng cách có

6 điểm có thể được chuyển đổi thành biến phân loại là không thuận lợi (gồm1,2,3) và thuận lợi (gồm 4,5,6)

Bước 2: Chia mẫu quan sát thành 2 phần Phần dùng để ước lượng hàm

phân biệt được gọi mà mẫu ước lượng hay mẫu phân tích (estimation oranalysis sample) Phần còn lại được gọi là mẫu kiểm tra (holdout or validationsample) dùng để kiểm tra tính đúng đắn của hàm phân biệt Khi mẫu đủ lớn,

ta có thể chia mẫu thành hai phần bằng nhau: một để phân tích và một đểkiểm tra Vai trò của hai nửa mẫu này có thể được thay đổi và việc phân tíchđược lập lại Điều này gọi là kiểm tra chéo hai lần (double cross- validation).Thông thường phân phối của số quan sát trong mẫu phân tích và mẫu kiểm tragiống như phân phối trong toàn bộ mẫu

Ví dụ 3: Nếu toàn bộ mẫu gồm 50% người tiêu dùng trung thành và

50% người tiêu dùng không trung thành, thì mẫu phân tích và mẫu kiểm tracũng gồm 50% trung thành và 50% không trung thành

2.1.7.2 Ước lượng

Trang 27

Có hai phương pháp ước lượng các hệ số của hàm phân biệt:

Phương pháp trực tiếp (Enter independents together): ước lượng

hàm phân biệt khi tất cả các biến dự đoán được đưa vào cùng một lúc Trongtrường hợp này mỗi biến được đưa vào bất kể khả năng phân biệt của nó.Phương pháp này thích hợp khi dựa vào nghiên cứu trước đó hay mô hình lýthuyết, người nghiên cứu muốn hàm phân biệt được xây dựng trên tất cả cácbiến dự đoán

Phương pháp từng bước (Use stepwise method): các biến dự đoán

được đưa vào hàm phân biệt một cách tuần tự dựa vào khả năng phân biệtđược các nhóm của chúng Phương pháp này thích hợp khi nhà nghiên cứumuốn chọn ra một tập con các biến dự đoán để đưa vào phương trình

2.1.7.3 Xác định mức ý nghĩa

Chúng ta không được giải thích kết quả phân tích nếu hàm phân biệtđược ước lượng không có ý nghĩa về mặt thống kê Giả thiết không ở đây làtrong tổng thể các trung bình của các hàm phân biệt trong tất cả các nhóm làbằng nhau, giả thiết này phải được kiểm định xem có ý nghĩa thống kê không.Trong SPSS, kiểm định này được thực hiện trên tiêu chuẩn kiểm định Wilk’٨.Nếu hàm phân biệt được kiểm định cùng một lúc (trong trường hợp phân tíchbội số), thì đại lượng Wilk’٨ là tích của các đại lượng đơn biến của từng hàm.Mức ý nghĩa ước lượng dựa trên phép biến đổi sang đại lượng Chi- square củađại lượng này

2.1.7.4 Giải thích kết quả

Trị số của hệ số của một biến dự đoán phụ thuộc vào việc đưa các biến

dự đoán khác vào trong hàm phân biệt Dấu của các hệ số này thì tùy ý, nhưngchúng cho biết biến nào làm trị số của hàm phân biệt lớn hay nhỏ và nên gắnchúng với nhóm nào

Ngày đăng: 13/08/2020, 16:09

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w