Kiểm định tham số trung bình hai mẫu độc lập: Independent-sample T-test 2.. Kiểm định tham số trung bình hai mẫu phụ thuộc Paired-samples T-test 3.. Kiểm định Mann – Whit
Trang 1PHƯƠNG PHÁP XỬ LÍ VÀ PHÂN TÍCH DỮ
LIỆU
A Phương pháp xử lí dữ liệu
1 Mã hóa lại dữ liệu – Chuyển biến thể loại sang biến phân đôi:
a Mã hóa lại dữ liệu (Recode)
Mã hóa lại dữ liệu có 2 chức năng sau:
Giảm thiểu số biểu hiện biến định tính: (Gộp các biểu hiện)
VD: Thu nhập 6 – 10 triệu + Thu nhập trên 10 triệu = Thu nhập trên 6 triệu
Chuyển một biến định lượng thành một biến định tính: (Nhóm gộp)
VD: 500 người phỏng vấn có 43 độ tuổi từ 18 đến 60 Thông thường thì tuổi có 43 giá trị (Định lượng) Gộp lại thành 4 nhóm: (18-25), (26-35), (36-45), (46-60) (Định tính)
b Chuyển từ biến Thể loại (Category) sang biến Phân đôi (Dichotomy)
2 Sửa sai dữ liệu
Muốn sửa những dữ liệu nhập sai thì việc đầu tiên ta phải phát hiện những liệu đó (Đôi khi trong quá trình tính toán, thông qua những phương pháp này ta sẽ nhận ra những dữ liệu mà chúng ta nhập sai)
B Phương pháp phân tích dữ liệu:
1 Thống kê – Mô tả:
2 Ước lượng:
3 Kiểm định:
4 Phân tích phương sai:
5 Tương quan – Hồi qui:
(Những mục trên có trong giáo tình Nghiên cứu Marketing, Nguyên lý thống
kê và Thống kê Kinh doanh nên không đề cập lại)
Trang 2PHƯƠNG PHÁP XỬ LÍ VÀ PHÂN TÍCH DỮ
LIỆU VỚI SPSS
A Phương pháp xử lí dữ liệu
1 Mã hóa lại dữ liệu – Chuyển biến thể loại sang biến phân đôi:
a Mã hóa lại dữ liệu (Recode)
(SPSS, trang 19 – 25)
b Chuyển từ biến Thể loại (Category) sang biến Phân đôi (Dichotomy)
(SPSS, trang 26 – 28)
2 Sửa sai dữ liệu
Những dữ liệu sai được phát hiện bằng 3 cách sau:
a Phát hiện bằng Bảng thống kê:
(SPSS, trang 36 – 37)
Frequency Percent Valid Percent Cumulative Percent
Trong 500 người được phỏng vấn, biến giới tính được khai báo: 1 là Nam, 2 là Nữ Trong Bảng tần số ta thấy giá trị 11 là giá trị lỗi (Khác 1 hoặc 2) (Lỗi do nhập “1” hai lần)
b Phát hiện bằng Bảng phối hợp nhiều biến:
(SPSS, trang 37 – 40)
Nghề
Công ch cức Giáo viên Count Col % Count Col %
18
19
20
Bảng phối hợp biến Tuổi và biến nghề có lỗi rằng: Có 1 đối tượng khai báo Tuổi 13 và Nghề Giáo viên Khai báo Tuổi hoặc Nghề sai
c Phát hiện bằng Bảng sắp xếp:
(SPSS, trang 41)
Trang 3Sắp xếp dữ liệu (Đã được mã hóa dưới dạng số) theo chiều tăng dần (Ascending) hoặc giảm dần (Descending), sau đó dựa vào những dữ liệu được sắp xếp để nhận ra dữ liệu lỗi
B Phương pháp phân tích dữ liệu:
Thống kê – Mô tả (Phân tích Thống kê – Mô tả)
Ước lượng (Phân tích Tỷ lệ)
Kiểm định, Phân tích phương sai, Tương quan – Hồi qui (Phân tích
quan hệ)
1 Phân tích Thống kê – Mô tả:
a Bảng thống kê:
(SPSS, trang 43 – 45)
Tính:
- Tần suất (Frequency)
- Phần trăm (Percent)
Frequency Percent Valid Percent Cumulative Percent
Bảng thống kê kết hợp mô tả
(SPSS, trang 50 – 53)
Tính:
- Tần suất (Frequency)
- Phần trăm (Percent)
- Trung bình (Mean)
- Trung vị (Median)
- Mốt (Mode)
- Tổng (Sum)
- Độ lệch chuẩn (Std Deviation)
- Phương sai (Variance)
- Giá trị nhỏ nhất (Minimum)
- Giá trị lớn nhất (Maximum)
- Khoảng biến thiên (Range)
- Sai số chuẩn khi ước lượng trung bình (SE Mean)
Một số mô tả khác:
- Độ rộng hình chóp của một phân phối (Kurtosis)
- Độ không đối xứng của một phân phối (Skewness)
Trang 4Variance 3.240
Frequency Percent Valid Percent Cumulative Percent
Bảng thống kê kết hợp với biểu đồ:
(SPSS, trang 51 – 53)
Tính:
- Tần suất (Frequency)
- Phần trăm (Percent)
Biểu đồ:
- Biểu đồ hình cột (Bar charts)
- Biểu đồ hình bánh (Pie charts)
- Biểu đồ hình cột dạng phân phối (Histograms)
Trang 5Số l ợng ng ời đọc báo trong gia đình
15 11 10 8 7 6 5 4 3 2
1
160
140
120
100
80
60
40
20
0
Số l ợng ng ời đọc báo trong gia đình
15
11
10
8
7
6
5
4
3
2 1
15.0 12.5 10.0 7.5 5.0 2.5
0.0
Số l ợng ng ời đọc báo trong gia đình
300
200
100
0
Std Dev = 1.80 Mean = 3.5
N = 500.00
Trang 6b Bảng mô tả:
(SPSS, trang 45 – 50)
Tính:
- Trung bình (Mean)
- Tổng (Sum)
- Độ lệch chuẩn (Std Deviation)
- Phương sai (Variance)
- Giá trị nhỏ nhất (Minimum)
- Giá trị lớn nhất (Maximum)
- Khoảng biến thiên (Range)
- Sai số chuẩn khi ước lượng trung bình (SE Mean)
Một số mô tả khác:
- Độ rộng hình chóp của một phân phối (Kurtosis)
- Độ không đối xứng của một phân phối (Skewness)
S ngố người đọc báo ười đọc báo ọc báoi đ c báo trong gia đình Valid N (listwise)
Std Error
Std Error
Std Error
Std Error
Std Error
Std
Deviation StatisticStd Error 1.800
Std Error
c Bảng khám phá:
(SPSS, trang 53 – 60)
Biểu diễn tính tương quan giữa Biến phụ thuộc (Dependent) và Biến độc lập (Factor)
Thống kê – Mô tả (Statistics - Descriptive)
- Tần suất (Frequency)
Trang 7- Phần trăm (Percent)
- Trung bình (Mean)
- Tổng (Sum)
- Độ lệch chuẩn (Std Deviation)
- Phương sai (Variance)
- Giá trị nhỏ nhất (Minimum)
- Giá trị lớn nhất (Maximum)
- Khoảng biến thiên (Range)
- Sai số chuẩn khi ước lượng trung bình (SE Mean)
Một số mô tả khác:
- Độ rộng hình chóp của một phân phối (Kurtosis)
- Độ không đối xứng của một phân phối (Skewness)
- Ước lượng trung bình (M-estimators)
- Thể hiện 5 giá trị lớn nhất, 5 giá trị nhỏ nhất (Outliers)
- Thập phân vị thứ 5, 10, 25, 50, 75, 90, 95 (Percentile)
Biểu đồ (Plots)
- Hộp (Boxplots)
- Cành và lá (Stem-and-leaf)
- Phân phối (Histogram)
Descriptives
95%
Confidence Interval for Mean
Upper Bound
39.01
95%
Confidence Interval for Mean
Upper Bound
36.64
Trang 8Median 32.00
M-Estimators
Gi i tínhới tính
Huber's M-Estimator(a) Biweight(b)Tukey's Estimator(c)Hampel's M- Andrews'Wave(d)
a The weighting constant is 1.339
b The weighting constant is 4.685
c The weighting constants are 1.700, 3.400, and 8.500
d The weighting constant is 1.340*pi
Extreme Values (Outliers)
a Only a partial list of cases with the value 54 are shown in the table of upper extremes
Trang 9b Only a partial list of cases with the value 23 are shown in the table of lower extremes.
c Only a partial list of cases with the value 50 are shown in the table of upper extremes
Percentiles
Gi i tínhới tính
Percentiles
Weighted
Average(D
efinition 1)
0 23.00 26.00 32.00 46.00 54.00 59.00
0 20.80 24.00 32.00 42.50 50.00 53.60 Tukey's
0 32.00 42.00
Boxplots
57 59
N =
Giíi tÝnh
N÷
Nam
70
60
50
40
30
20
10
Stem-and-leaf
Tu iổi Stem-and-Leaf Plot for GTINH= Nam
Frequency Stem & Leaf 1.00 1 9 9.00 2 112333344 15.00 2 555666677888889 5.00 3 00112
6.00 3 568889 7.00 4 0001234
Trang 105.00 4 56678 7.00 5 0012444 4.00 5 5999 Stem width: 10
Each leaf: 1 case(s)
Histogram
Tuæi
60.0 55.0 50.0 45.0 40.0 35.0 30.0 25.0 20.0
Histogram
For GTINH= Nam
16
14
12
10
8
6
4
2
0
Std Dev = 11.68 Mean = 36.0
N = 59.00
d Bảng nhiều biến:
(SPSS, trang 60 - 77)
Định tính – Định tính
Hai biến định tính
Tính:
- Tần suất (Frequency)
- Phần trăm (Percent)
Gi i tínhới tính T ngổi
Count Col % Count Col %
Trang 11Count Col %
Ba biến định tính:
Tính:
- Tần suất (Frequency)
- Phần trăm (Percent)
Thành phố người đọc báo
Gi i tínhới tính T ngổi Gi i tínhới tính T ngổi
nt Col%
nt Col%
Cou
nt Col% Count Col% Count Col% Count Col%
Tu iổi
18-25 28 23.7% 40 30.3% 68 27.2% 30 22.9% 52 43.7% 82 32.8%
26-35 33 28.0% 39 29.5% 72 28.8% 38 29.0% 30 25.2% 68 27.2%
36-35 30 25.4% 22 16.7% 52 20.8% 38 29.0% 21 17.6% 59 23.6%
46-60 27 22.9% 31 23.5% 58 23.2% 25 19.1% 16 13.4% 41 16.4%
T ngổi 118 100.
0% 132 100.0% 250 100.0% 131 100.0% 119 100.0% 250 100.0%
Gi i tínhới tính Gi i tínhới tính Count Col%
Count Col% Count Col% Count Col% Count Col%
Tu iổi
Định tính – Định lượng
Trang 12Một biến định tính – Một biến định lượng
Tính:
- Mô tả (Tần suất, Phần trăm)
- Thống kê (Trung bình, Tổng,…)
Col
%
Maxi mum
Mini mum Mode
Count Col% mumMaxi mum Mode CountMini Col% mumMaxi mum ModeMini
S ố người đọc báo
người đọc báoi
đ c báoọc báo
trong
Gia
đình
250 0.010
10 0.0
Hai biến định tính – Một biến định lượng
Tính:
- Mô tả (Tần suất, Phần trăm)
- Thống kê (Trung bình, Tổng,…)
Thành phố người đọc báo T ngổi
Mean
Số người đọc báo
người đọc báoi
đ cọc báo báo trong Gia đình Mean
S ngố người đọc báo ười đọc báoi
đ c báoọc báo trong Gia
S ngố người đọc báo ười đọc báo ọc báoi đ c báo trong Gia đình
TN
h TBội tháng
Dưới tínhi 2 tri uệu
e Bảng Tần suất kết hợp Tần số
Tính:
- Tần suất (Frequency)
- Tần số (Count)
TPHCM
Gi i tínhới tính
Trang 13Công ch cức 14 5.6% 8 3.2%
f Bảng khác:
(SPSS, trang 77 – 83)
g Biểu đồ:
(SPSS, trang 83 – 106)
2 Phân tích Tỷ lệ:
Kiểm định tỷ lệ một mẫu:
(SPSS, trang 189 – 193)
Câu lệnh: Analyze/ Noparametric Test/ Binomial
a Biến Phân đôi (0-1):
H0: Tỷ lệ “biểu hiện 1” trong tổng thể K%
H1: Tỷ lệ “biểu hiện 1” trong tổng thể K%
Nếu Sig 0.05 thì bác bỏ giả thuyết H0, chấp nhận giả thuyết H1 Nếu Sig 0.05 thì bác bỏ giả thuyết H1, chấp nhận giả thuyết H0 (Sig = p-value ở đây chính là Asymp Sig (2-tailed) ở Bảng Binomial Test)
b Biến Thể loại: (1,2,3,…)
H0: Tỷ lệ “biểu hiện 1” trong tổng thể K%
H1: Tỷ lệ “biểu hiện 1” trong tổng thể K%
Nếu Sig 0.05 thì bác bỏ giả thuyết H0, chấp nhận giả thuyết H1 Nếu Sig 0.05 thì bác bỏ giả thuyết H1, chấp nhận giả thuyết H0
Trang 14(Sig = p-value ở đây chính là Asymp Sig (2-tailed) ở Bảng Binomial Test)
3 Phân tích Quan hệ:
Kiểm định tham số:
1 Kiểm định tham số trung bình hai mẫu độc lập: (Independent-sample T-test)
2 Kiểm định tham số trung bình hai mẫu phụ thuộc (Paired-samples T-test)
3 Phân tích phương sai một yếu tố (One–way ANOVA)
4 Kiểm định tham số trung bình mẫu (One-Sample T-Test)
Kiểm định phi tham số:
1 Kiểm định Mann – Whitney (Thay thế cho Kiểm định tham số trung bình hai mẫu độc lập (Independent-sample T-test))
2 Kiểm định Sign (Kiểm định dấu) - Kiểm định Wilcoxon (Thay thế cho Kiểm định tham số trung bình hai mẫu phụ thuộc (Paired-samples T-test))
3 Kiểm định Kruskal – Wallis (Thay thế cho Phân tích phương sai một yếu tố (One-way ANOVA))
Định lượng
Kiểm định tham số:
1 Kiểm định tham số trung bình hai mẫu độc lập: (Independent-sample T-test)
2 Kiểm định tham số trung bình hai mẫu phụ
thuộc (Paired-samples T-test)
3 Phân tích phương sai một yếu tố (One–way ANOVA)
4 Kiểm định tham số trung bình mẫu (One-Sample T-Test)
Kiểm định phi tham số:
1 Kiểm định Mann – Whitney (Thay thế cho Kiểm định tham số trung bình hai mẫu độc lập (Independent-sample T-test))
2 Kiểm định Sign (Kiểm định dấu) - Kiểm định Wilcoxon (Thay thế cho Kiểm định tham số
trung bình hai mẫu phụ thuộc (Paired-samples T-test))
3 Kiểm định Kruskal – Wallis (Thay thế cho Phân tích phương sai một yếu tố (One-way ANOVA))
Tương quan – Hồi qui
a Kiểm định 2 biến định tính:
(SPSS, trang 115 – 130)
Kiểm định Chi – Square
Câu lênh: Analyze/ Descriptive Statistics/ Crosstabs
Trang 15 Biểu danh – Biểu danh/ Biểu danh – Thứ bậc:
H0: Biến 1 độc lập Biến 2
H1: Biến 1 phụ thuộc Biến 2
Nếu Sig 0.05 thì bác bỏ giả thuyết H0, chấp nhận giả thuyết H1 Nếu Sig 0.05 thì bác bỏ giả thuyết H1, chấp nhận giả thuyết H0 (Sig = p-value ở đây chính là Asymp Sig (2-sided) ở Bảng Chi-Square Tests)
Thứ bậc – Thứ bậc:
H0: Biến 1 độc lập Biến 2
H1: Biến 1 phụ thuộc Biến 2
Nếu Sig 0.05 thì bác bỏ giả thuyết H0, chấp nhận giả thuyết H1 Nếu Sig 0.05 thì bác bỏ giả thuyết H1, chấp nhận giả thuyết H0 (Sig = p-value ở đây chính là Approx Sig ở Bảng Symmetric Measures)
b Kiểm định 1 biến định tính – 1 biến định lượng:
KIỂM ĐỊNH THAM SỐ:
b.1.1 Kiểm định tham số trung bình hai mẫu độc lập: (Independent-sample T-test)
(SPSS, trang 134 – 139)
Điều kiện để Kiểm định tham số trung bình hai mẫu độc lập:
Hai mẫu có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được
xem như tiệm cận phân phối chuẩn.
Phương sai của hai mẫu phải như nhau.
Câu lênh: Analyze/ Compare Means/ Independent-sample T-test
H0: Giá trị trung bình (tính trên biến định lượng) của 2 biểu hiện (biến định tính) là như nhau
H1: Giá trị trung bình (tính trên biến định lượng) của 2 biểu hiện (biến định tính) là khác nhau
Ở đây ta kiểm định 2 bước:
B1: H0:Phương sai của 2 biểu hiện (biến định tính) là như nhau
H1:Phương sai của 2 biểu hiện (biến định tính) là khác nhau
Nếu Sig 0.05 thì bác bỏ giả thuyết H0, chấp nhận giả thuyết H1 (Sử dụng giá trị Sig của lần 2 ở Cột Equal variances not assumed)
Nếu Sig 0.05 thì bác bỏ giả thuyết H1, chấp nhận giả thuyết H0 (Sử dụng giá trị Sig của lần 2 ở Cột Equal variances assumed)
B2: H0: Giá trị trung bình (tính trên biến định lượng) của 2 biểu hiện (biến định tính) là như nhau
H1: Giá trị trung bình (tính trên biến định lượng) của 2 biểu hiện (biến định tính) là khác nhau
Trang 16Nếu Sig 0.05 thì bác bỏ giả thuyết H0, chấp nhận giả thuyết H1 Nếu Sig 0.05 thì bác bỏ giả thuyết H1, chấp nhận giả thuyết H0 (Sig = p-value ở đây chính là Sig (2-tailed) ở Bảng Independent Sample Test)
Giá trị trung bình lớn hay nhỏ hơn (trong trường hợp chấp nhận giả
thuyết H1) được xác định dựa trên Mean (Cách hiểu như sau: Nếu 2 biểu hiện (biến định tính) lần lượt là A, B; giá trị Mean âm nghĩa là A thua B; giá trị Mean dương nghĩa là A hơn B)
b.1.2 Kiểm định tham số trung bình hai mẫu phụ thuộc (Paired-samples T-test)
(SPSS, trang 139 – 143)
Điều kiện để Kiểm định tham số trung bình hai mẫu phụ thuộc:
Hai mẫu có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được
xem như tiệm cận phân phối chuẩn.
Câu lệnh: Analyze/ Compare Means/ Paired-samples T-test
H0: Giá trị trung bình (tính trên biến định lượng) của 2 biểu hiện (biến định tính) là như nhau
H1: Giá trị trung bình (tính trên biến định lượng) của 2 biểu hiện (biến định tính) là khác nhau
Nếu Sig 0.05 thì bác bỏ giả thuyết H0, chấp nhận giả thuyết H1 Nếu Sig 0.05 thì bác bỏ giả thuyết H1, chấp nhận giả thuyết H0 (Sig = p-value ở đây chính là Sig (2-tailed) ở Bảng Paired Samples Test)
Giá trị trung bình lớn hay nhỏ hơn (trong trường hợp chấp nhận H1) được
xác định dựa trên Mean (Cách hiểu như sau: Nếu 2 biểu hiện (biến định tính) lần lượt là A, B; giá trị Mean âm nghĩa là A thua B; giá trị Mean dương nghĩa là A hơn B)
b.1.3 Phân tích phương sai một yếu tố (One-way ANOVA)
(SPSS, trang 145 – 154)
Điều kiện để Phân tích phương sai một yếu tố:
Các mẫu phải độc lập và được lựa chọn một cách ngẫu nhiên.
Các mẫu phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để
được xem như tiệm cận phân phối chuẩn,
Phương sai của các mẫu phải như nhau.
Câu lệnh: Analyze/ Compare Means/ One-way ANOVA
H0: Giá trị trung bình (tính trên biến định lượng) của 3 biểu hiện trở lên (biến định tính) là như nhau
H1: Giá trị trung bình (tính trên biến định lượng) của 3 biểu hiện trở lên (biến định tính) là khác nhau
Ở đây ta kiểm định 2 bước: