Phương pháp nghiên cứu
Trang 1Chương 4: Xữ lý dữ liệu
I Các đại lượng đo lường sự phân tán
II Ước lượng thông số đám đông từ mẫu III.Một số phép kiểm định cơ bản
IV.Kiểm định phi tham số: Chi-square
V Phân tích nhân tố (factor analysis)
VI.Phân tích tương quan (Regression
analysis)
Trang 2Sử dụng các công cụ thống kê trong phân tích
Mục tiêu và kiểu của các câu hỏi nghiên cứu
So sánh nhóm
Tóm lược
dữ liệu
Thống kê khác biệt (v.d t-test, ANOVA)
Thống kê liên
quan (v.d tương quan, hồi quy)
Thống kê mô
tả (v.d trung bình, tỷ lệ)
Trang 3I Các đại lượng đo lường độ phân tán
N i
X
1
) / (
N Xi
1
2 2
/ ) (
1
2 2
Xi s
) ,
Trang 4I Các đại lượng đo lường độ phân tán
Trang 5Phân phối chuẩn một đơn vị
Trang 6Đo lường dạng hình của phân phối (Measures
of Shape)
• Độ lệch (skewness) đo lường độ lệch của phân phối về một
trong hai phía
• Phân phối lệch trái (negative skew, left-skewed) khi đuôi phía
trái dài hơn, và phần lớn số liệu tập trung ở phía phải của
phân phối
• Phân phối lệch phải (positive sknew, right-skewed) khi đuôi
phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân phối
• Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị
skewness âm Độ càng lớn thì giá trị sknewness càng lớn
hơn 0.
• Với phân phối chuẩn, độ lệch gần như nhận giá trị 0
Trang 7Đo lường dạng hình của phân phối (Measures
of Shape)
Trang 8Đo lường dạng hình của phân phối (Measures
of Shape)
• Độ nhọn (kurtosis)
– Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân
phối so với phân phối bình thường (có độ nhọn bằng 0)
Phân phối có dạng nhọn khi giá trị kurtosis dương và có dạng bẹt khi giá trị kurtosis âm
– Với phân phối bình thường, giá trị của độ lệch và độ nhọn
bằng 0 Căn cứ trên tỷ số giữa giá trị skewness và kurtosis
và sai số chuẩn của nó, ta có thể đánh giá phân phối có bình thường hay không (khi tỷ số này nhỏ hơn -2 và lớn hơn +2, phân phối là không bình thường).
Trang 9II Ước lượng thông số đám đông
Trang 10II Ước lượng thông số đám đông
II.1.1 Ước lượng trung
bình đám đông
– Chuyển phân phối chuẩn
tổng quát trở về phân
phối chuẩn một đơn vị
với biến ngẩu nhiên
– Tìm xác xuất P sao cho:
– Đối với phân phối chuẩn
một đơn vị, ta có
X
X Z
( )
P
) 1
( )
Trang 11II Ước lượng thông số đám đông
2
n n
X X
Trang 12II Ước lượng thông số đám đông
II.1.2 Ước lượng trung
bình đám đông
– Chuyển phân phối chuẩn
tổng quát trở về phân
phối t
– Tìm xác xuất P sao cho:
– Đối với phân phối t
(phân phối student), ta có
X
X t
( )
P
) 1
( )
, ( t /2 (n1) t t / 2,(n1)
P
n<30
Trang 13II Ước lượng thông số đám đông
, 2 / )
1 (
2
) 1 ( 2 / )
1 ( 2 / , ,
2
n n
X X
Trang 14II Ước lượng thông số đám đông
Trang 15II Ước lượng thông số đám đông
II.2.1 Ước lượng tỷ lệ đám đông(Khi n nhỏhơn 30 phần tử)
– Chuyển phân phối
n
P 2,( 1) 2,( 1)
Trang 16III Một số phép kiểm định giả thuyết
III.1 Kiểm định trung bình và tỷ lệ đám đông
Trang 17Các kỹ thuật kiểm định cơ bản
Các kỹ thuật kiểm định dùng theo loại dữ liệu và trắc nghiệm
Thang đo One-sample
Case
Two-Samples Tests k-Samples Tests
Related Samples
Independent Samples
Related Samples
Independent Samples
- χ2 one-sample test
- McNemar - Fisher exact
test
- χ2 sample test
two Cochran Q - χ2 for
k-samples
Ordinal -
Kolmogorov-Smirnov sample test
one Runs test
- Sign test
- Wilcoxon matched-pairs test
-Median test Mann-
Whitney U
- Smirnov
Kolmogorov- Wolfowitz
Wald Friedman two-way ANOVA
- Median extension
- Wallis one- way ANOVA
Kruskal-Interval and Ratio - T-test
- Z test
- T-test for paired samples
- T-test
- Z test
- measured ANOVA
Repeated OneRepeated way ANOVA
- N-way ANOVA
Trang 18Sai lầm trong kiểm định Quyết định Bản chất của giả thuyết Ho
Chấp nhận H0 Quyết định
đúng
Sai lầm loại II (Beta)
Từ chối H0 Sai lầm loại I
(alpha)
Quyết định đúng
Trang 19Giá trị xác suất (p Values)
• Giá trị p value được so sánh với mức ý nghĩa
(significant level - α), và dựa trên kết quả này để bác bỏ hay không bác bỏ giả thiết
• Nếu giá trị p value nhỏ hơn mức ý nghĩa, giả
thiết bị bác bỏ (p value < α, bác bỏ giả thiết H0).
• Nếu giá trị p value bằng hoặc lớn hơn mức ý
nghĩa, không bác bỏ giả thiết Ho (p value > α,
không bác bỏ giả thiết H0)
Trang 20Kiểm định ý nghĩa: các kiểu kiểm định
• Có hai loại: parametric (tham số) và
nonparametric (phi tham số)
– Parametric tests là công cụ mạnh vì xử lý các
dữ liệu dạng scale (interval, ratio).
– Nonparametric tests là công cụ xử lý các dữ liệu dạng nominal và ordinal
Trang 21Kiểm định ý nghĩa: các kiểu kiểm định
• Parametric tests đòi hỏi một số giả định:
– Các quan sát phải độc lập với nhau.
– Các quan sát phải được rút ra từ các đám
đông có phân phối chuẩn.
– Các nhóm trong đám đông phải có phương sai tương đương.
– Thang đo phải ở dạng scale để các tính toán
có thể thực hiện được.
Trang 22Kiểm định ý nghĩa: các kiểu kiểm định
• Nonparametric tests ít đòi hỏi các giả định:
– Không đòi hỏi các quan sát phải được rút ra từ các đám đông có phân phối chuẩn
– Không đòi hỏi các nhóm phải có phương sai tương đương
– Là cách duy nhất để xử lý dữ liệu danh xưng
(nominal)
– Là cách đúng đắn để xử lý dữ liệu với thang đo thứ
tự (ordinal), mặc dù parametric có thể áp dụng được.– Dễ hiểu và dễ sử dụng
Trang 23III.1 Kiểm định trung bình và tỷ lệ đám đông
X Z
X t
Trang 24III.1 Kiểm định trung bình và tỷ lệ đám đông
Trong trường hợp kiểm
tt
P
P Z
tt
P
P t
Trang 25III.1 Kiểm định trung bình và tỷ lệ đám đông
[ Z/2 Z 2
Ztt
] ,
[ Z/2 Z 2
Ztt
] ,
[ /2,( 1) 2,( 1)
Trang 26Ví dụ: µ=6.5, lấy mẩu với n=9, tính
được giá trị trung bình là 7
1 One-Sample T Test
Analyze Compare Means One-Sample T Test
Trang 27Ví dụ: µ=6.5, lấy mẩu với n=9, tính
được giá trị trung bình là 7
1 One-Sample T Test
Analyze Compare Means One-Sample T Test
Trang 28III.2 Kiểm định sự khác biệt giửa hai trung bình,
tỷ lệ
III.2.1 Kiểm định sự khác biệt giửa hai trung bình/tỷ lệ Trường hợp áp dụng:
– Khi đám đông được phân ra thành 2 hay nhiều nhóm
– Chúng ta muốn xác định các trung bình/tỷ lệ đám đông có khác biệt hay không
– Dựa vào mẩu chúng ta sẽ tìm được hai trung bình/tỷ lệ và
sử dụng chúng để kiểm định cho trung bình/tỷ lệ đám đông
Trang 29III.2 Kiểm định sự khác biệt giửa hai trung bình,
:
) (
:
2 1
2 1
1
2 1
2 1
p p
p p
o
P P
H
P P
(
) (
2 1
2
2 2 2
1
2 1
2 1
2
2
2 2
1
2 1
2 1
n n
n n
X
X t
n n
X
X Z
tt tt
Trang 30III.2 Kiểm định sự khác biệt giửa hai trung bình,
tỷ lệ
Nếu kiểm định sự khác biệt giửa hai tỷ lệ chúng ta sẽ
xác định giá trị Ztt theo cách sau
2 1
2 2
1 1
2
2 1
2 1
.
)
1
1 )(
1 (
n n
n P
n
P p
n n
p p
P
P Z
s s
s s
Trang 31III.2 Kiểm định sự khác biệt giửa hai trung bình,
Ztt
] ,
Ztt
Trang 32Ví dụ
• Ví dụ 3 Số liệu điều tra sử dụng xe máy
– Giả thiết Ho: tuổi trung bình của người sử
dụng xe máy nam và nữ là như nhau.
– Giả thuyết H1: Có sự khác biệt về độ tuổi sử dụng
3 Two-Sample T Test
Trang 33Ví dụ
3 Two-Sample T Test
Analyze Compare Means Independent-Samples T Test
Trang 34Ví dụ
3 Two-Sample T Test
Trang 36Ví dụ
3 Two-Sample T Test
P values (Sig (2-tailed)) cao hơn α = 0.05 rất nhiều
Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi trung bình giữa người sử dụng xe máy là Nam và Nữ
Independent Samples Test
1.239 268 -.315 98 754 -.93 2.95 -6.77 4.92
-.321 91.785 749 -.93 2.89 -6.66 4.81
Equal variances assumed
Equal variances not assumed
Age of motorbike user
Std Error Difference Lower Upper
95% Confidence Interval of the Difference t-test for Equality of Means
Trang 37III.3 Kiểm định sự khác biệt giửa nhiều trung
1
2 1
2 1
Trang 38III.3 Kiểm định sự khác biệt giửa nhiều trung
Trang 39Ví dụ áp dụng: Anova
• Ví dụ 5 Số liệu điều tra sử dụng xe máy
• Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày
sử dụng bình quân trong tháng
5 One-Way ANOVA (Parametric Test)
Analyze Compare Means One-Way ANOVA…
Trang 40Ví dụ áp dụng: Anova
5 One-Way ANOVA (Parametric Test)
Trang 41Kết luận: bác bỏ giả thiết;
Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng
Trang 42IV Phân tích nhân tố (factor analysis)
Trang 43IV Phân tích nhân tố (factor analysis)
“eigenvalue” over 1
– Nhấn mục Rotation: Chọn phương pháp “varimax”
– Nhấn mục Score, chọn phương pháp “regression”
• Kết quả sẽ hiển thị trên phần mềm SPSS
Trang 44IV Phân tích nhân tố (factor analysis)
• Phân tích kết quả:
– Dựa vào biểu “Total Variance explained”: số nhân tố rút ra phải có giá trị eigenvalue lớn hơn 1
– Biểu “Rotated component matrix” cho biết yếu tố
thành phần nào đo lường được nhân tố nào: những yếu tố thành phần nào có hệ số tải nhân tố lớn trong nhân tố nào thì nó sẽ đo lường nhân tố đó
– Hệ số tải nhân tố (factor loading) là hệ số tương quan đơn giửa các yếu tố thành phần và các nhân tố
Trang 45Phân tích độ tin cậy của thang đo
• Dùng hệ số cronbach alpha
– Các yếu tố thành phần sẽ đo lường được một biến (nhân tố) nếu cronbach alpha lớn hơn hoặc bằng:
• 0.6 (nghiên cứu khám phá)
• 0.7 (nghiên cứu giải thích)
• 0.8 (nghiên cứu thực nghiệm)
– Trên SPSS: vào scale, reliability
Trang 46V Hàm tương quan
• V.1 Hệ số tương quan và sơ đồ phân tán
• V.2 Hàm tương quan đơn biến
• V.3 Hàm tương quan đa biến
Trang 47V.1 Sơ đồ phân tán và hệ số tương
quan
• Sơ đồ phân tán thể hiện mối quan hệ
giửa hai biến
– Phân tích hệ số tương quan dùng để đo
lường mối quan hệ đồng hành giửa hai
biến.
– Hệ số tương quan không thể hiện mối quan
hệ nhân quả.
Trang 48V.1 Sơ đồ phân tán (scatter plot)
Trang 49V.1 Sơ đồ phân tán (scatter plot)
(continued)
Trang 50V.1 Sơ đồ phân tán (scatter plot)
(continued)
Trang 51V.1 Hệ số tương quan
• Hệ số tương quan của đám đông ký hiệu
biến.
lượng cho rho và nó thể hiện tương quan
tuyến tính dựa trên các phần tử quan sát
được từ mẩu.
(continued)
Trang 52V.1 Đặc điểm của ρ and r
• Không có đơn vị đo lường
• Biến động trong phạm vi -1 và1
– Càng gần -1, mối quan hệ nghịch biến càng cao – Càng gần +1, mối quan hệ đồng biến càng cao – Càng gần 0, mối quan hệ tuyến tính càng yếu
Trang 53y
x
Trang 54( ][
) x x
( [
) y y
)(
x x
( r
2 2
Các ký hiệu:
r = Hệ số tương quan của mẩu
n = Cở mẩu
x = các giá trị của biến độc lập
y = Các giá trị của biến phụ thuộc
) y (
n ][
) x (
) x (
n [
y x
xy
n r
2 2
2 2
Cách tính tương đương
Trang 55V.1 Kiểm định mức ý nghĩa của hệ
r 1
r t
2
Trang 56V.2 Mô hình hồi quy tuyến tính giản
đơn
• Chỉ có một biến đôc lập: x
• Mối quan hệ giửa x và y là quan hệ
tuyến tính
• Sự thay đổi của y được giả định là do
sự thay đổi của x.
Trang 57V.2.1 Các mô hình thể hiện mối
Trang 58ε x
β β
Bộ phận dự đoán tương quan
V.2.2 Hàm tương quan của đám đông
Hằng số Hệ số góc Hệ số sai
lệch/phần dư Biến phụ thuộc
Biến độc lập
Sai lệch ngẩu nhiên
Trang 59V.2.2 Hàm tương quan tuyến tính của
Sai lệch ngẩu nhiên của biến xi
β β
Trang 60x b
Trang 61Các giả thuyết của hàm tương quan
– Các sai lệch ngẩu nhiên hoàn toàn độc lập với
nhau về phương diện thống kê
– Các sai lệch ngẩu nhiên có phân phối chuẩn
– Phân phối xác suất của các sai lệch ngẩu nhiên có phương sai không đổi
– Quan hệ giửa x và y là quan hệ tuyến tính
Trang 62Tiêu chuẩn bình phương bé nhất (Least
Squares Criterion)
tổng bình phương bé nhất của phần dư
(residuals)
2 1
0
2 2
x)) b
(b (y
) yˆ (y
Trang 63Hệ số của hàm tương quan theo tiêu chuẩn tổng bình phương bé nhất
n
y
x xy
2
1
) (
) )(
(
x x
y y
x
x b
x b y
và
Trang 64Các đặc trưng của hàm tưoơng quan theo phương pháp bình
phương bé nhất
• Tổng giá trị của phần dư (residual) phải bằng 0
• Tổng bình phương của phần dư phải cực tiểu
ˆ (
2
) ˆ ( y y
This image cannot currently be displayed.
Trang 65V.2.3 Biến thiên giải thích được và không
giải thích được
• Tổng biến thiên bao gồm hai bộ phận
RSS
ESS
Trang 67
• Hệ số xác định thể hiện tỷ trọng của tổng
biến thiên của biến phụ thuộc có thể giải
thích được bởi biến thiên của biến độc lập
• Hệ số xác định được gọi là R bình phương (R2)
V.2.3 Hệ số xác định R2 (coefficient of
determination)
TSS ESS
R 2 where 0 R2 1
Trang 69V.2.3 Ví dụ về các tình huống đặc biệt của
R2
y
x y
x
0 < R 2 < 1
Mối quan hệ tuyến tính yếu:
Một bộ phận biến thiên của y được giải thích bằng biến
thiên của x
Trang 70V2.3 Ví dụ về các tình huống đặc biệt của
Trang 71V.2.4 Kiểm định giả thuyết
• SE (bi): sai lệc tiêu chuẩn của hệ số bi
– Nếu t nhỏ hơn hoặc bằng ttc, chúng ta sẽ chấp nhận giả thuyết H0: ßi = 0
– Nếu t lớn hơn ttc, chúng ta sẽ
từ chối giả thuyết H0 Điều nầy có nghĩa là biến xi có tác động đến biến Y
với t được tính như sau:
•Giả thuyết H o : ßi = 0
Trang 72Độ lệch chuẩn của hệ số góc của hàm tương
• Độ lệch chuẩn của hệ số góc của hàm tương
= sai lệch tiêu chuẩn của hệ số góc của hàm tương quan
= Độ lệch chuẩn của ước lượng
1
b
SE
2 n
RSS
sε
Trang 73Độ lệch chuẩn của ước lượng (Sε)
• Độ lệch tiêu chuẩn của biến thiên của biến phụ thuộc xoay quanh đường tương quan được ước lượng bởi côg thức
Trang 74V.3 Mô hình của hàm tương quan đa
biến
ε x
β x
β x
β β
y 0 1 1 2 2 k k
k k
2 2
1 1
Estimated slope coefficients
Hàm tương quan ước lượng
Estimated intercept
Trang 75Hệ số xác định của hàm tương
quan đa biến
• Tỷ lệ % biến thiên của y có thể giải thích bởi
sự biến thiên đồng thời của tất cả các Xi
squares of
sum Total
regression squares
of
Sum TSS
ESS
Trang 76Hệ số xác định đã điều chỉnh (Adjusted
R 2)
thêm biến độc lập mới vào mô hình
– Gây khó khăn trong việc so sánh các mô hình
trước và sau khi thêm biến mới
• Tác đông thực khi thêm biến mới
– Chúng ta sẽ giãm bậc tự do khi có biến mới thêm vào.
– Việc thêm biến mới có đũ năng lực giải
thích để bù đấp cho sự mất mát khi giãm bậc tự do hay không?
Trang 77• Thể hiện % tổng biến thiên của y có thể giải
thích đượcbởi tất cả các biến Xi đã được điều chỉnh cho số biến sử dụng
(n = Cở mẩu, k = số lượng các biến độc lập)
n
1
n )
R 1
( 1
Trang 78Hệ số xác định đã điều chỉnh (Adjusted
R 2 )
• Trừng phạt việc đưa quá nhiều biến không cần thiết vào mô hình
• Hữu dụng trong việc so sánh mô hình
Trang 79Kiểm tra độ tin cậy của mô hình tương
quan
đôc lập có mối quan hệ tương quan tuyến tính với biến phụ thuộc y hay không?
• Giả thuyết :
– H0: β1 = β2 = … = βk = 0 (không có quan hệ tuyến tính)
– HA: Tối thiểu có βi ≠ 0 (Tối thiểu có một biến
có quan hệ tuyến tính với y)
Trang 80RSS k
Trang 81Kiểm định tương quan tuyến tính giửa xi và y
•Giả thuyết kiểm định: ßi = 0
•Dùng phép kiểm định t, với t được