1. Trang chủ
  2. » Cao đẳng - Đại học

Bài giảng Phương pháp nghiên cứu: Chương 4: xử lý dữ liệu - Nguyễn Hùng Phong

81 987 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Chương 4: Xữ lý dữ liệu
Trường học Đại học Khoa học Xã hội và Nhân văn - Đại học Quốc gia Hà Nội
Chuyên ngành Phương pháp nghiên cứu
Thể loại Bài giảng
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 81
Dung lượng 570,47 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phương pháp nghiên cứu

Trang 1

Chương 4: Xữ lý dữ liệu

I Các đại lượng đo lường sự phân tán

II Ước lượng thông số đám đông từ mẫu III.Một số phép kiểm định cơ bản

IV.Kiểm định phi tham số: Chi-square

V Phân tích nhân tố (factor analysis)

VI.Phân tích tương quan (Regression

analysis)

Trang 2

Sử dụng các công cụ thống kê trong phân tích

Mục tiêu và kiểu của các câu hỏi nghiên cứu

So sánh nhóm

Tóm lược

dữ liệu

Thống kê khác biệt (v.d t-test, ANOVA)

Thống kê liên

quan (v.d tương quan, hồi quy)

Thống kê mô

tả (v.d trung bình, tỷ lệ)

Trang 3

I Các đại lượng đo lường độ phân tán

N i

X

1

) / (

N Xi

1

2 2

/ ) ( 

1

2 2

Xi s

) ,

Trang 4

I Các đại lượng đo lường độ phân tán

Trang 5

Phân phối chuẩn một đơn vị

Trang 6

Đo lường dạng hình của phân phối (Measures

of Shape)

• Độ lệch (skewness) đo lường độ lệch của phân phối về một

trong hai phía

• Phân phối lệch trái (negative skew, left-skewed) khi đuôi phía

trái dài hơn, và phần lớn số liệu tập trung ở phía phải của

phân phối

• Phân phối lệch phải (positive sknew, right-skewed) khi đuôi

phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân phối

• Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị

skewness âm Độ càng lớn thì giá trị sknewness càng lớn

hơn 0.

• Với phân phối chuẩn, độ lệch gần như nhận giá trị 0

Trang 7

Đo lường dạng hình của phân phối (Measures

of Shape)

Trang 8

Đo lường dạng hình của phân phối (Measures

of Shape)

Độ nhọn (kurtosis)

– Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân

phối so với phân phối bình thường (có độ nhọn bằng 0)

Phân phối có dạng nhọn khi giá trị kurtosis dương và có dạng bẹt khi giá trị kurtosis âm

– Với phân phối bình thường, giá trị của độ lệch và độ nhọn

bằng 0 Căn cứ trên tỷ số giữa giá trị skewness và kurtosis

và sai số chuẩn của nó, ta có thể đánh giá phân phối có bình thường hay không (khi tỷ số này nhỏ hơn -2 và lớn hơn +2, phân phối là không bình thường).

Trang 9

II Ước lượng thông số đám đông

Trang 10

II Ước lượng thông số đám đông

II.1.1 Ước lượng trung

bình đám đông

– Chuyển phân phối chuẩn

tổng quát trở về phân

phối chuẩn một đơn vị

với biến ngẩu nhiên

– Tìm xác xuất P sao cho:

– Đối với phân phối chuẩn

một đơn vị, ta có

X

X Z

( )

P

) 1

( )

Trang 11

II Ước lượng thông số đám đông

2

n n

X X

Trang 12

II Ước lượng thông số đám đông

II.1.2 Ước lượng trung

bình đám đông

– Chuyển phân phối chuẩn

tổng quát trở về phân

phối t

– Tìm xác xuất P sao cho:

– Đối với phân phối t

(phân phối student), ta có

X

X t

( )

P

) 1

( )

, (  t /2 (n1)  t   t / 2,(n1)   

P

n<30

Trang 13

II Ước lượng thông số đám đông

, 2 / )

1 (

2

) 1 ( 2 / )

1 ( 2 / ,      , 

2

n n

X X

Trang 14

II Ước lượng thông số đám đông

Trang 15

II Ước lượng thông số đám đông

II.2.1 Ước lượng tỷ lệ đám đông(Khi n nhỏhơn 30 phần tử)

– Chuyển phân phối

n

P   2,( 1)      2,( 1) 

Trang 16

III Một số phép kiểm định giả thuyết

III.1 Kiểm định trung bình và tỷ lệ đám đông

Trang 17

Các kỹ thuật kiểm định cơ bản

Các kỹ thuật kiểm định dùng theo loại dữ liệu và trắc nghiệm

Thang đo One-sample

Case

Two-Samples Tests k-Samples Tests

Related Samples

Independent Samples

Related Samples

Independent Samples

- χ2 one-sample test

- McNemar - Fisher exact

test

- χ2 sample test

two Cochran Q - χ2 for

k-samples

Ordinal -

Kolmogorov-Smirnov sample test

one Runs test

- Sign test

- Wilcoxon matched-pairs test

-Median test Mann-

Whitney U

- Smirnov

Kolmogorov- Wolfowitz

Wald Friedman two-way ANOVA

- Median extension

- Wallis one- way ANOVA

Kruskal-Interval and Ratio - T-test

- Z test

- T-test for paired samples

- T-test

- Z test

- measured ANOVA

Repeated OneRepeated way ANOVA

- N-way ANOVA

Trang 18

Sai lầm trong kiểm định Quyết định Bản chất của giả thuyết Ho

Chấp nhận H0 Quyết định

đúng

Sai lầm loại II (Beta)

Từ chối H0 Sai lầm loại I

(alpha)

Quyết định đúng

Trang 19

Giá trị xác suất (p Values)

• Giá trị p value được so sánh với mức ý nghĩa

(significant level - α), và dựa trên kết quả này để bác bỏ hay không bác bỏ giả thiết

• Nếu giá trị p value nhỏ hơn mức ý nghĩa, giả

thiết bị bác bỏ (p value < α, bác bỏ giả thiết H0).

• Nếu giá trị p value bằng hoặc lớn hơn mức ý

nghĩa, không bác bỏ giả thiết Ho (p value > α,

không bác bỏ giả thiết H0)

Trang 20

Kiểm định ý nghĩa: các kiểu kiểm định

• Có hai loại: parametric (tham số) và

nonparametric (phi tham số)

– Parametric tests là công cụ mạnh vì xử lý các

dữ liệu dạng scale (interval, ratio).

– Nonparametric tests là công cụ xử lý các dữ liệu dạng nominal và ordinal

Trang 21

Kiểm định ý nghĩa: các kiểu kiểm định

• Parametric tests đòi hỏi một số giả định:

– Các quan sát phải độc lập với nhau.

– Các quan sát phải được rút ra từ các đám

đông có phân phối chuẩn.

– Các nhóm trong đám đông phải có phương sai tương đương.

– Thang đo phải ở dạng scale để các tính toán

có thể thực hiện được.

Trang 22

Kiểm định ý nghĩa: các kiểu kiểm định

• Nonparametric tests ít đòi hỏi các giả định:

– Không đòi hỏi các quan sát phải được rút ra từ các đám đông có phân phối chuẩn

– Không đòi hỏi các nhóm phải có phương sai tương đương

– Là cách duy nhất để xử lý dữ liệu danh xưng

(nominal)

– Là cách đúng đắn để xử lý dữ liệu với thang đo thứ

tự (ordinal), mặc dù parametric có thể áp dụng được.– Dễ hiểu và dễ sử dụng

Trang 23

III.1 Kiểm định trung bình và tỷ lệ đám đông

X Z

X t

Trang 24

III.1 Kiểm định trung bình và tỷ lệ đám đông

Trong trường hợp kiểm

tt

P

P Z

tt

P

P t

Trang 25

III.1 Kiểm định trung bình và tỷ lệ đám đông

[ Z/2 Z 2

Ztt  

] ,

[ Z/2 Z 2

Ztt  

] ,

[  /2,( 1) 2,( 1)

Trang 26

Ví dụ: µ=6.5, lấy mẩu với n=9, tính

được giá trị trung bình là 7

1 One-Sample T Test

Analyze  Compare Means  One-Sample T Test

Trang 27

Ví dụ: µ=6.5, lấy mẩu với n=9, tính

được giá trị trung bình là 7

1 One-Sample T Test

Analyze  Compare Means  One-Sample T Test

Trang 28

III.2 Kiểm định sự khác biệt giửa hai trung bình,

tỷ lệ

III.2.1 Kiểm định sự khác biệt giửa hai trung bình/tỷ lệ Trường hợp áp dụng:

– Khi đám đông được phân ra thành 2 hay nhiều nhóm

– Chúng ta muốn xác định các trung bình/tỷ lệ đám đông có khác biệt hay không

– Dựa vào mẩu chúng ta sẽ tìm được hai trung bình/tỷ lệ và

sử dụng chúng để kiểm định cho trung bình/tỷ lệ đám đông

Trang 29

III.2 Kiểm định sự khác biệt giửa hai trung bình,

:

) (

:

2 1

2 1

1

2 1

2 1

p p

p p

o

P P

H

P P

(

) (

2 1

2

2 2 2

1

2 1

2 1

2

2

2 2

1

2 1

2 1

n n

n n

X

X t

n n

X

X Z

tt tt

Trang 30

III.2 Kiểm định sự khác biệt giửa hai trung bình,

tỷ lệ

Nếu kiểm định sự khác biệt giửa hai tỷ lệ chúng ta sẽ

xác định giá trị Ztt theo cách sau

2 1

2 2

1 1

2

2 1

2 1

.

)

1

1 )(

1 (

n n

n P

n

P p

n n

p p

P

P Z

s s

s s

Trang 31

III.2 Kiểm định sự khác biệt giửa hai trung bình,

Ztt  

] ,

Ztt  

Trang 32

Ví dụ

• Ví dụ 3 Số liệu điều tra sử dụng xe máy

– Giả thiết Ho: tuổi trung bình của người sử

dụng xe máy nam và nữ là như nhau.

– Giả thuyết H1: Có sự khác biệt về độ tuổi sử dụng

3 Two-Sample T Test

Trang 33

Ví dụ

3 Two-Sample T Test

Analyze  Compare Means  Independent-Samples T Test

Trang 34

Ví dụ

3 Two-Sample T Test

Trang 36

Ví dụ

3 Two-Sample T Test

P values (Sig (2-tailed)) cao hơn α = 0.05 rất nhiều

Ta chấp nhận giả thiết và diễn giải là không có sự khác biệt về tuổi trung bình giữa người sử dụng xe máy là Nam và Nữ

Independent Samples Test

1.239 268 -.315 98 754 -.93 2.95 -6.77 4.92

-.321 91.785 749 -.93 2.89 -6.66 4.81

Equal variances assumed

Equal variances not assumed

Age of motorbike user

Std Error Difference Lower Upper

95% Confidence Interval of the Difference t-test for Equality of Means

Trang 37

III.3 Kiểm định sự khác biệt giửa nhiều trung

1

2 1

2 1

Trang 38

III.3 Kiểm định sự khác biệt giửa nhiều trung

Trang 39

Ví dụ áp dụng: Anova

• Ví dụ 5 Số liệu điều tra sử dụng xe máy

• Giả thiết: Không có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày

sử dụng bình quân trong tháng

5 One-Way ANOVA (Parametric Test)

Analyze  Compare Means  One-Way ANOVA…

Trang 40

Ví dụ áp dụng: Anova

5 One-Way ANOVA (Parametric Test)

Trang 41

Kết luận: bác bỏ giả thiết;

Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các nhóm tuổi khác nhau về số ngày sử dụng bình quân trong tháng

Trang 42

IV Phân tích nhân tố (factor analysis)

Trang 43

IV Phân tích nhân tố (factor analysis)

“eigenvalue” over 1

– Nhấn mục Rotation: Chọn phương pháp “varimax”

– Nhấn mục Score, chọn phương pháp “regression”

• Kết quả sẽ hiển thị trên phần mềm SPSS

Trang 44

IV Phân tích nhân tố (factor analysis)

• Phân tích kết quả:

– Dựa vào biểu “Total Variance explained”: số nhân tố rút ra phải có giá trị eigenvalue lớn hơn 1

– Biểu “Rotated component matrix” cho biết yếu tố

thành phần nào đo lường được nhân tố nào: những yếu tố thành phần nào có hệ số tải nhân tố lớn trong nhân tố nào thì nó sẽ đo lường nhân tố đó

– Hệ số tải nhân tố (factor loading) là hệ số tương quan đơn giửa các yếu tố thành phần và các nhân tố

Trang 45

Phân tích độ tin cậy của thang đo

• Dùng hệ số cronbach alpha

– Các yếu tố thành phần sẽ đo lường được một biến (nhân tố) nếu cronbach alpha lớn hơn hoặc bằng:

• 0.6 (nghiên cứu khám phá)

• 0.7 (nghiên cứu giải thích)

• 0.8 (nghiên cứu thực nghiệm)

– Trên SPSS: vào scale, reliability

Trang 46

V Hàm tương quan

• V.1 Hệ số tương quan và sơ đồ phân tán

• V.2 Hàm tương quan đơn biến

• V.3 Hàm tương quan đa biến

Trang 47

V.1 Sơ đồ phân tán và hệ số tương

quan

• Sơ đồ phân tán thể hiện mối quan hệ

giửa hai biến

– Phân tích hệ số tương quan dùng để đo

lường mối quan hệ đồng hành giửa hai

biến.

– Hệ số tương quan không thể hiện mối quan

hệ nhân quả.

Trang 48

V.1 Sơ đồ phân tán (scatter plot)

Trang 49

V.1 Sơ đồ phân tán (scatter plot)

(continued)

Trang 50

V.1 Sơ đồ phân tán (scatter plot)

(continued)

Trang 51

V.1 Hệ số tương quan

• Hệ số tương quan của đám đông ký hiệu

biến.

lượng cho rho và nó thể hiện tương quan

tuyến tính dựa trên các phần tử quan sát

được từ mẩu.

(continued)

Trang 52

V.1 Đặc điểm của ρ and r

• Không có đơn vị đo lường

• Biến động trong phạm vi -1 và1

– Càng gần -1, mối quan hệ nghịch biến càng cao – Càng gần +1, mối quan hệ đồng biến càng cao – Càng gần 0, mối quan hệ tuyến tính càng yếu

Trang 53

y

x

Trang 54

( ][

) x x

( [

) y y

)(

x x

( r

2 2

Các ký hiệu:

r = Hệ số tương quan của mẩu

n = Cở mẩu

x = các giá trị của biến độc lập

y = Các giá trị của biến phụ thuộc

) y (

n ][

) x (

) x (

n [

y x

xy

n r

2 2

2 2

Cách tính tương đương

Trang 55

V.1 Kiểm định mức ý nghĩa của hệ

r 1

r t

2

Trang 56

V.2 Mô hình hồi quy tuyến tính giản

đơn

• Chỉ có một biến đôc lập: x

• Mối quan hệ giửa x và y là quan hệ

tuyến tính

• Sự thay đổi của y được giả định là do

sự thay đổi của x.

Trang 57

V.2.1 Các mô hình thể hiện mối

Trang 58

ε x

β β

Bộ phận dự đoán tương quan

V.2.2 Hàm tương quan của đám đông

Hằng số Hệ số góc Hệ số sai

lệch/phần dư Biến phụ thuộc

Biến độc lập

Sai lệch ngẩu nhiên

Trang 59

V.2.2 Hàm tương quan tuyến tính của

Sai lệch ngẩu nhiên của biến xi

β β

Trang 60

x b

Trang 61

Các giả thuyết của hàm tương quan

– Các sai lệch ngẩu nhiên hoàn toàn độc lập với

nhau về phương diện thống kê

– Các sai lệch ngẩu nhiên có phân phối chuẩn

– Phân phối xác suất của các sai lệch ngẩu nhiên có phương sai không đổi

– Quan hệ giửa x và y là quan hệ tuyến tính

Trang 62

Tiêu chuẩn bình phương bé nhất (Least

Squares Criterion)

tổng bình phương bé nhất của phần dư

(residuals)

2 1

0

2 2

x)) b

(b (y

) yˆ (y

Trang 63

Hệ số của hàm tương quan theo tiêu chuẩn tổng bình phương bé nhất

n

y

x xy

2

1

) (

) )(

(

x x

y y

x

x b

x b y

Trang 64

Các đặc trưng của hàm tưoơng quan theo phương pháp bình

phương bé nhất

• Tổng giá trị của phần dư (residual) phải bằng 0

• Tổng bình phương của phần dư phải cực tiểu

ˆ (  

2

) ˆ ( y y

 

This image cannot currently be displayed.

Trang 65

V.2.3 Biến thiên giải thích được và không

giải thích được

• Tổng biến thiên bao gồm hai bộ phận

RSS

ESS

Trang 67

• Hệ số xác định thể hiện tỷ trọng của tổng

biến thiên của biến phụ thuộc có thể giải

thích được bởi biến thiên của biến độc lập

• Hệ số xác định được gọi là R bình phương (R2)

V.2.3 Hệ số xác định R2 (coefficient of

determination)

TSS ESS

R 2 where 0  R2  1

Trang 69

V.2.3 Ví dụ về các tình huống đặc biệt của

R2

y

x y

x

0 < R 2 < 1

Mối quan hệ tuyến tính yếu:

Một bộ phận biến thiên của y được giải thích bằng biến

thiên của x

Trang 70

V2.3 Ví dụ về các tình huống đặc biệt của

Trang 71

V.2.4 Kiểm định giả thuyết

• SE (bi): sai lệc tiêu chuẩn của hệ số bi

– Nếu t nhỏ hơn hoặc bằng ttc, chúng ta sẽ chấp nhận giả thuyết H0: ßi = 0

– Nếu t lớn hơn ttc, chúng ta sẽ

từ chối giả thuyết H0 Điều nầy có nghĩa là biến xi có tác động đến biến Y

với t được tính như sau:

•Giả thuyết H o : ßi = 0

Trang 72

Độ lệch chuẩn của hệ số góc của hàm tương

• Độ lệch chuẩn của hệ số góc của hàm tương

= sai lệch tiêu chuẩn của hệ số góc của hàm tương quan

= Độ lệch chuẩn của ước lượng

1

b

SE

2 n

RSS

Trang 73

Độ lệch chuẩn của ước lượng (Sε)

• Độ lệch tiêu chuẩn của biến thiên của biến phụ thuộc xoay quanh đường tương quan được ước lượng bởi côg thức

Trang 74

V.3 Mô hình của hàm tương quan đa

biến

ε x

β x

β x

β β

y  0  1 1  2 2    k k 

k k

2 2

1 1

Estimated slope coefficients

Hàm tương quan ước lượng

Estimated intercept

Trang 75

Hệ số xác định của hàm tương

quan đa biến

• Tỷ lệ % biến thiên của y có thể giải thích bởi

sự biến thiên đồng thời của tất cả các Xi

squares of

sum Total

regression squares

of

Sum TSS

ESS

Trang 76

Hệ số xác định đã điều chỉnh (Adjusted

R 2)

thêm biến độc lập mới vào mô hình

– Gây khó khăn trong việc so sánh các mô hình

trước và sau khi thêm biến mới

• Tác đông thực khi thêm biến mới

– Chúng ta sẽ giãm bậc tự do khi có biến mới thêm vào.

– Việc thêm biến mới có đũ năng lực giải

thích để bù đấp cho sự mất mát khi giãm bậc tự do hay không?

Trang 77

• Thể hiện % tổng biến thiên của y có thể giải

thích đượcbởi tất cả các biến Xi đã được điều chỉnh cho số biến sử dụng

(n = Cở mẩu, k = số lượng các biến độc lập)

n

1

n )

R 1

( 1

Trang 78

Hệ số xác định đã điều chỉnh (Adjusted

R 2 )

• Trừng phạt việc đưa quá nhiều biến không cần thiết vào mô hình

• Hữu dụng trong việc so sánh mô hình

Trang 79

Kiểm tra độ tin cậy của mô hình tương

quan

đôc lập có mối quan hệ tương quan tuyến tính với biến phụ thuộc y hay không?

• Giả thuyết :

– H0: β1 = β2 = … = βk = 0 (không có quan hệ tuyến tính)

– HA: Tối thiểu có βi ≠ 0 (Tối thiểu có một biến

có quan hệ tuyến tính với y)

Trang 80

RSS k

Trang 81

Kiểm định tương quan tuyến tính giửa xi và y

•Giả thuyết kiểm định: ßi = 0

•Dùng phép kiểm định t, với t được

Ngày đăng: 09/06/2014, 15:52

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm