GIỚI THIỆU SƠ LƯỢC VỀ PHÂN TÍCH SỐ LIỆU VỚI SPSS

GIỚI THIỆU SƠ LƯỢC VỀ PHÂN TÍCH SỐ LIỆUKiểm định giả thuyết Tương quan và hồi qui tuyến tính đơn... THỰC HÀNHSử dụng tập tin thuchanh_ck.sav để nhận biết hoặc khẳng địnhphân phối chuẩn c

Trang 1

GIỚI THIỆU SƠ LƯỢC VỀ PHÂN TÍCH SỐ LIỆU

Kiểm định giả thuyết

Tương quan và hồi qui tuyến tính đơn

Trang 2

GIỚI THIỆU VỀ SPSS

SPSS: Statistical Package for Social Sciences

Xuất hiện vào 1968 bởi Norman H Nie, Dale H Bent, and C HadlaiHull

Năm 1975, thành lập công ty SPSS để phát triển và kinh doanh SPSSNăm 2009, công ty IBM mua lại (1,2 tỷ USD)

(Tham khảo tại https://en.wikipedia.org/wiki/SPSS)

SỐ LIỆU DÙNG CHO THỰC HÀNH

Các nhà NC tại một nhà hộ sinh đã tiến hành thu thập số liệu của 586 trẻđược sinh ra tại đây Các trẻ được sinh ra đều được cân để xác định cân

nặng sơ sinh, ngoài ra các nhà NC cũng ghi nhận một số thông tin về tiền

sử thai sản (tuổi thai) và thông tin của mẹ (tuổi, huyết áp, nghề nghiệp)

(Sưu tầm trên Internet)

Trang 3

MÃ HOÁ TRƯỚC KHI NHẬP LIỆU

Ví dụ:

Nghề nghiệp: 1= Tự do, 2= Công nhân, 3 = Viên chức

Huyết áp: 1= Tăng huyết áp, 2 = Bình thường

Giới tính: 0 = bé gái, 1= bé trai

GIAO DIỆN SPSS: Variable view

Trang 4

GIAO DIỆN SPSS: Variable view (tt)

GIAO DIỆN SPSS: Data view

Trang 5

THỰC HÀNH

1 Một nghiên cứu tiến hành thu thập số liệu của trẻ sơ sinh và các

thông tin của người mẹ

Hãy khai báo các biến số: Mã số, tuổi mẹ, nghề nghiệp (1= tự do, 2 = công nhân, 3 = viên chức), tình trạng huyết áp (1 = bình thường, 2 = tăng), tuổi thai (tuần), giới tính (0 = bé gai, 1 = bé trai), cân nặng sơ sinh (g)

Thực hiện nhập dữ liệu minh họa cho 5 trường hợp

2 Khai báo các biến số trong phiếu khảo sát ý kiến người bệnh ngoạitrú (Mẫu số 2, Bộ Y tế)

NHẬP LIỆU CHO CÂU HỎI NHIỀU LỰA CHỌN

Trong năm qua Anh, Chị đã mắc những bệnh nào dưới đây?

Trang 6

MÃ HOÁ DẠNG: Category

MÃ HOÁ DẠNG: Category (tt)

Trang 7

NHÓM CÁC BIẾN

Analyze => Multiple Response =>Define variable sets

MÃ HOÁ DẠNG: Dichotomy

Trang 8

CHUYỂN MÃ HOÁ DẠNG Category THÀNH Dichotomy

Transform => count Value within Cases

THỰC HÀNH

những bệnh nào dưới đây?

1=Cảm 2=Sốt rét 3=Bướu cổ 4=Da liễu 5=Kiết lỵ

Trang 9

Dòng đầu tiên trong Excel là tên biến số

Hiệu chỉnh định dạng kiểu ngày

Chức năng Freeze Panes: cố định dòng

Chức năng Data Validation: Tạo các rằng buộc

Trang 10

NẠP DỮ LIỆU TỪ EXCEL VÀO SPSS

NẠP DỮ LIỆU TỪ EXCEL VÀO SPSS(tt)

Trang 11

THỰC HÀNH

2 Khai báo các giá trị trong Value

CỬA SỔ OUTPUT

Trang 12

CỬA SỔ SYNTAX

TIẾNG VIỆT (THEO UNICODE)

Khởi động SPSS=> Edit => Options

Trang 13

TÍNH TOÁN TRÊN CÁC BIẾN

Transform => compute variable

Trang 14

MÃ HOÁ LẠI BIẾN

Transform => Recode => into different variables

MÃ HOÁ LẠI BIẾN (tt)

Trang 15

MÃ HOÁ LẠI BIẾN (tt)

(Tu do = 1) => 1 (=Tu do) (Cong nhan =2 và Vien chuc =3) => 2 (=Cong nhan vien)

Trang 17

2 Trả về dữ liệu gốc, sau đó lựa chọn phần dữ liệu thoả:

tl_sosinh ≤ 2500 và gioi = 1 Lưu lại với tên tập tin: betrai_nhecan

gốc Lưu lại với tên tập tin: random_400cases

Trang 18

SẮP XẾP DỮ LIỆU

Data => Sort Cases

Lưu ý: Sắp xếp dữ liệu có thể giúp chúng ta phát hiện lỗi

KIỂM TRA SỐ LIỆU

Trang 19

KIỂM TRA SỐ LIỆU (tt)

THỰC HÀNH

Sử dụng tập tin thuchanh_ck_error.sav, tìm các trường hợp lỗi

maso=3 xuất hiện 2 lần

Trang 21

MÔ TẢ 1 BIẾN ĐỊNH LƯỢNG

Analyze => Descriptive statistics => Frequency

MÔ TẢ 1 BIẾN ĐỊNH LƯỢNG (tt)

Trang 22

2 Biến định tính: Tần số, tỷ lệ, khoảng tin cậy và biểu đồ thích hợp

Trang 23

NHẬN BIẾT PHÂN PHỐI CHUẨN

Theo Y H Chan, dựa trên

1 Biểu đồ: Histogram, Boxplot, Q-Q plot

2 Giá trị: Skewness, Kurtosis (từ -1 đến 1)

3 Kiểm định: Kolmogorov-Smirnov, Shapiro-Wilk (p > 0,05)

Theo chỉ dẫn:

1 Small samples (n<30): always assume not normal

2 Moderate samples (30-100): If formal test is significant, accept

non-normality otherwise double-check using graphs, skewness and

kurtosis to confirm normality

3 Large samples (n>100): If formal test is not significant, accept

normality otherwise Double-check using graphs, skewness and kurtosis

to confirm non-normality

NHẬN BIẾT PHÂN PHỐI CHUẨN (tt)

(Histogram, Q-Q plot) và (Skewness, kurtosis)

Trang 24

(Histogram, Q-Q plot) và (Skewness, kurtosis)

Analyze => Descriptive Statistic => Explore

Trang 25

Trang 26

THỰC HÀNH

Sử dụng tập tin thuchanh_ck.sav để nhận biết (hoặc khẳng định)phân phối chuẩn của các biến theo gợi ý dưới đây:

MÔ TẢ: Biến định lượng và biến định tính

Cân nặng trẻ sơ sinh và giới tính

Trang 27

MÔ TẢ: Biến định lượng và biến định tính (tt)

THỰC HÀNH

Sử dụng tập tin thuchanh_ck.sav , mô tả cân nặng sơ sinh theo

nghề nghiệp và tình trạng huyết áp của mẹ, theo gợi ý dưới đây:

Trang 28

THỐNG KÊ CHO CÂU HỎI NHIỀU LỰA CHỌN

Analyze => Multiple Response =>Frequencies

THỐNG KÊ CHO CÂU HỎI NHIỀU LỰA CHỌN (tt)

Analyze => Multiple Response =>Crosstabs

Trang 29

THỰC HÀNH

mối liên hệ giữa bệnh và gioitinh

Trang 30

BẢNG BIỂU (tt)

Trang 32

SO SÁNH TB 2 TỔNG THỂ: MẪU ĐỘC LẬP (tt)

1 biến ĐL (phụ thuộc) + 1 biến ĐT (độc lập, 2 giá trị)

Điều kiện: Dữ liệu của hai nhóm có PP chuẩn

Một nghiên cứu ghi nhận thông tin của 550 trẻ 1 tháng tuổi, gồm các biếnsố: Cân nặng (kg), chiều dài (cm), chu vi vòng đầu (cm), giới tính (bétrai, bé gái), học vấn mẹ, số anh chị, Sử dụng tập tin weights.sav, sosánh cân nặng trẻ 1 tháng tuổi theo giới tính

SO SÁNH TB 2 TỔNG THỂ: MẪU ĐỘC LẬP (tt)

1 Kiểm tra điều kiện: Analyze =>Descriptive statistics => Explore

2 Thực hiện lệnh: Analyze => Compare Means =>

Independent-Samples T Test

Trang 33

KẾT QUẢ PHÂN TÍCH

MỘT SỐ LƯU Ý

1 Levene’s Test for Equality of Variances: Kiểm định Levene, điểm định

sự đồng nhất của phương sai

H0: Không có sự khác biệt giữa Phương sai của 2 nhóm Equal variances assumed: Giả định phương sai đồng nhất Equal variances not assumed: Giả định phương sai không đồng nhất

2 Sig (2-tailed): trị số p của kiểm định 2 phía

3 Mean Difference: sự khác biệt giữa 2 giá trị trung bình

4 Std Error Difference: sai số chuẩn của giá trị khác biệt giữa 2 giá trị

Trang 34

Khi điều kiện phân bố chuẩn không thỏa

Analyze => Nonparametric test => Independent samples

1 Objective: chọn Automatically compare distributions across groups

2 Fields: chọn Use custom field assignments, Test Fields: tl_sosinh,

Trang 36

SO SÁNH TB 2 TỔNG THỂ: MẪU CẶP (tt)

Tập tin: growth.sav ghi nhận dữ liệu của trẻ (cân nặng, chiều dài, chu vi

vòng đầu) ở tháng tuổi thứ 1 và tháng thứ 3 Hãy So sánh cân nặng của

trẻ tại tháng tuổi thứ 1 và tháng tuổi thứ 3

1 Tính giá trị chênh lệch: d

2 Kiểm tra phân bố chuẩn d

3 Lệnh: Analyze =>Compare Means=>Paired-samples T-test

Trang 38

KIỂM ĐỊNH Wilcoxon matched-pair signed-rank

Khi điều kiện phân bố chuẩn không thỏa

Analyze => Nonparametric test => Related Samples

1 Objective: chọn Automatically compare observed data to hypothesized

2 Fields: chọn Use custom field assignments, Test Fields: Head

circumference at 1 mo và Head circumference at 3 mo

3 Settings: Chọn Choose tests => Customize tests => Wilcoxon

matched-pair signed-rank (2 samples)

4 Nhấn chọn Run

KIỂM ĐỊNH Wilcoxon matched-pair signed-rank (tt)

Nhấn đôi chuột (double click): Hypothesis Test Summary

Trang 39

THỰC HÀNH

trăng tròn đối với hành vi người bị bệnh tâm thần phân liệt

2 Dựa vào dữ liệu sách giáo khoa (chương 8, tr.115), phân tích ảnhhưởng của khẩu phần ăn nhiều muối và nước đối với nhịp tim của phihành gia

THAY ĐỔI CẤU TRÚC DỮ LIỆU

Ví dụ:

Trang 40

THAY ĐỔI CẤU TRÚC DỮ LIỆU (tt)

¯

x, S là trung bình và độ lệch chuẩn của mẫu

µ0: trung bình lý thuyết

Trang 41

KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH LÝ THUYẾT (tt)

Sử dụng tập tin weights.sav, để kiểm định 1 giả thuyết cho rằng cân

nặng Trung bình trẻ 1 tháng tuổi là 4,0 kg

Điều kiện: Mẫu khảo sát có PP chuẩn

Analyze => Compare Means => One-Sample T Test

KẾT QUẢ PHÂN TÍCH

Trang 42

Oi: Tần số quan sát (Observed frequency) thứ i

Ei: Tần số kỳ vọng (Expected frequency) tương ứng với tần số thứ i

Trang 43

KẾT QUẢ (TẦN SỐ, TỶ LỆ)

Analyze=>Descriptive Statistic=>Crosstab=> Cells

KẾT QUẢ (KIỂM ĐỊNH Chi-Square)

Analyze=>Descriptive Statistic=>Crosstab=> Statistics

Trang 44

Odds Ratio (OR, tỷ số chênh)

Analyze=>Descriptive Statistic=>Crosstab=> Statistics

Trang 45

1 Lập bảng phân bố tần số với các tỷ lệ hợp lý

Fisher Sử dụng kiểm định nào tốt hơn?

Trang 46

KIỂM ĐỊNH GIÁ TRỊ TỶ LỆ LÝ THUYẾT

Analyze => Nonparametric test => legacy Dialogs => Binomial

Trang 47

GIA TRỌNG CÁC QUAN SÁT (Weight Cases)

Trường hợp không có dữ liệu, chỉ có bảng phân phối tần số

Có bệnh Không bệnh

Vẫn thực hiện các phân tích bình thường bằng cách

THỰC HÀNH

Sử dụng các tập tin dữ liệu trong thư mục CHUONG 9, kết hợp sách giaokhoa (Phần KỸ NĂNG THỰC HÀNH chương 9) để thực hiện và biện giảicác kết quả

Trang 48

LIÊN HỆ GIỮA HAI BIẾN ĐỊNH LƯỢNG

Hiệp phương sai (Covariance)

|r| −→ 1: Hai biến có tương quan tuyến tính chặt

|r| −→ 0: Hai biến không có tương quan tuyến tính (không có tương quan hoặc tương quan phi tuyến)

r > 0: Giá trị của x tăng cao thì y cũng tăng, hoặc ngược lại

r < 0: Giá trị của x tăng cao thì y giảm, hoặc ngược lại

Trang 49

TƯƠNG QUAN TUYẾN TÍNH (tt)

Analyze => correlate => Bivarite

TƯƠNG QUAN TUYẾN TÍNH (tt)

Trang 51

TƯƠNG QUAN TỪNG PHẦN (Partial Correlation)

Nghiên cứu mối quan hệ tuyến tính của hai biến có loại trừ ảnh hưởng củayếu tố khác

q(1 − rYZ2 )(1 − rXZ2 )

NTH SPSS1 (2019) 101 / 123

TƯƠNG QUAN TỪNG PHẦN (tt)

Analyze => correlate => Partial

Trang 53

HỒI QUI TUYẾN TÍNH ĐƠN (Simple Linear Regression)

Mô hình lý thuyết: Yi = β1Xi + β0 + ǫi

Xi: Quan sát thứ i của biến độc lập

Yi: Giá trị dự đoán thứ i của biến phụ thuộc

ǫi: Sai số (error) tại quan sát thứ i, nghĩa là những giải thích khác cho

Y ngoài X, trong đó bao gồm các biến độc lập khác (không hiện diện trong mô hình) và sai số (ví dụ như sai số đo lường)

3 Giả định về X

Các giá trị X i cố định

X được đo lường không sai số

Trang 54

DIỄN GIẢI MÔ HÌNH

µYi|Xi = E (Yi|Xi) = E (β1Xi + β0 + ǫi) = β1Xi + β0

β1: Sự biến đổi của giá trị trung bình các Yi khi Xi tăng thêm 1 đơn

vị, mọi yếu tố khác không đổi

β0: Giá trị trung bình của các Yi khi Xi = 0

NTH SPSS1 (2019) 107 / 123

ƯỚC LƯỢNG MÔ HÌNH SLR DỰA VÀO DỮ LIỆU MẪU

Phương pháp OLS dùng để tính ˆβ0, ˆβ1 là các giá trị ước lượng của β0, β1bằng cách cực tiểu hoá biến thiên phần dư

Trang 55

HỆ SỐ XÁC ĐỊNH R2

Biến thiên SSy của y (tổng biến thiên) gồm hai phần: Biến thiên hồi qui

SSr và biến thiên phần dư SSe:

Để kiểm tra giả thuyết H0 : R2 = 0, chúng ta sử dụng kiểm định F

Trang 56

KIỂM ĐỊNH ˆ β0, ˆ β1

tβˆ

0 = βˆ0ˆ

σβˆ

0

tβˆ

1 = βˆ1ˆ

NTH SPSS1 (2019) 111 / 123

SRL VỚI SPSS

Analyze => Regression => linear

NTH SPSS1 (2019) 112 / 123

Trang 57

SRL VỚI SPSS (tt)

NTH SPSS1 (2019) 113 / 123

KIỂM TRA MỘT SỐ GIẢ ĐỊNH

Trang 58

KIỂM TRA MỘT SỐ GIẢ ĐỊNH (tt)

NTH SPSS1 (2019) 115 / 123

KIỂM TRA MỘT SỐ GIẢ ĐỊNH (tt)

NTH SPSS1 (2019) 116 / 123

Trang 60

BIẾN ĐỔI TUYẾN TÍNH (tt)

Trang 61

BIẾN ĐỔI TUYẾN TÍNH (tt)

2 Giải thích ý nghĩa các hệ số của mô hình

Trang 62

NGUỒN THAM KHẢO

1 Chan YH (2003) Biostatistics 101: Data presentation, Singapore

Medical Journal; Vol 44(6):280-5)

nghiên cứu với SPSS (tập 1), NXB Hồng Đức

Định dạng
Số trang	62
Dung lượng	3,58 MB