GIỚI THIỆU SƠ LƯỢC VỀ PHÂN TÍCH SỐ LIỆUKiểm định giả thuyết Tương quan và hồi qui tuyến tính đơn... THỰC HÀNHSử dụng tập tin thuchanh_ck.sav để nhận biết hoặc khẳng địnhphân phối chuẩn c
Trang 1GIỚI THIỆU SƠ LƯỢC VỀ PHÂN TÍCH SỐ LIỆU
Kiểm định giả thuyết
Tương quan và hồi qui tuyến tính đơn
Trang 2GIỚI THIỆU VỀ SPSS
SPSS: Statistical Package for Social Sciences
Xuất hiện vào 1968 bởi Norman H Nie, Dale H Bent, and C HadlaiHull
Năm 1975, thành lập công ty SPSS để phát triển và kinh doanh SPSSNăm 2009, công ty IBM mua lại (1,2 tỷ USD)
(Tham khảo tại https://en.wikipedia.org/wiki/SPSS)
SỐ LIỆU DÙNG CHO THỰC HÀNH
Các nhà NC tại một nhà hộ sinh đã tiến hành thu thập số liệu của 586 trẻđược sinh ra tại đây Các trẻ được sinh ra đều được cân để xác định cân
nặng sơ sinh, ngoài ra các nhà NC cũng ghi nhận một số thông tin về tiền
sử thai sản (tuổi thai) và thông tin của mẹ (tuổi, huyết áp, nghề nghiệp)
(Sưu tầm trên Internet)
Trang 3MÃ HOÁ TRƯỚC KHI NHẬP LIỆU
Ví dụ:
Nghề nghiệp: 1= Tự do, 2= Công nhân, 3 = Viên chức
Huyết áp: 1= Tăng huyết áp, 2 = Bình thường
Giới tính: 0 = bé gái, 1= bé trai
GIAO DIỆN SPSS: Variable view
Trang 4GIAO DIỆN SPSS: Variable view (tt)
GIAO DIỆN SPSS: Data view
Trang 5THỰC HÀNH
1 Một nghiên cứu tiến hành thu thập số liệu của trẻ sơ sinh và các
thông tin của người mẹ
Hãy khai báo các biến số: Mã số, tuổi mẹ, nghề nghiệp (1= tự do, 2 = công nhân, 3 = viên chức), tình trạng huyết áp (1 = bình thường, 2 = tăng), tuổi thai (tuần), giới tính (0 = bé gai, 1 = bé trai), cân nặng sơ sinh (g)
Thực hiện nhập dữ liệu minh họa cho 5 trường hợp
2 Khai báo các biến số trong phiếu khảo sát ý kiến người bệnh ngoạitrú (Mẫu số 2, Bộ Y tế)
NHẬP LIỆU CHO CÂU HỎI NHIỀU LỰA CHỌN
Trong năm qua Anh, Chị đã mắc những bệnh nào dưới đây?
Trang 6MÃ HOÁ DẠNG: Category
MÃ HOÁ DẠNG: Category (tt)
Trang 7NHÓM CÁC BIẾN
Analyze => Multiple Response =>Define variable sets
MÃ HOÁ DẠNG: Dichotomy
Trang 8CHUYỂN MÃ HOÁ DẠNG Category THÀNH Dichotomy
Transform => count Value within Cases
THỰC HÀNH
những bệnh nào dưới đây?
1=Cảm 2=Sốt rét 3=Bướu cổ 4=Da liễu 5=Kiết lỵ
Trang 9Dòng đầu tiên trong Excel là tên biến số
Hiệu chỉnh định dạng kiểu ngày
Chức năng Freeze Panes: cố định dòng
Chức năng Data Validation: Tạo các rằng buộc
Trang 10NẠP DỮ LIỆU TỪ EXCEL VÀO SPSS
NẠP DỮ LIỆU TỪ EXCEL VÀO SPSS(tt)
Trang 11THỰC HÀNH
2 Khai báo các giá trị trong Value
CỬA SỔ OUTPUT
Trang 12CỬA SỔ SYNTAX
TIẾNG VIỆT (THEO UNICODE)
Khởi động SPSS=> Edit => Options
Trang 13TÍNH TOÁN TRÊN CÁC BIẾN
Transform => compute variable
Trang 14MÃ HOÁ LẠI BIẾN
Transform => Recode => into different variables
MÃ HOÁ LẠI BIẾN (tt)
Trang 15MÃ HOÁ LẠI BIẾN (tt)
(Tu do = 1) => 1 (=Tu do) (Cong nhan =2 và Vien chuc =3) => 2 (=Cong nhan vien)
Trang 172 Trả về dữ liệu gốc, sau đó lựa chọn phần dữ liệu thoả:
tl_sosinh ≤ 2500 và gioi = 1 Lưu lại với tên tập tin: betrai_nhecan
gốc Lưu lại với tên tập tin: random_400cases
Trang 18SẮP XẾP DỮ LIỆU
Data => Sort Cases
Lưu ý: Sắp xếp dữ liệu có thể giúp chúng ta phát hiện lỗi
KIỂM TRA SỐ LIỆU
Trang 19KIỂM TRA SỐ LIỆU (tt)
THỰC HÀNH
Sử dụng tập tin thuchanh_ck_error.sav, tìm các trường hợp lỗi
maso=3 xuất hiện 2 lần
Trang 21MÔ TẢ 1 BIẾN ĐỊNH LƯỢNG
Analyze => Descriptive statistics => Frequency
MÔ TẢ 1 BIẾN ĐỊNH LƯỢNG (tt)
Trang 222 Biến định tính: Tần số, tỷ lệ, khoảng tin cậy và biểu đồ thích hợp
Trang 23NHẬN BIẾT PHÂN PHỐI CHUẨN
Theo Y H Chan, dựa trên
1 Biểu đồ: Histogram, Boxplot, Q-Q plot
2 Giá trị: Skewness, Kurtosis (từ -1 đến 1)
3 Kiểm định: Kolmogorov-Smirnov, Shapiro-Wilk (p > 0,05)
Theo chỉ dẫn:
1 Small samples (n<30): always assume not normal
2 Moderate samples (30-100): If formal test is significant, accept
non-normality otherwise double-check using graphs, skewness and
kurtosis to confirm normality
3 Large samples (n>100): If formal test is not significant, accept
normality otherwise Double-check using graphs, skewness and kurtosis
to confirm non-normality
NHẬN BIẾT PHÂN PHỐI CHUẨN (tt)
(Histogram, Q-Q plot) và (Skewness, kurtosis)
Trang 24NHẬN BIẾT PHÂN PHỐI CHUẨN (tt)
(Histogram, Q-Q plot) và (Skewness, kurtosis)
NHẬN BIẾT PHÂN PHỐI CHUẨN (tt)
Analyze => Descriptive Statistic => Explore
Trang 25NHẬN BIẾT PHÂN PHỐI CHUẨN (tt)
NHẬN BIẾT PHÂN PHỐI CHUẨN (tt)
Trang 26THỰC HÀNH
Sử dụng tập tin thuchanh_ck.sav để nhận biết (hoặc khẳng định)phân phối chuẩn của các biến theo gợi ý dưới đây:
MÔ TẢ: Biến định lượng và biến định tính
Cân nặng trẻ sơ sinh và giới tính
Trang 27MÔ TẢ: Biến định lượng và biến định tính (tt)
THỰC HÀNH
Sử dụng tập tin thuchanh_ck.sav , mô tả cân nặng sơ sinh theo
nghề nghiệp và tình trạng huyết áp của mẹ, theo gợi ý dưới đây:
Trang 28THỐNG KÊ CHO CÂU HỎI NHIỀU LỰA CHỌN
Analyze => Multiple Response =>Frequencies
THỐNG KÊ CHO CÂU HỎI NHIỀU LỰA CHỌN (tt)
Analyze => Multiple Response =>Crosstabs
Trang 29THỰC HÀNH
mối liên hệ giữa bệnh và gioitinh
Trang 30BẢNG BIỂU (tt)
BẢNG BIỂU (tt)
Trang 32SO SÁNH TB 2 TỔNG THỂ: MẪU ĐỘC LẬP (tt)
1 biến ĐL (phụ thuộc) + 1 biến ĐT (độc lập, 2 giá trị)
Điều kiện: Dữ liệu của hai nhóm có PP chuẩn
Một nghiên cứu ghi nhận thông tin của 550 trẻ 1 tháng tuổi, gồm các biếnsố: Cân nặng (kg), chiều dài (cm), chu vi vòng đầu (cm), giới tính (bétrai, bé gái), học vấn mẹ, số anh chị, Sử dụng tập tin weights.sav, sosánh cân nặng trẻ 1 tháng tuổi theo giới tính
SO SÁNH TB 2 TỔNG THỂ: MẪU ĐỘC LẬP (tt)
1 Kiểm tra điều kiện: Analyze =>Descriptive statistics => Explore
2 Thực hiện lệnh: Analyze => Compare Means =>
Independent-Samples T Test
Trang 33KẾT QUẢ PHÂN TÍCH
MỘT SỐ LƯU Ý
1 Levene’s Test for Equality of Variances: Kiểm định Levene, điểm định
sự đồng nhất của phương sai
H0: Không có sự khác biệt giữa Phương sai của 2 nhóm Equal variances assumed: Giả định phương sai đồng nhất Equal variances not assumed: Giả định phương sai không đồng nhất
2 Sig (2-tailed): trị số p của kiểm định 2 phía
3 Mean Difference: sự khác biệt giữa 2 giá trị trung bình
4 Std Error Difference: sai số chuẩn của giá trị khác biệt giữa 2 giá trị
Trang 34Khi điều kiện phân bố chuẩn không thỏa
Analyze => Nonparametric test => Independent samples
1 Objective: chọn Automatically compare distributions across groups
2 Fields: chọn Use custom field assignments, Test Fields: tl_sosinh,
Trang 36SO SÁNH TB 2 TỔNG THỂ: MẪU CẶP (tt)
Tập tin: growth.sav ghi nhận dữ liệu của trẻ (cân nặng, chiều dài, chu vi
vòng đầu) ở tháng tuổi thứ 1 và tháng thứ 3 Hãy So sánh cân nặng của
trẻ tại tháng tuổi thứ 1 và tháng tuổi thứ 3
1 Tính giá trị chênh lệch: d
2 Kiểm tra phân bố chuẩn d
3 Lệnh: Analyze =>Compare Means=>Paired-samples T-test
Trang 38KIỂM ĐỊNH Wilcoxon matched-pair signed-rank
Khi điều kiện phân bố chuẩn không thỏa
Analyze => Nonparametric test => Related Samples
1 Objective: chọn Automatically compare observed data to hypothesized
2 Fields: chọn Use custom field assignments, Test Fields: Head
circumference at 1 mo và Head circumference at 3 mo
3 Settings: Chọn Choose tests => Customize tests => Wilcoxon
matched-pair signed-rank (2 samples)
4 Nhấn chọn Run
KIỂM ĐỊNH Wilcoxon matched-pair signed-rank (tt)
Nhấn đôi chuột (double click): Hypothesis Test Summary
Trang 39THỰC HÀNH
trăng tròn đối với hành vi người bị bệnh tâm thần phân liệt
2 Dựa vào dữ liệu sách giáo khoa (chương 8, tr.115), phân tích ảnhhưởng của khẩu phần ăn nhiều muối và nước đối với nhịp tim của phihành gia
THAY ĐỔI CẤU TRÚC DỮ LIỆU
Ví dụ:
Trang 40THAY ĐỔI CẤU TRÚC DỮ LIỆU (tt)
¯
x, S là trung bình và độ lệch chuẩn của mẫu
µ0: trung bình lý thuyết
Trang 41KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH LÝ THUYẾT (tt)
Sử dụng tập tin weights.sav, để kiểm định 1 giả thuyết cho rằng cân
nặng Trung bình trẻ 1 tháng tuổi là 4,0 kg
Điều kiện: Mẫu khảo sát có PP chuẩn
Analyze => Compare Means => One-Sample T Test
KẾT QUẢ PHÂN TÍCH
Trang 42Oi: Tần số quan sát (Observed frequency) thứ i
Ei: Tần số kỳ vọng (Expected frequency) tương ứng với tần số thứ i
Trang 43KẾT QUẢ (TẦN SỐ, TỶ LỆ)
Analyze=>Descriptive Statistic=>Crosstab=> Cells
KẾT QUẢ (KIỂM ĐỊNH Chi-Square)
Analyze=>Descriptive Statistic=>Crosstab=> Statistics
Trang 44Odds Ratio (OR, tỷ số chênh)
Analyze=>Descriptive Statistic=>Crosstab=> Statistics
Trang 451 Lập bảng phân bố tần số với các tỷ lệ hợp lý
Fisher Sử dụng kiểm định nào tốt hơn?
Trang 46KIỂM ĐỊNH GIÁ TRỊ TỶ LỆ LÝ THUYẾT
Analyze => Nonparametric test => legacy Dialogs => Binomial
Trang 47GIA TRỌNG CÁC QUAN SÁT (Weight Cases)
Trường hợp không có dữ liệu, chỉ có bảng phân phối tần số
Có bệnh Không bệnh
Vẫn thực hiện các phân tích bình thường bằng cách
THỰC HÀNH
Sử dụng các tập tin dữ liệu trong thư mục CHUONG 9, kết hợp sách giaokhoa (Phần KỸ NĂNG THỰC HÀNH chương 9) để thực hiện và biện giảicác kết quả
Trang 48LIÊN HỆ GIỮA HAI BIẾN ĐỊNH LƯỢNG
Hiệp phương sai (Covariance)
|r| −→ 1: Hai biến có tương quan tuyến tính chặt
|r| −→ 0: Hai biến không có tương quan tuyến tính (không có tương quan hoặc tương quan phi tuyến)
r > 0: Giá trị của x tăng cao thì y cũng tăng, hoặc ngược lại
r < 0: Giá trị của x tăng cao thì y giảm, hoặc ngược lại
Trang 49TƯƠNG QUAN TUYẾN TÍNH (tt)
Analyze => correlate => Bivarite
TƯƠNG QUAN TUYẾN TÍNH (tt)
Trang 51TƯƠNG QUAN TỪNG PHẦN (Partial Correlation)
Nghiên cứu mối quan hệ tuyến tính của hai biến có loại trừ ảnh hưởng củayếu tố khác
q(1 − rYZ2 )(1 − rXZ2 )
NTH SPSS1 (2019) 101 / 123
TƯƠNG QUAN TỪNG PHẦN (tt)
Analyze => correlate => Partial
Trang 53HỒI QUI TUYẾN TÍNH ĐƠN (Simple Linear Regression)
Mô hình lý thuyết: Yi = β1Xi + β0 + ǫi
Xi: Quan sát thứ i của biến độc lập
Yi: Giá trị dự đoán thứ i của biến phụ thuộc
ǫi: Sai số (error) tại quan sát thứ i, nghĩa là những giải thích khác cho
Y ngoài X, trong đó bao gồm các biến độc lập khác (không hiện diện trong mô hình) và sai số (ví dụ như sai số đo lường)
3 Giả định về X
Các giá trị X i cố định
X được đo lường không sai số
Trang 54DIỄN GIẢI MÔ HÌNH
µYi|Xi = E (Yi|Xi) = E (β1Xi + β0 + ǫi) = β1Xi + β0
β1: Sự biến đổi của giá trị trung bình các Yi khi Xi tăng thêm 1 đơn
vị, mọi yếu tố khác không đổi
β0: Giá trị trung bình của các Yi khi Xi = 0
NTH SPSS1 (2019) 107 / 123
ƯỚC LƯỢNG MÔ HÌNH SLR DỰA VÀO DỮ LIỆU MẪU
Phương pháp OLS dùng để tính ˆβ0, ˆβ1 là các giá trị ước lượng của β0, β1bằng cách cực tiểu hoá biến thiên phần dư
Trang 55HỆ SỐ XÁC ĐỊNH R2
Biến thiên SSy của y (tổng biến thiên) gồm hai phần: Biến thiên hồi qui
SSr và biến thiên phần dư SSe:
Để kiểm tra giả thuyết H0 : R2 = 0, chúng ta sử dụng kiểm định F
Trang 56KIỂM ĐỊNH ˆ β0, ˆ β1
tβˆ
0 = βˆ0ˆ
σβˆ
0
tβˆ
1 = βˆ1ˆ
NTH SPSS1 (2019) 111 / 123
SRL VỚI SPSS
Analyze => Regression => linear
NTH SPSS1 (2019) 112 / 123
Trang 57SRL VỚI SPSS (tt)
NTH SPSS1 (2019) 113 / 123
KIỂM TRA MỘT SỐ GIẢ ĐỊNH
Trang 58KIỂM TRA MỘT SỐ GIẢ ĐỊNH (tt)
NTH SPSS1 (2019) 115 / 123
KIỂM TRA MỘT SỐ GIẢ ĐỊNH (tt)
NTH SPSS1 (2019) 116 / 123
Trang 60BIẾN ĐỔI TUYẾN TÍNH (tt)
Trang 61BIẾN ĐỔI TUYẾN TÍNH (tt)
2 Giải thích ý nghĩa các hệ số của mô hình
Trang 62NGUỒN THAM KHẢO
1 Chan YH (2003) Biostatistics 101: Data presentation, Singapore
Medical Journal; Vol 44(6):280-5)
nghiên cứu với SPSS (tập 1), NXB Hồng Đức