Mục tiêu bài học• Đo mối tương quan dính líu, liên hệ với lượng; • Hồi qui: Tác động của biến độc lập lên biến phụ thuộc cả hai biến có thang định lượng... • Phân tích tương quan được s
Trang 1TIN HỌC ỨNG DỤNG TRONG KHXH
Giảng viên: Lâm Thị Ánh Quyên Khoa Xã hội học- Công tác xã hội-
Đông Nam Á Trường đại học Mở TPHCM
Trang 2TƯƠNG QUAN VÀ HỒI QUI
Trang 3Mục tiêu bài học
• Đo mối tương quan (dính líu, liên hệ với
lượng;
• Hồi qui: Tác động của biến độc lập lên biến phụ thuộc (cả hai biến có thang định lượng).
Trang 4TƯƠNG QUAN/CORRELATION
Alzheimer (bệnh sa sút trí tuệ).
cơ tim càng nhiều.
…
Trang 6• Phân tích tương quan được sử dụng:
-có mối tương quan giữa hai biến (sự thay đổi trong biến này có quan hệ với sự thay đổi trong biến kia và ngược lại?)
-xác định cường độ của mối quan hệ giữa hai biến
-hướng của mối tương quan
Quan hệ kép (bivariate Relationships)
Trang 7Correlationscoefficient (Hệ số tương quan r):
-1 –> 0 - > +1
• r +: Tương quan thuận
Khi có sự tăng (giảm) của một biến thì cũng có sự tăng (giảm) của biến kia.
Người nào có điểm IQ càng thấp thì điểm thi đại học cũng càng thấp.
Người càng cao thì càng nặng ký hơn.
• r -: Tương quan nghịch
Khi có sự tăng (giảm) của một biến thì cũng có sự giảm (tăng) của biến kia.
Học vấn càng cao thì càng ít xem truyền hình.
Học vấn càng thấp thì càng xem truyền hình nhiều.
Trang 8Các giá trị của hai biến được thu thập từ một nhóm trong dân số.
Cân nặng và chiều cao của SV
Phục vụ để kiểm định loại giả thuyết: Càng… càng…
Trang 9ĐO CƯỜNG ĐỘ CỦA MỐI TƯƠNG QUAN
• 0 < r < 0,2: Tương quan rất yếu
• 0,2 ≤ r < 0,5: Tương quan yếu/trung bình
• 0,5 ≤ r < 0,7: Tương quan trung
bình/mạnh
• 0,7 ≤ r < 0,9: Tương quan rất mạnh
• r = 1: Tương quan hoàn hảo
• r = 0: Không có tương quan
Trang 12• Two-tailed significance test:
H0: hệ số tương quan (dân số) là 0
H1: hệ số tương quan (dân số) khác 0- có mối tương quan
• One-tailed significance test:
H0: hệ số tương quan (dân số) là 0- không có tương quan
H1: hệ số tương quan (dân số) >0 – tương quan thuận hoặc
H1: hệ số tương quan (dân số) <0 – tương quan nghịch
Trang 151 -.206** 190** 000 000
500 500 500 -.206** 1 048 000 289
500 500 500 190** 048 1 000 289
500 500 500
Pearson Correlation Sig (2-tailed)
N Pearson Correlation Sig (2-tailed)
N Pearson Correlation Sig (2-tailed)
Correlation is significant at the 0.01 level (2-tailed).
**
Trang 16Correlations
1 -.264** 000
1505 1501 -.264** 1
1501 1510
Pearson Correlation Sig (2-tailed)
N Pearson Correlation Sig (2-tailed)
N
So anh chi em
So nam di hoc nhieu nhat
So anh chi em
So nam di hoc nhieu nhat
Correlation is significant at the 0.01 level (2-tailed).
**
Trang 17N Pearson Correlation Sig (2-tailed)
So nam di hoc nhieu nhat cua Me
Correlation is significant at the 0.01 level (2-tailed).
**
Trang 19Thống kê
• Hồi qui là bước tiếp theo sau tương quan
• Cần phỏng đoán giá trị của một biến (biến phụ thuộc/dependent variable/outcome variable) (trục tung y) dựa trên giá trị của biến kia/biến độc lập (trục hoành x)
Ví dụ: Tiêu dùng thuốc lá có thể được phỏng đoán dựa trên thời gian hút thuốc lá; kết quả thi có thể phỏng đoán dựa trên thời gian ôn thi…
Sự phụ thuộc của chiều cao Y (biến phụ thuộc) theo tuổi tác X (biến độc lập) của một người
Sự phụ thuộc này được gọi là hồi qui của Y lên X
Trang 21Toán học: Phương pháp bình phương nhỏ nhất tổng các độ lệch bình
phương của các điểm/trường hợp trong biến phụ thuộc so với đường hồi qui.
theo x (bình phương nhỏ nhất) là:
Yi = a + b.Xi
Trang 22Yi = a + bXi
• Yi là điểm số của biến phụ thuộc/giá trị dự đoán thứ i của biến phụ thuộc
• Xi là giá trị dự đoán thứ i của biến độc lập
• a giao điểm (the intercept/hệ số chặn), điểm cắt trên trục tung, tức
là giá trị của y khi x=0 (a nằm trên trục tung)
• b: Hệ số hồi quy - Regression coefficent- độ dốc/hệ số góc (slope)
Đo lường sự thay đổi trong biến phụ thuộc y tương ứng với sự thay đổi của một đơn vị trong biến độc lập x.
Dấu của b (+ hoặc -) cho ta biết hướng của sự thay đổi đó.
Trang 23Phép tính toán hồi quy:
Phục vụ việc kiểm định các giả thuyết- Các giả thuyết nêu lên các định đề về các mối quan hệ mang tính chất số lượng (loại mệnh đề “càng… càng”)
X càng lớn, thì Y càng lớn/ hoặc càng nhỏ
Trang 241 355** 000
120 120 355** 1 000
120 210
Pearson Correlation Sig (2-tailed)
N Pearson Correlation Sig (2-tailed)
N
So gio su dung Internet tb
Internet anh huong den
cuoc song cua ban?
So gio su dung Internet tb
Internet anh huong den cuoc song cua ban?
Correlation is significant at the 0.01 level (2-tailed).
**
Trang 25• Biến độc lập: Số giờ sử dụng Internet tb
• Biến phụ thuộc: Internet ảnh hưởng đến cuộc sống của bạn
Variables Entered/Removed b
So gio su dung Internet tb a . Enter
Model 1
Variables Entered RemovedVariables Method
All requested variables entered.
a
Dependent Variable: Internet anh huong den cuoc song cua ban?
b
Trang 26R²=0,126 => Mối quan hệ giữa hai biến là ở mức trung bình
R² giải thích được 12,6% biến thiên của “Internet ảnh hưởng đến cuộc sống của bạn” bởi “Số giờ sử dụng Internet tb”
• R Square: Hệ số x/định tỷ lệ biến thiên chung của biến phụ thuộc được giải thích bởi biến độc lập/ảnh hưởng của biến độc lập với biến phụ thuộc.
(giảm tỷ lệ sai biệt)
Trang 29• Để kiểm định ý nghĩa thống kê cho R Square, phải nhờ
đến phân phối F (Kiểm định Anova)
F= tổng bình phương bình quân được giải thích bởi hồi qui (mean square regression) / tổng bình phương bình quân không được giải thích bởi hồi qui (tức phần dư, mean square residus)
Trang 30ANOVA b
14.213 1 14.213 17.013 000a98.579 118 835
112.792 119
Regression Residual Total
Model
1
Sum of Squares df Mean Square F Sig.
Predictors: (Constant), So gio su dung Internet tb
a
Dependent Variable: Internet anh huong den cuoc song cua ban?
b
Mô hình hồi qui phỏng đoán biến phụ thuộc tốt hay không nhờ vào Sig.
Tổng độ lệch bình phương phần hồi quy (Regression)= 14,213
Tổng độ lệch bình phương phần dư (Residual)= 98,579
Trung bình bình phương hồi qui: 14,213
Trung bình bình phương phần dư: 0,835
F=17,013; Sig.=0,001
=> Chấp nhận H1, Hai biến có mối quan hệ=> Có thể sử dụng được mô hình hồi qui
Trang 31Standardized Coefficients