1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Mô hình hồi quy tuyến tính đơn giản

37 71 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 37
Dung lượng 4,32 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài giảng trình bày phân tích tương quan; mô hình hồi quy tuyến tính đơn giản; kiểm tra giả định mô hình hồi quy tuyến tính. Mời các bạn cùng tham khảo bài giảng để nắm chắc kiến thức.

Trang 1

Tuan V Nguyen

Senior Principal Research Fellow, Garvan Institute of Medical Research

Professor, UNSW School of Public Health and Community Medicine

Professor of Predictive Medicine, University of Technology Sydney

Adj Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia

Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V Nguyen

Trang 2

Mô hình hồi qui tuyến tính

• Phân tích tương quan

• Mô hình hồi qui tuyến tính đơn giản

• Kiểm tra giả định mô hình hồi qui tuyến tính

Trang 4

Khái niệm tương quan (correlation)

• Khi hai biến số (x và y) có liên

quan với nhau

• Mối liên quan có thể cùng

chiều hay nghịch đảo

• Ví dụ: mối liên quan giữa tiêu

thụ chocolate và giải Nobel (?)

Trang 5

Tương quan giữa 2 biến liên tục

Làm sao định lượng mối liên quan?

Trang 6

Sir Francis Galton (16/2/1822 – 17/1/1911)

Galton’s conclusions:

• Nature dominates: “families of reputation were

much more likely than ordinary families to produce

offspring of ability”

• Recommended “ judicious marriages during

several generations” to “produce a highly

gifted race of men

• His “genetic utopia”: “Bright, healthy

individuals were treated and paid well, and

encouraged to have plenty of children Social

undesirables were treated with reasonable

kindness so long as they worked hard and

Research interest:

“ Those qualifications of intellect and disposition which … lead to

reputation”

J Singer's slide

Trang 7

Làm thế nào để mô tả mối tương quan tuyến tính?

• Gọi X và Y là 2 biến ngẫu nhiên từ n quan sát

x

x x

1

2

1var

• Chúng ta cần một thước đo độ "hiệp biến" giữa X và Y

• Covariance là trung bình của tích số X và Y

cov

Trang 8

Ước tính hệ số tương quan

• Covariance có đơn vị đo lường (X * Y)

• Coefficient of correlation (r) giữa X và Y là một standardized covariance

– không có đơn vị đo lường

• r định nghĩa như sau:

( ) ( ) SDx ( SD )y

y

x y

x

y

x r

, cov

Trang 9

Obesity data (Vietnam)

• Nghiên cứu cắt ngang >1100 nam và nữ (Việt Nam)

• Mục tiêu: ước tính hệ số tương quan giữa tỉ trọng cơ thể (bmi) và tỉ trọng mỡ

Trang 10

Hàm cor.test

data: ob$bmi and ob$pcfat

t = 17.123, df = 1215, p-value < 2.2e-16

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.3944998 0.4850923

sample estimates:

cor 0.4409183

Trang 11

Phân tích tương quan đa biến (GGally)

• Hàm cor.test chỉ tính toán tương quan giữa 2 biến

• Với k biến, chúng ta có k(k – 1)/2 hệ số tương quan

• Mục tiêu: tính toán tất cả mối tương quan

• Package "GGally"

library("GGally")ggcorr(dat, label=T)

Trang 12

Phân tích tương quan đa biến

Dữ liệu: tất cả biến số phải là biến liên tục

# Mục tiêu: tính hệ số tương quan cho nhiều biến trong ob

# loại trừ 2 cột đầu tiên của ob, chỉ quan tâm đến các biến liên tục

dat = ob[, -c(1,2)] # loại bỏ 2 biến số 1 và 2 (id, gender)

library("GGally")

ggcorr(dat, label=T)

Trang 13

dat = ob[, -c(1,2)] # loại bỏ 2 biến số 1 và 2 (id, gender)

Trang 14

ggpairs(dat)

Trang 15

Hàm pairs.panels trong psych

dat = ob[, -c(1,2)]

# Gọi package psych và dùng hàm pairs.panels

library(psych)

pairs.panels(dat)

Trang 18

Ý tưởng và nhu cầu mô hình hồi qui tuyến tính

Trang 19

Ý tưởng mô hình hồi qui tuyến tính

• Biến phụ thuộc (Y) phải là biến liên tục (vd: pcfat)

• Biến tiên lượng (X) hay predictor variables: không giới hạn (vd:

giới tính, tuổi)

• Hồi qui tuyến tính đơn giản (simple linear regression model)

– có một biến tiên lượng

Trang 20

Mô hình hồi qui tuyến tính

Trang 21

• Mối liên quan giữa X và Y là tuyến tính (linear) về tham số

• X không có sai số ngẫu nhiên

• Giá trị của Y độc lập với nhau (vd, Y1 không liên quan với Y2) ;

• Sai số ngẫu nhiên (e): phân bố chuẩn, trung bình 0, phương sai bất

biến

ε ~ N(0, s2)

Giả định

Trang 22

Tham số của mô hình HQTT

Trang 23

Phương pháp "Least square"

y i

Tìm công thức (estimator) để tính a và b sao cho tổng d2 là nhỏ nhất à Least

square method = Bình phương nhỏ nhất

Trang 24

Ước tính tham số mô hình HQTT bằng R

• Mô hình hồi qui tuyến tính:

y = α + β*X + ε

• Triển khai bằng R: hàm "lm"

lm(y~ x)

Trang 25

Ví dụ: nghiên cứu về tỉ trọng mỡ (pcfat)

• Nghiên cứu cắt ngang, 1217 nam và nữ (Việt Nam)

• Câu hỏi 1: Ảnh hưởng của tuổi đến tỉ trọng mỡ ?

• Câu hỏi 2: Tỉ trọng mỡ khác nhau giữa nam và nữ

ob = read.csv("~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 2019/Datasets/obesity data.csv")

Trang 26

plot(ob$pcfat ~ ob$age, pch=16, col="blue")

boxplot(ob$pcfat ~ ob$gender, col="blue", border="green")

Trang 27

Triển khai câu hỏi nghiên cứu bằng R

• Ảnh hưởng của tuổi đến tỉ trọng mỡ ?

m1 = lm(pcfat ~ age, data=ob)summary(m1)

• Khác biệt về tỉ trọng mỡ giữa nam và nữ ?

m2 = lm(pcfat ~ gender, data=ob) summary(m2)

Trang 28

Câu hỏi 1: tuổi và tỉ trọng mỡ

> m1 = lm(pcfat ~ age, data=ob)

Multiple R-squared: 0.09431 , Adjusted R-squared: 0.09357

F-statistic: 126.5 on 1 and 1215 DF, p-value: < 2.2e-16

Trang 29

Tuổi và tỉ trọng mỡ: diễn giải

Diễn giải: Mỗi năm tăng độ tuổi, tỉ trọng mỡ tăng 0.13% (SE 0.011), và mối

liên quan này có ý nghĩa thống kê (P < 0.0001)

a = 25.6 (ước số của α)

b = 0.13 (ước số của β)

Trang 30

m1 = lm(pcfat ~ age, data=ob)

plot(ob$pcfat ~ ob$age, pch=16, col="blue")

Trang 31

Khác biệt về pcfat giữa nam và nữ: diễn giải

Diễn giải: Nam có tỉ trọng mỡ thấp hơn nữ 10.5% (SE 0.34%), và sự khác

biệt này có ý nghĩa thống kê (P < 0.0001)

Trang 32

Khác biệt gvề pcfat giữa nam và nữ: diễn giải

Residual standard error: 5.362 on 1215 degrees of freedom

Multiple R-squared: 0.443 2, Adjusted R-squared: 0.4428

F-statistic: 967.3 on 1 and 1215 DF, p-value: < 2.2e-16

Diễn giải: Khác biệt giữa nam và nữ giải thích 44% những khác biệt về

phương sai của tỉ trọng mỡ.

Trang 33

Báo cáo qua package "stargazer"

library(stargazer)

stargazer(m1, type="text") # text, htmll latex

> stargazer(m1, type="text")

===============================================

Dependent variable:

-pcfat

-age 0.128***

(0.011)

Constant 25.584***

(0.570)

-Observations 1,217

R2 0.094

Adjusted R2 0.094

Residual Std Error 6.839 (df = 1215)

F Statistic 126.519*** (df = 1; 1215)

===============================================

Note: *p<0.1; **p<0.05; ***p<0.01

Trang 35

• Mối liên quan giữa X và Y là tuyến tính (linear) về tham số

• X không có sai số ngẫu nhiên

• Giá trị của Y độc lập với nhau (vd, Y1 không liên quan với Y2) ;

• Sai số ngẫu nhiên (e): phân bố chuẩn, trung bình 0, phương sai bất

biến (homogeneity)

ε ~ N(0, s2)

Giả định mô hình hồi qui tuyến tính

Trang 36

Kiểm tra qua "plot"

m1 = lm(pcfat ~ age, data=ob)

Trang 37

Tóm tắt: mô hình hồi qui tuyến tính

• Một phương pháp định lượng hóa một mối tương quan

• Mô hình cơ bản

y = α + β*X + ε

• Triển khai bằng R

lm(y ~ x, data=xxx)

Ngày đăng: 24/10/2020, 00:16

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w