1. Trang chủ
  2. » Giáo án - Bài giảng

Phân tích số liệu bằng phần mềm r phần 5

17 173 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 19,03 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phương sai và đồng phương sai: đại sốGọi x và y là 2 biến ngẫu nhiên lấy ra từ mẫu n quan sát.. Đồng phương sai âm= độ lệch trong 2 phân phối theo hai hướng ngược nhau, ví dụ sai khác

Trang 1

Give a man three weapons – correlation, regression and a

pen – and he will use all three (Anon, 1978)

2

Ví dụ

3

ID Age Chol (mg/ml)

Tuổi và hàm lượng

cholesterol

Trong 18 cá nhân

nghiên cứu

Trang 2

Nhập dữ liệu trong R

id <- seq(1:18)

age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22,

43, 57, 33, 22, 63, 40, 48, 28, 49)

chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1,

3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)

plot(chol ~ age, pch=16)

4

5

a ge

Câu hỏi quan tâm

Mối liên hệ giữa tuổi và hàm lượng cholesterol

Độ mạnh của mối liên hệ

Tiên đoán về hàm lượng cholesterol dựa vào tuổi

6

Phân tích tương quan và hồi quy

Trang 3

Phương sai và đồng phương sai: đại số

Gọi x và y là 2 biến ngẫu nhiên lấy ra từ mẫu n quan sát.

Đo lường Measure sự sai khác của x và y: phương sai

7

   

n

i

i

n

x x

x

1

2

1

n i i n y y y

1 2

1 var

• Đo mức độ đồng phương sai giữa x và y?

• Quan điểm đại số:

var(x + y) = var(x) + var(y)

var(x + y) = var(x) + var(y) + 2cov(x,y)

Trong đó:     

i x i x y i y n

y

1

1 1 ,

cov

Phương sai và đồng phương sai: hình học

Sự độc lập hoặc phụ thuộc giữa x và y có thể biểu diễn như

sau:

8

y

x

h

h2= x2+ y2

x

y h

h2= x2+ y2– 2xycos(H)

H

Ý nghĩa của phương sai và đồng phương sai

Phương sai luôn luôn dương

Nếu đồng phương sai= 0, x và y độc lập.

Đồng phương sai là tổng của các sản phẩm: có thể

âm hoặc dương

Đồng phương sai âm= độ lệch trong 2 phân phối

theo hai hướng ngược nhau, ví dụ sai khác về gen

Đồng phương sai dương = độ lệch trong 2 phân

phối cùng hướng

Đồng phương sai= đo độ mạnh của sự liên hệ

9

Trang 4

Đồng phương sai và tương quan

Đông phương sai là đơn vị độc lập

Hệ số tương quan (r) giữa x và y là đồng phương sai chuẩn.

r được xác định như sau:

10

y

x SD SD y x y x

y x r

var var

, cov

Hệ số tương quan dương và âm

11

x

x

Kiểm định về giả thiết tương quan

 Giả thiết: H o: r = 0 đối giả thiết Ho: r không bằng 0.

Sai số chuẩn của r là:

 Kiểm định t:

12

2

1

2

r

n

r

t

• Kiểm định này có phân phối t với bậc tự do, df=n-2

• Chuyển sang số z:

• Sai số chuẩn của z:

• 95% mức độ tin cậy của z có thể được xây dựng

 

2

n r r SE

r r z

1 1 ln 2 1

 

3 1

n z SE

3

1

n z

Trang 5

Ví dụ về phân tích hệ số tương quan

ID Age Cholesterol

(x) (y; mg/100ml)

1 46 3.5

2 20 1.9

3 52 4.0

4 30 2.6

5 57 4.5

6 25 3.0

7 28 2.9

8 36 3.8

9 22 2.1

10 43 3.8

11 57 4.1

12 33 3.0

13 22 2.5

14 63 4.6

15 40 3.2

16 48 4.2

17 28 2.3

18 49 4.0

13

Cov(x, y) = 10.68

  0.94

84 0 60 13 68 10 , cov

y

x SD SD y r

56 0 94 0 1 94 0 1 ln 2 1

z

  0 26

15 1 3 1

n z SE

t-statistic = 0.56 / 0.26 = 2.17 Giá trị với n-2=16, alpha = 5% ta có 2.11 Kết luận: Có sự liên hệ có ý nghĩa giữa tuổi cà hàm lượng cholesterol.

Phân tích hồi quy đơn giản

Đánh giá:

 Định tính mối quan hệ giữa 2 biến

Dự đoán

 Dự đoán và đánh giá kiểm định

Kiểm soát

 Điều chỉnh vì hiệu ứng phức tạp (trong trường hợp nhiều biến)

14

• Chỉ có 2 biến quan tâm: một biến trả lời, 2 là biến dự đoán

• Không cần điều chỉnh những biến khó (No adjustment is

needed for confounding or covariate)

Mối quan hệ giữa độ tuổi và hàm lượng cholesterol

15

Trang 6

Hồi quy tuyến tính: Mô hình

Y : biến ngẫu nhiên đại diện cho biến trả lời

X : biến ngẫu nhiên đại diện cho biến dự đoán (dự

đoán, yếu tố rủi ro)

liên tục( trứng, tuổi)

biến liên tục thì mô hình hồi quy tuyến tính đơn giản

Mô hình

Y = a + bX + e

a : intercept

b : slope / gradient

: random error (variation between subjects in y even if x is constant,

e.g., variation in cholesterol for patients of the same age.)

16

Hồi quy tuyến tính: giả thiết

X được đo lường không có sai số;

;

không và phương sai là hằng số.

17

Giá trị kỳ vọng và phương sai

Nếu giả thiết là hợp lý:

Giá trị kỳ vọng của Y là: E(Y | x) = a + bx

Phương sai Y is: var(Y) = var(e) = s2

18

Trang 7

Ước lượng mô hình tham số

19

Cho 2 điểm A(x1, y1) và B(x2, y2) trong không gian 2 chiều, chúng

ta có thể đưa ra một phương trình nối các điểm

A(x1,y1)

B(x2,y2)

Gradient:

1 2 1 2

x x y y dx dy m

Equation: y = mx + a

Điều gì xẩy ra nếu có nhiều hơn 3 điểm

a

x

y

0

dy

dx

Ước lượng a and b

Cho n cặp số: (x1, y1), (x2, y2), (x3, y3), …, (xn, yn)

Đặt a và b là ước lượng mẫu cho tham số a và b,

Phương trình mẫu: Y * = a + bx

nhỏ nhất

ước lượng bình phương cực tiểu.

20

Tiêu chuẩn ước lượng

21

Chol

Age

i

i a bx

y  ˆ

i

i y y

d  ˆ

yi

Mục tiêu của ước lượng bình phương cực tiểu là tìm giá trị a và b để d2 là nhỏ nhất.

Trang 8

Ước lượng giá trị của a và b

Sau một số công thức tính toán, kết quả thu được như

sau:

22

xx

xy S

S

b  x y

S

1 2

n

S

1 Trong đó:

When the regression assumptions are valid, the estimators of a and b

have the following properties:

– Unbiased

– Uniformly minimal variance (eg efficient)

Goodness-of-fit

Bây giờ, ta có phương trình Y = a + bX + e

Câu hỏi:: Làm cách nào biết phương trình hồi quy mô

tả đúng số liệu?

Trả lời: Hệ số xác định (R2): tổng số sự khác biệt ở Y

được giải thích do sự khác biệt ở X

23

Mô tả sự sai khác: các khái niệm

SST = Sum of squared difference between yiand the mean

of y

SSR = sum of squared difference between the predicted

value of y and the mean of y

SSE = sum of squared difference between the observed

and predicted value of y

SST = SSR + SSE

Hệ số xác định R2là:

R2= SSR / SST

24

Trang 9

Mô tả sự sai khác: Hình học

25

Chol (Y)

Age (X)

mean SSR

SSE

SST

Mô tả sự sai khác: Đại số

26

• Một số đại lương thống kê:

• Tổng bình phương phương sai:

• Tổng bình phương phương sai:

của mô hình

• Tổng bình phương sai số:

• Trong đó

• SST = SSR + SSE

• SSR = SST – SSE

n

SST

1

2

y y SSR

1

2

ˆ

n

y y SSE

1

2

ˆ

Phân tích phương sai

SS tăng theo tỉ lệ đối với kích thước mẫu (n)

Bình phương trung bình (MS): chuẩn hóa theo bậc tự do (df )

MSR = SSR / p ( với p = số bậc tự do)

MSE = SSE / (n – p – 1)

MST = SST / (n – 1)

27

• Bảng phân tích phương sai (ANOVA) :

Nguồn gốc

phương sai

Bậc tụ

do

(d.f)

Sum of squares (SS)

Mean squares (MS) F-test

Hồi quy

Phần dư

Tổng

p

N–p –1

n – 1

SSR SSE SST

MSR MSE MSR/MSE

Trang 10

Lưu ý: Báo cáo kết quả

Các kết quả nên báo cáo đầy đủ các chi tiết: bản chấn của

biến trả lời, biến dự đoán, bất cứ sự chuyển thể nào, kiểm

tra giả thiết, etc

Hệ số hồi quy (a, b), sai số chuẩn và R2là những tóm tắt

hữu dụng

28

Lưu ý

Các phương trình là nền tảng cho mối liên hệ về kết

quả trả lời (Equations are the cornerstone on which

the edifice of science rests)

Phương trình giống như bài thơ, đôi khi là củ hành

Vì thế cẩn thận khi xây dựng phương trình!

29

Kiểm định giả thiết trong phân tích hồi quy

Ta có

Tập hợp: Y = a + bX + e

Ho: b = 0 Không có sự liên hệ giữa biến kết quả X và

biến dự đoán (Y)

Nói theo ngôn ngữ bình dân: “what is the chance, given

the sample data that we observed, of observing a

sample of data that is less consistent with the null

hypothesis of no association?”

30

Trang 11

Suy diễn về độ dốc (tham số b)

Kỳ vọng của giá trị b là b, ví dụ E(b) = b,

Sai số chuẩn của b là:

phân phối t với bậc tự do là n-1

31

SE  /

Khoảng tin cậy quanh giá trị dự đoán

Giá trị quan sát là Y i

Giá trị dự đoán là

Sai số chuẩn của giá trị tiên đoán là:

32

Khoảng ước lượng của giá trị Y i

xx

i i

S

x x n s Y

SE

2 1

1

  ˆ  1,1 /2

ˆ

Y

i

Y ˆ  

Kiểm tra giả thiết

Kiểm tra sự ổn định phương sai

Kiểm tra phân phối chuẩn

Tính chính xác của hàm số

Sự ổn định của mô hình

Tất cả có thể tiến hành bởi phân tích đồ thị Giá trị

phần dư từ mô hình hoặc đồ thị phần dư đóng vai trò

quan trọng trong tất cả các quy trình phân tích

33

Trang 12

Kiểm tra giả thiết

Kiểm tra về phương sai (constant)

 Plot the studentized residuals versus their predicted values

Examine whether the variability between residuals remains

relatively constant across the range of fitted values.

Assumption of normality

 Plot the residuals versus their expected values under normality

(Normal probability plot) If the residuals are normally distributed,

it should fall along a 45 o line.

Correct functional form?

 Plot the residuals versus fitted values Examine whether the

residual plot for evidence of a non-linear trend in the value of the

residual across the range of fitted values.

Model stability

 Check whether one or more observations are influential Use

Cook’s distance.

34

Checking assumptions (Cont)

Cook’s distance (D) is a measure of the magnitude

by which the fitted values of the regression model

change if the ith observation is removed from the data

set

Leverage is a measure of how extreme the value of x i

is relative to the remaining value of x

The Studentized residual provides a measure of

how extreme the value of yiis relative to the

remaining value of y

35

Đo lường sự chính xác

Non-constant variance

logarithm) is often helpful.

problem, use a more robust estimator such as iterative weighted

least squares.

Non-normality

Outliers

36

Trang 13

Regression analysis using R

id <- seq(1:18)

age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22,

43, 57, 33, 22, 63, 40, 48, 28, 49)

chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1,

3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)

#Fit linear regression model

reg <- lm(chol ~ age)

summary(reg)

37

ANOVA result

> anova(reg)

Analysis of Variance Table

Response: chol

Df Sum Sq Mean Sq F value Pr(>F)

age 1 10.4944 10.4944 114.57 1.058e-08 ***

Residuals 16 1.4656 0.0916

-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

38

Results of R analysis

39

> summary(reg)

Call:

lm(formula = chol ~ age)

Residuals:

Min 1Q Median 3Q Max

-0.40729 -0.24133 -0.04522 0.17939 0.63040

Coefficients:

Estimate Std Error t value Pr(>|t|)

(Intercept) 1.089218 0.221466 4.918 0.000154 ***

age 0.057788 0.005399 10.704 1.06e-08 ***

-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3027 on 16 degrees of freedom

Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698

F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08

Trang 14

Diagnostics: influential data

40

par(mfrow=c(2,2))

plot(reg)

2.5 3.0 3.5 4.0 4.5

Fitted values

Residua ls vs F itte d 8 6

1 7

-2 -1 0 1 2

Theoretic al Quantiles

No rmal Q-Q 8 6

17

2.5 3.0 3.5 4.0 4.5

Fitted values

Scale-Loca tion 8 6

1 7

0.00 0.05 0.10 0.15 0.20 0.25

Leverage

Cook's distance 0 5

0 5 1

Re sid uals vs Levera ge

6

2 8

A non-linear illustration: BMI and sexual attractiveness

Study on 44 university students

Measure body mass index (BMI)

Sexual attractiveness (SA) score

41

id <- seq(1:44)

bmi <- c(11.00, 12.00, 12.50, 14.00, 14.00, 14.00, 14.00,

14.00, 14.00, 14.80, 15.00, 15.00, 15.50, 16.00,

16.50, 17.00, 17.00, 18.00, 18.00, 19.00, 19.00,

20.00, 20.00, 20.00, 20.50, 22.00, 23.00, 23.00,

24.00, 24.50, 25.00, 25.00, 26.00, 26.00, 26.50,

28.00, 29.00, 31.00, 32.00, 33.00, 34.00, 35.50,

36.00, 36.00)

sa <- c(2.0, 2.8, 1.8, 1.8, 2.0, 2.8, 3.2, 3.1, 4.0, 1.5,

3.2, 3.7, 5.5, 5.2, 5.1, 5.7, 5.6, 4.8, 5.4, 6.3,

6.5, 4.9, 5.0, 5.3, 5.0, 4.2, 4.1, 4.7, 3.5, 3.7,

3.5, 4.0, 3.7, 3.6, 3.4, 3.3, 2.9, 2.1, 2.0, 2.1,

2.1, 2.0, 1.8, 1.7)

Linear regression analysis of BMI and SA

42

reg <- lm (sa ~ bmi)

summary(reg)

Residuals:

Min 1Q Median 3Q Max

-2.54204 -0.97584 0.05082 1.16160 2.70856

Coefficients:

Estimate Std Error t value Pr(>|t|)

(Intercept) 4.92512 0.64489 7.637 1.81e-09 ***

bmi -0.05967 0.02862 -2.084 0.0432 *

-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 1.354 on 42 degrees of freedom

Multiple R-Squared: 0.09376, Adjusted R-squared: 0.07218

F-statistic: 4.345 on 1 and 42 DF, p-value: 0.04323

Trang 15

BMI and SA: analysis of residuals

43

plot(reg)

3.0 3.5 4.0

Fitted values

Residua ls vs F itte d 21

10 20

-2 -1 0 1 2

Theoretic al Quantiles

No rmal Q-Q

2 1

10

2 0

3.0 3.5 4.0

Fitted values

Scale-Loca tion 21

0.00 0.02 0.04 0.06 0.08 0.10 0.12

Leverage

Cook's distance

Re sid uals vs Levera ge

1

1 0

BMI and SA: a simple plot

44

par(mfrow=c(1,1))

reg <- lm(sa ~ bmi)

plot(sa ~ bmi, pch=16)

abline(reg)

bmi

Re-analysis of sexual attractiveness data

# Fit 3 regression models

linear <- lm(sa ~ bmi)

quad <- lm(sa ~ poly(bmi, 2))

cubic <- lm(sa ~ poly(bmi, 3))

# Make new BMI axis

bmi.new <- 10:40

# Get predicted values

quad.pred <- predict(quad,data.frame(bmi=bmi.new))

cubic.pred <- predict(cubic,data.frame(bmi=bmi.new))

# Plot predicted values

abline(reg)

lines(bmi.new, quad.pred, col="blue",lwd=3)

lines(bmi.new, cubic.pred, col="red",lwd=3)

45

Trang 16

b mi

Some comments:

Interpretation of correlation

Correlation lies between –1 and +1 A very small correlation

does not mean that no linear association between the two

variables The relationship may be non-linear

For curlinearity, a rank correlation is better than the

Pearson’s correlation

A small correlation (eg 0.1) may be statistically significant,

but clinically unimportant

R2is another measure of strength of association An r = 0.7

may sound impressive, but R2is 0.49!

Correlation does not mean causation

47

Some comments:

Interpretation of correlation

Be careful with multiple correlations For p variables, there are

p(p – 1)/2 possible pairs of correlation, and false positive is a

problem

Correlation can not be inferred directly from association

r(age, fat) is near zero

48

Trang 17

Some comments: Interpretation of regression

The fitted line (regression) is only an estimated of the

relation between these variables in the population

Uncertainty associated with estimated parameters

Regression line should not be used to make prediction

of x values outside the range of values in the observed

data

A statistical model is an approximation; the “true”

relation may be nonlinear, but a linear is a reasonable

approximation

49

Lưu ý: Báo cáo kết quả

Các kết quả nên báo cáo đầy đủ các chi tiết: bản chấn của

biến trả lời, biến dự đoán, bất cứ sự chuyển thể nào, kiểm

tra giả thiết, etc

Hệ số hồi quy (a, b), sai số chuẩn và R2là những tóm tắt

hữu dụng

50

Lưu ý

Các phương trình là nền tảng cho mối liên hệ về kết

quả trả lời (Equations are the cornerstone on which

the edifice of science rests)

Phương trình giống như bài thơ, đôi khi là củ hành

Vì thế cẩn thận khi xây dựng phương trình!

51

Ngày đăng: 12/10/2015, 19:21

TỪ KHÓA LIÊN QUAN