1. Trang chủ
  2. » Giáo án - Bài giảng

Chương 6 Thống kê sinh học

11 572 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 677,17 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Biểu đồ tương quan 18/11/2011 Biostatistics - Bùi Tấn Anh 2 PHÂN TÍCH HỒI QUY • Khái niệm: – Phân tích hồi qui là nghiên cứu sự phụ thuộc của một biến biến phụ thuộc vào một hay nhiều b

Trang 1

Nội dung

1 PHÂN TÍCH HỒI QUY

1 Hồi quy đơn (Simple linear regression)

2 Hồi quy bội (Multiple regression)

3 Hồi quy đa thức (Polynomial regression)

4 Xây dựng mô hình tuyến tính từ nhiều biến

2 PHÂN TÍCH TƯƠNG QUAN

1 Hệ số tương quan (Correlation coefficient)

2 Biểu đồ tương quan

18/11/2011 Biostatistics - Bùi Tấn Anh 2

PHÂN TÍCH HỒI QUY

• Khái niệm:

– Phân tích hồi qui là nghiên cứu sự phụ thuộc của

một biến (biến phụ thuộc) vào một hay nhiều biến

khác (biến độc lập)

• Mục đích:

– ước lượng (hay dự đoán) giá trị trung bình của

biến phụ thuộc trên cơ sở các giá trị đã biết của

biến độc lập.

18/11/2011 Biostatistics - Bùi Tấn Anh 3

Hồi quy đơn (Simple linear regression)

• Hàm hồi quy:

y = 0 +  1x

trong đó – b0(intercept) được gọi là tung độ góc = hệ số chặn

(giá trị lúc xi= 0) – b1(slope) được gọi là độ dốc

– x là biến độc lập (còn gọi là predictors) – y là biến phụ thuộc (còn gọi là response).

18/11/2011 Biostatistics - Bùi Tấn Anh 4

• Các tham số 0và 1có thể được ước lượng từ

hai điểm bất kỳ, chẳng hạn (x1, y1) và (x2, y2):

0 y1 1 1x y2 1x2

1

Trang 2

Hồi quy đơn (Simple linear regression)

• Thí dụ: trọng lượng (kg) và tuổi (tháng) của 7

con bê

18/11/2011 Biostatistics - Bùi Tấn Anh 7

Tuổi (x) Trọng lượng (y)

0

2

3

4

6

8

12

18 32 64 45 91 127 164

Hồi quy đơn (Simple linear regression)

• Biểu đồ phân tán (scatter plot) cho thấy giữa trọng lượng và tuổi có mối tương quan tuyến tính dương

18/11/2011 Biostatistics - Bùi Tấn Anh 8

Hồi quy đơn (Simple linear regression)

• Mô hình:

Trọng lượng = 0 + 1*Tuổi + ei

Dữ liệu = [Thành phần tuyến tính] + [Sai số]

• trong đó các dữ liệu có dạng

(x1, y1), (x2, y2), , (xn, yn)

18/11/2011 Biostatistics - Bùi Tấn Anh 9

Hồi quy đơn (Simple linear regression)

• Các giả định (Assumptions):

– dữ liệu có phân bố chuẩn – phương sai không đổi (s 2 ) – mô hình tuyến tính là đúng:

y i ~ N(0+ 1x i, s2) hoặc ei~ N(0, s2)

• Như vậy với mỗi giá trị xác định của x, y sẽ có

phân bố chuẩn với:

– trung bình là 0+ 1x i

– phương sai là s 2

18/11/2011 Biostatistics - Bùi Tấn Anh 10

• Nếu gọi ước lượng của 0là b0và ước lượng của

1là b1thì mô hình hiệu chỉnh sẽ là:

• Sai số là:

• Phương pháp thường dùng nhất là chọn các giá trị của b0và b1sao cho tổng bình phương sai số (SSE) là nhỏ nhất Phương pháp này được gọi là

ước lượng bình phương tối thiểu (least square estimates)

0 1

ˆ ii

0 1

ˆ

Trang 3

Ước lượng các tham số

18/11/2011 Biostatistics - Bùi Tấn Anh 13

y

x

y1

y2

y3 y 4

y5

res5

18/11/2011 Biostatistics - Bùi Tấn Anh 14

• Để tổng bình phương sai số là nhỏ nhất, ta chọn:

ˆ

1 1

2

1

n

i n i i

b

0  1

18/11/2011 Biostatistics - Bùi Tấn Anh 15

b1= 1261/98 = 12.867

b0= 77.286 – 12.867*5.00 = 12.94

Tuổi (x i ) Trọng lượng (y i ) X ix ix Y iy iy 2

i

i

0

2

3

4

6

8

12

18

32

64

45

91

127

164

–5 –3 –2 –1

1

3

7

–59.29 –45.29 –13.29 –32.29 13.71 49.71 86.71

25

9

4

1

1

9

49

3,514.80 2,050.80 176.51 1,042.37 188.08 2,471.51 7,519.37

296.43 135.86 26.57 32.29 13.71 149.14 607.00

35 541 0 0.00 98 16,963.43 1,261.00

5.00

18/11/2011 Biostatistics - Bùi Tấn Anh 16

• Phương trình hồi quy:

• Tung độ góc: b0= 12.95 (khi x = 0)

• Độ dốc: b1= 12.87

• Giá trị hiệu chỉnh là trọng lượng trung bình của

bê được ước lượng cho một độ tuổi nhất định

• Thí dụ: một con bê 10 tháng tuổi sẽ có trọng lượng trung bình được ước lượng là:

12.95 + 12.87*10 = 141.62 kg

ˆ12.95 12.87

• Ước lượng của s2là s 2( )

s 2 = SSE/(n-2)

=

• Trong thí dụ trên: s 2= 737.70/5 = 147.54

và s = 12.15 kg

2

Y X

s

2

1 ˆ

2

n

i

y y n

Kiểm định giả thuyết

• Tung độ góc (Intercept)

H 0 : b0= 0 (đường thẳng hồi quy đi qua trục tung)

H 1 : b0≠ 0

• Độ dốc (Slope)

H 0 : b1= 0 (không có tương quan tuyến tính)

H 1 : b1≠ 0

Trang 4

Kiểm định tung độ góc

18/11/2011 Biostatistics - Bùi Tấn Anh 19

0

0

( )

b

t

se b

2 1

1

n i i n i i

x

df = n – 2

• Trong thí dụ trên:

• t = 12.95/7.66 = 1.69 với df = 7 – 2 = 5

• P-value: P = 2*P (T5> 1.69) = 0.15 > 0.05 Không thể bác bỏ H0 đường thẳng hồi quy

đi qua trục tung

18/11/2011 Biostatistics - Bùi Tấn Anh 20

0

273

7 *98

Kiểm định độ dốc

18/11/2011 Biostatistics - Bùi Tấn Anh 21

df = n – 2

1

1

( )

b

t

se b

1

2 1

( )

n

i i

s

se b

• Trong thí dụ trên:

• t = 12.87/1.23 = 10.49 với df = 7 – 2 = 5

• P-value: P = 2*P (T5> 10.49) = 0.00 < 0.05 Bác bỏ H0 trọng lượng bê tăng có ý nghĩa theo độ tuổi

18/11/2011 Biostatistics - Bùi Tấn Anh 22

1

12.15

98

Bảng ANOVA

Nguồn

biến động

Tổng

Bình phương Độ tự do

Trung bình Bình phương

Residual SSE n – 2 MSE = SSE/(n – 2)

Total SST n – 1

Bảng ANOVA

• Trong thí dụ trên

Nguồn biến động

Tổng Bình phương Độ tự do

Trung bình Bình phương Regression 16,226 1 16,226 Residual 738 5 147.5 Total 16,964 6

Trang 5

Bảng ANOVA

18/11/2011 Biostatistics - Bùi Tấn Anh 25

• Trong hồi quy tuyến tính đơn, có một mối liên

hệ giữa t-test và F-test:

t2= F

• Tỉ lệ của biến thiên được giải thích bởi mô

hình:

2 Regression SS SSR

Áp dụng Minitab

18/11/2011 Biostatistics - Bùi Tấn Anh 26

• Nhập liệu:

Phân tích

18/11/2011 Biostatistics - Bùi Tấn Anh 27

1

Phân tích

18/11/2011 Biostatistics - Bùi Tấn Anh 28

• s = 12.1466 là sai số chuẩn của ước lượng (standard error of estimate

SSE

s = n-2

Trang 6

Giải thích

• Phương trình hồi qui đơn là :

y (trọng lượng) = 12.949 + 12.867 x (độ tuổi)

• Tỉ lệ của biến động chung của trọng lượng

theo độ tuổi là:

R-sq = RSS / TSS = 16226 / 16963 = 0.957

= 95.7%

được gọi là hệ số xác định R2(coefficient of

determination)

18/11/2011 Biostatistics - Bùi Tấn Anh 31

Giải thích

• R2= 95.7%, có nghĩa là phương trình tuyến tính giải thích khoảng 96% các khác biệt về trọng lượng giữa các độ tuổi

• Trị số R2có giá trị từ 0 đến 100% (hay 1)

• R2càng cao là một dấu hiệu cho thấy mối liên

hệ giữa hai biến số độ tuổi và trọng lượng càng chặt chẽ

18/11/2011 Biostatistics - Bùi Tấn Anh 32

Giải thích

• R-sq (adj) = Adjusted R squared = hệ số xác

định hiệu chỉnh Đây là hệ số cho ta biết mức

độ cải tiến của phương sai sai số (residual

variance) do yếu tố độ tuổi có mặt trong mô

hình tuyến tính

18/11/2011 Biostatistics - Bùi Tấn Anh 33

R-sq(adj) = 1 (1 R )

n 1 k

 

Biểu đồ

18/11/2011 Biostatistics - Bùi Tấn Anh 34

Trang 7

Biểu đồ

18/11/2011 Biostatistics - Bùi Tấn Anh 37

Thí dụ 2

• Khi nuôi loài bọ cánh cứng Tribolium confusum ở môi trường có độ ẩm khác nhau,

người ta nhận thấy trọng lượng chúng bị giảm

do sự mất nước

• 25 con bọ được chia thành 9 nhóm Lượng nước bị mất (mg) được ghi nhận ở mỗi nhóm sau 6 tuần nuôi (không cho ăn) như bảng bên dưới

• Liệu sự mất nước có liên quan gì đến độ ẩm môi trường hay không?

18/11/2011 Biostatistics - Bùi Tấn Anh 38

18/11/2011 Biostatistics - Bùi Tấn Anh 39

độ ẩm tương đối Giảm trọng

Biểu đồ

18/11/2011 Biostatistics - Bùi Tấn Anh 40

Kết quả phân tích hồi qui

Predictor Coef SE Coef T P

Constant 8.6665 0.1844 46.99 0.000

X -0.052676 0.003135 -16.80 0.000

S = 0.285635 R-Sq = 97.6% R-Sq(adj) = 97.2%

• Dựa trên các kết quả thu được sau khi phân tích hãy

thiết lập phương trình hồi quy, rút ra các nhận xét và

kết luận Từ phương trình hồi quy, hãy ước lượng

xem bọ sẽ bị mất bao nhiêu mg khi độ ẩm tương đối

là 50%.

Hồi qui bội

• Phương trình hồi qui:

Ŷ = a + b 1 x 1 + b 2 x 2 + + b k x k + e i

• Các hệ số b1, b2, bktrong phương trình hồi

quy bội được gọi là độ dốc từng phần (partial slope)

Trang 8

Hồi qui bội

Thí dụ 1:

• Bảng dưới đây là kết quả nghiên cứu của một

nhà hoá học về sự giảm khối lượng (y) của một

hợp chất theo thời gian tiếp xúc với không khí

(x1) và độ ẩm của môi trường (x2)

18/11/2011 Biostatistics - Bùi Tấn Anh 43 18/11/2011 Biostatistics - Bùi Tấn Anh 44

Sự giảm khối lượng (pound) Thời gian (giờ) Độ ẩm tương đối

4.3 5.5 6.8 8.0 4.0 5.2 6.6 7.5 2.0 4.0 5.7 6.5

4

5

6

7

4

5

6

7

4

5

6

7

0.2 0.2 0.2 0.2 0.3 0.3 0.3 0.3 0.4 0.4 0.4 0.4

Kết quả phân tích bằng Minitab

• The regression equation is

Khối lượng = 0.667 + 1.32 Thời gian - 8.00 Độ ẩm

Predictor Coef SE Coef T P

Constant 0.6667 0.6942 0.96 0.362

Thời gian 1.31667 0.09981 13.19 0.000

Độ ẩm -8.000 1.367 -5.85 0.000

S = 0.386580 R-Sq = 95.9% R-Sq(adj) = 94.9%

18/11/2011 Biostatistics - Bùi Tấn Anh 45

Kết quả phân tích bằng Minitab

• Hãy dự đoán xem khối lượng của hợp chất bị giảm bao nhiêu khi thời gian tiếp xúc với không khí là 6.5 giờ và độ ẩm tương đối của môi trường là 0.35

18/11/2011 Biostatistics - Bùi Tấn Anh 46

Thí dụ 2

• Dưới đây là kết quả nghiên cứu của Woods,

Steinour & Starke về lượng nhiệt phát ra khi

cho tác dụng giữa bột hàn răng với bốn loại

hóa chất:

– X1= tricalcium aluminate

– X2= tricalcium silicate

– X3= tetracalcium aluminoferrite

– X4= beta-dicalcium silicate

Trang 9

Hồi qui đa thức

• Phương trình hồi qui:

Ŷ = a + bX + cX 2 + dX 3 +

• Khi X và Y có mối liên hệ phụ thuộc bậc 2:

Ŷ = a + bX + cX 2

• Khi X và Y có mối liên hệ phụ thuộc bậc 3:

Ŷ = a + bX + cX 2 + dX 3

18/11/2011 Biostatistics - Bùi Tấn Anh 49

Hồi qui đa thức bậc 2

• Để nghiên cứu về khả năng sinh sản của châu chấu, một nhà côn trùng học thí nghiệm trên một mẫu gồm 30 châu chấu cái Chỉ tiêu nghiên cứu là trọng lượng con cái (g) và số lượng trứng do mỗi con đẻ ra

• Dữ liệu được ghi nhận trong bảng sau:

18/11/2011 Biostatistics - Bùi Tấn Anh 50

18/11/2011 Biostatistics - Bùi Tấn Anh 51

SL trứng TL con cái SL trứng TL con cái

Hồi qui đa thức bậc 3

18/11/2011 Biostatistics - Bùi Tấn Anh 52

Mẫu Hàm lượng gỗ cứng (x) Độ căng (y)

1

3

4

6

7

9

10

11

13

14

16

18

19

1.0 2.0 3.0 4.5 5.0

6.0

7.0 9.0 10.0

12.0 14.0 15.0

6.3 11.1

24.0 30.0 33.8

38.1 42.0 46.1

52.0

48.0 27.8 21.9

Hồi quy phi tuyến (Nonlinear Regression)

• Ngoài các dạng hồi quy tuyến tính như đã trình

bày ở trên, trong thực tế nghiên cứu ta còn gặp

phải nhiều dạng liên hệ phi tuyến

• Trong trường hợp này, trước tiên ta phải

chuyển chúng thành các dạng liên hệ tuyến

tính để phân tích và tính các hệ số

• Trong một số trường hợp sau đó phải chuyển

về biến số thực để thiết lập phương trình hồi

quy phi tuyến chính tắc

Hồi quy phi tuyến (Nonlinear Regression)

• Thí dụ: Y = a + ebX

• Có thể tuyến tính hóa bằng cách chuyển dạng biến phụ thuộc Y thành Ln Y Do đó phương trình tuyến tính có dạng là:

Y' = a' + b X – trong đó Y' = Ln Y và a' = Ln a

Trang 10

Thí dụ

• Tương quan giữa tỉ lệ triền quang (Y) và chỉ số

diện tích lá (X) ở giống lúa IR8 được ghi nhận

trong bảng dưới đây (theo Gomez, 1987)

18/11/2011 Biostatistics - Bùi Tấn Anh 55

Tương quan giữa tỉ lệ triền quang và chỉ số diện tích lá.

18/11/2011 Biostatistics - Bùi Tấn Anh 56

75.0 1 72.0 1 42.0 2 29.0 3 27.0 3 10.0 5

2.0 10 1.0 10 0.9 12

Regression Analysis: LnY versus X

• The regression equation is

LnY = 4.46 - 0.403 X

Predictor Coef SE Coef T P

Constant 4.45789 0.07817 57.03 0.000

X -0.40342 0.01153 - 34.99 0.000

S = 0.152682 R-Sq = 99.2% R-Sq(adj) = 99.1%

18/11/2011 Biostatistics - Bùi Tấn Anh 57

• Từ kết quả trên ta có

• Dùng các kết quả này để lập phương trình phi tuyến chính tắc

18/11/2011 Biostatistics - Bùi Tấn Anh 58

12 10 8 6 4 2

0

80

70

60

50

40

30

20

10

0

X

Fitted Line Plot

Y = 89.6025 * exp(-0.403 * X)

Phân tích tương quan

• Hệ số tương quan (correlation coefficient) được dùng để đo mức độ liên hệ tuyến tính giữa hai biến

• Hệ số tương quan (HSTQ) có thể có giá trị nằm giữa -1 và +1

• Nếu một biến có xu hướng tăng trong khi biến kia lại giảm thì HSTQ có giá trị âm Ngược lại nếu cả hai biến cùng tăng thì HSTQ có giá trị dương

Trang 11

Hệ số tương quan (r)

• Stat > Basic Statistics > Correlation

• r = 0  không có mối tương quan tuyến tính

giữa x và y

• r = +1 hoặc –1  tương quan hoàn hảo 

đường thẳng

• r gần = +1 hoặc –1 cho thấy tương quan rất

chặt

• Tổng quát: Tương quan rất chặt khi r > 0 7

hoặc < –0.7

18/11/2011 Biostatistics - Bùi Tấn Anh 61

Biểu đồ tương quan

18/11/2011 Biostatistics - Bùi Tấn Anh 62

Ngày đăng: 06/10/2016, 23:32

HÌNH ẢNH LIÊN QUAN

Bảng ANOVA - Chương 6 Thống kê sinh học
ng ANOVA (Trang 4)
Bảng ANOVA - Chương 6 Thống kê sinh học
ng ANOVA (Trang 4)
Bảng ANOVA - Chương 6 Thống kê sinh học
ng ANOVA (Trang 5)
Hình tuyến  tính. - Chương 6 Thống kê sinh học
Hình tuy ến tính (Trang 6)

TỪ KHÓA LIÊN QUAN

w