1. Trang chủ
  2. » Giáo án - Bài giảng

Chuong 3 Thống kê sinh học

54 459 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 1,64 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thí dụ 1• Hãy xác định phân bố xác suất số bê cái được sinh ra trong ba lần đẻ liên tiếp.. • Thường được áp dụng trong các nghiên cứu về các dạng ung thư da, một số bệnh hiếm hoặc nghiên

Trang 3

Stat > Basic statistics > Graphical summary…

02/03/2012 Biostatistics - Bùi Tấn Anh 5

180 176 172 168 164

160

Median

Mean

171.0 170.5 170.0 169.5 169.0 168.5

168.0

1st Q uartile 166.83

M edian 170.25 3rd Q uartile 172.75

M aximum 181.00 169.23 170.90 168.25 171.20 3.70 4.89

A -S quared 0.39 P-V alue 0.369

M ean 170.06 StD ev 4.21

V ariance 17.75 Skew ness 0.157839 Kurtosis -0.405964

M inimum 160.30

A nderson-D arling N ormality Test

95% C onfidence Interv al for M ean 95% C onfidence Interv al for M edian 95% C onfidence Interv al for S tD ev

9 5 % C onfide nce Inte r v als

Summary for Height

Trang 4

Phân bố lệch dương

• Số tế bào trứng ở 100 con dê

02/03/2012 Biostatistics - Bùi Tấn Anh 7

1st Q uartile 2900.0

M edian 4500.0 3rd Q uartile 6675.0

M aximum 21400.0 4837.3 6264.7

A -S quared 3.78 P-V alue < 0.005

M ean 5551.0 StD ev 3597.0

V ariance 12938483.8 Skew ness 1.59382 Kurtosis 3.30152

M inimum 1200.0

A nderson-D arling N ormality Test

95% C onfidence Interv al for M ean 95% C onfidence Interv al for M edian

Summary for Oocysts

Trang 5

Nhận xét

• Kiểm định Anderson-Darling: P-value < 0.05

 Không có phân bố chuẩn.

• Phân bố có một đuôi dài lệch về phía bên phải

Giá trị skewness lớn (1.59)

• Trong box plot chiều dài các whisker không

bằng nhau, trung vị không nằm ở giữa box

• Có các giá trị ngoại lai (outliers) bên phải

Trang 6

Stat > Basic statistics > Graphical summary…

02/03/2012 Biostatistics - Bùi Tấn Anh 11

50 48

46 44

Median

Mean

48.0 47.8 47.6 47.4 47.2 47.0

1st Q uartile 47.000

M edian 48.000 3rd Q uartile 49.000

M aximum 50.000 47.370 47.990 47.000 48.000 1.372 1.815

A nderson-Darling Normality Test

95% C onfidence Interv al for M ean 95% C onfidence Interv al for M edian 95% C onfidence Interv al for StDev

9 5 % Confide nce Inter v als

Summary for Gene+

Nhận xét

• Kiểm định Anderson-Darling: P-value < 0.05

 Không có phân bố chuẩn.

• Phân bố có một đuôi dài lệch về phía bên trái

Giá trị skewness âm (- 0.62)

• Trong box plot chiều dài các whisker không

bằng nhau, trung vị không nằm ở giữa box

• Có các giá trị ngoại lai (outliers) bên trái

Trang 7

• Một phép thử chỉ có hai khả năng xảy ra:

“thành công” hoặc “thất bại”

– xác suất thành công là 

– xác suất thất bại là 1-

được gọi là phép thử Bernoulli

• Phân bố của số lần phép thử thành công được

gọi là phân bố nhị thức.

Trang 8

Thí dụ

• Tiếp xúc với hóa chất độc hại: có hoặc không

• Trả lời câu hỏi trắc nghiệm: đúng hoặc sai

• Kiểm tra chất lượng sản phẩm: đạt hoặc không

02/03/2012 Biostatistics - Bùi Tấn Anh 15

Trang 9

Trung bình và phương sai

Trang 11

10 5

Distribution Plot

Binomial, n=20

Trang 12

Thí dụ 1

• Hãy xác định phân bố xác suất số bê cái được

sinh ra trong ba lần đẻ liên tiếp Giả sử rằng

mỗi lần bò chỉ đẻ một con và xác suất sinh ra

bê cái trong mỗi lần đẻ là 0.5

02/03/2012 Biostatistics - Bùi Tấn Anh 23

Trang 13

Thí dụ 2

• Trong một quần thể heo tính mẫn cảm đối với một

bệnh được xác định bởi hai alleles: B and b Heo

có kiểu gen bb sẽ có bệnh, Bb và BB không bệnh

Tần số của allele B = b = 0.5 Hai con heo đều có

kiểu gen Bb giao phối với nhau và sinh ra một lứa

10 heo con Hãy tính:

a) Số heo con có khả năng mang bệnh

b) Xác xuất để không có heo con nào bệnh.

c) Xác suất để ít nhất có một heo con bị bệnh.

d) Xác suất để có đúng một nửa đàn heo bị bệnh.

02/03/2012 Biostatistics - Bùi Tấn Anh 25

Giải

• Tần số của allele B = b = 0.5

– Xác suất để heo con bệnh (bb) = (0.5)(0.5) = 0.25

– Xác suất để heo con không bệnh = 1 – 0.25 = 0.75

• Như vậy ta có thể tính dựa vào phân bố nhị

thức

với  = 0.25 và n = 10

Trang 15

Tổng quan

• Dùng cho các biến ngẫu nhiên rời rạc, xảy ra

không thường xuyên

• Thường được áp dụng trong các nghiên cứu về

các dạng ung thư da, một số bệnh hiếm hoặc

nghiên cứu về số lượng các yếu tố trong một

không gian nhỏ, chẳng hạn như số khuẩn lạc

trong một đĩa nuôi cấy

• Phân bố Poisson không chọn lọc mẫu có cỡ

mẫu n và chúng được dùng khi các biến cố xảy

ra ngẫu nhiên trong không gian hoặc thời gian

02/03/2012 Biostatistics - Bùi Tấn Anh 29

Hàm xác suất

• Số các biến cố xảy ra trong một khoảng thời

gian hoặc không gian cho trước

• Số các biến cố trung bình trên một đơn vị là .

• Hàm xác suất của phân bố Poisson:

Trang 16

Áp dụng Minitab

• Calc > Probability Distributions > Poisson

02/03/2012 Biostatistics - Bùi Tấn Anh 31

Áp dụng Minitab

Trang 17

02/03/2012 Biostatistics - Bùi Tấn Anh 33

Trung bình và Phương sai

Trang 18

Hình dạng

02/03/2012 Biostatistics - Bùi Tấn Anh 35

40 30

20 10

Distribution Plot

Poisson

Thí dụ 1

• Trong một nhà máy (có số công nhân ổn định),

số tai nạn lao động trung bình hàng năm là 5

Hãy tính xác suất để trong năm nay có:

a) đúng 7 tai nạn lao động

b) không có tai nạn nào

c) 10 hoặc nhiều hơn 10 tai nạn

d) ít hơn 5 tai nạn.

Trang 20

Thí dụ 2

• Trong một quần thể người hàng năm có trung

bình 13 trường hợp ung thư vòm họng được

phát hiện Tính xác suất để năm tới, số trường

hợp ung thư chẩn đoán được:

Trang 21

Tổng quan

• Dùng cho các biến ngẫu nhiên liên tục

• Thường được biểu hiện dưới dạng một hàm

qua đó có thể tính xác suất mà một biến nằm

2 2

s

Trang 22

Hàm xác suất

• Hàm phân bố tích luỹ (CDF) thể hiện xác

suất để X không vượt quá giá trị của x

• Hàm phân bố tích lũy có dạng:

02/03/2012 Biostatistics - Bùi Tấn Anh 43

2 2

2 2

1

2

x x

m s

suất mà biến ngẫu nhiên X nằm trong khoảng

giữa x1 và x2

• Tung độ của mỗi điểm trên đường cong gọi là

Trang 23

Hình dạng

• Theo tính chất toán học thì sự phân bố mẫu thí

nghiệm sẽ có:

– 68,26% dữ liệu nằm trong khoảng m  1s

– 95,46% dữ liệu nằm trong khoảng m + 2s

– 99,73% dữ liệu nằm trong khoảng m + 3s

02/03/2012 Biostatistics - Bùi Tấn Anh 45

Hàm mật độ xác suất

Trang 24

Hàm phân bố tích lũy

02/03/2012 Biostatistics - Bùi Tấn Anh 47

Hình dạng phân bố với các s khác nhau

Trang 25

Hình dạng phân bố với các m khác nhau

02/03/2012 Biostatistics - Bùi Tấn Anh 49

6 4

2 0

-2 -4

μ σ

phân bố qua trái hoặc phải

hoặc giảm độ phân tán.

Trang 26

Hàm mật độ của phân bố chuẩn

02/03/2012 Biostatistics - Bùi Tấn Anh 51

• Xét biến ngẫu nhiên X có phân phối chuẩn với

trung bình μ và phương sai σ2 , X~N(μ, σ2),

hàm phân phối của X là

x) P(X

x

x) P(X 

f(x)

Xác suất của phân bố chuẩn

• Đo bằng diện tích giới hạn bởi đường cong

chuẩn

) f(x ) f(x ) x X

Trang 27

Xác suất của phân bố chuẩn

02/03/2012 Biostatistics - Bùi Tấn Anh 53

) x P(X )

) x P(X )

Trang 28

Cách tính xác suất của phân bố chuẩn tắc

1 Vẽ đường cong phân bố cho thấy vùng cần

xác định

2 Tra bảng phân bố chuẩn tắc (phụ lục)

02/03/2012 Biostatistics - Bùi Tấn Anh 55

Pdf

( 0)

P Z 

Trang 29

02/03/2012 Biostatistics - Bùi Tấn Anh 57

Trang 31

02/03/2012 Biostatistics - Bùi Tấn Anh 61

Trường hợp các giá trị chưa được chuẩn hóa

• Tiến hành chuẩn hóa (tính z)

• Tính giống như trên

Trang 32

Thí dụ 1

• Xét một phân bố chuẩn với m = 20 và s = 2

Hãy tính xác suất để một số đo có giá trị < 23

Trang 33

• Data > Display data >/Columns, constants,

and matrices to display: K1

Trang 34

02/03/2012 Biostatistics - Bùi Tấn Anh 67

Trang 35

02/03/2012 Biostatistics - Bùi Tấn Anh 69

Kiểm tra phân bố chuẩn

• Dùng một trong ba phương pháp:

– Anderson-Darling: là phương pháp kiểm tra dựa

trên cơ sở ECDF (emperical cumulative

distribution function) Đây là phương pháp thường

được dùng nhất.

– Ryan-Joiner (tương tự như Shapiro-Wilk): là

phương pháp kiểm tra dựa trên cơ sở tương quan

(correlation).

– Kolmogorov-Smirnov: là phương pháp kiểm tra

Trang 36

Áp dụng Minitab

02/03/2012 Biostatistics - Bùi Tấn Anh 71

• Stat > Basic Statistics > Normality Test

• Qua biểu đồ xác suất (probability plot), dữ liệu

có phân bố chuẩn khi:

– Các điểm trên biểu đồ có dạng đường thẳng

– Các điểm trên biểu đồ tập trung sát đường thẳng

– Giá trị thống kê Anderson-Darling (AD) nhỏ

– Giá trị P (P-value) > a (thường a = 0.05)

Trang 37

Dữ liệu có phân bố chuẩn

02/03/2012 Biostatistics - Bùi Tấn Anh 73

185 180 175 170 165 160 155

N 100

A D 0.394 P-Value 0.369

Probability Plot for Normal Distributed Data

Dữ liệu có phân bố lệch âm

52 50

48 46

44 42

N 100

AD 2.323 P-Value <0.005

Probability Plot for Negatively Skewed Data

Trang 38

Dữ liệu có phân bố lệch dương

02/03/2012 Biostatistics - Bùi Tấn Anh 75

25000 20000 15000 10000 5000 0

N 100

AD 3.785 P-Value <0.005

Probability Plot for Positively Skewed Data

Chuyển dạng dữ liệu (Data transformation)

• Mục đích: đưa dữ liệu về phân bố chuẩn.

Trang 39

Thí dụ 1

02/03/2012 Biostatistics - Bùi Tấn Anh 77

12.0 9.6 7.2 4.8 2.4

Median

Mean

5.0 4.8 4.6 4.4 4.2 4.0

A nderson-D arling N ormality T est

M aximum 12.0000 95% C onfidence I nterv al for M ea n 4.4722

4.94

4.8878 95% C onfidence I nterv al for M edian 4.0000 5.0000 95% C onfidence Interv al for S tD ev 1.9769 2.2716

P -V alue < 0.005

M ea n 4.6800

S tD ev 2.1139

9 5 % C onf ide nce I nte r v a ls

Summary for Count

6 3

N 400

A D 4.938 P-Value

Probability Plot of Counts

Trang 40

A nderson-D arling N orm ality Test

V ariance 0.2540

S k ew ne ss -0.137839 Kurtosis -0.132102

M axim um 3.4641 95% C onfide nce I nte rv al f or M ean 2.0544

4 50

2.1535 95% C onfidence I nterv al for M edian

P -V alue < 0.005

M ean 2.1040

S tD ev 0.5040

Summary for SqrtCnt

Trang 41

A D 4.497 P-Value

Probability Plot for Square Root Count

Chuyển dạng loga

Trang 42

Chuyển dạng loga

02/03/2012 Biostatistics - Bùi Tấn Anh 83

2.4 2.0 1.6 1.2 0.8 0.4 0.0

Median

Mean

1.60 1.55 1.50 1.45 1.40

A nderson-D arling N orma lity T est

M a ximum 2.4849 95% C onfidence Interv al for M ean 1.3716

9.39

1.4752 95% C onfidence I nterv al for M edia n 1.3863 1.6094 95% C onfidence Interv al for S tD e v 0.4927 0.5662

P -V alue < 0 005

M e an 1.4234

S tD ev 0.5269

9 5 % C onf ide nce Inte r v a ls

Summary for LogCount

Trang 43

Thí dụ 2

02/03/2012 Biostatistics - Bùi Tấn Anh 85

25000 20000 15000 10000 5000 0

N 100

AD 3.785 P-Value <0.005

Probability Plot for Positively Skewed Data

Trang 44

Chuyển dạng căn bậc 2

02/03/2012 Biostatistics - Bùi Tấn Anh 87

140 120 100 80 60 40

Median

Mean

75.0 72.5 70.0 67.5 65.0

A nderson-D arling N orm ality T est

V a riance 490.039

S k ew ness 0.806398 Kurtosis 0.471601

M a ximum 146.287 95% C onfidence Interv a l for M e an 66.782

1.30

75.567 95% C onfide nce Inte rv al for M edian 63.624 73.659 95% C onfide nce Inte rv a l for S tD ev 19.436 25.716

P -V alue < 0.005

M e an 71.175

S tD ev 22.137

9 5 % C on fide nce In ter v als

Summary for SqrtOocy

A D 1.299 P-Value

Probability Plot of SqrtOocy

Trang 45

8 7

Trang 46

Tổng quan

• Từ một tổng thể có trung bình là m

– Tiếp tục lặp lại, ta sẽ có nhiều ước lượng khác

Mẫu 2 (n) Mẫu 3 (n)

Trang 47

02/03/2012 Biostatistics - Bùi Tấn Anh 93

Chọn mẫu có hoàn lại

• Các mẫu và trung bình mẫu (n = 2)

Lấy mẫu lần thứ hai

6,10 (8)

6,12 (9)

6,14 (10)

(7)

8,8 (8)

8,10 (9)

8,12 (10)

8,14 (11)

(8)

10,8 (9)

10,10 (10)

10,12 (11)

10,14 (12)

(9)

12,8 (10)

12,10 (11)

12,12 (12)

12,14 (13)

(10)

14,8 (11)

14,10 (12)

14,12 (13)

14,14 (14)

Trang 48

Hình dạng của phân bố

02/03/2012 Biostatistics - Bùi Tấn Anh 95

14 12

10 8

Trang 49

Trung bình và Phương sai mẫu

• Trung bình:

25025

= 10

• Phương sai

02/03/2012 Biostatistics - Bùi Tấn Anh 97

Chọn mẫu không hoàn lại

Trang 50

Trung bình và Phương sai mẫu

• Có thể bỏ qua hệ số này khi cở mẫu nhỏ hơn

nhiều so với kích thước tổng thể

• Trong thực tế, ở các tổng thể hữu hạn hệ số

này bị bỏ qua khi n/N ≤ 0.05.

Trang 51

Định lý giới hạn trung tâm

• Nếu một mẫu có kích cở n được chọn ngẫu

nhiên từ một tổng thể không phân bố chuẩn có

bố của mẫu sẽ có

– phương sai là

– xấp xỉ phân bố chuẩn khi cở mẫu lớn

02/03/2012 Biostatistics - Bùi Tấn Anh 101

• Độ lệch chuẩn (còn gọi là sai số chuẩn)

• Để cho

– sai số chuẩn giảm 1/2, cở mẫu (n) phải tăng 4 lần

– sai số chuẩn giảm 1/3, cở mẫu (n) phải tăng 9

lần…

Trang 52

Thí dụ

• Để khảo sát về thời gian mang thai của bò,

người ta chọn các mẫu (có cở mẫu n = 10)

Phân bố mẫu có:

– Trung bình = 285 ngày

• Cần chọn cở mẫu bằng bao nhiêu để có sai số

chuẩn không quá 1 ngày?

02/03/2012 Biostatistics - Bùi Tấn Anh 103

Trang 53

Nhận xét

Từ định lý giới hạn trung tâm:

• Nếu cở mẫu đủ lớn (n ≥ 30) thì phân bố của

trung bình mẫu sẽ là phân bố chuẩn bất kể qui

luật phân bố xác suất của tổng thể như thế nào

thì phân bố của trung bình mẫu cũng sẽ là phân

nhỏ

02/03/2012 Biostatistics - Bùi Tấn Anh 105

Vận dụng

• Trong một tổng thể lớn, chiều dài hộp sọ của

người có phân bố chuẩn với trung bình là

185.6 mm và độ lệch chuẩn là 12.7 mm

• Tính xác suất để một mẫu n =10 được chọn từ

tổng thể này có trung bình lớn hơn 190 mm

Ngày đăng: 06/10/2016, 23:30

HÌNH ẢNH LIÊN QUAN

Hình dạng - Chuong 3 Thống kê sinh học
Hình d ạng (Trang 11)
Hình dạng - Chuong 3 Thống kê sinh học
Hình d ạng (Trang 11)
Hình dạng - Chuong 3 Thống kê sinh học
Hình d ạng (Trang 18)
Hình dạng - Chuong 3 Thống kê sinh học
Hình d ạng (Trang 22)
Hình dạng phân bố với các s khác nhau - Chuong 3 Thống kê sinh học
Hình d ạng phân bố với các s khác nhau (Trang 24)
Hình dạng phân bố với các m khác nhau - Chuong 3 Thống kê sinh học
Hình d ạng phân bố với các m khác nhau (Trang 25)
Hình dạng của phân bố - Chuong 3 Thống kê sinh học
Hình d ạng của phân bố (Trang 48)
Hình dạng của phân bố - Chuong 3 Thống kê sinh học
Hình d ạng của phân bố (Trang 48)

TỪ KHÓA LIÊN QUAN

w