Thí dụ 1• Hãy xác định phân bố xác suất số bê cái được sinh ra trong ba lần đẻ liên tiếp.. • Thường được áp dụng trong các nghiên cứu về các dạng ung thư da, một số bệnh hiếm hoặc nghiên
Trang 3Stat > Basic statistics > Graphical summary…
02/03/2012 Biostatistics - Bùi Tấn Anh 5
180 176 172 168 164
160
Median
Mean
171.0 170.5 170.0 169.5 169.0 168.5
168.0
1st Q uartile 166.83
M edian 170.25 3rd Q uartile 172.75
M aximum 181.00 169.23 170.90 168.25 171.20 3.70 4.89
A -S quared 0.39 P-V alue 0.369
M ean 170.06 StD ev 4.21
V ariance 17.75 Skew ness 0.157839 Kurtosis -0.405964
M inimum 160.30
A nderson-D arling N ormality Test
95% C onfidence Interv al for M ean 95% C onfidence Interv al for M edian 95% C onfidence Interv al for S tD ev
9 5 % C onfide nce Inte r v als
Summary for Height
Trang 4Phân bố lệch dương
• Số tế bào trứng ở 100 con dê
02/03/2012 Biostatistics - Bùi Tấn Anh 7
1st Q uartile 2900.0
M edian 4500.0 3rd Q uartile 6675.0
M aximum 21400.0 4837.3 6264.7
A -S quared 3.78 P-V alue < 0.005
M ean 5551.0 StD ev 3597.0
V ariance 12938483.8 Skew ness 1.59382 Kurtosis 3.30152
M inimum 1200.0
A nderson-D arling N ormality Test
95% C onfidence Interv al for M ean 95% C onfidence Interv al for M edian
Summary for Oocysts
Trang 5Nhận xét
• Kiểm định Anderson-Darling: P-value < 0.05
Không có phân bố chuẩn.
• Phân bố có một đuôi dài lệch về phía bên phải
Giá trị skewness lớn (1.59)
• Trong box plot chiều dài các whisker không
bằng nhau, trung vị không nằm ở giữa box
• Có các giá trị ngoại lai (outliers) bên phải
Trang 6Stat > Basic statistics > Graphical summary…
02/03/2012 Biostatistics - Bùi Tấn Anh 11
50 48
46 44
Median
Mean
48.0 47.8 47.6 47.4 47.2 47.0
1st Q uartile 47.000
M edian 48.000 3rd Q uartile 49.000
M aximum 50.000 47.370 47.990 47.000 48.000 1.372 1.815
A nderson-Darling Normality Test
95% C onfidence Interv al for M ean 95% C onfidence Interv al for M edian 95% C onfidence Interv al for StDev
9 5 % Confide nce Inter v als
Summary for Gene+
Nhận xét
• Kiểm định Anderson-Darling: P-value < 0.05
Không có phân bố chuẩn.
• Phân bố có một đuôi dài lệch về phía bên trái
Giá trị skewness âm (- 0.62)
• Trong box plot chiều dài các whisker không
bằng nhau, trung vị không nằm ở giữa box
• Có các giá trị ngoại lai (outliers) bên trái
Trang 7• Một phép thử chỉ có hai khả năng xảy ra:
“thành công” hoặc “thất bại”
– xác suất thành công là
– xác suất thất bại là 1-
được gọi là phép thử Bernoulli
• Phân bố của số lần phép thử thành công được
gọi là phân bố nhị thức.
Trang 8Thí dụ
• Tiếp xúc với hóa chất độc hại: có hoặc không
• Trả lời câu hỏi trắc nghiệm: đúng hoặc sai
• Kiểm tra chất lượng sản phẩm: đạt hoặc không
02/03/2012 Biostatistics - Bùi Tấn Anh 15
Trang 9Trung bình và phương sai
Trang 1110 5
Distribution Plot
Binomial, n=20
Trang 12Thí dụ 1
• Hãy xác định phân bố xác suất số bê cái được
sinh ra trong ba lần đẻ liên tiếp Giả sử rằng
mỗi lần bò chỉ đẻ một con và xác suất sinh ra
bê cái trong mỗi lần đẻ là 0.5
02/03/2012 Biostatistics - Bùi Tấn Anh 23
Trang 13Thí dụ 2
• Trong một quần thể heo tính mẫn cảm đối với một
bệnh được xác định bởi hai alleles: B and b Heo
có kiểu gen bb sẽ có bệnh, Bb và BB không bệnh
Tần số của allele B = b = 0.5 Hai con heo đều có
kiểu gen Bb giao phối với nhau và sinh ra một lứa
10 heo con Hãy tính:
a) Số heo con có khả năng mang bệnh
b) Xác xuất để không có heo con nào bệnh.
c) Xác suất để ít nhất có một heo con bị bệnh.
d) Xác suất để có đúng một nửa đàn heo bị bệnh.
02/03/2012 Biostatistics - Bùi Tấn Anh 25
Giải
• Tần số của allele B = b = 0.5
– Xác suất để heo con bệnh (bb) = (0.5)(0.5) = 0.25
– Xác suất để heo con không bệnh = 1 – 0.25 = 0.75
• Như vậy ta có thể tính dựa vào phân bố nhị
thức
với = 0.25 và n = 10
Trang 15Tổng quan
• Dùng cho các biến ngẫu nhiên rời rạc, xảy ra
không thường xuyên
• Thường được áp dụng trong các nghiên cứu về
các dạng ung thư da, một số bệnh hiếm hoặc
nghiên cứu về số lượng các yếu tố trong một
không gian nhỏ, chẳng hạn như số khuẩn lạc
trong một đĩa nuôi cấy
• Phân bố Poisson không chọn lọc mẫu có cỡ
mẫu n và chúng được dùng khi các biến cố xảy
ra ngẫu nhiên trong không gian hoặc thời gian
02/03/2012 Biostatistics - Bùi Tấn Anh 29
Hàm xác suất
• Số các biến cố xảy ra trong một khoảng thời
gian hoặc không gian cho trước
• Số các biến cố trung bình trên một đơn vị là .
• Hàm xác suất của phân bố Poisson:
Trang 16Áp dụng Minitab
• Calc > Probability Distributions > Poisson
02/03/2012 Biostatistics - Bùi Tấn Anh 31
Áp dụng Minitab
Trang 1702/03/2012 Biostatistics - Bùi Tấn Anh 33
Trung bình và Phương sai
Trang 18Hình dạng
02/03/2012 Biostatistics - Bùi Tấn Anh 35
40 30
20 10
Distribution Plot
Poisson
Thí dụ 1
• Trong một nhà máy (có số công nhân ổn định),
số tai nạn lao động trung bình hàng năm là 5
Hãy tính xác suất để trong năm nay có:
a) đúng 7 tai nạn lao động
b) không có tai nạn nào
c) 10 hoặc nhiều hơn 10 tai nạn
d) ít hơn 5 tai nạn.
Trang 20Thí dụ 2
• Trong một quần thể người hàng năm có trung
bình 13 trường hợp ung thư vòm họng được
phát hiện Tính xác suất để năm tới, số trường
hợp ung thư chẩn đoán được:
Trang 21Tổng quan
• Dùng cho các biến ngẫu nhiên liên tục
• Thường được biểu hiện dưới dạng một hàm
qua đó có thể tính xác suất mà một biến nằm
2 2
s
Trang 22Hàm xác suất
• Hàm phân bố tích luỹ (CDF) thể hiện xác
suất để X không vượt quá giá trị của x
• Hàm phân bố tích lũy có dạng:
02/03/2012 Biostatistics - Bùi Tấn Anh 43
2 2
2 2
1
2
x x
m s
suất mà biến ngẫu nhiên X nằm trong khoảng
giữa x1 và x2
• Tung độ của mỗi điểm trên đường cong gọi là
Trang 23Hình dạng
• Theo tính chất toán học thì sự phân bố mẫu thí
nghiệm sẽ có:
– 68,26% dữ liệu nằm trong khoảng m 1s
– 95,46% dữ liệu nằm trong khoảng m + 2s
– 99,73% dữ liệu nằm trong khoảng m + 3s
02/03/2012 Biostatistics - Bùi Tấn Anh 45
Hàm mật độ xác suất
Trang 24Hàm phân bố tích lũy
02/03/2012 Biostatistics - Bùi Tấn Anh 47
Hình dạng phân bố với các s khác nhau
Trang 25Hình dạng phân bố với các m khác nhau
02/03/2012 Biostatistics - Bùi Tấn Anh 49
6 4
2 0
-2 -4
μ σ
phân bố qua trái hoặc phải
hoặc giảm độ phân tán.
Trang 26Hàm mật độ của phân bố chuẩn
02/03/2012 Biostatistics - Bùi Tấn Anh 51
• Xét biến ngẫu nhiên X có phân phối chuẩn với
trung bình μ và phương sai σ2 , X~N(μ, σ2),
hàm phân phối của X là
x) P(X
x
x) P(X
f(x)
Xác suất của phân bố chuẩn
• Đo bằng diện tích giới hạn bởi đường cong
chuẩn
) f(x ) f(x ) x X
Trang 27Xác suất của phân bố chuẩn
02/03/2012 Biostatistics - Bùi Tấn Anh 53
) x P(X )
) x P(X )
Trang 28Cách tính xác suất của phân bố chuẩn tắc
1 Vẽ đường cong phân bố cho thấy vùng cần
xác định
2 Tra bảng phân bố chuẩn tắc (phụ lục)
02/03/2012 Biostatistics - Bùi Tấn Anh 55
( 0)
P Z
Trang 2902/03/2012 Biostatistics - Bùi Tấn Anh 57
Trang 3102/03/2012 Biostatistics - Bùi Tấn Anh 61
Trường hợp các giá trị chưa được chuẩn hóa
• Tiến hành chuẩn hóa (tính z)
• Tính giống như trên
Trang 32Thí dụ 1
• Xét một phân bố chuẩn với m = 20 và s = 2
Hãy tính xác suất để một số đo có giá trị < 23
Trang 33• Data > Display data >/Columns, constants,
and matrices to display: K1
Trang 3402/03/2012 Biostatistics - Bùi Tấn Anh 67
Trang 3502/03/2012 Biostatistics - Bùi Tấn Anh 69
Kiểm tra phân bố chuẩn
• Dùng một trong ba phương pháp:
– Anderson-Darling: là phương pháp kiểm tra dựa
trên cơ sở ECDF (emperical cumulative
distribution function) Đây là phương pháp thường
được dùng nhất.
– Ryan-Joiner (tương tự như Shapiro-Wilk): là
phương pháp kiểm tra dựa trên cơ sở tương quan
(correlation).
– Kolmogorov-Smirnov: là phương pháp kiểm tra
Trang 36Áp dụng Minitab
02/03/2012 Biostatistics - Bùi Tấn Anh 71
• Stat > Basic Statistics > Normality Test
• Qua biểu đồ xác suất (probability plot), dữ liệu
có phân bố chuẩn khi:
– Các điểm trên biểu đồ có dạng đường thẳng
– Các điểm trên biểu đồ tập trung sát đường thẳng
– Giá trị thống kê Anderson-Darling (AD) nhỏ
– Giá trị P (P-value) > a (thường a = 0.05)
Trang 37Dữ liệu có phân bố chuẩn
02/03/2012 Biostatistics - Bùi Tấn Anh 73
185 180 175 170 165 160 155
N 100
A D 0.394 P-Value 0.369
Probability Plot for Normal Distributed Data
Dữ liệu có phân bố lệch âm
52 50
48 46
44 42
N 100
AD 2.323 P-Value <0.005
Probability Plot for Negatively Skewed Data
Trang 38Dữ liệu có phân bố lệch dương
02/03/2012 Biostatistics - Bùi Tấn Anh 75
25000 20000 15000 10000 5000 0
N 100
AD 3.785 P-Value <0.005
Probability Plot for Positively Skewed Data
Chuyển dạng dữ liệu (Data transformation)
• Mục đích: đưa dữ liệu về phân bố chuẩn.
Trang 39Thí dụ 1
02/03/2012 Biostatistics - Bùi Tấn Anh 77
12.0 9.6 7.2 4.8 2.4
Median
Mean
5.0 4.8 4.6 4.4 4.2 4.0
A nderson-D arling N ormality T est
M aximum 12.0000 95% C onfidence I nterv al for M ea n 4.4722
4.94
4.8878 95% C onfidence I nterv al for M edian 4.0000 5.0000 95% C onfidence Interv al for S tD ev 1.9769 2.2716
P -V alue < 0.005
M ea n 4.6800
S tD ev 2.1139
9 5 % C onf ide nce I nte r v a ls
Summary for Count
6 3
N 400
A D 4.938 P-Value
Probability Plot of Counts
Trang 40A nderson-D arling N orm ality Test
V ariance 0.2540
S k ew ne ss -0.137839 Kurtosis -0.132102
M axim um 3.4641 95% C onfide nce I nte rv al f or M ean 2.0544
4 50
2.1535 95% C onfidence I nterv al for M edian
P -V alue < 0.005
M ean 2.1040
S tD ev 0.5040
Summary for SqrtCnt
Trang 41A D 4.497 P-Value
Probability Plot for Square Root Count
Chuyển dạng loga
Trang 42Chuyển dạng loga
02/03/2012 Biostatistics - Bùi Tấn Anh 83
2.4 2.0 1.6 1.2 0.8 0.4 0.0
Median
Mean
1.60 1.55 1.50 1.45 1.40
A nderson-D arling N orma lity T est
M a ximum 2.4849 95% C onfidence Interv al for M ean 1.3716
9.39
1.4752 95% C onfidence I nterv al for M edia n 1.3863 1.6094 95% C onfidence Interv al for S tD e v 0.4927 0.5662
P -V alue < 0 005
M e an 1.4234
S tD ev 0.5269
9 5 % C onf ide nce Inte r v a ls
Summary for LogCount
Trang 43Thí dụ 2
02/03/2012 Biostatistics - Bùi Tấn Anh 85
25000 20000 15000 10000 5000 0
N 100
AD 3.785 P-Value <0.005
Probability Plot for Positively Skewed Data
Trang 44Chuyển dạng căn bậc 2
02/03/2012 Biostatistics - Bùi Tấn Anh 87
140 120 100 80 60 40
Median
Mean
75.0 72.5 70.0 67.5 65.0
A nderson-D arling N orm ality T est
V a riance 490.039
S k ew ness 0.806398 Kurtosis 0.471601
M a ximum 146.287 95% C onfidence Interv a l for M e an 66.782
1.30
75.567 95% C onfide nce Inte rv al for M edian 63.624 73.659 95% C onfide nce Inte rv a l for S tD ev 19.436 25.716
P -V alue < 0.005
M e an 71.175
S tD ev 22.137
9 5 % C on fide nce In ter v als
Summary for SqrtOocy
A D 1.299 P-Value
Probability Plot of SqrtOocy
Trang 458 7
Trang 46Tổng quan
• Từ một tổng thể có trung bình là m
– Tiếp tục lặp lại, ta sẽ có nhiều ước lượng khác
Mẫu 2 (n) Mẫu 3 (n)
Trang 4702/03/2012 Biostatistics - Bùi Tấn Anh 93
Chọn mẫu có hoàn lại
• Các mẫu và trung bình mẫu (n = 2)
Lấy mẫu lần thứ hai
6,10 (8)
6,12 (9)
6,14 (10)
(7)
8,8 (8)
8,10 (9)
8,12 (10)
8,14 (11)
(8)
10,8 (9)
10,10 (10)
10,12 (11)
10,14 (12)
(9)
12,8 (10)
12,10 (11)
12,12 (12)
12,14 (13)
(10)
14,8 (11)
14,10 (12)
14,12 (13)
14,14 (14)
Trang 48Hình dạng của phân bố
02/03/2012 Biostatistics - Bùi Tấn Anh 95
14 12
10 8
Trang 49Trung bình và Phương sai mẫu
• Trung bình:
25025
= 10
• Phương sai
02/03/2012 Biostatistics - Bùi Tấn Anh 97
Chọn mẫu không hoàn lại
Trang 50Trung bình và Phương sai mẫu
• Có thể bỏ qua hệ số này khi cở mẫu nhỏ hơn
nhiều so với kích thước tổng thể
• Trong thực tế, ở các tổng thể hữu hạn hệ số
này bị bỏ qua khi n/N ≤ 0.05.
Trang 51Định lý giới hạn trung tâm
• Nếu một mẫu có kích cở n được chọn ngẫu
nhiên từ một tổng thể không phân bố chuẩn có
bố của mẫu sẽ có
– phương sai là
– xấp xỉ phân bố chuẩn khi cở mẫu lớn
02/03/2012 Biostatistics - Bùi Tấn Anh 101
• Độ lệch chuẩn (còn gọi là sai số chuẩn)
• Để cho
– sai số chuẩn giảm 1/2, cở mẫu (n) phải tăng 4 lần
– sai số chuẩn giảm 1/3, cở mẫu (n) phải tăng 9
lần…
Trang 52Thí dụ
• Để khảo sát về thời gian mang thai của bò,
người ta chọn các mẫu (có cở mẫu n = 10)
Phân bố mẫu có:
– Trung bình = 285 ngày
• Cần chọn cở mẫu bằng bao nhiêu để có sai số
chuẩn không quá 1 ngày?
02/03/2012 Biostatistics - Bùi Tấn Anh 103
Trang 53Nhận xét
Từ định lý giới hạn trung tâm:
• Nếu cở mẫu đủ lớn (n ≥ 30) thì phân bố của
trung bình mẫu sẽ là phân bố chuẩn bất kể qui
luật phân bố xác suất của tổng thể như thế nào
thì phân bố của trung bình mẫu cũng sẽ là phân
nhỏ
02/03/2012 Biostatistics - Bùi Tấn Anh 105
Vận dụng
• Trong một tổng thể lớn, chiều dài hộp sọ của
người có phân bố chuẩn với trung bình là
185.6 mm và độ lệch chuẩn là 12.7 mm
• Tính xác suất để một mẫu n =10 được chọn từ
tổng thể này có trung bình lớn hơn 190 mm