Các yếu tố còn lại, không phải là yếu tố thí nghiệm thì phải càng đồng đều càng tốt... Cách lấy mẫu Giảm sai số do chọn mẫu Tùy theo phương pháp thí nghiệm để lập bảng m
Trang 1ỨNG DỤNG TIN HỌC TRONG
CÔNG NGHỆ SINH HỌC
KHOA MÔI TRƯỜNG & CÔNG NGHỆ SINH HỌC
BỘ MÔN CÔNG NGHỆ SINH HỌC
TP.HCM, 09/2008
NỘI DUNG CHƯƠNG TRÌNH
• Nhắc lại một số khái niệm cơ bản trong thống kê kết quả nghiên cứu (3t)
• Phương pháp bố trí thí nghiệm trong nghiên cứu khoa học (3t)
• Phân tích, xử lý kết quả thực nghiệm (9t)
• Phân tích tương quan và hồi quy (6t)
• (Thực hành trên máy tính)
TÀI LIỆU THAM KHẢO
• Chu Văn Mẫn – Ứng dụng TH trong CNSH
(2009)
• Nguyễn Văn Út – Giáo trình ứng dụng xác
suất và thống kê trong sinh học – ĐH Tổng
hợp TP.HCM (1989)
• Chu Văn Mẫn – Giáo trình thống kê sinh học
– NXB Khoa học và Kỹ thuật (2001)
• Bảo Huy – Thống kê và tin học trong lâm
nghiệp – Trường ĐH Tây Nguyên (2008)
GIỚI THIỆU
Bioinformatics
Sinh học Toán học
Hóa học Vật lý
Khoa học máy tính Thống kê
GIỚI THIỆU
Công nghệ Sinh học + Công nghệ Thông tin
Bioinformatics
Giúp hiểu biết và khám
phá những nguyên lý
trong sinh học
Bioinformatics Giúp hiểu biết và khám
phá những nguyên lý
trong sinh học
VÍ DỤ VỀ BIOINFORMATICS
• Xây dựng cơ sở dữ liệu về trình tự sinh học
• Tìm kiếm trình tự sinh học
• So sánh các trình tự sinh học
• Phân tích trình tự sinh học
• Thiết kế mồi (primer)
• …
Trang 2TẠI SAO CẦN HỌC MÔN NÀY?
• Hạn chế sai số: Chỉ có các yếu tố đem thí nghiệm thì mới được khác nhau Các yếu tố còn lại, không phải là yếu tố thí nghiệm thì phải càng đồng đều càng tốt
• Để phân tích một cách khoa học sự khác biệt
có ý nghĩa hay không giữa các công thức thí nghiệm
Như vậy, chúng ta phải học Thống kê Sinh học để biết
phương pháp thí nghiệm, cách phân tích xem có sự khác biệt
BẢN TRONG THỐNG KÊ SINH HỌC
MỘT SỐ KHÁI NIỆM CƠ BẢN
• Tập hợp
• Phép thử
• Sự kiện (biến cố)
- Sự kiện tất yếu
- Sự kiện không thể
- Sự kiện ngẫu nhiên
• Xác suất
TỔNG THỂ VÀ MẪU
• Tổng thể: tổng số cá thể - N
• Mẫu: số phần tử nằm trong mẫu (kích thước mẫu – n)
- Lấy mẫu ngẫu nhiên
- Lấy mẫu hệ thống
- Lấy mẫu phân tầng
• n<<N Sai số do chọn mẫu
Trang 3Cách lấy mẫu Giảm sai số do chọn mẫu
Tùy theo phương pháp thí nghiệm để lập bảng một chiều hay hai chiều
Ví dụ 1: Lập bảng một chiều cho thí nghiệm Ảnh hưởng của các liều lượng đạm đến năng suất giống lúa IR60
TT Liều lượng phân đạm Năng suất
(T/ha)
TRÌNH BÀY KẾT QUẢ
Ví dụ 2: Lập bảng hai chiều cho thí nghiệm Ảnh hưởng của các
liều lượng đạm đến năng suất (T/ha) của 3 giống lúa IR1,
IR2,IR3
TT Liều lượng phân
đạm (kg N/ha)
Giống Trung bình
( Đạm)
IR1 IR2 IR3
Trung bình ( Giống) 3,8 3,8 3,5
TRÌNH BÀY KẾT QUẢ
- Khi trình bày bảng, nếu muốn được tin tưởng, phải có phân tích thống kê về sự khác biệt giữa các công thức thí nghiệm
- Nếu có lô bị mất thì phải dùng công thức để tính tóan, không được lấy bình quân của 2 lần lặp lại có được, để
có được trị số lô mất
- Nếu có trị số bằng 0, hay từ 0-30% hoặc từ 70-100%, phải đổi trước khi phân tích thống kê, đây là qui định CHÚ Ý
CÁC THAM SỐ ĐẶC TRƯNG CỦA MẪU
• Trung bình
• Trung vị
• Tứ phân vị, bách phân vị
• Mode
• Phương sai
• Độ lệch chuẩn
• Sai số chuẩn
• Hệ số biến động
• Trung bình cộng:
Trong trường hợp x1 có n1 số liệu, xk có nk số liệu và n1+n2+…+nk=n thì:
ĐẠI LƯỢNG TRUNG BÌNH
X X X X X X
1
n i i
X nX
1
1 n i i
n
1
1 k
i
n
Trang 4Ví dụ: đo lượng đường huyết cho 17 người được
kết quả sau:
Lượng đường huyết TB của 17 người:
ĐẠI LƯỢNG TRUNG BÌNH
75 80 85 85 90 95 95 95 100
100 100 100 100 105 105 110 120
96,5
• Trung bình bình phương:
Ví dụ: đo đường kính của 5 khuẩn lạc vi khuẩn được kết quả sau: 10, 15, 20, 25, 30 đv đo Hãy tính đường kính trung bình của một khuẩn lạc?
ĐẠI LƯỢNG TRUNG BÌNH
2 1
1 n
i
n
1766,5 đv2
TRUNG VỊ - MED
• Là trị số đứng giữa của thống kê thứ tự
– Nếu n là số lẻ: trung vị là trị số của x đứng
hàng thứ (n+1)/2
– Nếu n là số chẵn: trung vị là trị số của x ở vị
trí số trung bình của trị số thứ n/2 và trị số thứ
n/2+1
Ví dụ: 3 4 5 6 8 10 12
8
TỨ PHÂN VỊ, BÁCH PHÂN VỊ
• Điểm phân vị là những giá trị của x chia dãy số liệu thành những phần bằng nhau
• Ví dụ: khảo sát cân nặng của 272 người và tính được giá trị bách phân vị P10 = 62,75 kg
• Ý nghĩa: có khoảng 27 người có trọng lượng dưới 62,75 kg
SỐ TRỘI - MODE
• Mode là trị số của xi ứng với tần số cao nhất,
nghĩa là trị số của xi gặp nhiều lần nhất
Chiều cao 152 154 155 156 157 158 159 160 161 162 163
Số người 1 1 1 1 3 2 2 2 4 3 2
Chiều cao 164 165 166 167 168 169 170 171 172 173
Số người 10 2 1 3 2 2 1 1 1 1
KHOẢNG BIẾN THIÊN
• Khoảng biến thiên biểu thị độ phân tán của các giá trị
R = xmax – xmin Ví dụ: trọng lượng của 2 đàn lợn
Tính trọng lượng TB:
Khoảng biến thiên:
Đàn 2 (kg) 56 57 58 59 60 61 62 63 64
1 2
60
40 ; 8
Trang 5PHƯƠNG SAI - VARIANCE
• Phương sai của tổng thể (σ2) với N bậc tự
do:
• Phương sai của mẫu (S0) với n bậc tự do:
• Phương sai của mẫu (S2) với n-1 bậc tự do:
1
1
N i i
X N
0
1
1
n i i
n
2
PHƯƠNG SAI - VARIANCE
Ví dụ: trọng lượng của 2 đàn lợn
Tính trọng lượng TB:
và phương sai:
Đàn 2 (kg) 56 57 58 59 60 61 62 63 64
1 2
1
2
60
187, 5
7, 5
ĐỘ LỆCH CHUẨN
• Độ lệch chuẩn nói lên mức độ chênh lệch
giữa các số liệu
Ví dụ: cho 2 dãy số liệu
Tính giá trị TB:
Phương sai:
Độ lệch chuẩn:
10
2, 61; 10,198
SAI SỐ CHUẨN
• Sai số chuẩn có thể hiểu là trung bình phân tán của các giá trị kết quả nghiên cứu
n
HỆ SỐ BIẾN ĐỘNG
• Hệ số biến động là một chỉ số khá tốt để đánh
giá độ chính xác và tính khách quan của các
số liệu thu thập được trong các cuộc thí
nghiệm
• Tùy đối tượng nghiên cứu mà phạm vi chấp
nhận được của hệ số biến động có thể là
6-8%, 10-12%, 13-15%, 16-20%
.100%
V
S C
X
HỆ SỐ BIẾN ĐỘNG
• Ví dụ: đo chiều cao của 40 cây thông 3 lá
Tính
8.35 13.65 11.00 11.35 13.75 12.76 13.25 8.74 15.25 11.00 11.50 16.00 12.85 13.26 9.25 14.51 11.25 11.50 12.15 14.75 13.40 9.50 10.50 14.50 11.62 12.25 14.26 13.50 9.75 10.75 14.23 11.75 12.35 12.85 14.00 10.24 10.76 16.25 12.00 12.50 13.15 16.00
2
; ; ; V
X S S C
Trang 6HỆ SỐ BIẾN ĐỘNG
• Hệ số biến thiên được sử dụng để so sánh 2
mẫu có phương sai khác nhau về thứ nguyên
Ví dụ: số liệu về chiều cao và cân nặng của 217
sinh viên:
- Chiều cao:
- Cân nặng:
- Cv của chiều cao:
- Cv của cân nặng:
160, 4 ; 4, 2
2, 62%
h
6, 64%
w
ƯỚC LƯỢNG CÁC THAM SỐ CỦA TỔNG THỂ
• Ước lượng điểm: μ~X, σ 2 ~S 2 , p~f
• Ước lượng khoảng: từ kết quả của mẫu suy rộng ra cho toàn bộ tổng thể
• Độ tin cậy của kết luận: ứng với mỗi giá trị của phân phối T nào đó có một mức xác suất tin cậy 1-α nhất định, biểu thị độ tin cậy của kết luận
- α=0,05 (độ tin cậy 95% hay sai lầm 5%)
- α=0,01 (độ tin cậy 99% hay sai lầm 1%)
- α=0,001 (độ tin cậy 99,9% hay sai lầm 0,1%)
ƯỚC LƯỢNG SỐ TRUNG BÌNH
• Ước lượng khoảng cho trung bình của tổng
thể μ với độ tin cậy 1-α là:
Ví dụ: đo trọng lượng trung bình của 815 em trai
10 tuổi ở Q Bình Thạnh được kết quả trọng
lượng trung bình 21,06 kg, S = 1,61 Ước
lượng khoảng trọng lượng trung bình?
(n1) S (n1) S
21, 06 0,11
ƯỚC LƯỢNG PHƯƠNG SAI
• Ước lượng khoảng cho phương sai của tổng thể σ2 với độ tin cậy 1-α là:
Ví dụ: nồng độ Vitamin C của 17 mẫu nước ép cà chua (mg/100g) như sau:
22 16 21 17 16 22 19 20 25
21 15 29 20 13 18 23 23
Ước lượng khoảng phương sai với α=0,05:
2
2 8,82 36, 76
ƯỚC LƯỢNG XÁC SUẤT
• Trong một mẫu thực nghiệm có n cá thể,
chẳng hạn có m cá thể có đặc tính C và n-m
cá thể có đặc tính không C Tần suất của C
trong mẫu thực nghiệm là f = m/n
• Từ tần suất thực nghiệm này suy đoán tỷ lệ
đặc tính C của tổng thể:
ƯỚC LƯỢNG XÁC SUẤT
Ví dụ: Tiến hành kiểm tra 124 con cá thấy có 42 con bị bệnh Hãy ước lượng khoảng của tỉ lệ cá bị bệnh với độ tin cậy 95%
(U0,05=1,96; U0,01=2,58; U0,001=3,3)
Trang 7KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
• Thông thường các tham số có sự khác nhau
(về mặt số học) nhưng ta cần xem xét lại sự
sai khác này có rõ ràng hay không? Ở mức độ
nào?
So sánh trung bình 2 mẫu quan sát
• Trong các thí nghiệm thường người ta cần so sánh kết quả của 2 công thức Ví dụ: bón phân hay không bón, che bóng hay không che,…
• Nói chung ta cần xét đặc trưng sinh học mà đối với nó có 2 giả thiết được đưa ra để cân nhắc, bàn bạc và phải chọn lấy một trong 2 giả thiết đó Cần chọn cái nào có khả năng đúng được nhiều hơn, khả năng sai ít hơn
So sánh trung bình 2 mẫu
quan sát
Việc kiểm tra được tiến hành theo 2 mẫu trên
cơ sở so sánh 2 số trung bình bằng các tiêu
chuẩn Student
- Giả thiết Ho (Null hypothesis): giả thiết được
đặt ra từ đầu với mục đích kiểm tra xem nó
đúng hay sai dựa vào kết quả thực nghiệm
μ1 = μ2
- Đối thiết H1 (Alternative hypothesis): là giả thiết
ngược lại Ho, nghĩa là khi bác bỏ Ho thì chấp
nhận H1
μ1 ≠ μ2
So sánh trung bình 2 mẫu quan sát
• B1: Xác định dạng phân bố của chuỗi số liệu:
- n ≥ 30 hoặc
- n < 30 nhưng có độ lệch và độ nhọn nằm trong khoảng [-2;2]
Số liệu có phân bố tiệm cận chuẩn
So sánh trung bình 2 mẫu
quan sát
* Trường hợp n>30:
• B2: Sử dụng tiêu chuẩn U của phân phối
tiêu chuẩn (giả sử X1>X2)
• B3: So sánh Utn với Uα, nếu Utn≥ Uα thì bác
bỏ giả thiết H0 hay 2 trung bình của 2 mẫu là
khác nhau
tn
u
So sánh trung bình 2 mẫu quan sát
Ví dụ: Cân nặng của các em trai 10 tuổi thuộc 2 địa điểm A và B như sau:
- Vùng A: nA=815 em, XA=21,06 kg, SA=1,61 kg
- Vùng B: nB=200 em, XB=21,33 kg, SB=1,60 kg Hãy đánh giá xem trọng lượng trung bình của các
em trai 10 tuổi hai vùng có khác nhau hay không?
Trang 8So sánh trung bình 2 mẫu
quan sát
* Trường hợp n<30:
• B2: So sánh 2 phương sai:
Phương sai đo độ phân tán của các giá trị
ngẫu nhiên Hai dãy số liệu dù có giá trị trung
bình giống nhau nhưng phương sai khác
nhau thì vẫn không đồng nhất Để đánh
giá hai dãy số liệu quan sát cần phải so sánh
2 phương sai
Kiểm tra 2 phương sai bằng tiêu chuẩn F
• Giả sử đặc trưng sinh học đang xét ở 2 tổng thể đều có phân phối chuẩn Kiểm định sự khác biệt của 2 phương sai dựa vào tỉ lệ:
- Giả thiết Ho:
- Đối thiết H1:
F = S1/S22 (giả sử S1>S2)
• Nếu trị số F ≥ Fα,(n1-1),(n2-1) Bác bỏ Ho chấp nhận H1 (sự sai khác của 2 phương sai
là có ý nghĩa thống kê)
So sánh trung bình 2 mẫu
quan sát
Trường hợp 2 phương sai bằng nhau:
H0: μ1 = μ1
H1: μ1 NE μ 1
• B3: So sánh 2 giá trị trung bình của 2 mẫu bằng các
tiêu chuẩn Student
Nếu t ≥ tα(n1+n2-2) thì bác bỏ giả thiết H 0 , có nghĩa trung bình
2 mẫu sai khác nhau có ý nghĩa, và người ta sẽ chọn
mẫu có trung bình cao
1 2
1 1 2 2
1 2 1 2
2
t
So sánh trung bình 2 mẫu quan sát
Trường hợp 2 phương sai khác nhau:
• B3: So sánh 2 giá trị trung bình của 2 mẫu bằng các tiêu chuẩn Student
So sánh t tính với t* với:
Nếu t ≥ t *
α thì bác bỏ giả thiết H0
1 2
2 2
1 2
1 2
t
( , 1 1) ( , 2 1)
*
2 2
1 2
1 2
t
S S
n n
BÀI TẬP
9 Đánh giá khả năng tăng trọng của gà với những chế
độ ăn khác nhau, tiến hành thí nghiệm trên 2 lô A
và B, mỗi lô có 4 con Sau một thời gian cho ăn các
loại thức ăn tổng hợp, kết quả tăng trọng được ghi
nhận trong bảng sau:
Hãy đánh giá chế độ ăn nào tốt hơn cho thí nghiệm
này ở mức ý nghĩa α=0,05?
Số gà thí nghiệm 1 2 3 4
Lô gà A 0.8 0.9 1.0 1.1
Lô gà B 0.5 0.6 0.6 0.7