PHƯƠNG PHÁP THÔNG KÊ MÔ TẢ Mục tiêu: - Tổ chức và tóm tắt số liệu một cách có hiệu quả - Tính toán các xu hướng tập trung, phân tán và các tham số đặc trưng mẫusố liệu trung bình, trung
Trang 1TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trang 2MỤC LỤC
I H C QU C GIA HÀ N I
ĐẠ Ọ Ố Ộ 1
TRƯỜNG I H C KHOA H C T NHIÊNĐẠ Ọ Ọ Ự 1
Nguy n Xuân Cễ ự 1
BÀI GI NGẢ 1
PHƯƠNG PHÁP TH NG KÊỐ 1
TRONG KHOA H C NÔNG NGHI PỌ Ệ 1
VÀ MÔI TRƯỜNG 1
(L u h nh n i b )ư à ộ ộ 1
H N i , 2008à ộ 1
M C L CỤ Ụ 2
PH N 1 PHẦ ƯƠNG PHÁP TH NG KÊ MÔ TỐ Ả 3
CHƯƠNG 3 LÝ THUY T XÁC SU TẾ Ấ 25
CHƯƠNG 4 GI I THI U V CÁC KHÁI NI M L Y M UỚ Ệ Ề Ệ Ấ Ẫ 46
Ch ng 5 ươ ƯỚC LƯỢNG CÁC THAM SỐ 62
S TRUNG BÌNH VÀ T L PH N TR MỐ Ỷ Ệ Ầ Ă 62
PH N 3 KI M NH GI THI T TH NG KÊẦ Ể ĐỊ Ả Ế Ố 71
V CÁC THAM S C TR NG M UỀ ỐĐẶ Ư Ẫ 71
Ch ng 6 KI M NH GI THI T TRONG TRươ Ể ĐỊ Ả Ế ƯỜNG H P M T M UỢ Ộ Ẫ 71
Ch ng 7 KI M TRA GI THI T TRONG TRươ Ể Ả Ế ƯỜNG H P HAI M UỢ Ẫ 88
Ch ng 8 PHÂN T CH PHươ Í ƯƠNG SAI 101
PH N 4 PHẦ ƯƠNG PHÁP KI M NH PHI THAM SỂ ĐỊ Ố 124
CHƯƠNG 9 PHÂN T CH KHI BÌNH PHÍ ƯƠNG ( 2)χ 124
Ch ng 10 M T S PHươ Ộ Ố ƯƠNG PHÁP KHÁC 138
KI M NH PHI THAM SỂ ĐỊ Ố 138
PH N 5 KI M TRA S LIÊN K T VÀ D OÁNẦ Ể Ự Ế ỰĐ 152
Ch ng 11 Tươ ƯƠNG QUAN VÀ H I QUY N GI NỒ ĐƠ Ả 152
Ch ng 12 Tươ ƯƠNG QUAN B I (H I QUI NHI U BI N)Ộ Ồ Ề Ế 171
2
Trang 3PHẦN 1 PHƯƠNG PHÁP THỐNG KÊ MÔ TẢ
Chương 1 GIỚI THIỆU CHUNG
Thống kê có vai trò to lớn trong phân tích các số liệu thí nghiệm và giải thíchcác kết quả nghiên cứu Học phần này nhằm cung cấp những khái niệm và các yêucầu cơ bản của phép thống kê trong khoa học nông nghiệp và khoa học môi trường
Từ thống kê có nghĩa riêng và có nghĩa chung Theo nghĩa riêng thống kê(statistics) là một lĩnh vực khoa học tương tự như nông học, đất, khoa học môitrường, theo nghĩa chung nó là những tập hợp các số liệu được thu thập được
Trong thống kê bao gồm cả lý thuyết và phương pháp xử lý tính toán Thống
kê là phương pháp và công cụ dùng phân tích các tập hợp số liệu để có những quyếtđịnh tốt hơn
Phương pháp thống kê có nghĩa rất lớn trong phân tích và đánh giá số liệu
và được áp dụng cho nhiều ngành khoa học khác nhau Ví dụ các nhà khoa họctrồng trọt khi giúp nông dân nâng cao năng suất cây trồng từ các thí nghiệm đồngruộng có nhiều khác biệt với các vùng sản xuất khác nhau Các nhà kinh tế nôngnghiệp lại sử dụng để dự báo yêu cầu trong tương lai
Chương 2 PHƯƠNG PHÁP THÔNG KÊ MÔ TẢ
Mục tiêu:
- Tổ chức và tóm tắt số liệu một cách có hiệu quả
- Tính toán các xu hướng tập trung, phân tán và các tham số đặc trưng mẫu(số liệu trung bình, trung vị, số trội, và ý nghĩa của nó)
- Tính toán sự biến động của số liệu (khoảng dao động, phương sai, độ lệchchuẩn) và ý nghĩa của chúng
Trang 42.1 Giới thiệu về thống kê mô tả
Các số liệu được thu thập trong khoa học môi trường cũng như nông nghiệpnói chung và khoa học đất nói riêng khi chưa dược xử lý và phân tích sẽ rất khóđánh giá và đưa ra những quyết định đúng đắn trong việc sử dụng số liệu này Tậphợp các số liệu quan trắc có thể có nhiều cách xử lý khác nhau Thông thường có thể
tổ chức theo thứ tự từ giá trị nhỏ nhất đến giá trị lớn nhất Cách sắp xếp này có thểcung cấp được nhiều thông tin có ý nghĩa
Ví dụ 2.1 Một nhà khoa học nông nghiệp khi phân tích ảnh hưởng của
Thiamine hydrochloride (vitamin B1) dến sinh trưởng của cây cà chua Có 50 cây càchua được xử lý bằng Thiamine hydrochloride được đo chiều cao một cách ngẫunhiên, sau 14 ngày xử lý cho kết quả như sau:
Bảng 2.0 Ảnh hưởng của Thiamine hydrochloride dến chiều cao cây cà chua(cm)
21,8 21,6 22,5 21,8 21,8 23,4 22,7 21,5 24,0 22,922,0 21,8 23,0 22,2 23,2 23,3 22,6 23,2 23,9 22,722,3 23,1 22,4 22,1 22,6 21,9 22,8 22,2 24,2 23,222,1 23,2 22,9 22,5 23,8 22,6 23,7 22,8 22,8 23,522.9 23,3 23,0 23,0 22,9 22,5 22,1 23,5 22,5 23,6Giải:
Bước 1: Sắp xếp các số liệu quan trắc ở bảng 2.0 theo thứ tự từ nhỏ dến lớn như
ở Bảng 2.1 Các số liệu này đã cho ta biết một số thông tin cơ bản, ví dụ như độ caocủa cây cà chua dao động từ 21,5 đến 24,5 cm Sự chênh lệch giữa cây thấp nhất vàcây cao nhất quan sát dược là 2,7 cm Số cây có độ cao 21,5 - 22,8 cm chiếm 50%
số cây quan trắc và 50% số cây cao từ 22,8 cm đến 24,2 cm Hơn nữa sự sắp xếpnày cũng chỉ rõ mức độ tập trung hoặc phân tán của các giá trị quan trắc xung quanh
độ cao trung bình Trong thí nghiệm này, cây có độ cao phổ biến ở khoảng 22,5 22,9 và 23,2 cm Trong khi đó ít cây có độ cao 21,5 - 21,6 - 23,1 – 24,0 và 24,2 cm.Bảng 2.1 dãy số liệu quan trắc chiều cao cây cà chua theo thứ tự từ nhỏ đến lớn
4
Trang 522,822,922,922,922,923,023,023,023,123,223,223,223,223,323,323,423,523,523,623,723,823,924,024,2
Tuy nhiên với cách sắp xếp này chúng ta cũng rất khó xác định độ cao trungbình của cây cà chua, đặc biệt là khi số liệu quan trắc càng lớn
Trang 6Để có cách nhìn rõ ràng hơn người ta sắp xếp dãy số liệu quan trắc theo tầnsuất xuất hiện của chúng và được gọi là sự phân bố tần suất.
2.2 Phân bố tần suất
Trong phân bố tần suất, các số quan trắc được sắp xếp theo thứ tự lớn dầncủa các giá trị quan trắc bắt gặp và số lần quan trắc (Bảng2.2)
Bảng 2.2 Phân bố tần suất cho số liệu ở Bảng 2.1
Chiều cao cây cà chua (cm) Tần suất21,5
21,621,821,922,022,122,222,322,422,522,622,722,822,923,023,123,223,323,423,523,6
1132132114323431421216
Trang 711111Cũng có thể sắp xếp các số liệu theo từng nhóm giá trị không trùng lặpnhau Số lượng các nhóm giá trị phân chia phụ thuộc vào số liệu các quan trắc Khicác só liệu quan trắc càng nhiều thì số các nhóm cũng càng lớn Tuy nhiên thôngthường người ta chia thành 5 đến 15 nhóm giá trị khác nhau Theo Sturges (1926) sốlượng các nhóm được xác định theo công thức sau:
Trong đó: k = Số lượng nhóm
n= số lần quan trắcTheo luật Sturges, các số liệu ở bảng 2.0 sẽ được chia thành 7 nhóm như sauđược trình bày ở Bảng 2.3 Trong đó số nhóm k được xác định như sau:
k = 1 + 3,322 (lg50) = 1 + 3,322 (1,6989) = 7Như vậy với tập hợp của 50 giá trị quan trắc, các số liệu sẽ được chia thành
7 nhóm (Bảng 2.3)
Sự sắp xếp như ở Bảng 2.3 đã chỉ rõ các nhóm giá trị và tần suất của các giátrị quan trắc của chúng Cụ thể là 5 cây cà chua có độ cao 21,5 - 21,8 và 8 cây có độcao 21,9 - 22,2 cm, Các số liệu ở bảng 2.3 cũng có thể được biểu diến dưới dạngbiểu đồ đa giác tần suất hoặc nối các điểm giữa giá trị các nhóm
-Tính tần suất tương dối: Tần suất tương đối là khi giá trị tần suất được biểu thịdưới dạng các tỷ lệ tương đối hay tỷ lệ phần trăm
Tần suất tương đối
Trang 8n = số lần quan trắcBảng 2.3 Phân bố tần suất theo nhóm
Nhóm Độ cao (cm) Tần
suất1
234567
21,5-21,821,9-22,222,3-22,622.7-23,023,1-23,423,5-23,823,9-24,2
58912853
Ví dụ như ở nhóm 2 (Bảng 2.3) ta có:
Tần suất tương đối của nhóm thứ hai là 8/50 = 0,16
hay biểu diễn dưới dạng phần trăm ta có:
Tầnsuất (f)
Tần suấttương đối (f/n)
Phần trăm(f/n) x10021,5-21,8
21,9-22,222,3-22,622,7-23,023,1-23,8
589128
0,100,160,180,240,16
10161824168
Trang 953
0,100,06
106
n =50
2.3 Xác định xu hướng tập trung của các giá trị quan trắc
Thông thường người ta hay nói đến giá trị trung bình Tuy nhiên giá trịtrung bình chỉ đơn thuần là giá trị ở giữa của một tập hợp nhiều giá trị quan trắc Dovậy để đặc trưng cho xu hướng tập trung của mẫu có nhiều giá trị khác nhau được sửdụng như số trung bình cộng, số trung vị và số trội
- Số trung bình cộng (Mean): Đây là giá trị được xác định bằng thương số của tổngcác giá trị quan trắc với số lần quan trắc được biểu diễn là X :
X X
X X
++
+++
i i i
i k i k
k
m m
m
X m X
m X m X
1 1
2 1
2 2 1 1
1
Ví dụ 2.3: Giá thóc trung bình bán ra ở 20 trang trại được thống kê như sau, hãy xác
định giá thóc trung bình được bán ra?
Trang trại Giá thóc (đ/kg) Trang trại Giá thóc (đ/kg)
1
2
20003500
1112
22002250
Trang 101800320029003100360034003800Giải:
270520
38003400
Như vậy giá thóc trung bình được bán ra là 2795 nghìn đồng/kg
Ý nghĩa của số trung bình cộng:
+ Trung bình cộng là một giá trị tổng hợp cô đọng đặc trưng tiêu biểu chotoàn bộ các giá trị quan trắc của một tập hợp
+ Trung bình cộng là biểu diễn xu hướng tập trung của mẫu quan trắc trênmột đặc trưng giống nhau Nhưng trung bình cộng chưa biểu thị được đặc điểm thứhai của một mẫu là xu hướng phân tán của các số liệu
+ Tổng sai số các giá trị quan trắc Xi với giá trị trung bình cộng X luônbằng 0 Tức là:
x
- Số trung bình trọng số (Weighted mean):
Trong nhiều trường hợp, tập hợp mẫu quan trắc bao gồm từ nhiều nhóm cónhững dặc tính khác nhau Số trung bình chung được tính từ các số trung bình củatừng nhóm riêng rẽ Như vậy nếu tính trung bình cộng có nghĩa là ta coi sự đónggóp của các nhóm là như nhau Để phân biệt sự tham gia không ngang nhau của các
10
Trang 11nhóm ta cần thiết phải thêm các trọng số để bảo đảm tính cân bằng khi tính số trungbình chung.
Ta có:
w
wX w
X
∑
∑
=Trong đó w = trọng số áp dụng cho giá trị X
X(tạ/ha)
diện tích(ha)
Sản lượng
ABCDTổng
130,7144,3140,0120,0
64636651254
8364,89090,99240,06120,032.815,7
Từ số liệu bảng 2.5, nếu tính số trung bình chung cho 4 giống ta có giá trịtrung bình X= 133,75 tạ/ha Tuy nhiên trong trường hợp này các giống dược trồngtrên những diện tích khác nhau nên cần thêm các trọng số (diện tích) cho từng từnggiống ngô Hay ta nhân cột (1) với cột (2) Theo cách tính số trung bình trọng số tacó:
49,134254
7,
- Số trung vị (Median):
Trang 12Số trung vị (Med) được xác định là số đứng giữa của một dãy số liệu đượcsắp xếp theo trật tự giảm dần hoặc tăng dần Trong trường hợp tỏng số quan trắc là
lẻ thì trị số sẽ là số có vị trí ở giữa dãy số liệu, còn khi số quan trắc là số chẵn thì nó
có giá trị là giá trị trung bình của hai quan trắc đứng giữa dãy số liệu
Số trung vị có thể có giá trị bằng hoặc khác các số trung bình và số trội tuỳtheo phân bố của chúng Nếu phân bố của biến ngẫu nhiên đối xứng và có một sốtrội (Mode) thì cả 3 đặc trưng số trung bình cộng (Mean), số trung vị (Median) và sốtrội (Mode) là trùng nhau Nếu phân bố đối xứng thì dùng Mean định vị là tốt nhất,trong khi nếu phân phối quá lệch thì dùng số trung vị (Median) và số trội (Mode) đểđịnh vị sẽ tốt hơn
Ý nghĩa của số trung vị: Số trung vi chia tập hợp các số liệu quan trắc thành
2 phần bằng nhau Nghĩa là có một nửa các số liệu có giá trị nhỏ hơn và một nửa cógiá trị lớn hơn số trung vị
Ví dụ 2.5: Tỷ P2O5 trong 6 loại phân bón có chứa phốt pho như sau, xác địnhMed của chúng
Giải: Trước hết ta phải sắp xếp tỷ lệ phần trăm P2O5 của các loại phân bóntheo thứ tự tăng dần như sau: 20-34-39-46-48-62 Áp dụng công thức tính Med tacó:
5,422
Trang 13Giả sử ta chỉ có 5 loại phân bón khác nhau (không có loại phân thứ 6), lúc
đó ta có Med = 39
Nói tóm lại trong trường hợp dãy số liệu với n là số lẻ thì trọng số sẽ là sốthứ (n+1)/2 Còn nếu n là số chẵn thì số trung vị sẽ là giá trị trung bình cộng của trị
số thứ (n/2) và [(n/2)+1]
- Số trung vị trong phân bố tần suất:
Khi tính số trung vị trong trường hợp phân bố tần suất hoặc gộp các số liệuthành từng lớp thì cũng làm tương tự như trường hợp trên Số trung vị dược xác địnhtheo công thức:
( )i f
CF n
f = Tần suất của lớp chứa số trung vị
Ví dụ 2.6: Trong một lần điều tra về thu nhập của người dân, nhà kinh tế nông
nghiệp đã thu được các số liệu ở Bảng 2.7 Hãy tính số trung vị về thu nhập củangười dân trong các nhóm được điều tra
Bảng 2.7 Tính toán số trung vị của phân bố tần xuất
Thu nhập hàng năm
(triệu đồng)
Số người dân(f)
Tần suất tích luỹ(CF)
5122234
Trang 1417 120
486884103120
Giải:
- Bước 1: Cần xác định giá trị n/2; trong trường hợp này n/2=120/2=60 Chúng
ta hy vọng là người nông dân thứ 60 sẽ đại diện cho thu nhập trung bình của cảnhóm đã được điều tra
- Bước 2: Xác định tần suất tích luỹ như kết quả ở cột CF của bảng 2.7 Các gíatrị này cho biết n/2 nằm ở vị trí nào Từ bước thứ nhất ta biết rằng số trung bình sẽnằm ở lớp có chứa tần suất tích luỹ là 60 Tức là ở lớp có thu nhập 35,000-39,999triệu động/năm Giá trị thấp hơn giới hạn dưới của lớp này là 34,9995 và cao hơngiới hạn trên là 39,9995 Theo phương pháp tính toán đã nói ở trên chúng ta sử dụnggiá trị thấp hơn giới hạn dưới của lớp có chứa số trung vị Bởi vì tần suất tích luỹcủa 5 lớp đầu là 48 và 6 lớp đầu là 68 Do vậy số trung vị sẽ nằm ở vị trí nào đó giữalớp thứ 5 và thứ 6
- Bước 3: Xác định có bao nhiêu trường hợp sẽ được cộng vào lớp thấp hơn từlớp cao hơn dể có giá trị n/2 hoặc 60 trường hợp Vì lớp 5 có tần suất tích luỹ là 48,nên cần có thêm 12 trường hợp nữa nằm trong lớp thứ 6 Như vậy số trung vị sẽ lấygiá trị 12/20 trong khoảng 34,9995 và 39,9995
Áp dụng công thức [2-7] ta có:
20
4821209995
,34
L Med
14
Trang 15Như vậy số trung vị về thu nhập của người sản xuất là 37,9995 triệuđồng/năm Hay có một nửa số người sản xuất có thu nhập dưới 37,9995 triệuđồng/năm và một nửa còn lại sẽ có thu nhập cao hơn.
- Số trội (Mode): Số trội là một giá trị (hoặc nhiều giá trị) mà chúng có tần suấtlớn vượt trội Số trội được ký hiệu là Mod
Khác với giá trị Mean và Med, số trội được xác định trên cơ sở chuỗi số liệuhoặc biểu đồ tần suất Nó cho biết giá trị thường gặp nhất của X trong một dãy sốliệu quan trắc
Ví dụ 2.7: Một nhà nghiên cứu khi quan sát khả năng nảy mầm của loại hạt
giống thu được dãy số liệu về thời gian các hạt giống nảy mầm như sau: 4 – 5 – 7 –
4 – 5 – 5 – 6 – 6 – 5 – 4 – 5 – 4 – 6 – 5 – 5 ngày Hãy xác định Mod của tập hợp sốliệu này
Giải: Từ dãy số liệu trên cho thấy giá trị 5 ngày được ghi nhận ở 7 trườnghợp là nhiều nhất Do vậy số trội của dãy số liệu này là 5 ngày
Cần chú ý rằng có nhiều dãy số liệu không có số trội Ví dụ như 4 giá trịquan trắc về ngày nảy mầm của hạt là 4 - 5 - 6 - 7 ngày Ngược lại cũng có dãy sốliệu có thể có hai hay nhiều số trội Ví dụ dãy quan trắc sự nảy mầm của hạt vào cácngày 4 - 4 - 4 – 5 - 6 - 7 - 5 - 5 - 6 - 4 - 5 Ta có hai số trội là 4 ngày và 5 ngày
Với sự phân bố tần suất, chẳng hạn như ở Bảng 2.7, số trội là xấp xỉ với lớptrội Lớp trội cũng là lớp có tần suất lớn nhất Để xác định số trội trong trường hợpnày cần giả thiết rằng tần suất có phân bố đồng nhất ở tất cả các lớp Trong ví dụnày, lớp thứ 6 có tần suất 20 là lớp trội Do vậy số trội được tính như sau:
4995,372
999,4000,
Khi phân bố tần suất không thuần nhất ở các lớp, ta sẽ tính số trội theo côngthức:
( )i d d
d L
=
211
Trang 16Trong đó L: Giá trị thấp hơn giới hạn dưới của của lớp trội
d1: Sự khác nhau giữa tần suất của lớp trội với tần suất của lớptrước nó
d2: Sự khác nhau giữa tần suất của lớp trội với lớp tiếp theo i: Khoảng cách của lớp trội
Với ví dụ ở Bảng 2.7, ta có:
( )i d d
d L
=
21
1
)1620()1420(
14209995
−
−+
Giá trị trung bình (Mean) được dùng rất phổ biến biểu thị kích thước trungbình của tập hợp các số liệu quan trắc khi không có giá trị vượt trội đặc biệt Trongkhi đó số trung vị (Median) sẽ không bị ảnh hưởng bởi các giá trị vượt trội Tuynhiên số trung vị sẽ không phản ánh đúng kích thước trung bình của tập hợp mẫukhi có vấn đề trong lấy mẫu Trong trường hợp này số trung bình cộng sẽ có ýnghĩa tốt hơn Số trội là đại diện cho kích thước trung bình của tập hợp mẫu vì nókhông bị ảnh hưởng bởi dạng đường cong phân bố Tuy nhiên hạn chế của số trội là
nó không có sự tính toán chính xác Hơn nữa do điều kiện lấy mẫu, số trội là ít cótính xác thực hơn
2.4 Xác định sự biến động hay độ phân tán mẫu
Mức độ biến động hay độ phân tán mẫu là khoảng giá trị sai khác của cácgiá trị quan trắc so với giá trị trung bình Nhìn chung khoảng cách từ gía trị quantrắc so với giá trị trung bình càng lớn thì mức độ phân tán của mẫu cũng càng lớn
Để biểu diễn mức độ phân tán của mẫu, người ta thường dùng các giá trị độ biếnthiên, độ lệch trung bình, phương sai, độ lệch chuẩn
-Khoảng biến thiên (Range): Là sự sai khác giữa giá trị nhỏ nhất và lớn nhấttrong dãy số liệu:
R= X max – X min [2-9]
Ví dụ 2.8: Trong dãy số liệu là 4,2-6,7-3,4-2,3-7,9 ta có khoảng dao động là:
R= 7,9-2,3=5,6
16
Trang 17Việc xác định khoảng dao động là đơn giản, tuy nhiên nó chỉ đề cập đến 2 giátrị trong dãy số liệu nên không phản ánh chính xác độ phân tán thực của mẫu.
- Độ lệch trung bình (Average deviation): Độ lệch trung bình được xác định
là sự sai khác trung bình của các giá trị quan trắc với giá trị trung bình cộng Khitính toán, tổng của các độ lệch này luôn luôn bằng 0
n
x x
0,36,25,18,175
9,49,7
9,47,69,42,4
=++++
=
−++
−+
−
=
AD
Như vậy giá trị độ lệch trung bình của mẫu là 1,92
- Phương sai (Variance): Phương sai của một mẫu là trung bình độ lệch bìnhphương của các giá trị quan trắc so với giá trị trung bình Phương sai của biến ngẫunhiên là một số không âm dùng để chỉ mức độ phân tán của biến ngẫu nhiên xung
Trang 18Công thức tính phương sai của một tổng thể như sau:
x = Giá trị quan trắc
µ= Giá trị trung bình của tổng thể N= Số quan trắc trong tổng thểĐối với một mẫu, thì phương sai được tính theo công thức:
( )2 2
Trong đó: S2 = Phương sai mẫu
x= Giá trị quan trắc
x= Số trung bình mẫun= Số quan trắc trong mẫu
Ví dụ 2.10: Một nhà khoa học khi nghiên cứu đã cho thấy ô nhiễm dầu ở đại
dương do sự cố tràn dầu đã có ảnh hưởng đến sự sinh trưởng của các vi khuẩn.Nghiên cứu trên 20 mẫu nước biển cho thấy kết quả số vi khuẩn trong 100 ml nướcbiển như sau, hãy xác định phương sai của quần thể vi sinh vật này
Giải:
95,5320
9,3780
2
N
X µσ
18
Trang 19X X −µ (X −µ)232
65724552745342586159403676557562483539
-21,9511,0518,05-8,95-1,9520,05-0,95-11,954,057,055,05-13,95-17,9522,051,0521,058,05-5,95-18,95-14,95
48,18122,1325,880,13,8402,00,9142,816,449,725,5191,6322,2486,21,1443,164,835,4359,1223,5
Trang 20=
σ (vi khuẩn)
Vì số vi khuẩn phải là số nguyên nên ta làm tròn thảnh 14 con vi khuẩn
Cũng có thể tính phương sai bằng phương pháp ngắn gọn hơn theo công thứcsau:
2 2
X
σVới ví dụ 2.10 ta có:
0,18920
39
653220
39
=σ
- Độ lệch chuẩn (Standard deviation): Độ lệch chuẩn là giá trị căn bậc 2 củaphương sai Nó có ý nghĩa lớn thể hiện sự phân tán của mẫu và được dùng để sosánh sự phân tán của các mẫu khác nhau Khi mẫu có độ lệch chuẩn càng lớn chứng
tỏ mức độ phân tán của mẫu cũng càng lớn Công thức để tính độ lệch chuẩn chomột tổng thể như sau:
Hoặc ngắn gọn hơn, có thể áp dụng công thức:
2 2
X
20
Trang 21Đối với một mẫu ta áp dụng công thức sau:
−
−
n n
X X
Cần chú ý rằng độ lệch chuẩn của mẫu sẽ lấy mẫu số là n-1 Theo Mason(1982) nếu sử dụng n thay cho n-1 thì độ lệch chuẩn sẽ bị nhầm lẫn với cách tínhcủa tổng thể, đặc biệt là khi kích thước của mẫu nhỏ
Ví dụ 2.11: Doanh số bán hàng của một nhóm các công ty máy nông nghiệp
được chọn một cách ngẫu nhiên là 24-32-28-22-20-26-28 và 20 triệu đồng/tháng.Tính độ lệch chuẩn của mẫu
X
X −24
32282220262820
-173-3-513-5
14999251925
Trang 2218
1281
Theo cách rút gọn ta có:
2432282220262820200
57610247844844006767844005128
28,47
1287
50005128
188
20051281
2 2
X X
S
Mối quan hệ giữa giá trị trung bình (Mean) và độ lệch chuẩn được xác địnhtheo định lý Chebyshev: "Với bất kỳ một dãy số liệu quan trắc nào đó, ít nhất sẽ có[1-(1/k2)] các giá trị quan trắc nằm trong phạm vi k lần độ lệch chuẩn của dãy số liệu
đó xung quanh giá trị trung bình"
Trên cơ sở định lý này, sẽ có ít nhất 75% các giá trị trong dãy số liệu quantrắc nằm trong phạm vi 2 lần độ lệch chuẩn ở phía trên và dưới giá trị trung bình Ítnhất 88,9% nằm trong phạm vi 3 lần độ lệch chuẩn xung quanh giá trị trung bình, và
ít nhất 96% nằm trong phạm vi 5 lần độ lệch chuẩn xung quanh giá trị trung bình
22
Trang 23Theo công thức của Chebyshev ta có các giá trị phần trăm tương ứng với hai
ba và năm lần độ lệch chuẩn như sau:
Với khoảng 75% ta có: 0,75
4
112
11
11
11
- Độ lệch chuẩn của các nhóm số liệu: Tính toán độ lệch chuẩn trong trường hợpcủa các nhóm số liệu hoặc phân bố tần suất, chúng ta áp dụng công thức sau:
1
2 2
−
−
n n
fx fx
Trong đó: x = Điểm giữa của lớp
f = Tần xuất của lớp
n = Số lượng quan trắc
Ví dụ 2.12: Để xây dựng kênh dẫn nước tưới cho đồng ruộng, một cơ sở xây
dựng đã nhận sự tài trợ của nhiều tổ chức và cá nhân khác nhau Người ta đã thống
kê được mức đóng góp như sau, tính độ chênh lệch chuẩn cho các nhóm số liệu đó.Giải:
Xây dựng bảng số liệu (Bảng 2.8) sau đó áp dụng công thức [2-18] để tính
độ lệch chuẩn
Trang 24đồng)0,00 - < 5,00 305,00 - < 10,00 3510,00- < 15,00 4215,00- < 20,00 1020,00- < 25,00 325,00- < 30,00 530,00- < 35,00 7
Bảng 2.8 Tính các gía trị cho các nhóm số liệu
(1)
Mức đóng góp
(triệu đồng)
(2)Tầnsuất(f)
(3)Điểmgiữa(x)
(4)(fx)
(5)fx.x(fx2)
0,00 - < 5,00 30 2,5 75,00 187,505,00 - < 10,00 35 7,5 262,50 1968,7510,00- < 15,00 42 12,5 525,00 6526,5015,00- < 20,00 10 17,5 175,00 3062,5020,00- < 25,00 3 22,5 57,50 1518,7525,00- < 30,00 5 27,5 137,50 3781,2530,00- < 35,00 7 32,5 227,50 7393,75
0
87,787,611
132132
147024475
1
2 2
fx fx
S
24
Trang 25Phần 2 THỐNG KÊ SUY LUẬN TRONG
KHOA HỌC NÔNG NGHIỆP VÀ MÔI TRƯỜNG
CHƯƠNG 3 LÝ THUYẾT XÁC SUẤT
3.1 Giới thiệu
Ở chương trước đã đề cập đến phương pháp thống kê mô tả Tuy nhiênphương pháp này không cho phép suy luận các giá trị của tổng thể từ các đặc trưngmẫu Do vậy ta phải sử dụng phương pháp thống kê suy luận Quan điểm lí thuyếtxác suât có ý nghĩa quan trọng để giải thích cho phương pháp thống kê suy luận
Trong thực tế, các nhà nghiên cứu hoặc quản lí thường phải đối mặt với việcphải quyết định các vấn đề mà được dựa trên những thông tin và các số liệu hạn chế
Vì để có được số lượng đủ lớn, các thông tin hay số liệu thường đòi hỏi chi phí lớn
về kinh phí cũng như thời gian Lí thuyết sác xuất có liên quan đến quan niệm và sựxác định các sự kiện không chắc chắn
Các quyết định được đưa ra bởi các nhà nghiên cứu hoặc quản lí với sự hạnchế thông tin thường có chứa đựng các nguy cơ có liên quan đến các sự kiện khôngchắc chắn Để phân tích các nguy cơ này, các nhà quản lí và nghiên cứu phải dựavào lí thuyết xác suất Trong phần này, chúng ta chỉ đề cập đến khái niệm xác suấtnhư một phương pháp làm tăng mức độ tin tưởng của một quyết định nào đó trongkết quả của xuất hiện của một sự kiện hoặc thí nghiệm
3.2 Các khái niệm và phương pháp xác định xác suất
- Sự kiện (hay còn gọi là biến cố- event): Một sự kiện được xác định là kết quảkhông chắc chắn của một thí nghiệm, hoặc một hoặc nhiều kết quả có thể của mộtquan trắc hay một thí nghiệm nào đó Hay nói cách khác, sự kiện là kết quả của 1phép thử Mỗi sự kiện tương ứng với một tập hợp kí hiệu là A, B,
Ví dụ có 5 hạt thóc giống đem thí nghiệm về sự nảy mầm của chúng Kết qủa
cả 5 hạt giống đều nảy mầm là một khả năng có thể xuất hiện, đó là một sự kiện Khi
Ω
Trang 26hành phép thử Có sự kiện là không thể (ø), nghĩa là nó không thể xảy ra khi tiếnhành phép thử Có sự kiện là ngẫu nhiên (A, B ), nghĩa là nó có thể xảy ra hoặckhông xảy ra khi tiến hành phép thử Có sự kiện là tất nhiên (A, B, ), nghĩa là nótất yếu sẽ xảy ra khi tiến hành phép thử.
- Không gian mẫu (sample space): Bao gồm tất cả các sự kiện có thể xuất hiệntrong thí nghiệm hoặc quan trắc Ví dụ, khi gieo 5 hạt giống thì có 6 khả năng xảy ra
là 0, 1, 2, 3, 4, 5 hạt sẽ nảy mầm Ta gọi đó là không gian mẫu
- Tổng của 2 sự kiện: Tổng của các sự kiện (∪) được xác định là toàn bộ các sựkiện xảy ra của 1 sự kiện có chứa tất cả các điểm mẫu thuộc A hoặc B hoặc cả hai,
và được kí hiệu là A ∪ B
Hình 3.1 cho thấy tổng các sự kiện A và B và được gọi là sơ đồ Venn (J.Venn, 1834 - 1888) Hình chữ nhật biểu diễn không gian mẫu (sample space) nóchứa các điểm mẫu Tổng của tất cả các điểm mẫu là không gian mẫu Hai vòng tròn
là đại diện cho các sự kiện A và B Trên thực tế vùng chồng lấn là diện tích chungcủa cả A và B Để có xác suất của sự kiện A và B chúng ta phải trừ đi 1 vùng chồnglấn từ tổng xác suất của sự kiện A và B
Hình 3.1 Tổng các sự kiện A và B khi các sự kiện là loại trừ nhau
và khi chúng không loại trừ nhau
- Sự giao nhau của các sự kiện: Sự giao nhau của 2 sự kiện được khái niệm làmột sự kiện mà có chứa các điểm mẫu thuộc cả A và B Sự giao nhau của hai sự
Trang 27kiện A và B được ký hiệu là A∩B Hình 3.1, phần giao nhau giữa 2 sự kiện A và Bchính là diện tích chồng lấn của 2 hình tròn A Và B.
- Các qui tắc cơ bản của xác suất: Tính toán xác suất được dựa trên các qui tắccủa phép cộng hoặc nhân Khi ta có 2 sự kiện, nếu muốn biết xác suất mà ít nhất sẽ
có một sự kiện xảy ra, ta áp dụng qui tắc cộng Một cách khác nếu muốn biết xácsuất mà sự kiện A hoặc B, hoặc cả 2 xuất hiện, ta chỉ đơn thuần là cộng cả 2 xác suất
P(A hoặc B)=P(A)+P(B) [3-1]
hoặc P(A ∪ B) = P(A)+P(B) [3-2]
Trong trường hợp này cả A và B sẽ xuất hiện ngang nhau trong tổng xác suấtcủa A Và B
Ví dụ, nếu ta tung con súc sắc thì xác suất xuất hiện mặt 2 hoặc 3 chấm sẽ là:P(2 hoặc 3) = P(2) + P(3)
=1/6+1/6 = 2/6 = 0,33Tình huống mà 2 sự kiện là không loại trừ nhau chính là hiệu của diện tích(phần gạch chéo giao nhau) ở hình 3.1 Đây là vùng mà cả 2 sự kiện đều có khảnăng xuất hiện Vì vậy qui tắc cộng xác suất sẽ là:
P(A hoặc B) = P(A) + P(B) - P(A và B) [3-3]
Ví dụ: Nếu ta rút một quân bài từ tập tú lơ khơ, xác suất để rút được quân K
Trang 28P(K hoặc cơ) =P(K) + P(cơ) - P(K và cơ)
= 4/52+13/52-1/52
= 16/52
= 0,31Nếu ra muốn xác định xác suất của 2 (hoặc vài) sự kiện cùng xuất hiện đồngthời ta áp dụng qui tắc nhân Qui tắc nhân được áp dụng khác nhau phụ thuộc vàocác sự kiện chúng là độc lập hay phụ thuộc nhau Hai sự kiện là độc lập nhau nếu sựxuất hiện của sự kiện này không ảnh hưởng đến sự xuất hiện của các sự kiện kia
Để mô tả khái niệm này, giả sử ta có một cặp xúc sắc, trong đó 1 con xúc sắcmàu trắng và một con xúc sắc màu đen Sự xuất hiện mặt 3 chấm của con xúc sắcmàu trắng là hoàn toàn độc lập với sự xuất hiện mặt 3 chấm của con xúc sắc mầuđen Ta ký hiệu xác suất của các sự kiện độc lập như sau:
P(A và B) = P(A) x P(B) [3-4]
hoặc P(A∩ B) = P(A) x P(B) [3-5]
Sử dụng phương trình [3-4] để xác định xác suất của mặt 3 chấm của cặpxúc sắc này là:
P(3 trên trắng và 3 trên đen) = P(3 trên trắng) x P(3 trên đen)
= 1/6 x 1/6 = 1/36 = 0,028Khi 2 sự kiện (A và B) phụ thuộc nhau thì xác suất xuất hiện của sự kiện này
sẽ phụ thuộc hoặc là điều kiện cho sự xuất hiện hay không xuất hiện của sự kiệnkhác Ký hiệu | được sử dụng để chỉ xác suất điều kiện như trình bày trên Ví dụ,P(A|B) nghĩa là xác xuất của sự kiện A là điều kiện cho sự xuất hiện của sự kiện B.Qui tắc xác suất trong xác suất có điều kiện được biểu diễn như sau:
P(A∩ B) = P(A) x P(A|B) [3-6]
hoặc P(A∩ B) = P(B) x P(B|A) [3-7]
28
Trang 29Ở phương trình [3-6] sự xuất hiện đồng thời của A và B là ngang nhautrong tích số xác suất của sự kiện A, và xác suất của A là điều kiện cho sự xuất hiệncủa B Ta có thể sử dụng phương trình [3-6] hoặc [3-7] để tính P(A|B).
Ví dụ 3.1:
Trong buổi thuyết trình trước một nhóm các đại lý, phó chủ tịch công ty hoáchất nông nghiệp chỉ ra rằng, với kinh nghiệm trước đây cho thấy xác suất bán hàngcho một nông trại ở lần chào hàng thứ 2 là 0,30 Các ghi nhận được cho thấy có 52%các lần bán hàng như vậy đạt trên 200 nghìn đồng Hãy xác định xác suất mà các đại
lý bán hàng sẽ bán được trên 200 nghìn đồng?
Giải:
Trước khi áp dụng phương trình [3-6] hoặc [3-7] để tìm xác suất, ta đặt vấn đềnhư sau:
P(A)= xác suất mà một lần bán hàng tiến hành
P(A| B)= xác suất mà một lần bán hàng được trên 200 nghìn đồng
Xác suất các đại lý bán hàng tiến hành với 1 lần bán được trên 200 nghìn đồnglà:
P(A và B)=P(A)xP(A|B)
= (0,30)(0,52) = 0,16Qui tắc nhân xác suất có thể được áp dụng với bất kỳ số lượng các sự kiện Vớitrường hợp nhiều hơn 2 sự kiện ta có công thức sau:
P(A, và B, , và N)=P(A)P(B|A)P(C|B và A), , P(N|N-1) và, , A) [3-8]
Ví dụ 3.2:
Một nhà khoa học chăn nuôi thử nghiệm 3 loại thức ăn khác nhau nhằm tăngcao khả năng tăng trọng của bò Nghiên cứu được tiến hành ở 10 con bò, trong đó 5con là giống Angus, 3 con giống Brahman và 2 con giống Hereford Giả sử rằng có
3 con được chọn ngẫu nhiên từ danh sách đánh số từ 1 đến 10 Mỗi lần chọn 1 con,
Trang 30nên sau mỗi lần chọn mẫu, số con bò còn lại sẽ có các cơ hội ngang nhau để dượclựa chọn tiếp Tìm xác xuất mà cả 3 con bò được lựa chọn đề là giống Angus.
Từ ví dụ này có 2 điều quan trọng cần lưu ý là: (1) sự xuất hiện đồng thời cả 3giống A, B và C là như nhau Nghiã là qui tắc nhân sẽ được áp dụng để tính toán (2)nếu ta lấy ngẫu nhiên theo cách thay thế, xác suất cho mỗi sự kiện sẽ được duy trìnhư nhau Với ví dụ trên nếu ta lấy mẫu thay thế (lấy mẫu lặp) ta có khả năng xuấthiện đồng thời cho các sự kiện A, B và C là:
P(A, B và C)=(5/10)(5/10)(5/10) =0,13
Tỷ số được giữ nguyên vì sau mỗi lần lấy mẫu chúng ta lại đưa trả lại để cho
số bò của mỗi lần lấy mẫu đều là 10
Một cách nhìn khác trong mối quan hệ giữa việc lấy mẫu và bản chất của các
sự kiện là lấy mẫu không lặp lại, cũng tương tự như các sự kiện phụ thuộc trong xácsuất Lấy mẫu trong trường hợp này cũng tương tự như các sự kiện độc lập
- Xác suất điều kiện:
Xác suất điều kiện là xác suất xuất hiện của một sự kiện này sẽ là điều kiệncho sự xuất hiện của một sự kiện khác Phương trình [3-9] là cách xác định xác suấtđiều kiện của 2 sự kiện A và B:
30
Trang 31P(A|B = P(A∩ B)/P(B) [3-9]
hoặc P(B|A)=P(A∩ B)/P(A) [3-10]
Trong đó P(A) và P(B) là khác không
Ví dụ 3.3:
Một nhà khoa học làm thí nghiệm kiểm tra hiệu quả của một loại vắc xinphòng bệnh cho gà Hãy cho biết xác suất bắt gặp con gà đã được tiêm chủng màvẫn bị mắc bệnh khi lựa chọn một cách ngẫu nhiên Dựa vào số liệu quan trắc sauđây:
Tiêm vắcxin
Đốichứng
100
4456
100
66134
200
Giải
Giả sử rằng : I = Sự kiện gà bị nhiễm bệnh
H= Sự kiện gà không bị nhiễm bệnhV= Sự kiện gà được tiêm vắc xin
C = Sự kiện gà không được tiêm vắc xin
Vì mỗi ô trong bảng số liệu là kết quả của 2 sự kiện, ta có thể tính xác suấtđồng thời của chúng như sau:
P(I∩V) = 22/200 =0,11
P(I∩C) = 44/200 = 0,22
Trang 32P(H∩C) = 56/200 = 0,28
Bảng 3.1 Biểu diễn xác suất đồng thời và xác suất biên (marginal probability)cho ví dụ này
Bảng 3.1 Xác suất đồng thời và xác suất biên cho
gà được tiêm vắc xin và đối chứng
Tiêm vắcxin
Đốichứng
Xác suấtbiên
0,220,280,30
0,330,671,00
Xác suất biên là tổng của các xác suất đồng thời của mỗi sự kiện riêng rẽ Xácsuất biên 0,33 và 0,67 cho biết 33% số gà bị nhiễm bệnh và 67% là không bị nhiễmbệnh Xác suất biên 0,50 và 0,50 cho biết 50% được tiêm vắc xin và 50% là khôngđược tiêm vắc xin Để tính xác suất biên mà gà bị nhiễm bệnh trong số đã được tiêmvắc xin, ta có:
P(I|V) = P(I∩V)/P(V) [3-11]
Xác suất đồng thời, P(I∩V) từ Bảng 3.1 là 0,11 Cần chú ý rằng 0,50 là xácsuất biên mà gà bị nhiễm bệnh trong số đã được tiêm vắc xin P(I) = 0,50 Với nhữngthông tin này, xác suất điều kiện sẽ là:
Trang 33Chúng ta có thể biểu diễn không gian mẫu như đồ thị hình chữ nhật được trìnhbày ở trên, hoặc dưới dạng hình cây Đồ thị hình cây cũng được sử dụng tương tựnhư đồ thị hình chữ nhật.
Để xây dựng đồ thị hình cây, trước hết ta vẽ các điểm hoặc hình vuông nhỏ đạidiện cho thân cây như Hình 3.3 Sự xảy ra của mỗi mẫu quan trắc được đại diện chocác nhánh
Hình 3.3 Sơ đồ hình cây cho 300 người dân
với các nghề khác nhau muốn nghỉ hưu ở tuổỉ 60
Ví dụ 3.4:
Một nghiên cứu mới đây cho thấy người nông dân với các nghề khác nhaukhông muốn nghỉ hưu trước tuổi 60 Một nhà kinh tế nông nghiệp làm một cuộcđiều tra giữa những người làm công tác quản lý và các nhà sản xuất để xác định kếhoạch cho họ sau tuổi 60 Kết qủa thu được như sau, hãy vẽ sơ đồ cây và xác địnhxác suất xuất hiện đồng thời
Nghề nghiệp Kế hoạch sau tuổi 60
Nghỉ hưu (R) Không nghỉ hưu
Nghỉ hưu (R) 0,07Không nghỉ hưu (NR) 0,50
Trang 34M : Quản lý
P : Sản xuất
7020
30180
100200300Giải:
Đối với vấn đề này, có 2 nhánh chính được xây dựng từ thân cây (tree trunk).Một nhánh đại diện cho những người quản lý và nhánh kia cho những người sảnxuất Xác suất của mỗi nhánh cây là 0,33 và 0,67 như được mô tả ở Hình 3.3
Nếu dấu hiệu M, P, R và NR tương ứng cho các nhà quản lý, sản xuất, nghỉhưu và không nghỉ hưu Như vậy Xác suất đồng thời của nhà quản lý muốn nghỉ hưu
ở tuổi 60 sẽ là P(M và R) Tương tự như vậy xác suất đồng thời của người sản xuất
và tuổi nghỉ hưu 60 sẽ là P(P và R)
Bảng 3.2 Xác suất đồng thời của 300 cá nhân thích nghỉ hưu
liên quan đến nghề nghiệp khác nhau
Nghề nghiệp Nghỉ hưu
(R)
Không nghỉ hưu(NR)
Xác suất giớihạn
M : Quản lý
P : Sản xuất
Xác suất giới hạn
0,230,070,30
0,100,600,70
0,330,671,00Xác suất đồng thời này khi lựa chọn ngẫu nhiên các cá nhân làm nghề quản lýmuốn nghỉ hưu ở tuổi 60 sẽ là:
Trang 353.3 Nguyên lý tính toán
Trong một số thí nghiệm, không gian mẫu có thể là rất lớn, các kết quả thuđược là rất phức tạp và khó xác định Trong trường hợp như vậy chúng ta phải sửdụng một số kỹ thuật tính toán nhất định Nguyên tắc tính toán này chỉ được sử dụngtrong trường hợp số các sự kiện nhiều hơn 2
Dạng đơn giản nhất, nguyên lý tính toán được phát biểu như sau:
Nếu sự kiện thứ nhất có thể xảy ra với i các cách khác nhau, và sự kiện thứ 2
có thể xảy ra với j cách khác nhau thì tổng các khả năng xuất hiện sẽ là tích số của i
và j Nghĩa là:
Tổng số khả năng xuất hiện là i j
Ví dụ, nếu có 2 cách vận chuyển lúa từ trang trại đến nhà kho và 3 cách vậnchuyến chúng từ kho đến người bán buôn, và 4 cách vận chuyển từ người bán buônđến người bán lẻ Như vậy ta có tổng số 2x3x4=24 cách vận chuyển lúa từ trang trạiđến người bán lẻ
Nguyên lý phép nhân (multiplication), hoán vị (permutation) và sự tổ hợp(combination) là các kỹ thuật tính được dùng để xác định các khả năng của các conđường khác nhau cho vận chuyển lúa
- Nguyên lý phép nhân (multiplication principle):
Khi trật tự là quan trọng cho sự xảy ra của một thí nghiệm (chẳng hạn nhưtung đồng xu, HT=TH, trong đó H=mặt ngửa-heads và T=mặt sấp), nguyên lý phépnhân sẽ được sử dụng để tính tổng các khả năng xảy ra Công thức lựa chọn bội số
Trang 36hoa to là L và cuống dài là S Xác định xem có bao nhiêu cách lựa chọn bội số từ ví
dụ này trong tổ hợp chập hai:
Ta có thể áp dụng nguyên tắc này để tính toán các cách sắp xếp Tuy nhiên để
dễ dàng hơn ta áp dụng công thức :
Trong đó nPr là số lần hoán vị của n phần tử (Objects) dược lấy mỗi lần là rphần tử Ký hiệu ! là giai thừa (factorial) được dùng cả trong phép hoán vị và tổ hợp.Giai thừa của n (n !) nghĩa là tích của n(n-1)(n-2)(n-3), , [n-(n-1)]
n
p r
n
61
)1.2.3(
!1
!3)!
23(
!3)!
23(
!3
Trang 37- Tổ hợp :
Khi một trật tự là không quan trọng, ta sử dụng nguyên tắc tổ hợp(Combination principle) trong nhóm các phần tử (grouping objects) Công thức tính
tổ hợp là (ta gọi tổ hợp chập r của n)
Cũng xét với ví dụ 3.5, ta xác định có bao nhiêu cách tổ hợp của các chữ cái
Y, S và L, nếu mỗi lần ta lấy ra 2 chữ cái
3.4 Định lý Bayes
Trong nhiều nghiên cứu, ta ước lượng các xác suất cho việc phân tích các sựkiện sẽ xảy ra sau Tuy nhiên trong quá trình nghiên cứu, có nhiều thông tin mớixuất hiện có liên quan đến sự xuất hiện hay không của một sự kiện đó Với cácthông tin bổ sung này, định lý Bayes đưa ra một giá trị trung bình cho việc tính toáncác xác suất sẽ xảy ra sau đó của một sự kiện Hình 3.4 chỉ ra các bước trong việcxem xét đánh giá lại các xác suất
Xác suất trước
Các thông tin mới hoặc bổ sung
Áp dụng định lý Bayes
]143[)!
!2.3)!
23(2
!3
Trang 38Xác suất hồi cố
Hình 3.4 Sự đánh hồi cố xác suất dựa theo định lý Bayes
Định lý được phát biểu cho xác suất điều kiện được biểu diễn bằng công thức:
Giải:
38
]153[)
()(
()()(
)()(}
(
2 1
1
−
|++
|+
i i i
A P A B P A
B P A P A B P
A P A B P B
A
P
]163[)
(
)()()
B P
A B P A P B A
i
Trang 39Gỉa sử A1 là những người bị suy dinh dưỡng và A2 là những người không bịsuy dinh dưỡng Như vậy xác suất cho mỗi số liệu là:
P(A1) = 0,03 P(A2) = 0,97
Theo định lý Bayes, đây được xem là những xác suất trước (prior probability)bởi vì nó được ghi nhận lần quan sát sơ bộ về dinh dưỡng Nó không đề cập đến cáckinh nghiệm đã được áp dụng trong nhân dân Để xác định xác suất hồi cố khi đượcđánh giá lại ta phải tính xác suất kết hợp trong tử số và mẫu số của phương trình [3-16] Điều này sẽ được hoàn thiện bằng sử dụng qui tắc nhân:
Với ví dụ đang xét ta có xác suất tính toán lại như sau:
Như vậy xác suất hồi cố cho thấy người bị suy dinh dưỡng sẽ là 0,42 Cáchtính theo định lý Bayes được trình bày ở bảng 3.3
Các bước tính toán được thực hiện như sau:
Xác suấtđiều kiệnP(B|A1)
Xác suất kếthợp
P(A1)P(B|A1)
Xác suất hồi cốP(A1|B)
]203[)
()()()(
)()()
(
2 2
1 1
1 1
|+
A B P A P B
A
P
42,00673,0
0285,0)04,0)(
97,0()95,0)(
03,0(
)95,0)(
03,0()
+
=
|B A
P
Trang 40+ Bước 3: Lấy tổng của cột xác suất kết hợp để xác định xác suất liên quan vớicác thông tin mới P(B) Xác suất liên kết cho ví dụ trên với các thông tin mới bổsung, chẳng hạn như khí hậu (được gọi là sự kiện B) là 0,0673.
+ Bước 4: Tính xác suất hồi cố bằng sử dụng quan hệ cơ bản của xác suất điềukiện theo phương trình [3-15] Nghiã là, xác suất liên kết cho mỗi sự kiện được chiacho P(B), chúng là tổng của xác suất điều kiện
3.5 Phân bố xác suất
Trong các phần trên ta đã đề cập đến các khái niệm xác suất và cách tínhxác suất cho mỗi sự kiện Khi chúng ta muốn biết xác suất của mỗi lần xuất hiệntrong tập hợp của các sự kiện, ta đề cập đến phân bố xác suất Phân bố xác suất làdạng đặc biệt của phân bố tần suất khi tần suất được xem như là xác suất Ta có thểhiểu khái niệm phân bố xác suất như là danh sách hoàn chỉnh của tất cả khả năngxuất hiện của một thí nghiệm cùng với xác suất của chúng
Có một vài sự phân bố xác suất có ý nghĩa quan trọng trong khoa học nôngnghiệp và môi trường Ví dụ như phân bố nhị thức và phân bố thường cho các biếnliên tục
- Phân bố nhị thức (Binomial distribution): Đây là phân bố xác suất được sửdụng rộng rãi nhất cho một biến rời rạc Nó mô tả phân bố xác suất khi chỉ có 2 khảnăng xuất hiện của một sự kiện hoặc thí nghiệm
Ví dụ, sự phân bố số lượng lợn đực trong n con lợn mới sinh ra là phân bốnhị thức vì mỗi con lợn con có thể là đực hoặc cái Trong một thí nghiệm đồng
40