1. Trang chủ
  2. » Khoa Học Tự Nhiên

phương pháp thống kê môi trường

189 1K 25
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương pháp thống kê môi trường
Tác giả Nguyễn Xuốn Cự
Trường học Trường Đại Học Khoa Học Tự Nhiên - Đại Học Quốc Gia Hà Nội
Chuyên ngành Khoa học Nông nghiệp và Môi trường
Thể loại Bài giảng
Năm xuất bản 2008
Thành phố Hà Nội
Định dạng
Số trang 189
Dung lượng 2,72 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

PHƯƠNG PHÁP THÔNG KÊ MÔ TẢ Mục tiêu: - Tổ chức và tóm tắt số liệu một cách có hiệu quả - Tính toán các xu hướng tập trung, phân tán và các tham số đặc trưng mẫusố liệu trung bình, trung

Trang 1

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trang 2

MỤC LỤC

I H C QU C GIA HÀ N I

ĐẠ Ọ Ố Ộ 1

TRƯỜNG I H C KHOA H C T NHIÊNĐẠ Ọ Ọ Ự 1

Nguy n Xuân Cễ ự 1

BÀI GI NGẢ 1

PHƯƠNG PHÁP TH NG KÊỐ 1

TRONG KHOA H C NÔNG NGHI PỌ Ệ 1

VÀ MÔI TRƯỜNG 1

(L u h nh n i b )ư à ộ ộ 1

H N i , 2008à ộ 1

M C L CỤ Ụ 2

PH N 1 PHẦ ƯƠNG PHÁP TH NG KÊ MÔ TỐ Ả 3

CHƯƠNG 3 LÝ THUY T XÁC SU TẾ Ấ 25

CHƯƠNG 4 GI I THI U V CÁC KHÁI NI M L Y M UỚ Ệ Ề Ệ Ấ Ẫ 46

Ch ng 5 ươ ƯỚC LƯỢNG CÁC THAM SỐ 62

S TRUNG BÌNH VÀ T L PH N TR MỐ Ỷ Ệ Ầ Ă 62

PH N 3 KI M NH GI THI T TH NG KÊẦ Ể ĐỊ Ả Ế Ố 71

V CÁC THAM S C TR NG M UỀ ỐĐẶ Ư Ẫ 71

Ch ng 6 KI M NH GI THI T TRONG TRươ Ể ĐỊ Ả Ế ƯỜNG H P M T M UỢ Ộ Ẫ 71

Ch ng 7 KI M TRA GI THI T TRONG TRươ Ể Ả Ế ƯỜNG H P HAI M UỢ Ẫ 88

Ch ng 8 PHÂN T CH PHươ Í ƯƠNG SAI 101

PH N 4 PHẦ ƯƠNG PHÁP KI M NH PHI THAM SỂ ĐỊ Ố 124

CHƯƠNG 9 PHÂN T CH KHI BÌNH PHÍ ƯƠNG ( 2)χ 124

Ch ng 10 M T S PHươ Ộ Ố ƯƠNG PHÁP KHÁC 138

KI M NH PHI THAM SỂ ĐỊ Ố 138

PH N 5 KI M TRA S LIÊN K T VÀ D OÁNẦ Ể Ự Ế ỰĐ 152

Ch ng 11 Tươ ƯƠNG QUAN VÀ H I QUY N GI NỒ ĐƠ Ả 152

Ch ng 12 Tươ ƯƠNG QUAN B I (H I QUI NHI U BI N)Ộ Ồ Ề Ế 171

2

Trang 3

PHẦN 1 PHƯƠNG PHÁP THỐNG KÊ MÔ TẢ

Chương 1 GIỚI THIỆU CHUNG

Thống kê có vai trò to lớn trong phân tích các số liệu thí nghiệm và giải thíchcác kết quả nghiên cứu Học phần này nhằm cung cấp những khái niệm và các yêucầu cơ bản của phép thống kê trong khoa học nông nghiệp và khoa học môi trường

Từ thống kê có nghĩa riêng và có nghĩa chung Theo nghĩa riêng thống kê(statistics) là một lĩnh vực khoa học tương tự như nông học, đất, khoa học môitrường, theo nghĩa chung nó là những tập hợp các số liệu được thu thập được

Trong thống kê bao gồm cả lý thuyết và phương pháp xử lý tính toán Thống

kê là phương pháp và công cụ dùng phân tích các tập hợp số liệu để có những quyếtđịnh tốt hơn

Phương pháp thống kê có nghĩa rất lớn trong phân tích và đánh giá số liệu

và được áp dụng cho nhiều ngành khoa học khác nhau Ví dụ các nhà khoa họctrồng trọt khi giúp nông dân nâng cao năng suất cây trồng từ các thí nghiệm đồngruộng có nhiều khác biệt với các vùng sản xuất khác nhau Các nhà kinh tế nôngnghiệp lại sử dụng để dự báo yêu cầu trong tương lai

Chương 2 PHƯƠNG PHÁP THÔNG KÊ MÔ TẢ

Mục tiêu:

- Tổ chức và tóm tắt số liệu một cách có hiệu quả

- Tính toán các xu hướng tập trung, phân tán và các tham số đặc trưng mẫu(số liệu trung bình, trung vị, số trội, và ý nghĩa của nó)

- Tính toán sự biến động của số liệu (khoảng dao động, phương sai, độ lệchchuẩn) và ý nghĩa của chúng

Trang 4

2.1 Giới thiệu về thống kê mô tả

Các số liệu được thu thập trong khoa học môi trường cũng như nông nghiệpnói chung và khoa học đất nói riêng khi chưa dược xử lý và phân tích sẽ rất khóđánh giá và đưa ra những quyết định đúng đắn trong việc sử dụng số liệu này Tậphợp các số liệu quan trắc có thể có nhiều cách xử lý khác nhau Thông thường có thể

tổ chức theo thứ tự từ giá trị nhỏ nhất đến giá trị lớn nhất Cách sắp xếp này có thểcung cấp được nhiều thông tin có ý nghĩa

Ví dụ 2.1 Một nhà khoa học nông nghiệp khi phân tích ảnh hưởng của

Thiamine hydrochloride (vitamin B1) dến sinh trưởng của cây cà chua Có 50 cây càchua được xử lý bằng Thiamine hydrochloride được đo chiều cao một cách ngẫunhiên, sau 14 ngày xử lý cho kết quả như sau:

Bảng 2.0 Ảnh hưởng của Thiamine hydrochloride dến chiều cao cây cà chua(cm)

21,8 21,6 22,5 21,8 21,8 23,4 22,7 21,5 24,0 22,922,0 21,8 23,0 22,2 23,2 23,3 22,6 23,2 23,9 22,722,3 23,1 22,4 22,1 22,6 21,9 22,8 22,2 24,2 23,222,1 23,2 22,9 22,5 23,8 22,6 23,7 22,8 22,8 23,522.9 23,3 23,0 23,0 22,9 22,5 22,1 23,5 22,5 23,6Giải:

Bước 1: Sắp xếp các số liệu quan trắc ở bảng 2.0 theo thứ tự từ nhỏ dến lớn như

ở Bảng 2.1 Các số liệu này đã cho ta biết một số thông tin cơ bản, ví dụ như độ caocủa cây cà chua dao động từ 21,5 đến 24,5 cm Sự chênh lệch giữa cây thấp nhất vàcây cao nhất quan sát dược là 2,7 cm Số cây có độ cao 21,5 - 22,8 cm chiếm 50%

số cây quan trắc và 50% số cây cao từ 22,8 cm đến 24,2 cm Hơn nữa sự sắp xếpnày cũng chỉ rõ mức độ tập trung hoặc phân tán của các giá trị quan trắc xung quanh

độ cao trung bình Trong thí nghiệm này, cây có độ cao phổ biến ở khoảng 22,5 22,9 và 23,2 cm Trong khi đó ít cây có độ cao 21,5 - 21,6 - 23,1 – 24,0 và 24,2 cm.Bảng 2.1 dãy số liệu quan trắc chiều cao cây cà chua theo thứ tự từ nhỏ đến lớn

4

Trang 5

22,822,922,922,922,923,023,023,023,123,223,223,223,223,323,323,423,523,523,623,723,823,924,024,2

Tuy nhiên với cách sắp xếp này chúng ta cũng rất khó xác định độ cao trungbình của cây cà chua, đặc biệt là khi số liệu quan trắc càng lớn

Trang 6

Để có cách nhìn rõ ràng hơn người ta sắp xếp dãy số liệu quan trắc theo tầnsuất xuất hiện của chúng và được gọi là sự phân bố tần suất.

2.2 Phân bố tần suất

Trong phân bố tần suất, các số quan trắc được sắp xếp theo thứ tự lớn dầncủa các giá trị quan trắc bắt gặp và số lần quan trắc (Bảng2.2)

Bảng 2.2 Phân bố tần suất cho số liệu ở Bảng 2.1

Chiều cao cây cà chua (cm) Tần suất21,5

21,621,821,922,022,122,222,322,422,522,622,722,822,923,023,123,223,323,423,523,6

1132132114323431421216

Trang 7

11111Cũng có thể sắp xếp các số liệu theo từng nhóm giá trị không trùng lặpnhau Số lượng các nhóm giá trị phân chia phụ thuộc vào số liệu các quan trắc Khicác só liệu quan trắc càng nhiều thì số các nhóm cũng càng lớn Tuy nhiên thôngthường người ta chia thành 5 đến 15 nhóm giá trị khác nhau Theo Sturges (1926) sốlượng các nhóm được xác định theo công thức sau:

Trong đó: k = Số lượng nhóm

n= số lần quan trắcTheo luật Sturges, các số liệu ở bảng 2.0 sẽ được chia thành 7 nhóm như sauđược trình bày ở Bảng 2.3 Trong đó số nhóm k được xác định như sau:

k = 1 + 3,322 (lg50) = 1 + 3,322 (1,6989) = 7Như vậy với tập hợp của 50 giá trị quan trắc, các số liệu sẽ được chia thành

7 nhóm (Bảng 2.3)

Sự sắp xếp như ở Bảng 2.3 đã chỉ rõ các nhóm giá trị và tần suất của các giátrị quan trắc của chúng Cụ thể là 5 cây cà chua có độ cao 21,5 - 21,8 và 8 cây có độcao 21,9 - 22,2 cm, Các số liệu ở bảng 2.3 cũng có thể được biểu diến dưới dạngbiểu đồ đa giác tần suất hoặc nối các điểm giữa giá trị các nhóm

-Tính tần suất tương dối: Tần suất tương đối là khi giá trị tần suất được biểu thịdưới dạng các tỷ lệ tương đối hay tỷ lệ phần trăm

Tần suất tương đối

Trang 8

n = số lần quan trắcBảng 2.3 Phân bố tần suất theo nhóm

Nhóm Độ cao (cm) Tần

suất1

234567

21,5-21,821,9-22,222,3-22,622.7-23,023,1-23,423,5-23,823,9-24,2

58912853

Ví dụ như ở nhóm 2 (Bảng 2.3) ta có:

Tần suất tương đối của nhóm thứ hai là 8/50 = 0,16

hay biểu diễn dưới dạng phần trăm ta có:

Tầnsuất (f)

Tần suấttương đối (f/n)

Phần trăm(f/n) x10021,5-21,8

21,9-22,222,3-22,622,7-23,023,1-23,8

589128

0,100,160,180,240,16

10161824168

Trang 9

53

0,100,06

106

n =50

2.3 Xác định xu hướng tập trung của các giá trị quan trắc

Thông thường người ta hay nói đến giá trị trung bình Tuy nhiên giá trịtrung bình chỉ đơn thuần là giá trị ở giữa của một tập hợp nhiều giá trị quan trắc Dovậy để đặc trưng cho xu hướng tập trung của mẫu có nhiều giá trị khác nhau được sửdụng như số trung bình cộng, số trung vị và số trội

- Số trung bình cộng (Mean): Đây là giá trị được xác định bằng thương số của tổngcác giá trị quan trắc với số lần quan trắc được biểu diễn là X :

X X

X X

++

+++

i i i

i k i k

k

m m

m

X m X

m X m X

1 1

2 1

2 2 1 1

1

Ví dụ 2.3: Giá thóc trung bình bán ra ở 20 trang trại được thống kê như sau, hãy xác

định giá thóc trung bình được bán ra?

Trang trại Giá thóc (đ/kg) Trang trại Giá thóc (đ/kg)

1

2

20003500

1112

22002250

Trang 10

1800320029003100360034003800Giải:

270520

38003400

Như vậy giá thóc trung bình được bán ra là 2795 nghìn đồng/kg

Ý nghĩa của số trung bình cộng:

+ Trung bình cộng là một giá trị tổng hợp cô đọng đặc trưng tiêu biểu chotoàn bộ các giá trị quan trắc của một tập hợp

+ Trung bình cộng là biểu diễn xu hướng tập trung của mẫu quan trắc trênmột đặc trưng giống nhau Nhưng trung bình cộng chưa biểu thị được đặc điểm thứhai của một mẫu là xu hướng phân tán của các số liệu

+ Tổng sai số các giá trị quan trắc Xi với giá trị trung bình cộng X luônbằng 0 Tức là:

x

- Số trung bình trọng số (Weighted mean):

Trong nhiều trường hợp, tập hợp mẫu quan trắc bao gồm từ nhiều nhóm cónhững dặc tính khác nhau Số trung bình chung được tính từ các số trung bình củatừng nhóm riêng rẽ Như vậy nếu tính trung bình cộng có nghĩa là ta coi sự đónggóp của các nhóm là như nhau Để phân biệt sự tham gia không ngang nhau của các

10

Trang 11

nhóm ta cần thiết phải thêm các trọng số để bảo đảm tính cân bằng khi tính số trungbình chung.

Ta có:

w

wX w

X

=Trong đó w = trọng số áp dụng cho giá trị X

X(tạ/ha)

diện tích(ha)

Sản lượng

ABCDTổng

130,7144,3140,0120,0

64636651254

8364,89090,99240,06120,032.815,7

Từ số liệu bảng 2.5, nếu tính số trung bình chung cho 4 giống ta có giá trịtrung bình X= 133,75 tạ/ha Tuy nhiên trong trường hợp này các giống dược trồngtrên những diện tích khác nhau nên cần thêm các trọng số (diện tích) cho từng từnggiống ngô Hay ta nhân cột (1) với cột (2) Theo cách tính số trung bình trọng số tacó:

49,134254

7,

- Số trung vị (Median):

Trang 12

Số trung vị (Med) được xác định là số đứng giữa của một dãy số liệu đượcsắp xếp theo trật tự giảm dần hoặc tăng dần Trong trường hợp tỏng số quan trắc là

lẻ thì trị số sẽ là số có vị trí ở giữa dãy số liệu, còn khi số quan trắc là số chẵn thì nó

có giá trị là giá trị trung bình của hai quan trắc đứng giữa dãy số liệu

Số trung vị có thể có giá trị bằng hoặc khác các số trung bình và số trội tuỳtheo phân bố của chúng Nếu phân bố của biến ngẫu nhiên đối xứng và có một sốtrội (Mode) thì cả 3 đặc trưng số trung bình cộng (Mean), số trung vị (Median) và sốtrội (Mode) là trùng nhau Nếu phân bố đối xứng thì dùng Mean định vị là tốt nhất,trong khi nếu phân phối quá lệch thì dùng số trung vị (Median) và số trội (Mode) đểđịnh vị sẽ tốt hơn

Ý nghĩa của số trung vị: Số trung vi chia tập hợp các số liệu quan trắc thành

2 phần bằng nhau Nghĩa là có một nửa các số liệu có giá trị nhỏ hơn và một nửa cógiá trị lớn hơn số trung vị

Ví dụ 2.5: Tỷ P2O5 trong 6 loại phân bón có chứa phốt pho như sau, xác địnhMed của chúng

Giải: Trước hết ta phải sắp xếp tỷ lệ phần trăm P2O5 của các loại phân bóntheo thứ tự tăng dần như sau: 20-34-39-46-48-62 Áp dụng công thức tính Med tacó:

5,422

Trang 13

Giả sử ta chỉ có 5 loại phân bón khác nhau (không có loại phân thứ 6), lúc

đó ta có Med = 39

Nói tóm lại trong trường hợp dãy số liệu với n là số lẻ thì trọng số sẽ là sốthứ (n+1)/2 Còn nếu n là số chẵn thì số trung vị sẽ là giá trị trung bình cộng của trị

số thứ (n/2) và [(n/2)+1]

- Số trung vị trong phân bố tần suất:

Khi tính số trung vị trong trường hợp phân bố tần suất hoặc gộp các số liệuthành từng lớp thì cũng làm tương tự như trường hợp trên Số trung vị dược xác địnhtheo công thức:

( )i f

CF n

f = Tần suất của lớp chứa số trung vị

Ví dụ 2.6: Trong một lần điều tra về thu nhập của người dân, nhà kinh tế nông

nghiệp đã thu được các số liệu ở Bảng 2.7 Hãy tính số trung vị về thu nhập củangười dân trong các nhóm được điều tra

Bảng 2.7 Tính toán số trung vị của phân bố tần xuất

Thu nhập hàng năm

(triệu đồng)

Số người dân(f)

Tần suất tích luỹ(CF)

5122234

Trang 14

17 120

486884103120

Giải:

- Bước 1: Cần xác định giá trị n/2; trong trường hợp này n/2=120/2=60 Chúng

ta hy vọng là người nông dân thứ 60 sẽ đại diện cho thu nhập trung bình của cảnhóm đã được điều tra

- Bước 2: Xác định tần suất tích luỹ như kết quả ở cột CF của bảng 2.7 Các gíatrị này cho biết n/2 nằm ở vị trí nào Từ bước thứ nhất ta biết rằng số trung bình sẽnằm ở lớp có chứa tần suất tích luỹ là 60 Tức là ở lớp có thu nhập 35,000-39,999triệu động/năm Giá trị thấp hơn giới hạn dưới của lớp này là 34,9995 và cao hơngiới hạn trên là 39,9995 Theo phương pháp tính toán đã nói ở trên chúng ta sử dụnggiá trị thấp hơn giới hạn dưới của lớp có chứa số trung vị Bởi vì tần suất tích luỹcủa 5 lớp đầu là 48 và 6 lớp đầu là 68 Do vậy số trung vị sẽ nằm ở vị trí nào đó giữalớp thứ 5 và thứ 6

- Bước 3: Xác định có bao nhiêu trường hợp sẽ được cộng vào lớp thấp hơn từlớp cao hơn dể có giá trị n/2 hoặc 60 trường hợp Vì lớp 5 có tần suất tích luỹ là 48,nên cần có thêm 12 trường hợp nữa nằm trong lớp thứ 6 Như vậy số trung vị sẽ lấygiá trị 12/20 trong khoảng 34,9995 và 39,9995

Áp dụng công thức [2-7] ta có:

20

4821209995

,34

L Med

14

Trang 15

Như vậy số trung vị về thu nhập của người sản xuất là 37,9995 triệuđồng/năm Hay có một nửa số người sản xuất có thu nhập dưới 37,9995 triệuđồng/năm và một nửa còn lại sẽ có thu nhập cao hơn.

- Số trội (Mode): Số trội là một giá trị (hoặc nhiều giá trị) mà chúng có tần suấtlớn vượt trội Số trội được ký hiệu là Mod

Khác với giá trị Mean và Med, số trội được xác định trên cơ sở chuỗi số liệuhoặc biểu đồ tần suất Nó cho biết giá trị thường gặp nhất của X trong một dãy sốliệu quan trắc

Ví dụ 2.7: Một nhà nghiên cứu khi quan sát khả năng nảy mầm của loại hạt

giống thu được dãy số liệu về thời gian các hạt giống nảy mầm như sau: 4 – 5 – 7 –

4 – 5 – 5 – 6 – 6 – 5 – 4 – 5 – 4 – 6 – 5 – 5 ngày Hãy xác định Mod của tập hợp sốliệu này

Giải: Từ dãy số liệu trên cho thấy giá trị 5 ngày được ghi nhận ở 7 trườnghợp là nhiều nhất Do vậy số trội của dãy số liệu này là 5 ngày

Cần chú ý rằng có nhiều dãy số liệu không có số trội Ví dụ như 4 giá trịquan trắc về ngày nảy mầm của hạt là 4 - 5 - 6 - 7 ngày Ngược lại cũng có dãy sốliệu có thể có hai hay nhiều số trội Ví dụ dãy quan trắc sự nảy mầm của hạt vào cácngày 4 - 4 - 4 – 5 - 6 - 7 - 5 - 5 - 6 - 4 - 5 Ta có hai số trội là 4 ngày và 5 ngày

Với sự phân bố tần suất, chẳng hạn như ở Bảng 2.7, số trội là xấp xỉ với lớptrội Lớp trội cũng là lớp có tần suất lớn nhất Để xác định số trội trong trường hợpnày cần giả thiết rằng tần suất có phân bố đồng nhất ở tất cả các lớp Trong ví dụnày, lớp thứ 6 có tần suất 20 là lớp trội Do vậy số trội được tính như sau:

4995,372

999,4000,

Khi phân bố tần suất không thuần nhất ở các lớp, ta sẽ tính số trội theo côngthức:

( )i d d

d L

=

211

Trang 16

Trong đó L: Giá trị thấp hơn giới hạn dưới của của lớp trội

d1: Sự khác nhau giữa tần suất của lớp trội với tần suất của lớptrước nó

d2: Sự khác nhau giữa tần suất của lớp trội với lớp tiếp theo i: Khoảng cách của lớp trội

Với ví dụ ở Bảng 2.7, ta có:

( )i d d

d L

=

21

1

)1620()1420(

14209995

−+

Giá trị trung bình (Mean) được dùng rất phổ biến biểu thị kích thước trungbình của tập hợp các số liệu quan trắc khi không có giá trị vượt trội đặc biệt Trongkhi đó số trung vị (Median) sẽ không bị ảnh hưởng bởi các giá trị vượt trội Tuynhiên số trung vị sẽ không phản ánh đúng kích thước trung bình của tập hợp mẫukhi có vấn đề trong lấy mẫu Trong trường hợp này số trung bình cộng sẽ có ýnghĩa tốt hơn Số trội là đại diện cho kích thước trung bình của tập hợp mẫu vì nókhông bị ảnh hưởng bởi dạng đường cong phân bố Tuy nhiên hạn chế của số trội là

nó không có sự tính toán chính xác Hơn nữa do điều kiện lấy mẫu, số trội là ít cótính xác thực hơn

2.4 Xác định sự biến động hay độ phân tán mẫu

Mức độ biến động hay độ phân tán mẫu là khoảng giá trị sai khác của cácgiá trị quan trắc so với giá trị trung bình Nhìn chung khoảng cách từ gía trị quantrắc so với giá trị trung bình càng lớn thì mức độ phân tán của mẫu cũng càng lớn

Để biểu diễn mức độ phân tán của mẫu, người ta thường dùng các giá trị độ biếnthiên, độ lệch trung bình, phương sai, độ lệch chuẩn

-Khoảng biến thiên (Range): Là sự sai khác giữa giá trị nhỏ nhất và lớn nhấttrong dãy số liệu:

R= X max – X min [2-9]

Ví dụ 2.8: Trong dãy số liệu là 4,2-6,7-3,4-2,3-7,9 ta có khoảng dao động là:

R= 7,9-2,3=5,6

16

Trang 17

Việc xác định khoảng dao động là đơn giản, tuy nhiên nó chỉ đề cập đến 2 giátrị trong dãy số liệu nên không phản ánh chính xác độ phân tán thực của mẫu.

- Độ lệch trung bình (Average deviation): Độ lệch trung bình được xác định

là sự sai khác trung bình của các giá trị quan trắc với giá trị trung bình cộng Khitính toán, tổng của các độ lệch này luôn luôn bằng 0

n

x x

0,36,25,18,175

9,49,7

9,47,69,42,4

=++++

=

−++

−+

=

AD

Như vậy giá trị độ lệch trung bình của mẫu là 1,92

- Phương sai (Variance): Phương sai của một mẫu là trung bình độ lệch bìnhphương của các giá trị quan trắc so với giá trị trung bình Phương sai của biến ngẫunhiên là một số không âm dùng để chỉ mức độ phân tán của biến ngẫu nhiên xung

Trang 18

Công thức tính phương sai của một tổng thể như sau:

x = Giá trị quan trắc

µ= Giá trị trung bình của tổng thể N= Số quan trắc trong tổng thểĐối với một mẫu, thì phương sai được tính theo công thức:

( )2 2

Trong đó: S2 = Phương sai mẫu

x= Giá trị quan trắc

x= Số trung bình mẫun= Số quan trắc trong mẫu

Ví dụ 2.10: Một nhà khoa học khi nghiên cứu đã cho thấy ô nhiễm dầu ở đại

dương do sự cố tràn dầu đã có ảnh hưởng đến sự sinh trưởng của các vi khuẩn.Nghiên cứu trên 20 mẫu nước biển cho thấy kết quả số vi khuẩn trong 100 ml nướcbiển như sau, hãy xác định phương sai của quần thể vi sinh vật này

Giải:

95,5320

9,3780

2

N

X µσ

18

Trang 19

X X −µ (X −µ)232

65724552745342586159403676557562483539

-21,9511,0518,05-8,95-1,9520,05-0,95-11,954,057,055,05-13,95-17,9522,051,0521,058,05-5,95-18,95-14,95

48,18122,1325,880,13,8402,00,9142,816,449,725,5191,6322,2486,21,1443,164,835,4359,1223,5

Trang 20

=

σ (vi khuẩn)

Vì số vi khuẩn phải là số nguyên nên ta làm tròn thảnh 14 con vi khuẩn

Cũng có thể tính phương sai bằng phương pháp ngắn gọn hơn theo công thứcsau:

2 2

X

σVới ví dụ 2.10 ta có:

0,18920

39

653220

39

- Độ lệch chuẩn (Standard deviation): Độ lệch chuẩn là giá trị căn bậc 2 củaphương sai Nó có ý nghĩa lớn thể hiện sự phân tán của mẫu và được dùng để sosánh sự phân tán của các mẫu khác nhau Khi mẫu có độ lệch chuẩn càng lớn chứng

tỏ mức độ phân tán của mẫu cũng càng lớn Công thức để tính độ lệch chuẩn chomột tổng thể như sau:

Hoặc ngắn gọn hơn, có thể áp dụng công thức:

2 2

X

20

Trang 21

Đối với một mẫu ta áp dụng công thức sau:

n n

X X

Cần chú ý rằng độ lệch chuẩn của mẫu sẽ lấy mẫu số là n-1 Theo Mason(1982) nếu sử dụng n thay cho n-1 thì độ lệch chuẩn sẽ bị nhầm lẫn với cách tínhcủa tổng thể, đặc biệt là khi kích thước của mẫu nhỏ

Ví dụ 2.11: Doanh số bán hàng của một nhóm các công ty máy nông nghiệp

được chọn một cách ngẫu nhiên là 24-32-28-22-20-26-28 và 20 triệu đồng/tháng.Tính độ lệch chuẩn của mẫu

X

X −24

32282220262820

-173-3-513-5

14999251925

Trang 22

18

1281

Theo cách rút gọn ta có:

2432282220262820200

57610247844844006767844005128

28,47

1287

50005128

188

20051281

2 2

X X

S

Mối quan hệ giữa giá trị trung bình (Mean) và độ lệch chuẩn được xác địnhtheo định lý Chebyshev: "Với bất kỳ một dãy số liệu quan trắc nào đó, ít nhất sẽ có[1-(1/k2)] các giá trị quan trắc nằm trong phạm vi k lần độ lệch chuẩn của dãy số liệu

đó xung quanh giá trị trung bình"

Trên cơ sở định lý này, sẽ có ít nhất 75% các giá trị trong dãy số liệu quantrắc nằm trong phạm vi 2 lần độ lệch chuẩn ở phía trên và dưới giá trị trung bình Ítnhất 88,9% nằm trong phạm vi 3 lần độ lệch chuẩn xung quanh giá trị trung bình, và

ít nhất 96% nằm trong phạm vi 5 lần độ lệch chuẩn xung quanh giá trị trung bình

22

Trang 23

Theo công thức của Chebyshev ta có các giá trị phần trăm tương ứng với hai

ba và năm lần độ lệch chuẩn như sau:

Với khoảng 75% ta có: 0,75

4

112

11

11

11

- Độ lệch chuẩn của các nhóm số liệu: Tính toán độ lệch chuẩn trong trường hợpcủa các nhóm số liệu hoặc phân bố tần suất, chúng ta áp dụng công thức sau:

1

2 2

n n

fx fx

Trong đó: x = Điểm giữa của lớp

f = Tần xuất của lớp

n = Số lượng quan trắc

Ví dụ 2.12: Để xây dựng kênh dẫn nước tưới cho đồng ruộng, một cơ sở xây

dựng đã nhận sự tài trợ của nhiều tổ chức và cá nhân khác nhau Người ta đã thống

kê được mức đóng góp như sau, tính độ chênh lệch chuẩn cho các nhóm số liệu đó.Giải:

Xây dựng bảng số liệu (Bảng 2.8) sau đó áp dụng công thức [2-18] để tính

độ lệch chuẩn

Trang 24

đồng)0,00 - < 5,00 305,00 - < 10,00 3510,00- < 15,00 4215,00- < 20,00 1020,00- < 25,00 325,00- < 30,00 530,00- < 35,00 7

Bảng 2.8 Tính các gía trị cho các nhóm số liệu

(1)

Mức đóng góp

(triệu đồng)

(2)Tầnsuất(f)

(3)Điểmgiữa(x)

(4)(fx)

(5)fx.x(fx2)

0,00 - < 5,00 30 2,5 75,00 187,505,00 - < 10,00 35 7,5 262,50 1968,7510,00- < 15,00 42 12,5 525,00 6526,5015,00- < 20,00 10 17,5 175,00 3062,5020,00- < 25,00 3 22,5 57,50 1518,7525,00- < 30,00 5 27,5 137,50 3781,2530,00- < 35,00 7 32,5 227,50 7393,75

0

87,787,611

132132

147024475

1

2 2

fx fx

S

24

Trang 25

Phần 2 THỐNG KÊ SUY LUẬN TRONG

KHOA HỌC NÔNG NGHIỆP VÀ MÔI TRƯỜNG

CHƯƠNG 3 LÝ THUYẾT XÁC SUẤT

3.1 Giới thiệu

Ở chương trước đã đề cập đến phương pháp thống kê mô tả Tuy nhiênphương pháp này không cho phép suy luận các giá trị của tổng thể từ các đặc trưngmẫu Do vậy ta phải sử dụng phương pháp thống kê suy luận Quan điểm lí thuyếtxác suât có ý nghĩa quan trọng để giải thích cho phương pháp thống kê suy luận

Trong thực tế, các nhà nghiên cứu hoặc quản lí thường phải đối mặt với việcphải quyết định các vấn đề mà được dựa trên những thông tin và các số liệu hạn chế

Vì để có được số lượng đủ lớn, các thông tin hay số liệu thường đòi hỏi chi phí lớn

về kinh phí cũng như thời gian Lí thuyết sác xuất có liên quan đến quan niệm và sựxác định các sự kiện không chắc chắn

Các quyết định được đưa ra bởi các nhà nghiên cứu hoặc quản lí với sự hạnchế thông tin thường có chứa đựng các nguy cơ có liên quan đến các sự kiện khôngchắc chắn Để phân tích các nguy cơ này, các nhà quản lí và nghiên cứu phải dựavào lí thuyết xác suất Trong phần này, chúng ta chỉ đề cập đến khái niệm xác suấtnhư một phương pháp làm tăng mức độ tin tưởng của một quyết định nào đó trongkết quả của xuất hiện của một sự kiện hoặc thí nghiệm

3.2 Các khái niệm và phương pháp xác định xác suất

- Sự kiện (hay còn gọi là biến cố- event): Một sự kiện được xác định là kết quảkhông chắc chắn của một thí nghiệm, hoặc một hoặc nhiều kết quả có thể của mộtquan trắc hay một thí nghiệm nào đó Hay nói cách khác, sự kiện là kết quả của 1phép thử Mỗi sự kiện tương ứng với một tập hợp kí hiệu là A, B,

Ví dụ có 5 hạt thóc giống đem thí nghiệm về sự nảy mầm của chúng Kết qủa

cả 5 hạt giống đều nảy mầm là một khả năng có thể xuất hiện, đó là một sự kiện Khi

Trang 26

hành phép thử Có sự kiện là không thể (ø), nghĩa là nó không thể xảy ra khi tiếnhành phép thử Có sự kiện là ngẫu nhiên (A, B ), nghĩa là nó có thể xảy ra hoặckhông xảy ra khi tiến hành phép thử Có sự kiện là tất nhiên (A, B, ), nghĩa là nótất yếu sẽ xảy ra khi tiến hành phép thử.

- Không gian mẫu (sample space): Bao gồm tất cả các sự kiện có thể xuất hiệntrong thí nghiệm hoặc quan trắc Ví dụ, khi gieo 5 hạt giống thì có 6 khả năng xảy ra

là 0, 1, 2, 3, 4, 5 hạt sẽ nảy mầm Ta gọi đó là không gian mẫu

- Tổng của 2 sự kiện: Tổng của các sự kiện (∪) được xác định là toàn bộ các sựkiện xảy ra của 1 sự kiện có chứa tất cả các điểm mẫu thuộc A hoặc B hoặc cả hai,

và được kí hiệu là A ∪ B

Hình 3.1 cho thấy tổng các sự kiện A và B và được gọi là sơ đồ Venn (J.Venn, 1834 - 1888) Hình chữ nhật biểu diễn không gian mẫu (sample space) nóchứa các điểm mẫu Tổng của tất cả các điểm mẫu là không gian mẫu Hai vòng tròn

là đại diện cho các sự kiện A và B Trên thực tế vùng chồng lấn là diện tích chungcủa cả A và B Để có xác suất của sự kiện A và B chúng ta phải trừ đi 1 vùng chồnglấn từ tổng xác suất của sự kiện A và B

Hình 3.1 Tổng các sự kiện A và B khi các sự kiện là loại trừ nhau

và khi chúng không loại trừ nhau

- Sự giao nhau của các sự kiện: Sự giao nhau của 2 sự kiện được khái niệm làmột sự kiện mà có chứa các điểm mẫu thuộc cả A và B Sự giao nhau của hai sự

Trang 27

kiện A và B được ký hiệu là A∩B Hình 3.1, phần giao nhau giữa 2 sự kiện A và Bchính là diện tích chồng lấn của 2 hình tròn A Và B.

- Các qui tắc cơ bản của xác suất: Tính toán xác suất được dựa trên các qui tắccủa phép cộng hoặc nhân Khi ta có 2 sự kiện, nếu muốn biết xác suất mà ít nhất sẽ

có một sự kiện xảy ra, ta áp dụng qui tắc cộng Một cách khác nếu muốn biết xácsuất mà sự kiện A hoặc B, hoặc cả 2 xuất hiện, ta chỉ đơn thuần là cộng cả 2 xác suất

P(A hoặc B)=P(A)+P(B) [3-1]

hoặc P(A ∪ B) = P(A)+P(B) [3-2]

Trong trường hợp này cả A và B sẽ xuất hiện ngang nhau trong tổng xác suấtcủa A Và B

Ví dụ, nếu ta tung con súc sắc thì xác suất xuất hiện mặt 2 hoặc 3 chấm sẽ là:P(2 hoặc 3) = P(2) + P(3)

=1/6+1/6 = 2/6 = 0,33Tình huống mà 2 sự kiện là không loại trừ nhau chính là hiệu của diện tích(phần gạch chéo giao nhau) ở hình 3.1 Đây là vùng mà cả 2 sự kiện đều có khảnăng xuất hiện Vì vậy qui tắc cộng xác suất sẽ là:

P(A hoặc B) = P(A) + P(B) - P(A và B) [3-3]

Ví dụ: Nếu ta rút một quân bài từ tập tú lơ khơ, xác suất để rút được quân K

Trang 28

P(K hoặc cơ) =P(K) + P(cơ) - P(K và cơ)

= 4/52+13/52-1/52

= 16/52

= 0,31Nếu ra muốn xác định xác suất của 2 (hoặc vài) sự kiện cùng xuất hiện đồngthời ta áp dụng qui tắc nhân Qui tắc nhân được áp dụng khác nhau phụ thuộc vàocác sự kiện chúng là độc lập hay phụ thuộc nhau Hai sự kiện là độc lập nhau nếu sựxuất hiện của sự kiện này không ảnh hưởng đến sự xuất hiện của các sự kiện kia

Để mô tả khái niệm này, giả sử ta có một cặp xúc sắc, trong đó 1 con xúc sắcmàu trắng và một con xúc sắc màu đen Sự xuất hiện mặt 3 chấm của con xúc sắcmàu trắng là hoàn toàn độc lập với sự xuất hiện mặt 3 chấm của con xúc sắc mầuđen Ta ký hiệu xác suất của các sự kiện độc lập như sau:

P(A và B) = P(A) x P(B) [3-4]

hoặc P(A∩ B) = P(A) x P(B) [3-5]

Sử dụng phương trình [3-4] để xác định xác suất của mặt 3 chấm của cặpxúc sắc này là:

P(3 trên trắng và 3 trên đen) = P(3 trên trắng) x P(3 trên đen)

= 1/6 x 1/6 = 1/36 = 0,028Khi 2 sự kiện (A và B) phụ thuộc nhau thì xác suất xuất hiện của sự kiện này

sẽ phụ thuộc hoặc là điều kiện cho sự xuất hiện hay không xuất hiện của sự kiệnkhác Ký hiệu | được sử dụng để chỉ xác suất điều kiện như trình bày trên Ví dụ,P(A|B) nghĩa là xác xuất của sự kiện A là điều kiện cho sự xuất hiện của sự kiện B.Qui tắc xác suất trong xác suất có điều kiện được biểu diễn như sau:

P(A∩ B) = P(A) x P(A|B) [3-6]

hoặc P(A∩ B) = P(B) x P(B|A) [3-7]

28

Trang 29

Ở phương trình [3-6] sự xuất hiện đồng thời của A và B là ngang nhautrong tích số xác suất của sự kiện A, và xác suất của A là điều kiện cho sự xuất hiệncủa B Ta có thể sử dụng phương trình [3-6] hoặc [3-7] để tính P(A|B).

Ví dụ 3.1:

Trong buổi thuyết trình trước một nhóm các đại lý, phó chủ tịch công ty hoáchất nông nghiệp chỉ ra rằng, với kinh nghiệm trước đây cho thấy xác suất bán hàngcho một nông trại ở lần chào hàng thứ 2 là 0,30 Các ghi nhận được cho thấy có 52%các lần bán hàng như vậy đạt trên 200 nghìn đồng Hãy xác định xác suất mà các đại

lý bán hàng sẽ bán được trên 200 nghìn đồng?

Giải:

Trước khi áp dụng phương trình [3-6] hoặc [3-7] để tìm xác suất, ta đặt vấn đềnhư sau:

P(A)= xác suất mà một lần bán hàng tiến hành

P(A| B)= xác suất mà một lần bán hàng được trên 200 nghìn đồng

Xác suất các đại lý bán hàng tiến hành với 1 lần bán được trên 200 nghìn đồnglà:

P(A và B)=P(A)xP(A|B)

= (0,30)(0,52) = 0,16Qui tắc nhân xác suất có thể được áp dụng với bất kỳ số lượng các sự kiện Vớitrường hợp nhiều hơn 2 sự kiện ta có công thức sau:

P(A, và B, , và N)=P(A)P(B|A)P(C|B và A), , P(N|N-1) và, , A) [3-8]

Ví dụ 3.2:

Một nhà khoa học chăn nuôi thử nghiệm 3 loại thức ăn khác nhau nhằm tăngcao khả năng tăng trọng của bò Nghiên cứu được tiến hành ở 10 con bò, trong đó 5con là giống Angus, 3 con giống Brahman và 2 con giống Hereford Giả sử rằng có

3 con được chọn ngẫu nhiên từ danh sách đánh số từ 1 đến 10 Mỗi lần chọn 1 con,

Trang 30

nên sau mỗi lần chọn mẫu, số con bò còn lại sẽ có các cơ hội ngang nhau để dượclựa chọn tiếp Tìm xác xuất mà cả 3 con bò được lựa chọn đề là giống Angus.

Từ ví dụ này có 2 điều quan trọng cần lưu ý là: (1) sự xuất hiện đồng thời cả 3giống A, B và C là như nhau Nghiã là qui tắc nhân sẽ được áp dụng để tính toán (2)nếu ta lấy ngẫu nhiên theo cách thay thế, xác suất cho mỗi sự kiện sẽ được duy trìnhư nhau Với ví dụ trên nếu ta lấy mẫu thay thế (lấy mẫu lặp) ta có khả năng xuấthiện đồng thời cho các sự kiện A, B và C là:

P(A, B và C)=(5/10)(5/10)(5/10) =0,13

Tỷ số được giữ nguyên vì sau mỗi lần lấy mẫu chúng ta lại đưa trả lại để cho

số bò của mỗi lần lấy mẫu đều là 10

Một cách nhìn khác trong mối quan hệ giữa việc lấy mẫu và bản chất của các

sự kiện là lấy mẫu không lặp lại, cũng tương tự như các sự kiện phụ thuộc trong xácsuất Lấy mẫu trong trường hợp này cũng tương tự như các sự kiện độc lập

- Xác suất điều kiện:

Xác suất điều kiện là xác suất xuất hiện của một sự kiện này sẽ là điều kiệncho sự xuất hiện của một sự kiện khác Phương trình [3-9] là cách xác định xác suấtđiều kiện của 2 sự kiện A và B:

30

Trang 31

P(A|B = P(A∩ B)/P(B) [3-9]

hoặc P(B|A)=P(A∩ B)/P(A) [3-10]

Trong đó P(A) và P(B) là khác không

Ví dụ 3.3:

Một nhà khoa học làm thí nghiệm kiểm tra hiệu quả của một loại vắc xinphòng bệnh cho gà Hãy cho biết xác suất bắt gặp con gà đã được tiêm chủng màvẫn bị mắc bệnh khi lựa chọn một cách ngẫu nhiên Dựa vào số liệu quan trắc sauđây:

Tiêm vắcxin

Đốichứng

100

4456

100

66134

200

Giải

Giả sử rằng : I = Sự kiện gà bị nhiễm bệnh

H= Sự kiện gà không bị nhiễm bệnhV= Sự kiện gà được tiêm vắc xin

C = Sự kiện gà không được tiêm vắc xin

Vì mỗi ô trong bảng số liệu là kết quả của 2 sự kiện, ta có thể tính xác suấtđồng thời của chúng như sau:

P(I∩V) = 22/200 =0,11

P(I∩C) = 44/200 = 0,22

Trang 32

P(H∩C) = 56/200 = 0,28

Bảng 3.1 Biểu diễn xác suất đồng thời và xác suất biên (marginal probability)cho ví dụ này

Bảng 3.1 Xác suất đồng thời và xác suất biên cho

gà được tiêm vắc xin và đối chứng

Tiêm vắcxin

Đốichứng

Xác suấtbiên

0,220,280,30

0,330,671,00

Xác suất biên là tổng của các xác suất đồng thời của mỗi sự kiện riêng rẽ Xácsuất biên 0,33 và 0,67 cho biết 33% số gà bị nhiễm bệnh và 67% là không bị nhiễmbệnh Xác suất biên 0,50 và 0,50 cho biết 50% được tiêm vắc xin và 50% là khôngđược tiêm vắc xin Để tính xác suất biên mà gà bị nhiễm bệnh trong số đã được tiêmvắc xin, ta có:

P(I|V) = P(I∩V)/P(V) [3-11]

Xác suất đồng thời, P(I∩V) từ Bảng 3.1 là 0,11 Cần chú ý rằng 0,50 là xácsuất biên mà gà bị nhiễm bệnh trong số đã được tiêm vắc xin P(I) = 0,50 Với nhữngthông tin này, xác suất điều kiện sẽ là:

Trang 33

Chúng ta có thể biểu diễn không gian mẫu như đồ thị hình chữ nhật được trìnhbày ở trên, hoặc dưới dạng hình cây Đồ thị hình cây cũng được sử dụng tương tựnhư đồ thị hình chữ nhật.

Để xây dựng đồ thị hình cây, trước hết ta vẽ các điểm hoặc hình vuông nhỏ đạidiện cho thân cây như Hình 3.3 Sự xảy ra của mỗi mẫu quan trắc được đại diện chocác nhánh

Hình 3.3 Sơ đồ hình cây cho 300 người dân

với các nghề khác nhau muốn nghỉ hưu ở tuổỉ 60

Ví dụ 3.4:

Một nghiên cứu mới đây cho thấy người nông dân với các nghề khác nhaukhông muốn nghỉ hưu trước tuổi 60 Một nhà kinh tế nông nghiệp làm một cuộcđiều tra giữa những người làm công tác quản lý và các nhà sản xuất để xác định kếhoạch cho họ sau tuổi 60 Kết qủa thu được như sau, hãy vẽ sơ đồ cây và xác địnhxác suất xuất hiện đồng thời

Nghề nghiệp Kế hoạch sau tuổi 60

Nghỉ hưu (R) Không nghỉ hưu

Nghỉ hưu (R) 0,07Không nghỉ hưu (NR) 0,50

Trang 34

M : Quản lý

P : Sản xuất

7020

30180

100200300Giải:

Đối với vấn đề này, có 2 nhánh chính được xây dựng từ thân cây (tree trunk).Một nhánh đại diện cho những người quản lý và nhánh kia cho những người sảnxuất Xác suất của mỗi nhánh cây là 0,33 và 0,67 như được mô tả ở Hình 3.3

Nếu dấu hiệu M, P, R và NR tương ứng cho các nhà quản lý, sản xuất, nghỉhưu và không nghỉ hưu Như vậy Xác suất đồng thời của nhà quản lý muốn nghỉ hưu

ở tuổi 60 sẽ là P(M và R) Tương tự như vậy xác suất đồng thời của người sản xuất

và tuổi nghỉ hưu 60 sẽ là P(P và R)

Bảng 3.2 Xác suất đồng thời của 300 cá nhân thích nghỉ hưu

liên quan đến nghề nghiệp khác nhau

Nghề nghiệp Nghỉ hưu

(R)

Không nghỉ hưu(NR)

Xác suất giớihạn

M : Quản lý

P : Sản xuất

Xác suất giới hạn

0,230,070,30

0,100,600,70

0,330,671,00Xác suất đồng thời này khi lựa chọn ngẫu nhiên các cá nhân làm nghề quản lýmuốn nghỉ hưu ở tuổi 60 sẽ là:

Trang 35

3.3 Nguyên lý tính toán

Trong một số thí nghiệm, không gian mẫu có thể là rất lớn, các kết quả thuđược là rất phức tạp và khó xác định Trong trường hợp như vậy chúng ta phải sửdụng một số kỹ thuật tính toán nhất định Nguyên tắc tính toán này chỉ được sử dụngtrong trường hợp số các sự kiện nhiều hơn 2

Dạng đơn giản nhất, nguyên lý tính toán được phát biểu như sau:

Nếu sự kiện thứ nhất có thể xảy ra với i các cách khác nhau, và sự kiện thứ 2

có thể xảy ra với j cách khác nhau thì tổng các khả năng xuất hiện sẽ là tích số của i

và j Nghĩa là:

Tổng số khả năng xuất hiện là i j

Ví dụ, nếu có 2 cách vận chuyển lúa từ trang trại đến nhà kho và 3 cách vậnchuyến chúng từ kho đến người bán buôn, và 4 cách vận chuyển từ người bán buônđến người bán lẻ Như vậy ta có tổng số 2x3x4=24 cách vận chuyển lúa từ trang trạiđến người bán lẻ

Nguyên lý phép nhân (multiplication), hoán vị (permutation) và sự tổ hợp(combination) là các kỹ thuật tính được dùng để xác định các khả năng của các conđường khác nhau cho vận chuyển lúa

- Nguyên lý phép nhân (multiplication principle):

Khi trật tự là quan trọng cho sự xảy ra của một thí nghiệm (chẳng hạn nhưtung đồng xu, HT=TH, trong đó H=mặt ngửa-heads và T=mặt sấp), nguyên lý phépnhân sẽ được sử dụng để tính tổng các khả năng xảy ra Công thức lựa chọn bội số

Trang 36

hoa to là L và cuống dài là S Xác định xem có bao nhiêu cách lựa chọn bội số từ ví

dụ này trong tổ hợp chập hai:

Ta có thể áp dụng nguyên tắc này để tính toán các cách sắp xếp Tuy nhiên để

dễ dàng hơn ta áp dụng công thức :

Trong đó nPr là số lần hoán vị của n phần tử (Objects) dược lấy mỗi lần là rphần tử Ký hiệu ! là giai thừa (factorial) được dùng cả trong phép hoán vị và tổ hợp.Giai thừa của n (n !) nghĩa là tích của n(n-1)(n-2)(n-3), , [n-(n-1)]

n

p r

n

61

)1.2.3(

!1

!3)!

23(

!3)!

23(

!3

Trang 37

- Tổ hợp :

Khi một trật tự là không quan trọng, ta sử dụng nguyên tắc tổ hợp(Combination principle) trong nhóm các phần tử (grouping objects) Công thức tính

tổ hợp là (ta gọi tổ hợp chập r của n)

Cũng xét với ví dụ 3.5, ta xác định có bao nhiêu cách tổ hợp của các chữ cái

Y, S và L, nếu mỗi lần ta lấy ra 2 chữ cái

3.4 Định lý Bayes

Trong nhiều nghiên cứu, ta ước lượng các xác suất cho việc phân tích các sựkiện sẽ xảy ra sau Tuy nhiên trong quá trình nghiên cứu, có nhiều thông tin mớixuất hiện có liên quan đến sự xuất hiện hay không của một sự kiện đó Với cácthông tin bổ sung này, định lý Bayes đưa ra một giá trị trung bình cho việc tính toáncác xác suất sẽ xảy ra sau đó của một sự kiện Hình 3.4 chỉ ra các bước trong việcxem xét đánh giá lại các xác suất

Xác suất trước

Các thông tin mới hoặc bổ sung

Áp dụng định lý Bayes

]143[)!

!2.3)!

23(2

!3

Trang 38

Xác suất hồi cố

Hình 3.4 Sự đánh hồi cố xác suất dựa theo định lý Bayes

Định lý được phát biểu cho xác suất điều kiện được biểu diễn bằng công thức:

Giải:

38

]153[)

()(

()()(

)()(}

(

2 1

1

|++

|+

i i i

A P A B P A

B P A P A B P

A P A B P B

A

P

]163[)

(

)()()

B P

A B P A P B A

i

Trang 39

Gỉa sử A1 là những người bị suy dinh dưỡng và A2 là những người không bịsuy dinh dưỡng Như vậy xác suất cho mỗi số liệu là:

P(A1) = 0,03 P(A2) = 0,97

Theo định lý Bayes, đây được xem là những xác suất trước (prior probability)bởi vì nó được ghi nhận lần quan sát sơ bộ về dinh dưỡng Nó không đề cập đến cáckinh nghiệm đã được áp dụng trong nhân dân Để xác định xác suất hồi cố khi đượcđánh giá lại ta phải tính xác suất kết hợp trong tử số và mẫu số của phương trình [3-16] Điều này sẽ được hoàn thiện bằng sử dụng qui tắc nhân:

Với ví dụ đang xét ta có xác suất tính toán lại như sau:

Như vậy xác suất hồi cố cho thấy người bị suy dinh dưỡng sẽ là 0,42 Cáchtính theo định lý Bayes được trình bày ở bảng 3.3

Các bước tính toán được thực hiện như sau:

Xác suấtđiều kiệnP(B|A1)

Xác suất kếthợp

P(A1)P(B|A1)

Xác suất hồi cốP(A1|B)

]203[)

()()()(

)()()

(

2 2

1 1

1 1

|+

A B P A P B

A

P

42,00673,0

0285,0)04,0)(

97,0()95,0)(

03,0(

)95,0)(

03,0()

+

=

|B A

P

Trang 40

+ Bước 3: Lấy tổng của cột xác suất kết hợp để xác định xác suất liên quan vớicác thông tin mới P(B) Xác suất liên kết cho ví dụ trên với các thông tin mới bổsung, chẳng hạn như khí hậu (được gọi là sự kiện B) là 0,0673.

+ Bước 4: Tính xác suất hồi cố bằng sử dụng quan hệ cơ bản của xác suất điềukiện theo phương trình [3-15] Nghiã là, xác suất liên kết cho mỗi sự kiện được chiacho P(B), chúng là tổng của xác suất điều kiện

3.5 Phân bố xác suất

Trong các phần trên ta đã đề cập đến các khái niệm xác suất và cách tínhxác suất cho mỗi sự kiện Khi chúng ta muốn biết xác suất của mỗi lần xuất hiệntrong tập hợp của các sự kiện, ta đề cập đến phân bố xác suất Phân bố xác suất làdạng đặc biệt của phân bố tần suất khi tần suất được xem như là xác suất Ta có thểhiểu khái niệm phân bố xác suất như là danh sách hoàn chỉnh của tất cả khả năngxuất hiện của một thí nghiệm cùng với xác suất của chúng

Có một vài sự phân bố xác suất có ý nghĩa quan trọng trong khoa học nôngnghiệp và môi trường Ví dụ như phân bố nhị thức và phân bố thường cho các biếnliên tục

- Phân bố nhị thức (Binomial distribution): Đây là phân bố xác suất được sửdụng rộng rãi nhất cho một biến rời rạc Nó mô tả phân bố xác suất khi chỉ có 2 khảnăng xuất hiện của một sự kiện hoặc thí nghiệm

Ví dụ, sự phân bố số lượng lợn đực trong n con lợn mới sinh ra là phân bốnhị thức vì mỗi con lợn con có thể là đực hoặc cái Trong một thí nghiệm đồng

40

Ngày đăng: 23/05/2014, 22:21

HÌNH ẢNH LIÊN QUAN

Bảng 2.2 Phân bố tần suất cho số liệu ở Bảng 2.1 - phương pháp thống kê môi trường
Bảng 2.2 Phân bố tần suất cho số liệu ở Bảng 2.1 (Trang 6)
Bảng 2.5 Năng suất ngô trong thí nghiệm - phương pháp thống kê môi trường
Bảng 2.5 Năng suất ngô trong thí nghiệm (Trang 11)
Bảng 3.1 Biểu diễn xác suất đồng thời và xác suất biên (marginal probability) cho ví dụ này. - phương pháp thống kê môi trường
Bảng 3.1 Biểu diễn xác suất đồng thời và xác suất biên (marginal probability) cho ví dụ này (Trang 32)
Hình 3.3. Sơ đồ hình cây cho 300 người dân - phương pháp thống kê môi trường
Hình 3.3. Sơ đồ hình cây cho 300 người dân (Trang 33)
Bảng 6.2 Khả năng mắc sai lầm loại II và phương trình khả năng khi - phương pháp thống kê môi trường
Bảng 6.2 Khả năng mắc sai lầm loại II và phương trình khả năng khi (Trang 87)
Bảng 8.10. Bảng ANOVA cho thí nghiệm 2 yếu tố tưới nước - phương pháp thống kê môi trường
Bảng 8.10. Bảng ANOVA cho thí nghiệm 2 yếu tố tưới nước (Trang 118)
Bảng 8.11. Bảng ANOVA cho năng suất cà chua với thiết kế thí nghiệm - phương pháp thống kê môi trường
Bảng 8.11. Bảng ANOVA cho năng suất cà chua với thiết kế thí nghiệm (Trang 119)
Sơ đồ thiết kế phải bảo đảm cho mỗi một phép thử xuất hiện một lần trong mỗi đặc điểm của các yếu tố khối - phương pháp thống kê môi trường
Sơ đồ thi ết kế phải bảo đảm cho mỗi một phép thử xuất hiện một lần trong mỗi đặc điểm của các yếu tố khối (Trang 121)
Bảng 9.3. Bảng số liệu để tính trong kiểm định χ 2 - phương pháp thống kê môi trường
Bảng 9.3. Bảng số liệu để tính trong kiểm định χ 2 (Trang 129)
Bảng 9.4. Tính giá trị χ 2 - phương pháp thống kê môi trường
Bảng 9.4. Tính giá trị χ 2 (Trang 132)
Bảng 9.7. Tần số kì vọng của các loại máy kéo được ưa thích - phương pháp thống kê môi trường
Bảng 9.7. Tần số kì vọng của các loại máy kéo được ưa thích (Trang 137)
Bảng 10.4. Xếp hạng tương quan về sự ưa thích các loại thuốc diệt cỏ khác nhau của hai nhà nông học - phương pháp thống kê môi trường
Bảng 10.4. Xếp hạng tương quan về sự ưa thích các loại thuốc diệt cỏ khác nhau của hai nhà nông học (Trang 151)
Bảng 11.1 Tính các giá trị cần thiết để tính phương trình hồi qui - phương pháp thống kê môi trường
Bảng 11.1 Tính các giá trị cần thiết để tính phương trình hồi qui (Trang 158)
Bảng 12.1. Tính các giá trị để xác định hệ số cho các biến - phương pháp thống kê môi trường
Bảng 12.1. Tính các giá trị để xác định hệ số cho các biến (Trang 174)
Bảng 12.2. Bảng ANOVA trong phân tích hồi qui để ước đoán năng suất ngô - phương pháp thống kê môi trường
Bảng 12.2. Bảng ANOVA trong phân tích hồi qui để ước đoán năng suất ngô (Trang 184)
w