1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Giáo trình xác suất thống kê phần 2 nguyễn đình hiền

138 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mẫu Quan Sát, Bài Toán Ước Lượng
Tác giả Nguyễn Đình Hiền
Trường học Đại học Khoa học Tự nhiên TP.HCM
Chuyên ngành Xác suất Thống kê
Thể loại Giáo trình
Năm xuất bản 2023
Thành phố TP.HCM
Định dạng
Số trang 138
Dung lượng 2,58 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

trên một cá thể của tổng thể ta được một biến ngẫu nhiên X, biến này có thể là: - Biến định tính chỉ có một trong 2 kết quả quy ước là có và không, hay 1 và 0 như giống đực hay giống cái

Trang 1

MẪU QUAN SÁT

VÀ BÀI TOÁN ƯÓC LƯỢNG

§1 TỠNG THỂ VÀ MẪU QUAN SÁT

Xét một đám đông gồm rất nhiều cá thể, đứng về lí thuyết thì coi như có vô

số cá thể, đám đông này phải thuần nhất theo nghĩa đây là một đám đông có cùng một nguồn gốc, cùng điều kiện ra đời, sống trong cùng một môi trường,

sự khác nhau giữa các cá thể là sự khác nhau tự nhiên, ngẫu nhiên không thể tránh được giữa các cá thể của một đám đông Ta gọi một đám đông như thế là một tổng thể .Giả thiết khi khảo sát một tính trạng (một đặc tính sinh học, một chỉ số, một số đo, ) trên một cá thể của tổng thể ta được một biến ngẫu nhiên

X, biến này có thể là:

- Biến định tính chỉ có một trong 2 kết quả (quy ước là có và không, hay 1

và 0) như giống đực hay giống cái; có ra hoa hay không ra hoa; mắc bệnh hay không mắc bệnh

- Biến định tính gồm một số loại hay lớp như màu sắc: xanh, đỏ, tím vàng ;

Chế độ tưới: tưới ít, tưới vừa, tưới nhiễu; Loại đất: cát, s é t

- Biến có thể dùng sô' thứ tự để ghi nhận các kết quả từ thấp lên cao như điểm thi: 0, 1, 2, , 10; Cấp bệnh: cấp 1, 2, ẵ., 7

- Biến rời rạc như số cây sống khi trồng 100 cây; số trứng nở khi ấp 12 quả trứng; số sản phẩm hỏng trong lô 5000 sản phẩm;

- Biến liên tục như chiều cao cây; trọng lượng một con gà; chiều dài một con cá

Tuỳ theo biến ta khảo sát thuộc loại nào và dựa vào yêu cầu nghiên cứu mà đặt ra các giả thiết về tổng thể

Có rất nhiều bài toán trong nghiên cứu được đưa về giả thiết X có phân phối đã biết nhưng còn chứa một vài tham số mà ta cần ước lượng, thí dụ khi

ấp trứng ta giả thiết số trứng nở X trong mỗi ổ gồm n quả phân phối nhị thức

Trang 2

B(n, p), xác suất trứng nở p chính là tham số chưa biết Đo chiều cao X của học sinh nam, lứa tuổi 16 ở một vùng, X phân phối chuẩn N(|J., ơ 2) với hai tham số chưa biết: trung bình fj và phương sai ơ 2 Số chai vỡ X khi vận chuyển rượu phân phối Poát-xông với tham sô' JJ chưa biết Thời gian sống của bóng đèn phân phối chuẩn N(|a, ơ 2) với hai tham số chưa biết ^ và ơ 2 Trong một đợt cúm một người có thể bị cúm hoặc không, xác suất bị cúm p là tham số chưa b iế t

Nếu ta khảo sát đồng thời nhiều đặc tính thì được nhiều biến ngẫu nhiên đồng thời và lúc đó sẽ có nhiều tham số cần ước lượng thí dụ hộ số tương quan, hiệp phương s a i,

Như vậy khi khảo sát tổng thể ta giả thiết biến ngẫu nhiên (hoặc hệ nhiều biến ngẫu nhiên) có một phân phối nào đó có chứa một vài tham số gọi là tham

số của tổng thể, các tham số này thường được kí hiệu bằng các chữ Hy lạp fl, ơ,

p Để có được các hiểu biết về tổng thể và cụ thể là về các tham số này ta phải lấy ngẫu nhiên một số cá thể ra xem xét, số cá thể đó họp thành một mẫu quan sát, hay gọi tắt là một mẫu Khi xem xét mẫu phải xử lí các dữ liệu thu được rồi đưa ra kết luận chung cho tổng thể, các kết luận này được gọi là các kết luận thống kê

Mẫu quan sát chỉ bao gồm một nhóm nhỏ của tổng thể, không thể phản ánh đầy đủ tổng thể cho nên mặc dù cách chọn mẫu đúng đắn, không sai lệch có hệ thống, phương pháp xử lí chính xác cũng không thể loại bỏ những sai lệch so với tổng thể, do đó không bao giờ các kết luận thống kê có thể đúng 100%

Để dễ suy luận và so sánh, người ta thường định ra một xác suất để kết luận thống kê đúng khi áp dụng cho tổng thể, xác suất đó được gọi là mức tin cậy của kết luận, thường kí hiệu là p, thí dụ p = 0,95 thường gọi là mức tin cậy 1 (đánh dấu *) có nghĩa là kết luận thống kê đưa ra trung bình chỉ đúng

95 trên 100 trường hợp, p = 0,99 thường gọi là mức 2 (đánh dấu **) có nghĩa

là kết luận thống kê đưa ra trung bình chỉ đúng 99 trên 100 trường hợp, mức

p = 0,999 là mức 3 (đánh dấu ***)ể Cũng có khi người ta dùng số a = 1 - p gọi là mức sai cho phép hay mức ý nghĩa

Thí dụ p = 0,95 thì a = 1 - 0,95 = 0,05 (mức 1) có nghĩa là cho phép kết luận thống kê sai trung bình 5 trên 100 trường hợp khi áp dụng vào tổng thể

Trang 3

cá thể tạm gọi là "tốt" tức là cho các giá trị lớn hơn trung bình, hoặc "xấu", tức

là thiên về phía các giá trị nhỏ hơn trung bình

Có rất nhiều cách chọn mẫu vì việc chọn mẫu không những phải thoả mãn yêu cầu chính là không thiên lệch mà còn phải phù hợp vói điều kiện chuyên môn, thí dụ chọn các mảnh ruộng để gặt nhằm đánh giá năng suất hoàn toàn khác với việc chọn các sản phẩm công nghiệp để đánh giá chất lượng, thí dụ quạt bàn, và càng khác xa cách chọn mẫu để đánh giá chất lượng của các chất lỏng, thí dụ nhiên liệu và cũng khác xa việc chọn mẫu khi điểu tra dân số hoặc điều tra xã hội

Thuần tuý về mặt thống kê cũng có nhiều cách chọn mẫu như chọn mẫu ngẫu nhiên (rút thăm, dùng bảng số ngẫu nhiên, quay xổ số .), chọn mẫu theo lớp (chia thành một số lớp tương đối đồng đều, thí dụ chia theo vùng địa lí, chia theo các tầng lớp xã hội ,.ề sau đó trong mỗi lớp chọn ngẫu nhiên một số

cá thể, số lượng có thể căn cứ vào mức đồng đều của nhóm .), chọn mẫu hai tầng (chia thành nhiều lớp tương đối đồng đều sau đó chọn một số lớp điển hình và khảo sát toàn bộ các cá thể trong lớp đó, .)

Ở đây chúng ta không để cập đến cách chọn mẫu cụ thể mà chỉ giả thiết là mẫu chọn ra mang tính ngẫu nhiên không có sai số hộ thống

§3 CÁC SỐ ĐẶC TRƯNG CỦA MAU

Giả sử chúng ta muốn khảo sát một biến ngẫu nhiên X Sau khi lấy mẫu gồm n cá thể, ta ghi lại các giá trị của X trên từng cá thể: X], x2, , xn, các sô' liệu này gọi là số liệu gốc Có thể để nguyên số liệu gốc để xử lí nhưng khi n khá lớn thì thường sắp xếp lại dưới dạng hai cột, một cột ghi giá trị Xj, một cột ghi số lần gặp tức là tần số m,, nếu n quá lớn thì thường dùng cách chia số liệu

Trang 4

ra khoảng 25 - 30 lớp sau đó lấy điểm giữa làm đại diện cho lớp Tiếp theo là dùng đồ thị để minh hoạ các số liệu.

Thí dụ 1 Năng suất tại 365 điểm trồng lúa của một huyện

Thí dụ 2 Chiều cao 300 em học sinh lứa tuổi 12 ở một vùng.

Năng suất

(tạ/ ha)

Số điểm (mi)

số thống kê*

3Ể1 Trung bình cộng X v à phương s a i mẫu s 2

Trung bình cộng X bằng tổng Zx của các giá trị quan sát Xj chia cho số quan sát n (n gọi là dung lượng mẫu hay cỡ mẫu), trung bình cộng chính là giá trị trung bình thường dùng trong đời sống (trọng lượng trung bình của đàn gà chiều cao trung bình của cây lúa, tiền lương trung bình của cán bộ trong cơ quan .)•

Trang 5

Nếu coi trung bình cộng là tâm của dãy số liệu thì ứng với mỗi giá trị Xj ta

có độ lệch

ej = Xj - X , đ ộ l ệ c h n à y c h o b i ế t Xj ở g ầ n h a y x a t â m , n ế u l ấ y ej bìn h

phương lên, cộng lại, rồi lấy trung bình thì được một số đánh giá mức phân tán của số liệu, gọi là phương sai chưa hiệu chỉnh Sau khi nghiên cứu kĩ hơn vé lí thuyết nguời ta lấy tổng bình phương của các eẦ chia cho (n - 1), đó là phương sai đã hiệu chỉnh hay phương sai mẫu s2

Căn bậc hai của s2 là độ lệch chuẩn s

Trang 6

Nếu sắp xếp số liệu từ nhỏ đến to thì sau đó thường chú ý đến:

- T ru n g vị: đó là số đứng ở vị trí giữa, có thể coi trung vị là số mà khoảng 50% số liệu có giá trị bé hơn và khoảng 50% số liệu có giá trị lớn hơn

Trung vị kí hiệu là Me

- T ứ phân vị dưới: là số mà khoảng 25% số liệu có giá trị bé hơn.

- T ứ phân vị trên: là số mà khoảng 25% số liệu có giá trị lớn hơn

Khi n nhỏ thì không thể tính chính xác trung vị và các tứ phân vị mà chỉ là gần đúng

Khi n lớn có thể tìm trung vị và các tứ phân vị chính xác hơn

Nếu chia khoảng thì có thể đưa ra các cách nội suy để tính gần đúng trung

vị và tứ phân vị

*3.3 Độ nghiêng và độ nhọn mẫu

Trang 7

Do tầm quan trọng của phân phối chuẩn trong nghiên cứu xác suất thống kẽ nên người ta còn chú ý đến hai thống kê sau:

Độ nghiêng (hay bất đối xứng Skewness) Nếu phân phối đối xứng thì tẩn

số của các giá trị đối xứng qua trung bình cộng (các độ lệch bằng nhau và trái dấu) xấp xỉ bằng nhau và độ nghiêng bằng không

Nếu tập trung nhiều số liệu trước X thì độ nghiêng dương, gọi là lệch trái,

n ế u t ậ p t r u n g s a u X t h ì đ ộ n g h i ê n g â m , g ọ i là l ệ c h p h ả i

Nếu độ nghiêng có trị tuyệt đối lớn thì coi như phân phối bất đối xứng do

đó phải biến đổi trước khi xử lí cho phù hợp với giả thiết phân phối chuẩn

Độ nhọn (Kurtosis) Phân phối chuẩn có đường mật độ xác suất mềm mại

và trải đểu, giữa cao hai bên xuống dần, nếu số liệu tập trung qua nhiều ở giữa còn hai bên quá ít thì gọi là nhọn quá (so với chuẩn), phân phối có độ nhọn dương, ngược lại nếu dàn trải trên diện rộng thì gọi là tù quá và có độ nhọn âm

Độ nhọn cho ta một cách đánh giá xem có nên biến đổi cho bớt nhọn hoặc bớt

tù để phù hợp với giả thiết phân phối chuẩn

* Để nghiên cứu sự thay đổi của các thống kê, người ta thường suy luận như sau:

Gọi Xị là biến ngẫu nhiên X khảo sát trên cá thể thứ nhất của mẫu, x2 là

biến ngẫu nhiên X khảo sát trên cá thể thứ hai, Xn trên cá thể thứ n Các biến Xj, x2, Xn độc lập có cùng phân phối như X.

Các thống kê là hàm của các biến ngẫu nhiên nên cũng là biến ngẫu nhiên,

Trang 8

¿ X , ¿ ( X ; - X )2X=J - ; s2=-i -

§4 ƯỚC LƯỢNG THAM s ố CỦA T ổN G THỂ

Giả sử biến X của tổng thể có một phân phối nào đó nhưng chưa biết tham

số, thí dụ phân phối Poát-xông nhưng chưa biết fi, phân phối nhị thức nhưng chưa biết p, phân phối chuẩn nhưng chưa biết ^ và ơ2

Sau khi lấy mẫu và tính một số thống kê ta phải dùng các thống kê để ước lượng các tham số của tổng thể Có hai cách tiếp cận vấn để này:

* Ước lượng điểm Đây là cách tiếp cận rất quan trọng để nghiên cứu lí

thuyết ước lượng Giả sử tổng thể có tham số 0 , sau khi khảo sát mẫu ta tính được các thống kê, dựa vào các thống kê để đưa ra một số T thay thế 0 gọi là ước lượng điểm của 0 Có nhiều ước lượng T cho tham số 0 , do đó phải lựa chọn dựa trên rất nhiều tiêu chuẩn như:

- Không chệch: hiểu một cách đơn giản là ước lượng không chứa sai số hộ thống, tức là không thiên về phía đưa ra các giá trị bé hơn 0 hoặc thiên vể việc đưa ra các giá trị lớn hơn 0

- Hiệu quả: trong các ước lượng có cùng tính chất thì chọn ước lượng có phương sai nhỏ nhất

- Vững: khi tăng dung lượng mẫu n lên vô hạn thì ước lượng sẽ dần đến 0 (dần đến theo xác suất)

- Chắc hay bền: không thay đổi nhiều khi trong mẫu có các số liệu quá nhỏ hay quá lớn, hoặc số liệu thu được không thoả mãn giả thiết phân phối chuẩn

Trang 9

Nếu không thể chọn được ước lượng tốt trên mọi phương diện thì, tuỳ theo mục đích, có thể chọn ước lượng thoả mãn một số tiêu chuẩn trong rất nhiều tiêu chuẩn nêu ra Thí dụ khi có phân phối chuẩn N(fi, ơ 2) thì ước lượng tốt trên nhiều mặt là trung bình cộng X và phương sai mẫu s2.

Khi có phân phối nhị thức B(n, p) thì ước lượng tốt của tham số p là tần suất.Khi có phân phối Poát-xông thì ước lượng tốt của tham số (I là trung bình

c ộ n g X

Ước lượng khoảngễ Đây là cách tiếp cận có nhiều ứng dụng trong các ngành khoa học đòi hỏi phải thường xuyên xử lí số liệu như sinh học, y học, hoá học, kinh tế, Theo cách tiếp cận này sau khi tính các thống kê của mẫu quan sát ta đưa ra khoảng [a, p] chứa tham số 0 Cận dưới a và cận trên [3 tính theo một quy tắc cụ thể dựa trên các thống kê và dựa trên mức tin cậy p

Sau khi chọn mẫu ta đưa ra khoảng tin cậy [a, p], nếu 0 ở trong [a, p] thì khoảng tin cậy đưa ra đúng, nếu 0 ở ngoài khoảng [a, p] thì khoảng tin cậy đưa ra sai Như vậy mỗi khoảng tin cậy chỉ có thể đúng hoặc sai, xác suất đúng

là p, xác suất sai là a = 1 - p, hiểu đơn giản là nếu tính khoảng tin cậy theo quy tắc đã đưa ra thì trung bình trong 100 trường hợp p*100 trường hợp có khoảng tin cậy đúng, tức là chứa tham số 0

Để xây dựng quy tắc tính khoảng tin cậy phải nghiên cứu sự thay đổi của trung bình cộng X và phương sai s 2, coi đó là các biến ngẫu nhiên phụ thuộc vào mẫu chọn ra Không đi sâu vào lí thuyết, ta đưa ra quy tắc ước lượng tham

số cho ba trường hợp sau:

4ếl Ước lượng kì vọng |J, của phân phôi chuẩn khi biết phương sai ơ2

Các bước cần làm để ước lượng |U

+ Chọn mẫu dung lượng n, tính trung bình cộng X Chọn mức tin cậy p.( a = 1 - p gọi là mức sai cho phép hay mức ý nghĩa)

+ Dùng bảng 2 tính giá trị tới hạn u , tức là giá trị u sao cho O(u) = 1 a+ Ước lượng m theo bất đẳng thức kép

x - u r - j = <ơ < X + u _

V n

f a N

v2,ơ

(5.3)

Trang 10

Phân tích vitamin c của 17 mẫu được X = 20 mg Ước lượng kì vọng n

nếu lượng vitamin phân phối chuẩn N(n, ơ 2) với ơ = 3,98 mg

Ở mức tin cậy p = 0,95; u(0,025) = 1,96

Các bước cần làm để ước lượng |i (với mức tin cậy p = 1 - a )

+ Chọn mẫu dung lượng n, tính trung bình cộng X, tính phương sai mẫu s2+ Dùng bảng 3, tính giá trị tới hạn t

Trang 11

Sau khi thu hoạch được X = 10,6; s = 2,082 (đơn vị tạ/ha) Giả thiét năng suất ngô phân phối chuẩn Mức tin cậy p = 0,95.

Tra cứu bảng 3 được t(0,025,24) = 2,061; p = 0,95

17,3 - 3,012 - Ặ i < ịi < 17,3 + 3,012 4,5

VĨ4VĨ4

13,68kg < |a< 20,92kg

4.3 Ước lượng xác suất p của phân phối nhị thức

Một tổng thể gồm 2 loại cá thể A và A với số lượng rất lớn, tỉ lộ loại A là p (chưa biết) Lấy ngẫu nhiên một cá thể, có thể coi xác suất được cá thể loại A là p.Lấy ngẫu nhiên n cá thể, trong đó có m cá thể loại A

Nếu n nhỏ thì có các bảng tính sẵn để ước lượng p căn cứ vào n và m

Nếu n lớn (lí thuyết n > 30 nhưng thực tế chỉ nên dùng khi n > 100) thì coi

m như biến ngẫu nhiên X phân phối nhị thức B(n, p), sau đó dựa trên việc tính gần đúng phân phối nhị thức bằng phân phối chuẩn có kì vọng np và phương sai npq, ta tìm được quy tắc thực hành sau:

+ Lấy mẫu dung lượng n, đếm số cá thể loại A, gọi là tần số m, tính tần suất f = —

Trang 12

Thí dụ 10

Để biết tỉ lộ người tiêu dùng không thích một loại sản phẩm mới đưa ra thị trường người ta hỏi ý kiến 344 người và có 83 người cho biết là không thích sản phẩm đó

n = 344; m = 83; f = — = 0,241; u(0,05) = 1,645

344Chọn mức tin cậy p = 0,90 có ước lượng của tỉ lệ p

0,241-1,645 0,241(1-0,241)

344 < p <0,241 + 1,645,

0,241(1-0,241)3440,203 < p < 0,279

*4.4Ế Tính dung lượng mẫu khi ước lượng kì vọng n của phân phối chuẩn

Theo công thức (5.3) chiều dài khoảng ước lương là 2u — -4 L , nửa chiểu

Trang 13

n >

' a '

v2y4e^

Thí dụ 12

Một xí nghiệp muốn ước lượng tỉ lệ p số người tán thành một kế hoạch sản xuất mới Để tỉ lệ tìm ra có độ chính xác 8 = 0,06 ở mức p = 0,95 phải thăm dò bao nhiêu người?

39 41 40 42 41 40 42 44 40 43 42 41 43 39 42 40

41 42 39 41 37 43 41 38 43 39 42 39 41 37 43 39

41 40 42 40 41 42 40 43 38 39 41 41

Trang 14

5.2 Cho dãy số liệu:

5.4 Điểu tra 200 mảnh ruộng, mỗi mảnh 4m2, ta được bảng sau:

a) Tính trung bình cộng và phương sai mẫu

b) Ước lượng năng suất trung bình nếu coi năng suất phân phối chuẩn (P = 0,95)

5.5 Phỏng vấn 400 người ở một khu vực rất đông người thì có 240 người ủng

hộ một dự luật

Ước lượng tỉ lệ p số người ủng hộ dự luật ở mức p = 0,95

5.6ẻ Thời gian đóng bột vào một bao phân phối chuẩn với ơ = 0,3 phút

a) Theo dõi 36 bao thấy thời gian trung bình để đóng một bao là 1,2 phút Hãy ước lượng thời gian trung bình (0 ở mức tin cậy p = 0,95

b) Nếu muốn độ dài khoảng tin cậy giảm đi 2 lần thì phải chọn mẫu cỡ bao nhiêu?

5.7 Theo dõi lương của 50 công nhân trong một nhà máy ta có X = 79 (đơn

vị nghìn đồng), độ lệch chuẩn s = 12,84, số công nhân có lương cao hơn

90 là 14 Giả sử lương phân phối chuẩn Với mức tin cậy p = 0,95 hãya) Ước lượng kì vọng Ịi

b) Ước lượng tỉ lệ công nhân có lương trên 90

Trang 15

5.8 Cân 50 em học sinh lớp 4 được trọng lượng trung bình X = 32 kg; độ

lệch chuẩn s = 2,5 kg Giả sử trọng lượng phân phối chuẩn, hãy ước lượng kì vọng ở mức p = 0,99

5.9 Trọng lượng cam phân phối chuẩn với độ lệch chuẩn ơ = 32,4g

Cân thử 9 quả được trọng lượng trung bình X = 187,9g

Trang 16

KIỂM ĐỈNH GIẢ THIẾT■

Kiểm định giả thiết là một bài toán hay gặp trong thống kê Phạm vi

nghiên cứu khả rộng và về mặt lí thuyết có những vấn đề khá phức tạp nếu muốn giải quyết thật tỉ mỷ, chính xác Trong chương này chỉ trình bày một vài bài toán kiểm định giả thiết cụ thể Nên quan đến các biến định lượng Chương sau sẽ tiếp tục kiểm định giả thiết với biến định tính Nhưng trước hết cần giới thiệu chung vế giả thiết và đối thiết và hai loại sai lầm mắc phải khi kiểm định.

§1 GIẢ THIẾT VÀ ĐỐI THIẾT

Khi khảo sát một tổng thể (hoặc nhiều tổng thể) và xem xét một (hoặc nhiều) biến ngẫu nhiên có thể đưa ra một giả thiết nào đó liên quan đến phân phối của biến ngẫu nhiên hoặc nếu biết phân phối rồi thì đưa ra giả thiết về tham số của tổng thể Để có thể đưa ra một kết luận thống kê nào đó đối với giả thiết thì phải chọn mẫu ngảu nhiên, tính tham số mẫu, chọn mức ý nghĩa a sau

đó đưa ra kết luận

Bài toán kiểm định tham số 0 của phân phối có dạng H0: 0 = 0 O với 0 O là một số đã cho nào đó Kết luận thống kê có dạng: Chấp nhận H0 hay bác bỏ H0 Tuy nhiên nếu đặt vấn để như vậy thì cách giải quyết hết sức khó vì nếu không chấp nhận H0 0 = 0 O thì điều đó có nghĩa là có thể chấp nhận một trong vô số 0 khác 0O, do đó thường đưa ra bài toán dưới dạng cụ thể hơn nữa: Cho giả thiết H0 và một đối thiết Hj, khi kết luận thì hoặc chấp nhận H0 hoặc bác bỏ H0, và trong trường hợp này, tuy không hoàn toàn tương đương, nhưng coi như chấp nhận Hj

Nếu chấp nhận H0 trong lúc giả thiết đúng là Hị thì mắc sai lầm loại hai và xác suất mắc sai lầm này được gọi là rủi ro loại hai Ngược lại nếu bác bỏ H trong lúc giả thiết đúng chính là H0 thì mắc sai lầm loại một và xác suất mắc sai lầm đó được gọi là rủi ro loại một Như vậy trong bài toán kiểm định giả

Trang 17

thiết luôn luôn có hai loại rủi ro, loại một và loại hai, tuỳ vấn đề mà nhấn mạnh loại rủi ro nào Thông thường người ta hay tập trung chú ý vào sai lầm loại một và khi kiểm định phải khống chế sao cho rủi ro loại một không vượt quá mức a gọi là mức ý nghĩa.

Trước hết xem xét cụ thể bài toán kiểm định giả thiết H0: 0 = 0 O, đối thiết H m: 0 = 0 [ với 0 , là một giá trị khác 0 O Đây là bài toán kiểm định giả thiết đơn

Quy tắc kiểm định căn cứ vào hai giá trị cụ thể 0 Ị và 0 O, vào mức ý nghĩa

a và còn căn cứ vào cả sai lầm loại hai Việc này không gặp khó khăn về mặt lí thuyết

Sau đó mở rộng quy tắc sang cho bài toán kiểm định giả thiết kép Hj:

0 * 0O; 0 > 0O hoặc 0 < 0O, việc mở rộng này có khó khăn nhưng các nhà nghiên cứu lí thuyết xác suất thống kê đã giải quyết được, do đó vể sau khi kiểm định giả thiết H0: 0 = ©0 có thể chọn một trong 3 đối thiết H) sau:

H,: 0 * 0 O gọi là đối thiết hai phía

Hị 0 > 0 O gọi là đối thiết phải

H !: 0 < 0O gọi là đối thiết trái

Hai đối thiết sau gọi là đối thiết một phía

Việc chọn đối thiết nào tuỳ thuộc vấn đề khảo sát cụ thể Trong phạm vi tài liệu này chỉ đề cập đến đối thiết hai phía hay còn gọi là hai đuôi

BIẾN PHÂN PHỐI CHUẨN N(n, ơ 2)

Bài toán kiểm định H0: = |i0 với đối thiết H |: (J * fj.0 ở mức ý nghĩa a được chia thành 2 trường hợp sau:

2Ệ1 Đã biết phương sai ơ2

Đây là trường hợp khi tiến hành điều tra lại một tổng thể, người ta lấy phương sai của lần điều tra trước làm ơ 2, hoặc việc kiểm định được tiến hành

Trang 18

thường xuyên tại một cơ sở công nhiệp mà qua một quá trình dài đã tìm được phương sai a2 (chủ yếu phụ thuộc vào độ chính xác của các thiết bị đo lường và tay nghề của nhân viên sử dụng thiết bị).

Ta tiến hành các bước sau:

ut n

(2 ,0 3 -2 )7 6 40,3

= 0,8

Utn Ị = 0,8; u(0,05)= 1,645

Trang 19

Kết luận: Chấp nhận H0: mức chi tiêu trung bình của một gia đình là 2 triệu

đ ồ n g / tháng

2.2 Không biết phương sai ơ2

Đây là trường hợp phổ biến khi kiểm định giá trị trung bình của phân phối chuẩn Ta tiến hành các bước sau:

.2

- Lấy mẫu, tính X và s

- Tính giá trị T thực nghiệm Ttn = (x-(^o)V n

- Tìm giá trị tới hạn t —, n - 1 trong bảng 3

Trong điều kiện chăn nuôi bình thường lượng sữa trung bình của một con

bò sữa là 19kg/ngày Trong một đợt hạn, người ta theo dõi 25 con bò và được mạng sữa trung bình 17,5kg/ngày, độ lệch chuẩn s = 2,5kg Giả thiết lượng sữa phân phối chuẩn, hãy kiểm định giả thiết H0: n = 19 với đối thiết p * 19 ở mức

Trang 20

Kết luận: Chấp nhận Hq, như vậy vẫn coi trọng lượng trung bình của một bao thóc là 50kg.

§3 KIỂM ĐỊNH HAI GIÁ TRỊ TRUNG BÌNH CỦA

HAI BIẾN PHÂN PHỐI CHUẨN

Giả sử chúng ta có hai tổng thể và theo dõi một biến định lượng X nào đó, thí dụ trọng lượng sau 6 tháng nuôi của hai đàn gà, năng suất của hai giống lúa, năng suất của một giống ngô khi bón theo hai công thức phân bón khác nhau, sản lượng một loại quả khi trồng theo hai khoảng cách hàng

Chúng ta giả thiết biến X trên tổng thể thứ nhất (mà để dễ phân biệt ta gọi

là Xj) phân phối chuẩn N (ịi1; ơ^) và biến X trên tổng thể thứ hai (gọi là x2)phân phối chuẩn N (|i2 ơ 2 )• Để so sánh và ụ2 chúng ta phải chọn mẫu Có

hai cách chọn mẫu: Chọn mẫu theo cặp và chọn mẫu độc lập

3.1 Chọn mẫu theo cặp

Từ tổng thể thứ nhất, ta chọn một mẫu n cá thể có các giá trị X j , x2, xn

và từ tổng thể thứ hai một mẫu cũng gồm n cá thể, có các giá trị y ]( y2 yn,giữa hai mẫu này có mối quan hộ cặp, tức là ta có n cặp (Xị, Yj) (i = 1, n) Các cặp này hình thành do khi chọn mẫu ta đã dùng đến những quan hệ cặp như đực, cái (chọn n tổ chim sau đó bắt chim đực vào mẫu đại diện cho tổng thể chim đực, bắt chim cái vào mẫu đại diện cho tổng thể chim cái), quan hệ anh

em, quan hệ trước khi dùng thuốc và sau khi dùng thuốc (cá thể được đo trước khi dùng thuốc và số liệu này đại diện cho tổng thể trước khi dùng thuốc, sau khi dùng thuốc một thời gian lại đo lại và số liệu này đại diện cho tổng thể sau khi dùng thuốc), cũng có khi các cặp này là các cặp số liệu do chúng ta bố trí thí nghiệm theo cặp: một ô ruộng (hay một chuồng) bố trí giống thử nghiệm, một ô ruộng (một chuồng) bố trí giống đối chứng

Viết lại số liệu dưới dạng hai cột hay hai hàng, ta tính hiệu số dj = yẮ— Xj

Trang 21

Giả thiết H0: Ịiị = ịi2 đối thiết HJ: * I±2được chuyển thành

H0: ịiđ = 0 đối thiết Hj: * 0.

Ta có cách kiểm định sau ở mức ý nghĩa a

d jn

Tính t thực nghiệm Ttn =

sd

Tim giá trị tới hạn t f n - l trong bảng 3

Nếu I Ttn I < tf o —, n - 1 thì chấp nhận H0\ nếu ngược lại thì bác bỏ H0

Trang 22

Thí dụ 6

Mười cặp chó, hai con trong mỗi cặp đồng đều về mọi mặt, được chỉ định ngẫu nhiên vào hai nhóm: đối chứng (nuôi bình thường) và thí nghiệm (huấn luyện theo một chương trình đặc biệt), sau một khoá huấn luyện người ta đo một chỉ số về phản xạ và giả thiết chỉ số đó phân phối chuẩn Hãy kiểm định giả thiết H0: Chỉ số trung bình của hai nhóm đối chứng và huấn luyện như nhau, đối thiết H j: Chỉ số trung bình khác nhau Mức ý nghĩa a = 0,05

Trang 23

3.2ẻ Chọn m ẫu độc lập

Từ hai tổng thể chọn ra hai mẫu độc lập, dung lượng có thê băng nhau hoặc khác nhau Tính các thống kê Xj của mẫu thứ nhất; X2; s2 của mâu thú hai Để kiểm định giả thiết H0: H0: = ịx2 với đối thiết H J: M-I * M-2 ở mức ý

nghĩa a, ta chia ra 3 trường hợp:

3.2.1 Biết phương sai ƠJ và ơ2

+ Tính u thực nghiệm u tn =

Chiều dài cá trong hai ao phân phối chuẩn với độ lệch chuẩn ƠJ = 2 cm và

ơ2 = 2,2 cm; lấy mẫu 100 con của ao 1 được Xj = 8 cm; lấy mẫu 120 con của

ao 2 được x2 = 8,5 cm Hãy kiểm định giả thiết H0: m = p.2 yới đối thiết n,:

Trang 24

- Tìm giá trị tới hạn u

V ^ /

- N ế u | u tn I < u a thì chấp nhận H0, ngược lại thì bác bỏ H0

Thí dụ 8

Kiểm định giả thiết H0: trọng lượng trung bình con so và con rạ như nhau,

đối thiết H j: trọng lượng trung bình con so và con rạ khác nhau ở mức a = 0,05.

Lấy mẫu ri! = 95 được X )= 2798 gam; = 190000 gam

n2 = 105 được x2 =3166 gam; sị = 200704 gam.

Đây là một bài toán còn rất nhiều vướng mắc về mặt lí thuyết, do đó chúng

ta chỉ trình bày trường hợp có thêm giả thiết phụ: = Ơ2

Trang 25

2 (ni — l)sf + (no ~ 1)$2+ Tính phương sai chung: = - — -

Kết luân: Nếu I Ttn I < t —, nj + n2 - 2 thì chấp nhận H0, ngược lại thì

V 2bác bỏ H0 mức ý nghĩa a

Trang 26

Nếu chọn mức ý nghĩa 0,05 thì tìm được t(0,025,24) = 2,064.

Kết luận: bác bỏ Ho, như vậy hai giống gà có trọng lượng trung bình khác nhau

§4 KIỂM ĐỊNH XÁC SUÂT

Trong chương trước đã đề cập đến tổng thể có hai loại cá thể A và A , loại A chiếm tỉ lệ p Sau khi chọn mẫu đã dùng phân phối chuẩn để tính gần đúng phân phối nhị thức, từ đó suy ra công thức ước lượng p Ở đây cũng lặp lại suy luận nhưvậy và có:

4.1Ể Kiêm định giả thiết H0: p = p0, đối thiết p * Po

Khi dung lượng mẫu lớn (n > 40 nhưng thực tế thấy tốt nhất là trên 100)

Từ mẫu dung lượng n, tính số cá thế loại A được tần sô m và tẩn suất f = —

nTính Utn = f - P o

Trang 27

Kiểm định giả thiết tỉ lệ nẩy mầm p = 0,80, đối thiết p * 0,8 với a - 0,05

4.2 ễ Kiểm định giả thiết H0: pt = p2, đối thiết H ị : P j * p2

Khi dung lượng cả hai mẫu đều lớn thì có thể kiểm định như sau (ở mức ý nghĩa a )

n, = 200; mi = 150; fj = — =0,75

200

n2= 1 0 0 ;m 2 = 72; f2 = ^ = 0 ,7 2 ; f = ^ ^ ^ 7 = 0,74

Trang 28

T ất cả các bài tập ở chương này đều kiểm định ở mức a = 0,05

6ẻl Điều tra thấy chi phí trung bình X của 25 sinh viên xa nhà là 475000đ/ tháng, độ lệch chuẩn 30000đ Coi chi phí một tháng phân phối chuẩn, hãy kiểm định giả thiết H0: n = 500000đ Đối thiết Hj: n * 500000đ.6.2 Theo hợp đồng khi bán các bao gạo được đóng trong bao 50 kg Kiểm tra

16 bao được X = 49kg, s = 3,6kg Hỏi hợp đồng có được bên bán thực hiện nghiêm chỉnh hay không?

6.3 Ấp 100 quả trứng 75 quả nở Hãy kiểm định giả thiết H0: p = 0,80, đối thiết H j: p * 0,80

6.4 Hai giống vịt nuôi 4 tháng có trọng lượng phân phối chuẩn với Gị = 1 và

o ị - 0,8 Lấy mẫu nj = 50, được Xị = l,9kg; n2 = 40, x2 = 2kg.

Hai loại vịt này có trọng lượng trung bình như nhau không?

6.5 Hai giống lúa có năng suất cho trong hai bảng sau (đơn vị tấn / ha)

Kiểm định giả thiết H0: M-] = n2 đôi thiết H j: |iị * ịi2 nếu chấp nhận giả

thiết hai phương sai bằng nhau: = o \

Trang 29

6.7 So sánh trọng lượng trẻ sơ sinh ở nông thôn và thành thị, ta có bảng sau:

Khu vực Số trẻ đươc cân Trọng lượng trung bình Phương sai

Qua điều tra trên, có thể coi trọng lượng của trẻ sơ sinh ở thành thị và nông thôn như nhau không nếu coi trọng lượng trẻ sơ sinh phân phối chuẩn?6.8 Thu nhập hàng nãm của các gia đình ở hai khu vực A và B cho ở bảng sau:

A

B

Chấp nhận giả thiết hai phương sai bằng nhau = o ị hãy kiểm định giả

thiết thu nhập trung bình của gia đình ở hai khu vực như nhau nếu coi thu nhập phân phối chuẩn

6.9 Dùng hai loại thuốc A và B để chữa bệnh cho gà, thuốc A dùng cho 100 con gà bệnh có 71 con khỏi, thuốc B dùng cho 90 con bệnh có 58 con khỏi Hãy kiểm định giả thiết H 0: P ị = p 2, đối thiết H j : P j * p 2, với p! và p2 là tỉ lệ chữa khỏi bệnh của hai loại thuốc

Trang 30

KIÊM Đ NH MỘT PHẤN PHOI VA■ ■

BẢNG TƯƠNG LIÊN

Trong chương 4 đã đề cập sơ qua đến biến ngẫu nhiên liên tục

Trong phần mẫu quan sát, chúng ta đã gặp biến phân phối chuẩn, biến phân phối stiuđơn, ở chương này sẽ gặp một biến ngẫu nhiên liên tục khác, bằng tổng bình phương của nhiều biến ngẫu nhiên độc lập, phân phối chuẩn tắc, đó là biến Khi binh phương ỵ 2. Biến này được khảo sát tỉ mỉ và lập bảng phân phối (bảng 4) Biến X có nhiều ứng dụng khác nhau ở đây chúng ta chỉ đề cập đến hai ứng dụng đối với biến định tính.

§1 KIỂM ĐỊNH MỘT PHÂN PHỐI

Để khảo sát một biến định tính X, ta lấy mẫu quan sát gồm N cá thể và phân chia thành k lớp (loại) như bảng sau: (Lj là lớp thứ i, mị là số lần X thuộc lớp i)

Từ một lí thuyết nào đó, có thể là một lí thuyết đã được xây dựng chặt chẽ,

có giải thích cơ chế, cũng có thể chỉ là một lí thuyết mang tính kinh nghiệm, đúc kết từ những quan sát trước đây về biến X, người ta đưa ra một giả thiết H0 thể hiện ở dãy các tần suất lí thuyết fj, f2, , fk của biên X (có nghĩa là dãy tần suất này được tính từ lí thuyết đã nêu trên) Căn cứ vào tần suất lí thuyết fj

và tần số thực tế m, chúng ta phải đưa ra một trong hai kết luận:

a) Chấp nhận H0 tức là coi tần số thực tế m, phù hợp với lí thuyết đã nêu (thể hiện ờ tần suất f|)

b) Bác bỏ H0 tức là dãy tần số thực tế mj không phù hợp với lí thuyết đã nêu

Trang 31

Việc kiểm định được thực hiện với mức ý nghĩa a , tức là nêu gia thiet Hq đúng thì xác suất để bác bỏ một cách sai lầm H0 bằng a.

Các bước cần làm gồm:

1- Tính các tần số lí thuyết theo công thức: tj = Nfj (7.1)

2 - Tính khoảng cách giữa hai số m, và t ị theo cách tính khoảng cách X tức là

4 - Tìm giá trị tới hạn trong bảng 4 (cột a, dòng k - 1, kí hiệu là x2(a, k - 1))

5 - Nếu - x 2(a ' k - 1) thì chấp nhận H0: "Dãy tần số thực tế rrij phù hợp với lí thuyết đã nêu"

Nếu xịn > x2(a, k - 1) thì bác bỏ H0, tức là "Dãy tần số thực tế m, không phù hợp với lí thuyết đã nêu"

Trang 32

Dựa vào tỉ lộ 9:3:3:1 trong luật phân li, ta có các tần suất lí thuyết:

9 16

3 16

3 16

Kết luận: lìn < x 2(0,05,3) nên chấp nhận H0: "Số liệu trong thí nghiệm lai

đậu phù hợp với định luật phân li thứ ba của Mendel"

Thí dụ 2

Trồng mỗi chậu hai cây hoa, số cây sống ghi trong bảng (Biến X có ba lớp:

"0 cây nào sống", "1 cây sống", "2 cây sống") Tất cả có 500 chậu cây

"sống" là hai sự kiện độc lập có xác suất bằng nhau và bằng 0,3)

Từ giả thiết H0 suy ra tần suất lí thuyết và tần số tương ứng:

0,49

2.0,3.0,7 0,42

Trang 33

Các số trong các ô được gọi là các tần số thực tế vì đó là các số thu được qua khảo sát thực tế.

Bài toán đặt ra ở đây là biến X (hàng) và biến Y (cột) có qtlan hệ hay không?Giả thiết H0: "Hàng và cột không quan hệ"

Các bước phải thực hiện gồm:

1- Từ giả thiết hàng và cột không quan hệ suy ra các số ở trong ô về lí thuyết phải bằng tổng hàng (THj) nhân với tổng cột (TCj) chia cho tổng số quan sát N (trong thí dụ 7.4 chúng ta sẽ lí giải vấn đề này) Gọi tần số lí thuyết

là tịj ta có:

T H j x T C ị

<7 -3>

Trang 34

9 2

2 - Tính khoảng cách giữa 2 tần sô' Iĩijj và tjj theo cách tính khoang cách X

4 - Chọn mức ý nghĩa a và tìm giá trị tới hạn trong bảng 4 x2(a, (k - 1)(/ - 1)) (cột a, bậc tự do (k - 1)(/ - 1))

5 - Kết luận: mức ý nghĩa a nếu Xtn - 1 (a ’ (k - l)ơ - 1)) thì chấp

nhận H0, ngược lại thì bác bỏ H0

Bài toán này thường thể hiện dưới hai dạng:

1- X và Y là hai biến định tính, giả thiết H0: "Hai biến X, Y không có quan hệ" hay có thể dùng thuật ngữ: "X và Y độc lập"

Thường gọi bài toán này là kiểm định tính độc lập của hai biến định tính, hay kiểm định tính độc lập của hai tính trạng

2 - Hàng X là các đám đông, cột Y là các nhóm, việc phân chia đám đông thành các nhóm căn cứ vào một tiêu chuẩn nào đó

Bài toán này thường được gọi là kiểm định tính thuần nhất của các đám đông (tức là các đám đông có cùng tỉ lệ phân chia), hay còn gọi là kiểm định các tỉ lệ

Trong một đợt cho các hộ nghèo vay tiền đê phát triển kinh tê gia đình đã ghi lại tuổi của chù hộ và kết quà của việc dùng tiền vay đó để phát triển kinh

Trang 35

Bảng các tần số thực tế Iîijj

(kết quả) X(Tuổi)

Thành công

Thất bại

Tổng hàng

Hãy kiểm định giả thiết H0: "Kết quả việc dùng tiền vay để phát triển kinh

tế không phụ thuộc vào lứa tuổi của chủ hộ" với mức ý nghĩa a = 0,05.

Ở đây coi tuổi chủ hộ là biến X, chia làm bốn lớp: từ 25 tuổi trở xuống, từ

26 đến 35 tuổi, từ 36 đến 45 tuổi, trên 45 tuổi

Cột là kết quả việc dùng tiền vay Y, chia làm hai lớp: thành cống và thất bại Giả thiết H0: "X và Y độc lập"

Hoặc coi hàng là các đám đông (các lứa tuổi) còn cột là sự phán chia các đám đỏng ra thành hai loại "thành công" và "thất bại"

T H ị x T C :

Tính các sô lí thuyết tjj theo công thức t:: =

-J N

Bảng các tần s ố lí thuyết tịj (kết quả)

X(Tuổi)

Thành công

Thất bại

Tổng hàng

Trang 36

Tính x ị = £ £ ( m , j - t j j ) 2/ tjj = 71,48.

Giá trị tới hạn x2(0,05, 3) = 7,815

Kết luận: Bác bỏ H0, như vậy kết quả việc dùng tiền vay để phát triển kinh

tế gia đình không độc lập với lứa tuổi

Theo dõi bảng my có vẻ như những người trẻ (dưới 35) ít thành công hơn những người đứng tuổi (trên 35)

Có thể áp dụng ngay các công thức để kiểm định nhưng để lí giải vì sao có

Trang 37

Nếu hàng (thuốc) độc lập với cột (kết quả) thì điêu đó có nghĩa là két quả phòng bệnh của hai loại vắc xin như nhau, như vậy vé lí thuyêt phải có tí lệ khoẻ như nhau:

a _ c _ a + c _ a + c

a + b c + d a + b + c + d NT,., , , (a + c)(a + b) (a + c)(c + d)

Trang 38

''" '''\ N ă n g suất

Tổng hàng

Số con trai X trong

Trang 39

Kiểm định giả thiết H0: "Số con trai trong gia đình phân phói nhi thức B(4, 0,5)" (tức là xác suất sinh con trai bằng xác suất sinh con gái vàbằng Ậ Bốn lần sinh coi như bốn phép thử độc lập).

Kiểm định giả thiết H0: "5 giống ngô được ưa chuộng như nhau

7.3 Sử dụng một loại thuốc diệt nấm cho cá được bảng sau:

Kết quả Thuốc

Kiểm định giả thiết H0: "Thuốc không có tác dụng"

7.4 Khảo sát màu tóc và màu mắt của 6800 người Pháp được bảng sau:

Tóc Mắt

Kiểm định giả thiết H0: "Màu mắt và màu tóc độc lập với nhau"

7.5 Ba loại thuốc kích thích ra hoa A, B, c được thử nghiệm và kết quả như

sau:

Trang 40

Ba loại thuốc này có cho kết quả như nhau không?

7.6 Để đánh giá một chương trình giải trí mới giới thiệu trên vô tuyến truyền hình địa phương, người ta tiến hành việc xin ý kiến khán giả và thu được bảng sau:

Ý kiến của ba tầng lớp xã hội có giống nhau không?

7.7 Nghiên cứu ảnh hường của hoàn cảnh gia đình đến tình trạng phạm tội cùa trẻ em tuổi vị thành niên ờ một vùng, người ta điều tra 168 gia đình

và được bảng sau:

Tình trạng Hoàn cảnh

Hoàn cảnh gia đình có ảnh hường đến việc phạm tội hay không?

7ế8 Theo dõi ba ca làm việc trong xí nghiệp, ta có kết quả sau:

Ngày đăng: 22/06/2023, 16:27

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm