Ebook Xác suất & thống kê Y học sau đây được biên soạn nhằm trang bị cho các bạn những kiến thức về khái niệm sơ lược về xác suất; lượng ngẫu nhiên hàm phân phối; mẫu và cách biểu diễn mẫu; lý thuyết ước lượng; kiểm định giả thuyết thống kê và một số kiến thức khác.
Trang 1Mở đầu
Trong các giáo trình toán, vật lý ở nhà trường phổ thông người ta thường chỉ xét bài toán trong đó kết quả phép toán được xác định một cách duy nhất Chẳng hạn, nếu
ta thả một hòn đá thì nó sẽ rơi với một gia tốc không đổi Vị trí cuả hòn đá ở mọi thời
điểm đều có thể tính được Tuy nhiên còn có nhiều bài toán mà kết quả các kết quả thực hiện trong chúng không được xác định một cách duy nhất, nhưng lại có ý nghĩa lớn lao về mặt khoa học cũng như việc áp dụng trong kỹ thuật, Kinh tế, Y học,… Chẳng hạn, nếu ta gieo đồng tiền thì không thể nói trước rằng khi đồng tiền rơi xuống mặt đất, mặt sấp hay mặt ngữa của đồng tiền sẽ lên trên, ở đây kết quả của phép thử thực hiện không được xác định một cách duy nhất Hình như trong các bài toán như vậy ta không nên nói trước một điều gì xác định, tuy nhiên ngay với thực tiễn của những trò chơi thông thường cũng chứng tỏ một điều ngược lại là, với một số khá lớn lần gieo đồng tiền thì ta thấy gần một nữa số lần rơi mặt sấp và một nữa số lần rơi mặt ngữa, đây là một quy luật xác định Trong lý thuyết xác suất người ta nghiên cứu các quy luật dạng đó Chính việc thiết lập các bài toán cũng được thay đổi căn bản Chúng
ta quan tâm không phải là kết quả của một phép thử xác định mà là cái nhận được sau nhiều lần lặp lại phép thử đó Nói một cách khác, trong lý thuyết xác suất ta nghiên cứu tính quy luật của các biến cố ngẫu nhiên hàng loạt
Lý thuyết xác suất xuất hiện và phát triển trong quá trình giải quyết một loạt các bài toán riêng lẻ mang tính trò chơi và ứng dụng Các kiến thức đầu tiên chúng ta biết
được có quan hệ với việc giải các bài toán về trò chơi xuất hiện từ thế kỷ XVI – XVII (D Cardano, Huyghens, B Pascal, P Ferma,…) Sau đó các bài toán ứng dụng bắt đầu xuất hiện và phát triển (đáng kể đầu tiên là các bài toán về đề phòng tai nạn và thiên tai) Dần dần được tách ra một lĩnh vực các bài toán với hình thái riêng biệt cũng như phương pháp giải chúng, hình thành các định nghĩa đầu tiên và các định lý Định lý
đầu tiên thiết lập mối quan hệ giữa lý thuyết và thực hành và là phần đầu nhóm các
định lý có tên “các Định lý giới hạn” của lý thuyết xác suất do Bernoulli (1654 - 1705) chứng minh cuối thế kỷ 17 Sau đó sự phát triển của lý thuyết xác suất được tiếp tục trong các công trình của A Moivre (1667 - 1754), P Laplace (1749 - 1827), K Gauss (1777 - 1855), Poisson (1781 - 1840), và đặc biệt trong các công trình của nhà toán học Nga P.L Chebưshev (1821 - 1894), và các học trò của ông ta A.A Markov (1856 – 1922), A M Liapunov (1857 - 1918) Trong thế kỷ XX sự phát triển lớn nhất của lý thuyết xác suất và việc trình bày nó một cách hoàn thiện như một khoa học toán học đã
được giới thiêu trong các công trình của các nhà toán học Xô viết
Hơn 300 năm phát triển, đến nay nội dung và phương pháp của xác suất thống kê rất phong phú, được áp dụng rộng rải trong nhiều lĩnh vực Vì vậy, việc học tập, nghiên cứu môn xác suất thống kê đã trở thành nhu cầu không thể thiếu đối với sinh viên của nhiều ngành của các trường Đại học cũng như của các cán bộ nghiên cứu của hầu hết các ngành khoa học kỷ thuật
Để nâng cao chất lượng đào tạo, đáp ứng với nhu cầu của sự phát triển xã hội và tạo điều kiện thuận lợi cho sinh viên học tập nghiên cứu môn học này, chúng tôi biên
soạn cuốn sách Xác suất & thống kê Qua cuốn sách nhỏ này, chúng tôi mong muốn
và hy vọng các bạn sinh viên sẽ đạt kết quả cao trong học tập cũng như áp dụng được các phương pháp của xác suất thống kê trong công việc của mình sau này
Đối với các bác sỹ, các dược sỹ, các nhà nhà kinh tế, các nhà doanh nghiệp và các chuyên gia nghiệp vụ quản lý, biết thu thập, xử lý các thông tin nghề nghiệp là yêu cầu
Trang 2không thể thiếu được Toán học nói chung, lý thuyết xác suất thống kê nói riêng, là công cụ nghiên cứu rất hữu hiệu Đối với sinh viên các ngành Y khoa, sinh học, kinh
tế, kỷ thụât, mục đích cuối cùng của học toán là sử dụng được công cụ này trong công việc của mình Do đó cuốn sách được viết theo quan điểm thực hành, chú trọng việc vận dụng các phương pháp của xác suất thống kê trong thực tế mà không đi sâu vào việc chứng minh cơ sở lý thuyết toán học một cách chặt chẽ
Với tinh thần ứng dụng, tốc độ, dễ hiểu và dễ áp dụng vào thực tiễn, cuốn sách chia
làm hai phần: phần 1 “ Sơ lược về lý thuyết xác suất” chỉ trình bày trong hai chương
Chương 1 các kháI niệm cơ bản về xác suất
Chương 2 Lượng ngẫu nhiên hàm phân phối
Cuối mỗi chương chúng tôi cũng đưa ra một số bài tập nhằm cho sinh viên vận dụng lý thuyết đã học một cách thành thạo, và thấy được phần nào ứng dụng cụ thể của
nó vào thực tiễn
Phần 2 “Thống kê toán học” trình bày trong 4 chương
Chương3 mẫu và cách biểu diễn mẫu
Chương 4 Lý thuyết ước lượng
Chương 5 kiểm định giả thuyết thống kê
Chương 6 Tương quan và hồi qui
Đặc biệt cuối chương 1 phần 2 và cuối sách chúng tôi hướng dẫn cách sử dụng máy tính bỏ túi Casio fx 500MS trong việc tính toán một vài tham số trong xác suất thống kê phục vụ cho việc thi cử và nghiên cứu sau này khi chưa có đủ điều kiện Vì khả năng có hạn, nên cuốn sách khó tránh khỏi những sai sót, mong các bạn đọc
và đồng nghiệp đóng góp để chúng tôi hoàn thiện hơn nữa
Tác giả
Trang 3Phần I Sơ lược lý thuyết xác suất
Lý thuyết xác suất là một bộ môn Toán học nghiên cứu những quy luật ngẫu nhiên và những hiện tượng số lớn Nó xác lập những quy luật tất nhiên ẩn dấu sau những hiện tượng mang tính ngẫu nhiên Khi nghiên cứu một số lớn hiện tượng tương
tự, việc nắm bắt những quy luật này sẽ cho phép dự báo các hiện tượng ngẫu nhiên đó
sẽ xẩy ra như thế nào Các phương pháp của lý thuyết xác suất được ứng dụng rộng rải trong việc giải quyết những bài toán thuộc các lĩnh vực khác nhau của khoa học Tự nhiên Kinh tế và Xã hội
Chương 1 CáC KHáI NIệM CƠ BảN CủA lý thuyết xác suất
Đ1 Phép thử - sự kiện - xác suất của sự kiện
1.1 Khái niệm về phép thử, sự kiện (biến cố) liên kết với phép thử
Khi nghiên cứu một hiện tượng nào đó, người ta cần phải chuẩn bị một số điều kiện để tiến hành thí nghiệm, khi đó ta nói rằng người ta đã chuẩn bị một phép thử ngẫu nhiên Vậy phép thử ngẫu nhiên là sự thực hiện một loạt điều kiện xác định nào
đó với mục đích xác định trước, Người ta thường ký hiệu phép thử ngẫu nhiên là phép thử (G) Phép thử ngẫu nhiên (G) có thể là một thí nghiệm lặp lại trong các điều kiện bên ngoài giống hệt nhau Chẳng hạn tung một đồng xu rơi xuống mặt bàn (phép thử (G)) quan sát xem mặt sấp lên trên hay mặt ngửa lên trên
Một phép thử (G) sau khi thực hiện xong nó có nhiều kết cục có thể xẩy ra, mỗi kết cục đó được gọi là một sự kiện sơ cấp của phép thử Tập hợp các sự kiện sơ cấp của phép thử (G) gọi là không gian các sự kiện sơ cấp của(G), và kí hiệu là , mỗi sự kiện sơ cấp của phép thử (G) xem như 1 điểm của không gian Một tập hợp con của được gọi là một sự kiện (hay biến cố) của phép thử (G) Ta gọi một sự kiện liên kết phép thử (G) là một sự kiện có thể xảy ra hoặc có thể không xảy ra tuỳ thuộc vào kết quả khi (G) thực hiện Sự kiện như vậy gọi là sự kiện ngẫu nhiên
Khi phép thử (G) thực hiện, một sự kiện nào đó được gọi là xẩy ra khi và chỉ khi chỉ cần ít nhất một biến cố sơ cấp chứa trong sự kiện đó xẩy ra là đủ
Ví dụ Phép thử (G) gieo một con xúc xắc xuống mặt bàn Gọi ei là kết quả chỉ mặt có
i chấm lên trên (i=1,2,3,4,5,6) thì không gian các biến cố sơ cấp của phép thử là:
={e1, e2, e3, e4, e5, e6} Tập A = {e3, e6} là biến cố chỉ xuất hiện mặt có chấm là bội của 3 lên trên sau khi gieo con xúc xắc Biến cố A được gọi là xẩy ra khi phép thử (G) tiến hành, nếu (G) thực hiện mặt 3 chấm lên trên hay mặt 6 chấm lên trên Các sự kiện của phép thử thông thường chia làm 3 loại chính:
+ Sự kiện bất khả, kí hiệu là hoặc V là sự kiện mà khi phép thử thực hiện nhất thiết nó không xẩy ra
+ Sự kiện chắc chắn, kí hiệu là là sự kiện mà khi phép thử thực hiện nhất thiết
nó phải xẩy ra
+ Sự kiện ngẫu nhiên, kí hiệu bằng các chữ in hoa như A, B là các sự kiện mà khi phép thử thực hiện nó có thể xảy ra cũng có thể không xẩy ra
1.2 Quan hệ, các phép toán trên các sự kiện
Trang 4Người ta định nghĩa quan hệ giữa các sự kiện và các phép toán trên chúng cũng giống như các phép toán trên tập hợp, vì vậy mà sử dụng các phép toán như trong lý thuyết tập hợp
1.2.1 Sự kiện kéo theo
Sự kiện A gọi là kéo theo sự kiện B nếu A xẩy ra thì B cũng xẩy ra Kí hiệu là
A
C xẩy ra thì A i xẩy ra (i1; 2; ;n)
1.2.4 Tích các sự kiện
Tích của hai sự kiện A và B là sự kiện kí hiệu là AB hoặc AB thoả mãn: AB xẩy
ra cả A và B đồng thời xẩy ra
Tổng quát Tích của n sự kiện A A1, 2, ,A n là sự kiện kí hiệu
1
n i i
xẩy ratất cả A i đều xẩy ra (i1; 2; ;n)
1.2.5 Hiệu của hai sự kiện
Sự kiện E được gọi là hiệu của hai sự kiện A và B, kí hiệu E = A\ B nếu E xẩy
ra khi A xẩy ra mà B không xẩy ra
1.2.6 Quan hệ giữa các sự kiện
Trang 5i) Hai sự kiện A và B được gọi là xung khắc, nếu A xuất hiện thì B không xuất hiện và ngược lại Nếu A B, là hai sự kiện xung khắc, ta kí hiệu ABV
ii) Hai sự kiện A và B gọi là đối lập nếu A B V
Ví dụ 2 Hai xạ thủ cùng bắn mỗi người bắn một viên vào bia Gọi A i := “ Người thứ i
bắn trúng bia” (i=1 ,2) Hãy viết các biế cố sau qua A 1 , A 2
a Chỉ có xại thủ thứ nhất bắn trúng bia: A A1 2
Đ2 Các định nghĩa của xác suất
Chúng ta thấy rằng, khi có phép thử ngẫu nhiên (G) được thực hiện thì các biến
cố ngẫu nhiên A, B, C, … liên kết với (G) có thể xẩy ra hoặc không xẩy ra Do đó vấn
đề đặt ra là: Làm sao đo được mức độ xẩy ra của một biến cố ngẫu nhiên nào đó ? Để
giải quyết vấn đề này người ta tìm cách gán cho mỗi biến cố A liên kết với (G) một số
ký hiệu P(A) thỏa mãn 3 tính chất sau:
1 P( )W = 1; P( )ặ = 0
2 P A( )ẻ ờ ỳộở0, 1ựỷ
3 Nếu A, B là hai biến cố xung khắc thì P A( ẩB)= P A( )+ P B( )
Thì số P(A) đó gọi là xác suất của biến cố A Ba tính chất trên gọi là ba tính chất của xác suất
Trang 6Vậy xác suất của một biến cố là một số thực thuộc đoạn [0, 1], chỉ mức độ xẩy ra khách quan của biến cố (sự kiện) đó khi phép thử được tiến hành Để đạt được mục
đích đó chúng ta đưa ra định nghĩa xác suất trong một số trường hợp hay gặp sau đây
2.1 Định nghĩa cổ điển của xác suất
Xét phép thử (G) có số kết quả có thể xẩy ra là n và các kết quả là đồng khả năng, trong n kết quả đó có m kết quả thuận lợi cho sự kiện A xẩy ra thì xác xuất của
sự kiện A là số thực kí hiệu P A và định nghĩa là P A m
n
Ví dụ 3 Gieo một con xúc xắc (Phép thử (G)) thì ={e1, e2, , e6} do con xúc xắc cân đối và đồng chất nên các kết quả ei (i =1,2,3,4,5,6) đồng khả năng xẩy ra nên số khả năng của (G) là n = 6
Gọi A là biến cố chỉ xuất hiện mặt có chấm là bội của 3 thì số khả năng thuận lợi cho A xẩy ra là 2, vì nếu mặt 3 chấm xuất hiện hoặc mặt 6 chấm xuất hiện thì A xuất hiện vậy m = 2 Theo định nghĩa cổ điển của xác suất thì xác suất của biến cố A là:
Ví dụ 4 Một thùng kín trong đó có 3 bi trắng và 4 bi đen, các bi làm đồng chất, cùng
độ lớn độ nhẵn (gọi là đồng khả năng) Lấy ngẫu nhiên 3 bi cùng một lúc Tìm xác suất để lấy được 2 bi đen và 1 bi trắng
Phép thử (G) là lấy ngẫu nhiên một lúc 3 bi, do các bi đồng khả năng được lấy nên số cách lấy là
3 7
7! 7.6.5.4!
353! 7 3 ! 3!4!
2.2 Định nghĩa xác suất theo quan điểm thống kê
Xét một phép thử (G) liên kết với sự kiện A, lặp lại phép thử (G) n lần độc lập, Chúng ta thấy có k lần xuất hiện sự kiệnA Khi đó tỉ số được gọi là tần suất xuất hiện
sự kiện A trong n lần lặp lại phép thử (G) Chúng ta nhận thấy rằng tần suất f n A có các tính chất sau:
1) f n 1, f V n 0
2) 0 f n A 1
3) A B, xung khắc thì f nAB f n A f n B
(Tự kiểm tra tại sao ?)
Và f n A thay đổi nếu n thay đổi hoặc thực hiện phép thử trong n lần khác Tuy nhiên bằng thực nghiệm người ta chứng minh được rằng với n khá lớn thì f n A ổn
định quanh một giá trị p nào đó, giá trị p đó theo quan điểm thống kê gọi là xác suất
của sự kiện A
Trang 7Định nghĩa Xác suất của sự kiện A là trị số ổn định của tần suất f n A khi số lượng phép thử tăng lên vô hạn
Chẳng hạn hai nhà thống kê Buffon và Pearson đã thí nghiệm gieo đồng tiền nhiều lần, kết quả ở bảng sau:
Người gieo Số lần gieo Số lần sấp Tần xuất
Qua kết quả trên cho chúng ta thấy tần suất xuất hiện mặt sấp (S) ổn định xung
quanh giá trị p = 0,5 khi số lượng phép thử n tăng lên, nên ta nói rằng xác suất xuất hiện mặt sấp khi gieo đồng tiền là P(S) = 0,5
2.3 Định nghĩa xác suất theo quan điểm hình học
Xét phép thử (G) lấy ngẫu nhiên một điểm trên đoạn [0, 1], thì không gian các
sự kiện sơ cấp của phép thử ở đây là vô hạn kết quả không đếm được Trong trường hợp này ta không thể xây dựng xác suất của sự kiện A trên cơ sở xác suất của các sự kiện sơ cấp Pi (vì các điểm trên đoạn thẳng coi như đồng khả năng và các pi = 0) Nhưng ta thấy rằng nếu sự kiện A là một đoạn thẳng nào đó nằm trong đoạn [0, 1] thì A càng lớn xác suất để một điểm rơi vào trong A càng lớn, vì thế ta xem xác suất của một điểm rơi vào miền A là
Định nghĩa xác suất theo quan điểm hình học
Giả sử là tập hợp các điểm nào đó (đoạn thẳng, miền phẳng, mảnh mặt cong hay khối không gian), và A là tập con của , khi đó xác suất để một điểm rơi vào miền A là: P A A
Độ Đo của
Độ Đo của , độ đo ở đây là độ dài, diện tích hay thể tích…
Ví dụ 5 Hai người hẹn gặp nhau tại một địa điểm đã định trong khoảng thời gian từ
19 đến 20 giờ Hai người đến chổ hẹn độc lập nhau và quy ước rằng khi đến chổ hẹn sẽ
đợi nhau 10 phút, nếu người kia không đến thì sẽ bỏ đi Tính xác suất để họ gặp nhau
Giải Ta biểu diễn thời điểm đến chổ hẹn của người thứ nhất là một điểm trên trục
hoành, người thứ hai trên trục tung Như vậy thời điểm đến của cả hai người được biểu diễn bằng một điểm có tọa độ là cặp (x,y) nằm trong hình vuông 0x60; 0 y60,
Trang 860
10 10 y=x+10
2.4 Sơ lược một số khái niệm của giải tích kết hợp
2.4.1 Chỉnh hợp
Cho một tập hợp X có n phần tử khác nhau Một cách chọn ra k phần tử khác nhau có thứ tự từ n phần tử của tập hợp X gọi là một chỉnh hợp chập k của n phần tử (kn) Số chỉnh hợp chập k của n phần tử kí hiệu và tính theo công thức:
1
n
C ta có công thức khai triển nhị thức như sau:
Trang 9Ví dụ 7 Một nhóm học viên có 5 người, trong đó có 3 nam và 2 nữ Muốn chọn 3 học
viên đi lao động trong đó có 2 nam và 1 nữ Hỏi có bao nhiêu cách chọn
Số cách chọn 2 nam trong 3 nam là: 2
Nếu A B, là 2 biến cố xung khắc thì p A B p A p B
Nếu A B, là 2 biến cố bất kì thì p A B p A p B p AB
Tổng quát: Cho n biến cố A A1, 2, ,A n
Nếu n biến cố A A1, 2, ,A n này xung khắc từng đôi thì ta có:
1 1
i i
Nếu B là một biến cố có xác suất P B ( ) 0) thì xác suất có điều kiện của biến
cố A với điều kiện của biến cố B đã xẩy ra được định nghĩa là:
Ví du 8 Trong kho có 96% sản phẩm đúng qui cách Trong số sản phẩm đúng qui
cách có 70% sản phẩm loại I Lấy ngẫu nhiên một sản phẩm, tính xác suất để lấy được sản phẩm loại I
Trang 10Gọi A là biến cố lấy ngẫu nhiên một sản phẩm thì được sản phẩm loại I, B là biến cố chỉ lấy ngẫu nhiên một sản phẩm thì được sản phẩm đúng qui cách, thì ta có
i
i i
Chứng minh công thức này bằng qui nạp (độc giả tự chứng minh xem như bài tập)
3.3 Công thức xác suất toàn phần, công thức Bâyet
Giả sử A A1, 2, ,A n là một hệ sự kiện đầy đủ, B là một sự kiện bất kì thì:
Do các A i,i 1, 2, n xung khắc từng đôi nên các BA i cũng xung khắc từng
đôi áp dụng công thức cộng xác suất ta có:
i i
Công thức (1) gọi là công thức xác suất toàn phần
Bây giờ nếu phép thử đã thực hiện, biết sự kiện B đã xẩy ra, tìm xác suất xuất hiện sự kiện A i,(i1, 2, ,n), tức là cần tìm các xác suất A i
P B
, (i1, 2, ,n) ? Theo Định lý nhân xác suất thì:
Trang 11n i
i i
ý nghĩa của công thức (2) là: Sau khi thí nghiệm biết sự kiện B đã xẩy ra, ta tính xác xuất A i
P B
gọi là xác suất hậu nghiệm để phân biệt với các xác suất tiền nghiệm P A i
Ví dụ 9 Một trạm cấp cứu bỏng có 80% bệnh nhân bỏng do nóng và 20% bệnh nhân
bỏng do hoá chất Loại bỏng do nóng có 30% bị biến chứng, loại bỏng do hoá chất có 50% bị biến chứng
a) Tìm xác suất để khi mở tập hồ sơ ra lấy ngẫu nhiên 1 bệnh án thì gặp bệnh
án của bệnh nhân bị biến chứng?
b) Tìm xác suất để khi mở tập hồ sơ ra lấy ngẫu nhiên 1 bệnh án thì gặp bệnh
án của bệnh nhân bị biến chứng do nóng gây ra ?
Gọi A1 là sự kiện lấy ngẫu nhiên một bệnh án thì gặp bệnh án của bệnh nhân bị bỏng do nóng A2 là biến cố lấy ngẫu nhiên một bệnh án thì gặp bệnh án của bệnh nhân bị bỏng do hoá chất, B là biến cố lấy ngẫu nhiên một bệnh án thì gặp bệnh án của bệnh nhân bị biến chứng Khi đó {A1, A2} lập thành hệ sự kiện đầy đủ và
80 30
100 100 0, 70634
100
B
P A P
A A
P A p q, một phép thử như vậy được gọi là phép thử Bernoulli
Lặp lại (G) n lần độc lập Tìm xác suất biến cố B chỉ sự kiện A xuất hiện đúng
k (k = 0,1,2,…n) lần, kí hiệu xác suất này là P k n Lặp lại (G) n lần như trên gọi là thực hiện dãy phép thử độc lập Bernoulli
Gọi B là biến cố trong n lần lặp lại (G), sự kiện A xuất hiện k lần Ta thấy rằng B có nhiều cách thực hiện:
Trang 12Công thức (3) gọi là công thức Bernoulli thứ nhất
Để tính xác suất trong n phép thử Bernoulli độc lập, biến cố A xuất hiện từ k1
đến k2 lần (0k1k2 n) ta dùng Định lý cộng xác suất, và ký hiệu xác suất này là
Nếu n 1pN thì k0 là số nguyên lớn nhất không vượt quá n 1p
Ví dụ 10 Khi lại chuột trắng và chuột xám ở dòng thuần thì F1 mọi con chuột đều xám
(xám là tính trội) ở thế hệ F2 có 3
4 số chuột xám và 1
4là trắng Giả sử F2 cho ta được
5 con chuột Tính xác suất sao cho:
a) Có 3 con xám và hai con trắng
Trang 133.6 Xác suất trong chẩn đoán
Công việc hàng ngày của BS là chẩn đoán Chẩn đoán tức là xác suất Ta theo dõi tiến trình chẩn đoán xem xác suất biểu hiện ở những vị trí nào
Một người đến khám bệnh vì triệu chứng X, với triệu chứng này BS nghi ngờ và
"đoán" bị bệnh B Câu hỏi xuất hiện là khả năng bị bệnh B là bao nhiêu ? Khả năng này gọi là chỉ số nghi ngờ
Qua phỏng vấn người bệnh hoặc người nhà người bệnh, hoặc làm xét nghiệm (nói chung làm thủ tục chẩn đoán T), kết quả T có thể là dương tínhT+ hoặc âm tính T-liên quan đến bệnh B
Câu hỏi: Khi có kết quả T chỉ số nghi nghờ có thay đổi không? Khi nào thì cho làm xét nghiệm T ? Liệu kết quả T trả về có đáng tin cậy không? Nội dung phần này
sẽ trả lời những câu hỏi đó
3.6.1.3 Xác định độ nhạy và độ chuyên Chọn hai nhóm: nhóm bị bệnh B ký hiệu
B, nhóm không bị bệnh B ký hiệu B Cả hai nhóm cho làm xét nghiệm T Tùy thuộc vào kết quả xét nghiệm T trên hai nhóm mà ta có độ nhạy và độ chuyên của xét nghiệm T như sau:
Bệnh B
B B Xét nghiệm
Trang 14Ví dụ Có hai xét nghiệm T1 , T2 : T1 có độ nhạy 93% và độ chuyên 95% T2 dương giả 7%; âm giả 5% T1 dùng sàng lọc người có nguy có bị bệnh B , T2 dùng chẩn đoán bệnh này trên những người mà T1 cho kết quả dương tính
Một người từ dân số có tỷ lệ bệnh B là 0,001, cho người này làm xét nghiệm T1
kết quả dương tính, cho làm xét nghiệm T2 cũng dương tính Tính khả năng người này
Kết luận người này mắc bệnh B là 20,17%
3.6.2 Giá trị tiên đoán (predietive value)
+ P T B là khả năng bị bệnh B nếu xét nghiệm T dương tính Ký hiệu PV + P T B là khả năng bị bệnh B nếu xét nghiệm T âm tính Ký hiệu PV
+ Tỷ cơ hội của một biến cố A là số ký hiệu: LR(A) là tỷ số giữa xác suất xẩy ra biến
cố A đối với người bị bệnh B so với xác suất xẩy ra biến cố A đối với người không bị bệnh B Do đó khi một bệnh nhân có biến cố A xẩy ra mà tỷ cơ hội LR(A) càng lớn hơn 1 thì sự nghi ngờ người đó bị bệnh B càng cao
Trang 153 Một em bé có một hộp chứa 2 bi trắng và 4 bi đỏ Em rút hú hoạ từng viên bi một cho đến viên cuối cùng Tìm xác suất để viên bi cuối cùng là đỏ Nếu chọn ngẫu nhiên một bi, tìm xác suất nhận được bi đỏ
4 Một người có một hộp kín, trong đó có chứa 3 viên bi không rõ màu sắc, nhưng chúng đồng khả năng được chọn Người đó bỏ thêm vào hộp 1 bi đỏ đồng khả năng
được lấy với các bi trong hộp Xáo đều rồi lấy ngẫu nhiên từ hộp ra một bi Tìm xác suất để lấy được bi đỏ
5 Hai xạ thủ bắn vào một bia một cách độc lập nhau, mỗi người bắn bốn lần mỗi lần một phát Xác suất bắn trúng đích của người thứ nhất và người thứ hai trong mỗi lần bắn lần lượt là 0,6 và 0,9 Mỗi người sẽ được coi là bắn đạt yêu cầu nếu bắn trúng từ ba phát trở lên
a) Hãy tính xác suất bắn đạt yêu cầu của từng người
b) Kết quả bắn kiểm tra cho biết trong hai xạ thủ trên chỉ có một xạ thủ bắn
đạt yêu cầu Tìm xác suất để người bắn không đạt yêu cầu là người thứ nhất
6 Biết rằng tỷ lệ người mắc bệnh nào đó ở một địa phương nào đó là 3% Người
ta sử dụng một phản ứng mà nếu người bị bệnh thì phản ứng luôn luôn dương tính, nếu không bị bệnh thì phản ứng dương tính với xác suất 0,20
a Tìm xác suất phản ứng dương tính
b Tìm xác suất bi bệnh, không bị bệnh trong nhóm người có phản ứng dương tính
c Qua phương pháp thử này có thể ước lượng tỷ lệ mắc bệnh là bao nhiêu
7 Một bác sỹ có tiếng về chữa một bệnh nào đó Xác suất chữa khỏi bệnh là 0,80 Có người nói rằng cứ 10 người đến chữa thì chắc chắn có 8 người khỏi Điều khẳng định đó có đúng không?
Tìm xác suất sao cho bác sỹ đó chữa 10 người thì có 8 người khỏi
8 Trong một vùng có tỷ lệ nữ là 55% Trong đợt dịch bệnh, khả năng mắc bệnh của nam là 8%, của nữ là 3% Hỏi tỹ lệ mắc bệnh chung của cả vùng ?
9 Có một bệnh nhân mà bác sỹ chẩn đoán là mắc bệnh A với xác suất 0,5; mắc bệnh B với xác suất 0,35 và mắc bệnh C với xác suất là 0,15 Để có thêm thông tin chẩn đoán bác sỹ đã cho xét nghiệm sinh hoá Sau 3 lần thử thấy có 2 lần dương tính Hãy cho biết nên chẩn đóan bệnh nhân mắc bệnh nào? Biết rằng khả năng dương tính của mỗi lần xét nghiệm với bênh A, B, C tương ứng là 0,1; 0,2; 0,6
10 Một bình chứa 12 bi, trong đó có 4 bi trắng Một bình khác chứa 20 bi, trong đó có 14 bi trắng Ta làm thí nghiệm như sau:
Bước 1: lấy ngẫu nhiên từ mỗi bình ra một bi;
Bước 2: sau đó lấy ngẫu nhiên một bi trong hai bi vừa lấy được
Trang 16Tính xác suất để trong hai bi lấy ra được ở bước 1 có đúng một bi trắng, biết rằng bi lấy ra được ở bước 2 là bi trắng
11 Cho n cái hộp, mỗi hộp chứa m bi trắng và k bi đỏ Lấy hú họa 1 bi từ hộp 1
bỏ vào hộp 2 sau dó lấy hú họa 1 bi từ hộp 2 bỏ vào hộp 3, cứ tiếp tục lấy hú họa 1 bi
từ hộp 3 bỏ vào hộp 4, … Tìm xác suất để viên bi cuối cùng lấy ra từ hộp n là trắng
12 Một học sinh viết xong n bức thư rồi bỏ vào n bì thư, dán lại và trên mỗi bì thư ghi một địa chỉ khác nhau cần gửi, rồi gửi đi Tìm xác suất sao cho có ít nhất một lá thư đến đúng địa chỉ Gọi xác suất đó là P n Tìm lim n
đ Ơ
13 Gieo hú họa một điểm lên một đoạn thẳng có độ dài 30cm Tìm xác suất để
điểm đó rơi vào một đoạn con có độ dài 10 cm hoàn toàn nằm trong đoạn đã cho
14 Cho đoạn thẳng với độ dài a Chọn ngẫu nhiên trên đoạn này hai điểm, khi
đó ta có đoạn thẳng được chia làm ba đoạn nhỏ Tìm xác suất để ba đoạn thu được lập thành các cạnh của một tam giác
15 Cho hình vuông với các đỉnh A(0;0), B(0; 1), C(1; 0), D(1; 1) Gieo ngẫu nhiên một điểm M(X, Y) trong hình vuông đó
18 Tín hiệu thông tin được phát ba lần với xác suất thu được mỗi lần là 0,4
a Tìm xác suất để nguồn thu nhận được thông tin đó
b Nếu muốn xác suất thu được thông tin lên 0,9 thì phải phát bao nhiêu lần
Trang 17Chương2 biến ngẫu nhên và hàm phân phối
Đ1 biến ngẫu nhiên
1.1 Khái niệm biến ngẫu nhiên
Biến ngẫu nhiên là đại lượng nhận giá trị thực với xác suất xác định Người ta kí hiệu các biến ngẫu nhiên bằng các chữ in hoa như: X, Y, Z hoặc các chữ Hy Lạp như:
,
, và các giá trị nhận được của nó bằng các chữ thường như: x 1 ,x 2 , ,y 1 ,y 2,
Biến ngẫu nhiên có hai loại: Biến ngẫu nhiên rời rạc và Biến ngẫu nhiên liên tục Biến ngẫu nhiên được gọi là rời rạc nếu các giá trị có thể nhận được của nó hữu hạn hoặc vô hạn đếm được Biến ngẫu nhiên liên tục là các biến ngẫu nhiên mà các giá trị nhận được của chúng là vô hạn không đếm được, có thể lấp đầy một khoảng (a, b) của một trục số thực
Ví dụ 1 Phép thử (G) bắn liên tiếp 4 phát súng vào 1 mục tiêu Gọi X là đại lượng chỉ
số phát đạn trúng mục tiêu thì X là biến ngẫu nhiên rời rạc, các giá trị nhận được của chúng là: 0, 1, 2, 3, 4
Ví dụ 2 Đường dây điện nối 2 tổng đài A, B cách nhau 50 mét bỗng nhiên bị đứt Gọi
X là đại lượng chỉ khoảng cách từ điểm đứt đến A (đơn vị đo là mét), thì X là biến ngẫu nhiên liên tục (tính chính xác đến 0,001 mét)
1.2 Dãy phân phối xác xuất của biến ngẫu nhiên rời rạc
Cho biến ngẫu nhiên rời rạcX có thể nhậnngiá trị x x1, 2, ,x nvới xác suất
1 6
1 6
1 6
1 6
Trang 18x x
Trang 19Chứng minh Các tính chất i), iv) suy trực tiếp từ định nghĩa Chúng ta chứng minh
các tính chất ii), iii)
Gọi A là biến cố chỉ {X }, B là biến cố chỉ { X }, C là biến cố chỉ
1.4.1 Định nghĩa Nếu lượng ngẫu nhiên X liên tục có hàm phân phối F x liên tục
đạo hàm của hàm phân phối F x là F x f x gọi là hàm mật độ của X
Chú ý Một hàm y f x thoả mãn 4 tính chất trên là hàm mật độ của một biến ngẫu nhiên X nào đó
Trang 20Đ2 Các đặc trưng của biến ngẫu nhiên
Ví dụ 6 X là biến ngẫu nhiên phân phối đều trên a b, thì hàm mật độ của X là:
1 ,
X X X là hệ chất điểm tại đó có đặt các khối lượng p p1, 2, ,p n thì kỳ vọng chính
là trọng tâm của hệ chất điểm
2.1.2 Tính chất
M C C (C là biến ngẫu nhiên hằng số )
M CX CM X (C là hằng số)
M X YM X M Y (X Y, là hai biến ngẫu nhiên)
X Y, là hai biến ngẫu nhiên độc lập nếu luật phân phối của X không phụ thuộc vào luật phân phối của Y và ngược lại thì M X Y . M X M Y .
2.2 Mốt và trung vị
2.2.1 Mốt của biến ngẫu nhiên ký hiệu Mod(X) là trị số nhận được của biến ngẫu
nhiên có xác suất cực đại (đối với biến ngẫu nhiên rời rạc) hay trị số có mật độ xác xuất cực đại (đối với biến ngẫu nhiên liên tục)
2.2.2 Trung vị (median) của biến ngẫu nhiên X là số ký hiệu M e sao cho:
Trang 21 gọi là độ lệch chuẩn của X (hay độ lệch quân phương của
X ) để đặc trưng cho mức độ phân tán của X quanh kỳ vọng của chúng
2.3.2 Tính chất của phương sai
D C C 0 (C là biến ngẫu nhiên hằng số )
Trang 22ý nghĩa của hệ quả 2) Để đo 1 đại lượng vật lý, người ta đo nhiều lần độc lập rồi lấy
giá trị trung bình cộng của các lần đo làm giá trị cần đo của đại lượng đó thì sai số sẽ
có phân phối nhị thức với hai tham số n, p là X B n p( , ) Dễ dàng chứng minh được rằng nếu X B n p( , ), thì M X np D X, npq
được gọi là biến ngẫu nhiên có phân phối Poisson với tham số Ký hiệu biến ngẫu nhiên X có phân phối Poisson với tham số là X P Người đầu tiên mô tả phân phối này là Simeon Denis Poisson vào năm 1837 Phân phối này có nhiều ứng dụng đối với các quá trình có liên quan đến số quan sát đối với một đơn vị thời gian hoặc không gian Chẳng hạn số cuộc điện thoại nhận được ở một trạm điện thoại trong một phút, số khách hàng đến một nhà băng đối với mỗi chu kỳ 30 phút, số máy hỏng trong một ngày,…Nói chung là dòng vào của một hệ phục vụ (quán bia, hiệu cắt tóc, hiệu chữa xe,….) là các biến ngẫu nhiên tuân theo luật Poisson NếuX P thì E(X) = D(X)=
Trong đó , là các hằng số, 0 gọi là các tham số của phân phối Thì X
được gọi là biến ngẫu nhiên tuân theo quy luật phân phối chuẩn với hai tham số 2
Trang 232 2
2 3
2 1 2 2 2
Trang 24Trong thực hành nếu biết X có phân phối N( 2
,
) ta cần tìm:
2 2
2
12
) thì 99,73% X nhận giá trị trong khoảng từ
3 , 3 gọi là công thức 3 Tương tự từ (2) 95% X nhận giá trị trong khoảng 2 , 2 gọi là công thức 2 Tương tự (3) là công thức
Ví dụ Khi đo lực chịu nén của một loại xà được sản xuất ra, người ta thấy lực
chịu nén bình quân là 320 kg, sai số quân phương là 5 kg Hỏi muốn đảm bảo an toàn thì tải trọng đặt lên nó bao nhiêu? Biết rằng lực chịu nén của xà tuân theo luật chuẩn
Theo bài ra gọi X là biến ngẫu nhiên chỉ lực chịu nén của xà thì X có phân phối N(320,5), suy ra = 320, =5 vậy theo công thức 3 p X 30,9973
Trang 253.3.2 ChuÈn hãa biÕn ngÉu nhiªn Nếu biến ngẫu nhiên X N ( 2
,
), thì biến ngẫu nhiên Z X
0 1 z f(z)
Trang 262
1,6
0,4 0,8
k=6
K(x 2 )
2
Trang 27S t
k k
Trang 28 = 0,05; 0,01; …thường là cho trước Xác suất này là phần diện tích không tô ở hình vẽ trên
Ví dụ Tìm xác suất tương ứng khi biết t 5 =2,015 hai phía
Nếu có hai biến ngẫu nhiên độc lập X1, X2 mà phân phối với bậc tự do 2 k1, k thì 2
biến ngẫu nhiên 2 1
1 2
k X F
Trang 292 2
, 2 2
Định lý Giả sử có 2 mẫu x x1, 2, ,x n1 lấy từ các giá trị của biến ngẫu nhiên X, và
y y1, 2, ,y n2 lấy từ các giá trị của biến ngẫu nhiên Y, thì biến ngẫu nhiên
2 1 2 2
s s
4.1 Định lý giới hạn địa phương Moavrơ-Laplat
Nếu trong mỗi phép thử độc lập, sự kiện A xuất hiện với xác suất p và không xuất hiện với xác suất q = 1-p, khi số phép thử n tăng lên vô hạn ta có :
0
1
2
8 0
k k
k k
Trang 30Trong đó
2
2 1 2
là hàm Gauss Giá trị của hàm này đã lập bảng sẵn
ý nghĩa của định lý này là ở chổ: Khi số phép thử n khá lớn chúng ta có thể thay công thức Bernoulli bằng công thức gần đúng sau đây
Tra bảng có 2 5, 0 9938, ;1 25, 0 8944, Thế vào có kết quả
P40070 100, 0 8882,
Trang 314.3 Định lý giới hạn Poat xông
Nếu trong mỗi phép thử độc lập, sự kiện A xuất hiện với xác suất p và không
xuất hiện với xác suất q = 1-p, thì khi số phép thử n tăng lên vô hạn đồng thời p dần
tới 0 sao cho np không đổi thì ta có:
lim 0 , 0 1 , ,
!
k n
Ví dụ 11 Sau khi tiêm phòng, xác suất mắc lại bệnh đó là p = 0,001 Tìm xác suất để
trong 2000 người được tiêm phòng có 4 người mắc lại bệnh đó
Chúng ta hình dung phép thử (G) là quan sát một người đã tiêm phòng có mắc lại bệnh đó không? Gọi A là biến cố người đó mắc lại bệnh đó thì P(A)= 0,001 Lặp lại (G) n = 2000 lần, tìm P2000 4 Do p khá bé, n lớn nên ta xấp xỉ theo quy tắc (định lý
4 2 2000
Như chúng ta đã biết: Tổng của n biến ngẫu nhiên độc lập có cùng phân phối chuẩn
là một biến ngẫu nhiên có qui luật chuẩn Tổng của n biến ngẫu nhiên độc lập có cùng
qui luật nhị thức là một biến ngẫu nhiên có qui luật xấp xỉ với qui luật chuẩn
Đ5 Đại lượng ngẫu nhiên nhiều chiều
5.1 Khái niệm đại lượng ngẫu nhiên hai chiều
ở phần trên chúng ta đã xét các đại lượng ngẫu nhiên mà các giá trị có thể nhận
được của nó là một số Các đại lượng như thế gọi là các đại lượng ngẫu nhiên một chiều Ngoài những đại lượng ngẫu nhiên một chiều, trong thực tế ta còn gặp những
đại lượng ngẫu nhiên mà các giá trị có thể có của nó được xác định bằng 2, 3,…, n số thực Các đại lượng này được gọi tương ứng là các đại lượng ngẫu nhiên 2, 3,…, n chiều Chúng ta ký hiệu đại lượng ngẫu nhiên 2 chiều bằng cặp (X,Y), trong đó X, Y
được gọi là các thành phần của đại lượng ngẫu nhiên hai chiều X, Y được xét một cách
đồng thời tạo nên hệ đại lượng ngẫu nhiên Tương tự như thế thì một đại lượng ngẫu
nhiên n-chiều được xem như một hệ n-đại lượng nhẫu nhiên một chiều
Ví dụ 12 Khi nghiên cứu thể lực người ta thường quan sát đồng thời cả chiều cao X
và trọng lượng Y, như vậy ta có đại lượng ngẫu nhiên 2 chiều (X, Y), nếu ta quan tâm cả vòng ngực Z thì ta có đại lượng ngẫu nhiên 3 chiều (X,Y,Z) Trong thực tế người ta cũng chia đại lượng ngẫu nhiên nhiều chiều thành 2 loại: rời rạc và liên tục
Trang 32+ Đại lượng ngẫu nhiên nhiều chiều gọi là rời rạc nếu các giá trị nhận được của nó là hữu hạn hoặc vô hạn đếm được
+ Các đại lượng ngẫu nhiên nhiều chiều được gọi là liên tục nếu các thành phần của nó
là các đại lượng ngẫu nhiên liên tục
5.2 Quy luật phân phối xác suất của đại lượng ngẫu nhiên 2 chiều
Đối với các đại lượng ngẫu nhiên 2 chiều người ta cũng dùng bảng phân phối xác suất, hàm phân phối xác suất hàm mật độ xác suât để thiết lập quy luật phân phối của chúng
5.2.1 Bảng phân phối xác suất của đại lượng ngẫu nhiên 2 chiều (X,Y) rời rạc có dạng:
…
…
…
…
n
Trong đó x i i 1, 2, ,n là các giá trị có thể có của X; y j j 1, 2, ,m là các giá trị
có thể có của Y; P x y i, j là xác suất để đại lượng ngẫu nhiên 2 chiều (X, Y) nhận
Trang 335.3 Đặc trưng của đại lượng ngẫu nhiên nhiều chiều
Để đơn giản ta ký hiệu Cov X X( i, j)= ij Suy ra ij = ji, ii = DX i
Ma trận moment của đại lượng ngẫu nhiên n chiều X = (X X1, 2, ,X n) ký hiệu và tính bằng công thức:
Ta nhận thấy rằng ma trận moment L là ma trận đối xứng, hơn nữa ma trận moment
Lxác định không âm hoặc các định thức con chính không âm và det( )L ³ 0
Nếu = 1 thì xác suất P X{ 1 = aX2 + b}= 1 Tức là X1 và X2 là tương quan tuyến tính với nhau
Nếu càng gần 0 thì mức độ phụ thuộc tuyến tính giữa chúng càng yếu
Nếu = 0 ta nói hai biến ngẫu nhiên không tương quan tuyến tính
Rõ ràng nếu hai biến ngẫu nhiên độc lập thì chúng không tương quan Nhưng điều ngược lại thì không đúng
Trang 34Ma trận tương quan ký hiệu là ijlà hệ số tương quan giữa X i và X j, ta có ma trận
1 Cho 2 biến ngẫu nhiên X và Y độc lập với các phân phối xác suất như sau:
Lập bảng phân phối xác suất của X2, X+Y, 2Y, X-3Y, và XY
2 Gọi X là chỉ số đo độ thông minh IQ (Intelligent Quota) của sinh viên Giả
sử X là biến ngẫu nhiên có phân phối N(165;25)
a) Khả năng chọn được một sinh viên rất thông minh (X ³ 170) là bao nhiêu?
b) Trong một lớp có 60 sinh viên, về trung bình có mấy sinh viên rất thông
minh?
c) Tìm xác suất để trong một lớp 60 sinh viên có 5 sinh viên rất thông minh
3 Trọng lượng X(gam) của một loại trái cây có phân phối chuẩn
N m= s = trái cây thu hoạch được phân loại theo trọng lượng: Loại I: Trên
505 gam Loại II: từ 495 gam đến 505 gam Loại III: Dưới 495 gam Tính tỷ lệ mỗi
loại?
4 Gọi X và Y là chiều cao của các em lứa tuổi 14 ở thành thị và nông thôn
tương ứng (đơn vị đo là cm) Giả sử X có phân phối N(145; 9) và Y có phân phối
N(145; 25)
a Từ các giả thiết trên cho biết chiều cao trung bình ở thành thị và nông thôn? Tham
số thứ hai trong mỗi phân phối nói lên điều gì?
b Tính P139 X 151; P139 Y 151; P135 Y 155?
c Từ kết quả của câu b, có nhận xét gì về sự tập trung (phân tán) của X, Y và nêu ý
nghĩa thực tiễn của nhận xét đó ?
d Từ mỗi vùng ta chọn ra ngẫu nhiên 100 em Trong số chọn ra của mỗi vùng có
P 0,2 0,3 0,3 0,2
P 0,3 0,4 0,3
Trang 35bao nhiêu em cao từ 140cm đến 150cm là có khả năng cao nhất Chỉ ra các khả năng cao nhất đó
5 Biến ngẫu nhiên X nhận giá trị tập trung trong
6 Trong một cái bát có để 5 hạt đậu trong đó có 2 hạt đỏ Lấy ngẫu nhiên ra 2 hạt Gọi X là số hạt đậu đỏ được lấy ra
8 Một hộp có 1 bi trắng và 4 bi đỏ Rút hú hoạ 2 bi từ hộp đó ra và bỏ vào một hộp khác có sẳn 4 bi trắng Xáo đều rồi lấy ra ba bi bỏ vào hộp đầu Gọi X, Y là hai biến ngẫu nhiên chỉ số bi trắng trong hộp đầu và hộp 2 khi chuyển xong bi
a Lập dãy phân phối xác suất của X và Y
b Tìm mối quan hệ giữa X và Y
9 Cho biến ngẫu nhiên X có dãy phân phối xác suất là
a Hãy tìm giá trị của a ? Và viết lại luật phân phối sao cho dòng thứ nhất tất cả các số liệu đều khác nhau
b Tìm hàm phân phối F(x) của X và vẽ đồ thị của hàm phân phối
c Viết các sự kiện 5 X 1, X 0 qua tổng các sự kiện X = 0, X = 3, X = -1
10 Cho hàm f x a e x , a là hằng số
a Xác định hằng số ađể f x là hàm mật độ của một biến ngẫu nhiên X nào đó
b Tìm hàm phân phối F(x) của X
c Tìm hàm phân phối và hàm mật độ của biến ngẫu nhiên Y= X2
11 Cho hai biến ngẫu nhiên X, Y độc lập Giả sử X N (2; 0, 09) và Y có
phân phối mũ với tham số 1
Trang 36a E(-3X+2Y-5)
b D(-3X+2Y-5)
c E(2X2-3Y2 + 2XY -3Y +2X -3)
12 Gieo con xúc xắc cân đối và đồng chất 12000 lần Tìm xác suất để cho số lần xuất hiện mặt lục ở phía trên con xúc xắc gồm giữa 1900 và 2150
13 Một người nuôi thỏ xuất chuồng 10 con đem bán, trong đó có 6 thỏ cái và
4 thỏ đực Một nhà hàng muốn mua 4 con Người mua đã bắt ngẫu nhiên ra 4 con (bắt cùng lúc) Gọi X là số thỏ đực trong 4 con bắt ra
a Lập bảng phân phối xác suất của X
b Tìm mod(X), EX, DX, P(1<X<=3,2)
c Viết biểu thức hàm phân phối của X
14 Một công ty taxi có 10 chiếc xe taxi Biết rằng yêu cầu thuê xe trong một giờ là biến ngẫu nhiên X tuân theo luật phân phối Poisson với = 5,
(cho biết e-5=0,00674) Gọi Y là số xe được thuê trong một giờ
a Lập bảng phân phối xác suất của Y
b Tìm mod(X), Mod(Y), EY, DY
c Tìm khả năng công ty không đáp ứng nhu cầu của khách
d Muốn giảm khả năng không đáp ứng yêu cầu của khách xuống dưới 1% thì cần bổ sung thêm mấy xe nữa
Trang 37Phần II thống kê toán học
Thống kê toán học là bộ môn Toán học nghiên cứu quy luật của các hiện tượng ngẫu nhiên có tính số lớn trên cơ sở thu thập và xử lý các số liệu thống kê, các kết quả quan sát Nội dung chủ yếu của thống kê Toán học là xây dựng các phương pháp thu thập và xử lý các số liệu thống kê nhằm rút ra các kết luận khoa học và thực tiễn Các phương pháp thống kê Toán học là công cụ giải quyết nhiều vấn đề khoa học
và thưc tiễn nảy sinh trong các lĩnh vực khác nhau của Tự nhiờn và Kinh tế - Xã hội Nội dung phần này trỡnh bày tất cả cỏc kiến thức chủ yếu về thống kờ toỏn học ỏp dụng vào Y-Sinh học, đú là: Lý thuyết mẫu, Lý thuyết ước lượng, kiểm định giả thuyết thống kờ, phõn tớch phương sai và lý thuyết tương quan và hồi quy Ngoài ra trong phần này chỳng tụi cũng trỡnh bày thờm cụng cụ so sỏnh mức độ liờn quan của hai đại lượng định tớnh và hướng dẫn việc ứng dụng tin học vào thực hành Trong phần thực hành, chủ yếu giỏo viờn hướng dẫn sinh viờn biết giải bài toỏn và biết sử dụng phần mềm R hoặc cỏc phầm mềm tương đương khỏc vào trong tớnh toỏn thực hành, giỳp sinh viờn biết cỏch nghiờn cứu khoa học sau này Tuy nhiờn là một học phần nằm trong chương trỡnh đào tạo, nờn học xong sinh viờn cũng phải thi hết học phần Để thuận lợi cho sinh viờn thi hết học phần, chỳng tụi cũng hướng dẫn thờm cỏch sử dụng mỏy tớnh điện tử cầm tay trong tớnh toỏn thực hành
Chương 3 mẫu và các cách biểu diễn mẫu
Nội dung chương này nhằm trỡnh bày cỏc khỏi niệm tổng thể (trong Y học cũn được gọi là dõn số) và mẫu Nờu cỏc yờu cầu cơ bản về một mẫu nghiờn cứu; mẫu ngẫu nhiờn và mẫu thực nghiệm; phương phỏp chọn mẫu Sau đú trỡnh bày cỏc phương phỏp biểu diễn cỏc mẫu định lượng; ý nghĩa của biểu diễn hỡnh học mẫu; hàm phõn phối thực nghiệm
Đ1 Tập hợp chính (tổng thể, DÂN SỐ) và mẫu
1.1 Tổng thể và mẫu
Để nghiờn cứu một hay nhiều tớnh chất nào đú của một tập hợp nhiều đối tượng, người ta khụng thể mang hết tất cả cỏc đối tượng của tập hợp ra để nghiờn cứu (vỡ rằng: Số lượng cỏc đối tượng của tập hợp quỏ lớn, hoặc cú thể hư hỏng sau khi nghiờn cứu) Vỡ thế người ta tỡm cỏch lấy ra một số đối tượng của tập hợp để nghiờn cứu, rồi
từ đú dựng thống kờ toỏn học để kết luận về cỏc tớnh chất cần thiết của tất cả cỏc đối
tượng của tập hợp ban đầu
+ Tập hợp cỏc đối tượng ban đầu gọi là tổng thể (hay dõn số) Tập hợp cỏc đối tượng được lấy ra nghiờn cứu gọi là mẫu
+ Số lượng cỏc đối tượng của mẫu gọi là cỡ mẫu, hay dung lượng mẫu
+ Bằng một phương phỏp cú thể lấy ra nhiều mẫu khỏc nhau cựng cỡ từ một tập hợp chớnh Tập hợp cỏc mẫu cựng cỡ cú thể lấy ra được bằng một phương phỏp từ một tập hợp chớnh, được gọi là khụng gian mẫu Mỗi mẫu xem là một điểm của khụng gian mẫu
1.2 Cỏc phương phỏp chọn mẫu
Trước hết chỳng ta phải lưu ý rằng cỏc phương phỏp chọn mẫu khỏc với cỏc phương phỏp thu thập số liệu (thu thập dữ liệu sơ cấp) Chẳng hạn một phương phỏp
Trang 38thu thập số liệu là quan sát (observation) là ghi lại có kiểm soát các sự kiện hoặc các hành vi ứng xử của con người, hoặc các dấu hiệu cần nghiên cứu nào đó trên khách thể nghiên cứu Còn việc chọn mẫu là làm thế nào chọn được khách quan các khách thể nghiên cứu đó để thu thập các số liệu trên khách thể đó, mà cuối cùng các số liệu (mẫu thực nghiệm) thu thập được đại diện cho dân số mà chúng ta đang tìm cách nghiên cứu các thông tin trên nó Vì vậy:
+ Để các kết quả nghiên cứu trên mẫu suy ra được đúng đắn cho toàn bộ dân số, thì yêu cầu mẫu thu được phải bảo đảm tính đại diện cao và chất lượng tốt
+ Để nâng cao tính đại diện cho mẫu, thì mẫu phải đảm bảo tính ngẫu nhiên (khách quan)
+ Để đảm bảo chất lượng mẫu tốt thì chúng ta phải tuân thủ:
i) Các dụng cụ đo lường phải chính xác, tốt, và hiện đại
ii) Tôn trọng các nguyên tắc chuyên môn như: Động tác, thời gian, liều dùng, địa điểm, hoàn cảnh, thời tiết, chuẩn bị đối tượng chu đáo
iii) Quy định thống nhất cách ghi đơn vị cho một số liệu
Ví dụ 1 Đo vòng ngực, vòng đầu, chiều cao phải ghi từ 0,5 cm Cân nặng phải ghi từ
100 gam Nhiệt độ phải ghi từ 0,10 C vv…
Do những yêu cầu trên nên người ta thường dùng 4 cách chọn mẫu chủ yếu sau đây
1.2.1 Chọn mẫu ngẫu nhiên
Có hai phương pháp chọn mẫu ngẫu nhiên đó là phương pháp “rút thăm” hoặc phương pháp chọn mẫu ngẫu nhiên theo bảng số ngẫu nhiên của KAĐƯ RỐP
- Phương pháp rút thăm có nội dung là: Giả sử cần chọn một mẫu cỡ n Kí hiệu
các giá trị nhận được của mẫu là (x1, x2, ,xn) từ một dân số S nào đó Ta đánh số các đối tượng của dân số S theo thứ tự Sau đó làm các thăm mang số như đã đánh số các đối tượng của tập dân số S, bỏ các thăm vào một hộp Xóc đều thăm rồi rút ngẫu nhiên các thăm từ hộp ra, được thăm số nào thì chọn đối tượng mang số đó của dân số S ra
nghiên cứu Rút khi nào đủ n đối tượng thì dừng Như vậy ta sẽ gặp hai loại mẫu đó là
mẫu có lặp và mẫu không lặp Nếu rút 1 thăm sau đó trả thăm vào hộp ban đầu, xáo đều rồi rút thăm tiếp theo, làm như vậy ta được mẫu có lặp Nếu rút xong thăm nào ta loại thăm đó ra khỏi hộp thăm thì được mẫu không lặp Tuy nhiên khi dân số S có số đối tượng rất lớn thì tính chất của mẫu có lặp và không lặp không khác nhau
- Phương pháp chọn mẫu theo bảng số ngẫu nhiên của KA-ĐƯ- RỐP: Bảng số ngẫu nhiên KA-ĐƯ- RỐP là một bảng số gồm nhiều trang, mỗi trang có 10 cột, mỗi cột 25 số ngẫu nhiên Như vậy mỗi trang có 250 số ngẫu nhiên Mỗi số ngẫu nhiên trong bảng là một số có 4 chữ số
Cách chọn mẫu ngẫu nhiên theo bảng số ngẫu nhiên: Đánh số các đối tưọng cần nghiên cứu của toàn bộ dân số S Sau đó chọn một trang ngẫu nhiên của bảng số ngẫu nhiên Chọn ngẫu nhiên một dòng hay một cột của bảng, rồi qui ước thống nhất cách đọc theo cột hoặc hàng, từ trên xuống hay từ trái sang phải Đọc được số nào thì chọn đối tượng mang số đó ra nghiên cứu Muốn mẫu không lặp thì gặp số trùng với số đã đọc ta bỏ qua
Trang 39
1.2.2 Chọn mẫu điển hình
Khi nắm chắc cấu trúc của tổng thể cần nghiên cứu và dấu hiệu cần nghiên cứu trên dân số đó không đồng đều thì ta áp dụng cách chọn này Tức là chọn một cái trong những cái phổ biến Ví dụ: Để tìm cân nặng trung bình của trẻ em sơ sinh ở một tỉnh A nào đó, ta có thể chọn 200 cháu sơ sinh ở nông thôn Hoặc để đánh giá kết quả điều trị của một bệnh viện trong một năm người ta có thể chọn một khoa nào đó có nhiều bệnh nhân điều trị, rồi chọn một quý
1.2.3 Chọn mẫu phân tầng
Khi dân số có dấu hiệu cần nghiên cứu không đồng đều, để đảm bảo cho mẫu nghiên cứu đại diện tốt cho dân số, người ta chia dân số ra từng phần nhỏ (từng tầng) sao cho dấu hiệu cần nghiên cứu của các đối tượng trong mỗi tầng tương đối đồng đều, sau đó quy định số lượng đối tượng cần chọn vào mẫu trong từng tầng tỉ lệ với số lượng các đối tượng của tầng và chọn đối tượng trong từng tầng theo một trong hai phương pháp rút thăm hay sử dụng bảng số ngẫu nhiên Ka-đư-rốp
1.2.4 Chọn mẫu cơ giới
Là việc chọn các đối tượng nghiên cứu từ dân số theo một số quy ước đặt ra từ đầu một cách thống nhất Chẳng hạn để chọn một mẫu cở n = 100 lọ thuốc của một nhà máy sản xuất, ta đứng ở cuối dây chuyền sản xuất và quy ước cứ 5 phút chọn một
vĩ 10 lọ và cứ chọn khi nào đủ 100 lọ thì dừng
1.3 Mẫu ngẫu nhiên và mẫu thực nghiệm
Để cho việc xét các định lý toán học sau này được thuận lợi, chúng ta quy ước các mẫu chọn được là các mẫu chọn theo phương pháp có lặp Việc chọn mỗi phần tử
từ một dân số xem như thực hiện một phép thử đơn giản mà không gian các sự kiện sơ
cấp của phép thử là các đối tượng của dân số đang nghiên cứu Ký hiệu X là biến ngẫu nhiên (biến) liên kết với phép thử (G) đơn giản nào đó, sao cho giá trị của X đặc
trưng được dấu hiệu mà chúng ta cần nghiên cứu của dân số Khi đó đặc điểm cần
nghiên cứu của dân số cũng được gọi là đặc điểm X
Giả sử ta cần chọn mẫu có lặp cở n từ các giá trị của biến X nào đó là (phần tử
1, phần tử 2, … , phần tử n ) Đặt X là biến ngẫu nhiên có cùng phân phối với biến X i chỉ tác động trên đối tượng thứ i trong mẫu trên, với X (Phần tử thứ i )= X i
(i = 1, 2, ,n) Khi đó một bộ (X X1, 2, ,X n) gồm n biến ngẫu nhiên độc lập có cùng phân phối với biến ngẫu nhiên X được gọi là một biến ngẫu nhiên cở n mang đặc điểm X , hay một mẫu ngẫu nhiên kích thước n của biến X
Giả sử qua nghiên cứu điều tra được giá trị của của X ứng với phần tử thứ i
trong mẫu là x , khi đó i x được xem là thông tin về đặc điểm X mà ta tìm kiếm trên i đối tượng thứ i , còn đối tượng thứ i được gọi là vật mang thông tin (i = 1, 2, ,n) Khi đó bộ n số thực (x x1, 2, ,x n)được gọi là một mẫu thực nghiệm (hay một số liệu
điều tra) lấy từ các giá trị của biến ngẫu nhiên X
Chú ý Mỗi mẫu thực nghiệm là một giá trị nhận được từ mẫu ngẫu nhiên lập
nên từ biến ngẫu nhiên X qua một quá trình điều tra Một mẫu thực nghiệm cũng
được gọi là một bộ số liệu nghiên cứu Từ một tổng thể (dân số) ta có thể chọn được
Trang 40rất nhiều mẫu thực nghiệm cùng cỡ n , nhưng chỉ chọn được một mẫu ngẫu nhiên kích
thước n
§2 CÁC PHƯƠNG PHÁP BIỂU DIỄN MẪU THỰC NGHIỆM
2.1 Phương pháp biểu diễn đại số mẫu thực nghiệm
Ở đây chúng tôi trình bày các phương pháp biểu diễn mẫu thực nghiệm của các biến ngẫu nhiên đặc trưng cho dấu hiệu nghiên cứu đã định lượng hóa, vì thế mà mỗi mẫu thực nghiệm trình bày dướ đây là một bộ số liệu Vì mẫu có thể có mẫu nhị giá, mẫu định tính, v.v…Các loại mẫu đó có cách biểu diễn khác sẽ được trình bày tiếp trong các mục sau
Giả sử có mẫu thực nghiệm cỡn lấy từ các giá trị của biến ngẫu nhiên X nào đó
là một tập gồm n giá trị (x x1, 2, ,x n) ( )*
2.1.1 Biểu diễn mẫu theo chuỗi biến thiên
Nếu ta sắp xếp các giá trị x i (i = 1, 2, ,n) của mẫu ( )* thành dạng
(x xˆ ˆ1, 2, ,xˆn)sao cho xˆi £ xˆi+1," =i 1, 2, ,n- 1, khi đó cách biểu diễn mẫu
( )* thành dạng (x xˆ ˆ1, 2, ,xˆn) ( )1 gọi là cách biểu diễn mẫu thành chuỗi biến thiên 2.1.2 Biểu diễn mẫu theo bảng tần số không chia lớp
Nếu trong mẫu ( )* có k giá trị khác nhau, cụ thể giả sử rằng:
=
=
å Khi đó mẫu ( )* được biểu
diễn bởi bảng ( )2 sau đây:
2.1.3 Biểu diễn mẫu theo bảng tần số chia lớp
Nếu mẫu thực nghiệm ( )* được lấy từ biến ngẫu nhiên liên tục X và cở mẫu n
khá lớn thì việc biểu diễn mẫu theo một trong hai cách trên tỏ ra không thuận lợi
Chính vì thế mà người ta chia khoảng biến thiên các giá trị của mẫu thành k đoạn bằng nhau bởi các điểm chia a 0 < a 1 < a 2 <…< a k đảm bảo điều kiện là các giá trị của mẫu
0 , , 1, 2, ,
ë û Giả sử có n1 giá trị x i trong mẫu rơi vào khoảng éêëa a0, 1),
n2 giá trị x i trong mẫu rơi vào khoảng éêëa a1, 2) ,
,
n k giá trị x i trong mẫu rơi vào khoảng éêëa k-1,a k)