Xác suất thống kê Y – Dược là môn học nhằm cung cấp cho sinh viên Y – Dược nhữngkiến thức cơ bản và cần thiết về Xác suất và Thống kê mà trong giai đoạn chuyên ngành vàtrong ứng dụng thực tế sẽ sử dụng.Bài giảng gồm 8 chương:Chương 1: Xác suất và các công thức tính xác suất.Chương 2: Biến ngẫu nhiên.Chương 3: Các phân phối xác suất thường dùng.Chương 4: Véctơ ngẫu nhiên.Chương 5: Tổng thể và mẫu.Chương 6: Ước lượng các tham số thống kê.Chương 7: Kiểm định giả thuyết thống kê.Chương 8: Tương quan và hồi qui.
Giải tích tổ hợp
Xét công việc A được hoàn thành theo trường hợp loại trừ lẫn nhau:
TH có cách thực hiện
TH có cách thực hiện
TH có cách thực hiện
Khi đó, số cách thực hi k k k n n n
1 2 eọn coõng vieọc A baống n n n k 1.1.1.2 Quy tắc nhân
Xét công việc A được hoàn thành sau bước thực hiện liên tiếp:
Khi đó, số cách thực hiện côn k k k n n n
Hoán vị của m phần tử là một nhóm có thứ tự gồm đủ m phần tử đã cho
Số hoán vị của m phần tử được ký hiệu P m
Có 7 sinh viên Có bao nhiêu cách sắp 7 sinh viên này: a ngồi thành hàng dài b ngồi vào bàn tròn có đánh số c ngồi thành vòng tròn
Chỉnh hợp chập k của n phần tử (k n) là một nhóm có thứ tự gồm k phần tử khác nhau được chọn từ n phần tử đã cho
Số chỉnh hợp chập k của n phần tử được ký hiệu A n k
Chỉnh hợp lặp chập k của n phần tử là tập hợp các nhóm có thứ tự gồm k phần tử được chọn từ n phần tử ban đầu Trong đó, mỗi phần tử có thể xuất hiện nhiều lần từ 1 đến k lần trong nhóm Khái niệm này giúp hiểu rõ cách xác định các tổ hợp có phép lặp trong khả năng tổ chức dữ liệu và thống kê, phù hợp cho các bài học về tổ hợp và xác suất trong toán học.
Số chỉnh hợp lặp chập k của n phần tử được ký hiệu A n k
Từ các chữ số 0, 1, 2, 3, 4, 5 có bao nhiêu cách sắp thành một số có 3 chữ số, nếu các chữ số: a Khác nhau b Có thể giống nhau
Tổ hợp chập k của n phần tử (k n) là một nhóm không phân biệt thứ tự gồm k phần tử khác nhau được chọn từ n phần tử đã cho
Số tổ hợp chập k của n phần tử được ký hiệu C n k
Ta dễ dàng chứng minh được các tính chất sau:
Có bao nhiêu cách lập các đề thi khác nhau, mỗi đề có 5 câu, từ ngân hàng đề thi có 30 câu?
Chú ý Với a x b , 1 công thức trên có da ̣ng
Tập con – Các phép toán trên tập hợp
Tập A được gọi là tập con của tập B, ký hiệu A B, nếu mọi phần tử của tập hợp A cũng là phần tử của tập hợp B
Hợp của hai tập hợp A và B, ký hiệu AB, là tập hợp gồm tất cả các phần tử thuộc ít nhất một trong hai tập hợp A và B
Giao của hai tập hợp A và B, ký hiệu AB, là tập hợp các phần tử vừa thuộc A vừa thuộc B
Hiệu của tập hợp A với tập hợp B, ký hiệu A\B, là tập hợp tất cả các phần tử thuộc A nhưng không thuộc B
Cho AX Khi đó, phần bù của A trong X, ký hiệu A, là tập hợp các phần tử thuộc X và không thuộc A
Phép thử và biến cố
Phép thử
Có hai loại hiện tượng:
1) Hiện tượng tất nhiên là hiện tượng nếu được thực hiện ở những điều kiện giống nhau thì kết quả giống nhau, nghĩa là có thể dự đoán trước được
Mặt trời mọc ở hướng Đông, lặn ở hướng Tây
Hiện tượng tất nhiên là đối tượng nghiên cứu của Vật Lý, Hóa học…
Hiện tượng ngẫu nhiên là những hiện tượng xảy ra trong cùng điều kiện nhưng kết quả thu được lại khác nhau và không thể dự đoán chính xác trước Những kết quả này thể hiện tính không chắc chắn của các quá trình tự nhiên hoặc các hệ thống phức tạp Hiện tượng này đóng vai trò quan trọng trong các lĩnh vực như thống kê, xác suất, và nghiên cứu khoa học, giúp hiểu rõ hơn về tính biến đổi của các kết quả trong thực tế.
Hiê ̣n tượng ngẫu nhiên là đối tượng nghiên cứu của xác suất
Phép thử ngẫu nhiên, hay còn gọi là phép thử, là quá trình thực hiện một thí nghiệm hoặc quan sát một hiện tượng mà kết quả chưa biết trước Trong quá trình này, ta có thể xác định tập hợp tất cả các kết quả có thể xảy ra, giúp phân tích các tình huống có tính chất ngẫu nhiên Phép thử ngẫu nhiên đóng vai trò quan trọng trong xác suất thống kê, hỗ trợ dự đoán và đưa ra quyết định dựa trên các kết quả có thể xảy ra.
Phép thử ngẫu nhiên được ký hiệu
Trong các phép thử xác suất, mỗi kết quả đều đại diện cho một biến cố sơ cấp, ký hiệu là , là những biến cố không thể phân tích nhỏ hơn và bắt buộc phải xảy ra trong một phép thử Tập hợp tất cả các kết quả khả thi của phép thử gọi là không gian mẫu, ký hiệu là , tức là tập hợp các biến cố sơ cấp Ví dụ, khi tung một xúc xắc cân đối, không gian mẫu gồm 6 kết quả là {1, 2, 3, 4, 5, 6}; khi tung một đồng xu, không gian mẫu là {S, N}, thể hiện mặt sấp và mặt ngửa; khi tung đồng thời hai đồng xu, không gian mẫu gồm các kết quả {SS, SN, NS, NN} Ngoài ra, trong phép thử tung một đồng xu với quy tắc tiếp tục tung khi xuất hiện mặt sấp và chuyển sang tung sưu sắc nếu xuất hiện mặt ngửa, không gian mẫu sẽ phụ thuộc vào diễn biến của quá trình thử nghiệm này.
Biến cố
Tập con của không gian mẫu được gọi là biến cố, ký hiệu bằng các chữa cái A, B, …
Xét biến cố A, khi thực hiện phép thử ta được kết quả :
Nếu A, ta nói biến cố A xảy ra
Nếu A, ta nói biến cố A không xảy ra
Biến cố không thể, ký hiệu , là biến cố nhất định không xảy ra khi thực hiện phép thử
Biến cố chắc chắn, ký hiệu , là biến cố chắc chắn xảy ra khi thực hiện phép thử
Mỗi kết quả của phép thử được gọi là kết quả thuận lợi cho biến cố A nếu biến cố A xảy ra khi kết quả của phép thứ là
Trong phép thử tung một xúc xắc cân đối và đồng chất, không gian mẫu Ω gồm các khả năng {1, 2, 3, 4, 5, 6} Biến cố A được định nghĩa là xúc xắc xuất hiện mặt có số chấm là chẵn, bao gồm các kết quả thuận lợi là {2, 4, 6} Do đó, biến cố A có thể viết dưới dạng tập hợp các kết quả {2, 4, 6}, thể hiện các khả năng phù hợp với điều kiện chẵn của mặt xúc xắc.
Trong phép thử trên, nếu khi thực hiện phép thử kết quả là = 4, ta nói biến cố A xảy ra, khi
= 1, ta nói biến cố A không xảy ra
Gọi B là biến cố xúc xắc xuất hiện mặt có số chấm là số nguyên tố Ta thấy B có 3 kết quả thuận lợi 2, 3, 5 và B = {2, 3, 5}
Gọi C là biến cố xúc xắc xuất hiện mặt có số chấm là 1 và 5 vậy C = {1, 5}
Gọi D là biến cố xúc xắc xuất hiện mặt có số chấm lớn hơn 6, ở đây D là biến cố không thể (tức là D = )
Gọi E là biến cố xúc xắc xuất hiện mặt có số chấm nhỏ hơn hoặc bằng 6, ta có E là biến cố chắc chắn (tức là E = ).
Quan hệ giữa các biến cố
Cho A, B là hai biến cố bất kỳ trong không gian mẫu
1) Quan hệ kéo theo (A B): Nếu biến cố A xảy ra thì biến cố B xảy ra
Trong phép thử tung một xúc xắc, biến cố Ai xảy ra khi mặt có số chấm là i, với 1 ≤ i ≤ 6, trong đó 6i = 1 Đồng thời, biến cố B xảy ra khi mặt xuất hiện có số chấm là các số lẻ, gồm các phần tử B = {1, 3, 5}.
2) Hai biến cố A và B được gọi là tương đương, ký hiệu A = B, nếu A xảy ra thì B xảy ra và ngược lại hay
3) Tổng (hay hội) của hai biến cố A và B là một biến cố xảy ra khi và chỉ khi A xảy ra hoặc B xảy ra, ký hiệu A+B (hoặc A B )
Tổng quát: Tổng của n biến cố A1, A2, …, An là một biến cố xảy ra khi và chỉ khi có ít nhất 1 biến cố Ai ( 1,i n) xảy ra, ký hiệu
4) Tích (hay giao) của hai biến cố A và B là một biến cố xảy ra khi và chỉ khi cả 2 biến cố A và
B cùng xảy ra, ký hiệu AB(hoặc A B )
Tổng quát: Tích của n biến cố A1, A2, …, An là một biến cố xảy ra khi và chỉ khi tất cả n biến cố
5) Hai biến cố A và B được gọi là xung khắc nhau nếu A và B không đồng thời xảy ra trong 1 phép thử, (tức là A B )
Tổng quát: n biến cố A1, A2, …, An được gọi là xung khắc từng đôi nếu ; , 1,
Trong phép thử “tung 1 xúc xắc”, hai biến cố A = {2, 4, 6} và B = {1} xung khắc nhau vì A B
Ba biến cố A = {2,4,6} ; B = {1} và C = {3} xung khắc từng đôi vì
6) Hiệu của hai biến cố A và B là một biến cố xảy ra khi biến cố A xảy ra và B không xảy ra, ký hiệu A\B
Khi B \A ta nói B là phần bù của A
7) Biến cố đối lập của biến cố A, ký hiệu A, là biến cố sẽ xảy ra khi A không xảy ra và ngược lại (tức là A \A hay A A và A A )
Trong phép thử “tung 1 xúc xắc”, ta có biến cố A = {2, 4, 6} và B = {1, 3, 5} là
2 biến đối lập nhau vì A \B (hay A B và A B ) Khi đó, có thể ký hiệu
Hai sinh viên cùng thi kết thúc môn Dược học
Gọi Ai là biến cố sinh viên thứ i thi đạt môn Dược học, (i=1,2)
A A (hoặc A A 1 2 ) là biến cố có ít nhất 1 sinh viên thi đạt môn Dược học
A A (hoặc A1A2) là biến cố cả 2 sinh viên thi đạt môn Dược học
A A A A là biến cố sinh viên thứ nhất thi đạt môn Dược học và sinh viên thứ hai không thi đạt môn Dược học
1 Biến cố sơ cấp là biến cố không thể biểu diễn thành tổng của các biến cố khác
Trong lý thuyết xác suất, mọi biến cố bất kỳ A đều có thể được biểu diễn dưới dạng tổng các biến cố sơ cấp Các biến cố sơ cấp này đóng vai trò là các thành phần cơ bản, giúp dễ dàng phân tích và tính toán xác suất của biến cố A Việc phân chia A thành các biến cố sơ cấp thuận lợi là một phương pháp quan trọng trong việc hiểu rõ hơn về cấu trúc xác suất và xây dựng mô hình dự đoán chính xác hơn.
Biến cố chắc chắn là tổng tất cả các biến cố sơ cấp có thể xảy ra, phản ánh rằng mọi biến cố sơ cấp đều phù hợp hoặc thuận lợi cho Vì vậy, chính là không gian mẫu của phép thống kê, đại diện cho tất cả các kết quả có thể xảy ra trong thực nghiệm.
4 Các khái niệm về biến cố được xây dựng trên các khái niệm về tập hợp nên các tính chất về tập hợp cũng đúng cho biến cố
Chẳng hạn, cho hai biến cố bất kỳ A và B trong không gian mẫu Khi đó ta có một số tính chất sau:
Trong phương pháp thử ngẫu nhiên, dù không thể dự đoán chính xác biến cố nào sẽ xảy ra, nhưng chúng ta có thể định lượng khả năng khách quan của từng biến cố Xác suất của một biến cố là một số thực dùng để đo lường mức độ khả năng xảy ra của biến cố đó trong quá trình thực hiện phép thử ngẫu nhiên, giúp hiểu rõ hơn về xác suất xảy ra của các biến cố một cách chính xác và có hệ thống.
Xác suất của biến cố A được ký hiệu là P(A).
Định nghĩa xác suất cổ điển
Trong phép thử τ với các kết quả có thể xảy ra đồng khả năng trong không gian mẫu Ω hữu hạn, các biến cố sơ cấp được định nghĩa như các phần tử của tập Ω, ví dụ như Ω = {ω₁, ω₂, , ωₙ} với n là số hữu hạn Xác suất của các biến cố này được tính bằng P(ωᵢ), trong đó tổng xác suất của toàn bộ không gian mẫu bằng 1, tức là Σ_{i=1}^n P(ωᵢ) = 1.
Khi đó, xác suất của biến cố A là
Soá bieán coá sô caáp cuûa bieán coá Soá bieán coá sô caáp cuûa
Tính chất i 0P A( ) 1 , với mọi biến cố A ii P( ) 0; ( ) 1 P iii Nếu A B thì P(A) P(B) iv P A P A( ) ( ) 1 hay ( ) 1P A P A( )
Xác suất của biến cố A được biểu diễn bằng số thực P(A), trong đó 0 ≤ P(A) ≤ 1 Khi P(A) gần bằng 1, khả năng xuất hiện của biến cố A cao hơn, còn khi P(A) gần bằng 0, khả năng xuất hiện của biến cố A lại thấp hơn.
Xác suất cổ điển cung cấp cách xác định chính xác giá trị xác suất mà không cần thực hiện phép thử, giúp người dùng nhanh chóng tính toán kết quả Tuy nhiên, định nghĩa này chỉ phù hợp trong các không gian mẫu có hữu hạn biến cố sơ cấp đồng khả năng.
Trong hộp đựng 15 viên thuốc gồm 5 viên xanh và 10 viên đỏ, việc xác định xác suất lấy ngẫu nhiên 3 viên thuốc có thể được phân tích theo các trường hợp khác nhau Xác suất để lấy được 3 viên xanh trong số 3 viên đã chọn là rất thấp, vì chỉ có 5 viên xanh trong tổng số, và tính khả năng này phụ thuộc vào cách chọn Xác suất để ít nhất một viên xanh xuất hiện trong 3 viên thuốc đã chọn là khá cao, phù hợp với khả năng có từ 1 đến 3 viên xanh trong bộ 3 viên thuốc đó Trong khi đó, xác suất để lấy nhiều nhất 1 viên xanh (tức là 0 hoặc 1 viên xanh) cần tính riêng dựa trên các trường hợp không có viên xanh hoặc chỉ có duy nhất 1 viên xanh Cuối cùng, xác suất không có viên xanh nào trong 3 viên thuốc đã chọn tương đối thấp, vì trong tổng thể có tới 10 viên đỏ Các tính toán xác suất này dựa trên các công thức xác suất rút ngẫu nhiên không thay thế, đảm bảo đúng quy tắc xác suất và tối ưu hóa SEO cho các từ khóa liên quan đến xác suất, chọn thuốc và tập hợp các mẫu ngẫu nhiên.
Ta có: | | C 15 3 455 a Gọi A là biến cố trong 3 viên lấy ra có 3 viên xanh
P A A b Gọi B là biến cố trong 3 viên lấy ra có ít nhất 1 viên xanh,
C c Gọi C là biến cố trong 3 viên lấy ra có nhiều nhất 1 viên xanh,
P C C d Gọi D là biến cố trong 3 viên lấy ra không có viên xanh nào,
Trong trường hợp người gọi điện thoại quên 2 số cuối của số cần gọi, xác suất để họ chọn đúng số mong muốn qua một lần quay ngẫu nhiên phụ thuộc vào những thông tin họ còn nhớ Nếu người đó biết rằng hai số cuối của số điện thoại cần gọi là khác nhau, xác suất thành công là 1 trên tổng số các khả năng phù hợp, tức là 1/90, vì có 90 cặp số khác nhau từ 00 đến 99 Ngược lại, nếu người đó hoàn toàn không nhớ gì về đặc điểm của 2 số cuối, xác suất để chọn đúng số là 1/100, do có 100 khả năng từ 00 đến 99 Như vậy, khả năng trúng số của người gọi thay đổi tùy thuộc vào mức độ ghi nhớ của họ về số cuối cùng của số điện thoại cần gọi.
Gọi A, B lần lượt là các biến cố người đó quay ngẫu nhiên một lần trúng số điện thoại cần gọi trong các trường hợp câu a) và câu b) a | | 10 2 90 ; | | 1 ; ( ) | | 1
Định nghĩa xác suất theo phương pháp thống kê
Trong thử nghiệm lặp đi lặp lại nhiều lần độc lập với cùng điều kiện, tỷ lệ xuất hiện của biến cố A được đo bằng tần suất, cụ thể là tỷ số giữa số lần biến cố A xuất hiện (k) và tổng số lần thử (n) Tần suất này phản ánh xác suất thực nghiệm của biến cố A trong các phép thử lặp lại Do đó, khi thực hiện n lần thử nghiệm, quan sát thấy biến cố A xảy ra k lần, ta có thể ước lượng xác suất của A bằng tỷ lệ k/n, giúp hiểu rõ hơn về khả năng xảy ra của biến cố này trong các điều kiện thử nghiệm giống nhau.
Người ta chứng minh được rằng: Khi n thì k P A( ) n hay lim ( ) n k P A n
Trong thực tế với n đủ lớn, người ta lấy tần suất của biến cố A làm giá trị gần đúng cho xác suất của biến cố A
Định nghĩa xác suất theo phương pháp thống kê dựa trên không gian mẫu có vô hạn biến cố sơ cấp, không yêu cầu giả thiết tính đồng khả năng, nhấn mạnh khả năng xảy ra của các biến cố một cách khách quan Phương pháp này đã khắc phục nhược điểm của định nghĩa xác suất theo cổ điển, là một cách tiếp cận hiện đại trong xác suất thống kê Để nghiên cứu khả năng xuất hiện mặt sấp trong quá trình tung đồng tiền, Buffon và Pearson đã thực hiện nhiều lần thử nghiệm, và kết quả đã được ghi nhận trong bảng số liệu cụ thể.
Người thực hiện Số lần tung
Số lần xuất hiện mặt sấp Tần suất Buffon
Xác suất cổ điển cho rằng khả năng xuất hiện mặt sấp khi tung đồng tiền là 0,5 Khi thực hiện nhiều lần tung đồng tiền, tần suất xuất hiện mặt số càng gần với giá trị lý thuyết 0,5, cho thấy sự ổn định của xác suất trong các hoạt động ngẫu nhiên Việc hiểu rõ quy luật này giúp nâng cao kiến thức về xác suất thống kê và ứng dụng thực tiễn trong các lĩnh vực như trò chơi, dự đoán và phân tích dữ liệu.
Phương pháp tính xác suất dựa trên quan sát thực tế, không yêu cầu phép thử phải có hữu hạn biến cố đồng khả năng, giúp đảm bảo độ chính xác trong phân tích dữ liệu Tuy nhiên, phương pháp này đòi hỏi thực hiện nhiều lần phép thử để đạt được kết quả đáng tin cậy, điều này có thể gây khó khăn trong một số bài toán không cho phép thực hiện nhiều lần thử nghiệm.
Một xạ thủ bắn 1000 viên đạn vào một mục tiêu và có 70 viên trúng Khi đó, xác suất để xạ thủ bắn trúng mục tiêu là 70 7%
Theo thống kê trên 10.000 thanh niên trưởng thành tại địa phương A, có 300 người mắc bệnh B, tương đương tỷ lệ 3% Điều này cho thấy xác suất một thanh niên địa phương A mắc bệnh B là 3%, phản ánh mức độ phổ biến của bệnh trong cộng đồng này Thống kê này giúp các nhà y tế và cộng đồng hiểu rõ hơn về tỷ lệ mắc bệnh B để từ đó có các chiến lược phòng ngừa hiệu quả hơn Xác suất mắc bệnh B của thanh niên địa phương A là 3% là dữ liệu quan trọng để đánh giá nguy cơ và xây dựng các biện pháp kiểm soát dịch bệnh phù hợp.
Định nghĩa xác suất theo tiên đề Kolmogorov
Giả sử là biến cố chắc chắn Gọi là họ các tập con của thỏa các điều kiện sau:
Họ thỏa i) và ii) thì được gọi là đại số
3) Nếu A1 , A2 , … , An , … là các phần tử của thì tổng và tích vô hạn A1+A2+…+An+… và
Nếu thỏa 1) , 2) và 3) thì được gọi là -đại số Và cùng với , ký hiệu là (, ) , được gọi là không gian xác suất
Xác suất trên (, ) là một hàm số P xác định trên có giá trị trong đoạn [0;1] và thỏa 4 tiên đề sau:
T4 Nếu dãy {An} xung khắc từng đôi thì
Các công thức tính xác suất
Công thức cộng xác suất
Cho A, B là 2 biến cố bất kỳ trong không gian mẫu , khi đó
Gọi n là số phần tử của không gian mẫu n 1 là số phần tử của A\B ; n 2 là số phẩn tử của AB ; n 3 là số phần tử của B\A
1) Nếu A, B xung khắc (tức là AB = ) thì
2) Cho 3 biến cố bất kỳ A, B, C trong không gian mẫu
3) Cho n biến cố bất kỳ A1 , A2 , …, An trong không gian mẫu
4) Nếu A1 , A2 , …, An xung khắc từng đôi (tức là Ai.Aj = với i j) thì
B AB AB P B P AB AB x kP AB P AB
Trong nhóm 50 trẻ bị ho, có 20 trẻ bị viêm họng, 22 trẻ bị viêm phổi và 10 trẻ mắc đồng thời cả hai bệnh Xác suất chọn ngẫu nhiên một trẻ bị viêm họng hoặc viêm phổi là tổng số trẻ mắc ít nhất một bệnh chia cho tổng số trẻ, tức là P = (20 + 22 - 10) / 50 = 32/50 = 0,64 Xác suất chọn được một trẻ không mắc bất kỳ bệnh nào là 1 trừ xác suất mắc ít nhất một bệnh, là 1 - 0,64 = 0,36 Xác suất để chọn trẻ không bị viêm họng hoặc không bị viêm phổi là P = 1 - (xác suất bị viêm họng và viêm phổi), tức là 1 - (10/50) = 0,8 Xác suất để chọn trẻ bị viêm họng nhưng không bị viêm phổi là số trẻ bị viêm họng nhưng không có viêm phổi chia cho tổng số trẻ, là (20 - 10)/50 = 10/50 = 0,2.
Gọi A là biến cố trẻ được chọn bị viêm họng
Gọi B là biến cố trẻ được chọn bị viêm phổi
Công thức nhân xác suất
1.4.2.1 Xác suất có điều kiện
Cho A, B là 2 biến cố bất kỳ trong không gian mẫu
Xác suất của biến cố A với điều kiện biến cố B đã xảy ra được gọi là xác suất của biến cố A với điều kiện B, ký hiệu ( | )P A B
Xác suất của biến cố B với điều kiện biến cố A đã xảy ra được gọi là xác suất của biến cố B với điều kiện A, ký hiệu ( | )P B A
P B Gọi là không gian mẫu chứa hai biến cố A, B
Gọi n là số phần tử của ; n B là số phần tử của biến cố B; n A B là số phần tử của biến cố A B
Giả sử B đã xảy ra, khi đó B là biến cố chắc chắn nên ta có thể chọn B là không gian mẫu thu gọn
Biến cố A xảy ra sau khi biến cố B đã xảy ra, ký hiệu A|B
Trong không gian mẫu , biến cố A|B xảy ra khi vả chỉ khi A B xảy ra
Chú ý Khi cố định biến cố B thì xác suất có điều kiện ( | )P A B có các tính chất sau:
Lấy ngẫu nhiên 1 lá bài trong bộ bài 52 lá Tính lá bài lấy ra có số nút nhỏ hơn
5 biết rằng lá bài lấy ra có màu đỏ
Gọi A là biến cố lá bài lấy ra có số nút nhỏ hơn 5
Gọi B là biến cố lá bài lấy ra có màu đỏ
1.4.2.2 Công thức nhân xác suất
Cho A, B là 2 biến cố bất kỳ trong không gian mẫu Khi đó, ta có
1) Nếu A, B độc lập (tức là ( | )P A B P A( )và ( | )P B A P B( )) thì ( )P A B P A P B( ) ( )
2) Tổng quát: Cho n biến cố bất kỳ A1 , A2 , …, An trong không gian mẫu
3) Nếu A1 , A2 , …, An độc lập toàn phần khi và chỉ khi
P A A A P A P A P A Nhận xét: Từ định nghĩa và các công thức trên suy ra
Hai biến cố A, B độc lập P(A.B) = P(A).P(B)
n biến cố A1 , A2 , …, An được gọi là độc lập từng đôi
n biến cố A1 , A2 , …, An được gọi là độc lập toàn phần
Ba biến cố A, B, C độc lập nhau nếu:
Các hệ thức 1), 2), 3) thể hiện sự độc lập từng đôi của các biến cố, trong khi hệ thức 4) mô tả sự độc lập toàn phần giữa tất cả các biến cố Tuy nhiên, cần lưu ý rằng các biến cố có thể độc lập từng đôi nhưng chưa chắc đã độc lập toàn phần, đòi hỏi người phân tích phải cân nhắc kỹ các mối quan hệ giữa các biến cố để xác định tính độc lập đầy đủ.
Trong phép thử tung ngẫu nhiên hai đồng tiền, chúng ta xác định các biến cố Xác định S1 và C1 lần lượt biểu thị đồng tiền thứ nhất xuất hiện mặt số và mặt chữ Tương tự, S2 và C2 là các biến cố thể hiện đồng tiền thứ hai xuất hiện mặt số và mặt chữ Phép thử này giúp phân tích các khả năng xảy ra khi tung hai đồng tiền một cách ngẫu nhiên, góp phần vào việc tính xác suất của các biến cố liên quan.
Ta thấy phép thử trên có 4 kết quả có thể xảy ra (hay phép thử có 4 biến cố sơ cấp)
Vậy ba biến cố A, B, C độc lập từng đôi nhưng không độc lập toàn phần
Cho hai hộp bi có hai loại bi: bi xanh và bi trắng cân đối và đồng chất, biết hộp
Trong bài toán, hộp I chứa 20 bi gồm 7 bi xanh, trong khi hộp II chứa 30 bi gồm 5 bi xanh Khi chọn ngẫu nhiên mỗi hộp 1 bi, xác suất hai bi cùng màu được tính dựa trên số lượng bi xanh và không xanh trong từng hộp Xác suất lấy hai bi cùng màu là bằng tổng xác suất cả hai đều xanh hoặc cả hai đều không xanh, trong khi xác suất hai bi khác màu là bằng tổng xác suất một bi xanh một bi không xanh Các tính toán này giúp hiểu rõ khả năng xảy ra các tình huống khác nhau khi chọn bi ngẫu nhiên từ hai hộp.
Gọi X1 , X2 là biến cố lấy được bi xanh từ hộp I, II
T1 , T2 là biến cố lấy được bi trắng từ hộp I, II a) Gọi A là biến cố hai bi lấy ra cùng màu
= P(X1)P(X2) + P(T1)P(T2) (Do X1 , X2 độc lập và T1 , T2 cũng độc lập)
b) Gọi B là biến cố hai bi lấy ra khác màu
Công thức xác suất đầy đủ Công thức Bayes
1.4.3.1 Nhóm biến cố đầy đủ
Hệ biến cố {A1 , A2 ,… , An} được gọi là nhóm biến cố đầy đủ nếu chúng thỏa mãn hai yêu cầu sau:
Chú ý Cho A là một biến cố bất kỳ trong không gian mẫu
Ta có A A và A A nên hệ 2 biến cố { , }A A là nhóm biến cố đầy đủ
1.4.3.2 Công thức xác suất đầy đủ
Cho { }A i i n 1, là nhóm biến cố đầy đủ và B là một biến cố bất kỳ trong không gian mẫu Khi đó, ta có
Vì { } A i i n 1, là hệ biến cố đầy đủ nên ; , 1,
P B P BA BA BA P BA P BA P BA
Chú ý Cho 2 biến cố bất kỳ A, B trong không gian mẫu Do nhóm { , }A A là nhóm đầy đủ nên
Cho là hệ biến cố đầy đủ và B là 1 biến cố bất kỳ trong không gian mẫu , với P(B) > 0 Khi đó, ta có
Chú ý: Xác suất ( | )P A B k được gọi là xác suất hậu nghiệm, còn xác suất P A i được gọi là xác suất tiền nghiệm
Trong kỳ thi có tổng cộng 100 thí sinh, gồm 60 nữ và 40 nam, với 40 thí sinh đỗ tuyển, trong đó có 22 nam và 18 nữ Xác suất để chọn ngẫu nhiên một túi hồ sơ trong tổng số thí sinh là người đỗ tuyển được tính dựa trên tỷ lệ thành công của toàn bộ số hồ sơ Khi đã biết rằng túi hồ sơ đã đỗ tuyển, xác suất đó thuộc về nữ giới được xác định dựa trên tỷ lệ số hồ sơ nữ trong số các hồ sơ trúng tuyển.
Giải a Gọi A biến cố lấy được túi hồ sơ của nam Khi đó, A là biến cố lấy được túi hồ sơ của nữ
B là biến cố lấy được túi hồ sơ trúng tuyển
Ta thấy, {A, A} là nhóm biến cố đầy đủ Áp dụng công thức xác suất đầy đủ cho hai biến cố A và B ta có
P B P A P B A P A P B A x x b Áp dụng công thức Bayes cho ta
Ba hộp đựng thuốc gồm Hộp I với 10 lọ, trong đó có 7 lọ tốt; Hộp II với 15 lọ, trong đó có 12 lọ tốt; và Hộp III với 20 lọ, trong đó có 18 lọ tốt Xác suất lấy ngẫu nhiên 1 lọ thuốc từ một hộp bất kỳ và lọ đó là tốt có thể tính dựa trên tỷ lệ thành phần trong từng hộp Khi lấy ngẫu nhiên một hộp rồi chọn ngẫu nhiên một lọ thuốc, khả năng lọ thuốc đó là loại hỏng có thể giúp xác định hộp nào có khả năng chứa lọ thuốc hỏng cao nhất.
Giải a Gọi Ai (i = 1,2,3) lần lượt là biến cố lo ̣ thuốc lấy được thuô ̣c hô ̣p I, II, III
B là biến cố lo ̣ thuốc lấy được là lọ tốt
Hệ {A1, A2, A3} là hệ biến cố đầy đủ Áp dụng công thức xác suất đầy đủ, ta nhận được
P A P B A P A P B A P A P B A x x x b Ta có P B 1 P B 0,2 Áp dụng công thức Bayes cho ta
Xác suất lo ̣ thuốc hỏng được lấy thuộc hộp I là
Xác suất lo ̣ thuốc hỏng được lấy thuộc hộp II là
Xác suất lo ̣ thuốc hỏng được lấy thuộc hộp III là
P BVậy lo ̣ thuốc hỏng được lấy có khả năng thuộc hộp I là cao nhất.
Công thức Bernoulli
Dãy n phép thử được gọi là dãy n phép thử Bernoulli nếu chúng thỏa mãn 3 điều kiện sau:
1) Các phép thử của dãy độc lập với nhau
2) Trong mỗi phép thử chỉ có 2 biến cố A và A xuất hiện
3) Xác suất xuất hiện biến cố A trong mỗi phép thử không đổi và bằng p (tức là ( )P A p và ( ) 1 ( ) 1
Xác suất để biến cố A xuất hiện k lần (k n) trong n phép thử Bernoulli là
Trong bài toán này, xác suất một bệnh nhân khỏi bệnh khi dùng thuốc đặc trị nấm da là 85% Để tính xác suất trong 10 bệnh nhân, ta có thể sử dụng phân phối nhị thức Cụ thể, xác suất đúng 6 người khỏi bệnh là P(X=6), xác suất có ít nhất 2 người khỏi bệnh là P(X ≥ 2), và xác suất có ít nhất 9 người khỏi bệnh là P(X ≥ 9) Những tính toán này giúp đánh giá hiệu quả của phương pháp điều trị nấm da và hỗ trợ quyết định y tế chính xác, phù hợp với các tiêu chuẩn SEO về phân tích xác suất và y học.
Gọi X là số bệnh nhân khỏi bệnh khi điều trị Ta thấy việc điều trị cho 10 bệnh nhân xem như việc thực hiện 10 phép thử Bernoulli
Tỉ lệ sinh viên bị cận thị của Trường Đại học X là 3% Để xác định số lượng sinh viên cần chọn để có xác suất ít nhất một sinh viên bị cận thị đạt trên 95%, ta cần tính toán số lượng mẫu phù hợp Khi tỉ lệ sinh viên cận thị là 3%, xác suất một sinh viên không bị cận thị là 97% Do đó, số sinh viên cần chọn để đảm bảo xác suất ít nhất một sinh viên bị cận thị không bé hơn 95% là khoảng 74 sinh viên Điều này giúp nhà trường đưa ra các chiến lược dự phòng phù hợp nhằm kiểm soát tỷ lệ sinh viên mắc bệnh này.
Giải Áp dụng công thức Bernoulli với n là số sinh viên cần chọn
Gọi A là biến cố chọn 1 sinh viên trường đại học X, sinh viên đó bị cận thị
Vậy để xác suất có ít nhất 1 sinh viên bị cận không quá 95%, cần phải chọn ít nhất 99 sinh viên
Xác suất trong chẩn đoán
Xác suất liên quan đến xét nghiệm T
1.5.1.1 Độ nhạy và độ chuyên
Độ nhạy (Sensitivity - viết tắt là Sens hay Sn) đo lường khả năng phát hiện chính xác của xét nghiệm khi bệnh hoặc tình trạng thực sự có mặt Trong khi đó, độ đặc hiệu (Specificity - viết tắt là Spec hay Sp) phản ánh khả năng của xét nghiệm trong việc loại trừ chính xác các trường hợp không mắc bệnh Cả hai chỉ số này đều quan trọng để đánh giá độ chính xác của một xét nghiệm y học.
Độ nhạy(Sn)P T B( | ) Dương thật là khả năng xét nghiệm cho dương tính (T + ) đối với người bệnh B (tức B + )
Độ chuyên(Sp)P T B( | ) Âm thật là khả năng xét nghiệm cho âm tính (T ) đối với người không bệnh B (B )
P T B( | ) Dươnggiả là khả năng xét nghiệm cho dương tính (T + ) đối với người không bệnh B (B )
P T B( | ) Âm giả là khả năng xét nghiệm cho âm tính (T ) đối với người bệnh B (tức B + )
Chú ý 1) Dương thật + Âm giảP T B( | ) P T B( | ) 1
3) Đô ̣ nha ̣y càng cao thı̀ âm giả càng thấp và ngược la ̣i Đô ̣ chuyên càng cao thı̀ dương giả càng thấp và ngược la ̣i
1.5.1.2 Cách xác định độ nhạy và độ chuyên
N = N1 + N2 : kích thước mẫu; N1: số người bệnh B; N2: số người không bệnh B a, b, c, d: tần số tương ứng
Từ kết quả trên, ta có
Áp dụng công thức xác suất đầy đủ, ta tính được
1) Nếu N được chọn từ một dân số (cộng đồng) thì P B( ) N 1
N được gọi là tỉ lệ bệnh B đang lưu hành (Prevalence)
2) ( )P T và ( )P T không phụ thuộc vào cỡ mẫu N mà tùy thuộc vào bản thân xét nghiê ̣m
Độ nhày và độ chuyên không phụ thuộc vào cỡ mẫu N cũng như tỉ lệ bệnh đang lưu hành Chúng chủ yếu dựa vào bản thân xe xét nghiệm, giúp đảm bảo độ chính xác và độ tin cậy của kết quả.
1.5.1.3 Đường cong ROC (Receiver Operator Characteristic curve)
Trong biểu đồ ROC, hệ trục vuông góc thể hiện mối quan hệ giữa các yếu tố quan trọng: trục hoành ứng với Dương giả (FP) và trục tung ứng với Dương thật (TP) Điểm cắt Cf (Cutoff) tối ưu là điểm mà tại đó giá trị của Sn (độ nhạy) và Sp (đặc hiệu) đều cao, giúp giảm thiểu cả Dương giả và Âm giả Việc lựa chọn điểm Cf phù hợp giúp cải thiện khả năng phân loại chính xác và tối ưu hiệu suất của mô hình.
1.5.1.4 Số chênh, tỷ số cơ hội
Số chênh của một biến cố (Od)
Số chênh của biến cố A, ký hiệu Od(A) là mức độ chênh lệch về khả năng xảy ra và không xảy ra của biến cố đó
1) Nếu Od(A) > 1 : A có khả năng xảy ra lớn hơn A
Nếu Od(A) < 1 : A có khả năng xảy ra nhỏ hơn A
Nếu Od(A) = 1 : A và A có khả năng xảy ra như nhau
Tỷ số cơ hội (Likelihood)
Tỷ cơ hội (còn gọi là tỷ khả năng, hay tỷ xác suất), ký hiệu LR, nhằm so sánh khả năng biến cố
A xảy ra trong điều kiện B với khả năng biến cố A xảy ra trong điều kiện không B (B)
Nếu A = T là biến cố của một kết quả xét nghiệm và B là biến cố bị bệnh (B + ) , B là biến cố không bị bệnh (B - )
P T B SpChú ý LR+ > 1 và LR- < 1.
Tính xác suất hậu nghiệm
Khi có kết quả của xét nghiệm T, tính xác suất hậu nghiệm PP P B T( | ) hoặc
Ta thấy PP 1khi Sp1 Tức là muốn có xác suất hậu nghiệm PP+ lớn, ta chọn xét nghiệm có Sp lớn
Khi một xét nghiệm có Sn + Sp > 1 ,
( ) ( ) hay Sp suy ra PP P B
Điều này có nghĩa là xác suất hậu nghiệm dương (PP+) phải lớn hơn xác suất tiền nghiệm (P(B + ))
Ta thấy PP 0 khi Sn1 Tức là muốn có xác suất hậu nghiệm PP- nhỏ ta chọn xét nghiệm có Sn lớn
Khi một xét nghiệm có Sn + Sp > 1 ,
( ) 1 ( ) hay Sp suy ra PP P B
Xác suất hậu nghiệm âm (PP-) cần phải nhỏ hơn xác suất tiền nghiệm (P(B +)), đảm bảo tính chính xác của kết quả xét nghiệm Khi biết xác suất tiền nghiệm (P(B +)) cùng với độ nhạy (Sn) và độ đặc hiệu (Sp) của xét nghiệm, chúng ta có thể dễ dàng tính toán xác suất hậu nghiệm dương (PP+) và âm (PP-), từ đó đánh giá chính xác hơn về khả năng mắc bệnh dựa trên kết quả xét nghiệm Những thông số này đóng vai trò quan trọng trong việc tối ưu hóa quá trình chẩn đoán và nâng cao độ tin cậy của xét nghiệm y học.
1.5.2.2 Dùng tỷ số cơ hội
Tiền nghiệm = B + = Pretest ( Od(B+) = Od(Pretest))
Hậu nghiệm dương = B + | T + = Posttest+ (Od (B + | T + ) = Od(Posttest+))
Hậu nghiệm âm = B + | T = Posttest- ( Od(B + | T ) = Od(Posttest-))
Od Posttest Od etest LR
Nếu kết quả xét nghiệm là T + : ( ) (Pr ).
Od Posttest Od etest LR hay Od B T Od B LR
Nếu kết quả xét nghiệm là T : ( ) (Pr ).
Od Posttest Od etest LR hay Od B T Od B LR Chú ý
2) Vì PP+ tăng khi Sp 1
Vì PP Od B T( | ) Od B LR( ) Od B( ) 1Sn
Sp PP- giảm khi Sn 1
3) Trong trường hợp dùng nhiều xét nghiệm liên tiếp, độc lập
Od Posttest Od etest LR LR LR Nghĩa là lấy Od(Posttest) của xét nghiệm trước làm Od(Pretest) cho xét nghiệm sau
4) Tính xác suất hậu nghiệm theo tỷ số cơ hội và số chênh:
Khi biết xác suất tiền nghiệm P(B + ) và Sn, Sp của xét nghiệm T Ta tính được xác suất hậu nghiệm một cách nhanh chóng.
Mô hình ngưỡng (Threshold Model)
Trước khi cho làm xét nghiệm T, bác sĩ nghi ngờ bệnh nhân bị bệnh B, ký hiệu P(B + ), là bao nhiêu?
Dưới góc độ xác suất tại một thời điểm, xác suất bị bệnh, P(B + ), là trong khoảng (0;1)
Không điều trị Xét nghiệm Điều trị
Tt là vị trí hoặc ngưỡng xét nghiệm nơi mà kết quả xét nghiệm chính xác bằng với kết quả không điều trị, thể hiện mức độ phân biệt rõ ràng giữa các trạng thái bệnh lý Ngưỡng xét nghiệm này đóng vai trò quan trọng trong việc xác định điểm cắt để phân chia các kết quả dương tính và âm tính, giúp bác sĩ đưa ra quyết định chẩn đoán chính xác hơn Hiểu rõ về Tt giúp tối ưu quá trình xét nghiệm và nâng cao hiệu quả quá trình điều trị bệnh.
Nếu P(B + ) < Tt bác sĩ cho rằng bệnh nhân không bị bệnh, do đó không cần làm xét nghiệm cũng không cần phải điều trị
Tấm ngưỡng điều trị (Tγ) là vị trí mà tại đó không có sự khác biệt về giá trị giữa kết quả xét nghiệm và việc áp dụng điều trị, nhằm xác định điểm phù hợp để bắt đầu hoặc không bắt đầu điều trị.
Nếu P(B + ) > T bác sĩ cho rằng bệnh nhân bị bệnh, do đó bác sĩ cứ điều trị cho bệnh nhân mà không cần làm xét nghiệm
Ngưỡng xét nghiệm Tt và ngưỡng điều trị T được tính theo công thức sau:
T R Sp BR Sp Sn B Sn
B LR trong đó: R là tỉ lệ rủi ro (Ricks) ; B là tỉ lệ lợi ích (benefits)
Trong bài viết, tác giả phân tích các giá trị Tt và Tγ chia đoạn [0,1] thành ba vùng riêng biệt: vùng không điều trị, vùng xét nghiệm và vùng điều trị Độ rộng của từng vùng phụ thuộc vào mức độ của các ngưỡng Tt và Tγ, điều này ảnh hưởng trực tiếp đến quá trình phân loại và quyết định điều trị Hiểu rõ mối quan hệ này giúp tối ưu hóa chiến lược xét nghiệm và điều trị, nâng cao hiệu quả chăm sóc sức khỏe.
Trong các trường hợp xét nghiệm khá chính xác, ít rủi ro và tiết kiệm chi phí, bác sĩ thường khuyên thực hiện xét nghiệm rộng rãi bất kể xác suất P(B +) cao hay thấp, nhằm đảm bảo chẩn đoán toàn diện hơn.
Khi xét nghiệm có độ chính xác thấp hoặc đem lại nhiều rủi ro và chi phí cao, các bác sĩ thường hạn chế chỉ định xét nghiệm, dẫn đến vùng xét nghiệm được thu hẹp hơn.
Mô hình ngưỡng giải thích việc bác sĩ cho làm xét nghiệm T hay điều trị hay không điều trị là tùy vào P(B + ) rơi vào cùng nào
Một người đàn ông 43 tuổi đến khám tổng quát, qua xét nghiệm nước tiểu phát hiện có đường niệu, cho thấy khả năng mắc bệnh tiểu đường Phương pháp test T giúp phát hiện bệnh tiểu đường với kết quả 138, có khả năng phân biệt bệnh nhân mắc bệnh và không mắc bệnh, khi giá trị trên 150, người bị bệnh tiểu đường chiếm tỷ lệ cao Tính độ nhạy của test T là 84%, độ chuyên là 87%, xác định khả năng phát hiện chính xác bệnh, trong khi dương giả và âm giả lần lượt phản ánh độ chính xác của test trong các tình huống thực tế Phương pháp thử máu (T’) với độ nhạy 80% và độ chuyên 96% thường được sử dụng để tăng độ chính xác trong chẩn đoán bệnh tiểu đường.
Trong trường hợp này, nếu người đàn ông này có kết quả xét nghiệm T dương tính, khả năng mắc bệnh tiểu đường của anh ấy là khoảng 90% Tuy nhiên, nếu cả kết quả xét nghiệm T’ cũng dương tính, khả năng mắc bệnh tiểu đường sẽ tăng lên đáng kể, thể hiện mức độ rủi ro cao hơn so với chỉ một kết quả dương tính Do đó, kết quả xét nghiệm kép dương tính cho thấy nguy cơ mắc bệnh tiểu đường càng rõ ràng và đáng chú ý hơn.
Giải a Độ nhạy = sens = 138/150 = 0,92 ; Âm giả = 0,08 Độ chuyên = spec = 126/150 = 0,84 ; Dương giả = 0,16 b Dùng bảng 2 x 2:
Tương tự ta tính được: b6;c30; d 144
Người bệnh đến khám vì cảm thấy bồn chồn, hồi hộp thường xuyên Sau khi thăm khám lâm sàng, bác sĩ không phát hiện bất thường rõ ràng Theo kinh nghiệm của các chuyên gia tim mạch, trong các trường hợp này, có khoảng 20% đến 30% khả năng bị sa van tim (Mitral Valve Prolapse - MVP) Để xác định chính xác, bác sĩ thường yêu cầu thực hiện các xét nghiệm như siêu âm tim hoặc nội soi mạch máu Việc chẩn đoán sớm giúp người bệnh được tư vấn và điều trị phù hợp, hạn chế các biến chứng về sau.
Echocardiogram có độ nhạy 90% và độ đặc hiệu 95%, giúp chẩn đoán chính xác viêm cơ tim Nếu kết quả Echocardiogram dương tính, khả năng người đó mắc bệnh MVP là rất cao, do phương pháp này có khả năng phát hiện chính xác các tổn thương tim Ngược lại, nếu kết quả Echocardiogram âm tính, khả năng người đó không mắc MVP là rất cao, nhờ vào độ nhạy và độ đặc hiệu tốt của xét nghiệm này.
Trong vùng có 4% phụ nữ mắc ung thư vú và 20% có hút thuốc lá Ngoài ra, 3% phụ nữ vừa mắc ung thư vú vừa hút thuốc, cho thấy sự chồng chéo giữa hai nhóm này Tính xác suất để một phụ nữ bất kỳ từ vùng này mắc ung thư vú hoặc hút thuốc lá hoặc cả hai là khoảng 21%, cho thấy khả năng cao hơn so với từng nhóm riêng biệt.
Gọi biến cố mắc bệnh K vú là A và B là biến cố có hút thuốc
Trong dân số, tỷ lệ mắc bệnh B là 23% và tỷ lệ có triệu chứng C là 20% Một người không có triệu chứng C, khả năng mắc bệnh B của người đó được đánh giá dựa trên các dữ liệu thứ cấp: tỷ lệ có triệu chứng C và bệnh B cùng lúc là 18%; trong số những người mắc bệnh B, có đến 78% biểu hiện triệu chứng C; đồng thời, những người không mắc bệnh B và không có triệu chứng C chiếm 75% dân số.
Gọi B, C lần lượt là biến cố người này bị bệnh B và có triệu chứng C
Yêu cầu bài toán là tính xác suất có điều kiện: P B C a Biết P BC 0,18
1.6.1 XÁC SUẤT VÀ CÔNG THỨC TÍNH XÁC SUẤT
Trong bài tập này, ta có một đàn gà gồm 6 gà trống và 4 gà mái, và người mua chọn ngẫu nhiên 5 con gà từ đàn Xác suất để chọn toàn bộ gà trống là xác suất chọn hết 5 gà trong số 6 gà trống, giúp xác định khả năng người mua lấy toàn gà trống một cách chính xác Trong trường hợp số gà trống ít hơn số gà mái, ta cần tính xác suất chọn nhiều hơn một gà mái so với gà trống trong số 5 con gà được chọn, liên quan đến khả năng có ít gà trống hơn gà mái trong tổng số Cuối cùng, xác suất để trong số 5 con gà đã chọn có ít nhất một con mái là xác suất bổ sung của việc chọn không có gà mái nào, giúp người đọc hiểu rõ hơn về khả năng có ít nhất một gà mái khi mua ngẫu nhiên từ đàn gà.
Trong số 12 bệnh nhân đến phòng khám xét nghiệm viêm gan B, có 5 nữ và 7 nam, trong đó có 4 kết quả dương tính, gồm 3 nam và 1 nữ Xác suất để chọn ngẫu nhiên một kết quả dương tính và bệnh nhân đó là nam là \(\frac{3}{7}\), còn xác suất để chọn một kết quả âm tính và bệnh nhân đó là nữ là \(\frac{4}{8} = \frac{1}{2}\).
Bài 1.3 tập trung vào xác suất trong quá trình lấy thuốc từ một vỉ gồm 10 viên, trong đó có 2 viên lỗi Câu hỏi yêu cầu tính xác suất lấy đúng viên lỗi ở lần thứ ba và xác suất lần thứ nhất cũng lấy được viên lỗi nếu lần thứ ba đã lấy được viên lỗi Các bài toán này giúp hiểu rõ về xác suất không hoàn trả và các khả năng liên quan đến xác suất trong quá trình lấy mẫu không thay thế Việc tính toán chính xác xác suất giúp nâng cao kỹ năng phân tích các tình huống thực tế liên quan đến xác suất và xác suất điều kiện.
Trong chuồng gà thứ I, tỷ lệ mắc bệnh là 0,1, và trong chuồng thứ II là 0,07 Khi lấy ngẫu nhiên 3 con gà từ chuồng thứ I, xác suất có ít nhất một con gà mắc bệnh có thể được tính bằng cách sử dụng xác suất ngược lại của việc tất cả 3 con đều không mắc bệnh Cụ thể, xác suất một con gà không mắc bệnh là 0,9, do đó, xác suất tất cả 3 con đều không mắc bệnh là 0,9³ = 0,729 Vậy nên, xác suất có ít nhất một con mắc bệnh là 1 - 0,729 = 0,271, tương đương với khoảng 27,1%.
B Phải lấy ít nhất bao nhiêu con ở chuồng thứ I để xác suất có ít nhất một con gà bệnh
BIẾN NGẪU NHIÊN
Định nghĩa
Cho là một không gian mẫu
Biến ngẫu nhiên rời rạc là một dạng biến có tập giá trị X(Ω) gồm các số hữu hạn hoặc vô hạn đếm được, như x₁, x₂, , xₙ hoặc các giá trị tương tự Điều này có nghĩa là biến ngẫu nhiên rời rạc chỉ nhận các giá trị riêng biệt, không liên tục, và có thể liệt kê rõ ràng trong một danh sách đếm được Việc hiểu rõ đặc điểm của biến ngẫu nhiên rời rạc giúp phân tích xác suất và mô hình hóa các tình huống thực tế một cách chính xác hơn.
Gieo ngẫu nhiên ba xúc xắc cân đối và đồng chất Gọi X là số xúc sắc xuất hiện mặt “một chấm”
Khi đó X là biến ngẫu nhiên rời rạc nhận các giá trị có thể có là 0,1,2,3
Gọi Ai (i=1,2,3) là biến cố xúc xắc i xuất hiện mặt “một chấm”
Ta được không gian mẫu
Ta thấy, với A A A1 2 3 suy ra X( ) 0 với A A A A A A A A A X 1 2 3 , 1 2 3 , 1 2 3 ; ( ) 1 với A A A A A A A A A X1 2 3, 1 2 3, 1 2 3 ; ( ) 2 với A A A X 1 2 3 ; ( ) 3
Bảng phân phối xác suất
Giả sử X là biến ngẫu nhiên rời rạc với các giá trị có thể có của nó là x1 , x2 , …, xn với
Khi đó, ta có bảng phân phối xác suất của X là:
Lập bảng phân phối xác suất ở Ví dụ 2.1
Ta có bảng phân phối xác suất:
Hàm mật độ xác suất (hay gọi tắt hàm mật độ)
Định nghĩa Giả sử biến ngẫu nhiên rời rạc X có bảng phân phối xác suất
Khi đó, hàm mật độ xác suất (hay gọi tắt là hàm mật độ) của biến ngẫu nhiên X là một hàm số :[0;1] f được xác định bởi:
Hàm mật độ của biến ngẫu nhiên X ở Ví dụ 2.1
Hàm phân phối xác suất (hay gọi tắt hàm phân phối)
Định nghĩa Giả sử X là biến ngẫu nhiên rời rạc có bảng phân phối xác suất
Khi đó, hàm phân phối xác suất (hay gọi tắt là hàm phân phối) của biến ngẫu nhiên X là một hàm số :F [0;1] được xác định bởi:
Tính chất 1), 2) suy ra từ định nghĩa của F(x), hàm mật độ f(x) và xác suất
Tính chất 3) suy ra từ sự biểu diễn: với a < b: ( X b ) ( X a ) ( a X b )
Tính chất (iv) suy ra từ: ( ) lim ( ) ( ) ( ) 0
Hàm phân phối xác suất F(x) phản ánh mức độ tập trung xác suất về bên trái của số x
Hàm phân phối của biến ngẫu nhiên X ở Ví dụ 2.1
Hàm mật độ và hàm phân phối của biến ngẫu nhiên X trong Ví dụ 2.1
Biến ngẫu nhiên liên tục
Định nghĩa
Biến ngẫu nhiên X được gọi là biến ngẫu nhiên liên tục nếu với hàm số :f [0;1] sao cho
Hàm f (x) trên được gọi là hàm mật độ xác suất (hay gọi tắt hàm mật độ) của X
f x dx Ý nghĩa hình học Xác suất để biến ngẫu nhiên X nhận giá trị trong [a;b] bằng diện tích hình phẳng giới hạn bởi trục Ox, y = f(x) và 2 đường thẳng x = a, x = b.
Hàm phân phối xác suất (hay gọi tắt là hàm phân phối)
Cho X là biến ngẫu nhiên liên tục
Hàm phân phối xác suất (hay gọi tắt là hàm phân phối) của X là hàm số :F [0;1] được xác định bởi :
5) ( )f x d F x( ) dx tại những điểm f(x) liên tục
Các tính chất 1, 2, 3 chứng minh tương tự cho biến ngẫu nhiên rời rạc
Từ định nghĩa hàm liên tục và F(x) ta có tính chất 4
Một số công thức tính xác suất
Cho X là biến ngẫu nhiên liên tục, ,a b, a b
Cho X là biến ngẫu nhiên liên tục có hàm mật độ xác suất
0 1 khi khi khi khi x ax a x f x ax a x x
a Xác định a b Viết hàm phân phối của X c Tính P0,5 X 0,75 ; P 0,25X 0,75 ; ( P X 0,15); (P X 0,5) d Vẽ đồ thị hàm mật độ và hàm phân phối của X
f x dx ax a dx ax a dx
ax ax ax ax a b Ta có: ( ) ( )
F x f t dt f t dt f t dt f t dt t dt t dt x x
F x f t dt f t dt f t dt f t dt f t dt t dt t dt
F d Đồ thị hàm mật độ và hàm phân phối của X
Phân phối xác suất của hàm của biến ngẫu nhiên
Cho hàm (x) và biến ngẫu nhiên X có phân phối xác suất nào đó Khi đó, phân phối xác suất của (x) được xác định trong hai trường hợp sau:
X là biến ngẫu nhiên rời rạc
Gọi Y = (x), ta thực hiện như sau:
Từ tập giá trị X(), tìm tập giá trị Y()
Cho X là biến ngẫu nhiên có bảng phân phối xác suất như sau:
Lập bảng phân phối xác suất của Y = X 2 + 1
Các giá trị tương ứng của Y với X
Khi đó, bảng phân phối xác suất của Y sẽ là
X là biến ngẫu nhiên liên tục
Nếu X là biến ngẫu nhiên liên tục có hàm mật độ xác suất ( )f x X và g(x) là một hàm đơn điệu ngặt (đơn điệu tăng hoặc đơn điệu giảm), khả vi thì biến ngẫu nhiên Y = g(x) có hàm mật độ xác suất:
0 , ( ) n áu e với một nào đó n áue với mọi
x g y là hàm ngược của hàm y = g(x)
Giả sử g(x) đơn điệu tăng, khả vi
Khi đó, với y = g(x) với x nào đó, ta có F y Y ( ) P g X ( ) y P X g y 1 ( ) F g y X 1 ( ) Đạo hàm hai vế, ta được: f y Y ( ) f g y X ( 1 ( )) dg y 1 ( ) dy
(Trường hợp g(x) đơn điệu giảm chứng minh tương tự).
Cho biến ngẫu nhiên X có hàm mật độ f(x) Viết hàm mật độ xác suất của Y = X 3 – 2
Khi đó, hàm mật độ của Y là
Các tham số đặc trưng của biến ngẫu nhiên
Kỳ vọng (E(X) - Expectation)
Kỳ vọng của biến ngẫu nhiên X, ký hiệu E(X) hay , là số được xác định như sau:
X là biến ngẫu nhiên rời rạc có bảng phân phối xác suất
(Trong trường hợp biến ngẫu nhiên rời rạc X vô hạn đếm được thì
X là biến ngẫu nhiên liên tục có hàm mật độ f(x)
Tiến hành n quan sát độc lập của biến ngẫu nhiên X, ta có được bảng sau
Tần số fi f1 f2 … fk với
k i i i i n n f n i k n Lấy trung bình n giá trị quan sát trên, ta có
Theo định nghĩa xác suất theo lối thống kê, với n đủ lớn thì
Kỳ vọng của biến ngẫu nhiên X là trung bình các giá trị của X theo xác suất
Trong thực tế, để đạt được năng suất hoặc lợi nhuận kinh doanh cao nhất, chúng ta thường lựa chọn phương án có kỳ vọng lớn nhất về năng suất hoặc lợi nhuận, nhằm tối ưu hóa hiệu quả hoạt động kinh doanh.
( ) ( ) ( ) ; nếu là biến ngẫu nhiên rời rạc nếu là biến ngẫu nhiên liên tục i i i x p X
Phương sai ( V(X) - Variance)
Phương sai của biến ngẫu nhiên X, ký hiệu V(X) hay 2 (X) hay viết tắt 2 , là số được xác định
X là biến ngẫu nhiên rời rạc có bảng phân phối xác suất
X là biến ngẫu nhiên liên tục có hàm mật độ f(x)
Phương sai của biến ngẫu nhiên chính là trung bình của bình phương độ lệch giữa giá trị của
X và trung bình của nó E(X)
Phương sai là chỉ số đo lường mức độ phân tán của biến X xung quanh kỳ vọng, giúp xác định độ tập trung của dữ liệu Khi phương sai nhỏ, dữ liệu tập trung hơn xung quanh trung bình, còn phương sai lớn biểu thị độ phân tán rộng hơn Do đó, phương sai đóng vai trò quan trọng trong phân tích thống kê để đánh giá sự biến đổi của dữ liệu xung quanh giá trị trung bình.
Phương sai của biến ngẫu nhiên có hai nhược điểm : Do phương sai được tính bằng công thức
E X E X thường có giá trị lớn và đơn vị của phương sai bằng bình phương của đơn vị biến ngẫu nhiên X, làm cho việc so sánh trở nên khó khăn Để khắc phục nhược điểm này và dễ dàng so sánh với các đặc trưng thống kê khác, người ta thường sử dụng độ lệch tiêu chuẩn – một chỉ số thể hiện mức độ phân tán của dữ liệu dễ hiểu hơn.
- Độ lệch tiêu chuẩn, ký hiệu là ( ) X hay , được tính bằng căn bậc hai của phương sai, tức là ( )X V X( )
2) V(CX) = C 2 V(X) và ( CX) | | ( ) C X ; với C=const
3) Nếu X, Y độc lập thì (V X Y )V X( )V Y( ) và X Y 2 ( )X 2 ( )Y
Hệ quả: Nếu a, b là hằng số thì V aX b( )a V X 2 ( )
Tính chất 1, 2 được suy ra từ định nghĩa
Vì X, Y độc lập nên E(XY) = E(X)E(Y)
Thay X bằng aX và Y vào tính chất 3 ta được V aX b ( ) V aX ( ) V b ( ) a V X 2 ( )
Mốt Mod(X) – (Mode)
Mốt của biến ngẫu nhiên X, ký hiệu Mod(X), được xác định như sau:
X là biến ngẫu nhiên rời rạc có bảng phân phối xác suất
X là biến ngẫu nhiên liên tục có hàm mật độ f(x)
Chú ý: Mốt của biến ngẫu nhiên X không duy nhất
Giả sử X là biến ngẫu nhiên có bảng phân phối xác suất sau:
Khi đó, mod(X) = 2 (Vì P(X = 2) = 0,55 lớn nhất).
Trung vị Med(X) – (Medium)
Trung vị của biến ngẫu nhiên X, ký hiệu Med(X), được xác định như sau:
X là biến ngẫu nhiên rời rạc có bảng phân phối xác suất
X là biến ngẫu nhiên liên tục có hàm mật độ f(x)
Chú ý Trung vị của biến ngẫu nhiên X không duy nhất
Trong trò chơi lấy ngẫu nhiên 2 bi từ một hộp gồm 10 bi (2 bi trắng và 8 bi đen), người chơi có cơ hội nhận thưởng dựa trên số lượng bi trắng rút ra, với mức thưởng 5.000 đồng cho một bi trắng và 10.000 đồng cho hai bi trắng, trong khi mỗi lần chơi phải đóng phí 3.000 đồng Từ đó, chúng ta có thể tính kỳ vọng và phương sai của số tiền người chơi thu được sau một lần chơi, cũng như dự đoán số tiền trung bình sau 1000 lần chơi Xác định số tiền có khả năng cao nhất trong một lần chơi giúp người chơi hiểu rõ hơn về kết quả tối ưu Trung vị của số tiền thu được trong một lần chơi cung cấp thông tin về giá trị phổ biến nhất Cuối cùng, việc điều chỉnh mức phí đóng m (đồng) để trung bình số tiền người chơi thu được mỗi lần chơi đạt mức 500 đồng giúp tối ưu hóa trải nghiệm chơi game.
Giải: a Gọi X (đồng) là số tiền người chơi thu được trong một lần chơi
Ta có bảng phân phối xác suất của X
Từ bảng phân phối xác suất trên, ta có kỳ vọng và phương sai của X
Vì E(X) = -1000 đồng nên trung bình một lần chơi người chơi lỗ 1000 đồng
Nếu người chơi chơi 1000 lần thì số tiền trung bình người chơi thu được là
Nếu người chơi tham gia 1000 lần, trung bình họ sẽ mất khoảng 1 triệu đồng Dựa vào bảng phân phối xác suất của biến số X, ta nhận thấy khả năng cao nhất trong một lần chơi là thu được – 3000 đồng, với xác suất P(X = -3000) = 0,6222 Hàm phân phối xác suất của biến số X thể hiện rõ các khả năng thu được hoặc mất mát trong từng lượt chơi, giúp người chơi dự đoán kết quả dễ dàng hơn.
Vì F(-3000) = 0,6222 > 0,5 nên không tồn tại med(X) d Gọi Y (đồng) là số tiền người chơi thu được trong một lần chơi với số tiền đóng cho một lần chơi là m đồng
Ta có bảng phân phối xác suất của Y
Theo giả thiết, ta có ( ) 500
Vậy để số tiền trung bình người chơi thu được trong một lần chơi là 500 đồng thì mỗi lần chơi người chơi đóng 1500 đồng
Cho X là biến ngẫu nhiên liên tục có hàm mật độ sau:
x a b f x b a x a b Tính kỳ vọng và phương sai của X
Hàm gây moment
Cho X là biến ngẫu nhiên
Khi đó, hàm gây moment của X, ký hiệu M(t), được xác định như sau
( ) ; rời rạc lieõn tuùc tx i i i tX tx e f x X
Hàm gây moment là công cụ quan trọng để xác định các đặc tính của biến ngẫu nhiên, giúp tính kỳ vọng và phương sai một cách chính xác Công thức tính kỳ vọng và phương sai của biến ngẫu nhiên X dựa trên hàm gây moment của nó cho phép chúng ta hiểu rõ hơn về phân phối xác suất, từ đó phân tích các đặc điểm thống kê một cách hiệu quả Sử dụng hàm gây moment là chìa khóa để thực hiện các phép tính thống kê liên quan đến kỳ vọng và phương sai một cách chính xác và dễ dàng.
Giả sử X là biến ngẫu nhiên rời rạc nhận các giá trị x 1 , x 2 , …, x n
( ) ( ) ( ) ( ) i n n n tx tx tx tx i n i tx tx tx n n
Lấy đạo hàm cấp hai M(t), ta có M t // ( ) x e f x 1 2 tx 1 ( ) 1 x e f x 2 2 tx 2 ( ) 2 x e f x n 2 tx n ( ) n
Biến ngẫu nhiên X liên tục chứng minh tương tự (Thay dấu bởi dấu )
Bài 2.1 Xét trò chơi, tung 1 xúc xắc 3 lần: nếu cả 3 lần xuất hiện mặt 1 nút thì người chơi được 6.000đ, nếu 2 lần xuất hiện mặt 1 nút thì người chơi được 4.000đ, nếu 1 lần xuất hiện mặt 1 nút thì người chơi được 2.000đ a Mỗi lần chơi, người chơi phải đóng 2.000đ Hỏi trung bình một lần chơi, người chơi lời (lỗ) bao nhiêu tiền Nếu người chơi chơi 1.000lần, thì trung bình người chơi lời (lỗ) bao nhiêu tiền b Mỗi lần chơi, người chơi phải đóng m đồng b1) Hỏi m bằng bao nhiêu thì lâu dài người chơi huề vốn b2) Hỏi m bằng bao nhiêu thì trung bình mỗi lần chơi, người chơi mất 2.000đ
Bài 2.2 Có 12 bệnh nhân đang đợi ngoài phòng khám, trong đó có 5 nam 7 nữ Cứ mỗi lượt sẽ có ngẫu nhiên 4 người bước vào phòng khám cùng một lúc Gọi X là số bệnh nhân nữ trong 4 bệnh nhân vào khám lượt thứ nhất a Lập bảng phân phối xác suất cho X b Tính E(X), V(X) và Mod(X)
Bài 2.3 Một loại dược phẩm mới được sử dụng điều trị bệnh A với xác suất thành công là 85% Sử dụng loại dược phẩm trên để điều trị cho 5 người mắc bệnh A Gọi X là số người sẽ khỏi bệnhc Lập bảng phân phối xác suất cho X, Tính E(X), V(X) và Mod(X)
Bài 2.4 Tỉ lê ̣ sốt rét ở 1 đi ̣a phương là 20% và lách to là 30%; trong số ngưởi bi ̣ sốt rét thı̀ tỷ lê ̣ bi ̣ lách to là 80% a Cho ̣n ngẫu nhiên 3 người ở đi ̣a phương trên Gọi X là số người bi ̣ sốt rét trong 3 người được chọn Lâ ̣p bảng phân phối xác suất của X Tı́nh kỳ vọng, phương sai, mốt của X b Cho ̣n ngẫu nhiên mô ̣t người ở đi ̣a phương trên và thấy người này có lách to Tı́nh xác suất người này không bi ̣ sốt rét c Khám 20 người ở đi ̣a phương trên Tı́nh xác suất trong 20 người được khám có ı́t nhất
Hai người xuất hiện triệu chứng sốt rét Khi khám bệnh, một người được chẩn đoán mắc bệnh sốt rét và được điều trị bằng ba loại thuốc A, B, C Tỷ lệ khỏi bệnh khi sử dụng từng loại thuốc là 85%, 92% và 75% Nếu bỏ qua tác động của các loại thuốc và sử dụng phối hợp cả ba loại, tỷ lệ khỏi bệnh sẽ được tính dựa trên khả năng không khỏi của từng loại thuốc.
Bài 2.5 Có 3 lô hàng, mỗi lô hàng có 20 lo ̣ thuốc Số lo ̣ thuốc tốt của mỗi lô hàng lần lượt là 5; 18; 10 a Lấy ngẫu nhiên mỗi lô 1 lo ̣ Gọi X là số lo ̣ thuốc tốt trong 3 lo ̣ lấy ra Lập bảng phân phối xác suất cho X Tính E(X), V(X), Mod(X) b Chọn ngẫu nhiên 1 lô, rồi từ lô đó lấy ngẫu nhiên 3 lo ̣ Gọi Y là số lo ̣ thuốc tốt trong 3 lo ̣ lấy ra Lập bảng phân phối xác suất cho Y Tính E(Y), V(Y), Mod(Y)
Bài 2.6 Tuổi thọ của một loại côn trùng (đơn vị: tháng) nào đó là một biến ngẫu nhiên X có hàm mật độ:
Trong bài viết này, chúng ta bắt đầu bằng việc xác định giá trị của biến số a Tiếp theo, chúng ta tìm hàm phân phối của biến X để hiểu rõ phân bố xác suất Sau đó, tính kỳ vọng E(X) và phương sai V(X) giúp đo lường trung bình và độ phân tán của tuổi thọ côn trùng Thêm vào đó, chúng ta xác định mô-đun mod(X) và trung vị med(X) để mô tả đặc điểm phân phối dữ liệu Ngoài ra, bài viết hướng dẫn cách tính xác suất côn trùng chết trước khi tròn 1,5 tháng tuổi, cũng như xác suất côn trùng sống ít nhất 1,25 tháng tuổi Cuối cùng, chúng ta tính xác suất côn trùng sống trong khoảng thời gian từ 1,25 đến 2,75 tháng tuổi, nhằm hiểu rõ hơn về phân phối tuổi thọ của chúng.
Bài 2.7 Cho biến ngẫu nhiên X (đơn vị: tháng) là tuổi thọ của một thiết bị có hàm mật độ xác suất:
Trong bài toán này, chúng ta cần xác định giá trị của tham số a trong hàm phân phối xác suất của biến ngẫu nhiên X Tiếp theo, tìm hàm phân phối xác suất của X để hiểu rõ phân bố của dữ liệu Cuối cùng, tính xác suất để trong 6 thiết bị hoạt động độc lập, có ít nhất 3 thiết bị có tuổi thọ tối thiểu 5 tháng, giúp đánh giá độ bền và độ tin cậy của các thiết bị này.
Bài 2.8 Cho X là tuổi thọ con người, biết hàm mật độ xác suất của X có dạng:
Trong bài tập này, chúng ta bắt đầu bằng việc tìm giá trị của tham số a Sau đó, tiến hành tính trung bình và phương sai của biến ngẫu nhiên X để hiểu rõ phân phối của dữ liệu Tiếp theo, dựa vào các dữ liệu đã cho, ta xác định xác suất một người có tuổi thọ tối thiểu 70 tuổi, giúp đánh giá khả năng sống lâu của người đó Cuối cùng, ta tính xác suất một người sẽ sống từ 65 tuổi trở lên khi đã biết người đó đã 50 tuổi, cung cấp thông tin quan trọng về xác suất sống thêm trong giai đoạn sau của cuộc đời.