Môn học Thống kê y học cung cấp các kiến thức giúp người học có thể ứng dụng được khái niệm xác suất trong việc chẩn đoán và ra quyết định điều trị, giải thích được các khái niệm thống kê cơ bản được sử dụng trong các báo cáo y tế hoặc bài báo nghiên cứu khoa học,... Mời các bạn cùng tham khảo.
Trang 1CHƯƠNG TRÌNH MÔN HỌC: THỐNG KÊ Y HỌC
(Môn bắt buộc)
Mục tiêu môn học:
Sau khi hoàn thành môn học thống kê y học, sinh viên có khả năng:
- Ứng dụng được khái niệm xác suất trong việc chẩn đoán và ra quyết định điều trị
- Giải thích được các khái niệm thống kê cơ bản được sử dụng trong các báo cáo y
tế hoặc bài báo nghiên cứu khoa học
- Chọn lựa được phương pháp thống kê mô tả để trình bày số liệu y tế một cáchthuyết phục và rõ ràng
- Chọn lựa test thống kê phù hợp để kiểm định giả thuyết và tiến hành được cáctest thống kê đơn giản với máy tính cầm tay
Vì mục tiêu của môn học là học viên có khả năng tiến hành được các test thống kê với
máy tính cầm tay, các học viên phải sở hữu một máy tính cầm tay có chức năng thống
kê trong giờ học của môn thống kê y học
Nội dung
STT Tên bài học
Số tiếtTổng số Lý
Thuyết Thựchành
2 Xác suất có điều kiện - Ðịnh luật cộng XS,
nhân XS; Công thức XS toàn phần
3 Ứng dụng XS trong chẩn đoán và điều trị 4 2 2
4 Các phân phối xác suất: phân phối Poisson,
phân phối Bernoulli và phân phối bình thường
Tóm tắt và trình bày số liệu bằng thống kê và
biểu đồ
6 Biến thiên tỉ lệ mẫu - ước lượng khoảng tin cậy
của tỉ lệ - Nguyên tắc kiểm định - So sánh 2 tỉ
lệ bằng kiểm định z
6 Biến thiên của trung bình mẫu - kiểm định t bắt
cặp - kiểm định z và t không bắt cặp 4 2 2
9 Phân tích phương sai một chiều để so sánh
nhiều trung bình
Phương pháp giảng dạy:
- Thuyết trình sử dụng Phấn bảng và máy chiếu qua đầu
- Làm bài tập
Trang 2- Thảo luận nhóm
Lượng giá:
- Lượng giá đào tạo sau mỗi đơn vị học trình: bài tập kiểm tra
- Lượng giá kết thúc khi hết học phần: Thi câu hỏi nhiều lựa chọn
- Tài liệu tham khảo:
Dawson-Saunders B, Trapp RG Basic clinical biostatistics London, Prentice HallInternational, 1990
Jekel JF, Elmore JG, Katz DL Epidemiology, Biostatistics and Preventive Medicine.Philadelphia, W.B Saunders company, 1996
Trang 3THỐNG KÊ VÀ VAI TRÒ CỦA THỐNG KÊ TRONG Y HỌC
Thống kê là khoa học về việc thu thập, phân tích và lí giải số liệu
Những quan sát trên sinh viên đều xác nhận rằng thống kê “Thống kê là một môn học bịsinh viên ghét nhất” 1 Một nhà thống kê y học nổi tiếng cũng chỉ có thể tự an ủi rằng:
"sinh viên y khoa có thể không thích thống kê, nhưng nếu là bác sĩ, họ sẽ thích"2 Tại saosinh viên y khoa không nhận thức được rằng thống kê là quan trọng như các người thầycủa họ?
Bởi vì trong các tình huống đơn giản, thống kê có vẻ như không cần thiết bởi vì chúng ta
có thể hiểu rõ mà không cần thống kê Nhưng với nghề nghiệp là bác sĩ hay chuyên viên y
tế công cộng, tình huống sẽ phức tạp hơn, thống kê trở thành một công cụ then chốt Nhưvậy khi nào thống kê là hữu ích và nó có thể làm gì cho bạn
1 Những tình huống không cần dùng đến thống kê
Hãy nhớ lại các thực nghiệm được tiến hành tại trường phổ thông? Trong vật lí, các họcsinh ghi nhận chu kì dao động của con lắc với các chiều dài con lắc khác nhau và so sánhkết quả và như vậy là đủ để có thể kết luận về mối liên quan giữa chiều dài và chu kì conlắc Thống kê không cần thiết trong trường hợp này
Trong bài thực tập về hoá học, khi thả miếng kim loại Natri vào nước, phản ứng sẽ xẩy ramãnh liệt Phản ứng này có thể được thực hiện lập đi lập lại rất nhiều lần và cho kết quảhằng định Chúng ta có thể rút ra kết luận là kim loại Natri phản ứng mạnh và tức thời vớinước mà không cần phải viện dẫn thống kê
Điều này cũng tương tự trong cuộc sống hàng ngày: nếu bạn sử dụng máy chiếu qua đầu
và không biết phải bật máy bằng nút nào bạn có thể cắm điện cho máy chiếu và kiểm tratừng nút cho đến khi bật sáng được máy chiếu Trong các tình huống đơn giản, thống kêdường như không cần thiết
Thống kê có thể làm gì ?
Cho phép tóm tắt và trình bày một cách dễ hiểu các thông tin bằng số
Kiểm định một giả thuyết – thí dụ sử dụng điều trị hormone thay thế có làm giảm nguy cơnhồi máu cơ tim ở phụ nữ mãn kinh hay không - và cho phép đo lường mức độ chắcchắn của kết luận
So sánh thông tin từ các nhóm khác nhau – thí dụ, so sánh kết cuộc từ nhóm sử dụngdược phẩm có hoạt tính và nhóm sử dụng dược phẩm đối chứng
Tiên đoán được khả năng một biến cố xảy ra đối với mọt bệnh nhân cụ thể - thí dụ, tửvong trong vòng 5 năm – và ước lượng được mức độ chính xác của tiên đoán
2 Các tình huống trong đó thống kê là quan trọng
Xem xét một thí dụ khác Một công ty muốn bán bảo hiểm nhân thọ cho các khách hàngcủa mình và công ty đó phải ước lượng càng chính xác càng tốt xác suất khách hàng đó bị
tử vong hay bị tai nạn trong các khoảng thời gian tiếp theo và các khoản phải đền bù tươngứng Nếu công ty ước lượng quá thấp, tiền đền bù sẽ vượt quá khoản phí bảo hiểm thuđược Nếu công ty ước lượng quá cao, công ty sẽ không thể cạnh tranh với các công ty bảohiểm khác Công ty phải thiết lập phí bảo hiểm khác nhau cho các khách hàng, người cónguy cơ thấp phải đóng phí bảo hiểm thấp bởi vì nếu không những người có nguy cơ thấp
sẽ không mua bảo hiểm hoặc sẽ mua bảo hiểm ở các công ty khác
Những làm thế nào một công ty bảo hiểm ước lượng được xác suất bị tử vong hay tai nạncủa khách hàng tốt hơn chính bản thân người khách hàng trong khi người này biết rõ vềbản thân mình hơn ai hết
Trang 4Bởi vì từ thống kê quốc gia, các công ty bảo hiểm có thể biết được nhóm người nào, theogiới tính, tuổi, tình trạng sức khoẻ hiện tại, nghề nghiệp, v.v dễ bị các nguy cơ bệnh tật vàtai nạn Nhưng để so sánh nguy cơ bệnh tật và tử vong ở nam và nữ, không đơn giản nhưthực nghiệm so sánh chu kì của con lắc dài và ngắn, không thể so sánh tử vong 1000người nam và 1000 người nữ bởi vì không thể nào tìm được một nhóm người đàn ông vàđàn bà có cùng phân bố về tuổi, tình trạng sức khoẻ, nghề nghiệp; Bởi vì có thể là chính sựkhác biệt của các yếu tố này chứ không phải bản thân giới tính sẽ chịu trách nhiệm cho sựkhác biệt về về nguy cơ tử vong và bệnh tật.
Điều đáng mừng là thống kê có thể xét đến các sự khác biệt và ước lượng được nguy cơ tửvong và bệnh tật của các đối tượng Ngoài ra nếu nguy cơ tử vong ở nam cao hơn ở nữ, nó
có thể giúp chúng ta quyết định sự khác biệt về nguy cơ này có phải là do tình cờ (chance)hay không Tình cơ là tác động của các yếu tố không rõ, do chúng ta không có thông tin,ảnh hưởng đến nguy cơ tử vong như yếu tố di truyền, môi trường, thói quen vệ sinh, tínhkhí Thống kê do đó có thể ước lượng khả năng sự khác biệt này là do cơ hội và nghĩa làthống kê có thể cho biết mức độ không chắc chắn của ước lượng
Khi nào thống kê có thể có ích?
Nhưng biến cố không lường trước được – thí dụ việc mắc bệnh
Thông tin có được từ nghiên cứu trên một số lớn đối tượng
Những yếu tố có liên quan không dễ dàng được kiểm soát
Những yếu tố có liên quan là chưa rõ
Nếu một người bác sĩ ước lượng nguy cơ tử vong và bệnh tật dựa trên kinh nghiệm củamình chứ không dựa trên thống kê ít nhất có ba vấn đề Thứ nhất, người bác sĩ đó chỉ biếtđược một số giới hạn các bệnh nhân Thứ hai, người bác sĩ không thể đánh giá các thôngtin một cách khách quan: người bác sĩ sẽ chỉ có thể biết được thông tin về hiệu quả điều trịnếu kết quả điều trị tốt và người bệnh trở lại và sẽ mất thông tin nếu bệnh nhân bỏ cuộc,bác sĩ sẽ nhớ các trường hợp bệnh đặc biệt hơn các trường hợp bệnh thông thường Thứ
ba, nếu có một phác đồ điều trị có thể thay đổi nguy cơ tử vong và bệnh tật, với kinhnghiệm người bác sĩ không thể biết điều trị này có phải thực sự là có hiệu quả hay khônghay ảnh hưởng này là do tác động của các yếu tố khác như tuổi, giới, dinh dưỡng
3 Tại sao 2 nhóm tình huống này là khác nhau
Các biến cố trong nhóm đầu tiền hầu như hoàn toàn có thể tiên liệu trước Chu kì dao độngcủa con lắc là một hằng số bất kể biên độ dao động Natri luôn luôn phản ứng rất mãnh liệtvới nước Trong các tình huống đơn giản, để có câu trả lời chỉ cần kinh nghiệm là đủ.Trong nhóm tình huống thứ hai, các biến cố khó tiên liệu hơn và mặc dù người nam cónguy cơ tử vong cao hơn người nữ nhưng có nhiều yếu tố khác cũng quan trọng
Các biến cố trong nhóm thứ nhất dễ dàng đo lường và kiểm soát bởi vì nó chỉ phụ thuộcvào một số các yếu tố - trọng lượng và độ dài của con lắc Nguy cơ tử vong phụ thuộc vàorất nhiều yếu tố, một vài yếu tố không thể đo lường được được và hầu hết các yếu tố nàyđều không thể kiểm soát
Các biến cố trong nhóm thứ hai khó tiên liệu hơn Một người phụ nữ trung niên, khôngmắc bệnh mạn tính vẫn có thể bị chết trong năm tiếp theo nhưng một người đàn ông lớntuổi hơn bị cao huyết áp có thể lại vẫn sống Chúng ta không thể dựa vào kinh nghiệm củamột số người.Dù vậy, thống kê với một số lớn người có thể cung cấp thông tin giúp ướclượng nguy cơ tử vong
Trang 5Tại sao thống kê cho thông tin đúng đắn hơn kinh nghiệm
Thông tin từ nhiều bệnh nhân
Có thông tin chính xác hơn và khách quan hơn
Giảm thiểu sai lệch – thí dụ những bệnh nhân bỏ cuộc hay những yếu tố tình cảm không
ảnh hưởng đến kết luận
Phương pháp phân tích giúp chúng ta rút ra ý nghĩa của các thông tin phức tạp
4 Tại sao thống kê cần thiết cho y khoa và y tế công cộng?
Các chuyên viên y tế công cộng tham gia vào công việc phòng bệnh, chẩn đoán một sốbệnh tật cũng như cho lời khuyên cho người dân tiên lượng của các biến cố Bác sĩ cũngphải tham gia vào việc phòng bệnh, chẩn đoán, điều trị cho bệnh nhân Những thông tincần thiết cho những hoạt động này là:
Phòng bệnh: Bệnh tật do nguyên nhân gì?
Chẩn đoán: Bệnh nhân có những triệu chứng và dấu hiệu gì của bênh
Điều trị: Điều trị nào là có hiệu quả cho một bệnh nhất định và có hiệu quả cho bệnh nhân
nào
Tư vấn: Một bệnh nhân bị một bệnh nào đó (như nhiễm HIV) sẽ có khả năng mắc phải
những bệnh lí gì trong 5 năm tới
Những thông tin này phụ thuộc rất nhiều vào nhiều yếu tố và phần lớn những yếu tố nàykhông tiên đoán được, thí dụ bệnh có thể gây ra bởi yếu tố môi trường, bởi tác nhân visinh vật (vi khuẩn, virus), các yếu tố bệnh nhân (di truyền, hành vi vệ sinh, các yếu tố xãhội) Tương tự các triệu chứng, dấu hiệu bệnh tật, đáp ứng với điều trị và diễn tiến tựnhiên của bệnh phụ thuộc vào nhiều biến số
Thống kê rõ ràng là rất cần thiết Tuy nhiên do thống kê là một công cụ hết sức mạnh mẽnên nó đã bị rất nhiều người lạm dụng trong khi họ chưa được huấn luyện một cách đầy
đủ Một bác sĩ hay một chuyên viên y tế công cộng tương lai cần phải tìm hiểu thấu đáo vềthống kê khi sử dụng nó để tránh bị xếp vào cùng loại với những người nói dối và nhữngngười nói dối trơ tráo như theo cách nhìn nhận của nhà văn Mark Twain (“lies, damnedlies, and statistics”)
Tài liệu tham khảo
1 Sinclair S Making doctors: an institutional apprenticeship Oxford: Berg, 1997
2 Bland JM Medical students may not like statistics, but as doctors they will BMJ1998;316:1674 http://bmj.com/cgi/content/full/316/7145/1674
Trang 6MỘT SỐ KHÁI NIỆM CĂN BẢN VỀ XÁC SUẤT Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng:
- Trình bày 2 định nghĩa về xác suất và đưa ra các ví dụ
- Xây dựng được tập giao và hợp của 2 tập hợp xác định
- Trình bày và phân biệt được hai công thức chuyển vị và tổ hợp
- Trình bày định nghĩa của xác suất có điều kiện
- Trình bày công thức cộng xác suất và công thức nhân xác suất
1 Ðịnh nghĩa về xác suất
1.1 Ðịnh nghĩa xác suất theo tần suất tương đối
Theo ngôn ngữ thông thường, xác suất chính là tần suất tương đối Thí dụ mệnh đề khẳngđịnh xác suất sinh con trai là 0,515 có nghĩa là khi thống kê nhiều lần sinh, tần suất tươngđối sinh con trai sẽ xấp xỉ bằng 0,515 (tần suất tương đối là tần suất xảy ra biến cố quantâm chia cho tổng số lần thử) Nói cách khác, nếu một quá trình được lập lại n nhiều lần,
và nếu có f lần xảy ra biến cố E, tần suất tương đối của biến cố E sẽ xấp xỉ bằng xác suấtcủa E
n
f E
P( )
(1)Thí dụ: Buffon thực hiện 4040 lần tung đồng tiền và quan sát được 2048 lần xuất hiện mặtsấp Tần suất tương đối xảy ra mặt sấp là Xác suất xảy ra mặt sấp cũng xấp xỉ bằng0,507
1.1 Phép thử, kết cục, biến cố, biến cố đối lập
Khi chúng ta gieo một đồng tiền lên một mặt phẳng có thể xảy ra một trong hai kết cục:xuất hiện mặt sấp hoặc xuất hiện mặt ngửa với kết quả không thể tiên đoán được Người tagọi việc gieo đồng tiền là phép thử (experiment) và sự xuất hiện mặt xấp hay mặt ngửa củađồng tiền là các kết cục (outcome)
Tương tự, khi chúng ta tung con xúc xắc, có thể xuất hiện các mặt 1, 2, 3, 4, 5, 6 thì việctung con xúc xắc được gọi là phép thử ngẫu nghiên và việc xuất hiện mặt 1, xuất hiện mặt
2, 3, 4, 5 và 6 được gọi các kết cục ngẫu nhiên Nếu chúng ta quan tâm đến biến cố ra mặtxúc xắc chẵn thì biến cố (event) này bao gồm 3 kết cục: ra mặt 2, ra mặt 4 và ra mặt 6 Nóikhác đi biến cố là tập hợp mà các phần tử là các kết cục Bởi vì tập hợp có thể có bao gồmtoàn bộ các phần tử, 0 phần tử hay 1 phần tử nên việc ra một mặt xúc xắc nào đó (thí dụ ramặt 2) vừa có thể xem là kết cuộc vừa có thể xem là biến cố: biến cố đó đôi khi được gọi
là biến cố sơ cấp
Nếu chúng ta tung 3 con xúc xắc phân biệt , có kết cục sau có thể xảy ra {1,1,1} (ba conxúc xắc ra mặt 1); {1,1,2}; {1,1,3}; ; {6,6,5}; {6,6,6} Biến cố có tổng số điểm của 3con xúc xắc =18 bao gồm một kết cục {6,6,6} Tương tự chúng ta có thể định nghĩa biến
cố tổng số điểm của ba con xúc xắc <=10, biến cố tổng số điểm là 11; biến cố tổng sốđiểm >=12
Đối với mỗi biến cố A có một biến cố đối lập (complementary event ) A c (được đọc làkhông A) bao gồm các kết cục không có tính chất A Trở về thí dụ của phép thử tung consúc sắc 6 mặt, biến cố đối lập với biến cố ra mặt chẵn là biến cố ra mặt lẻ Biến cố đối lậpcho biến cố ra mặt >=2 là biến cố ra mặt 1
Trang 71.2 Kết cục đồng khả năng
Khi chúng ta gieo con xúc xắc đồng nhất, cảm nhận thông thường cho phép chúng ta giảđịnh việc xuất hiện kết cục ra mặt 1, ra mặt 2, ra mặt 3, ra mặt 4, ra mặt 5, ra mặt 6 có xácxuất như nhau Khi đó ta gọi các kết cục này là kết cục đồng khả năng
1.4 Ðịnh nghĩa xác suất cổ điển
Nếu phép thử ngẫu nhiên có thể xảy ra theo N kết cục loại trừ lẫn nhau và có xác suất nhưnhau và gọi m là số các kết cục thuận lợi cho biến cố E, xác suất xảy ra biến cố E, được kíhiệu là P(E), sẽ bằng m chia cho N
N
( )
(2)
N còn được gọi là số các kết cục có thể và m số các kết cục thuận lợi
Thí dụ: Nếu chúng ta tung con xúc xắc (xí ngầu) có 6 mặt: mặt 1, mặt 2, mặt 3, mặt 4, mặt
5, mặt 6 thì có thể xảy ra với 6 kết cục khác nhau Những kết cục này loại trừ lẫn nhau(nếu ra mặt 1 thì không ra mặt 2 và ngược lại) và đồng xác suất Giả sử ta quan tâm đếnbiến cố con xúc xắc ra mặt chẵn Biến cố này có thể xảy ra theo 3 cách, nói khác đi biến
cố này bao gồm 3 kết cục Khi đó xác suất xảy ra biến cố ra mặt chẵn là 3/6=0.5
Thí dụ: Khoa phổi và khoa Thận của bệnh viện Chợ Rẫy có 50 bệnh nhân trong số này có
35 bệnh nhân nữ Có 12 bệnh nhân của khoa Thận trong đó có là 8 người là nữ Có baonhiêu bệnh nhân nữ ở khoa phổi? Có bao nhiêu trong số những bệnh nhân của 2 khoa này
là nữ hay nằm ở khoa Phổi
Trước tiên chúng ta lập một bảng chéo để phân loại các bệnh nhân theo giới tính và theokhoa điều trị (Phổi hay Thận) và điền các thông tin đã cho từ đề bài vào bảng này (các số
in đậm của bảng) Từ các thông tin này chúng ta tính các số ở các ô còn lại (các số inthường) của bảng chéo
Bảng 1 Giới tính của bệnh nhân của khoa Phổi và khoa Thận bệnh viện Chợ rẫy
Thí dụ: Sử dụng số liệu của bảng trên hãy tính các xác suất:
1 Chọn một người bất kì tính xác suất người nằm ở khoa Phổi - P(Khoa Phổi):
N: Số kết cuộc có thể là 50; m: số các kết cuộc thuận lợi cho 38;
P (Khoa Phổi) =
2 Chọn một người bất kì tính xác suất người đó là nam - P(Nam)
N: Số kết cuộc có thể là 50; m: số các kết cuộc thuận lợi cho 15;
P (Nam) =
Khái niệm về nguy cơ và số chênh (odds)
Một khái niệm quan trọng trong dịch tễ học là nguy cơ Nguy cơ được định nghĩa là tỉ lệmắc bệnh trong khoảng thời gian nghiên cứu ở một nhóm người người lúc đầu không bịbệnh Như vậy còn có thể được xem là xác suất của một người bị mắc bệnh trong khoảngthời gian nghiên cứu với điều kiện lúc đầu không bị mắc bệnh Đó là lí do tại sao xác suất
Trang 8Những chúng ta sẽ thấy xác suất là một hàm số có đặc tính thuận lợi về mặt toán học, thí
dụ như nguyên lí cộng tính Tuy nhiên xác suất có miền xác định là đoạn [0;1] nên để mô
tả xác suất theo một biểu thức tuyến tính cần sử dụng các phép biến đổi để mở rộng miềnxác định Một trong các phép biến đổi đó là số chênh (odds)
Số chênh của một biến cố A được kí hiệu là Odds(A) bằng xác suất của biến cố A chia choxác suất của biến cố không A
Odds(A)= =
Miền xác định của số chênh là đoạn [0;∞) được mở rộng so với miền xác định của xácsuất Số chênh cũng có một đặc tính khác quan trọng là số chênh của biến cố không Abằng nghịch đảo của số chênh biến cố A
là việc được mặt ngửa là 1 ăn 1 thua (hay 5 năm 5 thua)
Khi biến cố A hiếm (P(A)<0,1) thì 1-P(A) 1 nên số chênh và xác suất là xấp xỉ Từ sốchênh chúng ta cũng có thể tính được xác suất theo công thức sau:
P(A) =
1.3 Ðịnh nghĩa xác suất chủ quan
Khái niệm về xác suất chủ quan lần đầu tiên được đề xướng bởi Von Newman,Morgenstern, Ramsey và Savage Theo khái niệm này, xác suất không chỉ áp dụng cho cáchiện tượng ngẫu nhiên mà còn được sử dụng cho các mệnh đề (proposition) Có nhữngmệnh đề có thể kiểm chứng bằng thử nghiệm lập lại được (thí dụ mệnh đề “chiếc nhẫnvàng này là thật” có thể được kiểm chứng sau khi thử nghiệm kiểm tra vàng bằng lửa).Mặc dù trước thử nghiệm, tính chân thực của mệnh đề là không chắc chắn nhưng sau thửnghiệm chúng ta luôn luôn biết được mệnh đề này là đúng hay sai Tuy nhiên có nhữngmệnh đề không thể kiểm chứng bằng thử nghiệm lập lại được (thí dụ như mệnh đề “sử
dụng vitamine A bổ sung sẽ làm giảm nguy cơ ung thư” không thể chứng minh được dù
chúng ta có thực hiện đến 10 thử nghiệm lâm sàng bởi vì kết quả của 10 thử nghiệm nàykhông cho kết quả giống hệt như nhau) Với những mệnh đề này thì trước hay sau thửnghiệm chúng ta đều phải sử dụng một số đo lường về mức độ không chắc chắn của mệnh
đề và số đo lường này được gọi là xác suất chủ quan Khuyết điểm của các tiếp cận này ởchỗ xác suất của mệnh đề là một con số chủ quan và thay đổi theo nhận định của từngngười Tuy vậy những người ủng hộ nó lập luận rằng dù có chấp nhận tính chủ quan haykhông, trong cuộc sống và khoa học nhiều quả định của chúng ta là chủ quan và ưu điểmcủa phương pháp này là nó minh bạch hoá tính chủ quan của các giả định Định nghĩa chủquan là cơ sở của phương pháp Bayes (Bayes method) trong thống kê học hiện đại
2 Nhắc lại về lí thuyết tập hợp
Một tập hợp là gồm nhiều những đối tượng xác định và khác nhau Những đối tượng nàyđược gọi là phần tử của tập hợp Tập hợp thường được kí hiệu bằng chữ in và có thể biểuthị bằng giản đồ Venn
Trang 9Hình 1 Giản đồ Venn (Venn diagrams)
Thí dụ khi ta tung con xúc xắc có thể xảy ra 6 kết cuộc (1, 2, 3, 4, 5, 6) Do biến cố (event)
là một tập hợp với các phần tử kết cuộc như vậy chúng ta có xây dựng các biến cố sau:
E1={1}; E2={2}; E3={3}; E4={4}; E5={5}; E6={6} (như đã quy ước, các biến cố chỉ cómột phần tử là một kết cục được gọi là biến cố sơ cấp)
S={1, 2, 3, 4, 5, 6} (biến cố này được gọi là biến cố toàn thể khi tất cả các kết cục đều làcác phần tử của biến cố này)
A= {2,4,6}: A là biến cố ra mặt chẵn
Kí hiệu x X để chỉ định x là một phần tử của X và kí hiệu x X để chỉ rằng x không thuộc
tập hợp X Áp dụng thí dụ trên và sử dụng kí hiệu chỉ định phần tử, ta có thể viết
b Trái đất là hành tinh duy nhất trong vũ trụ có sự sống
c Mua hai vé xem đá banh trận đấu giữa Manchester United và Leed UnitedTrả lời: Hai phát biểu đầu (a và b) là mệnh đề và phát biểu thứ ba (c) không phải làmệnh đề mà chỉ là một mệnh lệnh
Trang 10Khi chúng ta kết hợp hai mệnh đề con bằng từ và thì chúng ta có một mệnh đề thì mệnh
đề này chỉ đúng nếu hai mệnh đề con đều đúng:
Thí dụ: Trong hai mệnh đề sau, mệnh đề nào là mệnh đề đúng
42 chia hết cho 7 và 100 chia hết cho 10
2 + 2 = 4 và 91 là số nguyên tố
Trả lời: Mệnh đề (a) là đúng còn mệnh đề (b) sai vì chỉ có một mệnh đề con của nó
là đúng Mệnh đề con còn lại (91 là số nguyên tố) sai
Khi chúng ta kết hợp hai mệnh đề con bằng từ hay thì chúng ta có một mệnh đề thì mệnh
đề này chỉ sai nếu hai mệnh đề con đều sai:
Thí dụ: Trong hai mệnh đề sau, mệnh đề nào là mệnh đề đúng
42 chia hế t cho 7 và 100 chia hết cho 10
2 + 2 = 4 và 91 là số nguyên tố
Trả lời: Mệnh đề (a) là đúng vì cả hai mệnh đề con đều đúng Mệnh đề (b) đúng vì có mộtmệnh đề con của nó là đúng (2+2 = 4)
5 Nến tảng tiên đề của lí thuyết xác suất
Vào đầu thế kỉ 20, lí thuyết xác suất đã được xây dựng nền tảng tiên đề tương tự như cácngành khác của toán học Nhờ đó sự phát triển của lí thuyết xác suất dựa trên các tiên đềnày chỉ phụ thuộc vào tính chặt chẽ logic (logic correctness) dù rằng những định lí của nó
có phản ánh thế giới thực hay không Nhà toán học Nga Kolmogorov là người đã có côngxây dựng trình bày các bài toán xác suất theo các khái niệm của lí thuyết đo lường và cáctiên đề để xây dựng lí thuyết xác suất do ông đưa ra được trình bày sau đây:
Nếu chúng ta kí hiệu S là tập hợp các kết cục của phép thử (còn gọi là biến cố toàn thể), M
là một lớp các biến cố và M thoả 3 tính chất sau: (i) S M; (ii) nếu A M, thì A c M; (iii) nếu
A1, A2, M, thì A1 A2 M.
Hàm số P được gọi là xác suất gán cho mỗi biến cố A thuộc lớp M một con số không âm
và có 2 tính chất sau:
1 P(S) = 1 (Xác suất của biến cố toàn thể bằng đơn vị)
2 Nếu A1, A2, M và A i A j = Ø cho tất cả i j, thì P(A1 A2 …) = P(A1) + P(A2) + …(Nếu các biến cố A1, A2,… là loại trừ tương hỗ lẫn nhau thì xác suất của sự xuất hiện A1
hay A2 hay bằng tổng của các xác suất đơn lẻ)
Tiên đề thứ hai là cơ bản cho các chứng minh trong thống kê và được gọi là nguyên lícộng tính (principle of additivity)
6 Giải tích tổ hợp
Giải tích tổ hợp (Combinatorics) là lãnh vực toán nghiên cứu về các bài toán chọn lựa,hoán vị và các toán tử trong hệ thống hữu hạn Trong phạm vi của tài liệu này chúng ta chỉtrình bày các khái niệm về hoán vị (arrangment), chỉnh hợp (permutation) và tổ hợp(combination)
6.1 Nhắc lại về giai thừa (factorial)
Giai thừa của n (với n là số nguyên) được đọc là n giai thừa và được kí hiệu là n!
n!=n.(n-1).(n-2) 1
Theo quy ước, 0! =1
Nhờ kí hiệu giai thừa người ta có thể viết một cách vắn tắt tích một chuỗi các chữ số liêntiếp Thí dụ: Thể hiện biểu thức 1 2 3 4 5 6 7 bằng kí hiệu 7!
Thí dụ: Thể hiện biểu thức 3 4 5 6 7 bằng
Trang 116.2 Hoán vị
Trạm y tế có 3 vị trí để treo 3 bức tranh A, B, C Số cách sắp xếp 3 bức tranh vào 3 vị trí
có thể được tính theo cách lập luận sau:
- Vị trí số 1 có thể chọn 1 trong 3 bức tranh để treo, như vậy có tất cả 3 cách chọn
- Vị trí số 2 có thể chọn 1 trong 2 bức tranh còn lại, vậy ở vị trí này có 2 cách chọn
- Vị trí số 3 chỉ còn duy nhất một tranh để treo, vậy ở vị trí này chỉ có 1 cách chọn
1)1(
)(
1)1()!
n n r
Chúng ta hãy xét một thí dụ khác Giả sử để điều trị cho bệnh nhân bị hen phế quản chúng
ta cần phải chọn 2 loại thuốc và cho dùng đồng thời Trong trường hợp này tổ hợp ABđồng nhất như tổ hợp BA, tổ hợp AC cũng đồng nhất như tổ hợp CA và số tổ hợp bằng sốchỉnh hợp chia số số hoán vị của 2 đối tượng được chọn
Do đó 5C2 = 5C2 /2! = =
Một cách tổng quát, công thức tính nCr (số tổ hợp n đối tượng chọn r) là số cách trong nđối tượng chọn ra r đối tượng có không phân biệt thứ tự được chọn (và sẽ nhận lãnh cùngmột nhiệm vụ hay cùng một vị trí ) là:
1)1(1)1(
)(
1)1(
!)!
n r n
n n r
r n
n
C r
n
(4)
Trang 12Lưu ý: Tổ hợp và chỉnh hợp có thể được kí hiệu khác Thí dụ tổ hợp n lấy r còn được kí
6.4 Bài toán ngày sinh nhật
Bộ môn Y tế công cộng có n=23 giảng viên và nhân viên, hãy tính xác suất P trong bộmôn ít nhất có 2 người trùng ngày sinh
Để đơn giản, chúng ta hãy giả định là một năm chỉ có 365 ngày và mỗi ngày đều có xácsuất là ngày sinh của một người ngẫu nhiên là như nhau Khi đó một nhóm n người sẽ có
365n cách xảy ra ngày sinh của n người đó Cách chọn trong 365 ngày sinh để gán cho nngười khác nhau chính là chỉnh hợp 365 chọn n do đó Xác suất trong bộ môn ít nhất 2người trùng ngày sinh = 1 – xác suất n người có ngày sinh hoàn toàn khác nhau
Thay n=23, chúng ta có xác suất trong bộ môn Y tế công cộng có ít nhất 2 người trùngngày sinh là 0,5
Khi số lượng người gia tăng thì xác suất có ít nhất 2 người cùng ngày sinh nhật cũng giatăng Đáp số cụ thể cho các trường hợp được trình bày như sau:
Bài tập định nghĩa xác suất
1 Một bệnh viện có cơ cấu nhân viên theo tuổi và công tác được trình bày trong bảng 1.Giả sử nếu ta chọn một nhân viên trong bệnh viện., tính xác suất:
a- nhân viên đó là bác sĩ
b- nhân viên đó là bác sĩ lớn hơn 35 tuổi
c- nhân viên đó là điều dưỡng
d- nhân viên đó là một điều dưỡng tuổi từ 26 đến 35
1a Theo công thức
N
( )
Với N là số các biến cố có thể và m số các biến cố thuận lợi
Khi chọn ngẫu nhiên việc chọn lực có thể kết cuộc theo 1766 cách khác nhau (Số biến cố
có thể N=1766) Trong việc tính xác suất nhân viên đó là bác sĩ, biến cố thuận lợi là biến
cố chọn được một trong 105 bác sĩ Như vậy số biến cố thuận lợi m = 105
Ta có xác suất chọn được một bác sĩ là 105/1766=0,059 = 5,9%
Trang 131b Tương tự ta có xác suất chọn được một bác sĩ lớn hơn 35 tuổi là 75/1766 = 0,042 =4,2%
1c Xác suất chọn được một nhân viên điều dưỡng là 1220 /1766 = 0,691 = 69,1%
1d Xác suất chon được một nhân viên điều dưỡng tuổi từ 26 đến 35 = (375+442)/1766 =817/1766 = 0,463 = 46,3%
26-A3
35
A4ÇB3 ; B5ÇA2 ; B3ÈA4 ; (A4ÈA3)ÇB3
2 Trong các mệnh đề sau, mệnh đề nào là đúng
2+2 là 4 hay Darwin là con khỉ
Bệnh AIDS do một loại virus gây ra và bệnh AIDS có thể lây lan qua muỗi Aedes aegypti
Bài giải
1 Giải thích các tập hợp
A4ÇB3 là tập hợp những nhân viên cấp dưỡng >35 tuổi n(A4ÇB3) = 10
B5ÇA2 là tập hợp những điều dưỡng tuổi từ 26 đến 30 n(B5ÇA2) = 375
B3ÈA4 là tập hợp những người nhân viên cấp dưỡng hay trên 35 tuổi.n(B3ÈA4)=385 +25 -10 = 400
(A4ÈA3)ÇB3 là tập hợp những nhân viên cấp dưỡng tuổi từ 31 trở lên.N{(A4ÈA3)ÇB3}=16
2 Mệnh đề (a) là mệnh đề hay Mệnh đề này đúng do một mệnh đề con của nó làđúng (2+2 =4),
Mệnh đề (b) là mệnh đề và Mệnh đề này sai do một mệnh đề con của nó (bệnhAIDS có thể lây lan qua muỗi Aedes aegypti ) là sai
Trang 143 Giả sử trong phòng thí nghiệm có 3 công việc khác nhau phải làm và có 5 người làmviệc đó Hỏi có bao nhiêu cách để giao 3 công việc này cho 5 người?
Bài giải
1a Do người nhân viên vật lí trị liệu này muốn liên kết 7 công việc khác nhau vào
7 thời điểm khác nhau trong kế hoạch công tác, anh ta có thể có sắp xếp công việctheo 7!=7 ´ 6 ´ 5 ´ 4 ´ 3 ´ 2 ´ 1= 5040 cách
1b Nếu anh ta chỉ còn có đủ thời gian để làm 3 công việc, anh ta phải từ 7 côngviệc chọn ra 3, 3 công việc này sau khi được chọn sẽ được sắp xếp khác nhau Nhưvậy, số kế hoạch anh ta có thể sắp xếp là:
7P3 = 7!/(7-3)! = 7 ´ 6 ´ 5 ´ 4 ´ 3 ´ 2 ´ 1 / 4 ´ 3 ´ 2 ´ 1 = 7 ´ 6 ´ 5 = 210cách
2 Người nhân viên này muốn chọn từ 4 mẫu máu lấy 3 mẫu, 3 mẫu máu này saukhi chọn là không phân biệt (đều được làm xét nghiệm) Vậy số cách chọn 3 mẫumáu để xét nghiệm là 4C3 = 4!/(4-3)!3! = 4 ´ 3 ´ 2 ´ 1 / (1 ´ 3 ´ 2 ´ 1) = 4
3 Từ 5 người chọn ra 3, và 3 người này sẽ có những công việc khác nhau Số kếhoạch có thể phân công là: 5P3 = 5!/(5-3)! = 5 ´ 4 ´ 3 ´ 2 ´ 1 / 3 ´ 2 ´ 1 = 60
Trang 16XÁC SUẤT CÓ ĐIỀU KIỆN - ĐỊNH LUẬT NHÂN XÁC SUẤT
Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng:
- Trình bày định nghĩa của xác suất có điều kiện
- Trình bày công thức cộng xác suất và công thức nhân xác suất
1 Xác suất có điều kiện
Nếu các kết cục có thể không bao gồm toàn thể các kết cục (khi một số kết cục bị hạn chế)thì xác suất có thể được gọi là xác suất có điều kiện
Xác suất có điều kiện được kí hiệu P(đặc tính quan tâm|Điều kiện)
Bảng 2 Giới tính của bệnh nhân của khoa Phổi và khoa Thận bệnh viện X
Khoa
Phổi
KhoaThận
Chọn một người bất kì, Xác suất người là nam và nằm ở khoa Phổi - P(Nam và KhoaPhổi) – không phải là xác suất có điều kiện bởi vì các kết cục không có hạn chế (ai cũng
có thể được chọn)
N: Số kết cuộc có thể là 50; m: số các kết cuộc thuận lợi cho 11;
P (Nam và Khoa Phổi) =
Thí dụ: Chọn một người nam, xác suất người này nằm ở khoa Phổi có phải là xácsuất có điều kiện hay không? Hãy tính xác suất này
Chọn một người nam, xác suất người này nằm ở khoa Phổi là xác suất có điều kiện bởi vì
số kết cục bị hạn chế (chỉ có bệnh nhân nam được chọn và như vậy kết cục chỉ có thể là 1trong số 15 bệnh nhân nam)
Nc: Số kết cuộc có thể là 15; m: số các kết cuộc thuận lợi cho 11;
Xác suất người này nằm ở khoa Phổi với điều kiện người này là nam giới = P(Khoa Phổi|Nam) =
Lưu ý: Xác suất có điều kiện được kí hiệu P(đặc tính quan tâm|Điều kiện) và điều kiện nàyphải đúng cho cả kết cục thuận lợi (m) và kết cục có thể (Nc) Trong thí dụ trên 11 kết cụcthuận lợi vừa đòi hỏi điều kiện là nam giới và đặc tính là nằm ở khoa phổi và 15 kết cục cóthể đòi hỏi điều kiện là nam giới Thể hiện nhận xét bằng công thức:
)(
)(
/)(
/)(
)(
)(
)
|
(
A P
B A P N
A n
N B A n A
n
B A n N
Đây là xác suất có điều kiện P(nữ|khoa Thận) = = = = 0,75
Thí dụ: Theo bản báo cáo “Số ca nghi nhiễm SARS tích luỹ” của Tổ Chức Y tế Thế Giới(http://www.who.int/csr/sars/country/2003_05_17/en/), Số ca bệnh SARS (Hội chứng Hô
Trang 17hấp cấp tính trầm trọng) từ ngày 1/10/2002 đến ngày 17/5/2003 là 7761 với 623 trườnghợp tử vong Xác suất tử vong của những người mắc SARS là xác suất có điều kiện: ( cả
623 ca tử vong và 7761 ca bệnh đều mắc SARS)
P(sốt rét|lách không to) = P(sốt rét và lách không to) / P(lách không to)
= [P(sốt rét) - P(sốt rét và lách to)]/ P(lách không to)
= (0.23-0.18)/0.8 = 0.05/0.8 =0.0625
2 Ðịnh luật nhân xác suất
Từ phương trình (5) ta có thể xây dựng công thức:
P(AÇB) = P(BÇA) =P(B) ´ P(A|B)
Công thức này được gọi là định lí nhân xác suất
Thí dụ: Nếu xác suất mắc bệnh lao, P(Lao) = 0,001 và xác suất chết/mắc của bệnh Lao,P(chết|Lao) = 0,1 Xác suất chết vì bệnh lao:
P(Lao và Chết) = P(Lao) ´ P(Chết | Lao) = 0,001 ´ 0,1 = 0,0001
Tính độc lập
Một trong những khái niệm quan trọng trong lí thuyết xác suất là tính độc lập(independence) Hai biến cố A và B được gọi là độc lập nếu P(B|A) = P(B), hoặc suy ra từ(6) nếu
Ý nghĩa của định nghĩa theo xác suất có điều kiện là xác suất của B không thay đổi dù cóhay không có điều kiện A Từ phương trình (7) chúng ta có thể suy ra là tính độc lập cótính chất đối xứng (nếu A độc lập với B thì B độc lập với A và ngược lại)
Thí dụ:
Giả sử
Xác suất bị chấn thương giao thông trên dân số chung = P(chấn thương giao thông) =0,01Xác suất bị chấn thương giao thông ở người hút thuốc lá = P(chấn thương giao thông | hútthuốc lá) = 0,01
Khi đó chấn thương giao thông và hút thuốc lá là hai biến cố độc lập
Giả sử
Xác suất bị chấn thương giao thông trên dân số chung = P(chấn thương giao thông) =0,01Xác suất bị chấn thương giao thông ở người nghiện rượu = P(chấn thương giao thông |nghiện rượu) = 0,03
Khi đó chấn thương giao thông và nghiện rượu là hai biến cố không độc lập
Khi biến cố A không độc lập với biến cố B thì:
- A => B hoặc
- B => A hoặc
- Có một yếu tố ảnh hưởng đến cả A và B (yếu tố này được gọi là yếu tố gâynhiễu)
Trang 18Do đó nếu chúng ta có thể chứng minh P(B) ≠ P(B|A) ≠ P(B|Ac) (A và B không độc lập)
và chúng ta loại trừ được các mệnh đề
- B => A (bằng cách biện luận về thời gian)
- Yếu tố gây nhiễu ảnh hưởng đến cả A và B
Nghĩa là chúng ta có chứng cớ (evidence) của mệnh đề A=>B
Đây là cách lập luận thường được sử dụng trong nghiên cứu xác định nguyên nhân hayyếu tố nguy cơ
Tính loại trừ của 2 biến cố
Nếu hai biến cố A và B không bao giờ xảy ra đồng thời người ta gọi biến cố A và
B loại trừ lẫn nhau
Thí dụ bệnh nhân không bao giờ bị nhiễm sán dải và sán dải heo cùng lúc nên việcnhiễm sán dải bò và sán dải heo là 2 biến cố loại trừ lẫn nhau Trong thửu nghiệm tungxúc xắc, biến cố ra mặt chẵn và biến cố ra mặt 3 là biến cố loại trừ lẫn nhau
Cần lưu ý hai biến cố loại trừ lẫn nhau không phải là 2 biến cố độc lập mà thựcchất là 2 biến cố phụ thuộc lẫn nhau Biến cố A xảy ra phụ thuộc vào việc không xảy rabiến cố B và ngược lại
3 Công thức cộng xác suất tổng quát
Thí dụ: Ở khoa Phổi và khoa Thận của bệnh viện X có 50 bệnh nhân và phân bốcủa các đặc điểm của bệnh nhân này được trình bày trong bảng ở đầu chương Chọn mộtngười bất kì, hãy tính xác suất người là nam hay nằm ở khoa Phổi - P(Nam hay KhoaPhổi):
P(Nam hay Khoa Phổi)=
P(Nam hay Khoa Phổi)= = P(Phổi)+P(Nam)-P(Phổi và Nam)
Một cách tổng quát, nếu AÈB ≠ Ø thì chúng ta có
Nếu hai biến cố A và B loại trừ lẫn nhau thì chúng ta có thể tính được xác suất xảy ra Ahay B dựa trên nguyên lí cộng tính:
(không độc lập và
không loại trừ)
=P(A)´P(B|A) = P(A) + P(B) – P(AÇB)
Trang 194 Công thức xác suất toàn phần và định lí Bayes
Nếu biến cố B phụ thuộc vào biến cố A – P(B) ≠ P(B|A) – thì xác suất của biến cố B phụthuộc vào xác suất của biến cố A Khi đó xác suất xảy ra B (Ac là biến cố đối lập của biến
cố A và được đọc là không A)
)
|()()
|()()(
)()
(B P A B P A C B P A P B A P A C P B A C
Công thức này được gọi là công thức xác suất toàn phần (law of total probability) Ápdụng công thức này trong trường hợp ung thư phụ thuộc vào hút thuốc lá chúng ta có: Xácsuất ung thư = Xác suất hút thuốc lá ´ xác suất ung thư khi hút thuốc lá + Xác suất khônghút thuốc lá ´ xác suất ung thư khi không hút thuốc lá
Tính xác suất A trên điều kiện B - P(A|B) và thay mẫu số với công thức xác suấttoàn phần ta được
)
|()()
|()(
)
|()()
(
)(
)
|
A B P A P A B P A P
A B P A P B
P
B A P B
5 Biến số ngẫu nhiên
Khi chúng ta tiến hành phép thử, chúng ta thường không quan tâm đến chi tiết của biến cố
mà chỉ quan tâm giá trị của một đại lượng nào đó được xác định bởi kết cục của phép thử.Thí dụ, khi chúng ta gieo 3 con xúc xắc, có thể chúng ta không quan tâm đến con xúc xắcnào ra mặt mấy mà chỉ quan tâm đến tổng số điểm của 3 con xúc xắc Hay khi chúng tamua vé số, chúng ta chỉ quan tâm đến số tiền mà chúng ta trúng được (hay số tiền bị mất)sau khi đã có kết quả xổ số
Đại lượng mà giá trị của nó được xác định bởi kết cục của phép thử ngẫu nhiên được gọi
là biến số ngẫu nhiên Biến số ngẫu nhiên thường được kí hiệu bằng chữ in hoa (như X,Y, ) Biến số ngẫu nhiên X của biến cố e được kí hiệu là X(e) Các thí dụ khác về biến sốngẫu nhiên gồm:
- Thí dụ: Một người đặt một con số gồm 2 chữ số Sau đó người ta tiến hànhquay số để có kết quả là một số 2 chữ số Như vậy phép thử sẽ có 100 kết cuộc
là con số 00,01,02,03, ,99 Nếu kết cuộc trùng với con số được đặt, người đặt
sẽ được 70 đồng Nếu kết cuộc không trùng với con số được đặt, người đặt sẽ
bị mất 1 đồng Như vậy có 99 kết cục tương ứng với giá trị -1 và 1 kết cụctương ứng với giá trị 70 -1 và 70 là các giá trị của biến số ngẫu nhiên X “sốtiền thu được” Ta có thể tính được P(X=-1)=0,99 và P(X=70)=0,01
- Theo dõi 100 người nghiện chích ma tuý chưa bị nhiễm HIV, số người bịnhiễm HIV sau 1 năm là biến số ngẫu nhiên
- Điều trị cho 15 ca bệnh SARS, số ca tử vong trong số 15 ca bệnh này là biến sốngẫu nhiên
- Một gia đình có 1 đứa con, số con trai trong gia đình này là biến số ngẫunhiên
- Đo chiều cao của một người, chiều cao người này là biến số ngẫu nhiên
6 Vọng trị
Nếu chúng ta không quan tâm đến chi tiết, chúng ta sẽ gán cho mỗi kết cục một giá trị củabiến số ngẫu nhiên và khi đó chúng ta sẽ gán cho phép thử một giá trị gọi là vọng trị Hãytrở lại với ví dụ về phép thử quay số (gồm 2 chữ số) được đưa ra trong phần biến số ngẫu
Trang 20biến số ngẫu nhiên “số tiền thu được” Giả sử một người chơi trò chơi này rất nhiều lần (Nlần) thì người số tiền người đó thu được sau N lần chơi:
số ngẫu nhiên X được kí hiệu là E(X)
E(X)=X(e1)P(e1) + X(e2)P(e2) +
Bài tập
Ðịnh luật nhân và cộng xác suất
1 Trong một nhóm gồm 502 người có phân phối nhóm máu và giới tính như sau:
1b Giới tính và nhóm máu có độc lập với nhau không? Chứng minh
2 Xác suất một bệnh nhân được chọn từ một bệnh viện là nam là 0,6 Xác suất một bệnhnhân nam và ở khoa ngoại là 0,2 Một bệnh nhân được chọn ngẫu nhiên từ bệnh viện vàngười ta biết rằng đó là bệnh nhân nam Tính xác suất bệnh nhân đó ở khoa ngoại
3 Trong dân số của một bệnh viện, xác suất một bệnh nhân được chọn ngẫu nhiên là cóbệnh tim là 0,35 Xác suất bệnh nhân bệnh tim là hút thuốc lá là 0,86 Tính xác suất mộtbệnh nhân được chọn ngẫu nhiên là người hút thuốc lá và mắc bệnh tim?
4 Một nhà nghiên cứu muốn ước tính tỉ lệ tiêm chủng ở trẻ em dưới 2 tuổi trong tỉnh Xbằng phương pháp lấy mẫu PPS (probability proportionate to size) gồm 2 bước
Bước 1: lên danh sách tất cả các xã trong tỉnh rồi chọn trong danh sách đó 30 xã
Bước 2: chọn ngẫu nhiên 7 đứa trẻ dưới 2 tuổi trong mỗi xã được chọn để điều tra về tìnhhình tiêm chủng của đứa trẻ đó
Giả sử trong tỉnh có xã A có 100 trẻ dưới 2 tuổi và xã B có 40 trẻ dưới 2 tuổi
a Nếu trong bước 1 đã chọn xã A, tính xác suất một đứa trẻ dưới 2 tuổi của xã A đượcchọn đưa vào nghiên cứu
b Nếu chúng ta không biết xã A có được chọn đưa vào nghiên cứu hay không, tính xácsuất một đứa trẻ dưới 2 tuổi của xă A được chọn đưa vào nghiên cứu
c Giả sử xác suất xã B được chọn đưa vào nghiên cứu là 0,1, tính xác suất một đứa trẻdưới 2 tuổi của xã B được chọn đưa vào nghiên cứu
Trang 21Với N là số các biến cố có thể và m số các biến cố thuận lợi.
Khi chọn ngẫu nhiên một người ta có thể có 502 kết cuộc khác nhau (Số biến cố cóthể N=502) Trong việc tính xác suất người có nhóm máu O, biến cố thuận lợi làbiến cố chọn được người có nhóm máu O Như vậy có 226 biến cố thuận lợi trongtrường hợp này
Xác suất người này có nhóm máu O là = 226/502=0,45Tương tự
Xác suất người này có nhóm máu A là = 206/502=0,41Xác suất người này có nhóm máu B là = 50/502=0,10Xác suất người này có nhóm máu O là = 20/502=0,041b Biến cố A độc lập với biến cố B khi (A|B)=P(A) hay chứng minh P(B|A)=P(B) Như vậy Nhóm máu và giới tính là độc lập với nhau bởi vì:
P(máu O | Nam)=113/251= 0,45 = P(máu O)P(máu A | Nam)=103/251= 0,41 = P(máu A)P(máu B | Nam)=25/251= 0,10 = P(máu B)P(máu AB | Nam)=10/251= 0,04 = P(máu AB)
2 Áp dụng công thức P(A|B)=P(A(B)/P(B); với A là biến cố bệnh nhân ởkhoa Ngoại và B là biến cố bệnh nhân là bệnh nhân nam ta có:
P(ngoại|nam)=P(ngoại(nam)/P(nam)= 0,2/0,6 = 0,33
3 Áp dụng công thức P(A(B) = P(A).P(B|A) = P(B).P(B|A) ta có
P(hút thuốc(bệnh tim)=P(bệnh tim) x P(hút thuốc|bệnh tim)
= 0,35 x 0,86 = 0,301
4 Ta kí hiệu đứa trẻ quan tâm là m
a Nếu trong bước 1 đã chọn xã A, xác suất một đứa trẻ m dưới 2 tuổi của xã Ađược chọn đưa vào nghiên cứu = P(chọn m| chọn A) = 7/100 = 0,07
b Nếu chúng ta không biết xã A có được chọn đưa vào nghiên cứu hay không, xácsuất một đứa trẻ m dưới 2 tuổi của xã A được chọn đưa vào nghiên cứu = P(chọn
m và chọn A) = P(chọn A) ´ P (chọn m| chọn A) = 0,07 ´ P(chọn A)
c Xác suất một đứa trẻ m dưới 2 tuổi của xã B được chọn đưa vào nghiên cứu =P(chọn m và chọn B) = P(chọn B) ´ P (chọn m| chọn B) = 0,1 ´ 7 / 40 = 0,0175
Trang 22ỨNG DỤNG XÁC SUẤT TRONG RA QUYẾT ÐỊNH CHẨN ÐOÁN VÀ ÐIỀU TRỊ Mục tiêu
Sau khi nghiên cứu chủ đề học viên có khả năng:
1 Phân biệt được tính đúng và tính tin cậy của thủ thuật chẩn đoán
2 Trình bày 4 đo lường phản ánh tính đúng của một thủ thuật chẩn đoán định tính: tínhnhạy cảm, tính chuyên biệt, giá trị tiên đoán dương, giá trị tiên đoán âm
3 Khi được cung cấp 2 đo lường tính giá trị của thủ thuật chẩn đoán và tỉ lệ hiện mắctrong dân số, xác định được các đo lường thể hiện tính giá trị còn lại
4 Dựa trên mô tả các tình huống của một bệnh, xây dựng cây quyết định của bệnh đó
5 Dựa trên cây quyết định có xác suất của các nhánh cơ hội và kì vọng ở nhánh tận, chọnlựa được điều trị tối ưu
1 Mở đầu
Một số vấn đề của y khoa, như đánh giá mức độ chính xác của một thủ thuật chẩn đoán, lígiải kết quả âm tính hay dương tính của kết quả xét nghiệm trên một bệnh nhân chuyênbiệt, mô hình hoá tình huống của một bệnh nhân hay chọn lựa phương pháp điều trị thíchhợp, có thể được phân tích bằng cách sử dụng lí thuyết xác suất
Việc ứng dụng lí thuyết xác suất trong phân tích y khoa (còn gọi là ra quyết định trong ykhoa) hiện nay đang được sử dụng rộng rãi và có chiều hướng phát triển Một tổng quancho thấy có tới 7% bài báo về ngoại khoa hay y khoa gia đình sử dụng những phươngpháp này và người ta càng ngày càng sử dụng nhiều trong việc đánh giá các kĩ thuật chẩnđoán mới, chọn lựa kĩ thuật chẩn đoán có tính hiệu quả trên chi phí hay chọn lựa các giảipháp điều trị có hiệu quả trên chi phí cho bẹnh nhân Những bác sĩ lâm sàng cũng cầnphải hiểu những nguyên lí cơ bản của nội dung này để có thể chăm sóc cho bệnh nhân củamình tốt hơn hay ứng dụng những kiến thức thu lượm được trên các tạp chí chuyên ngànhvào thực hành y khoa
2 Ðo lường tính đúng (accuracy) của một thủ thuật chẩn đoán
Một phép đo lường được gọi là đúng nếu nó phản ánh chân thật giá trị nó muốn đo lường.Thí dụ: Một đối tượng có cân nặng thực sự là 60 kg Ðiều tra viên A cân đối tượng đó vàghi nhận kết quả là 60 kg Ðiều tra viên B cân đối tượng đó và ghi nhận kết quả là 50 kg
Ta nói phép cân do điều tra viên A thực hiện là đúng và phép cân do điều tra viên B thựchiện là không đúng
Thí dụ: Một đối tượng không bị nhiễm HIV Nếu một xét nghiệm HIV trên đối tượng đó
ra kết quả dương tính thì xét nghiệm đó là không đúng
Một thủ thuật chẩn đoán được đánh giá tính đúng qua hai khía cạnh: Tính đúng của nó ởtrên các đối tượng bị bệnh (được gọi là độ nhạy cảm) và tính đúng của nó ở trên các đốitượng không bị bệnh (được gọi là độ chuyên biệt)
Như vậy độ nhạy cảm là tỉ lệ dương tính trên những người bệnh (hay còn là xác suất kếtquả xét nghiệm dương tính ở người bị bệnh)
Như vậy độ chuyên biệt là tỉ lệ âm tính trên những người không bệnh (hay còn là xác suấtkết quả xét nghiệm âm tính ở người không bệnh)
Nếu chúng ta kí hiệu
T+ : kết quả xét nghiệm dương
T- : kết quả xét nghiệm âm
D+: người bị bệnh
D -: người không bị bệnh
Thì độ nhạy cảm = P(T+ | D+)
Trang 23và độ chuyên biệt = P(T-|D-)
3 Ra quyết định y khoa
Trước khi một xét nghiệm đưa vào sử dụng, nhà sản xuất cùng với các khoa học gia phảixác định tính đúng của xét nghiệm đó và công bố độ nhạy cảm và độ chuyên biệt của xétnghiệm Tuy nhiên đối với một bác sĩ lâm sàng, những xác suất này không thực sự cónhiều ý nghĩa mà họ muốn biết
a Nếu một bệnh nhân của họ nếu kết quả xét nghiệm là dương tính thì xác suất người nàymắc bệnh là bao nhiêu Xác suất này được kí hiệu là P(D+|T+) và còn được gọi là giá trịtiên đoán dương
b Nếu một bệnh nhân của họ nếu kết quả xét nghiệm là âm tính thì xác suất người nàythực sự không mắc bệnh là bao nhiêu Xác suất này được kí hiệu là P(D-|T-) và còn đượcgọi là giá trị tiên đoán âm
Một tình huống cụ thể mà trong đó người bác sĩ lâm sàng phải xác định giá trị tiên đoándương có thể được minh hoạ trong thí dụ sau:
Một test elisa để chẩn đoán HIV được biết có độ nhạy cảm: P(T+| D+) = 99% và độchuyên biệt: P(T-| D-) = 90% Một phòng khám thai sử dụng test này để sàng lọc cho cácphụ nữ đến khám tiền sản Một phụ nữ được xét nghiệm với test Elisa này và có kết quảdương tính Tính xác suất người phụ nữ thực sự bị nhiễm HIV (giả sử chúng ta biết rằng tỉ
lệ hiện nhiễm HIV ở phụ nữ mang thai là là 1%)
Ðể tính được giá trị tiên đoán dương và giá trị tiên đoán âm, chúng ta cần phải sử dụngmột vài thao tác tính toán Có hai cách: phương pháp dựa theo tỉ lệ và phương pháp dựatheo xác suất
Phương pháp dựa theo tỉ lệ
Chúng ta trở lại thí dụ trên và giả sử có tất cả 10.000 phụ nữ đến khám thai và được xétnghiệm với test Elisa này Do tỉ lệ hiện nhiễm HIV là 1% chúng ta sẽ có 100 phụ nữ thực
sự bị nhiễm HIV trong 10.000 phụ nữ này Lập bảng 2 x 2 theo kết quả xét nghiệm và tìnhtrạng nhiễm bệnh như sau:
Bảng 2 Bảng 2 x 2 theo kết quả xét nghiệm và tình trạng nhiễm HIV trên 10.000 phụ nữ khám tiền sản (với tỉ lệ hiện nhiễm là 1%)
Trang 24Bảng 4 Bảng 2 x 2 theo kết quả xét nghiệm và tình trạng nhiễm HIV trên 10.000 phụ nữ khám tiền sản (với tỉ lệ hiện nhiễm là 1%).
Như vậy giá trị tiên đoán dương = P (D+|T+) = 99/1089 = 0,09 = 9%
Như vậy, trong thí dụ trên, một người phụ nữ mang thai nếu kết quả xét nghiệm là dươngtính thì xác suất người này bị nhiễm HIV thực sự chỉ thấp có 9%
Từ thí dụ này chúng ta có thể rút ra một số kết luận:
a Mặc dù test có thể có tính đúng khá cao (độ nhạy cảm là 99% và độ chuyên biệt là 90%)nhưng nếu thực hiện trên dân số có tỉ lệ hiện nhiễm thấp thì giá trị tiên đoán dương củatest cũng thấp
b Trong dân số có tỉ lệ hiện nhiễm thấp, một kết quả xét nghiệm là chưa đủ bởi vì nó cógiá trị tiên đoán dương thấp Muốn chẩn đoán cần phải làm lại một xét nghiệm thuộcnhóm cơ chế khác
Phương pháp dựa theo công thức xác suất toàn phần
Công thức xác suất toàn phần được trình bày ở công thức (1-9) có thể trình bày theo côngthức sau:
P(A)=P(A và B) + P(A và không B)
Áp dụng vào các thủ thuật chẩn đoán ta có:
P(T+)=P(T+ và D+) + P(T+ và D-)
Hay để dễ nhớ, chúng ta có thể phát biểu công thức toàn phần dưới dạng sau: một người
có kết quả xét nghiệm dương có thể người đó có xét nghiệm dương và có bệnh hay có xétnghiệm dương mà không bệnh
Áp dụng công thức xác suất toàn phần ta được
Giá trị tiên đoán dương = P(D+|T+)
)1
()Pr1(Pr
Pr)]
|(1[)]
(1[)
|(
)
(
)
|()(
)
|()()
|(
)
(
)
|()(
) () (
) ()
(
) ()
|
(
spec ev
sens ev
sens ev D
T P D
P D
T P
D
P
D T P D P
D T P D P D T P
D
P
D T P D P
T D P T D P
T D P T
P
T D P T
và Spec: độ chuyên biệt
Áp dụng công thức trên chúng ta cũng tính được giá trị tiên đoán dương là 9%
Ngoài ra chúng ta có thể xác tính số chênh hậu nghiệm bằng số chênh tiền nghiệm nhânvới độ nhạy cảm và chia cho 1 trừ độ chuyên biệt
Trang 25)
|
(
)(
)()
|(
)
|()(
)(
)
|()(
)(
)(
Ç
sens T
D
Odds
D P
D P D T P
D T P D
T P
T D P T
D P T P
T D P T
T D P T
D
4 Mô hình cây quyết định
Việc ra quyết định y khoa nhằm giúp đánh giá một cá nhân có mắc một bệnh nào đó haykhông Nhưng đối với một bác sĩ lâm sàng, điều này là chưa đủ, mà cần phải ra xác địnhđược phương pháp điều trị nào là tối ưu cho bệnh nhân này Thí dụ, một bệnh nhân đượcchẩn đoán là có sỏi túi mật và người bác sĩ có phải quyết định sẽ xử trí bệnh nhân này nhưthế nào: phẫu thuật cắt bỏ túi mật hay điều trị bảo tồn
Ðể chọn lựa được quyết định đúng đắn, chúng ta cần phải mô hình hoá các tình huốngđiều trị của bệnh nhân bằng kĩ thuật được gọi là cây quyết định (decision tree) Việc xâydựng bao gồm 5 bước sau:
Bước 1: Vẽ các nhánh
Cây quyết định bao gồm có nhiều nhánh thể hiện các tình huống có thể xảy ra ở bệnhnhân, và mỗi tình huống lại có thể diễn tiến theo các tình huống khác nhau nữa (được kíhiệu bằng các nhánh con) Thí dụ bệnh nhân bị sỏi túi mật có thể có hai tình huống: phẫuthuật túi mật hay điều trị bảo tồn (2 nhánh chính), việc điều trị bảo tồn lại có thể diễn tiếntheo các tình huống: ổn định không triệu chứng, bị đau quặn mật, biến chứng nhiễm trùng,
bị ung thư túi mật Chúng ta có thể mô hình hoá các tình huống theo cây như sau (Hình 1)
Trang 26Hình 1 Cây quyết định mô hình hoá các tình huống cho bệnh nhân bị sỏi túi mật không triệu chứng
Bước 3: Ghi nhận xác suất xảy ra các nhánh cơ hội
Trên mỗi nhánh từ nút cơ hội, chúng ta ghi nhận xác suất xảy ra tình huống đó Thí dụ nếuđiều trị bảo tồn và chờ đợi thì xác suất không có triệu chứng = P(không triệu chứng) =0,815, P (đau quặn mật) = 0,150, P (nhiễm trùng) = 0,030, P(ung thư) = 0,005
Bước 4: Gán biến số ngẫu nhiên cho các nhánh tận
Ở các nhánh tận (nhánh không chia ra nhánh nào khác) chúng ta gán cho các nhánh nàycác giá trị của biến số ngẫu nhiên Trong thí dụ trên nếu chúng ta quan tâm đến tử vong thìchúng ta gán biến số ngẫu nhiên X là xác suất tử vong của các tình huống này
Bước 5: Xác định vọng trị của các nhánh quyết định
Sau đó chúng ta hãy xác định vọng trị cho các nút chọn xuất phát từ nút quyết định theocông thức sau:
E(X)=X(e1)P(e1) + X(e2)P(e2) +
5 Chọn lựa điều trị thích hợp
Sau khi chúng ta đã mô hình hóa các tình huống của bệnh nhân, chúng ta có thể chọn lựađiều trị thích hợp bằng cách so sánh xác suất xảy ra biến cố quan tâm Chúng ta có thểthực hiện theo hai phương pháp:
P(tử vong | không triệu chứng) ´ P(không triệu chứng) +
P (tử vong | đau quặn mật ) ´ P(đau quặn mật) + X(tử vong | nhiễm trùng) ´ P(nhiễm trùng) +
X (tử vong | ung thư) ´ P(ung thư)
Trang 27Do vọng trị của biến X (tử vong) khi điều trị bảo tồn là 0,0095 cao hơn vọng trị của biến Xkhi phẫu thuật là 0,0040 nên chúng ta quyết định sẽ phẫu thuật cho bệnh nhân bị sỏi túimật.
Lập luận như trên giúp chúng ta hiểu rõ bản chất của lời giải Tuy nhiên khi cây quyếtđịnh quá phức tạp thì việc tính toán cần phải được hệ thống hoá để trở thành thuật toán.Khi đó, việc tính toán trở thành tự động và ít bị sai sót
Sử dụng thuật toán
Để phân tích cây quyết định, người ta áp dụng quy tắc sau:
1 Gán tận cùng mỗi nhánh giá trị của nhánh đó (giá trị biến số ngẫu nhiên mà chúng taquan tâm)
2 Ði ngược từ nhánh tận cùng lên trên, chúng ta ghi nhận vọng trị của nút cơ hội bằngtổng các tích số xác suất và vọng trị của nhánh xuất phát từ nút đó Vọng trị của nút cơ hộicũng chính là vọng trị của nhánh đưa đến nút cơ hội đó
3.Tiếp tục cho đến khi gập nút quyết định
4 So sánh kì vọng của các nhánh xuất phát từ nút chọn để ra quyết định
Áp dụng vào thí dụ trên ta có các bước:
1 Ở nhánh tận cùng ghi nhận các vọng trị: nhánh không triệu chứng, vọng trị tử vong là0,000, nhánh đau quặn mật, vọng trị tử vong là 0,004, nhánh nhiễm trùng của tử vong là0,130, nhánh ung thư có vọng trị tử vong là 1,000
2 Ở nhánh chờ, vọng trị tử vong của nhánh = vọng trị của nút chờ
= 0,000 ´ 0,815 + 0,004 ´ 0,150 + 0,130 ´ 0,030 + 1,000 ´ 0,005
= 0,0000 + 0,0006 + 0,0039 + 0,0050 = 0,0095
4 So sánh vọng trị của các nhánh xuất phát từ nút chọn để ra quyết định Xuất phát từ nútquyết định gồm nhánh phẫu thuật với vọng trị tử vong là 0,004 và nhánh chờ với vọng trị
tử vong là 0,0095 Do đó chúng ta quyết định phẫu thuật
Ở trường hợp trên, chúng ta dùng xác suất tử vong làm biến số ngẫu nhiên quan tâm.Chúng ta cũng có thể sử dụng ích lợi (utility) của các nhánh tận cùng làm biến ngẫu nhiênquan tâm Khi đó các bước lập luận cũng tương tự ngoại trừ nếu chúng ta chúng ta quantâm đến lợi ích thì nhánh quyết định được chọn sẽ là nhánh có ích lợi cao nhất
Không cường tuyếnphó giáp
là bị bệnh D; còn trong số những người T(-) có 90% không có bệnh này
a Khả năng người này xét nghiệm trả về là T+ là bao nhiêu?
Trang 28b Tính độ nhạy và độ chuyên của xét nghiệm T.
3 Một bệnh nhân nữ 45 tuổi được phát hiện phình mạch một cách tình cờ Người này cĩhai lựa chọn: hoặc là phẫu thuật với các khả năng là tử vong, tàn tật hay thành cơng hoặckhơng phẫu thuật với các khả năng bị vỡ phình mạch hoặc khơng bị vỡ phình mạch Câyquyết định cho bệnh nhân này được trình bày trong hình sau (giá trị ghi ở nhánh tận cùng
là giá trị lợi ích của tình huống.):
P(Không vỡ)=0,71
P(Vỡ phình)=0,29
Tử vong: 0,55 Tàn tật: 0,15 Thành công: 0,30
U=60,2 U=90,1 U=100
U=0 U=75 U=100 U=100
Hãy lựa chọn giải pháp điều trị phụ hợp cho bệnh nhân này
Bài giải
1 Ðộ nhạy cảm = P(T+|D+) = 12/20 = 60%
Ðộ chuyên biệt = P(T-|D-) = 57/60 = 95%
Giá trị tiên đốn + = P(D+|T+) = 12/15 = 80%
Giá trị tiên đốn - = P(D-|T-) = 57/65 = 88%
2.a Khả năng người này xét nghiệm trả về là T+ là bao nhiêu?
P(T+ và D+) = P(T+) x P(D+|T+) = 0,8 x P(T+)
P(T- và D+) = P(T-) x P(D+|T-) = [1-P(T+)] x [1-P(D-|T-) ] = [1-P(T+)] x 0,1 =0,1 - 0,1 x P(T+)
P(D+)= P(T+ và D+) + P(T- và D+) = 0,8 x P(T+) + 0,1 - 0,1 x P(T+) = 0,7 xP(T+) + 0,1 = 0,3
P(T+)= 2/7
2.b Tính độ nhạy và độ chuyên của xét nghiệm T
Tính độ nhạy của xét nghiệm T
3 Việc phân tích cây vấn đề để lựa chọn quyết định điều trị thích hợp bao gồm:
1 Ở nhánh tận cùng vọng trị của nhánh là lợi ích của nhánh
2 Ði ngược từ nhánh tận cùng lên trên, chúng ta ghi nhận vọng trị của nhánh bằngtổng các tích số xác suất và vọng trị của các nhánh con của nĩ (vọng trị của nhánh
= ( xác suất của nhánh con x vọng trị của nhánh con)
Ta được:
Trang 29P(Không vỡ)=0,71
P(Vỡ phình)=0,29
Tử vong: 0,55 Tàn tật: 0,15 Thành công: 0,30
U=60,2 U=90,1 U=100
U=0 U=75 U=100
U=100
76,6 93,3
96,5
3.Tiếp tục cho đến khi gập nút chọn
4 So sánh vọng trị của các nhánh xuất phát từ nút chọn để ra quyết định
Như vậy chúng ta sẽ quyết định phải phẫu thuật phịng ngừa với vọng trị lợi ích là96,5 tốt hơn vọng trị lợi ích của khơng phẫu thuật là 93,3
Trang 30PHÂN PHỐI XÁC SUẤT Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng:
- Phân biệt được 3 phân phối xác suất phổ biến: phân phối nhị thức, phân phối Poisson vàphân phối bình thường
- Tính xác suất của phân phối nhị thức và phân phối poisson khi được cung cấp các thamsố
- Xác định được phân phối xác suất của phân phối chuẩn ở một giá trị bất kì, được phép
sử dụng bảng số của phân phối chuẩn
- Tính tỉ lệ của dân số có một đặc trưng nhất định về một đại lượng có phân phối bìnhthường khi được cung cấp các tham số và bảng số của phân phối chuẩn
1 Phân phối xác suất
Như đã trình bày,nếu chúng ta chỉ quan tâm đến giá trị đại lượng được xác định bởi kếtcục của phép thử,chúng ta mô tả biến cố là biến số ngẫu nhiên Thí dụ nếu chúng ta tung 3đồng tiền mà chỉ quan tâm đến số đồng tiên ra mặt ngửa thì chúng ta tạo ra biến số ngẫunhiên X là số đồng tiền ngửa Khi đó chúng ta có thể kí hiệu (X=1) để chỉ biến cố gồm cáckết cuộc có số đồng tiền ngửa là 1 (gồm 3 biến cố Sấp -Sấp - Ngửa; Sấp - Ngửa - Sấp;Ngửa - Sấp - Sấp) Xác suất của biến cố này được được gọi là phân phối xác suất của X
Áp dụng vào thí dụ trên chúng ta có phân phối xác suất của X như sau:
xi Số biến cố thuận lợi f(xi)=P(X=xi) F(xi)=P(X £ x)
Hai đặc tính cơ bản của phân phối xác suất của biến số rời rạc:
(1) 0 £ P(X=x) £ 1
(2) S P(X=x) = 1
Có hai phân phối xác suất rời rạc được sử dụng rộng rãi nhất là phân phối nhị thức và phânphối Poision Chúng ta sẽ thảo luận về hai phân phối này và phân phối bình thường trongcác phần sau
2 Phân phối nhị thức
Bài toán: Giả sử chúng ta thực hiện n phép thử đồng nhất và độc lập với nhau, mỗi phépthử có 2 kết cuộc là thành công hay thất bại với xác suất thành công trong mỗi lần thử là p.Hãy tính xác suất có x lần thành công
Khi thực hiện n lần thử chúng ta sẽ có 2n kết cục Trong đó số kết cục có x lần thành công
là = px(1-p)n-x và số kết cục có x lần thành công là nCr
Vì vậy, xác suất có x lần thành công sau n lần thử là
) (
)1()
x
x X
Trang 31Do xác suất này phụ thuộc vào x nên nó là hàm số của x và được gọi là hàm khối xác suấtnhị thức (binomial probability mass function)
) (
)1()
()
x
x X P x
có thể lập luận như sau:
- Ðể trong 5 lần sinh có 3 lần sinh con trai, có 5C3 = 5!/[3!x2!] = 10 cách khác nhau (đó làTGTTG, TTTGG, TGGTT, TTGTG, TTGGT, TGTGT, GTTTG, GGTTT, GTGTT,GTTGT) Xác suất xảy ra của một cách như vậy = 0,523(1-0,52)2= 0,2304 x 0,1406 =0,032 Như vậy xác suất trong 5 lần sinh có 3 lần sinh là con trai là 10 x 0,032 = 0,32
- Chúng ta cũng có thể xem 5 lần sinh là thử nghiệm nhị thức gồm 5 lần thử đồng nhất vàmỗi lần thử có hai kết cuộc (sinh con trai và sinh con gái ) và xác suất sinh con trai là 0,52không thay đổi trong các lần thử Áp dụng hàm mật độ xác suất nhị thức ta được
32,048
,052,0)
3()
3 Phân phối Poisson
Bài toán: Giả sử trong một đơn vị thời gian trung bình có l lần xuất hiện kết cục quan tâm
Hãy tính xác suất trong một đơn vị thời gian có x lần xuất hiện kết cục này.
Giả định một đơn vị thời gian được chia thành N phân tử thời gian với N là một số vôcùng lớn Khi đó xác suất xảy ra kết cục quan tâm trong một phân tử thời gian là l/N Khi
đó bài toán có thể được đặt dưới dạng: Thực hiện thử nghiệm nhị thức với N lần thử đồngnhất và xác suất xảy kết cuộc quan tâm trong mỗi lần thử là l/N Áp dụng công thức hàmmật độ xác suất nhị thức ta được
)1()
1()
(
)
(
) (
) ( )
(
x
e N
N
x
N
N N
x
x N N
N p
p C x X
P
x
f
x N
x
x
x
x N x
x N x
x N
l l
ll
ll
(
x
e x
Hãy tính xác suất trong t đơn vị thời gian có x lần xuất hiện kết cục này.
Giả định một đơn vị thời gian được chia thành N phân tử thời gian với N là một số vôcùng lớn Như vậy trong t đơn vị thời gian có Nt phân tử thời gian Xác suất xảy ra kết cụcquan tâm trong một phân tử thời gian là l/N Khi đó bài toán có thể được phát biểu dướidạng: Thực hiện thử nghiệm nhị thức với Nt lần thử đồng nhất và xác suất xảy kết cuộc
Trang 32quan tâm trong mỗi lần thử là l/N Áp dụng công thức hàm mật độ xác suất nhị thức tađược
!
)(1
)1()
1()
()
(
) ( )
(
) ( )
(
x
e t N
x
t N
N x
t
N
N N
x
x Nt Nt
Nt p
p C x X P x
f
t x Nt
x x Nt
x
x x x
x Nt x
x Nt x
x Nt
l l
l l
ll
ll
x
e t x
a Vào ngày 12 tháng 8 năm 2003, có đúng 2 trường hợp cấp cứu
b Vào ngày 12 tháng 8 năm 2003, có 1 trường hợp cấp cứu nào
c Trong một tuần có 7 trường hợp cấp cứu
4 Phân phối xác suất của biến liên tục
Giả sử ta muốn tìm phân phối xác suất của biến liên tục (thí dụ như trọng lượng của trẻ sơsinh), ta có thể phân loại trọng lượng sơ sinh thành nhiều nhóm nhỏ (thí dụ như từ 2,0kgđến < 2,1 kg, từ 2,1kg đến < 2,2 kg, v.v) Khi đó biến liên tục sẽ trở thành biến số rời rạc
và ta có thể dùng phương pháp phân phối xác suất của biến rời rạc cho loại biến số này
Nếu chúng ta lại chia thành những nhóm nhỏ hơn, phân phối sẽ tinh vi hơn và:
- Ða giác tần suất sẽ trở thành đường cong trơn và được gọi là hàm mật độ (densityfunction) của phân phối với kí hiệu là f(x)
- Phần diện tích ở dưới đường cong, được bao quanh bởi trục x và hai đường thẳng vuônggóc đi qua a và b sẽ là P (a < X ≤ b)
- Phần diện tích ở dưới đường cong nằm ở bên trái của đường thẳng vuông góc đi qua x làxác suất biến số ngẫu nhiên nhỏ hơn hay bằng x, kí hiệu là P(X£x) hay F(x) được gọi hàmphân phối (distribution function) của biến ngẫu nhiên X
5 Phân phối bình thường
Phân phối bình thường là phân phối xác suất liên tục phổ biến nhất Hình 2 là đồ thị củaphân phối xác suất bình thường với trung bình là 0 và độ lệch chuẩn là 1
Trang 33Hình 1 Phân phối xác suất bình thường
- Phân phối bình thường là phân phối có hàm mật độ:
X ~ N(,2)
Phân phối bình thường có 4 đặc tính quan trọng sau:
- Mật độ cao nhất tập trung ở quanh giá trị , càng xa giá trị hàm mật độ càng giảm
- Hàm mật độ tiến tới zero ở các giá trị cách xa
- Hàm mật độ đối xứng qua đường thẳng đứng đi qua
- Ngoài ra từ hàm mật độ của phân phối bình thường người ta chứng minh được nếu biến
số có phân phối bình thường với trung bình là và độ lệch chuẩn , xác suất giá trị biến
số nằm từ trung bình – 1,96 độ lệch chuẩn đến trung bình + 1,96 độ lệch chuẩn là 95%
X~N(,2) => P( - 1,96 <X < + 1,96) = 0,95
Hay nói khác đi, chỉ có 5% giá trị của biến số X nằm ngoài khoảng ± 1,96
Phân phối bình thường chuẩn hay còn gọi là phân phối chuẩn là phân phối bình thường cótrung bình là zero và độ lệch chuẩn =1
2 / 2
2
1)
Lưu ý: trong phân phối chuẩn, trục x được gọi là trục z Phân phối bình thường có thểbiến thành phân phối chuẩn nếu ta tạo biến ngẫu nhiêu mới z = (x-)/
Thí dụ: Cho một phân phối bình thường, tính P(Z £ 2,71)
Thí dụ: Cho một phân phối chuẩn, tìm diện tích nằm dưới đường cong, trên trục Z, nằmgiữa z=-1 và z=2
Thí dụ: tính xác suất Z được chọn bất kì trong dân số có phân phối bình thường có giá trị
từ -2,55 đến +2,55
6 Ứng dụng phân phối bình thường
Mặc dù trong thực tế, không có một phân phối nào là phân phối bình thường một cáchchính xác, có nhiều phân phối có thể được coi là xấp xỉ bình thường Khi đó, nếu dùng mô
Trang 34nhiều so với việc sử dụng những phương pháp phức tạp khác Những phân phối được coi
là xấp xỉ bình thường là trọng lượng trẻ sơ sinh, chiều cao người trưởng thành, thương sốthông minh
Hình 3 Phân phối của phần trăm so với trọng lượng chuẩn của 1750 trẻ em học sinh nhà trẻ Hoa Hướng Dương 15, Q11, Thành phố Hồ Chí Minh (trung bình=92, độ lệch chuẩn =10)
a Ước lượng tỉ lệ dân số có một thuộc tính nhất định
Thí dụ:Thương số thông minh trong một dân số có trung bình =100 và độ lệch chuẩn 15.Chọn ngẫu nhiên một người trong dân số này, tính xác suất người này có thương số thôngminh nhỏ hơn 120
P(IQ<120) = P(Z<(120-100)/15) = P(Z<1,33) =0,9082
Thí dụ: Giả sử trọng lượng của đàn ông ở thành phố Hồ chí Minh có phân phối chuẩn và
có trung bình là 56 kg và độ lệch chuẩn 10 kg Tính xác suất một người đàn ông đượcchọn ngẫu nhiên có trọng lượng ở giữa 40 kg và 68 kg
P(TL > 80) = P(Z> (80-56)/10) = P(Z>2,4) = 1- P(Z<2,4) = 1-0,9918 = 0,0082
Vì vậy số đàn ông nặng hơn 80 kg = 1.000.000 x 0,00820 = 8200 người
b Chẩn đoán cho cá nhân
Thí dụ: Theo tổ chức y tế thế giới, đứa trẻ 32 tháng bình thường có trọng lượng trung bình
là 14 kg với độ lệch chuẩn là 1,5 kg Một đứa trẻ 32 tháng nặng 13 kg có phải là bất bìnhthường về dinh dưỡng hay không?
Ðể trả lời câu hỏi này chúng ta phải xét hiện tượng đứa trẻ 32 tháng nặng 13 kg có phổbiến hay không
Trang 35P(TL <13) = P(Z < - 0,66) = 1 – P(Z>0,66) = 1 – 0,7454 = 0,2546
Vì có đến 25,46% trẻ 32 tháng có trọng lượng 13 kg hay nhẹ hơn nên cân nặng này khôngphải là bất thường
Ðứa trẻ 32 tháng nặng 9 kg có phải là bất thường về dinh dưỡng hay không?
Tương tự như câu hỏi trước đó, chúng ta phải xét hiện tượng đứa trẻ 32 tháng nặng 9 kg
có phổ biến hay không
Thí dụ: nếu đường huyết có phân phối bình thường với trung bình là 100 mg% và độ lệchchuẩn là 10 mg% Hỏi khoảng giá trị bình thường của đường huyết là bao nhiêu?
Khoảng giá trị bình thường của đường huyết tương ứng với - 1,96 < Z < 1,96 hay
100 - 1,96 ´ 10 < đường huyết < 100 + 1,96 ´ 10 hay từ 80-120 mg%
Bài tập
Bài tập phân phối nhị thức
1 Giả sử bệnh nhân bị viêm màng não có tỉ lệ tử vong là 10% Trong khoa lây của bệnhviện, hiện có 10 bệnh nhân bị viêm màng não Tính xác suất:
số lần thành công ta có
) (
)1()
()
x
x X P x
Và P(X=9) = 10C9 p9(1-p)(10-9) = 0,99 = 0,3874
Nên xác suất có ít nhất 2 người bị chết bằng: 1 - 0,3486 - 0,3874 = 0,264
Trang 36P(X=7) = 10C7 p7(1-p)(10-7) = 120 0,97 0,13 = 0,0574.
Bài tập phân phối Poisson
Biết rằng số chuột trung bình trong mỗi hộ gia đình ở Cần thơ là 1,4 con Nếu số chuộttuân theo phân phối Poisson, tính xác suất ở một gia đình nhất định có:
a Không có con chuột nào?
f
x l
l
với l = 1,4 và x = 0 ta được P(X=0) = 0,247 x 1,40 / 0! = 0,247
Phân phối bình thường
1 Hãy liệt kê 10 biến số ngẫu nhiên mà anh chị nghĩa rằng nó là phân phối xấp xỉ bìnhthường
2 Nếu hàm lượng cholesterol huyết thanh là phân phối xấp xỉ bình thường với trung bình
là 200mg/100 ml và độ lệch chuẩn là 20 mg/100ml Tính xác suất một cá nhân được chọnngẫu nhiên có giá trị cholesterol (a) từ 180 đến 200 mg/100ml (b) lớn hơn 225 mg/100 ml(c) nhỏ hơn 150 mg/100ml (d) giữa 190 và 210 mg/100 ml
Bài giải
1 Những biến số có phân phối xấp xỉ bình thường là : chiều cao của đàn ôngtrưởng thành, trọng lượng trẻ sơ sinh, hemoglobin máu, Hct, đường huyết, chu vivòng cánh tay, nhịp tim, tuổi dậy thì của phụ nữ, cholesterol huyết thanh, tỉ trọngnước tiểu
2.a P(180 < cholesterol £ 200) = P{(180-200)/20 < Z £ (200-200)/20}
= P(-1 < Z £ 0) = P(0 < Z £ 1) = P(Z £ 1) - P(Z £ 0) = 0,8413 - 0,5
= 0,34132.b P(cholesterol > 225) = 1-P(cholesterol £ 225) = 1- P{Z £ (225-200)/20}
= 1 - P(Z £ 1,25) = 1 - 0,8944 = 0,10562.c P(cholesterol £ 150) = P{Z £ (150-200)/20} = P{Z £ -2,5}= P{Z >2,5}=
1-P{Z £ 2,5}=1-0,9938=0,00622.d P(190 < cholesterol £ 210) = P{(190-200)/20 < Z £ (210-200)/20}
= P(-0,5 < Z £ 0,5) = P(Z £ 0,5) - P(Z £ -0,5) = P(Z £ 0,5) - P(Z >0,5)=P(Z £ 0,5) - 1 + P(Z £ 0,5)=2 x 0,6915 - 1 = 0,3830
Trang 37THỐNG KÊ, BIẾN SỐ VÀ PHÂN PHỐI Mục tiêu
Sau khi nghiên cứu chủ đề, học viên có khả năng:
- Trình bày định nghĩa của thống kê, số liệu, thông tin và biến số
- Phân biệt được các loại biến số: định lượng và định tính trong có có biến số nhị giá, danhđịnh hay thứ tự
- Xây dựng được bảng phân phối tần suất cho số liệu định tính và định lượng
- Lựa chọn được các loại biểu đồ hay đồ thị thích hợp để trình bày số liệu định tính vàđịnh lượng
- Tính được các số thống kê tóm tắt như trung bình, trung vị, yếu vị, độ lệch chuẩn,phương sai
1 Một số định nghĩa
Thống kê là phương pháp khoa học dùng đề thu thập, tóm tắt, trình bày và phân tích sốliệu Phương pháp thống kê được sử dụng trong nghiên cứu nhằm để so sánh một nhómđối tượng chứ không nhằm nghiên cứu từng cá nhân đơn lẻ
Số liệu: Kết quả có được do việc quan sát hay thu thập đặc tính hay đại lượng ở các đốitượng khác nhau hay ở thời gian khác nhau
Thí dụ: Quan sát giới tính của các học viên trong lớp, số liệu ghi nhận được là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau:
và những con số này được gọi là số liệu
Cần lưu ý số liệu phải liên kết với một đặc tính hay đại lượng nhất định Ghi nhận giớitính ở người này, tuổi của người khác, quần áo của một người khác nữa thì kết quả nàyđược không phải là số liệu
Sử dụng phương pháp thống kê chúng ta có thể tóm tắt số liệu trên sử dụng nồng độhemoglobin trung bình=11,98 và độ lệch chuẩn bằng 1.42 Số liệu được tóm tắt, trình bàyhay phân tích bằng phương pháp thống kê sẽ trở thành thông tin
2 Biến số và các loại biến số
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang ngườikhác hay từ thời điểm này sang thời điểm khác
Như vậy biến số có thể thể hiện đại lượng hay đặc tính Nếu nó thể hiện một đại lượng nóđược gọi là biến số định lượng Nếu nó nhằm thể hiện một đặc tính no được gọi là biến sốđịnh tính
Trang 38Biến số định tính
Biến số định tính còn được chia làm 3 loại: biến số thứ tự, biến số danh định và biến sốnhị giá
Biến số thứ tự là biến số định tính với các giá trị có thể sắp xếp thứ tự được
Thí dụ: tình trạng kinh tế xã hội (giàu, khá, trung bình, nghèo, rất nghèo) là biến số thứ tựbởi vì người giàu có điều kiện kinh tế tốt hơn người khá, người khá hơn người trung bình,trung bình hơn nghèo, v.v
Những thí dụ khác là học lực của học sinh (giỏi, khá, trung bình, kém), tiên lượng (tốt,khá, xấu, tử vong)
Theo phân loại tăng huyết áp của Tổ chức Y tế Thế giới được trình bày như sau, theo phânloại huyết áp với các giá trị huyết áp bình thường, tăng huyết áp độ 1, tăng huyết áp độ 2,tăng huyết áp độ 3 là biến số thứ tự
Huyết áp bình thường: HA tâm thu £139 và HA tâm trương £ 89
Tăng huyết áp độ 1: HA tâm thu £ 179 hay HA tâm trương £ 104
Tăng huyết áp độ 2: HA tâm thu ³ 180 hay HA tâm trương >114
Tăng huyết áp độ 3: HA tâm thu ³180 và HA tâm trương ³ 115 mmHg
Biến số danh định là biến số định tính mà giá trị của nó không thể biểu thị bằng số mà phảibiểu diễn bằng một tên gọi (danh: tên) và các giá trị này không thể sắp đặt theo một trật tự
từ thấp đến cao
Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm,… là biến số định tính vìchúng ta không thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngượclại
Một số thí dụ khác của biến số danh định là tình trạng hôn nhân (có 4 giá trị: độc thân, cógia đình, li dị, góa) nhóm máu (A, B, AB và O)
Đôi khi biến số danh định chỉ có 2 giá trị: thí dụ như sống hay chết; có hút thuốc lá haykhông hút thuốc lá; có suy dinh dưỡng hay không suy dinh dưỡng; nam hay nữ Nhữngbiến số thuộc loại này được gọi là biến số nhị giá (binary variable)
Mã hoá
Trong phân tích thống kê, để tiện việc nhập số liệu hay lí giải kết quả, người ta có thể ánh
xạ (mapping) các giá trị của biến định tính vào các con số Việc này được gọi là mã hóa vàcần hiểu rằng việc mã hóa này hoàn toàn có tính chất áp đặt và các con số được dùng trong
mã hóa không phản ánh bản chất của biến số danh định
Giới tính là biến số danh định và có hai giá trị là nam và nữ Chúng ta có thể mã hóa giới tính và quy ước Nam là 1 và Nữ là 2 Tuy nhiên việc mã hóa này là áp đặt và chúng ta hoàn toàn có thể quy ước Nam là 1 và Nữ là 0 Việc mã hóa chỉ nhằm giúp việc nhập số liệu và xử lí số liệu trở nên dễ dàng hơn chứ không nhằm phản ánh bản chất của biến số đó.
Biến số định lượng
Biến số định lượng nhằm thể hiện một đại lượng và do đó có giá trị là những con số.Thí dụ: tuổi là biến số liên tục bởi vì ta có thể nói người này 20 tuổi, người kia 32 tuổi,v.v
Những thí dụ khác là đường huyết, hemoglobin, hematocrite, chiều cao, cân nặng, thunhập, v.v
3 Phương pháp trình bày số liệu bảng
Số liệu ghi nhận các đặc tính hay đại lượng có thể trình bày thành bảng và bảng này đượcgọi là bảng phân phối tần suất
Trang 39Phân phối tần suất của biến số định tính
Số liệu của biến số rời rạc có thể được trình bày dưới dạng một phân phối tần suất Phânphối tần suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị rời rạc của biến số(Bảng 1) Như vậy bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá trị của biến
số và một cột trình bày tần suất tương ứng của các giá trị đó
Table 1 Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng
2 là một thí dụ khác về bảng phân phối tần suất
Table 2 Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện
Phương pháp đỡ đẻ Số sinh Phần trăm
Phân phối tần suất của biến số định lượng
Nếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trị của biến số.Trong trường hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến số lại
Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượng như sau:
1- Tìm phạm vi (giá trị cực tiểu và giá trị cực đại) của số liệu Trong thí dụ về hemoglobincủa 70 phụ nữ phạm vi là 8,8 đến 15,1
2 Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d Cần lưu ý độrộng mỗi khoảng d nên là đại lượng chẵn như 1, 2, 5, 10 hay 0,5, 0,2 và số các khoảng nnên từ 5-12 (trung bình là 7-8) Trong thí dụ trên ta có thể chia phạm vi ra làm 8khoảngvới chiều rộng khoảng bằng 1 đơn vị Khi đó các khoảng là: 8-8,9; 9-9,9; 10-10,9; 11-11,9; 12-12,9; 13-13,9; 14-14,9; 15-15,9
3 Ðếm các giá trị thích hợp vào khoảng đã định trước
Trang 40Table 3 Hemoglobin của 70 phụ nữ
Hemoglobin Tần suất Phần trăm Phần trăm tích lũy
Table 4 Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11, Hóc môn
Vòng cánh tay Tần suất Phần trăm Phần trăm tích lũy