1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Giáo trình Căn bản thống kê Y học

201 28 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 201
Dung lượng 3,01 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung của giáo trình bao gồm: chương trình môn học Thống kê Y học; thống kê và vai trò của thống kê trong y học; một số khái niệm căn bản về xác suất; xác xuất có điều kiện, định luật nhân xác suất; ứng dụng xác suất trong ra quyết định chẩn đoán và điều trị; phân phối xác suất; sự biến thiên mẫu của tỉ lệ...

Trang 1

MỤC LỤC

CHƯƠNG TRÌNH MÔN HỌC: THỐNG KÊ Y HỌC 6

Mục tiêu môn học: 6

Nội dung 6

Phương pháp giảng dạy: 7

Lượng giá: 7

Tài liệu học tập: 7

THỐNG KÊ VÀ VAI TRÒ CỦA THỐNG KÊ TRONG Y HỌC 8

1 Những tình huống không cần dùng đến thống kê 8

2 Các tình huống trong đó thống kê là quan trọng 8

3 Tại sao 2 nhóm tình huống này là khác nhau 9

4 Tại sao thống kê cần thiết cho y khoa và y tế công cộng? 10

Tài liệu tham khảo 10

MỘT SỐ KHÁI NIỆM CĂN BẢN VỀ XÁC SUẤT 11

Mục tiêu 11

1 Ðịnh nghĩa về xác suất 11

2 Nhắc lại về lí thuyết tập hợp 14

4 Nhắc lại về đại số mệnh đề 15

5 Nến tảng tiên đề của lí thuyết xác suất 15

6 Giải tích tổ hợp 16

Bài tập 18

XÁC SUẤT CÓ ĐIỀU KIỆN - ĐỊNH LUẬT NHÂN XÁC SUẤT 21

Mục tiêu 21

1 Xác suất có điều kiện 21

2 Ðịnh luật nhân xác suất 22

3 Công thức cộng xác suất tổng quát 23

4 Công thức xác suất toàn phần và định lí Bayes 24

5 Biến số ngẫu nhiên 24

6 Vọng trị 25

Bài tập 25

ỨNG DỤNG XÁC SUẤT TRONG RA QUYẾT ÐỊNH CHẨN ÐOÁN VÀ ÐIỀU TRỊ 27

Mục tiêu 27

1 Mở đầu 27

2 Ðo lường tính đúng (accuracy) của một thủ thuật chẩn đoán 27

3 Ra quyết định y khoa 28

4 Mô hình cây quyết định 30

Trang 2

3 Phân phối Poisson 36

4 Phân phối xác suất của biến liên tục 37

5 Phân phối bình thường 38

6 Ứng dụng phân phối bình thường 39

Bài tập 40

THỐNG KÊ, BIẾN SỐ VÀ PHÂN PHỐI 43

Mục tiêu 43

1 Một số định nghĩa 43

2 Biến số và các loại biến số 43

3 Phương pháp trình bày số liệu bảng 45

4 Các số thống kê mô tả 47

5 So sánh các nhóm 55

Bài tập 57

SỰ BIẾN THIÊN MẪU CỦA TỈ LỆ 62

1 Mục tiêu 62

2 Biến số định tính, biến số nhị giá 62

4 Ðại cương về mẫu và phương pháp lấy mẫu 62

5 Kí hiệu 63

6 Biến thiên mẫu nhị thức 63

7 Khoảng tin cậy 95% của tỉ lệ 64

8 Trình bày khoảng tin cậy 65

Bài tập 66

NGUYÊN TẮC KIỂM ÐỊNH - SO SÁNH HAI TỈ LỆ 70

Mục tiêu: 70

1 Thí dụ: 70

2 Nguyên tắc của kiểm định ý nghĩa 70

3 Phương pháp tắt để tính z 72

4 Biện luận giá trị của p 72

5 Sự lạm dụng của test thống kê 73

6 Khoảng tin cậy 95% của hai hiệu số 73

Bài tập 73

NGUYÊN LÍ KIỂM ĐỊNH 75

Mục tiêu: 75

1 Chọn lựa kiểm định phù hợp 75

2 Kiểm định ý nghĩa; Kiểm định giả thuyết 75

3 Sai lầm loại một và sai lầm loại hai 77

4 So sánh các tiếp cận cổ điển (chủ nghĩa tần suất) và Bayes trong suy luận thống kê 78

SỰ BIẾN THIÊN CỦA TRUNG BÌNH - KIỂM ÐỊNH T-TEST BẮT CẶP 80

Mục tiêu 80

1 Giới thiệu 80

Trang 3

6 Sử dụng phân phối t 82

7 Kiểm định giả thuyết cho một trung bình 83

8 Kiểm định t bắt cặp 84

Bài tập 85

SO SÁNH HAI TRUNG BÌNH - KIỂM ÐỊNH T KHÔNG BẮT CẶP 88

Mục tiêu 88

1 Giới thiệu 88

2 Kí hiệu 88

3 Thí dụ 88

4 Phân phối mẫu của hiệu số hai trung bình 89

6 Kiểm định giả thuyết để so sánh hai trung bình 89

7 Thí dụ về tính toán kiểm định so sánh 2 trung bình 91

7 Ðiều kiện sử dụng test Z 92

8 Phương pháp với mẫu nhỏ 92

9 So sánh kiểm định z và kiểm định t 93

5 Khoảng tin cậy của hiệu số hai trung bình 93

Bài tập 94

MỘT SỐ NHỮNG PHÂN PHỐI LẤY MẪU QUAN TRỌNG 97

Mục tiêu 97

1 Lấy mẫu ngẫu nhiên đơn 97

2.Phân phối lấy mẫu 97

3 Phân phối của trung bình của mẫu 97

4 Ứng dụng 99

5 Phân phối của hiệu số của hai trung bình mẫu 99

6 Phân phối của tỉ lệ của mẫu 99

7 Phân phối của hiệu số của hai tỉ lệ mẫu 100

Bài tập 100

ƯỚC LƯỢNG 104

Mục tiêu: 104

1 Giới thiệu 104

2 Ước lượng trung bình của dân số 105

3 Ước lượng khoảng tin cậy của hiệu số hai trung bình 106

4 Ước lượng tỉ lệ dân số 106

5 Ước lượng tỉ số tỉ lệ (tỉ số nguy cơ) 107

Bài tập về kiểm định và ước lượng 108

SO SÁNH NHIỀU TRUNG BÌNH - PHÂN TÍCH PHƯƠNG SAI 111

Mục tiêu 111

Trang 4

7 Tác động cố định và ngẫu nhiên 120

8 Bài tập 121

KIỂM ÐỊNH CHI BÌNH PHƯƠNG 124

Mục tiêu 124

1 Giới thiệu 124

2 Bảng 2 x 2 (so sánh hai tỉ lệ) 124

3 Bảng lớn 127

4 Công thức ngắn gọn cho bảng 2 x c 129

5 Bài tập 129

TƯƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH 131

Mục tiêu: 131

Mục tiêu: 131

1 Giới thiệu 131

2 Tương quan 133

3 Hồi quy tuyến tính 135

4 Kiểm định và ước lượng trong tương quan và hồi quy 136

5 Giả thiết 141

6 Bài tập 141

TÍNH PHÙ HỢP CỦA PHÂN PHỐI TẦN SUẤT 150

Giới thiệu 150

Phù hợp theo phân phối bình thường 150

Kiểm định phù hợp chi bình phương 151

PHÉP BIẾN ÐỔI 155

Giới thiệu 155

Phép biến đổi logarithm 155

Chọn phép biến đổi 159

PHƯƠNG PHÁP PHI THAM SỐ 163

Giới thiệu 163

Kiểm định sắp hạng có dấu Wilcoxon 164

Kiểm định tổng sắp hạng Wilcoxon 165

Tương quan sắp hạng Spearman 166

CÔNG THỨC TÓM TẮT: 168

BÀI TẬP TỔNG HỢP 171

Bài tập 1 171

Bài giải bài tập 1 173

Bài tập 2 176

SỬ DỤNG MÁY TÍNH CẦM TAY 189

1 Các phương thức tính toán: 189

2 Các loại máy tính: 189

3 Sử dụng máy tính ở phương thức tính toán thông thường 189

Trang 5

Bảng A2 Ðiểm phần trăm của phân phối bình thường chuẩn 195

Bảng A3 Ðiểm phần trăm của phân phối t 196

Bảng A4 Ðiểm phần trăm của phân phối F 197

Bảng A6 Số ngẫu nhiên 201

Trang 6

CHƯƠNG TRÌNH MÔN HỌC: THỐNG KÊ Y HỌC

Vì mục tiêu của môn học là học viên có khả năng tiến hành được các test thống kê với

máy tính cầm tay, các học viên phải sở hữu một máy tính cầm tay có chức năng

thống kê trong giờ học của môn thống kê y học

Nội dung

Số tiết Tổng số Lý

Thuyết Thực hành

2 Xác suất có điều kiện - Ðịnh luật cộng XS,

nhân XS; Công thức XS toàn phần

4 Các phân phối xác suất: phân phối Poisson,

Tóm tắt và trình bày số liệu bằng thống kê và

biểu đồ

của tỉ lệ - Nguyên tắc kiểm định - So sánh 2 tỉ

9 Phân tích phương sai một chiều để so sánh

nhiều trung bình

Trang 7

12 Phép kiểm phi tham số 4 2 2

Phương pháp giảng dạy:

- Thuyết trình sử dụng Phấn bảng và máy chiếu qua đầu

- Làm bài tập

- Thảo luận nhóm

Lượng giá:

- Lượng giá đào tạo sau mỗi đơn vị học trình: bài tập kiểm tra

- Lượng giá kết thúc khi hết học phần: Thi câu hỏi nhiều lựa chọn

- Tài liệu tham khảo:

Dawson-Saunders B, Trapp RG Basic clinical biostatistics London, Prentice Hall International, 1990

Jekel JF, Elmore JG, Katz DL Epidemiology, Biostatistics and Preventive Medicine Philadelphia, W.B Saunders company, 1996

Trang 8

THỐNG KÊ VÀ VAI TRÒ CỦA THỐNG KÊ TRONG Y HỌC

Thống kê là khoa học về việc thu thập, phân tích và lí giải số liệu

Những quan sát trên sinh viên đều xác nhận rằng thống kê “Thống kê là một môn học

bị sinh viên ghét nhất” 1 Một nhà thống kê y học nổi tiếng cũng chỉ có thể tự an ủi rằng: "sinh viên y khoa có thể không thích thống kê, nhưng nếu là bác sĩ, họ sẽ thích"2Tại sao sinh viên y khoa không nhận thức được rằng thống kê là quan trọng như các người thầy của họ?

Bởi vì trong các tình huống đơn giản, thống kê có vẻ như không cần thiết bởi vì chúng

ta có thể hiểu rõ mà không cần thống kê Nhưng với nghề nghiệp là bác sĩ hay chuyên viên y tế công cộng, tình huống sẽ phức tạp hơn, thống kê trở thành một công cụ then chốt Như vậy khi nào thống kê là hữu ích và nó có thể làm gì cho bạn

1 Những tình huống không cần dùng đến thống kê

Hãy nhớ lại các thực nghiệm được tiến hành tại trường phổ thông? Trong vật lí, các học sinh ghi nhận chu kì dao động của con lắc với các chiều dài con lắc khác nhau và

so sánh kết quả và như vậy là đủ để có thể kết luận về mối liên quan giữa chiều dài và chu kì con lắc Thống kê không cần thiết trong trường hợp này

Trong bài thực tập về hoá học, khi thả miếng kim loại Natri vào nước, phản ứng sẽ xẩy ra mãnh liệt Phản ứng này có thể được thực hiện lập đi lập lại rất nhiều lần và cho kết quả hằng định Chúng ta có thể rút ra kết luận là kim loại Natri phản ứng mạnh và tức thời với nước mà không cần phải viện dẫn thống kê

Điều này cũng tương tự trong cuộc sống hàng ngày: nếu bạn sử dụng máy chiếu qua đầu và không biết phải bật máy bằng nút nào bạn có thể cắm điện cho máy chiếu và kiểm tra từng nút cho đến khi bật sáng được máy chiếu Trong các tình huống đơn giản, thống kê dường như không cần thiết

Thống kê có thể làm gì ?

Cho phép tóm tắt và trình bày một cách dễ hiểu các thông tin bằng số

Kiểm định một giả thuyết – thí dụ sử dụng điều trị hormone thay thế có làm giảm nguy cơ nhồi máu cơ tim ở phụ nữ mãn kinh hay không - và cho phép đo lường mức

2 Các tình huống trong đó thống kê là quan trọng

Xem xét một thí dụ khác Một công ty muốn bán bảo hiểm nhân thọ cho các khách hàng của mình và công ty đó phải ước lượng càng chính xác càng tốt xác suất khách hàng đó bị tử vong hay bị tai nạn trong các khoảng thời gian tiếp theo và các khoản phải đền bù tương ứng Nếu công ty ước lượng quá thấp, tiền đền bù sẽ vượt quá khoản phí bảo hiểm thu được Nếu công ty ước lượng quá cao, công ty sẽ không thể cạnh tranh với các công ty bảo hiểm khác Công ty phải thiết lập phí bảo hiểm khác nhau cho các khách hàng, người có nguy cơ thấp phải đóng phí bảo hiểm thấp bởi vì nếu không những người có nguy cơ thấp sẽ không mua bảo hiểm hoặc sẽ mua bảo

Trang 9

Những làm thế nào một công ty bảo hiểm ước lượng được xác suất bị tử vong hay tai nạn của khách hàng tốt hơn chính bản thân người khách hàng trong khi người này biết

rõ về bản thân mình hơn ai hết

Bởi vì từ thống kê quốc gia, các công ty bảo hiểm có thể biết được nhóm người nào, theo giới tính, tuổi, tình trạng sức khoẻ hiện tại, nghề nghiệp, v.v dễ bị các nguy cơ bệnh tật và tai nạn Nhưng để so sánh nguy cơ bệnh tật và tử vong ở nam và nữ, không đơn giản như thực nghiệm so sánh chu kì của con lắc dài và ngắn, không thể

so sánh tử vong 1000 người nam và 1000 người nữ bởi vì không thể nào tìm được một nhóm người đàn ông và đàn bà có cùng phân bố về tuổi, tình trạng sức khoẻ, nghề nghiệp; Bởi vì có thể là chính sự khác biệt của các yếu tố này chứ không phải bản thân giới tính sẽ chịu trách nhiệm cho sự khác biệt về về nguy cơ tử vong và bệnh tật

Điều đáng mừng là thống kê có thể xét đến các sự khác biệt và ước lượng được nguy

cơ tử vong và bệnh tật của các đối tượng Ngoài ra nếu nguy cơ tử vong ở nam cao hơn ở nữ, nó có thể giúp chúng ta quyết định sự khác biệt về nguy cơ này có phải là

do tình cờ (chance) hay không Tình cơ là tác động của các yếu tố không rõ, do chúng

ta không có thông tin, ảnh hưởng đến nguy cơ tử vong như yếu tố di truyền, môi trường, thói quen vệ sinh, tính khí Thống kê do đó có thể ước lượng khả năng sự khác biệt này là do cơ hội và nghĩa là thống kê có thể cho biết mức độ không chắc chắn của ước lượng

Khi nào thống kê có thể có ích?

Nhưng biến cố không lường trước được – thí dụ việc mắc bệnh

Thông tin có được từ nghiên cứu trên một số lớn đối tượng

Những yếu tố có liên quan không dễ dàng được kiểm soát

Những yếu tố có liên quan là chưa rõ

Nếu một người bác sĩ ước lượng nguy cơ tử vong và bệnh tật dựa trên kinh nghiệm của mình chứ không dựa trên thống kê ít nhất có ba vấn đề Thứ nhất, người bác sĩ đó chỉ biết được một số giới hạn các bệnh nhân Thứ hai, người bác sĩ không thể đánh giá các thông tin một cách khách quan: người bác sĩ sẽ chỉ có thể biết được thông tin về hiệu quả điều trị nếu kết quả điều trị tốt và người bệnh trở lại và sẽ mất thông tin nếu bệnh nhân bỏ cuộc, bác sĩ sẽ nhớ các trường hợp bệnh đặc biệt hơn các trường hợp bệnh thông thường Thứ ba, nếu có một phác đồ điều trị có thể thay đổi nguy cơ tử vong và bệnh tật, với kinh nghiệm người bác sĩ không thể biết điều trị này có phải thực sự là có hiệu quả hay không hay ảnh hưởng này là do tác động của các yếu tố khác như tuổi, giới, dinh dưỡng

3 Tại sao 2 nhóm tình huống này là khác nhau

Các biến cố trong nhóm đầu tiền hầu như hoàn toàn có thể tiên liệu trước Chu kì dao động của con lắc là một hằng số bất kể biên độ dao động Natri luôn luôn phản ứng rất

Trang 10

thuộc vào rất nhiều yếu tố, một vài yếu tố không thể đo lường được được và hầu hết các yếu tố này đều không thể kiểm soát

Các biến cố trong nhóm thứ hai khó tiên liệu hơn Một người phụ nữ trung niên, không mắc bệnh mạn tính vẫn có thể bị chết trong năm tiếp theo nhưng một người đàn ông lớn tuổi hơn bị cao huyết áp có thể lại vẫn sống Chúng ta không thể dựa vào kinh nghiệm của một số người.Dù vậy, thống kê với một số lớn người có thể cung cấp thông tin giúp ước lượng nguy cơ tử vong

Tại sao thống kê cho thông tin đúng đắn hơn kinh nghiệm

Thông tin từ nhiều bệnh nhân

Có thông tin chính xác hơn và khách quan hơn

Giảm thiểu sai lệch – thí dụ những bệnh nhân bỏ cuộc hay những yếu tố tình cảm

không ảnh hưởng đến kết luận

Phương pháp phân tích giúp chúng ta rút ra ý nghĩa của các thông tin phức tạp

4 Tại sao thống kê cần thiết cho y khoa và y tế công cộng?

Các chuyên viên y tế công cộng tham gia vào công việc phòng bệnh, chẩn đoán một

số bệnh tật cũng như cho lời khuyên cho người dân tiên lượng của các biến cố Bác sĩ cũng phải tham gia vào việc phòng bệnh, chẩn đoán, điều trị cho bệnh nhân Những thông tin cần thiết cho những hoạt động này là:

Phòng bệnh: Bệnh tật do nguyên nhân gì?

Chẩn đoán: Bệnh nhân có những triệu chứng và dấu hiệu gì của bênh

Điều trị: Điều trị nào là có hiệu quả cho một bệnh nhất định và có hiệu quả cho bệnh

nhân nào

Tư vấn: Một bệnh nhân bị một bệnh nào đó (như nhiễm HIV) sẽ có khả năng mắc

phải những bệnh lí gì trong 5 năm tới

Những thông tin này phụ thuộc rất nhiều vào nhiều yếu tố và phần lớn những yếu tố này không tiên đoán được, thí dụ bệnh có thể gây ra bởi yếu tố môi trường, bởi tác nhân vi sinh vật (vi khuẩn, virus), các yếu tố bệnh nhân (di truyền, hành vi vệ sinh, các yếu tố xã hội) Tương tự các triệu chứng, dấu hiệu bệnh tật, đáp ứng với điều trị

và diễn tiến tự nhiên của bệnh phụ thuộc vào nhiều biến số

Thống kê rõ ràng là rất cần thiết Tuy nhiên do thống kê là một công cụ hết sức mạnh

mẽ nên nó đã bị rất nhiều người lạm dụng trong khi họ chưa được huấn luyện một cách đầy đủ Một bác sĩ hay một chuyên viên y tế công cộng tương lai cần phải tìm hiểu thấu đáo về thống kê khi sử dụng nó để tránh bị xếp vào cùng loại với những người nói dối và những người nói dối trơ tráo như theo cách nhìn nhận của nhà văn Mark Twain (“lies, damned lies, and statistics”)

Tài liệu tham khảo

1 Sinclair S Making doctors: an institutional apprenticeship Oxford: Berg, 1997

2 Bland JM Medical students may not like statistics, but as doctors they will BMJ 1998;316:1674 http://bmj.com/cgi/content/full/316/7145/1674

Trang 11

MỘT SỐ KHÁI NIỆM CĂN BẢN VỀ XÁC SUẤT Mục tiêu

Sau khi nghiên cứu chủ đề, học viên có khả năng:

- Trình bày 2 định nghĩa về xác suất và đưa ra các ví dụ

- Xây dựng được tập giao và hợp của 2 tập hợp xác định

- Trình bày và phân biệt được hai công thức chuyển vị và tổ hợp

- Trình bày định nghĩa của xác suất có điều kiện

- Trình bày công thức cộng xác suất và công thức nhân xác suất

1 Ðịnh nghĩa về xác suất

1.1 Ðịnh nghĩa xác suất theo tần suất tương đối

Theo ngôn ngữ thông thường, xác suất chính là tần suất tương đối Thí dụ mệnh đề khẳng định xác suất sinh con trai là 0,515 có nghĩa là khi thống kê nhiều lần sinh, tần suất tương đối sinh con trai sẽ xấp xỉ bằng 0,515 (tần suất tương đối là tần suất xảy ra biến cố quan tâm chia cho tổng số lần thử) Nói cách khác, nếu một quá trình được lập lại n nhiều lần, và nếu có f lần xảy ra biến cố E, tần suất tương đối của biến cố E sẽ xấp xỉ bằng xác suất của E

n

f E

Thí dụ: Buffon thực hiện 4040 lần tung đồng tiền và quan sát được 2048 lần xuất hiện

mặt sấp Tần suất tương đối xảy ra mặt sấp là Error! Xác suất xảy ra mặt sấp cũng

xấp xỉ bằng 0,507

1.1 Phép thử, kết cục, biến cố, biến cố đối lập

Khi chúng ta gieo một đồng tiền lên một mặt phẳng có thể xảy ra một trong hai kết cục: xuất hiện mặt sấp hoặc xuất hiện mặt ngửa với kết quả không thể tiên đoán được Người ta gọi việc gieo đồng tiền là phép thử (experiment) và sự xuất hiện mặt xấp hay mặt ngửa của đồng tiền là các kết cục (outcome)

Tương tự, khi chúng ta tung con xúc xắc, có thể xuất hiện các mặt 1, 2, 3, 4, 5, 6 thì việc tung con xúc xắc được gọi là phép thử ngẫu nghiên và việc xuất hiện mặt 1, xuất hiện mặt 2, 3, 4, 5 và 6 được gọi các kết cục ngẫu nhiên Nếu chúng ta quan tâm đến biến cố ra mặt xúc xắc chẵn thì biến cố (event) này bao gồm 3 kết cục: ra mặt 2, ra mặt 4 và ra mặt 6 Nói khác đi biến cố là tập hợp mà các phần tử là các kết cục Bởi vì tập hợp có thể có bao gồm toàn bộ các phần tử, 0 phần tử hay 1 phần tử nên việc ra một mặt xúc xắc nào đó (thí dụ ra mặt 2) vừa có thể xem là kết cuộc vừa có thể xem là biến cố: biến cố đó đôi khi được gọi là biến cố sơ cấp

Nếu chúng ta tung 3 con xúc xắc phân biệt , có kết cục sau có thể xảy ra {1,1,1} (ba con xúc xắc ra mặt 1); {1,1,2}; {1,1,3}; ; {6,6,5}; {6,6,6} Biến cố có tổng số điểm của 3 con xúc xắc =18 bao gồm một kết cục {6,6,6} Tương tự chúng ta có thể định nghĩa biến cố tổng số điểm của ba con xúc xắc <=10, biến cố tổng số điểm là 11; biến

cố tổng số điểm >=12

Trang 12

1.2 Kết cục đồng khả năng

Khi chúng ta gieo con xúc xắc đồng nhất, cảm nhận thông thường cho phép chúng ta giả định việc xuất hiện kết cục ra mặt 1, ra mặt 2, ra mặt 3, ra mặt 4, ra mặt 5, ra mặt 6

có xác xuất như nhau Khi đó ta gọi các kết cục này là kết cục đồng khả năng

1.4 Ðịnh nghĩa xác suất cổ điển

Nếu phép thử ngẫu nhiên có thể xảy ra theo N kết cục loại trừ lẫn nhau và có xác suất như nhau và gọi m là số các kết cục thuận lợi cho biến cố E, xác suất xảy ra biến cố E, được kí hiệu là P(E), sẽ bằng m chia cho N

N

N còn được gọi là số các kết cục có thể và m số các kết cục thuận lợi

Thí dụ: Nếu chúng ta tung con xúc xắc (xí ngầu) có 6 mặt: mặt 1, mặt 2, mặt 3, mặt 4, mặt 5, mặt 6 thì có thể xảy ra với 6 kết cục khác nhau Những kết cục này loại trừ lẫn nhau (nếu ra mặt 1 thì không ra mặt 2 và ngược lại) và đồng xác suất Giả sử ta quan tâm đến biến cố con xúc xắc ra mặt chẵn Biến cố này có thể xảy ra theo 3 cách, nói khác đi biến cố này bao gồm 3 kết cục Khi đó xác suất xảy ra biến cố ra mặt chẵn là 3/6=0.5

Thí dụ: Khoa phổi và khoa Thận của bệnh viện Chợ Rẫy có 50 bệnh nhân trong số này có 35 bệnh nhân nữ Có 12 bệnh nhân của khoa Thận trong đó có là 8 người là

nữ Có bao nhiêu bệnh nhân nữ ở khoa phổi? Có bao nhiêu trong số những bệnh nhân của 2 khoa này là nữ hay nằm ở khoa Phổi

Trước tiên chúng ta lập một bảng chéo để phân loại các bệnh nhân theo giới tính và theo khoa điều trị (Phổi hay Thận) và điền các thông tin đã cho từ đề bài vào bảng này (các số in đậm của bảng) Từ các thông tin này chúng ta tính các số ở các ô còn lại (các số in thường) của bảng chéo

Bảng 1 Giới tính của bệnh nhân của khoa Phổi và khoa Thận bệnh viện Chợ rẫy

Khoa

Phổi

Khoa Thận

Thí dụ: Sử dụng số liệu của bảng trên hãy tính các xác suất:

1 Chọn một người bất kì tính xác suất người nằm ở khoa Phổi - P(Khoa Phổi):

N: Số kết cuộc có thể là 50; m: số các kết cuộc thuận lợi cho 38;

P (Khoa Phổi) = Error!

2 Chọn một người bất kì tính xác suất người đó là nam - P(Nam)

N: Số kết cuộc có thể là 50; m: số các kết cuộc thuận lợi cho 15;

P (Nam) = Error!

Khái niệm về nguy cơ và số chênh (odds)

Trang 13

không bị bệnh Như vậy còn có thể được xem là xác suất của một người bị mắc bệnh trong khoảng thời gian nghiên cứu với điều kiện lúc đầu không bị mắc bệnh Đó là lí

do tại sao xác suất và thống kê có một vai trò then chốt trong các nghiên cứu dịch tễ Những chúng ta sẽ thấy xác suất là một hàm số có đặc tính thuận lợi về mặt toán học, thí dụ như nguyên lí cộng tính Tuy nhiên xác suất có miền xác định là đoạn [0;1] nên

để mô tả xác suất theo một biểu thức tuyến tính cần sử dụng các phép biến đổi để mở rộng miền xác định Một trong các phép biến đổi đó là số chênh (odds)

Số chênh của một biến cố A được kí hiệu là Odds(A) bằng xác suất của biến cố A chia cho xác suất của biến cố không A

Odds(A)=Error! = Error!

Miền xác định của số chênh là đoạn [0;∞) được mở rộng so với miền xác định của xác suất Số chênh cũng có một đặc tính khác quan trọng là số chênh của biến cố không

A bằng nghịch đảo của số chênh biến cố A

Odds(Ac) = Error! = 1: Error!= 1:Odds

Mặc dù lí do chính để sử dụng số chênh là đặc tính toán học của nó, số chênh cũng là một khái niệm quen thuộc trong cuộc sống hàng ngày

Thí dụ: Khi ta gieo đồng tiền chúng ta chúng ta có 2 kết cục sấp và ngửa đồng khả

năng Khi đó xác suất được mặt sấp, P(sấp) = Error! = 0,5 Số chênh được mặt sấp, Odds(sấp) = Error! = Error! Thực ra trong dân gian cách nói xác suất ra mặt sấp là

0,5 không quen thuộc bằng cách nói là việc được mặt ngửa là 1 ăn 1 thua (hay 5 năm

5 thua)

Khi biến cố A hiếm (P(A)<0,1) thì 1-P(A)  1 nên số chênh và xác suất là xấp xỉ Từ

số chênh chúng ta cũng có thể tính được xác suất theo công thức sau:

P(A) = Error!

1.3 Ðịnh nghĩa xác suất chủ quan

Khái niệm về xác suất chủ quan lần đầu tiên được đề xướng bởi Von Newman, Morgenstern, Ramsey và Savage Theo khái niệm này, xác suất không chỉ áp dụng cho các hiện tượng ngẫu nhiên mà còn được sử dụng cho các mệnh đề (proposition)

Có những mệnh đề có thể kiểm chứng bằng thử nghiệm lập lại được (thí dụ mệnh đề

“chiếc nhẫn vàng này là thật” có thể được kiểm chứng sau khi thử nghiệm kiểm tra vàng bằng lửa) Mặc dù trước thử nghiệm, tính chân thực của mệnh đề là không chắc chắn nhưng sau thử nghiệm chúng ta luôn luôn biết được mệnh đề này là đúng hay sai Tuy nhiên có những mệnh đề không thể kiểm chứng bằng thử nghiệm lập lại được (thí dụ như mệnh đề “sử dụng vitamine A bổ sung sẽ làm giảm nguy cơ ung

thư” không thể chứng minh được dù chúng ta có thực hiện đến 10 thử nghiệm lâm

sàng bởi vì kết quả của 10 thử nghiệm này không cho kết quả giống hệt như nhau) Với những mệnh đề này thì trước hay sau thử nghiệm chúng ta đều phải sử dụng một

số đo lường về mức độ không chắc chắn của mệnh đề và số đo lường này được gọi là xác suất chủ quan Khuyết điểm của các tiếp cận này ở chỗ xác suất của mệnh đề là một con số chủ quan và thay đổi theo nhận định của từng người Tuy vậy những người ủng hộ nó lập luận rằng dù có chấp nhận tính chủ quan hay không, trong cuộc

Trang 14

2 Nhắc lại về lí thuyết tập hợp

Một tập hợp là gồm nhiều những đối tượng xác định và khác nhau Những đối tượng này được gọi là phần tử của tập hợp Tập hợp thường được kí hiệu bằng chữ in và có thể biểu thị bằng giản đồ Venn

Hình 1 Giản đồ Venn (Venn diagrams)

Thí dụ khi ta tung con xúc xắc có thể xảy ra 6 kết cuộc (1, 2, 3, 4, 5, 6) Do biến cố (event) là một tập hợp với các phần tử kết cuộc như vậy chúng ta có xây dựng các biến cố sau:

E1={1}; E2={2}; E3={3}; E4={4}; E5={5}; E6={6} (như đã quy ước, các biến cố chỉ

có một phần tử là một kết cục được gọi là biến cố sơ cấp)

S={1, 2, 3, 4, 5, 6} (biến cố này được gọi là biến cố toàn thể khi tất cả các kết cục đều

là các phần tử của biến cố này)

A= {2,4,6}: A là biến cố ra mặt chẵn

Kí hiệu x X để chỉ định x là một phần tử của X và kí hiệu x X để chỉ rằng x không

thuộc tập hợp X Áp dụng thí dụ trên và sử dụng kí hiệu chỉ định phần tử, ta có thể viết

1 E1; 1 S; 1 E2 ; 1 A

Phần giao của hai tập hợp A và B là một tập hợp (kí hiệu bằng AB )gồm những phần tử chung của hai tập hợp

Phần hợp của hai tập hợp A và B là tập hợp (kí hiêu bằng AB) gồm những phần tử

có mặt trong tập hợp A hoặc có mặt trong tập hợp B

Thí dụ: Nếu A là tập hợp của các mặt chẵn của con xúc xắc

Trang 15

b Trái đất là hành tinh duy nhất trong vũ trụ có sự sống

c Mua hai vé xem đá banh trận đấu giữa Manchester United và Leed United Trả lời: Hai phát biểu đầu (a và b) là mệnh đề và phát biểu thứ ba (c) không phải là mệnh đề mà chỉ là một mệnh lệnh

Khi chúng ta kết hợp hai mệnh đề con bằng từ và thì chúng ta có một mệnh đề thì mệnh đề này chỉ đúng nếu hai mệnh đề con đều đúng:

Thí dụ: Trong hai mệnh đề sau, mệnh đề nào là mệnh đề đúng

42 chia hết cho 7 và 100 chia hết cho 10

Thí dụ: Trong hai mệnh đề sau, mệnh đề nào là mệnh đề đúng

42 chia hế t cho 7 và 100 chia hết cho 10

2 + 2 = 4 và 91 là số nguyên tố

Trả lời: Mệnh đề (a) là đúng vì cả hai mệnh đề con đều đúng Mệnh đề (b) đúng vì có một mệnh đề con của nó là đúng (2+2 = 4)

5 Nến tảng tiên đề của lí thuyết xác suất

Vào đầu thế kỉ 20, lí thuyết xác suất đã được xây dựng nền tảng tiên đề tương tự như các ngành khác của toán học Nhờ đó sự phát triển của lí thuyết xác suất dựa trên các tiên đề này chỉ phụ thuộc vào tính chặt chẽ logic (logic correctness) dù rằng những định lí của nó có phản ánh thế giới thực hay không Nhà toán học Nga Kolmogorov

là người đã có công xây dựng trình bày các bài toán xác suất theo các khái niệm của lí thuyết đo lường và các tiên đề để xây dựng lí thuyết xác suất do ông đưa ra được trình bày sau đây:

Nếu chúng ta kí hiệu S là tập hợp các kết cục của phép thử (còn gọi là biến cố toàn thể), M là một lớp các biến cố và M thoả 3 tính chất sau: (i) S M; (ii) nếu A M, thì A c

M; (iii) nếu A1, A2, M, thì A1 A2 M

Hàm số P được gọi là xác suất gán cho mỗi biến cố A thuộc lớp M một con số không

âm và có 2 tính chất sau:

1 P(S) = 1 (Xác suất của biến cố toàn thể bằng đơn vị)

2 Nếu A1, A2, M và A i A j = Ø cho tất cả i j, thì P(A1 A2 …) = P(A1) + P(A2) + … (Nếu các biến cố A , A ,… là loại trừ tương hỗ lẫn nhau thì xác suất của sự

Trang 16

6.1 Nhắc lại về giai thừa (factorial)

Giai thừa của n (với n là số nguyên) được đọc là n giai thừa và được kí hiệu là n!

n!=n.(n-1).(n-2) 1

Theo quy ước, 0! =1

Nhờ kí hiệu giai thừa người ta có thể viết một cách vắn tắt tích một chuỗi các chữ số liên tiếp Thí dụ: Thể hiện biểu thức 1 2 3 4 5 6 7 bằng kí hiệu 7!

Thí dụ: Thể hiện biểu thức 3 4 5 6 7 bằng Error!

6.2 Hoán vị

Trạm y tế có 3 vị trí để treo 3 bức tranh A, B, C Số cách sắp xếp 3 bức tranh vào 3 vị trí có thể được tính theo cách lập luận sau:

- Vị trí số 1 có thể chọn 1 trong 3 bức tranh để treo, như vậy có tất cả 3 cách chọn

- Vị trí số 2 có thể chọn 1 trong 2 bức tranh còn lại, vậy ở vị trí này có 2 cách chọn

- Vị trí số 3 chỉ còn duy nhất một tranh để treo, vậy ở vị trí này chỉ có 1 cách chọn

Số cách sắp xếp 3 bức tranh vào 3 vị trí = 1  2  3 = 3!

Một cách tổng quát số cách sắp xếp n đối tượng vào n vị trí khác nhau còn được gọi là

số cách hoán vị (arrangments) của n đối tượng bằng n!

6.3 Chỉnh hợp và tổ hợp

Chỉnh hợp và tổ hợp đều là cách chọn k đối tượng từ n đối tượng cho trước Việc chọn các đối tượng được gọi là chỉnh hợp (Permutation) nếu chúng ta để ý đến thứ tự lựa chọn và được gọi là tổ hợp (Combination) nếu chúng ta không quan tâm đến thứ

tự lựa chọn

Khái niệm về chỉnh hợp và tổ hợp sẽ được minh hoạ trong thí dụ sau Giả sử chúng ta

có 5 đối tượng phân biệt (distinguishable objects) là các loại thuốc A (antibiotic), B (beta agonist), C (corticosteroid), D (bronchoDilator) và E (expectorant) Giả sử để điều trị cho bệnh nhân bị hen phế quản chúng ta cần phải chọn 2 loại thuốc và hai loại thuốc này không dùng đồng thời (một thuốc dùng trước, một thuốc dùng sau) Khi đó các cách để chọn 2 loại thuốc được liệt kê ở như sau:

Để chọn đối tượng thứ nhất chúng ta có 5 cách chọn

Để chọn đối tượng thứ hai sau khi chọn đối tượng đầu tiên chúng ta có 4 cách chọn

Trang 17

Một cách tổng quát, công thức tính nPr (số chỉnh hợp n đối tượng chọn r) là số cách trong n đối tượng chọn ra r đối tượng có phân biệt thứ tự được chọn (để giao các nhiệm vụ hay nhận lãnh các vị trí khác nhau) là:

1)1(

)(

1)1()!

n n r

Do đó 5C2 = 5C2 /2! = Error!= Error!

Một cách tổng quát, công thức tính nCr (số tổ hợp n đối tượng chọn r) là số cách trong

n đối tượng chọn ra r đối tượng có không phân biệt thứ tự được chọn (và sẽ nhận lãnh cùng một nhiệm vụ hay cùng một vị trí ) là:

1)1(1)1(

)(

1)1(

!)!

n r n

n n r

r n

Một số tài liệu nêu rõ tổ hợp là tổ hợp không lặp và dùng từ

chập hay cho từ lấy do đó nCr được gọi là tổ hợp không lặp chập r của n đối tương Tuy nhiên phần lớn tài liệu hiện đại đều quy ước tổ hợp có nghĩa là tổ hợp không lặp

để tránh rườm rà

6.4 Bài toán ngày sinh nhật

Bộ môn Y tế công cộng có n=23 giảng viên và nhân viên, hãy tính xác suất P trong bộ môn ít nhất có 2 người trùng ngày sinh

Để đơn giản, chúng ta hãy giả định là một năm chỉ có 365 ngày và mỗi ngày đều có xác suất là ngày sinh của một người ngẫu nhiên là như nhau Khi đó một nhóm n người sẽ có 365n

cách xảy ra ngày sinh của n người đó Cách chọn trong 365 ngày sinh để gán cho n người khác nhau chính là chỉnh hợp 365 chọn n do đó Xác suất trong bộ môn ít nhất 2 người trùng ngày sinh = 1 – xác suất n người có ngày sinh hoàn toàn khác nhau

Thay n=23, chúng ta có xác suất trong bộ môn Y tế công cộng có ít nhất 2 người trùng ngày sinh là 0,5

Khi số lượng người gia tăng thì xác suất có ít nhất 2 người cùng ngày sinh nhật cũng gia tăng Đáp số cụ thể cho các trường hợp được trình bày như sau:

XS có ít nhất có 2 người

Trang 18

Bài tập

Bài tập định nghĩa xác suất

1 Một bệnh viện có cơ cấu nhân viên theo tuổi và công tác được trình bày trong bảng

1 Giả sử nếu ta chọn một nhân viên trong bệnh viện., tính xác suất:

a- nhân viên đó là bác sĩ

b- nhân viên đó là bác sĩ lớn hơn 35 tuổi

c- nhân viên đó là điều dưỡng

d- nhân viên đó là một điều dưỡng tuổi từ 26 đến 35

N

( )

Với N là số các biến cố có thể và m số các biến cố thuận lợi

Khi chọn ngẫu nhiên việc chọn lực có thể kết cuộc theo 1766 cách khác nhau (Số biến

cố có thể N=1766) Trong việc tính xác suất nhân viên đó là bác sĩ, biến cố thuận lợi

là biến cố chọn được một trong 105 bác sĩ Như vậy số biến cố thuận lợi m = 105

30

A3 31-

Trang 19

2 Trong các mệnh đề sau, mệnh đề nào là đúng

2+2 là 4 hay Darwin là con khỉ

Bệnh AIDS do một loại virus gây ra và bệnh AIDS có thể lây lan qua muỗi Aedes

(A4A3)B3 là tập hợp những nhân viên cấp dưỡng tuổi từ 31 trở lên N{(A4A3)B3}=16

2 Mệnh đề (a) là mệnh đề hay Mệnh đề này đúng do một mệnh đề con của

1b Nếu anh ta chỉ còn có đủ thời gian để làm 3 công việc, anh ta phải từ 7 công việc chọn ra 3, 3 công việc này sau khi được chọn sẽ được sắp xếp khác nhau Như vậy, số kế hoạch anh ta có thể sắp xếp là:

7P3 = 7!/(7-3)! = 7  6  5  4  3  2  1 / 4  3  2  1 = 7  6  5 = 210 cách

2 Người nhân viên này muốn chọn từ 4 mẫu máu lấy 3 mẫu, 3 mẫu máu này

Trang 21

XÁC SUẤT CÓ ĐIỀU KIỆN - ĐỊNH LUẬT NHÂN XÁC SUẤT

Mục tiêu

Sau khi nghiên cứu chủ đề, học viên có khả năng:

- Trình bày định nghĩa của xác suất có điều kiện

- Trình bày công thức cộng xác suất và công thức nhân xác suất

1 Xác suất có điều kiện

Nếu các kết cục có thể không bao gồm toàn thể các kết cục (khi một số kết cục bị hạn chế) thì xác suất có thể được gọi là xác suất có điều kiện

Xác suất có điều kiện được kí hiệu P(đặc tính quan tâm|Điều kiện)

Bảng 2 Giới tính của bệnh nhân của khoa Phổi và khoa Thận bệnh viện X

Khoa

Phổi

Khoa Thận

Tổng số

Thí dụ: Ở khoa Phổi và khoa Thận của bệnh viện X có 50 bệnh nhân và phân

bố của các đặc điểm của bệnh nhân này được trình bày trong bảng Chọn một người bất kì, xác suất người là nam và nằm ở khoa Phổi - P(Nam và Khoa Phổi)- có phải là xác suất có điều kiện hay không? Hãy tính xác suất này

Chọn một người bất kì, Xác suất người là nam và nằm ở khoa Phổi - P(Nam và Khoa Phổi) – không phải là xác suất có điều kiện bởi vì các kết cục không có hạn chế (ai cũng có thể được chọn)

N: Số kết cuộc có thể là 50; m: số các kết cuộc thuận lợi cho 11;

P (Nam và Khoa Phổi) = Error!

Thí dụ: Chọn một người nam, xác suất người này nằm ở khoa Phổi có phải là xác suất có điều kiện hay không? Hãy tính xác suất này

Chọn một người nam, xác suất người này nằm ở khoa Phổi là xác suất có điều kiện bởi vì số kết cục bị hạn chế (chỉ có bệnh nhân nam được chọn và như vậy kết cục chỉ

có thể là 1 trong số 15 bệnh nhân nam)

Nc: Số kết cuộc có thể là 15; m: số các kết cuộc thuận lợi cho 11;

Xác suất người này nằm ở khoa Phổi với điều kiện người này là nam giới = P

(Khoa Phổi|Nam) = Error!

Lưu ý: Xác suất có điều kiện được kí hiệu P(đặc tính quan tâm|Điều kiện) và điều kiện này phải đúng cho cả kết cục thuận lợi (m) và kết cục có thể (Nc) Trong thí dụ trên 11 kết cục thuận lợi vừa đòi hỏi điều kiện là nam giới và đặc tính là nằm ở khoa phổi và 15 kết cục có thể đòi hỏi điều kiện là nam giới Thể hiện nhận xét bằng công thức:

Trang 22

Đây là xác suất có điều kiện P(nữ|khoa Thận) = Error!= Error! = Error!= 0,75

Thí dụ: Theo bản báo cáo “Số ca nghi nhiễm SARS tích luỹ” của Tổ Chức Y tế Thế Giới (http://www.who.int/csr/sars/country/2003_05_17/en/), Số ca bệnh SARS (Hội chứng Hô hấp cấp tính trầm trọng) từ ngày 1/10/2002 đến ngày 17/5/2003 là 7761 với

623 trường hợp tử vong Xác suất tử vong của những người mắc SARS là xác suất có điều kiện: ( cả 623 ca tử vong và 7761 ca bệnh đều mắc SARS)

P(sốt rét|lách không to) = P(sốt rét và lách không to) / P(lách không to)

= [P(sốt rét) - P(sốt rét và lách to)]/ P(lách không to)

= (0.23-0.18)/0.8 = 0.05/0.8 =0.0625

2 Ðịnh luật nhân xác suất

Từ phương trình (5) ta có thể xây dựng công thức:

P(AB) = P(BA) =P(B)  P(A|B)

Công thức này được gọi là định lí nhân xác suất

Thí dụ: Nếu xác suất mắc bệnh lao, P(Lao) = 0,001 và xác suất chết/mắc của bệnh Lao, P(chết|Lao) = 0,1 Xác suất chết vì bệnh lao:

P(Lao và Chết) = P(Lao)  P(Chết | Lao) = 0,001  0,1 = 0,0001

Ý nghĩa của định nghĩa theo xác suất có điều kiện là xác suất của B không thay đổi dù

có hay không có điều kiện A Từ phương trình (7) chúng ta có thể suy ra là tính độc lập có tính chất đối xứng (nếu A độc lập với B thì B độc lập với A và ngược lại) Thí dụ:

Trang 23

Xác suất bị chấn thương giao thông ở người nghiện rượu = P(chấn thương giao thông | hút thuốc lá) = 0,03

Khi đó chấn thương giao thông và nghiện rượu là hai biến cố không độc lập

Khi biến cố A không độc lập với biến cố B thì:

- B => A (bằng cách biện luận về thời gian)

- Yếu tố gây nhiễu ảnh hưởng đến cả A và B

Nghĩa là chúng ta có chứng cớ (evidence) của mệnh đề A=>B

Đây là cách lập luận thường được sử dụng trong nghiên cứu xác định nguyên nhân hay yếu tố nguy cơ

Tính loại trừ của 2 biến cố

Nếu hai biến cố A và B không bao giờ xảy ra đồng thời người ta gọi biến cố A

và B loại trừ lẫn nhau

Thí dụ bệnh nhân không bao giờ bị nhiễm sán dải và sán dải heo cùng lúc nên việc nhiễm sán dải bò và sán dải heo là 2 biến cố loại trừ lẫn nhau Trong thửu nghiệm tung xúc xắc, biến cố ra mặt chẵn và biến cố ra mặt 3 là biến cố loại trừ lẫn nhau

Cần lưu ý hai biến cố loại trừ lẫn nhau không phải là 2 biến cố độc lập mà thực chất là 2 biến cố phụ thuộc lẫn nhau Biến cố A xảy ra phụ thuộc vào việc không xảy ra biến cố B và ngược lại

3 Công thức cộng xác suất tổng quát

Thí dụ: Ở khoa Phổi và khoa Thận của bệnh viện X có 50 bệnh nhân và phân

bố của các đặc điểm của bệnh nhân này được trình bày trong bảng ở đầu chương Chọn một người bất kì, hãy tính xác suất người là nam hay nằm ở khoa Phổi - P(Nam hay Khoa Phổi):

P(Nam hay Khoa Phổi)=Error!

P(Nam hay Khoa Phổi)=Error! = P(Phổi)+P(Nam)-P(Phổi và Nam)

Một cách tổng quát, nếu AB ≠ Ø thì chúng ta có

Nếu hai biến cố A và B loại trừ lẫn nhau thì chúng ta có thể tính được xác suất xảy ra

A hay B dựa trên nguyên lí cộng tính:

Trang 24

A và B P(AB) P(AB)

4 Công thức xác suất toàn phần và định lí Bayes

Nếu biến cố B phụ thuộc vào biến cố A – P(B) ≠ P(B|A) – thì xác suất của biến cố B phụ thuộc vào xác suất của biến cố A Khi đó xác suất xảy ra B (Ac

là biến cố đối lập của biến cố A và được đọc là không A)

)

|()()

|()()(

)(

Tính xác suất A trên điều kiện B - P(A|B) và thay mẫu số với công thức xác suất toàn phần ta được

)

|()()

|()(

)

|()()

(

)(

)

|

A B P A P A B P A P

A B P A P B

P

B A P B

5 Biến số ngẫu nhiên

Khi chúng ta tiến hành phép thử, chúng ta thường không quan tâm đến chi tiết của biến cố mà chỉ quan tâm giá trị của một đại lượng nào đó được xác định bởi kết cục của phép thử Thí dụ, khi chúng ta gieo 3 con xúc xắc, có thể chúng ta không quan tâm đến con xúc xắc nào ra mặt mấy mà chỉ quan tâm đến tổng số điểm của 3 con xúc xắc Hay khi chúng ta mua vé số, chúng ta chỉ quan tâm đến số tiền mà chúng ta trúng được (hay số tiền bị mất) sau khi đã có kết quả xổ số

Đại lượng mà giá trị của nó được xác định bởi kết cục của phép thử ngẫu nhiên được gọi là biến số ngẫu nhiên Biến số ngẫu nhiên thường được kí hiệu bằng chữ in hoa (như X, Y, ) Biến số ngẫu nhiên X của biến cố e được kí hiệu là X(e) Các thí dụ khác về biến số ngẫu nhiên gồm:

- Thí dụ: Một người đặt một con số gồm 2 chữ số Sau đó người ta tiến hành quay số để có kết quả là một số 2 chữ số Như vậy phép thử sẽ có 100 kết cuộc là con số 00,01,02,03, ,99 Nếu kết cuộc trùng với con số được đặt, người đặt sẽ được 70 đồng Nếu kết cuộc không trùng với con số được đặt, người đặt sẽ bị mất 1 đồng Như vậy có 99 kết cục tương ứng với giá trị -1

và 1 kết cục tương ứng với giá trị 70 -1 và 70 là các giá trị của biến số ngẫu nhiên X “số tiền thu được” Ta có thể tính được P(X=-1)=0,99 và P(X=70)=0,01

- Theo dõi 100 người nghiện chích ma tuý chưa bị nhiễm HIV, số người bị nhiễm HIV sau 1 năm là biến số ngẫu nhiên

Trang 25

- Một gia đình có 1 đứa con, số con trai trong gia đình này là biến số ngẫu nhiên

- Đo chiều cao của một người, chiều cao người này là biến số ngẫu nhiên

6 Vọng trị

Nếu chúng ta không quan tâm đến chi tiết, chúng ta sẽ gán cho mỗi kết cục một giá trị của biến số ngẫu nhiên và khi đó chúng ta sẽ gán cho phép thử một giá trị gọi là vọng trị Hãy trở lại với ví dụ về phép thử quay số (gồm 2 chữ số) được đưa ra trong phần biến số ngẫu nhiên Phép thử này có nhiều kết cục và các kết cục tương ứng với -1 và

70 là giá trị của biến số ngẫu nhiên “số tiền thu được” Giả sử một người chơi trò chơi này rất nhiều lần (N lần) thì người số tiền người đó thu được sau N lần chơi:

E(X)=X(e1)P(e1) + X(e2)P(e2) +

Bài tập

Ðịnh luật nhân và cộng xác suất

1 Trong một nhóm gồm 502 người có phân phối nhóm máu và giới tính như sau:

1b Giới tính và nhóm máu có độc lập với nhau không? Chứng minh

2 Xác suất một bệnh nhân được chọn từ một bệnh viện là nam là 0,6 Xác suất một bệnh nhân nam và ở khoa ngoại là 0,2 Một bệnh nhân được chọn ngẫu nhiên từ bệnh viện và người ta biết rằng đó là bệnh nhân nam Tính xác suất bệnh nhân đó ở khoa ngoại

Trang 26

Bước 2: chọn ngẫu nhiên 7 đứa trẻ dưới 2 tuổi trong mỗi xã được chọn để điều tra về tình hình tiêm chủng của đứa trẻ đó

Giả sử trong tỉnh có xã A có 100 trẻ dưới 2 tuổi và xã B có 40 trẻ dưới 2 tuổi

a Nếu trong bước 1 đã chọn xã A, tính xác suất một đứa trẻ dưới 2 tuổi của xã A được chọn đưa vào nghiên cứu

b Nếu chúng ta không biết xã A có được chọn đưa vào nghiên cứu hay không, tính xác suất một đứa trẻ dưới 2 tuổi của xă A được chọn đưa vào nghiên cứu

c Giả sử xác suất xã B được chọn đưa vào nghiên cứu là 0,1, tính xác suất một đứa trẻ dưới 2 tuổi của xã B được chọn đưa vào nghiên cứu

Khi chọn ngẫu nhiên một người ta có thể có 502 kết cuộc khác nhau (Số biến

cố có thể N=502) Trong việc tính xác suất người có nhóm máu O, biến cố thuận lợi là biến cố chọn được người có nhóm máu O Như vậy có 226 biến cố thuận lợi trong trường hợp này

Xác suất người này có nhóm máu O là = 226/502=0,45 Tương tự

Xác suất người này có nhóm máu A là = 206/502=0,41 Xác suất người này có nhóm máu B là = 50/502=0,10 Xác suất người này có nhóm máu O là = 20/502=0,04 1b Biến cố A độc lập với biến cố B khi (A|B)=P(A) hay chứng minh P(B|A)=P(B) Như vậy Nhóm máu và giới tính là độc lập với nhau bởi vì:

P(máu O | Nam)=113/251= 0,45 = P(máu O) P(máu A | Nam)=103/251= 0,41 = P(máu A) P(máu B | Nam)=25/251= 0,10 = P(máu B) P(máu AB | Nam)=10/251= 0,04 = P(máu AB)

khoa Ngoại và B là biến cố bệnh nhân là bệnh nhân nam ta có:

P(ngoại|nam)=P(ngoại(nam)/P(nam)= 0,2/0,6 = 0,33

P(hút thuốc(bệnh tim)=P(bệnh tim) x P(hút thuốc|bệnh tim)

= 0,35 x 0,86 = 0,301

4 Ta kí hiệu đứa trẻ quan tâm là m

a Nếu trong bước 1 đã chọn xã A, xác suất một đứa trẻ m dưới 2 tuổi của xã A được chọn đưa vào nghiên cứu = P(chọn m| chọn A) = 7/100 = 0,07

b Nếu chúng ta không biết xã A có được chọn đưa vào nghiên cứu hay không, xác suất một đứa trẻ m dưới 2 tuổi của xã A được chọn đưa vào nghiên cứu = P(chọn m và chọn A) = P(chọn A)  P (chọn m| chọn A) = 0,07 ( P(chọn A)

Trang 27

ỨNG DỤNG XÁC SUẤT TRONG RA QUYẾT ÐỊNH CHẨN ÐOÁN VÀ ÐIỀU

TRỊ Mục tiêu

Sau khi nghiên cứu chủ đề học viên có khả năng:

1 Phân biệt được tính đúng và tính tin cậy của thủ thuật chẩn đoán

2 Trình bày 4 đo lường phản ánh tính đúng của một thủ thuật chẩn đoán định tính: tính nhạy cảm, tính chuyên biệt, giá trị tiên đoán dương, giá trị tiên đoán âm

3 Khi được cung cấp 2 đo lường tính giá trị của thủ thuật chẩn đoán và tỉ lệ hiện mắc trong dân số, xác định được các đo lường thể hiện tính giá trị còn lại

4 Dựa trên mô tả các tình huống của một bệnh, xây dựng cây quyết định của bệnh đó

5 Dựa trên cây quyết định có xác suất của các nhánh cơ hội và kì vọng ở nhánh tận, chọn lựa được điều trị tối ưu

1 Mở đầu

Một số vấn đề của y khoa, như đánh giá mức độ chính xác của một thủ thuật chẩn đoán, lí giải kết quả âm tính hay dương tính của kết quả xét nghiệm trên một bệnh nhân chuyên biệt, mô hình hoá tình huống của một bệnh nhân hay chọn lựa phương pháp điều trị thích hợp, có thể được phân tích bằng cách sử dụng lí thuyết xác suất Việc ứng dụng lí thuyết xác suất trong phân tích y khoa (còn gọi là ra quyết định trong y khoa) hiện nay đang được sử dụng rộng rãi và có chiều hướng phát triển Một tổng quan cho thấy có tới 7% bài báo về ngoại khoa hay y khoa gia đình sử dụng những phương pháp này và người ta càng ngày càng sử dụng nhiều trong việc đánh giá các kĩ thuật chẩn đoán mới, chọn lựa kĩ thuật chẩn đoán có tính hiệu quả trên chi phí hay chọn lựa các giải pháp điều trị có hiệu quả trên chi phí cho bẹnh nhân Những bác sĩ lâm sàng cũng cần phải hiểu những nguyên lí cơ bản của nội dung này để có thể chăm sóc cho bệnh nhân của mình tốt hơn hay ứng dụng những kiến thức thu lượm được trên các tạp chí chuyên ngành vào thực hành y khoa

2 Ðo lường tính đúng (accuracy) của một thủ thuật chẩn đoán

Một phép đo lường được gọi là đúng nếu nó phản ánh chân thật giá trị nó muốn đo lường

Thí dụ: Một đối tượng có cân nặng thực sự là 60 kg Ðiều tra viên A cân đối tượng đó

và ghi nhận kết quả là 60 kg Ðiều tra viên B cân đối tượng đó và ghi nhận kết quả là

50 kg Ta nói phép cân do điều tra viên A thực hiện là đúng và phép cân do điều tra viên B thực hiện là không đúng

Thí dụ: Một đối tượng không bị nhiễm HIV Nếu một xét nghiệm HIV trên đối tượng

đó ra kết quả dương tính thì xét nghiệm đó là không đúng

Một thủ thuật chẩn đoán được đánh giá tính đúng qua hai khía cạnh: Tính đúng của nó

ở trên các đối tượng bị bệnh (được gọi là độ nhạy cảm) và tính đúng của nó ở trên các đối tượng trong bị bệnh (được gọi là độ chuyên biệt)

Như vậy độ nhạy cảm là tỉ lệ dương tính trên những người bệnh (hay còn là xác suất

Trang 28

a Nếu một bệnh nhân của họ nếu kết quả xét nghiệm là dương tính thì xác suất người này mắc bệnh là bao nhiêu Xác suất này được kí hiệu là P(D+|T+) và còn được gọi là giá trị tiên đoán dương

b Nếu một bệnh nhân của họ nếu kết quả xét nghiệm là âm tính thì xác suất người này thực sự không mắc bệnh là bao nhiêu Xác suất này được kí hiệu là P(D-|T-) và còn được gọi là giá trị tiên đoán âm

Một tình huống cụ thể mà trong đó người bác sĩ lâm sàng phải xác định giá trị tiên đoán dương có thể được minh hoạ trong thí dụ sau:

Một test elisa để chẩn đoán HIV được biết có độ nhạy cảm: P(T+| D+) = 99% và độ chuyên biệt: P(T-| D-) = 90% Một phòng khám thai sử dụng test này để sàng lọc cho các phụ nữ đến khám tiền sản Một phụ nữ được xét nghiệm với test Elisa này và có kết quả dương tính Tính xác suất người phụ nữ thực sự bị nhiễm HIV (giả sử chúng

ta biết rằng tỉ lệ hiện nhiễm HIV ở phụ nữ mang thai là là 1%)

Ðể tính được giá trị tiên đoán dương và giá trị tiên đoán âm, chúng ta cần phải sử dụng một vài thao tác tính toán Có hai cách: phương pháp dựa theo tỉ lệ và phương pháp dựa theo xác suất

Phương pháp dựa theo tỉ lệ

Chúng ta trở lại thí dụ trên và giả sử có tất cả 10.000 phụ nữ đến khám thai và được xét nghiệm với test Elisa này Do tỉ lệ hiện nhiễm HIV là 1% chúng ta sẽ có 100 phụ

nữ thực sự bị nhiễm HIV trong 10.000 phụ nữ này Lập bảng 2 x 2 theo kết quả xét nghiệm và tình trạng nhiễm bệnh như sau:

Bảng 2 Bảng 2 x 2 theo kết quả xét nghiệm và tình trạng nhiễm HIV trên 10.000 phụ nữ khám tiền sản (với tỉ lệ hiện nhiễm là 1%)

Bảng 3 Bảng 2 x 2 theo kết quả xét nghiệm và tình trạng nhiễm HIV trên 10.000 phụ nữ khám tiền sản (với tỉ lệ hiện nhiễm là 1%)

Trang 29

Test + 99

Sử dụng phép toán số học, điền vào các ô còn trống ta được:

Bảng 4 Bảng 2 x 2 theo kết quả xét nghiệm và tình trạng nhiễm HIV trên 10.000 phụ nữ khám

tiền sản (với tỉ lệ hiện nhiễm là 1%)

Như vậy giá trị tiên đoán dương = P (D+|T+) = 99/1089 = 0,09 = 9%

Như vậy, trong thí dụ trên, một người phụ nữ mang thai nếu kết quả xét nghiệm là dương tính thì xác suất người này bị nhiễm HIV thực sự chỉ thấp có 9%

Từ thí dụ này chúng ta có thể rút ra một số kết luận:

a Mặc dù test có thể có tính đúng khá cao (độ nhạy cảm là 99% và độ chuyên biệt là 90%) nhưng nếu thực hiện trên dân số có tỉ lệ hiện nhiễm thấp thì giá trị tiên đoán dương của test cũng thấp

b Trong dân số có tỉ lệ hiện nhiễm thấp, một kết quả xét nghiệm là chưa đủ bởi vì nó

có giá trị tiên đoán dương thấp Muốn chẩn đoán cần phải làm lại một xét nghiệm thuộc nhóm cơ chế khác

Phương pháp dựa theo công thức xác suất toàn phần

Công thức xác suất toàn phần được trình bày ở công thức (1-9) có thể trình bày theo công thức sau:

P(A)=P(A và B) + P(A và không B)

Áp dụng vào các thủ thuật chẩn đoán ta có:

P(T+)=P(T+ và D+) + P(T- và D-)

Hay để dễ nhớ, chúng ta có thể phát biểu công thức toàn phần dưới dạng sau: một người có kết quả xét nghiệm dương có thể người đó có xét nghiệm dương và có bệnh hay có xét nghiệm dương mà không bệnh

Áp dụng công thức xác suất toàn phần ta được

Giá trị tiên đoán dương = P(D+|T+)

)

|()()

|(

)

(

)

|()(

) () (

) ()

(

) ()

|

(

D T P D P D T P

D

P

D T P D P

T D P T D P

T D P T

P

T D P T

Trang 30

Áp dụng công thức trên chúng ta cũng tính được giá trị tiên đoán dương là 9%

Ngoài ra chúng ta có thể xác tính số chênh hậu nghiệm bằng số chênh tiền nghiệm nhân với độ nhạy cảm và chia cho 1 trừ độ chuyên biệt

)(1

)

|

(

)(

)()

|(

)

|()(

)(

)

|()(

)(

)(

sens T

D

Odds

D P

D P D T P

D T P D

T P

T D P T

D P T P

T D P T

T D P T

D

4 Mô hình cây quyết định

Việc ra quyết định y khoa nhằm giúp đánh giá một cá nhân có mắc một bệnh nào đó hay không Nhưng đối với một bác sĩ lâm sàng, điều này là chưa đủ, mà cần phải ra xác định được phương pháp điều trị nào là tối ưu cho bệnh nhân này Thí dụ, một bệnh nhân được chẩn đoán là có sỏi túi mật và người bác sĩ có phải quyết định sẽ xử trí bệnh nhân này như thế nào: phẫu thuật cắt bỏ túi mật hay điều trị bảo tồn

Ðể chọn lựa được quyết định đúng đắn, chúng ta cần phải mô hình hoá các tình huống điều trị của bệnh nhân bằng kĩ thuật được gọi là cây quyết định (decision tree) Việc xây dựng bao gồm 5 bước sau:

Bước 2: Vẽ các nút

Tuy nhiên cách xảy ra các tình huống (các nhánh) không hoàn toàn giống nhau: có một số tình huống có thể quyết định bởi bác sĩ (thí dụ như nên phẫu thuật hay chờ đợi) và có một số tình huống không thể quyết định bởi con người (thí dụ như nếu chờ thì xảy ra các tình huống, ổn định không triệu chứng, đau quặn mật, biến chứng nhiễm trùng hay ung thư, và các tình huống này không thể lựa chọn được) Ðiểm xuất phát của các tình huống được quyết định bởi bác sĩ được gọi là nút quyết định và được kí hiệu bằng hình vuông và điểm xuất phát các tình huống không thể chọn lựa được gọi

là nút cơ hội và được kí hiệu bằng hình tròn Trong lí thuyết xác suất mà chúng ta đã nghiên cứu, nút cơ hội chính là phép thử và các nhánh từ nút cơ hội chính là các biến

cố

Trang 31

Hình 1 Cây quyết định mô hình hoá các tình huống cho bệnh nhân bị sỏi túi mật không triệu chứng

Bước 3: Ghi nhận xác suất xảy ra các nhánh cơ hội

Trên mỗi nhánh từ nút cơ hội, chúng ta ghi nhận xác suất xảy ra tình huống đó Thí dụ nếu điều trị bảo tồn và chờ đợi thì xác suất không có triệu chứng = P(không triệu chứng) = 0,815, P (đau quặn mật) = 0,150, P (nhiễm trùng) = 0,030, P(ung thư) = 0,005

Bước 4: Gán biến số ngẫu nhiên cho các nhánh tận

Ở các nhánh tận (nhánh không chia ra nhánh nào khác) chúng ta gán cho các nhánh này các giá trị của biến số ngẫu nhiên Trong thí dụ trên nếu chúng ta quan tâm đến tử vong thì chúng ta gán biến số ngẫu nhiên X là xác suất tử vong của các tình huống này

Bước 5: Xác định vọng trị của các nhánh quyết định

Sau đó chúng ta hãy xác định vọng trị cho các nút chọn xuất phát từ nút quyết định theo công thức sau:

E(X)=X(e1)P(e1) + X(e2)P(e2) +

5 Chọn lựa điều trị thích hợp

Sau khi chúng ta đã mô hình hóa các tình huống của bệnh nhân, chúng ta có thể chọn lựa điều trị thích hợp bằng cách so sánh xác suất xảy ra biến cố quan tâm Chúng ta có thể thực hiện theo hai phương pháp:

Sử dụng công thức tính vọng trị

Chúng ta tính vọng trị của biến số X (tử vong) khi điều trị bảo tồn và khi điều trị phẫu thuật:

Điều trị phẫu thuật, vọng trị tử vong bằng 0,0040

Phẫu thuật ngay

Trang 32

Do vọng trị của biến X (tử vong) khi điều trị bảo tồn là 0,0095 cao hơn vọng trị của biến X khi phẫu thuật là 0,0040 nên chúng ta quyết định sẽ phẫu thuật cho bệnh nhân

bị sỏi túi mật

Lập luận như trên giúp chúng ta hiểu rõ bản chất của lời giải Tuy nhiên khi cây quyết định quá phức tạp thì việc tính toán cần phải được hệ thống hoá để trở thành thuật toán Khi đó, việc tính toán trở thành tự động và ít bị sai sót

Sử dụng thuật toán

Để phân tích cây quyết định, người ta áp dụng quy tắc sau:

1 Gán tận cùng mỗi nhánh giá trị của nhánh đó (giá trị biến số ngẫu nhiên mà chúng

ta quan tâm)

2 Ði ngược từ nhánh tận cùng lên trên, chúng ta ghi nhận vọng trị của nút cơ hội bằng tổng các tích số xác suất và vọng trị của nhánh xuất phát từ nút đó Vọng trị của nút

cơ hội cũng chính là vọng trị của nhánh đưa đến nút cơ hội đó

3.Tiếp tục cho đến khi gập nút quyết định

4 So sánh kì vọng của các nhánh xuất phát từ nút chọn để ra quyết định

Áp dụng vào thí dụ trên ta có các bước:

1 Ở nhánh tận cùng ghi nhận các vọng trị: nhánh không triệu chứng, vọng trị tử vong

là 0,000, nhánh đau quặn mật, vọng trị tử vong là 0,004, nhánh nhiễm trùng của tử vong là 0,130, nhánh ung thư có vọng trị tử vong là 1,000

2 Ở nhánh chờ, vọng trị tử vong của nhánh = vọng trị của nút chờ

= 0,000  0,815 + 0,004  0,150 + 0,130  0,030 + 1,000  0,005

= 0,0000 + 0,0006 + 0,0039 + 0,0050 = 0,0095

4 So sánh vọng trị của các nhánh xuất phát từ nút chọn để ra quyết định Xuất phát từ nút quyết định gồm nhánh phẫu thuật với vọng trị tử vong là 0,004 và nhánh chờ với vọng trị tử vong là 0,0095 Do đó chúng ta quyết định phẫu thuật

Ở trường hợp trên, chúng ta dùng xác suất tử vong làm biến số ngẫu nhiên quan tâm Chúng ta cũng có thể sử dụng ích lợi (utility) của các nhánh tận cùng làm biến ngẫu nhiên quan tâm Khi đó các bước lập luận cũng tương tự ngoại trừ nếu chúng ta chúng

ta quan tâm đến lợi ích thì nhánh quyết định được chọn sẽ là nhánh có ích lợi cao nhất

Không cường tuyến phó giáp

Trang 33

a Khả năng người này xét nghiệm trả về là T+ là bao nhiêu?

b Tính độ nhạy và độ chuyên của xét nghiệm T

3 Một bệnh nhân nữ 45 tuổi được phát hiện phình mạch một cách tình cờ Người này

cĩ hai lựa chọn: hoặc là phẫu thuật với các khả năng là tử vong, tàn tật hay thành cơng hoặc khơng phẫu thuật với các khả năng bị vỡ phình mạch hoặc khơng bị vỡ phình mạch Cây quyết định cho bệnh nhân này được trình bày trong hình sau (giá trị ghi ở nhánh tận cùng là giá trị lợi ích của tình huống.):

P(Không vỡ)=0,71

P(Vỡ phình)=0,29

Tử vong: 0,55 Tàn tật: 0,15 Thành công: 0,30

U=60,2 U=90,1 U=100

U=0 U=75 U=100 U=100

Hãy lựa chọn giải pháp điều trị phụ hợp cho bệnh nhân này

Bài giải

2.a Khả năng người này xét nghiệm trả về là T+ là bao nhiêu?

P(T+ và D+) = P(T+) x P(D+|T+) = 0,8 x P(T+)

P(T- và D+) = P(T-) x P(D+|T-) = [1-P(T+)] x [1-P(D-|T-) ] = [1-P(T+)] x 0,1

= 0,1 - 0,1 x P(T+)

P(D+)= P(T+ và D+) + P(T- và D+) = 0,8 x P(T+) + 0,1 - 0,1 x P(T+) = 0,7 x P(T+) + 0,1 = 0,3

P(T+)= 2/7

2.b Tính độ nhạy và độ chuyên của xét nghiệm T

Tính độ nhạy của xét nghiệm T

P(T+|D+) = P(D và T+)/P(D) = 0,8 x P(T+)/P(D+) = 0,8 x (2/7) / (3/10) = 0,8

x 2 x 10 / (7 x 3) = 16/21 = 76,2%

Tính độ chuyên của xét nghiệm T

P(T-|D-) = P(D - và T-)/P(D-) = P(T-) x P(D-|T-) /P(D-) = (5/7) x 0,9 / (7/10)

Trang 34

2 Ði ngược từ nhánh tận cùng lên trên, chúng ta ghi nhận vọng trị của nhánh bằng tổng các tích số xác suất và vọng trị của các nhánh con của nĩ (vọng trị của nhánh = ( xác suất của nhánh con x vọng trị của nhánh con)

P(Không vỡ)=0,71

P(Vỡ phình)=0,29

Tử vong: 0,55 Tàn tật: 0,15 Thành công: 0,30

U=60,2 U=90,1 U=100

U=0 U=75 U=100

U=100

76,6 93,3

96,5

3.Tiếp tục cho đến khi gập nút chọn

4 So sánh vọng trị của các nhánh xuất phát từ nút chọn để ra quyết định

Như vậy chúng ta sẽ quyết định phải phẫu thuật phịng ngừa với vọng trị lợi ích là 96,5 tốt hơn vọng trị lợi ích của khơng phẫu thuật là 93,3

Trang 35

PHÂN PHỐI XÁC SUẤT Mục tiêu

Sau khi nghiên cứu chủ đề, học viên có khả năng:

- Phân biệt được 3 phân phối xác suất phổ biến: phân phối nhị thức, phân phối Poisson và phân phối bình thường

- Tính xác suất của phân phối nhị thức và phân phối poisson khi được cung cấp các tham số

- Xác định được phân phối xác suất của phân phối chuẩn ở một giá trị bất kì, được phép sử dụng bảng số của phân phối chuẩn

- Tính tỉ lệ của dân số có một đặc trưng nhất định về một đại lượng có phân phối bình thường khi được cung cấp các tham số và bảng số của phân phối chuẩn

1 Phân phối xác suất

Như đã trình bày,nếu chúng ta chỉ quan tâm đến giá trị đại lượng được xác định bởi kết cục của phép thử,chúng ta mô tả biến cố là biến số ngẫu nhiên Thí dụ nếu chúng

ta tung 3 đồng tiền mà chỉ quan tâm đến số đồng tiên ra mặt ngửa thì chúng ta tạo ra biến số ngẫu nhiên X là số đồng tiền ngửa Khi đó chúng ta có thể kí hiệu (X=1) để chỉ biến cố gồm các kết cuộc có số đồng tiền ngửa là 1 (gồm 3 biến cố Sấp -Sấp - Ngửa; Sấp - Ngửa - Sấp; Ngửa - Sấp - Sấp) Xác suất của biến cố này được được gọi

là phân phối xác suất của X Áp dụng vào thí dụ trên chúng ta có phân phối xác suất của X như sau:

xi Số biến cố thuận lợi f(xi)=P(X=xi) F(xi)=P(X  x)

Xác suất của các biến số ngẫu nhiên X được gọi là hàm khối (mass function) của X -

kí hiệu là f(x) Xác suất tích luỹ của biến số ngẫu nhiên X được gọi là hàm phân phối (distribution function) của X và được kí hiệu là F(x)

Hai đặc tính cơ bản của phân phối xác suất của biến số rời rạc:

(1) 0  P(X=x)  1

(2)  P(X=x) = 1

Có hai phân phối xác suất rời rạc được sử dụng rộng rãi nhất là phân phối nhị thức và phân phối Poision Chúng ta sẽ thảo luận về hai phân phối này và phân phối bình thường trong các phần sau

2 Phân phối nhị thức

Trang 36

) ()1()

()

Thí dụ: giả sử trong một dân số nhất định, tỉ lệ sinh con trai là 52% Nếu chúng ta xem xét kết quả của 5 lần sinh Để tính xác suất trong 5 lần sinh này có đúng 3 lần sinh là con trai có thể lập luận như sau:

- Ðể trong 5 lần sinh có 3 lần sinh con trai, có 5C3 = 5!/[3!x2!] = 10 cách khác nhau (đó là TGTTG, TTTGG, TGGTT, TTGTG, TTGGT, TGTGT, GTTTG, GGTTT, GTGTT, GTTGT) Xác suất xảy ra của một cách như vậy = 0,523

(1-0,52)2= 0,2304 x 0,1406 = 0,032 Như vậy xác suất trong 5 lần sinh có 3 lần sinh là con trai là 10 x 0,032 = 0,32

- Chúng ta cũng có thể xem 5 lần sinh là thử nghiệm nhị thức gồm 5 lần thử đồng nhất

và mỗi lần thử có hai kết cuộc (sinh con trai và sinh con gái ) và xác suất sinh con trai

là 0,52 không thay đổi trong các lần thử Áp dụng hàm mật độ xác suất nhị thức ta được

32,048

,052,0)

3()

3

C X

P f

Thí dụ: Cho rằng 10% thanh niên trong dân số là hút thuốc lá Để tính xác suất có đúng 2 thanh niên hút thuốc lá trong nhóm 10 thanh niên chúng ta có thể sử dụng hàm mật độ xác suất nhị thức với n = 10, x = 2, and p = 0,1 Trong trường hợp này xác suất

là 0,1937

Thí dụ: Giả sử có 30% trẻ dưới 5 tuổi bị suy dinh duỡng Trong một mẫu 10 trẻ dưới

5, tính xác suất có đúng 4 bị suy dinh dưỡng

3 Phân phối Poisson

Bài toán: Giả sử trong một đơn vị thời gian trung bình có  lần xuất hiện kết cục quan

tâm Hãy tính xác suất trong một đơn vị thời gian có x lần xuất hiện kết cục này

Giả định một đơn vị thời gian được chia thành N phân tử thời gian với N là một số vô cùng lớn Khi đó xác suất xảy ra kết cục quan tâm trong một phân tử thời gian là /N Khi đó bài toán có thể được đặt dưới dạng: Thực hiện thử nghiệm nhị thức với N lần thử đồng nhất và xác suất xảy kết cuộc quan tâm trong mỗi lần thử là /N Áp dụng công thức hàm mật độ xác suất nhị thức ta được

)1()

1()

(

)

(

) (

) ( )

(

x

e N

N

x

N

N N

x

x N N

N p

p C x X

P

x

f

x N

x

x

x

x N x

x N x

x N

(

x

e x

Trang 37

Bài toán: Giả sử trong một đơn vị thời gian trung bình có  lần xuất hiện kết cục quan

tâm Hãy tính xác suất trong t đơn vị thời gian có x lần xuất hiện kết cục này

Giả định một đơn vị thời gian được chia thành N phân tử thời gian với N là một số vô

cùng lớn Như vậy trong t đơn vị thời gian có Nt phân tử thời gian Xác suất xảy ra kết

cục quan tâm trong một phân tử thời gian là /N Khi đó bài toán có thể được phát

biểu dưới dạng: Thực hiện thử nghiệm nhị thức với Nt lần thử đồng nhất và xác suất

xảy kết cuộc quan tâm trong mỗi lần thử là /N Áp dụng công thức hàm mật độ xác

suất nhị thức ta được

!

)(1

)1()

1()

()

(

) ( )

(

) ( )

(

x

e t N

x

t N

N x

t

N

N N

x

x Nt Nt

Nt p

p C x X P x

f

t x Nt

x x Nt

x

x x x

x Nt x

x Nt x

x Nt

Một cách tổng quát, phân phối Poisson được dùng làm mô hình cho số lần xuất hiện

các biến số thuận lợi trong một khoảng thời gian (t đơn vị thời gian) khi đã biết ,

trung bình số lần xuất hiện biến cố trong một đơn vị thời gian Hàm khối xác suất

Poisson được trình bày công thức sau

!

)()(

x

e t x

với  là tham số của phân phối và là số lần xuất hiện trung bình của biến cố trong một

khoảng thời gian nhất định (hay trong một không gian nhất định) và e=2,7183

Thí dụ: Giả sử số lần nhập viện trong ngày cấp cứu ở một bệnh viện có phân phối

Poisson với số lần nhập viện trung bình là 3 lần/ngày

Tính xác suất

a Vào ngày 12 tháng 8 năm 2003, có đúng 2 trường hợp cấp cứu

b Vào ngày 12 tháng 8 năm 2003, có 1 trường hợp cấp cứu nào

c Trong một tuần có 7 trường hợp cấp cứu

Tỉ suất

Số lần xuất hiện trung bình của biến cố trong một đơn vị thời gian, , còn được gọi

là tỉ suất (rate) hay mật độ mắc mới (incidence rate) Khác với xác suất,  là đại lượng

có đơn vị Qua hàm khối của phân phối Poisson có thể nhận xét nếu trung bình số lần

xuất hiện của biến cố trong một đơn vị thời gian là  thì trung bình số lần xuất hiện

của t đơn vị thời gian là t

4 Phân phối xác suất của biến liên tục

Giả sử ta muốn tìm phân phối xác suất của biến liên tục (thí dụ như trọng lượng của

trẻ sơ sinh), ta có thể phân loại trọng lượng sơ sinh thành nhiều nhóm nhỏ (thí dụ như

từ 2,0kg đến < 2,1 kg, từ 2,1kg đến < 2,2 kg, v.v) Khi đó biến liên tục sẽ trở thành

biến số rời rạc và ta có thể dùng phương pháp phân phối xác suất của biến rời rạc cho

Trang 38

- Phần diện tích ở dưới đường cong, được bao quanh bởi trục x và hai đường thẳng vuông góc đi qua a và b sẽ là P (a < X ≤ b)

- Phần diện tích ở dưới đường cong nằm ở bên trái của đường thẳng vuông góc đi qua

x là xác suất biến số ngẫu nhiên nhỏ hơn hay bằng x, kí hiệu là P(Xx) hay F(x) được gọi hàm phân phối (distribution function) của biến ngẫu nhiên X

5 Phân phối bình thường

Phân phối bình thường là phân phối xác suất liên tục phổ biến nhất Hình 2 là đồ thị của phân phối xác suất bình thường với trung bình là 0 và độ lệch chuẩn là 1

Hình 2 Phân phối xác suất bình thường

- Phân phối bình thường là phân phối có hàm mật độ:

Với  là trung bình của phân phối với  và 2

là phương sai là độ lệch chuẩn và phương sai của phân phối Để thể hiện biến số X có phân phối bình thường với trung bình là  và phương sai 2

còn có thể sử dụng kí hiệu

X  N(,2

) Phân phối bình thường có 4 đặc tính quan trọng sau:

- Mật độ cao nhất tập trung ở quanh giá trị , càng xa giá trị  hàm mật độ càng giảm

- Hàm mật độ tiến tới zero ở các giá trị cách xa 

- Hàm mật độ đối xứng qua đường thẳng đứng đi qua 

- Ngoài ra từ hàm mật độ của phân phối bình thường người ta chứng minh được nếu biến số có phân phối bình thường với trung bình là  và độ lệch chuẩn , xác suất giá trị biến số nằm từ trung bình – 1,96 độ lệch chuẩn đến trung bình + 1,96 độ lệch chuẩn là 95%

X~N(,2

) => P( - 1,96 <X <  + 1,96) = 0,95 Hay nói khác đi, chỉ có 5% giá trị của biến số X nằm ngoài khoảng  1,96

Phân phối bình thường chuẩn hay còn gọi là phân phối chuẩn là phân phối bình thường có trung bình là zero và độ lệch chuẩn =1

Trang 39

Lưu ý: trong phân phối chuẩn, trục x được gọi là trục z Phân phối bình thường có thể biến thành phân phối chuẩn nếu ta tạo biến ngẫu nhiêu mới z = (x-)/

Thí dụ: Cho một phân phối bình thường, tính P(Z  2,71)

Thí dụ: Cho một phân phối chuẩn, tìm diện tích nằm dưới đường cong, trên trục Z, nằm giữa z=-1 và z=2

Thí dụ: tính xác suất Z được chọn bất kì trong dân số có phân phối bình thường có giá trị từ -2,55 đến +2,55

6 Ứng dụng phân phối bình thường

Mặc dù trong thực tế, không có một phân phối nào là phân phối bình thường một cách chính xác, có nhiều phân phối có thể được coi là xấp xỉ bình thường Khi đó, nếu dùng mô hinh phân phối bình thường thì chúng ta có thể có những suy luận xác suất tiện lợi hơn rất nhiều so với việc sử dụng những phương pháp phức tạp khác Những phân phối được coi là xấp xỉ bình thường là trọng lượng trẻ sơ sinh, chiều cao người trưởng thành, thương số thông minh

Hình 3 Phân phối của phần trăm so với trọng lượng chuẩn của 1750 trẻ em học sinh nhà trẻ Hoa Hướng Dương 15, Q11, Thành phố Hồ Chí Minh (trung bình=92, độ lệch chuẩn =10)

a Ước lượng tỉ lệ dân số có một thuộc tính nhất định

Thí dụ:Thương số thông minh trong một dân số có trung bình =100 và độ lệch chuẩn

15 Chọn ngẫu nhiên một người trong dân số này, tính xác suất người này có thương

số thông minh nhỏ hơn 120

P(IQ<120) = P(Z<(120-100)/15) = P(Z<1,33) =0,9082

Thí dụ: Giả sử trọng lượng của đàn ông ở thành phố Hồ chí Minh có phân phối chuẩn

và có trung bình là 56 kg và độ lệch chuẩn 10 kg Tính xác suất một người đàn ông được chọn ngẫu nhiên có trọng lượng ở giữa 40 kg và 68 kg

P(40 < TL < 68) = P(-1,6 < Z < 1,2) = P(Z< 1,2) – P(Z <-1,6)

Trang 40

P(40 < TL < 68) = P(-1,6 < Z < 1,2) = P(Z< 1,2) – P(Z <-1,6)

= 0,8849 – (1 – 0,9452) = 0,8301

Thí dụ: Trong thành phố Hồ chí minh có cả thẩy 1.000.000 đàn ông trên 20 tuổi Chấp nhận giả định ở thí dụ trên, hãy ước tính ở thành phố Hồ Chí Minh có bao người có trọng lượng lớn hơn 80 kg

P(TL > 80) = P(Z> (80-56)/10) = P(Z>2,4) = 1- P(Z<2,4) = 1-0,9918 = 0,0082

Vì vậy số đàn ông nặng hơn 80 kg = 1.000.000 x 0,00820 = 8200 người

b Chẩn đoán cho cá nhân

Thí dụ: Theo tổ chức y tế thế giới, đứa trẻ 32 tháng bình thường có trọng lượng trung bình là 14 kg với độ lệch chuẩn là 1,5 kg Một đứa trẻ 32 tháng nặng 13 kg có phải là bất bình thường về dinh dưỡng hay không?

Ðể trả lời câu hỏi này chúng ta phải xét hiện tượng đứa trẻ 32 tháng nặng 13 kg có phổ biến hay không

P(TL <13) = P(Z < - 0,66) = 1 – P(Z>0,66) = 1 – 0,7454 = 0,2546

Vì có đến 25,46% trẻ 32 tháng có trọng lượng 13 kg hay nhẹ hơn nên cân nặng này không phải là bất thường

Ðứa trẻ 32 tháng nặng 9 kg có phải là bất thường về dinh dưỡng hay không?

Tương tự như câu hỏi trước đó, chúng ta phải xét hiện tượng đứa trẻ 32 tháng nặng 9

kg có phổ biến hay không

Thí dụ: nếu đường huyết có phân phối bình thường với trung bình là 100 mg% và độ lệch chuẩn là 10 mg% Hỏi khoảng giá trị bình thường của đường huyết là bao nhiêu? Khoảng giá trị bình thường của đường huyết tương ứng với - 1,96 < Z < 1,96 hay

100 - 1,96  10 < đường huyết < 100 + 1,96  10 hay từ 80-120 mg%

Bài tập

Bài tập phân phối nhị thức

1 Giả sử bệnh nhân bị viêm màng não có tỉ lệ tử vong là 10% Trong khoa lây của bệnh viện, hiện có 10 bệnh nhân bị viêm màng não Tính xác suất:

a Không có ai sống sót

b Có ít nhất hai người bị chết

c Có đúng 3 người bị chết

Bài giải:

Ngày đăng: 24/10/2020, 00:52

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w