TRƯỜNG CAO ĐẲNG Y TẾ BÌNH DƯƠNG KHOA KHOA HỌC CƠ BẢN GIÁO TRÌNH MÔN HỌC XÁC SUẤT VÀ THỐNG KÊ Y DƯỢC Giảng viên Ts Nguyễn Hồng Chương 15 Lưu hành nội bộ năm 2016 MỤC LỤC Thông tin chung về khóa học ii Một số khái niệm căn bản về xác suất 1 Một số khái nhiệm về toán học tổ hợp 4 Biến số và thống kê mô tả 6 Phân phối mẫu ước lượng 9 Kiểm định giả thiết thống kê – kiểm định Z 17 Kiểm định t cho một trung bình 24 Kiểm định t để so sánh hai trung bình 28 Phân tích phương sai 32 Phân tích Chi bình phươ.
Trang 1TRƯỜNG CAO ĐẲNG Y TẾ BÌNH DƯƠNG
KHOA KHOA HỌC CƠ BẢN
GIÁO TRÌNH MÔN HỌC
XÁC SUẤT VÀ THỐNG KÊ Y DƯỢC
Giảng viên: Ts Nguyễn Hồng Chương
Lưu hành nội bộ năm 2016
Trang 2MỤC LỤ
Thông tin chung về khóa học ii
Một số khái niệm căn bản về xác suất 1
Một số khái nhiệm về toán học tổ hợp 4
Biến số và thống kê mô tả 6
Phân phối mẫu - ước lượng 9
Kiểm định giả thiết thống kê – kiểm định Z 17
Kiểm định t cho một trung bình 24
Kiểm định t để so sánh hai trung bình 28
Phân tích phương sai 32
Phân tích Chi bình phương 38
Tương quan và hồi quy tuyến tính 42
Phụ lục 48
Trang 3THÔNG TIN CHUNG VỀ KHÓA HỌC
Về kiến thức: Nắm được các khái niệm cơ bản về xác suất thống kê như: xác suất, toán học
tổ hợp, biến số, nguyên tắc kiểm định thống kê
Bổ sung các nội dung toán học phục vụ cho thống kê y, dược như: thống kê mô tả, mẫu vàphân bố mẫu, ước lượng điểm và ước lượng khoảng, kiểm định giả thiết thống kê, hệ số tươngquan và phương trình hồi quy tuyến tính
Về kỹ năng: Sinh viên biết cách vận dụng giải các bài toán ứng dụng và xử lý được các bài
toán thống kê trong y dược Áp dụng được các phương pháp thống kê vào những nghiên cứukhoa học sau này của mình
Thực hiện được các kiểm định thống kê dùng trong y, dược như: kiểm định Z, kiểm định T,kiểm định Chi bình phương, phân tích phương sai, hệ số tương quan và phương trình hồi quytuyến tính… Có khả năng tự phân tích số liệu và lý giải kết quả phân tích bằng các phần mềmthống kê
Về thái độ: Nhận thức được ý nghĩa các số liệu thống kê.
1 Tham dự đầy đủ tất cả các giờ học, nếu vắng măt phải có đơn xin phép
2 Hoàn thành các bài tập về nhà (theo từng cá nhân)
3 Không nói chuyện trong giờ học, tích cực tham gia thảo luận khi được yêu cầu
4 Mỗi học sinh cần in và mang theo giáo trình này vào lớp
5 Phương tiện học tập: Mỗi học sinh phải đem theo một máy tính cầm tay khi học
Điểm học phần được tính theo: Điểm chuyên cần và thái độ học tập; điểm bài tập về nhà;
điểm kiểm tra trong lớp học và điểm thi kết thúc học phần
Trang 4Bài 1 MỘT SỐ KHÁI NIỆM CĂN BẢN VỀ XÁC SUẤT
I ĐỊNH NGHĨA VỀ XÁC SUẤT
Xác suất là tần suất tương đối cho một biến cố xảy ra Xác suất của một biến cố A được đo bằng tỉ số giữa số kết cục xảy ra biến cố A với tổng số kết cục có thể có được trong một phép thử ngẫu nhiên
(2) Có tính loại trừ lẫn nhau: Không có nhiều hơn một biến cố xảy ra đồng thời Ví dụ, khi tung một xúc xắc, nếu ra mặt 1 thì không thể đồng thời ra mặt 2 hay ra mặt 3…
Ví dụ: Xác xuất của mặt sấp đồng tiền khi tung đồng xu là P(A) = n[A]/N= 1/2 = 0.5
Xác xuất ra mặt 5 của một lần tung xúc xắc là P(B) = n[B]/N= 1/6 = 0.166 Các kếtcục của mỗi mặt này loại trừ lẫn nhau và có cùng một xác suất
Tung hai đồng tiền cùng một lúc, có 4 kết cục đồng khả năng xảy ra là SS, SN, NS, và
NN Xác suất xảy ra để cả hai mặt đều sấp là P(SS) = n[SS]/N = 1/4 = 0.25
Thực hành tại lớp:
1 Tính xác xuất khi rút ra ngẫu nhiên 1 con Cơ trong bộ bài tây
2 Tính xác xuất khi rút ra ngẫu nhiên 1 con Át đỏ trong bộ bài tây
3 Tính xác xuất khi rút ra ngẫu nhiên 1 con có số trong bộ bài tây
4 Giới tính của bệnh nhân tại khoa Nhi và khoa Lao tại bệnh viện A như bảng sau:
Chọn một bệnh nhân bất kỳ tại hai khoa trên, tính
- Xác suất của một bệnh nhân nằm tại khoa Lao
- Xác suất của một bệnh nhân là Nam
Trang 5II CÁC VẤN ĐỀ LIÊN QUAN ĐẾN XÁC XUẤT
1 Miền giá trị Giá trị của một xác xuất nằm trong miền giá trị từ 0 đến 1
do 0 ≤ n[A] ≤ N
nên 0/N ≤ n[A]/N ≤ N/N hay 0 ≤ P(A) ≤ 1 (1.1)
2 Biến cố đối lập Số lượng tổng các kết cục trong một một phép thử ngẫu nhiên luôn luôn
bao gồm hai khả năng đối lập nhau, biến cố A xảy ra và biến cố A không xảy ra (ký hiệu là ´A ).
Hai biến cố này loại trừ lẫn nhau
3 Số chênh (Odds) Vì miền giá trị của một xác xuất là [0, 1] nên cần các phương pháp
khác đo lường xác xuất theo một biểu thức tuyến tính để mở rộng miền giá trị Một trong nhữngphương pháp đó là sử dụng số chênh Số chênh của một biến cố A là:
Odds ( A )= P( A)
P(A´)=
P( A)
1−P( A)
Do vậy miền giá trị của số chênh là đoạn [0, +∞)
Ví dụ: P(2 mặt cùng sấp) là 1/4 Odds của biến cố này là 1/4:3/4 = 1:3 Ý nghĩa của số chênhnày là trong một cuộc chơi công bằng, khi đặt cược 1 đồng thì nếu thắng sẽ được 3 đồng
4 Tỉ số nguy cơ (Odds Ratio)
Rất thường dùng trong dịch tễ học để đo lường các yếu tố nguy cơ Tỉ số nguy cơcủa một biến cố A được tính như sau;
Odds(biếncố A khi không có yếu tố nguy cơ )
Ví dụ: Trong một nghiên cứu dịch tễ học để khảo sát mối tương quan giữa chế độ ăn và bệnh
tăng huyết áp, kết quả như sau:
Có tăng huyết áp Không tăng huyết áp Tổng
Trang 6P ( A )=và P(´A)=Odds ( A )= P( A)
P(A´ )=
40/300260/300=0.15
Tỉ số nguy cơ là:
0.430.15=2.8
Ý nghĩa: Người ăn mặn có nguy cơ tăng huyết áp gấp…… lần so với người không ăn mặn Bài tập về nhà
Bài tập 1 Phân bố giữa nhóm máu và giới tính của một nhóm bệnh nhân như sau:
Giới tínhNhóm máu
1 Tính xác suất của một người được lựa chọn ngẫu nhiên có nhóm máu A, B, O, và AB.
2 Tính xác suất của một người được lựa chọn ngẫu nhiên là Nữ và có nhóm máu AB
Bài tập 2 Khảo sát mối quan hệ giữa hút thuốc lá và nhồi máu cơ tim trên nam giới tuổi trung
niên:
Hút thuốc Không hút thuốc Tổng
Tổng
1 Tính số chênh của bệnh nhân nhồi máu cơ tim có hút thuốc lá
2 Tính số chênh của bệnh nhân nhồi máu cơ tim không hút thuốc lá
3 Tính tỉ số nguy cơ do hút thuốc lá và nhồi máu cơ tim Diễn giải bằng lời kết luận tìm được
Trang 7Bài 2 MỘT SỐ KHÁI NHIỆM VỀ TOÁN HỌC TỔ HỢP
Toán học tổ hợp (hay giải tích tổ hợp, đại số tổ hợp, lý thuyết tổ hợp) là một ngành toán học rời rạc, nghiên cứu về các cấu hình kết hợp các phần tử của một tập hữu hạn phần tử Các cấu hình đó là các hoán vị, chỉnh hợp, tổ hợp, các phần tử của một tậphợp Toán học tổ hợp có liên quan đến nhiều lĩnh vực khác của toán học, như đại số, lý thuyết xác suất, hình học; cũng như đến các ngành ứng dụng như khoa học máy tính, kinh tế, vật lý và thống kê y học
Trong phạm vi của bài học này chúng ta chỉ nghiên cứu các khái niệm về hoán vị (arrangement), chỉnh hợp (permutation) và tổ hợp (combination)
1 Hoán vị (Arrangement): Là cách sắp xếp những đối tượng phân biệt theo những thứ tự khác
nhau
a Ví dụ 1: Có 3 học sinh A, B, C ngồi cùng một bàn Số cách sắp xếp 3 học sinh đó
có thể suy luận như sau:
- Học sinh A có thể chọn 1 trong 3 chỗ ngồi, như vậy có tất cả 3 cách chọn
- Học sinh B có thể chọn 1 trong 2 chỗ còn lại, như vậy có tất cả 2 cách chọn
- Học sinh C chỉ còn duy nhất 1 chỗ còn lại, như vậy có 1 cách chọn
Một đoàn khách du lịch dự định đến tham quan 7 điểm du lịch A, B, C, D, E, F
và G Hỏi hướng dẫn viên có bao nhiêu cách khác nhau để sắp xếp cho đoàn du lịch đi tham quan tất cả 7 điểm trên (Đáp số 5040 cách chọn)
2 Chỉnh hợp (Permutation): Là cách chọn k đối tượng, có chú ý đến thứ tự, từ n đối tượng cho
trước
a Ví dụ 2: một nhân viên được giao 5 công việc (A, B, C, D, E) trong một tuần
Buổi sáng anh ta hoàn thành một công việc và buổi chiều hoàn thành một công việc khác Khi đó các cách để anh ta tiến hành làm các công việc trên như sau:
Mỗi cách chọn lựa trên là một chỉnh hợp Số lượng các chỉnh hợp trên có thể suy luận như sau
- Để chọn công việc đầu tiên, anh ta có 5 cách chọn
- Để chọn công việc buổi chiều, anh ta có 4 cách chọn
Như v ậ y s ố c á ch ch ọ nl à 5 x 4=20= 5 !
3 !=
5 ! (5−2) !
Trang 83 Tổ hợp (Combination): Là cách chọn k đối tượng, không để ý đến thứ tự lựa chọn, từ n đối
tượng cho trước
a Ví dụ 3: Trong 5 công việc mà anh nhân viên làm trong một tuần Nếu mỗi ngày
anh ta có thể làm cùng lúc 2 công việc khác nhau, trong trường hợp này thứ tự trước sau không quan trọng, ví dụ AB và BA là đồng nhất Các cách để anh ta lựa chọn như sau:
c Thực hành tại lớp: Trong buổi lễ khai giảng năm học, nhà trường yêu cầu một
lớp chọn ra 4 học sinh nam và 3 học sinh nữ tham gia buổi lễ Hỏi có bao nhiêu cách lựa chọn nếu biết rằng lớp đó có 20 học sinh nam và 15 học sinh nữ (Đáp số 2204475 cách chọn).
Bài tập về nhà:
Bài tập 1 Một người muốn trồng 6 cây ăn trái sau nhà thành một hàng (cam, dừa, bưởi, chuối,
mãng cầu và ổi) Nếu anh ta muốn trồng theo ý muốn, thì anh ta có bao nhiêu cách sắp xếp các cây trồng
Bài tập 2 Một lớp học có 20 học sinh Có bao nhiêu cách để chọn một ban các sự lớp gồm 3
người ( lớp trưởng, lớp phó 1, và lớp phó 2)
Bài tập 3 Một trường học có 5 nữ và 6 nam giáo viên Trường đó chọn một hội đồng gồm 4
người
a Có bao nhiêu cách chọn sao cho hội đồng đó có 3 nữ và 1 nam giáo viên
b Có bao nhiêu cách chọn sao cho hội đồng đó có ít nhất 3 nữ giáo viên
Trang 9Bài 3 BIẾN SỐ VÀ THỐNG KÊ MÔ TẢ
A Một số thuật ngữ về thống kê
1 Dân số (population): là một tập hợp tất cả các cá nhân có cùng một đặc tính nào đó, như
dân số học sinh cao đẳng-đại học Việt nam, dân số trẻ sơ sinh có cân nặng dưới 2500gram.Thông thường ta không thể biết rõ ràng về các chỉ số của dân số
2 Mẫu (sample): là một nhóm các nhân rút ra từ dân số Chúng ta có thể đo lường các chỉ
số của mẫu được chọn để ước lượng các chỉ số của dân số
3 Chỉ số (parameter hay statistic): là các thống kê bằng số để mô tả các đặc điểm của
dân số hay mẫu
B Tổng quan về biến số
I Định nghĩa.
Do nghiên cứu khoa học là việc thu thập, phân tích và lí giải số liệu để giải quyết vấn đề nghiên cứuhay trả lời một câu hỏi nghiên cứu nên nghiên cứu khoa học cần phải thu thập thông tincác đặc tính hay các đại lượng của đối tượng Các đặc tính hay đại lượng này được gọi làbiến số Biến số là những hiện tượng, hoặc đặc tính, thay đổi từ người này sang ngườikhác, hoặc thay đổi trên một người ở những thời điểm khác nhau
II Các loại biến số
1 Biến số định tính:
a Biến số danh định:
Định nghĩa: Là biến số mà giá trị của nó không thể biểu thị bằng số mà phải biểu diễn bằng
một tên gọi và các giá trị này không thể sắp đặt theo một trật tự từ thấp đến cao
Thí dụ: Dân tộc (với các giá trị: Kinh, Khmer, Hoa, Chăm…), giới tính (nam,
nữ) là các biến số danh định vì ta không thể sắp xếp các giá trị này từ theo một trật tự từ thấpđến cao hay ngược lại
b Biến số thứ tự:
Định nghĩa: Là biến số biến số danh định nhưng có thể sắp xếp thứ tự được
Thí dụ: Tình trạng học vấn (với các giá trị: dưới tiểu học, dưới trung học, hết
trung học, cao đẳng và đại học) là các biến số thứ tự vì chúng phản ánh trình độ học vấn cao thấptừng người
Lưu ý:
- Biến số danh định và biến số thứ tự có một dạng đặc biệt, đó là biến số nhị biến, trong đó mỗi biến số chỉ
có 2 giá trị như 0 và 1 hoặc A và không A…
- Biến số danh định và biến số thứ tự còn gọi là các biến số có phân phối rời rạc
2 Biến số định lượng (còn gọi là biến số liên tục)
a Định nghĩa: Là biến số mà những giá trị của nó có thể là số nguyên hoặc phân số Giữa
hai giá trị của một biến số liên tục có mọi giá trị đi liền nhau Các giá trị có thể đo lường được
và thể hiện bằng một đại lượng hoặc thang đo nào đó Biến số định lượng có thể đo lường trựctiếp như chiều cao, cân nặng, tuổi… hay không thể đo lường trực tiếp được như kiến thức nuôicon của bà mẹ, mức độ đắc khí, mức độ hài lòng của bệnh nhân, kiến thức của bà mẹ về thựchành chăm sóc trẻ…
Trang 10b Thí dụ: Nhiệt độ là biến số biến số liên tục với những giá trị 370C, 380C, 390C Giữahai giá trị 370C và 380C có vô số giá trị đi liền nhau, thí dụ như 37,10C, 37,20C, 37,250C…
C Thống kê mô tả
Thống kê mô tả là phương pháp dùng để mô tả những đặc tính cơ bản của dữ liệu thu thập được từ nghiên cứu thực nghiệm qua các cách thức khác nhau
1 Thống kê mô tả cho biến số định tính
Đối với biến số định tính (danh định và thứ tự), người ta thường dùng số lượng và tỉ lệ (ví
dụ tỉ lệ phần trăm) để mô tả biến số
2 Thống kê mô tả cho biến số định lượng hay liên tục
2.1 Thống kê mô tả về khuynh hướng tập trung
a Trung bình (Mean, ký hiệu là ´X¿ Trung bình của một biến số x là tổng của tất cả giá trị của x chia cho số lần quan sát (N)
Ví dụ: Chiều cao của 10 sinh viên nam được chọn ngẫu nhiên từ CĐYT như sau: 1,56;
1,72; 1,69; 1,70; 1,64; 1,60; 1,59; 1,73; 1,67; 1,68m Trung bình chiều cao của nhóm sinh viên là
´
X =¿1,56 + 1,72 + 1,69 + 1,70 + 1,64 + 1,60 + 1,59 + 1,73 + 1,67 + 1,68)/10 = 1,658
b Trung vị (Median, ký hiệu là M) Khi một bộ dữ kiện được sắp xếp theo thứ tự, trung
vị là giá trị chia đôi bộ dữ kiện đó thành hai phần bằng nhau
Tính trung bình, trung vị và yếu vị (ĐS: 39, 39.5, 41)
2.2 Thống kê mô tả về khuynh hướng phân tán
a Phương sai (Variance, ký hiệu là S2x) Phương sai dùng để đánh giá độ phân tán của dữkiện xung quanh giá trị trung bình Phương sai được tính bằng trung bình bình phương của độ lệch (deviation)
Với (x i− ´X) là độ lệch (deviation), (x i− ´X )2 là tổng bình phương (sum of squares,
ký hiệu là SS) và n - 1 là độ tự do (degree of freedom, ký hiệu là DF, Df, dF, df)
b Độ lệch chuẩn (Standard deviation, ký hiệu là SD hay Sx) Độ lệch chuẩn được tính bằng căn bậc hai của phương sai, có cùng đơn vị như bộ dữ kiện
S x=❑√S2x=❑√ 1
i=1 n
¿ ¿ ¿
Trang 11Ví dụ Với số liệu của cân nặng của các bé trai 10 tuổi, phương sai và độ lệch chuẩn
được tính như sau:
S2x=¿ ¿
SD = S x=❑√7,556=29 kg
c Phạm vi (Range) là tất cả các giá trị từ vị trí thấp nhất đến vị trí cao nhất
Ví dụ Với số liệu của cân nặng của 17 bé trai 10 tuổi, phạm vi là từ 33 đến 42
hay Range = 42– 33 = 9
Các thông số được sử dụng nhiều nhất trong thống kê mô tả là trung bình (Mean), phương sai (Variance) và độ lệch chuẩn (Standard Deviation)
BÀI TẬP VỀ NHÀ
Bài tập 1 Những biến số sau đây loại nào là biến số danh định, biến số thứ tự và biến số liên tục, tình
trạng hôn nhân, tình trạng kinh tế xã hội (giàu, khá, trung bình, nghèo, rất nghèo), chiều cao của học sinh cao đẳng y tế, nhóm máu (A, B, AB và O), huyết áp (huyết áp bình thường, huyết áp cao nhẹ, vừa, và nặng), chỉ số IQ, năm sinh
Bài tập 2 Tính các chỉ số để mô tả thống kê một mẫu sau: 7, 5, 6, 4, 9, 12, 5, 4, 3, 10, 9, 7, 5, 6,
10, 8, 5
Trang 12Bài 4 PHÂN PHỐI MẪU - ƯỚC LƯỢNG
A Đại cương về mẫu và phương pháp lấy mẫu
Trong nghiên cứu, chúng ta muốn kết quả của các số liệu được khái quát cho toàn
bộ dân số có các đặc tính cần quan tâm (được gọi là dân số mục tiêu), nhưng chúng tathường không thể thu thập số liệu trên toàn bộ dân số lớn như vậy Thông thường, chúng
ta chỉ có thể thu tập số liệu trên một nhóm đối tượng để từ đó khái quát hóa cho toàn bộdân số Nhóm đối tượng đó được gọi là mẫu (sample) nghiên cứu Vì thế phương phápchọn mẫu rất quan trọng để các kết quả có thể áp dụng lên dân số Tiêu chuẩn quan trọng
là cỡ mẫu (sample size) phải đủ lớn và phương pháp lấy mẫu phải có tính đạidiện.Nguyên tắc chung là mẫu phải được chọn một cách ngẫu nhiên từ dân số mục tiêu
3 Phân phối bình thường: là phân phối có hàm mật độ là:
Để thể hiện biến số X có phân phối bình thường với trung bình µ và phương sai
σ2 có thể sử dụng ký hiệu
X ~ N(µ, σ2)
4 Các đặc tính của phân phối bình thường
Có dạng hình chuông (Bell-shaped), tập trung cao nhất ở giá trị µ, càng xa giá trị µ hàmmật độ càng giảm
Đối xứng qua đường thẳng đứng đi qua giá trị trung bình (µ), Mean = Median = Mode
Liên tục
Tiếp cận, nhưng không cắt trục hoành
Tổng toàn bộ diện tích dưới đường cong là 1.00
Trang 13 Gần 68% nằm trong khoảng 1 độ lệch chuẩn xung quanh giá trị trung bình, 96% nằmtrong khoảng 2 độ lệch chuẩn xung quanh giá trị trung bình, 99,7% nằm trong khoảng 3
độ lệch chuẩn xung quanh giá trị trung bình
5 Phân phối chuẩn: là phân phối bình thường có trung bình là 0, phương sai và độ lệch chuẩn
là 1 Phân phối chuẩn có ký hiệu X ~ Z(0, 1)
6 Chuẩn hóa phân phối bình thường
Một phân phối bình thường X ~ N(µ, σ2) có thể chuyển thành phân phối chuẩn nếu ta tạo một biến ngẫu nhiên mới Z, với
Biến số Z sẽ có phân phối chuẩn với µ = 0 và σ = 1
Đơn vị của trục hoành là độ lệch chuẩn Chữ số ở dưới đường cong thể hiện diện tích (hay xác suất) của vùng đó Chúng ta có thể tìm các chỉ số này dựa theo phụ lục A
Trang 14Ví dụ: Cho một phân phối chuẩn, tìm diện tích dưới đường cong nằm dưới giá trị Z = 1,5
Tra phụ lục A, ta có P(Z ≤ 1,5) = 0,933 hay 93,32% của toàn bộ diện tích
Diện tích dưới đường cong nằm trên giá trị Z = 1,5 ?
Ví dụ: Cho một phân phối chuẩn, tìm diện tích dưới đường cong nằm giữa giá trị Z = -1 và 2
P(-1 ≤Z ≤ 2) = P(Z ≤ 2) - P(Z ≤ -1) = 0,977 – 0,159 = 0,818
Ví dụ: Giả sử cân nặng của bé trai 10 tuổi là một phân phối bình thường với µ = 43 kg và độ
lệch chuẩn là 5 kg Tính (1) xác suất các bé có cân nặng dưới 35,5kg, (2) các bé có cân nặng từ
34 đến 52 kg, và (3) tỉ lệ bé trai có cân nặng trên 65kg ? (
(1) Chuẩn hóa phân phối bình thường, ta có:
Hay 92,8 % b é trai trong d â n s ố c ó c â n n ặ ng t ừ 34 đế n 52kg
(3) Tỉ lệ bé trai có cân nặng trên 65kg ? (ĐS 0
,005)
*Lưu ý: Tất cả các phép tính trên chỉ có chính xác khi mẫu hay dân số có phân phối bình
thường Nếu phân phối bị lệch (lệch trái, lệch phải, có nhiều đỉnh…) thì kết quả không còn chính xác nữa
B Định lý giới hạn trung tâm (Central limit theorem) - Phân phối trung bình mẫu
Trang 15Nếu có các mẫu x1, x2,…,xn được rút ra ngẫu nhiên và độc lập từ một dân số có trungbình µ và phương sai σ2 (gọi là dân số mẹ), trung bình của các mẫu đó ( ´x1, ´x2, , ´x n) sẽ có mộtphân phối xấp xỉ bình thường nếu n đủ lớn, với
Nếu n đủ lớn, phân phối trung bình của các mẫu sẽ chuẩn bất kể dân số mẹ có
phân phối bình thường hay không Đây là một đặc tính rất quan trọng, giúp chúng ta cóthể áp dụng phân phối bình thường lên các mẫu nghiên cứu
Ví dụ: Nếu ta tung một lần 4 con xúc xắc, rồi tính trung bình số điểm mỗi lần tung Chúng ta
biết rằng giá trị trung bình và phương sai của dân số mẹ là 3.5 và 35/12 (thực hành tại lớp) Giả
sử một nhà nghiên cứu tung 1296 lần như vậy, kết quả như bảng sau;
Trung bình 1.00 1.25 1.50 1.75 2.00 2.25 2.50 2.75 3.00 3.25 3.50
f(x) 0.001 0.003 0.008 0.015 0.027 0.043 0.062 0.080 0.096 0.108 0.113Trung bình 3.75 4.00 4.25 4.50 4.75 5.00 5.25 5.50 5.75 6.00 tổng
Trang 16nhỏ Nếu phân phối của dân số mẹ có dạng gần đối xứng, cỡ mẫu là 10 là đủ để phânphối trung bình mẫu bình thường Tuy nhiên nếu dân số mẹ bị lệch nhiều thì đòi hỏi cỡmẫu phải nhiều hơn Đây là một đặc tính rất quan trọng, giúp chúng ta có thể áp dụngphân phối bình thường lên các mẫu nghiên cứu
Ví dụ minh họa: Nếu trong 10.000 lần quan sát các mẫu sau được rút từ dân số mẹ
Thực hành tại lớp
Một mẫu gồm 64 cá thể được rút ngẫu nhiên từ một dân số có µ = 4 cm và σ2 =
25 cm2, Tính xác suất mà trung bình của mẫu đó nằm giữa 3,5 và 4,5 cm
Ký hiệu như sau: P(3,5 cm≤ ´X ≤ 4,5 cm)=¿
Do cỡ mẫu tương đối lớn, áp dụng định lý giới hạn trung tâm ta thấy phân phốitrung bình của mẫu có phân phối xấp xỉ bình thường Ta có thể chuẩn hóa giá trị 3.5 và4,5 rồi dùng phụ lục A để tính
Trang 17Nhận xét: Khi cỡ mẫu tăng lên, trung bình của mẫu sẽ tập trung quanh trung bình của dân số
(μ), phương sai của phân phối trung bình mẫu giảm đi (vì ), phương sai của phân phối trung bình mẫu giảm đi (vì σ2´X=σ2X/n)
Bình thường hóa phân phối nhị thức
Phân phối nhị thức là phân phối của biến số chỉ nhận hai giá trị là 0 và 1 Trungbình và phương sai của một phân phối trung bình mẫu rút ra từ một phân phối nhị thứcnhư sau:
σ ´X =
p−π
Thì Z có một phân phối chuẩn
Ví dụ: Trong một dân số có tỉ lệ nam và nữ tương đương nhau Nếu chọn ngẫu nhiên 50 người từ
Giả sử nếu ta quan tâm đến những tỉ lệ từ 0,44 đến 0,56, xác xuất để mẫu của ta nằm trongkhoảng đó là bao nhiêu?
Thực hành tại lớp: Giả sử tần suất bệnh viêm gan siêu vi B ở Việt nam là 20% Nếu ta chọn
một mẫu n=100 người, tính xác suất nếu tỉ lệ VGSV của mẫu đó từ 15-25%
Trang 18C Ước lượng khoảng tin cậy
Ước lượng là một trong hai phương pháp chính sử dụng trong phân tích thống kê(phương pháp kia là kiểm định, sẽ được trình bày trong những bài sau) Ước lượng làthuật ngữ ám chỉ việc dùng những chỉ số có được trên mẫu để khái quát hóa ra dân sốmục tiêu Có hai dạng là ước lượng điểm (point estimate) và là ước lượng khoảng(interval estimate)
1 Ước lượng điểm: Sử dụng một chỉ số điểm của mẫu để ước lượng chỉ số của dân số, thông
thường nhất là dùng giá trị trung bình
´
X =μ , nếu là phân phối nhị thức , ký hiệulà p=π hay ρ
2 Ước lượng khoảng: Sử dụng một khoảng giá trị với một độ tin cậy nào đó mà có thể chứa
được chỉ số của dân số trong đó Thông thường hay chọn khoảng tin cậy 95% (95%
confidence interval, viết tắt 95%CI), ám chỉ rằng 95% chỉ số của dân số (ví dụ μ¿ nằm trongkhoảng này
Công thức chung tính ước lượng khoảng như sau:
* 1-α là độ tin cậy và z 1−α/ 2 là bách phân vị của phân phối chuẩnTrong thống kê ta hay chọn chọn khoảng tin cậy 95%, với α = 0,05 Tra phụ lục A ta có
z 1−α/ 2=1,96 Nếu khoảng tin cậy là 99%, thì α = và z 1−α/ 2=¿
Trong thực hành, ta tính khoảng tin cậy 95% như sau:
Giới hạn trên= ´X +z 1−α /2 σ
√n= ´X +1,96
σ
√n(4.12)Giới hạn dưới= ´X−z 1−α/ 2 σ
√n= ´X −1,96
σ
√n
3 Ứng dụng tìm khoảng tin cậy 95% cho một dân số đã biết phương sai (σ 2 )
Ví dụ: Cân nặng bé 6 tháng tuổi trong dân số có phương sai σ2 =1kg2 Trong một mẫu nghiên cứa
30 em bé, ta đo được giá trị trung bình là 6,5kg
Trang 19Gi ớ i h ạ n d ướ i= ´X−1,96 σ
√n=6,5−1,96
1
√30=6,14Kết luận rằng 95% khả năng giá trị trung bình của dân số nằm trong khoảng [6,14 , 6,86]
Thực hành tại lớp: tìm khoảng tin cậy 99% của dân số trên
c P (Z ≤−a hoặc Z ≥ a)=0.10
3 Cho một phân phối bình thường với µ=50 và σ2=25, tìm
a Xác suất để cho một quan sát ngẫu nhiên lớn hơn 50
b Xác suất để cho một quan sát ngẫu nhiên nằm trong khoảng từ 40 đến 60
4 Nếu chiều cao của bé 1 tuổi là một phân phối bình thường với µ=70 cm và σ2=2cm2, tìm
a Xác suất để cho một bé được chọn ngẫu nhiên cao trên 74cm
b Xác suất để cho một bé được chọn ngẫu nhiên cao trên 66cm nhưng thấp hơn 68cm
5 Giả sử chiều dài cánh của muỗi là một phân phối chuẩn có σ2=0.25mm2 (nhưng chưa biết µ).Trên một mẫu gồm 16 muỗi ta đo được chiều dài cánh trung bình là 4,5 mm Tìm
a Khoảng tin cậy 90% cho µ, diễn giải bằng lời kết quả tìm được
b Khoảng tin cậy 95% cho µ, diễn giải bằng lời kết quả tìm được
c Khoảng tin cậy 99% cho µ, diễn giải bằng lời kết quả tìm được
Trang 20Bài 5
KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ – KIỂM ĐỊNH Z
A Một số khái niệm
1 Giả thiết thống kê (statistical hypothesis) là một mệnh đề để xác nhận hay phỏng đoán liên
quan tới một hay nhiều hiện tượng nào đó, là tiền đề cho những khám phá sâu hơn Trongnghiên cứu khoa học, giả thiết thường là những mối liên hệ giữa một hay nhiều biến số
Ví dụ - Tỉ lệ bà mẹ mang thai nhiễm HIV là 0.5% trong toàn bộ dân số
- Thuốc hạ huyết áp A có tác dụng trên bệnh nhân bị cao huyết áp
2 Kiểm định giả thiết thống kê (statistical hypothesis test) là phương pháp dựa trên những
thông tin về mẫu để cho phép bác bỏ hay chấp nhận giả thiết thống kê Các bước chính tiếnhành kiểm định giả thiết thống kê bao gồm:
(1) Xây dựng giả thiết không (H0)
(2) Lựa chọn kiểm định thích hợp
(3) Tính giá trị thống kê của phép kiểm định
(4) Chấp nhận hay bác bỏ H0
Xây dựng giả thiết không (H 0 )
Giả thiết không, ký hiệu là H0, là một mệnh đề âm tính cho rằng không có sự liên hệthống kê nào Thường dùng từ KHÔNG KHÁC HOẶC KHÔNG LIÊN QUAN
Ví dụ - Tỉ lệ bà mẹ mang thai nhiễm HIV không khác 0.5%
- Thuốc A không liên quan đến huyết áp
Giả thiết thay thế ký hiệu là H1 là một mệnh đề ngược với H0
Kiểm định giả thiết thống kê là phương pháp đưa ra quyết định bác bỏ hay chấp nhận giả thiết
Chấp nhận H0 Quyết định đúng
Xác suất = 1- α
Sai lầm loại IIXác suất = β
Sai lầm loại 1: Bác bỏ 1 giả thiết đúng ( bác bỏ H0 khi H0 đúng)
Sai lầm loại 2: Chấp nhận 1 giả thiết sai (chấp nhận H0 khi H0 sai)
Trong kiểm định giả thiết thống kê ta thường chú trọng đến sai lầm loại I, còn được ký hiệu là α α (là xác suất) được gọi là ngưỡng mức độ có ý nghĩa thống kê
(Significance) Các nhà khoa học thường chọn α = 0.05 hoặc nhỏ hơn Ý nghĩa của α là xác suất để bác bỏ giả thiết H0 khi H0 đúng Trong thống kê, chúng ta muốn sai lầm loại Icàng nhỏ càng tốt
Lựa chọn kiểm định thích hợp, tính giá trị thống kê của phép kiểm định, chấp nhận hay bác bỏ H 0
Trước tiên ta chọn ngưỡng mức độ có ý nghĩa thống kê α, sau đó chọn loại kiểm định thích hợp, và tra bảng tìm trị số giới hạn cho α Giá trị giới hạn (c) là trị số nằm ngay
Trang 21Chấp nhậnChấp
Bác bỏChấp
α nhậnChấp
c nhậnChấp
biên giới vùng bác bỏ và vùng chấp nhận giả thiết không Với một giá trị α, mỗi loại kiểm định khác nhau sẽ có giá trị giới hạn khác nhau
Tính giá trị thống kê của phép kiểm định
Để chấp nhận hay bác bỏ H0 , ta so sánh với giá trị thống kê với giá trị giới hạn c
Nếu phép kiểm định có giá trị <c, ta bác bỏ giả thiết H0 , chấp nhận giả thiết thay thế
H1 Nếu phép kiểm định có giá trị ≥ α, ta không thể bác bỏ giả thiết H0 (chấp nhận H0)
B Kiểm định giả thiết cho một trung bình (đã biết phương sai của dân số σ 2 ).
Chúng ta muốn kiểm định một giá trị trung bình thu được khi nghiên cứu trên một mẫu với giá trị trung bình của dân số Nếu giá trị trung bình của mẫu khác với dân
số, vậy sự khác nhau này là thật sự hay chỉ là sai sót ngẫu nhiên do chọn mẫu Phép kiểmđịnh thống kê Z (Z test) cho phép trả lời câu hỏi này
Ví dụ Giả sử huyết áp tâm thu người cao tuổi là một phân phối bình thường với µ = 135 mmHg
và phương sai σ2 = 400 Một loại thuốc mới trị cao huyêt áp được thử nghiệm ngẫu nhiên trên 16người Giá trị trung bình của huyết áp tâm thu sau khi điều trị là 120 mmHg Vậy thuốc này có tác dụng hay không?
Bước 1 Ký hiệu:
´
X =120, μ 135
σ2 = 400 n = 16 α = 0,05
Giả thiết không là thuốc này không có tác dụng, hay giá trị trung bình huyết áp của mẫu
16 người được điều trị không khác với trung bình huyết áp của dân số Để xây dựng giả thiết H0,
ta giả sử rằng mẫu 16 người này được rút ra ngẫu nhiên từ một dân số có µ = 120 mmHg Như vậy ta kiểm định xem dân số có µ = 120 mmHg có thật sự khác với 135 mmHg hay không Chú
ý rằng giả thiết không được phát biểu dựa theo DÂN SỐ chứ không dựa theo mẫu
Phát biểu như sau:
H : Mẫu được rút ra ngẫu nhiên từ một dân số có trung bình không khác 135
Trang 22H1 : Mẫu được rút ra ngẫu nhiên từ một dân số có trung bình khác 135Ngắn gọn hơn, ký hiệu như sau
H0 : µ = 135
H1 : µ≠ 135
Bước 3 Vẽ hình H0 và H1 được rút ra từ các dân số sau
Bước 4 Lựa chọn kiểm định thích hợpvà tính giá trị thống kê của phép kiểm định
Vì đã biết phương sai của dân số, ta chọn phép kiểm định Z
Bước 5 Chọn lựa giá trị Z giới hạn (Z critical).
Nếu chọn sai lầm loại I (hay còn gọi là ngưỡng có ý nghĩa thống kê) là α = 0.05, nghĩa là có 5%
cơ hội (xác suất) bác bỏ giả thiết H0 đúng
Vì giả thiết H0 là không só sự khác biệt nên ta chọn kiểm định 2 phía, mỗi phía chiếmdiện tích 2,5% Căn cứ vào phụ lục A, ta chọn giá trị Z giới hạn (Z critical)
value thấp hơn ngưỡng ý nghĩa thống kê (p-value< α), ta bác bỏ giả thiết H0 Nếu
p-value ≥ α, ta chấp nhận giả thiết H0 Chú ý rằng nếu Z càng lớn thì p-value càng nhỏ
µ≠ 135
X
Trang 23Câu kết luận ghi như sau: Vì Z thống kê (-3.00) < Zα/2 (-1,96) nên ta bác bỏ giảthiết H0 rằng mẫu có trung bình huyết áp là 135 Kết luận: Trung bình huyết áp củangười dùng thuốc hạ huyết áp khác biệt có ý nghĩa thống kê so với người không dùngthuốc (hay thuốc có tác dụng), Z = -3,00, p < 0,05 (hay nếu biết được trị số p-value thì Z
= -3,00, p = 0,001)
Thực hành tại lớp
Giả sử cân nặng của bé trai 10 tuổi là một phân phối bình thường với µ = 43 kg vàphương sai là 25 kg2 Khi tiến hành cân nặng cho 20 bé trai 10 tuổi được chọn ngẫu nhiên tại xã
X, ta thu được trung bình cân nặng là 45kg Hỏi bé trai 10 tuổi ở xã X có cân nặng khác với dân
số hay không với ngưỡng có ý nghĩa thống kê = 0,05
Bước 5 Với ngưỡng có ý nghĩa thống kê = 0,05, ta có giá trị Z giới hạn Zα/2= Z0.025 = -1,96
và Z1-α/2 = Z0.975 = 1
Bước 6 Chấp nhận hay bác bỏ H0
,9Vì Zα/2 (-1,96 ) < Z thống kê (-1,7 89) < Z1-α/2 (1 ,96) nên ta chấp nhận giả thiếtkhông rằng trung bình cân nặng của mẫu bé trai không khác 43 kg Kết luận cân nặng của bétrai 10 tuổi xã X có/không khác biệt có ý nghĩa thống kê so với dân số, Z = -1,79, p > 0,05
C Kiểm định giả thiết một tỉ lệ
Nếu biết một tỉ lệ π trong dân số, ta có thể kiểm định một tỉ lệ p của một mẫu để so sánh
với dân số Như bài 4, ta có thể chuẩn hóa một tỉ lệ theo công thức:
Trang 24Ví dụ Giả sử tỉ lệ nam:nữ trong dân số là 1:1 Một điều tra tại bệnh viện trên 120 trẻ em bị hội
chứng thận hư cho thấy có 72 trẻ mắc bệnh là nam Vậy hội chứng thận hư có quan hệ với gới tính không (ngưỡngcó ý nghĩa thống kê = 0,05 và 0,01)
Ta có tỉ lệ nam trong dân số = 0,5, tỉ lệ nam bị HCTH p = 72/120 = 0,6
(1) Xây dựng giả thiết thống kê bằng lời
(3) Tính giá trị thống kê của phép kiểm định
Chọn Z giới hạn
* Với α = 0,05: Zα/2= Z0.025 = -1,96 và Z1-α/2 = Z0.975 = 1,96
Vì Z thống kê (2,24) > Z1-α/2 (1,96) nên ta bác bỏ giả thiết rằng tỉ lệ nam bị HCTHcủa mẫu không khác 0,5 Kết luận tỉ lệ nam bị HCTH có/không khác biệt có ý nghĩa thống kê so với dân số (hay HCTH có liên quan đến giới tính) , Z = 2,24, p < 0,05 hoặc
Khoảng tin cậy 95% cho một tỉ lệ
Khoảng tin cậy 95% cho một dân số:
95% CI = ´X ± z 1−α /2 σ ´X
Tương tự, khoảng tin cậy 95% cho một tỉ lệ là
Trang 25b Tính khoảng tin cậy 95% cho tỉ lệ SDD trẻ em mỗi tỉnh
2 Cho một mẫu với thông tin dưới đây Dùng kiểm định Z để xác định xem mẫu đó có được rút ra từ một dân số có trung bình là 105 hay không?
4 Một nghiên cứu nhằm tìm ảnh hưởng của thuốc X lên cân nặng trẻ vị thành niên Một mẫu ngẫu nhiên được lựa chọn từ dân số có trung bình là 52 kg và độ lệch chuẩn là 2,56kg Dùng một kiểm định thích hợp để xác định thuốc X có ảnh hưởng tới cân nặng không ? (α=0,05)
Trang 27Bài 6 KIỂM ĐỊNH T CHO MỘT TRUNG BÌNH
Trong kiểm định Z, ta phải cần biết phương sai của dân số (σ2) Tuy nhiên điều này không phải lúc nào cũng có thể thực hiện được Trong thực tế nghiên cứu, số liệu thường được thu thập trên một hoặc nhiều mẫu nhất định, từ đó có thể tính các giá trị như trung bình và phương sai của mẫu Các kiểm định loại này dựa trên mẫu mà không cần biết phương sai của toàn bộ dân số
A Phân phối t (Student’s t distribution)
Nhắc lại phân phối chuẩn Z
Với σ2 là phương sai dân số và σ ´X là sai số chuẩn
Giả sử x1, x2,x3,…,xn là các biến số có phân phối chuẩn được rút ngẫu nhiên từ một dân số có trung bình là µ
thì T sẽ có một phân phối t (Student’s t distribution) với n – 1 độ tự do, degree of
freedom) Phụ lục B trình bày phân phối T
(S2X gọi là phương sai mẫu và S ´Xlà sai số chuẩn)
√n Sai s ố chu ẩ n mẫ u SE=S ´X=S X
√n
Đặc điểm của phân phối t
1 Có dạng hình chuông, đối xứng qua đường thẳng đứng kẻ qua giá trị trung bình
2 Khá giống với phân phối chuẩn, tuy nhiên xác suất cao hơn ở ngoại vi (hai đầu)
3 Không giống với phân phối chuẩn, phân phối t tùy thuộc vào cỡ mẫu Cỡ mẫu xác định
độ tự do (n – 1) Mỗi một độ tự do có một phân phối t khác nhau Khi độ tự do lớn, phân phối t khá tương đồng với phân phối chuẩn
Ví dụ, với độ tự do = 5, tìm tα/2 = t0,025 = , Zα/2 = Z0,025 =
và 1-α/2 = t0,975 = , Z1-α/2 = Z0,975 = Với độ tự do = 65, tìm tα/2 = t0,025 = , Zα/2 = Z0,025 =
và t1-α/2 = t0,975 = , Z1-α/2 = Z0,975 =
Trang 28Điều kiện để áp dụng kiểm định t-test
1 Mẫu phải được chọn ngẫu nhiên
2 Số liệu là biến số liên tục
3 Số liệu phải có phân phối bình thường Theo định lý giới hạn trung tâm, cỡ mẫu trên 30
là đủ để có phân phối xấp xỉ bình thường Hơn nữa, ngay cả khi cỡ mẫu tương đối nhỏ (trên 10), kiểm định t-test ít bị ảnh hưởng nếu phân phối không quá lệch
B Kiểm định giả thiết cho một trung bình (không biết σ2)
Nếu muốn so sánh trung bình của một mẫu với một trị số tham khảo nào đó, ta có thể dùng kiểmđịnh t-test Các bước tiến hành tương tự như kiểm định Z
(1) Xây dựng giả thiết không (H0)
(2) Tính giá trị thống kê của phép kiểm định và giá trị T giới hạn (tra phụ lục B)
(3) Chấp nhận hay bác bỏ H0
Ví dụ Một test để đánh giá mức độ căng thẳng có giá trị là 20,00 trên người bình thường Test
này được tiến hành trên 81 sinh viên cao đẳng 1 tuần trước kỳ thi tốt nghiệp, có kết quả trung bình là 22,50, độ lệch chuẩn là 9,00 Hỏi mức độ căng thẳng của nhóm sinh viên cao đẳng này
có khác so với trị số bình thường không, với độ tin cậy 0,05 ?
Bước 1 Ký hiệu: µ = 20, ´X =22,5 , SX = 9, n = 81, α = 0,05
H0 : Mẫu được rút ra ngẫu nhiên từ một dân số có trung bình không khác 20
H1 : Mẫu được rút ra ngẫu nhiên từ một dân số có trung bình khác 20Hoặc
H0 : µ = 20
H1 : µ≠ 20
Bước 3 Vẽ hình H0 và H1 được rút ra từ các dân số sau