Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm,… là biến số định tính vì chúng ta không thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại.. T
Trang 1ÐẠI HỌC Y DƯỢC TP HỒ CHÍ MINH
Bộ môn Dân số - Thống Kê Y học và Tin học
Khoa Y tế Công cộng
Trang 2MỤC LỤC
Biến số 1
Mục tiêu 1
Biến số 1
Biến số định tính và biến số định lượng 2
Đo lường biến số 3
Ðịnh nghĩa cụ thể 3
Phân loại biến số theo quan hệ giữa các biến số 3
Kiểm soát yếu tố gây nhiễu 4
Biến số nền (background variables) 4
Bài tập: 5
Ðại cương về thống kê và thống kê mô tả 7
Giới thiệu về thống kê 7
Số liệu 7
Phương pháp mô tả tóm tắt và trình bày số liệu 7
Các số thống kê mô tả cho biến số định lượng 8
Thống kê khuynh hướng tập trung 8
Thống kê mô tả tính phân tán: 10
Biểu đồ và đồ thị 11
Biểu đồ và đồ thị cho biến định lượng: Tổ chức đồ, đa giác tần suất, biểu đồ hình hộp 12 Biểu đồ cho biến số định tính: Biểu đồ bánh và biểu đồ hình thanh 14
Trình bày số liệu và thống kê với bảng 17
Trình bày số liệu với bảng 17
Phân phối tần suất của biến số định tính 17
Phân phối tần suất của biến số định lượng 17
Trình bày thống kê với bảng 19
Ðại cương về phân tích số liệu 21
Phép ước lượng 21
Dân số và mẫu 21
Ước lượng khoảng tin cậy của trung bình 21
Ước lượng khoảng tin cậy của tỉ lệ 22
Suy luận thống kê 23
Kiểm định ý nghĩa 23
Kiểm định giả thuyết 24
Các bước kiểm định 25
Chọn lựa kiểm định phù hợp 26
Một số phép kiểm thống kê thường sử dụng 28
Phép kiểm z hai nhóm khi biết phương sai dân số của 2 mẫu 28
Sử dụng khi nào: 28
Giả định 28
Công thức thống kê: 28
Khoảng tin cậy của hiệu số trung bình 28
Ghi chú 28
Phép kiểm t hai nhóm phương sai không bằng nhau 28
Sử dụng khi nào: 28
Giả định 28
Trang 3Công thức thống kê: 29
Khoảng tin cậy của hiệu số trung bình 29
Phép kiểm t hai nhóm phương sai bằng nhau 29
Sử dụng khi nào: 29
Giả định 29
Công thức thống kê: 29
Khoảng tin cậy của hiệu số trung bình 30
Phép kiểm t so sánh trung bình số liệu bắt cặp (phép kiểm t bắt cặp) 30
Sử dụng khi nào: 30
Giả định 30
Công thức thống kê: 30
Khoảng tin cậy của trung bình hiệu số 30
Phép kiểm t một mẫu 31
Sử dụng khi nào: 31
Giả định 31
Công thức thống kê: 31
Khoảng tin cậy của sự khác biệt giữa trung bình của biến x và tham số 31
Phép kiểm ANOVA một chiều so sánh trung bình các nhóm có phương sai bằng nhau 31
Sử dụng khi nào: 31
Giả định 31
Công thức thống kê: 31
Khoảng tin cậy của hiệu số trung bình 32
Phép kiểm chi bình phương so sánh tỉ lệ 2 nhóm 32
Sử dụng khi nào: 32
Giả định 32
Công thức thống kê: 32
Khoảng tin cậy của nguy cơ tương đối 33
Khoảng tin cậy của tỉ số số chênh 33
Phép kiểm chi bình phương so sánh tỉ lệ nhiều nhóm 33
Sử dụng khi nào: 33
Giả định 33
Công thức thống kê: 33
Phép kiểm phi tham số tổng sắp hạng Wilcoxon 34
Sử dụng khi nào: 34
Giả định 34
Công thức thống kê: 34
Phép kiểm phi tham số Kruskal-Wallis 34
Sử dụng khi nào: 34
Giả định 35
Công thức thống kê: 35
Hệ số tương quan Pearson 35
Sử dụng khi nào: 35
Giả định 35
Công thức thống kê: 35
Ý nghĩa của hệ số tương quan: 35
Phương trình hồi quy tuyến tính 36
Sử dụng khi nào: 36
Giả định 36
Công thức thống kê: 36
Ý nghĩa của hệ số của biến số: 36
Một số thí dụ về phép kiểm thống kê 36
Trang 4Phép kiểm t bắt cặp 36
Phép kiểm t (không bắt cặp) 37
Phân tích phương sai 38
Phép kiểm chi bình phương 40
Sự tương quan của hai biến số định tính 41
So sánh tỉ lệ của biến số nhị giá : Kiểm định chi-bình phương 41
Quan hệ giữa hai biến số định lượng 42
Tương quan 42
Hồi quy 43
Số đo hậu quả và số đo tác động 45
I Nhắc lại về số đo sự xuất hiện của bệnh: tỉ suất, nguy cơ và số chênh 45
II Số đo sự kết hợp - số đo hậu quả 45
III Số đo tỉ số 45
IV Số đo hiệu số 47
V Biện luận thêm về tỉ số nguy cơ và hiệu số nguy cơ 48
VI Số đo tác động 49
VII Bàn luận thêm về phân số nguy cơ quy trách dân số 51
Chiến lược phân tích số liệu 52
Giới thiệu 52
1 Phân loại biến số 52
2 Biên tập số liệu 52
3 Rút gọn số liệu 53
4 Mô tả số liệu 53
5 Đo lường tác động 53
6 Phân tích đơn biến 54
8 Kiểm soát các yếu tố gây nhiễu 54
9 Cách đưa vào biến số gây nhiễu 55
10 Phân tích tương tác 56
11 Nghiên cứu bệnh chứng bắt cặp 56
12 Những trở ngại trong phân tích và lí giải số liệu 57
Cài đặt chương trình Stata 10.0, số liệu mẫu và các chương trình có liên quan 58
1 Cài đặt chương trình Stata và số liệu mẫu 58
2 Cài đặt tập tin số liệu mẫu 61
3 Cài đặt chương trình chuyển đổi số liệu 63
Khởi động và kết thúc Stata 66
1 Khởi động Stata 66
2 Kiểm tra tính hợp lệ của Stata 67
3 Thoát khỏi Stata 67
4 Các loại hình của Stata 68
5 Stata nhỏ, Intercooled Stata và Stata bản đặc biệt (Stata SE) 68
Mô tả ngắn gọn về Stata 70
Lệnh more 72
1 Mô tả 72
Thông báo lỗi và mã phản hồi 73
1 Lỗi 73
2 Bỏ qua lỗi lầm trong lập trình 73
3 Mã trả về để biết thời gian tính toán 73
Trang 5Thí dụ nếu bạn gõ sum mpg, bạn sẽ thấy 73
Phím break 75
1 Làm Stata ngưng thực hiện việc đang làm 75
2 Điểm cần lưu ý trong lập trình 75
Sử dụng bàn phím trong Stata 76
1 Bàn phím 76
2 Phím chức năng 76
3 Phím hiệu chỉnh 77
Khởi động Stata 78
1 Khởi động Stata 78
2 Mô tả giao diện của chương trình Stata 78
3 Cách cách để thực hiện lệnh trong chương trình Stata 79
4 Lưu lại kết quả phân tích 80
Một vài phân tích đơn giản với Stata với gõ lệnh 82
Giới thiệu về Stata 82
1 Khởi động Stata 82
2 Các cửa sổ của phần mềm Stata 83
1 Cửa sổ Variables (cửa sổ Biến số) 83
2 Cửa sổ Command (cửa sổ lệnh) 83
3 Cửa sổ Result (cửa sổ Kết quả) 83
4 Cửa sổ Review (cửa sổ Xem lại) 84
3 Biểu thức đại số: 84
4 Biểu thức luận lí 84
Nhập liệu và thực hiện thống kê mô tả đơn giản với Stata 84
1 Giới thiệu một bộ số liệu mẫu 84
2 Nhập liệu với lệnh edit 85
3 Log để ghi kết quả phân tích 95
4 Thống kê mô tả cho biến định tính với lệnh tab1 96
5 Thống kê mô tả cho biến định lượng với lệnh sum 97
6 Thống kê phân tầng theo nhóm 97
7 Tạo biến số mới 98
8 Hiển thị lại kết quả phân tích 98
9 Trọng số 98
Mô tả số liệu với Stata sử dụng menu 100
Phân tích số liệu cho một thử nghiệm lâm sàng 134
Thống kê phân tích biến số định lượng với Stata 154
Phân tích phương sai hai chiều 175
Tài liệu tham khảo 183
Thống kê phân tích biến số định tính: nghiên cứu bệnh chứng 184
Mục tiêu: 184
Bài tập thống kê (Chilumba) 184
Câu 9 Làm thế nào để khử đồng thời 2 biến số gây nhiễu agegrp và school 198
Thống kê phân tích biến số định tính: nghiên cứu bệnh chứng 203
Mục tiêu: 203
Bài tập thống kê mwanza 203
Hướng dẫn: Cách sử dụng lệnh mhodds trong trường hợp này là 209
Trang 6Thống kê phân tích biến số định tính: nghiên cứu đoàn hệ 212
Mục tiêu: 212
Bài tập thống kê wh1 212
Ta có thể tính được 2 120 91 145 ) 93 384 484 ( 2 2 i i i MH Var E A 218
Thực hiện 220
Hồi quy logistic 223
Đại cương về hồi quy logistic 223
Nguy cơ r có miền giá trị từ 0 đến 1 223
Bài tập phân tích số liệu chilumba sử dụng hồi quy logistic 224
Hồi quy logistic trong đánh giá chẩn đoán test 240
Nhắc lại về các số đo tính giá trị chẩn đoán 240
Xét nghiệm định lượng để chẩn đoán bệnh 240
Một thí dụ ứng dụng phương pháp hồi quy logistic trong xác định giá trị của xét nghiệm 241
Phân tích sống còn Kaplan-Meier 248
Những nghiên cứu cần sử dụng phân tích sống còn 248
Các biến số trong phân tích sống còn 248
Cá nhân 248
Thực hành 249
Tài liệu tham khảo 257
EpiData 259
Giới thiệu 259
Giao diện của chương trình Epi Data 259
Các loại tập tin của EpiData 260
Các tùy chọn của EpiData 260
Làm việc với EpiData 262
Bài tập 262
Bài tập 2 267
Những điểm cần chú ý trong bài tập: 267
Các công cụ khác 268
Phân tích 268
Các phím tắt sử dụng trong EpiData 269
Biên soạn bộ câu hỏi 269
Bổ sung check 269
Nhập liệu 270
Phụ lục 271
Bình luận 271
Tai tiếng của những nghiên cứu y khoa kém 271
Bài báo 274
Misoprostol uống trong dự phòng băng huyết sau sanh ở những cộng đồng dân cư nghèo: một thử nghiệm lâm sàng ngẫu nhiên 274
Bài báo 285
Tăng trưởng trước sinh, tình trạng hôn nhân sau này và tử vong: một nghiên cứu dọc 285
Phương pháp và kết quả 285
Bàn luận 286
Trang 7Cảm tạ 286
Chú thích 286
Tài liệu tham khảo 286
Bài báo 288
Tăng trưởng trước sinh và nguy cơ bị đột quỵ do tắc nghẽn và xuất huyết ở đàn ông và đàn bà Thuỵ điển sinh 1915-29: nghiên cứu đoàn hệ lịch sử 288
Đối tượng, phương pháp và kết quả 288
Bình luận 289
Cảm tạ 290
Chú thích 290
Tài liệu tham khảo 290
Bài báo 291
Bú sữa mẹ và béo phì: Một nghiên cứu cắt ngang 291
Tóm tắt 291
Mở đầu 292
Đối tượng và phương pháp 292
Kết quả 293
Bàn luận 296
Tài liệu tham khảo 297
Bài báo 299
Chương trình tiêm chủng đẩy mạnh Anh quốc và đột tử bất ngờ ở trẻ nhũ nhi: một nghiên cứu bệnh chứng 299
Tóm tắt 299
Giới thiệu 299
Phương pháp 300
Kết quả 301
Bàn luận 304
Ý nghĩa 304
Cảm tạ 304
Ghi chú 305
Tài liệu tham khảo 305
Hiệu lực vaccine sởi ở trẻ em TP Hồ Chí Minh 307
Tóm tắt 307
Abstract 307
Mở đầu 307
Đối tượng và phương pháp nghiên cứu 308
Cách chọn mẫu và cỡ mẫu 308
Các biến số nghiên cứu 308
Xử lý số liệu 309
Kết quả 309
Mô tả dân số nghiên cứu 309
Hiệu lực vaccine 311
Phân tích nhạy cảm hiệu lực vaccine 312
Trang 8So sánh hiệu lực vaccine sởi ở 2 nhóm tuổi dưới 5 và từ 5 đến 15 312
Bàn luận 313
Kiến nghị 314
Tài liệu tham khảo 314
Các lệnh stata cần nhớ 315
1 Thao tác số liệu 315
2 Thống kê mô tả 315
3 Thống kê phân tích 315
Trang 9Biến số
Mục tiêu
1 Xác định biến số là gì và tại sao việc chọn lựa biến số là quan trọng
2 Phân biệt được biến số định tính (categorical) và biến số định lượng (numerical)
3 Phân biệt được sự khác biệt giữa biến số độc lập, biến số phụ thuộc, biến gây nhiễu và chúng được sử dụng trong nghiên cứu như thế nào
4 Xác định được các biến số được đo lường trong dự án nghiên cứu đang được thiết kế và cho biết:
- Biến số nào có thể đo lường trực tiếp
- Biến số nào không thể đo lường trực tiệp và phải sử dụng định nghĩa cụ thể(operation definition)
- Biến số nào không thể đo lường được vào thời điểm hiện tại
Biến số
Khi quan tâm đến một cá nhân, chúng ta quan tâm đến những đặc tính và đại lượng của cá nhân
đó Biến số chính là những đại lượng hay những đặc tính của cá nhân có thể thay đổi từ người này sang người khác hay từ thời điểm này sang thời điểm khác
Tuy theo đại lượng hay đặc tính được quan tâm chúng ta có biến số định lượng hay định tính
- Nếu biến số thể hiện một đại lượng nó được gọi là biến số định lượng (quantitative variable) Biến số định lượng nhằm thể hiện một đại lượng và do đó có giá trị là những con số Biến số định lượng luôn luôn phải gắn liền với đơn vị đo lường cụ thể
Thí dụ: tuổi là biến số định lượng bởi vì ta có thể nói người này 20 tuổi, người kia 32 tuổi, v.v
Những thí dụ khác là đường huyết, hemoglobin, hematocrite, chiều cao, cân nặng, thu nhập, v.v
Thang đo của biến định lượng được cho là có giá trị zero tuyệt đối nếu thang đo đó có chứa giá trị âm Thí dụ thang đo của khối lượng là thang đo có giá trị zero tuyệt đối vì không có trường hợp nào khối lượng có giá trị Thang đo của nhiệt độ C không có giá trị zero tuyệt đối vì thang đo nhiệt độ có thể có giá trị -10oC; -100oC Tùy theo thang đo của biến số định lượng có giá trị zero tuyệt đối hay không biến số định lượng được chia làm 2 loại:
- Biến số tỉ số (ratio variable) khi thang đo của biến số có giá trị zero tuyệt đối Với biến số tỉ số có thể so sánh các giá trị bằng phép chia Thí dụ có thể kết luận trọng lượng 80 kg lớn gấp hai lần trọng lượng 40 kg
- biến số khoảng (interval variable) không có giá trị không tuyệt đối Khi không
có giá trị không tuyệt đối chỉ có thể so sánh các giá trị bằng phép trừ Thí dụ nhiệt độ
40oC cao hơn 30oC so với nhiệt độ 10oC
- Nếu biến số nhằm thể hiện một đặc tính, biến số được gọi là biến số định tính Tùy theo số giá trị có thể có của biến số định tính, biến số định tính được chia làm 3 loại
- Biến số nhị giá (binary variable) khi biến số chỉ có 2 giá trị
Biến số nhị giá là biến số chỉ có 2 giá trị Biến số giới tính là biến số nhị giá bởi vì nó chỉ
có 2 giá trị Nam và Nữ Nếu chúng ta quan tâm đến bệnh nhân có đái tháo đường hay không thì biến số đái tháo đường cũng là biến số nhị giá
- Biến số danh định là biến số có 3 hoặc nhiều giá trị các giá trị và các giá trị này không thể sắp đặt theo một trật tự từ thấp đến cao
Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm,… là biến số định tính vì chúng ta không thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại
Một số thí dụ khác của biến số danh định là tình trạng hôn nhân (có 4 giá trị: độc thân, có gia đình, li dị, góa) nhóm máu (A, B, AB và O)
Trang 10- Biến số thứ tự (ordinal variable) khi biến số có 3 hay nhiều hơn các giá trị và các bản thân các giá trị có tính chất thứ tự
Thí dụ: tình trạng kinh tế xã hội (giàu, khá, trung bình, nghèo, rất nghèo) là biến số thứ tự bởi vì người giàu có điều kiện kinh tế tốt hơn người khá, người khá hơn người trung bình, trung bình hơn nghèo, v.v Những thí dụ khác là học lực của học sinh (giỏi, khá, trung bình, kém), tiên lượng (tốt, khá, xấu, tử vong) Theo phân loại tăng huyết áp của Tổ chức Y tế Thế giới được trình bày như sau, thì phân loại huyết áp với các giá trị huyết áp bình thường, huyết áp cao nhẹ, vừa và nặng là biến số thứ tự
Huyết áp bình thường: HA tâm thu ≤ 139 và HA tâm trương ≤ 89
Tăng huyết áp nhẹ: HA không bình thường và HA tâm thu ≤ 179 hay HA tâm trương ≤ 104
Tăng huyết áp vừa: HA không bình thường và HA tâm thu ≤ 180 hay HA tâm trương ≤114
Tăng huyết áp nặng: HA tâm thu ≥180 và HA tâm trương ≥ 115 mmHg
- Ngoài ra trong nghiên cứu khoa học có khi người ta sử dụng một phân loại biến số đặc biệt gọi
là biến số sống còn (survival variable) khi nghiên cứu quan tâm đến kết cuộc là biến cố (event)
có xảy ra hay không và thời điểm xảy ra biến cố (hoặc thời điểm không xảy ra biến cố trễ nhất quan sát được) Loại biến số này thường được sử dụng trong nghiên cứu ung thư Khi điều trị bệnh nhân ung thư người ta không chỉ quan tâm đến bệnh nhân có tử vong hay không mà còn quan tâm đến thời điểm tử vong (hay thời gian còn sống còn) của bệnh nhân Biến số sống còn cũng được sử dụng trong các lãnh vực khác ngoài ung thư Thí dụ nếu một nhà nghiên cứu quan tâm đến việc sau khi bệnh nhân được phẫu thuật vòi trứng, kết cuộc cần quan tâm là bệnh nhân
có thể có thai tự nhiên hay không và nếu có thì việc thụ thai tự nhiên xảy ra bao lâu sau phẫu thuật Bởi vì biến số sống còn quan tâm đến biến cố (event) có xảy ra hay không và thời điểm xảy ra biến cố nên về bản chất biến số sống còn bao gồm biến nhị giá (cho biết biến cố có xảy
ra hay không) và biến định lượng thời gian (cho biết biến cố xảy ra vào thời điểm nào)
Biến số định tính và biến số định lượng
Như vậy biến số có thể thể hiện đại lượng hay đặc tính Nếu nó thể hiện một đại lượng nó được gọi là biến số định lượng Nếu nó nhằm thể hiện một đặc tính nó được gọi là biến số định tính Biến số định tính còn được chia làm 3 loại: biến số nhị giá, biến số danh định và biến số thứ tự
Biến số nhị giá là biến số chỉ có 2 giá trị Biến số giới tính là biến số nhị giá bởi vì nó chỉ có 2 giá trị Nam và Nữ Nếu chúng ta quan tâm đến bệnh nhân có đái tháo đường hay không thì biến
số đái tháo đường cũng là biến số nhị giá
Biến số danh định là biến số có nhiều giá trị của nó không thể biểu thị bằng số mà phải biểu diễn bằng một tên gọi (danh: tên) và các giá trị này không thể sắp đặt theo một trật tự từ thấp đến cao
Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm,… là biến số định tính vì chúng ta không thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại
Một số thí dụ khác của biến số danh định là tình trạng hôn nhân (có 4 giá trị: độc thân, có gia đình, li dị, góa) nhóm máu (A, B, AB và O)
Biến số thứ tự là biến số danh định nhưng có thể sắp xếp thứ tự được
Trong phân tích thống kê, để tiện việc nhập số liệu hay lí giải kết quả, người ta có thể ánh xạ (mapping) các giá trị của biến định tính vào các con số Việc này được gọi là mã hóa và cần hiểu rằng việc mã hóa này hoàn toàn có tính chất áp đặt và các con số được dùng trong mã hóa không phản ánh bản chất của biến số danh định
Giới tính là biến số nhị giá và có hai giá trị là nam và nữ Chúng ta có thể mã hóa giới tính và quy ước Nam là 1 và Nữ là 2 Tuy nhiên việc mã hóa này là áp đặt và chúng ta hoàn toàn có thể quy ước Nam là 1
và Nữ là 0 Việc mã hóa chỉ nhằm giúp việc nhập số liệu và xử lí số liệu trở nên dễ dàng hơn chứ không nhằm phản ánh bản chất của biến số đó
Cần phân biệt sự khác biệt giữa biến số và giá trị của biến số (còn gọi là yếu tố): Giới tính là biến số nhưng Nữ không phải là biến số mà là một giá trị của biến số (hay còn gọi là yếu tố)
Trang 11Thời gian chờ đợi để được sử dụng dịch vụ y tế là biến số nhưng thời gian chờ đợi lâu là giá trị của biến số Kiến thức về các cây con thuốc là biến số nhưng ít hiểu biết về các cây con thuốc là yếu tố Ta có thể nói biến số mức độ hút thuốc lá có liên quan đến nguy cơ ung thư phổi nhưng phải nói hút thuốc lá nặng là yếu tố nguy cơ của ung thư phổi
Đo lường biến số
Biến số (đại lượng hay đặc tính được quan tâm) được chia làm 3 loại:
- Biến số có thể đo lường trực tiếp - chiều cao, cân nặng, tuổi, tình trạng hôn nhân.v.v
- Biến số không thể đo lường trực tiếp được như tình trạng dinh dưỡng, mức độ đắc khí, mức độ hài lòng của bệnh nhân, kiến thức của bà mẹ về thực hành chăm sóc trẻ
- Biến số không đo lường được trong nghiên cứu hiện tại Trên nguyên tắc, mọi biến số đều có thể đo lường được nhưng trong một nghiên cứu cụ thể có thể có một số biến số không đo lường được do hạn chế của điều kiện kĩ thuật hay không thống nhất về định nghĩa cụ thể (thí dụ nồng
độ endorphine gia tăng sau khi châm cứu, mức độ hữu dụng của những bệnh nhân bị tàn tật, chất lượng dân số)
Ðịnh nghĩa cụ thể
Thông thường, nhà nghiên cứu bắt đầu với một quan điểm tương đối mơ hồ về cách đo lường các biến số nghiên cứu Thí dụ, nếu nhà nghiên cứu muốn đo lường mức độ đau thì nhà nghiên cứu phải chuyển đổi khái niệm đau thành một mệnh đề chặt chẽ xác định cách đo lường biến số này Phụ thuộc vào cách lí giải trừu tượng của khái niệm đau và yêu cầu cụ thể của nghiên cứu, chúng ta có thể chọn lựa một phương pháp đo lương mức độ đau đớn
Ðịnh nghĩa cụ thể của biến số là một mệnh đề về cách người nghiên cứu của một nghiên cứu nào
đó chọn cách đo lường biến số đó Nó phải không được mơ hồ và chỉ có một cách lí giải duy nhất Thí dụ, một nhà nghiên cứu cho rằng việc điều trị của bà ta có thể giúp cải thiện việc "kiểm soát vận động", câu hỏi chúng ta cần đặt ra ngay là "kiểm soát vận động" có ý nghĩa như thế nào Nhà nghiên cứu có thể trả lời là bà ta quan tâm đến việc kiểm soát vận động được đo lường bởi Plunkett Motor Dexterity Task Score Một nhà nghiên cứu khác có thể không chấp nhận định nghĩa này và cho rằng việc kiểm soát vận động nên được tự đánh giá bởi bệnh nhân Cả hai định nghĩa này được gọi là định nghĩa cụ thể
Một định nghĩa cụ thể tốt là định nghĩa cung cấp đủ thông tin để cho phép một nhà nghiên cứu khác có thể lập lại kĩ thuật đo lường, nếu người đó muốn Trong mô tả nghiên cứu nhà nghiên cứu nên bao gồm trong định nghĩa cụ thể những công cụ đo lường và quy trình nghiên cứu để người đọc có thể rõ ràng về những việc đã làm
Phân loại biến số theo quan hệ giữa các biến số
Khi chúng ta quan tâm đến việc lí giải nguyên nhân của sự việc chúng ta chia biến số thành biến
số độc lập và biến số phụ thuộc
Biến số dùng để mô tả hay đo lường vấn đề nghiên cứu được gọi là biến số phụ thuộc
Biến số dùng để mô tả hay đo lường các yếu tố được cho là gây nên (hay gây ảnh hưởng đến) vấn đề nghiên cứu được gọi là biến số độc lập
Việc xác định biến số nào là biến số độc lập hay biến số phụ thuộc được xác định trong phần đặt vấn đề và mục tiêu của nghiên cứu Do đó trong khi thiết kế nghiên cứu cần phải xác định rõ ràng biến số nào là độc lập và biến số nào là phụ thuộc
Thí dụ nếu nghiên cứu mối quan hệ giữa ung thư phổi và hút thuốc lá thì hút thuốc lá là biến số độc lập và ung thư phổi là biến số phụ thuộc
Nếu nhà nghiên cứu muốn tìm hiểu tại sao thanh niên hút thuốc thì hút thuốc là biến số phụ thuộc và "áp lực của bạn bè" là biến số độc lập
Trang 12Biến số gây nhiễu (confounding variable) là biến số cung cấp một giải thích khác của mối liên
hệ giữa biến số độc lập và biến số phụ thuộc Một biến số được đánh giá là biến số gây nhiễu khi
có 3 đặc tính sau:
- Có liên quan đến biến số phụ thuộc (là yếu tố nguy cơ của vấn đề nghiên cứu)
- Có liên quan đến biến số độc lập (phân bố không đều giữa các giá trị của biến độc lập)
- Không nằm trong cơ chế tác động của biến độc lập lên biến phụ thuộc
Kiểm soát yếu tố gây nhiễu
Ðể khắc phục yếu tố gây nhiễu người ta có thể sử dụng:
- Phương pháp hạn chế: thí dụ chỉ nghiên cứu những bà mẹ trong gia đình có thu nhập trung bình, không nghiên cứu những bà mẹ trong gia đình nghèo
- Phương pháp bắt cặp trong chọn mẫu và phân tầng trong phân tích mẫu:
- Phương pháp phần tầng: gồm tiến hành phân tích số liệu riêng biệt cho nhóm bà mẹ nghèo, cho nhóm bà mẹ trung bình và nhóm bà mẹ giàu rồi tổng hợp kết quả lại Thực chất phương pháp phân tầng gồm là sự tổng hợp của nhiều nghiên cứu hạn chế (mỗi nghiên cứu được hạn chế cho một giá trị của biến số gây nhiễu)
- Phương pháp mô hình hóa sử dụng phương pháp hồi quy đa biến để tách riêng tác động của từng biến số có liên quan trong mô hình Khi đó hệ số của các biến số trong mô hình đánh giá tác động của biến số đó, không bị ảnh hưởng hay gây nhiễu bởi các yếu tố khác (bởi vì trong hồi quy đa biến, hệ số B1 của biến số X1 nêu lên sự thay đổi của biến phụ thuộc Y khi X1 thay đổi một đơn vị và các biến số liên quan khác như X1 , X2 , … không thay đổi)
- Phương pháp chia nhóm ngẫu nhiên: chỉ sử dụng được cho nghiên cứu thực nghiệm nhưng đây
là phương pháp khử yếu tố gây nhiễu toàn diện nhất và không cần xác định hay đo lường toàn
bộ các yếu tố gây nhiễu
Biến số nền (background variables)
Trong bất cứ nghiên cứu nào, có những biến số nền tảng thí dụ như tuổi, giới, trình độ giáo dục, tình trạng kinh tế, tình trạng hôn nhân, tôn giáo, v.v Những biến số này thường có ảnh hưởng đến vấn đề nghiên cứu (biến số phụ thuộc) và có tác động như biến số gây nhiễu Nếu biến số nền có ảnh hưởng quan trọng đến nghiên cứu cần phải thu thập thông tin về biến số nền Nhưng không nên thu thập quá nhiều biến số nền để tránh làm tăng kinh phí nghiên cứu một cách vô ích
Trang 13Một số nhà khoa học cho rằng kết luận của nghiên cứu có thể là không đúng Họ giải thích rằng những người có quan hệ tình dục thường xuyên là những người có sức khoẻ tổng quát tốt hơn,
do đó, có nguy cơ tử vong thấp hơn Theo các anh chị, những nhà khoa học này cho rằng tình trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này được chứng minh là đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử vong
Các bác sĩ lâm sàng có kinh nghiệm lại đưa ra lời giải thích khác Họ cho rằng ở những người khoẻ mạnh, quan hệ tình dục thường xuyên là có lợi cho sức khoẻ và làm giảm nguy cơ tử vong còn ở người ở tình trạng sức khoẻ tổng quát đã kém việc quan hệ tình dục thường xuyên lại khiến đối tượng dễ bị tử vong hơn Theo các anh chị, nếu kinh nghiệm lâm sàng này là đúng thì tình trạng sức khoẻ tổng quát là yếu tố biến đổi hậu quả hay yếu tố gây nhiễu? Nếu điều này là đúng thì anh chị sẽ có lời khuyên gì đối với mọi người để giảm thiểu nguy cơ tử vong
1 Davey Smith G, Frankel S, Yarnell J Sex and death: are they related? Findings from the Caerphilly Cohort study BMJ 1997; 315: 1641-1644
2 Gần như tất cả các nghiên cứu quan sát cho thấy sự giảm nguy cơ tử vong bệnh tim ở các phụ
nữ sử dụng oestrogen Một nghiên cứu gộp (meta-analysis) của 25 nghiên cứu đã xuất bản tìm thấy nguy cơ tương đối chung là 0.70 đối với bệnh mạch tim ở các phụ nữ có sử dụng estrogen
(so với nhóm không dùng oestrogen); trong 7 nghiên cứu khác đánh giá hiệu quả của việc sử
dụng oestrogen và progestogen, nguy cơ ước lượng là 0.66.2
Tuy nhiên, gần đây, Hemminkiand McPherson đã tổng kết 22 nghiên cứu thử nghiệm ngẫu
nhiên của việc sử dụng trị liệu oestrogen và thấy rằng các biến cố tim mạch lại là nguyên nhân
chủ yếu của việc bỏ cuộc hay phản ứng ngoại ý.3 Tỉ số nguy cơ tóm tắt là (1.39) trong nhóm sử dụng estrogen so với nhóm không sử dụng Điều này cho thấy estrogen không có tác dụng có
lợi, nếu không phải là có hại, lên nguy cơ bệnh tim mạch
Anh chị tin vào kết quả nghiên cứu của loại nghiên cứu nào hơn? Anh chị cho rằng điều trị
hormone thay thế ở phụ nữ mãn kinh có lợi hay có hại cho sức khỏe tim mạch? Tại sao anh chị
lại tin như vậy?
1 Barrett-Connor E Hormone Replacement Therapy BMJ 1998;317:457-461
Giảm HDL-cholesterol
Bệnh mạch vành Hút thuốc lá
Xem ti vi nhiều
Trang 142 Barrett-Connor E, Grady D Hormone replacement therapy, heart disease, and other
considerations Annu Rev Public Health 1998; 19: 55-72
3 Hemminki E, McPherson K Impact of postmenopausal hormone therapy on
cardiovascular events and cancer: pooled data from clinical trials BMJ 1997; 315:
149-153
4 Writing Group for the PEPI Trial Effects of estrogen or estrogen/progestin regimens
on heart disease risk factors in postmenopausal women JAMA 1995; 273: 199-208
3 Một nghiên cứu thực nghiệm trên khỉ chimpanzee cho thấy lượng estrogen giúp khỉ
chimpanzee cái được bảo vệ và có nguy cơ bị sốt rét thấp hơn so với khỉ đực Một nhà nghiên cứu quan tâm đến đề tài này và thực hiện một nghiên cứu bệnh chứng để xác định mối liên hệ giữa giới tính và sốt rét Nhà nghiên cứu này tìm được 150 trường hợp bệnh (trong đó có 88 nam) và 150 chứng (trong đó có 68 nam) Tỉ số số chênh thô tính được là 1,71
Nhà nghiên cứu này cũng biết chút ít về dịch tễ và cho rằng những hoạt động nghề nghiệp ngoài nhà là yếu tố gây nhiễu và do đó, thu thập thông tin về nghề nghiệp hoạt động ngoài nhà ở các đối tượng, sử dụng phương pháp phân tầng và ghi nhận được các kết quả sau:
Nhóm nghề nghiệp ngoài nhà Nhóm nghề nghiệp trong nhà
có nên nghe theo lời khuyên của chuyên gia dịch tễ hay không?
Bias in studies of use of oestrogen and heart disease1
Bias in who is prescribed oestrogen:
Healthier before treated
Bias in who takes oestrogen:
Compliant women
Trang 15Ðại cương về thống kê và thống kê mô tả
Giới thiệu về thống kê
Khi chúng ta khám sức khỏe cho một sinh viên, chúng ta có thể quan tâm đến chiều cao của sinh viên đó Chiều cao của sinh viên là một biến số nói lên đặc trưng của sinh viên đó Tuy nhiên khi chúng ta quan tâm đến toàn thể sinh viên năm thứ nhất năm học 2009-2010 của Đại học Y dược thì con số chiều cao của từng sinh viên trong hàng ngàn các sinh viên được khảo sát sẽ ít
có giá trị Lúc đó chúng ta quan tâm nhiều hơn đến chiều cao trung bình của sinh viên, chiều cao trung bình của sinh viên Nam, chiều cao trung bình của sinh viên Nữ, …Các con số trung bình này nói lên đặc trưng không chỉ của một người mà nói lên đặc trưng của một quần thể Con số nói lên đặc trưng của một quần thể được gọi là thống kê Phương pháp để từ số liệu (là các tập hợp các giá trị đặc trưng của cá nhân) để rút ra được con số thống kê được gọi là phương pháp thống kê
Khi chúng ta chỉ khám cho từng cá nhân bệnh nhân mà không cần phát triển một kiến thức mới điều chúng ta quan tâm hàng đầu là đặc trưng của từng bệnh nhân và không cần quan tâm đến thống kê Nếu chúng ta muốn thực hiện nghiên cứu khoa học có mục đích phát hiện được kiến thức mới có tính khái quát hóa (có thể áp dụng cho số đông) thì chúng ta phải nắm vững phương pháp thống kê
Số liệu
Khi chăm sóc sức khỏe cho cá nhân, chúng ta thường chỉ ghi nhận đặc trưng của từng cá nhân
mà ít quan tâm đến việc tập hợp những kết quả ghi nhận này một cách có hệ thống Để làm nghiên cứu khoa học điều trước tiên là phải có số liệu Số liệu được định nghĩa là tập hợp kết quả của quan sát hay thu thập có hệ thống của các đặc tính hay đại lượng của các đối tượng khác nhau
Thí dụ: Khi tôi quan sát giới tính của các học viên trong lớp, tôi có số liệu là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau:
và những con số này được gọi là số liệu
Số liệu phải được thu thập có hệ thống Nếu chiều cao của một người được đo bằng thước dây, của người khác được áng chứng, của người khác được đo bằng stadiometer thì tập hợp của những chiều cao này không thể được gọi là số liệu cho nghiên cứu khoa học Những đặc tính hay đại lượng của đối tượng có trong số liệu được gọi là biến số
Phương pháp mô tả tóm tắt và trình bày số liệu
Phương pháp thống kê đơn giản nhất (nhưng hữu ích và được dùng phổ biến nhất là phương pháp thống kê mô tả) Thống kê mô tả là phương pháp trình bày cô đọng đặc trưng của quần thể (thống kê) từ số liệu gồm các đặc trưng của cá thể (biến số) Như vậy phương pháp thống kê được sử dụng phải phụ thuộc vào biến số Tóm tắt các phương pháp trình bày đặc trưng của quần thể có thể bằng biểu đồ hay bằng con số thống kê tóm tắt được trình bày trong Bảng 1 Nhìn chung, để tóm tắt cho biến số định tính (như có bị bệnh đái tháo đường) người ta thường
Trang 16dùng tỉ lệ (tỉ lệ hiện mắc đái tháo đường), để tóm tắt cho biến số định lượng (như chiều cao) người ta thường dùng con số trung bình và độ lệch chuẩn (trung bình và độ lệch chuẩn của chiều cao) Tuy nhiên, trong một số trường hợp cụ thể mô tả đặc trưng của quần thể bằng con số trung bình không phù hợp mà phải sử dụng các số thống kê như trung vị, trung bình nhân, khoảng tứ phân vị, v.v Điều này sẽ được trình bày rõ hơn trong phần con số thống kê mô tả cho biến số định lượng
Bảng 2 Các phương pháp thống kê mô tả sử dụng cho biến số định lượng và định tính
Khoảng tứ phân vị; khoảng giá trị
Khoảng giá trị 1 độ lệch chuẩn
Tỉ lệ phần trăm của Giá trị tiêu biểu của biến nhị giá Các giá trị xếp theo thứ tự cho biến thứ tự Các giá trị xếp theo tần suất đối với biến danh định
Các số thống kê mô tả cho biến số định lượng
Giả sử chúng ta quan tâm chiều cao của sinh viên đại học y dược, chúng ta muốn biết nhìn chung sinh viên Đại học Y dược cao hay thấp (điều này thể hiện bằng thống kê khuynh hướng trung tâm – thí dụ như chiều cao trung bình) và chiều cao của các sinh viên là như nhau, hơi khác nhau, khác nhau hay rất khác nhau (điều này được thể hiện bằng con số thống kê độ phân tán – thí dụ như độ lệch chuẩn)
Thống kê khuynh hướng tập trung
Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung vị (median) và yếu vị (mode) Những thống kê này cho biết giá trị tiêu biểu cho số liệu
Trang 17Thí dụ: có hai loại thuốc hạ áp A và B Giả sử có 5 đối tượng sau khi sử dụng thuốc hạ áp A sẽ có huyết áp
110 - 115 -120 - 125 -130 và ở 5 đối tượng khác sau khi sử dụng thuốc hạ áp B sẽ có huyết áp 120 - 125 -
130 - 135 - 140 Con số tiêu biểu nhất để cho biết tác dụng của thuốc A là huyết áp trung bình sau khi sử dụng thuốc A và là 120 Con số huyết áp trung bình này thấp hơn huyết áp trung bình sau khi sử dụng thuốc B cho biết thuốc A có tác dụng mạnh hơn
Trung bình (mean) của biến số x, được kí hiệu là (đọc là x gạch) là tổng các giá trị của số liệu của x chia cho số lần quan sát (N)
150125130125120
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150 Trung vị của huyết áp tâm thu là giá trị đứng ở giữa và bằng 130
Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162, 165, 161 Ðể tính trung vị, trước tiên chúng ta phải sắp xếp số liệu này: 153, 155, 160, 161, 162, 165 Do có hai giá trị 160 và 161 cùng
Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9 Yếu vị của điểm số là 5
Trong một ấp có 361 gia đình người Kinh, 120 gia đình người Khmer và 27 gia đình người Hoa Yếu vị của biên số dân tộc là dân tộc Kinh
Trong một số liệu cụ thể, có thể không có yếu vị, có thể có một yếu vị hoặc hai hay nhiều yếu vị Ðây là khuyết điểm chính của số thống kê này Do đó trong các báo cáo khoa học người ta thường dùng trung bình hoặc trung vị chứ ít khi báo cáo giá trị của yếu vị
Có thể sử dụng trung bình, trung vị hay yếu vị cho biến số định lượng Khi biến số định lượng
có phân phối bình thường (hình chuông) thì ba con số này xấp xỉ bằng nhau và khi đó người ta thường tính trung bình bởi vì trung bình có những đặc tính toán học mạnh Tuy nhiên nếu số liệu
bị lệch thì con số trung vị phản ánh giá trị tiêu biểu một cách chính xác hơn
Thí dụ: Bệnh nhân bị loét dạ dày - tá tràng được điều trị theo một phác đồ diệt vi khuẩn Helicobacter Sau điều trị, bệnh nhân được theo dõi và ghi nhận thời gian kể từ khi sử dụng thuốc đến lúc bắt đầu cải thiện triệu chứng đau Ở 10 bệnh nhân thời gian này (ngày ) là như sau: 1, 2, 2,
2, 2, 2, 3, 3, 3, 30 Bệnh nhân có thời gian từ lúc điều trị đến lúc giảm triệu chứng là 30 ngày trên thực chất là bệnh nhân không đáp ứng với điều trị Trung vị và trung bình của số liệu là 2 và 5 ngày Con số trung vị phản ánh chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số liệu trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng thuốc Giá trị 30 trong số liệu của thí dụ trên được gọi là số ngoại lai (outlier) và làm số liệu bị lệch Nhìn chung, khi số liệu bị lệch thì con số trung bình sẽ bị ảnh hưởng rất nhiều và không phản ánh giá trị tiêu biểu như con số trung vị
Tuy nhiên có nhiều trường hợp mặc dù số liệu bị lệch nhưng nếu ứng dụng của nghiên cứu là tính toán tổng của các giá trị cho tất cả mọi trường hợp chứ không phải là chi phí tiêu biểu của một cá thể thì lúc đó vẫn nên dùng trung bình làm con số thống kê mô tả chứ không chỉ dùng trung vị
Thí dụ: Chi phí điều trị (tính bằng USD) cho 10 bệnh nhân bị loét dạ dày - tá tràng được điều trị theo một phác đồ diệt vi khuẩn Helicobacter được ghi nhận là như sau: 10, 20, 20, 20, 20, 20, 30,
30, 30, 300 Bệnh nhân có chi phí điều trị lên đến 300 USD là chi phí của bệnh nhân bị phản ứng
Trang 18bất lợi và phải điều trị phản ứng thuốc này và đổi thuốc mới Trung vị và trung bình của số liệu là
20 và 50 USD Nếu bệnh nhân hỏi bác sĩ phải tốn khoảng bao nhiêu tiền để điều trị diệt khuẩn Helicobacter, bác sĩ sẽ trả lời là chi phí điều trị trên dưới 20 USD (một bệnh nhân tiêu biểu sẽ chi trả khoảng số tiền này) Nếu bảo hiểm y tế muốn dự trù chi phí để điều trị diệt vi khuẩn
Helicobacter cho 1000 bệnh nhân thì cần phải dự trù số tiền là 1000 x 50 = 50.000 USD chứ không nên chỉ dự trù 20.000 USD (Barber, J A & Thompson, S G (1998) Analysis and interpretation of cost data in randomised controlled trials: review of published studies BMJ, 317(7167), 1195-1200)
Thống kê mô tả tính phân tán:
Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn, khoảng tứ phân vị và phạm vi của số liệu Việc lựa chọn thống kê mô tả tính phân tán được trình bày trong bảng 2
Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả khuynh hướng tập trung
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115,
120, 125 và 130 Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100,
110, 120, 130, 140 Như vậy hai thuốc hạ áp này có hiệu quả hạ áp là tương đương (bởi vì trung bình của hai số liệu là bằng nhau) nhưng kết quả của thuốc B phân tán hơn và điều này làm thuốc B trở nên kém an toàn
Để đánh giá sự phân tán của số liệu trước tiên người ta sử dụng độ lệch của giá trị so với giá trị trung bình
Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150 Huyết áp tâm thu trung bình sẽ là 132 Như vậy độ lệch của huyết áp tâm thu ở 5 đối tượng này (so với huyết áp tâm thu trung bình) lần lượt là -12, -7, -2, 3, 15
Để mô tả độ lớn của độ lệch không thể sử dụng trung bình của độ lệch bởi vì độ lệch bao gồm giá trị âm và giá trị dương nên trung bình của độ lệch là giá trị zero Để khắc phục điều này người ta sử dụng trung bình của bình phương độ lệch (hay còn gọi là Mean of Square – MS) Trung bình bình phương độ lệch còn được gọi là phương sai (variance) Phương sai (variance)
có thể được kí hiệu và Var hay s2 (người ta kí hiệu phương sai là s2 bởi vì Phương sai về mặt từ nguyên là bình phương của độ lệch chuẩn mà độ lệch chuẩn được kí hiệu là s)
1
)(
Variance
N
i i
Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135, 150 Huyết áp tâm thu trung bình sẽ là 132 Như vậy độ lệch của huyết áp tâm thu ở 5 đối tượng này (so với huyết áp tâm thu trung bình) lần lượt là -12, -7, -2, 3, 15 Trung bình của bình phương độ lệch (Phương sai) của số liệu:
5,1324
5304
3249449144
15
)132150()132135()130132()132125()132120(
1
)(
2 2
2 2
2 1
Nếu chúng ta gọi
N-1 là độ tự do của MS
SS x x
Thì
Trang 19df MS
Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là căn bậc hai trung bình bình phương
độ lệch (căn bậc hai của phương sai) Vì vậy, độ lệch chuẩn phản ánh độ lớn của trị tuyệt đối của
độ lệch, phản ánh khoảng cách trung bình của số liệu so với giá trị tiêu biểu
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150 Trung bình của huyết áp là 132 và độ lệch chuẩn bằng
5,115,1324
5304
3249449144
15
)132150()132135()130132()132125()132120
(
1
)(
2 2
2 2
2 1
Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất đến giá trị lớn nhất
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150 Phạm vi của biến
số huyết áp là 120 đến 150
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu sau khi dùng thuốc là 110, 115,
120, 125 và 130 Thuốc hạ áp B được sử dụng trên 5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100,
110, 120, 130, 140 Số liệu của thuốc B có tính phân tán cao hơn do phạm vi thay đổi từ 100-140 trong khi
đó phạm vị của số liệu thuốc A chỉ từ 110-130
Khoảng tứ phân vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tự làm 2 phần đều nhau, khoảng tứ phân vị là khoảng cách của trung vị phần trên và trung vị phần dưới
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125, 130, 135, 150 Số liệu này được chia làm 2 phần: phần 1 gồm 120, 125, 130 và phần 2 gồm 130, 135, và 150 Trung vị của phần trên là 125
- trung vị của phần dưới là 135, do đó phạm tứ phân vị là 125-135
Do bản chất của khoảng tứ phân vị là trung vị của phần số liệu trên và phần số liệu dưới, cũng giống như trung vị, khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị ngoại lai như trong trường hợp của độ lệch chuẩn
Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau Hãy thử đọc và
Nếu biến số là biến rời rạc, có thể trình bày dưới dạng biểu đồ hình thanh (bar chart - hình 1) hoặc biểu đồ hình bánh (pie chart) Nếu biến số là biến liên tục, thì phân phối của biến số có thể trình bày dưới dạng tổ chức đồ (histogram - hình 2) hoặc đa giác tần suất
Trang 20Biểu đồ và đồ thị cho biến định lượng: Tổ chức đồ, đa giác tần suất, biểu đồ hình hộp
Tổ chức đồ (histogram), đa giác tần suất (polyline), biểu đồ hình hộp (boxplot) được dùng trong
mô tả phân bố của biến số liên tục Ðể vẽ tổ chức đồ, người ta chia biên độ của giá trị làm nhiều khoảng giá trị và tính tần suất của những khoảng giá trị đó Những khoảng giá trị này được biểu thị ở trên trục hoành Ứng với mỗi khoảng giá trị người ta vẽ những hình chữ nhật có diện tích
tỉ lệ với tần suất của khoảng giá trị đó Bởi vì các khoảng giá trị này nằm sát nhau trên trục hoành, các hình chữ nhật của tổ chức đồ cũng thường nằm sát nhau
Hình 2 Ða giác tần suất của hemoglobin của 70 phụ nữ
Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm của các cạnh trên của các hình chữ nhật Ða giác tần suất thường không đẹp như các tổ chức đồ nhưng nó có ưu điểm là có thể vẽ nhiều đa giác tần suất trên cùng một đồ thị để dễ so sánh các phân phối của
Trang 21Hình 4 Biểu đồ hình hộp của hemoglobin ở 70 phụ nữ
Ngoài ra còn có Biểu đồ hình hộp (boxplot) cũng được sử dụng để mô tả sự phân phối của biến
số định lượng (xem hình 8) Biểu đồ hình hộp gồm một hình chữ nhật và 2 đoạn thẳng đứng Hình hộp có cạnh trên là giá trị của số liệu không quá giá trị tứ phân vị trên, cạnh dưới là giá trị của số liệu không nhỏ hơn giá trị tứ phân vị dưới Ðường nằm ngang trong hình hộp là giá trị của trung vị Hai thanh dọc của sơ đồ hộp nối liền giá trị tứ vị trên với giá trị cực đại va tứ vị
Trung vị
Tứ phân vị dưới
Tứ phân vị trên Tối đa
Tối thiểu
Trang 22dưới với giá trị cực tiểu
Biểu đồ cho biến số định tính: Biểu đồ bánh và biểu đồ hình thanh
Biểu đồ hình bánh (pie chart) được dùng để mơ tả sự phân bố của biến số rời rạc Biểu đơ hình bánh là một vịng trịn được chia làm nhiều cung tương ứng với các giá trị của biến số Ðộ lớn của cung tỉ lệ với tần suất của giá trị biến số
Nữ 35%
Nam 65%
Hình 5 Biểu đồ hình bánh (pie chart) mơ tả phân bố giới tính của những học sinh trong trường mầm non 23/11, Hĩc mơn
Sinh thường
Sinh mổ Sinh
forceps
Hình 6 Biểu đồ hình bánh thể hiện phương pháp sinh của 600 đứa trẻ sinh tại bệnh viện X
Biểu đồ hình bánh (pie chart) cĩ ưu điểm là đơn giản nhưng thường chỉ sử dụng để cho mơ tả cho một biến số của một quần thể duy nhất Biểu đồ hình thanh (bar chart) đem lại nhiều thơng tin hơn và cĩ thể sử dụng để mơ tả sự phân bố của biến số định tính của nhiều quần thể
Biểu đồ hình thanh (bar chart) là biểu đồ nhằm mơ tả sự phân bố của biến số rời rạc Biểu đồ hình thanh gồm cĩ trục hồnh trên đĩ xác định những giá trị của biến số Ứng với từng giá trị của biến số người ta vẽ các thanh cĩ chiều cao tỉ lệ với tần suất của giá trị đĩ Cần lưu ý luơn luơn cĩ khoảng trống giữa các thanh
Trang 23Hình 8 Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm 1998
Ðối với biến số thứ tự, điều cần lưu ý là các giá trị sắp xếp trên đồ thị phải phản ánh tính chất thứ tự của thang đo biến số Đối với biến số danh định, các giá trị trên đồ thị phải được sắp xếp theo thứ tự giảm dần của tần suất của các giá trị đó
Trang 24Biểu đồ thanh khơng chỉ nhằm để mơ tả phân bố của biến định tính mà cịn thể hiện sự phụ thuộc của kết cuộc theo một biến số độc lập (như thể hiện sự phụ thuộc của tỉ lệ suy dinh dưỡng của trẻ theo trình độ học vấn của mẹ) hoặc sự phụ thuộc của kết cuộc theo hai biến số độc lập (như thể hiện sự phụ thuộc của tỉ suất lây truyền từ HIV mẹ sang con theo việc cĩ được uống thuốc ARV dự phịng và phương pháp sinh)
Đường âm đạo Mổ lấy thai
Hình 11 Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm HIV theo điều trị hĩa dự phịng và phương pháp sinh (Nguồn: The European Mode of Delivery Collaboration, Lancet, 27/3/1999)
Trang 25Trình bày số liệu và thống kê với bảng
Bảng là phương pháp trình bày số liệu hay các con số thống kê theo cấu trúc ma trận (với hàng
và cột) Bảng có thể sử dụng để trình bày số liệu hoặc thống kê
Trình bày số liệu với bảng
Bảng phân phối tần suất có thể sử dụng để trình bày số liệu cho biến định tính hoặc biến định lượng Cần lưu ý nếu muốn trình bày số liệu cho biến định lượng cần phải phân nhóm các biến định lượng này thành biến định tính
Phân phối tần suất của biến số định tính
Số liệu của biến số định tính có thể được trình bày dưới dạng một phân phối tần suất Phân phối tần suất là một bảng chỉ ra tần suất và tỉ lệ phần trăm xuất hiện của từng giá trị rời rạc của biến
số (Bảng 1) Như vậy bảng phân phối tần suất gồm 2 cột, một cột liệt kê các giá trị của biến số
và một cột trình bày tần suất tương ứng của các giá trị đó
Bảng 1 Phân phối giới tính của 69 học sinh lớp cơm thường trường mầm non 23 tháng 11, Huyện Hóc môn
Bảng 2 là một thí dụ khác về bảng phân phối tần suất
Bảng 2 Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện
Phương pháp đỡ đẻ Số sinh Phần trăm
Sinh thường 478 79,7
Phân phối tần suất của biến số định lượng
Nếu chúng ta có số liệu định lượng của nhiều đối tượng, việc trình bày số liệu bằng cách liệt kê
sẽ kém hiệu quả Khi đó người ta phải phân nhóm số liệu định lượng và sử dụng bảng phân phối tần suất của biến phân nhóm để trình bày số liệu cô đọng hơn
Trang 26Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau:
và những con số này được gọi là số liệu
Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượng như sau:
1- Tìm khoảng giá trị (giá trị cực tiểu và giá trị cực đại) của số liệu Trong thí dụ về hemoglobin của 70 phụ nữ khoảng giá trị là 8,8 đến 15,1
2 Chia khoảng giá trị số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d Cần lưu ý độ rộng mỗi khoảng d nên là ước số của 10 như như 1, 2, 5, 10 hay 0,5, 0,2 và số các khoảng n nên
từ 5-12 (trung bình là 7-8) Trong thí dụ trên ta có thể chia phạm vi ra làm 8 khoảng với chiều rộng khoảng bằng 1 đơn vị Khi đó các khoảng là: 8-8,9; 9-9,9; 10-10,9; 11-11,9; 12-12,9; 13-13,9; 14-14,9; 15-15,9
3 Ðếm các giá trị thích hợp vào khoảng đã định trước
4 Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của biến số, tần suất và tỉ
lệ phần trăm tương ứng với các khoảng giá trị đó Chúng ta cũng có thể thêm vào cột phần trăm tích lũy (Cummulative percent) hay còn gọi là phần trăm cộng dồn
Table 3 Hemoglobin của 70 phụ nữ
Hemoglobin Tần suất Phần trăm Phần trăm tích lũy
Trang 2715-15,9 1 1.43 100.00
Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi vòng cánh tay đến 1 cm Khi đó ta có thể xem thang đo của biến số là rời rạc và trình bày bảng phân phối tần suất của biến số (bảng 2)
Table 4 Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà trẻ 23 tháng 11, Hóc môn
Vòng cánh tay Tần suất Phần trăm Phần trăm tích lũy
Trình bày thống kê với bảng
Trong các báo cáo khoa học, do cần phải xúc tích, cô đọng, các tác giả ít khi trình bày số liệu mà trình bày các kết quả thống kê (đặc trưng của quần thể) của biến số định tính và biến số định lượng
Bảng trình bày kết quả thống kê được xây dựng trên 2 nguyên tắc chính:
- Đơn giản:
o Chỉ trình bày đặc tính của quần thể chung hoặc phân nhóm theo một biến số mà thôi
o Các tỉ lệ phần trăm không cần trình bày với số lẻ thập phân (nếu cỡ mẫu lớn
>1000 thì có thể trình bày tỉ lệ phần trăm với 1 số lẻ thập phân nhưng không nhiều hơn)
o Các số thống kê cho biến định lượng (trung bình, trung vị, độ lệch chuẩn,…) chỉ lấy một số lẻ thập phân nhiều hơn so với số đo của biến số Thí dụ nếu tuổi được ghi nhận là tuổi theo năm tròn thì tuổi trung bình chỉ lấy một số lẻ thập phân Nếu chiều cao ghi nhận là mét với độ chính xác là cm thì chiều cao trung bình và độ lệch chuẩn của chiều cao ghi nhận với độ chính xác là mm
- Đủ thông tin: Tính chất đủ thông tin thể hiện như sau
o Đủ thông tin về bảng: Bảng phải có tiêu đề nêu rõ các đặc trưng nào được trình bày trong bảng Trình bày rõ thêm quần thể nghiên cứu và thời điểm khảo sát nếu cần thiết
o Đủ thông tin của hàng và cột: Tất cả các hàng và cột phải có tiêu đề
o Đủ thông tin về biến số: Biến định lượng phải ghi rõ đơn vị đo lường, biến số định tính phải được liệt kê đầy đủ các giá trị (trừ khi biến định tính là biến nhị giá)
o Đủ thông tin về kết quả thống kê: biến số định tính được trình bày với thống kê
về tỉ lệ, biến định lượng phải được trình bày với trung bình và độ lệch chuẩn (trừ khi biến số định lượng phân phối lệch)
o Đủ thông tin về các kí hiệu và chữ viết tắt: Tất cả các chữ viết tắt (dù đã được
Trang 28chú thích ở ngoài) vẫn phải được giải thích trong bảng Xem thí dụ của bảng 1 trong phần kết quả của một thử nghiệm lâm sàng, trình bày thống kê về đặc tính nhân khẩu học và nguy cơ nền theo kết cuộc để minh họa các nguyên tắc xây dựng bảng
Trang 29Ðại cương về phân tích số liệu Phép ước lượng
Dân số và mẫu
Thông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta quan tâm Chúng ta thường chỉ có thể nghiên cứu chỉ một phần dân số đó, phần này được gọi là mẫu (sample) và từ
đó ước đoán về những đặc tính của dân số
Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số - variable) để có được đặc trưng của mẫu (được gọi là thống kê - statistics) và từ đặc trưng của mẫu chúng ta sử dụng phương pháp suy luận thống kê và lí giải để có được đặc trưng của dân số (được gọi là tham số - parameter)
Một loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn Khi lấy mẫu ngẫu nhiên đơn, chúng ta có thể tính được giá trị trung bình và độ lệch chuẩn của mẫu Rõ ràng là giá trị trung bình và độ lệch chuẩn sẽ khác nhau với những mẫu khác nhau Tuy vậy các nhà thống
kê đã chứng minh rằng giá trị trung bình của mẫu sẽ có phân phối bình thường và các giá trị trung bình này sẽ tập trung tại trung bình của dân số Do đó nếu chúng ta tính trung bình của mẫu thì chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung bình của mẫu Ðộ phân tán của trung bình mẫu xung quanh chung bình dân số (kí hiệu σlà độ lệch chuẩn của ) được gọi là độ lệch chuẩn của trung bình Độ phân tán của trung bìn mẫu sẽ giảm đi khi cỡ mẫu càng lớn Độ lệch chuẩn của trung bình bằng độ lệch chuẩn σx của biến số x chia cho căn bậc hai cỡ mẫu n
n n
Trên thực tế, chúng ta không thể nào có được độ lệch chuẩn của trung bình σbởi vì chúng ta không có được độ lệch chuẩn của biến số σ Nhưng vì chúng ta có thể ước lượng giá trị của tham
số σ nhờ thống kê s nên chúng ta có thể ước lượng được độ lệch chuẩn của trung bình nhờ một đại lượng được gọi là sai số chuẩn của trung bình (standard error of the mean)
n
s n
s e
s
2
Ước lượng khoảng tin cậy của trung bình
Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung tại giá trị trung bình của dân số, nên chúng ta có thể ước lượng trung bình dân số bằng cách tính trung bình của mẫu
Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình mẫu sẽ chính xác bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số nằm ở vị trí đâu đó chung quanh trung bình của dân số Các nhà thống kê cho rằng 95% các trường hợp lấy mẫu trung bình dân số μ có khoảng cách đến trung bình mẫu không quá 1,96× σ(1,96 lần của sai số chuẩn) Do
đó khoảng giá trị này được gọi là khoảng tin cậy 95% Như vậy khoảng tin cậy 95% của trung bình của biến sô định lượng
Khoảng tin cậy 95% (95% CI) của trung bình dân số μ: x 1,96 σ
Trang 30Trên thực tế chúng ta không thể biết được σ mà chỉ có thể tính được sai sô chuẩn se Nếu cỡ mẫu đủ lớn (n>30) thì σ ≈ se Công thức tính khoảng tin cậy của trung bình dân số sẽ là:
Khoảng tin cậy 95% của trung bình dân số μ: 1,96 se = 1,96 s/n
Trong trường hợp cỡ mẫu nhỏ (n < 30), thì chúng ta σ và se sẽ khác nhau Vì vậy chúng ta để đảm bảo đạt mức độ tin cậy 95% chúng ta mở rộng khoảng biến thiên của khoảng tin cậy và không thể sử dụng hệ số 1,96 như trong công thức trên mà cần phải sử dụng các hệ số có giá trị hơi lớn hơn (và càng lớn nếu cỡ mẫu càng nhỏ) Giá trị này được gọi là giá trị của phân phối t với (cỡ mẫu n – 1) độ tự do với phân vị hai đuôi 0,95
Khoảng tin cậy 95% của trung bình dân số μ: t(1-/2) se =x t(1-/2) s/n
Bài tập:
1 Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp cho thấy trọng lượng trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là 435 gram Hãy ước lượng khoảng tin cậy 95% của trọng lượng trung bình của trẻ sơ sinh tỉnh Đồng Tháp
- Ta có n = 1235; = 3121; s=435
Sai số chuẩn (se) = s /n = 12,38
Do cỡ mẫu n=1235 là lớn nên ta có thể xem σ ≈ se = 12,38 Thay sai số chuẩn vào công thức:
Khoảng tin cậy 95% (95% CI) của trung bình dân số μ: x 1,96 se
Ta có
KTC 95% của trọng lượng trung bình: 3096,7 – 3145,3 gram
2 Chiều cao của 10 thanh niên là 160; 162; 165; 166; 169; 170; 172; 172; 176; 176 Hãy ước lượng khoảng tin cậy 95% của chiều cao trung bình
Từ số liệu trên ta xác định được:
- Ta có n = 10; = 168,8 ; s=5,5
Sai số chuẩn (se) = s /n = 1,74
Vì cỡ mẫu n=10 là cỡ mẫu nhỏ nên ta không thể giả định σ ≈ se Vì vậy ta phải tính khoảng tin cậy theo công thức của phân phối t:
Khoảng tin cậy 95% (95% CI) của trung bình dân số μ: x t(1-/2) se
Do cỡ mẫu là 10 chúng ta phải dò bảng phân phối t ở 9 độ tự do ta được giá trị t (tương ứng với khoảng tin cậy 95%) tại phân vị 2 đuôi 0,95 là là 2,26 Từ đó chúng ta tính được khoảng tin cậy 95%
KTC 95% của chiều cao trung bình là =164,9 – 172,7
Ước lượng khoảng tin cậy của tỉ lệ
Để ước lượng khoảng tin cậy của một tỉ lệ, có nhiều công thức Trong trường hợp n × p ≥ 5 chúng ta có thể tính sai số chuẩn của tỉ lệ theo công thức sau:
n
)-
(1 p p
,
Bài tập
Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá Hãy tính tỉ lệ thanh niên hút thuốc lá
và khoảng tin cậy 95% của tỉ lệ hút thuốc lá
Trang 31Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%) Dựa vào công thức trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là 0,271 đến 0,438
Suy luận thống kê
Kiểm định ý nghĩa
Phương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của phép phản chứng Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A kéo theo B thì không B sẽ kéo theo không A
A B BA
Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ tắc ruột và chúng
ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không Giả sử bệnh nhân không bí trung tiện thì chúng ta sẽ bác cỏ chẩn đoán tắc ruột với suy luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung tiện thì bệnh nhân sẽ bí trung tiện, do bệnh nhân không bí trung tiện nên bệnh nhân không bị tắc ruột
Một cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ như chẩn đoán tắc ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả thuyết này (Bệnh nhân tắc ruột thường bị đau bụng,nôn ói, bí trung tiện và chướng bụng) Việc không có một trong các hậu quả phổ biến của giả thuyết này (thí dụ như bệnh nhân không có đau bụng, không có nôn ói, không
bị bí trung tiện hay không có chướng bụng) thì chúng ta có thể bác bỏ chẩn đoán Các biến cố nằm ngoài các hệ quả phổ biến của giả thuyết (biến cố không có đau bụng, không có nôn ói, không bị bí trung tiện hay không có chướng bụng) được gọi là miền bác bỏ của chẩn đoán Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự Để kiểm định một giả thuyết thống kê (được gọi là giả thuyết Ho) cần phải xác định miền xảy ra phổ biến của các con
số thống kê (như trung bình, tỉ lệ, thống kê t, thống kê z, thống kê chi bình phương, v.v.) và nếu con số thống kê này nằm ngoài miền xảy ra phổ biến thì chúng ta sẽ bác bỏ giả thuyết Ho Miền nằm ngoài miền xảy ra phổ biến của số thống kê được gọi miền bác bỏ
Hình 1 Nguyên tắc kiểm định ý nghĩa theo Fisher Đường cong phân phối hình chuông thể hiện phân phối của thống kê của z khi µ=0 (giả thuyết Ho) Vùng diện tích dưới đường cong màu trắng
Trang 32thể hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho là đúng Vùng diện tích dưới đường cong màu sẫm là miền bác bỏ giả thuyết Ho và cĩ diện tích là xác suất sai lầm loại 1 (5%)
Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau:
- Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ cĩ thể bác bỏ chứ khơng thể chứng minh được giả thuyết Ho Vì vậy nếu chúng ta muốn chứng minh hút thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra giả th.uyết thống kê Ho là hút thuốc lá khơng phải là yếu tố nguy cơ của ung thư phổi và sử dụng phương pháp kiểm định để bác bỏ điều này
- Giả thuyết Ho phải thể hiện bằng đẳng thức (thí dụ như giả thuyết Ho: RR=1 hay Ho: điểm trung bình về bệnh lây truyền qua đường tình dục ở nam thanh niên = điểm trung bình về bệnh lây truyền qua đường tình dục ở nữ thanh niên ) thì mới cĩ thể tính được phân phối của thống kê Giả thuyết Ho khơng thể thể hiện bằng bất đẳng thức (Ho: RR>1
là sai)
- Do diện tích miền bác bỏ là một con số cố định (thường là 0,05), để xác định con số thống kê T cĩ nằm trong miền bác bỏ hay khơng người ta tính xác suất xảy ra thống kê cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể hiện bằng cơng thức: P (>T
|Ho) ) Xác suất này được gọi là giá trị p Và nếu giá trị p nhỏ hơn ngưỡng bác bỏ nghĩa
là thống kê T nằm trong vùng bác bỏ và chúng ta cĩ thể bác bỏ giả thuyết Ho
Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê Thí dụ ở phần mềm Epi-Info, giá trị p được kí hiệu là p-value, ở phần mềm SPSS, giá trị p được kí hiệu là Sig Ở phần mềm Stata, các giá trị p thường được kí hiệu khác nhau tùy theo thống kê được sử dụng là thống kê gì
Cụ thể, trong phần mềm Stata, giá trị p được kí hiệu như sau:
P > |T| (nếu kiểm định t)
P > |z| (nếu kiểm định z)
Prob > chi2 (kiểm định chi bình phương)
Prob > F (Kiểm định F; Kiểm định ANOVA)
Kiểm định giả thuyết
Khuyết điểm của phương pháp kiểm định ý nghĩa khi khơng bác bỏ được giả thuyết H0 chúng ta khơng biết được xác suất H0 đúng là bao nhiêu Một nhà thống kê học khác tên là Neyman đã đề
ra phương pháp kiểm định giả thuyết trong đĩ cĩ xét đến sai lầm loại 2
Bác bỏ giả thuyết
Xác suất sai lầm loại 2
Không nhỏ
tra bảng tính p
Sai lầm loại một và sai lầm loại hai
Sai lầm loại một: bác bỏ giả thuyết H0 trong khi giả thuyết H0 là đúng
Sai lầm loại hai: Khơng bác bỏ giả thuyết H0 trong khi giả thuyết H0 sai
Trang 33Trong nghiên cứu thống kê người ta không bao giờ có thể chắc chắn Do vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết H0, người nghiên cứu có thể bị sai lầm (sai lầm loại một - với một xác suất nào đó) Khi nhà nghiên cứu không bác bỏ giả thuyết H0, nhà nghiên cứu cũng
có thể bị sai lầm (sai lầm loại hai - cũng với một xác suất nào đó) Một điều nên nhớ là bằng kiểm định thống kê người ta có thể xác định được xác suất sai lầm loại một nhưng không thể tính được xác suất sai lầm loại hai mà chỉ có thể tính được dựa vào đối thuyết Ha và cỡ mẫu của nghiên cứu
Ðôi khi người ta còn sử dụng khái niệm năng lực (power) của kiểm định thống kê Năng lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2 Khái niệm năng lực của thống kê hay được dùng trong tính cỡ mẫu
Bảng 1 Tóm tắt về sai lầm loại 1, sai lầm loại 2 và giá trị ngưỡng của nó
Thực sự có sự khác biệt Thực sự không có sự
khác biệt (Ho Đúng) Bác bỏ giả thuyết H0 Kết luận đúng
(Xác suất = 1- = Power của nghiên cứu)
Sai lầm loại 1 (Xác suất = )
Chấp nhận giả thuyết H0 Sai lầm loại II
(Xác suất = )
Kết luận đúng (Xác suất = 1-)
Sử dụng phép loại suy với xét nghiệm trong chẩn đoán bệnh, ta có thể cho rằng Power của nghiên cứu tương tự như độ nhạy của xét nghiệm, xác suất sai lầm loại 1 tương tự như xác suất dương tính giả ở nhóm không bệnh = 1 – độ chuyên của xét nghiệm
Nếu một xét nghiệm có độ chuyên là 95% (tương ứng với tỉ lệ dương tính giả là 5%) khi đó một người có xét nghiệm dương tính thì xác suất chúng ta kết luận đúng (người này thực sự mắc bệnh) là bao nhiêu Một câu trả lời đến ngay trong đầu (nhưng sai) là 95% Trên thực tế chúng ta biết xác suất kết luận đúng một người mắc bệnh khi xét nghiệm dương được gọi là giá trị tiến đoán dương và giá trị tiên đoán dương khác với độ chuyên: giá trị tiên đoán dương phụ thuộc vào cả độ nhạy, độ chuyên và tỉ lệ mắc bệnh trong cộng đồng Tương tự như vậy nếu phép kiểm thống kê bác bỏ giả thuyết Ho với giá trị p<0.05 chúng ta chỉ biết rằng xác suất chúng ta kết luận đúng là khá cao nhưng không thể cho rằng xác suất chúng ta kết luận đúng >95%
Các bước kiểm định
Để tiến hành kiểm định chúng ta thực hiện 5 bước sau:
- Bước 1: Chọn kiểm định phù hợp dựa vào:
o xem xét các giả định của kiểm định có phù hợp hay không
o thang đo của biến kết cuộc và biến độc lập
- Bước 2: Xây dựng giả thuyết Ho
- Bước 3: Tính giá trị thống kê như thống kê t, thống kê χ2, thống kê F và độ tự do của thống kê Trong một số trường hợp chúng ta không thể xem xét toàn bộ giả định của phép kiểm thống kê thì ở bước ba chúng ta lập lại việc xem xét giả định này
- Bước 4: Từ giá trị thống kê chúng ta tính được giá trị p
- Bước 5: Nếu giá trị p nhỏ (thường được gọi là nhỏ khi p<0.05) thì chúng ta có thể kết luận bác bỏ giá trị Ho (suy luận loại suy: nếu kết quả của xét nghiệm cho chúng ta một giá trị và chúng ta biết rằng ngưỡng chẩn đoán ở giá trị này tương ứng với tỉ lệ dương tính giả thấp thì chúng ta có thể tin rằng bệnh nhân có bệnh) Ngoài ra nếu sự khác biệt là mục tiêu của nghiên cứu, chúng ta phải báo cáo khoảng tin cậy 95% của khoảng khác biệt này
Trang 34Chọn lựa kiểm định phù hợp
Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như nhau) Các kiểm định chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết H0. Việc lựa chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của nghiên cứu
Bảng 10 Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu
Loại thiết kế nghiên cứu
Thang đo của biến số
phụ thuộc
Hai nhóm điều trị gồm các cá nhân khác nhau
Ba (hay nhiêù) nhóm điều trị gồm các
cá nhân khác nhau
Trước và sau một điều trị (hoặc 2 điều trị) ở trên cùng các đối tượng
Nhiều điều trị trên cùng các đối tượng
Liên hệ giữa hai biến số
Phân tích phương sai
t-test bắt cặp
Phân tích phương sai
đo lường lập lại
Hồi quy tuyến tính
và tương quan pearson Ðịnh tính - Danh định 2 bảng 2 x
n
2 bảng 3 x
n
test McNemar
Cochrance
Q
Hệ số của bảng n x m (phi, OR, RR) Ðịnh tính -Thứ tự
(hay biến định lượng
không bình thường)
Kiểm định tổng sắp hạng Wilconxon Mann-Whitney
Wallis
Kruskal-Kiểm định sắp hạng có dấu Wilcoxon
Friedman hệ số tương
quan Spearman
Trang 35Bảng 11 Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc lập và biến phụ thuộc
Biến độc lập Biến phụ thuộc
Nhị giá Danh định
(hoặc thứ tự)
Định lượng, đa biến (hoặc thứ tự) Định lượng phân phối bình
- phân phối không bình thường
- không cần kiểm tra giả định
Biến thứ tự
Wilcoxon rank sum
test (Mann-Whitney)
Kruskal-Wallis Tương quan Spearman
Hồi quy Cox
Trang 36Một số phép kiểm thống kê thường sử dụng
Phép kiểm z hai nhóm khi biết phương sai dân số của 2 mẫu
Sử dụng khi nào:
Phép kiểm z hai nhóm khi biết phương sai dân số sử dụng để so sánh trung bình của biến số định lượng ở 2 nhóm (two-group mean-comparison test) Xét về thang đo của biến độc lập và biến phụ thuộc, phép kiểm z được sử dụng khi biến độc lập là biến nhị giá và biến phụ thuộc là biến định lượng
σ 12 : phương sai ở nhóm 1
σ 22 : phương sai ở nhóm 2
- Giá trị thống kê z:
2 2 2 1 2 2
2 1 2
1
//
2
x x x
x z
1 2
x xx
Ghi chú
Phép kiểm z trước đây rất được ưa chuộng do công thức tính đơn giản, không cần phải sử dụng bảng t Tuy nhiên giả định của kiểm định z là biết được phương sai của dân số mà điều này là không thực tiễn nên các tài liệu thống kê hiện đại ít trình bày kiểm định này mà chỉ trình bày kiểm định t là kiểm định có giả định tính thực tiễn hơn Phần mềm Stata hoàn toàn không lưu ý kiểm định z và phần mềm R chỉ trình bày kiểm định z với mục đích sư phạm cho sinh viên trước khi trình bày kiểm định t
Phép kiểm t hai nhóm phương sai không bằng nhau
Sử dụng khi nào:
Phép kiểm t hai nhóm phương sai không bằng nhau sử dụng để so sánh trung bình của biến số định lượng ở 2 nhóm (two-group mean-comparison test) Xét về thang đo của biến độc lập và biến phụ thuộc, phép kiểm t được sử dụng khi biến độc lập là biến nhị giá và biến phụ thuộc là biến định lượng
Giả định
- Phân phối của biến định lượng ở mỗi nhóm là bình thường
Trang 37- Phương sai (và độ lệch chuẩn) của hai nhóm khác nhau (hoặc bằng nhau)
Dù kiểm định này về lí thuyết có thể sử dụng cho cả trường hợp 2 mẫu có phương sai bằng nhau, nhưng do công thức tính độ tự do của phép kiểm t hai nhóm phương sai không bằng nhau khá phức tạp và do thông lệ, khi phương sai hai nhóm bằng nhau, phép kiểm t hai nhóm phương sai bằng nhau được sử dụng nhiều hơn
2 2 2
4 2
1 2 1
4 1
2
2
2 2
1
2 1
n n
s n
n s
n
s n s
f
d
- Giá trị thống kê t:
2 2 2 1 2 1
2 1 2
1
//n s n s
x x se
x x t
Với Sai số chuẩn: se s12/n1s22/n2 với
Khoảng tin cậy của hiệu số trung bình
Giả định
- Phân phối của biến định lượng ở mỗi nhóm là bình thường
- Phương sai (và độ lệch chuẩn) của hai nhóm bằng nhau
Công thức thống kê:
Nếu chúng ta kí hiệu:
n1 : cỡ mẫu của nhóm 1
n2 : cỡ mẫu của nhóm 2
Trang 38: giá trị trung bình ở nhóm 1 : giá trị trung bình ở nhóm 2
2 1 2
1
/1/
s
x x se
x x t
)1()1(
2 1
2 2 2 2 1 1
s n s n
x1 : giá trị của biến số thứ nhất
x2 : giá trị của biến số thứ nhất
d=x1-x2 : hiệu số giá trị của 2 biến số
: trung bình của hiệu số d
sd : phương sai của d
- Độ tự do của kiểm định t: df = n - 1
- Giá trị thống kê t:
n s
x x se
d t
Với Sai số chuẩn: ses d 1/n
Khoảng tin cậy của trung bình hiệu số
KTC 95% = d t1/2sed t1/2s d 1/n
Trang 39: trung bình của biến số x
s : độ lệch chuẩn của biến x
μ : than số cho trước
- Độ tự do của kiểm định t: df = n - 1
- Giá trị thống kê t:
n s
x se
x t
/1
Với Sai số chuẩn: ses 1/n
Khoảng tin cậy của sự khác biệt giữa trung bình của biến x và tham số
Giả định
- Phân phối của biến định lượng ở mỗi nhóm là bình thường
- Phương sai (và độ lệch chuẩn) của các nhóm bằng nhau
Công thức thống kê:
Giả số có k nhóm (k≥3), ta kí hiệu
Trang 40n1 : cỡ mẫu của nhóm 1
n2 : cỡ mẫu của nhóm 2
nk : cỡ mẫu của nhóm k
: giá trị trung bình ở nhóm 1 : giá trị trung bình ở nhóm 2 : giá trị trung bình ở nhóm k
Khoảng tin cậy của hiệu số trung bình
Phép tính khoảng tin cậy của hiệu số trung bình tương đối phức tạp nên không được trình bày ở đây
Phép kiểm chi bình phương so sánh tỉ lệ 2 nhóm
Sử dụng khi nào:
Phép kiểm chi bình phương bảng 2 x 2 sử dụng so sánh tỉ lệ của một biến số nhị giá ở 2 nhóm Xét về thang đo của biến độc lập và biến phụ thuộc, phép kiểm chi bình phương bảng 2 x 2 được sử dụng khi biến độc lập là biến nhị giá và biến phụ thuộc là nhị giá
Giả định
- Vọng trị (expected value) của tất cả 4 ô trong bảng 2 x 2 đều ≥ 5 Nếu tần suất quan sát của tất cả các ô đều ≥ 5 thì vọng trị của tất cả các ô cũng ≥ 5 nhưng điều ngược lại không đúng
- Nếu giả định trên không thỏa thì chúng ta phải thực hiện kiểm định chính xác Fisher (Fisher exact test)
Công thức thống kê:
Nếu ta quy ước trình bày số liệu theo bảng 2 x 2 như sau:
Bệnh
(Hậu quả)