Biến số định lượng có thể còn được chia thành biến số tỉ số - ratio variablecó giá trị không tuyệt đối và biến số khoảng – interval variable không có giá trị không tuyệt đố - Nếu biến số
Trang 1TRƯỜNG ĐẠI HỌC VÕ TRƯỜNG TOẢN
KHOA Y
Bài giảng học phần:
PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC
Hậu Giang, 2021
Trang 2MỤC LỤC
ĐẠI CƯƠNG PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC 1
ÐẠI CƯƠNG VỀ THỐNG KÊ VÀ THỐNG KÊ MÔ TẢ 4
ÐẠI CƯƠNG VỀ PHÂN TÍCH SỐ LIỆU 21
PHƯƠNG PHÁP PHÂN TÍCH VÀ KHẲNG ĐỊNH VẤN ĐỀ NGHIÊN CỨU 49
TỔNG QUAN Y VĂN 56
MỤC TIÊU NGHIÊN CỨU 61
NGHIÊN CỨU KHOA HỌC TRONG Y HỌC 65
BIẾN SỐ 67
THIẾT KẾ NGHIÊN CỨU 78
CÁC SỐ ĐO DỊCH TỄ HỌC 89
SỐ ĐO HẬU QUẢ VÀ SỐ ĐO TÁC ĐỘNG 94
PHƯƠNG PHÁP THU THẬP SỐ LIỆU 107
PHƯƠNG PHÁP CHỌN MẪU 116
CÁCH TÍNH CỠ MẪU 127
CHIẾN LƯỢC PHÂN TÍCH SỐ LIỆU 135
Trang 3ĐẠI CƯƠNG PHƯƠNG PHÁP NGHIÊN CỨU
KHOA HỌC
Mục tiêu:
- Mô tả được các đặc tính của một nghiên cứu khoa học
- Trình bày được các đặc tính của một nghiên cứu khoa học tốt
Nghiên cứu khoa học là gì:
Nghiên cứu là công việc tìm kiếm một cách có hệ thống các kiến thức mới,
dựa trên sự tò mò và nhu cầu được cảm nhận.1[1]
Như vậy đặc điểm của nghiên cứu là tìm ra kiến thức mới Có hai phương
pháp chính để tìm kiếm kiến thức: hoặc là xem xét các tài liệu, kiến thức sẵn có để
tìm ra các kiến thức mới (scholarship) hay dựa vào thực tế khách quan để phát hiện
các kiến thức và hiểu biết mới (scientific research) Phương pháp dựa vào thực tế
khách quan để tìm tòi các kiến thức mới được gọi là nghiên cứu khoa học.2[2]
Nghiên cứu khoa học là việc thu thập, phân tích và lí giải số liệu để giải
quyết một vấn đề hay trả lời một câu hỏi (Theo Varkevisser và cộng sự, 1991)
Nói cách khác, nghiên cứu khoa học phải bao gồm các bước thu thập số liệu
trên thực địa (hay từ các ca bệnh trong bệnh viện hay phòng thí nghiệm), phân tích
số liệu để có thông tin và và trình bày các thông tin này trong phần kết quả và
trong phần bàn luận và kiến nghị, lí giải các thông tin đó đề trả lời cho câu hỏi
nghiên cứu hay đề xuất các biện pháp giải quyết vấn đề
Số liệu: Kết quả của việc thu thập có hệ thống các đại lượng và đặc tính của
các đối tượng
1[1] Last JM A dictionary of Epidemiology NewYork: International epidemiology association 1997;
146
2[2] Varkevisser C, Pathmanathan I, Brownlee A Designing and conductiong health system research
projects IDRC, Ottawa 1991
Trang 4Thông tin: Số liệu đã được phân tích
Kiến thức: thông tin được lí giải và được sử dụng để trả lời câu hỏi hay giải
quyết một vấn đề nào đó
Nhưng để quá trình thu thập, phân tích và lí giải số liệu diễn ra tốt đẹp và
giải quyết được vấn đề nghiên cứu, trước đó nhà nghiên cứu phải phân tích từ vấn
đề, xem những kiến thức gì đã biết và còn chưa biết về vấn đề đó Quá trình này
được gọi là đặt vấn đề, tổng quan y văn Sau đó nhà nghiên cứu phải xác định hỏi
để có được kiến thức còn chưa biết đó, cần những thông tin gì và để có những
thông tin này cần thu thập những đại lượng và tính chất nào của đối tượng Đây là
nội dung của phần phương pháp nghiên cứu trong đề cương nghiên cứu hay báo
cáo khoa học Sau khi đã thu thập được số liệu (đại lượng hay tính chất của các đối
tượng nghiên cứu), kết quả của phân tích số liệu (thông tin) được trình bày trong
phần kết quả nghiên cứu Ở phần bàn luận, tác giả sẽ đánh giá xem các thông tin có
trả lời được câu hỏi nghiên cứu hay không và câu trả lời của câu hỏi nghiên cứu
chính nhằm giúp giải quyết vấn đề nghiên cứu là kiến thức mới được tạo ra
Như vậy, một báo cáo khoa học sẽ gồm các phần chính: 1) Đặt vấn đề và
mục tiêu nghiên cứu 2) Tổng quan tài liệu 3) Phương pháp và đối tượng 4) Kết quả
nghiên cứu 5) Bàn luận và 6) Kết luận
Các đặc điểm của một nghiên cứu khoa học tốt
Một nghiên cứu khoa học tốt có các đặc điếm sau:
- Phải tập trung vào các vấn đề ưu tiên trong chăm sóc y tế
- Phải có tính định hướng vào hành động và đề ra các giải pháp
- Phải có tính thời sự: kết quả phải có kịp thời để đưa ra các quyết định đúng
đắn
- Thiết kế nghiên cứu đơn giản và thực hiện trong thời gian ngắn
- Nên có tính chất chi phí - hiệu quả Tốt nhất nếu nghiên cứu được tiến
Trang 5hàng ngày
- Kết quả phải được trình bày theo hình thức hữu dụng cho các nhà quản lí,
nhà hoạch định chính sách và cộng đồng: Cần có tóm tắt những kết quả chủ yếu
của nghiên cứu và nêu bật những điểm lí thú cho đối tượng của bản báo cáo Dựa
theo kết quả có thể trình bày giải pháp để giải quyết một vấn đề và so sánh ưu
khuyết điểm của việc tiến hành giải pháp và không tiến hành giải pháp
- Nghiên cứu cần phải được đánh giá không chỉ dựa vào số các bài báo được
xuất bản mà cần phải xem xét sự ảnh hưởng của nó đến chính sách y tế hay thay
đổi cung cách phục vụ và cuối cùng là tác động lên sức khoẻ người dân
Đối với nghiên cứu y tế công cộng cần phải đặt them hai đặc điểm sau:
- Sẽ tốt hơn nếu có sự tham gia của nhiều ngành, nhiều khoa
- Nghiên cứu cần có tính chất tham gia của mọi thành viên có liên quan
trong tất cả các bước của quá trình tiến hành nghiên cứu
Trang 6ÐẠI CƯƠNG VỀ THỐNG KÊ VÀ THỐNG KÊ MÔ TẢ
Một số định nghĩa
Thống kê là phương pháp khoa học dùng đề thu thập, tóm tắt, trình bày và
phân tích số liệu
Số liệu: Kết quả có được do việc quan sát hay thu thập một biến số ở các đối
tượng khác nhau hay ở thời gian khác nhau
Thí dụ: Khi tôi quan sát giới tính của các học viên trong lớp, tôi có số liệu
là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết
quả như sau:
và những con số này được gọi là số liệu
Cần lưu ý số liệu phải liên kết với một biến số nhất định Nếu tôi quan sát
giới tính ở người này, tuổi của người khác, quần áo của một người khác nữa thì kết
quả quan sát được không phải là số liệu
Trang 7Biến số và các loại biến số
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này
sang người khác hay từ thời điểm này sang thời điểm khác
Như vậy biến số có thể thể hiện đại lượng hay đặc tính
- Nếu biến số thể hiện một đại lượng nó được gọi là biến số định lượng
(quantitative variable) Biến số định lượng có thể còn được chia thành biến số tỉ số
- ratio variable(có giá trị không tuyệt đối) và biến số khoảng – interval variable
(không có giá trị không tuyệt đố)
- Nếu biến số nhằm thể hiện một đặc tính, biến số được gọi là biến số định
tính Biến số định tính còn được chia làm 3 loại:
- Biến số nhị giá – binary variable (khi chỉ có 2 giá trị)
- Biến số danh định – nominal variable (khi có 3 hay nhiều hơn các giá trị và
các bản thân các giá trị không có tính chất thứ tụ)
- Biến số thứ tự - ordinal variable (khi có 3 hay nhiều hơn các giá trị và các
bản thân các giá trị có tính chất thứ tự
- Ngoài ra có khi biến cố không chỉ được quan tâm về phương diện nó
có xảy ra hay chưa xảy ra mà còn được quan tâm về phương diện biến cố xảy ra
vào lúc nào Thí dụ sau khi điều trị bệnh nhân ung thư chúng ta không chỉ quan
tâm bệnh nhân có tử vong hay không mà còn quan tâm bệnh nhân bệnh nhân tử
vong bao nhiêu lâu sau khi điều trị và nếu bệnh nhân chưa tử vong, bệnh nhân đã
sống được bao lâu
Trang 8Phương pháp mô tả tóm tắt và trình bày số liệu
-T ỉ lệ cho từng giá trị nếu
là biến thứ tự hay danh định
- T ỉ lệ cho giá trị tiêu biểu nếu là biến nhị giá
-T ỉ lệ cho từng giá trị nếu
là biến thứ tự hay danh định
- T ỉ lệ cho giá trị tiêu biểu nếu là biến nhị giá
Các số thống kê mô tả
Có hai loại thống kê mô tả: thống kê mô tả khuynh hướng tập trung và thống
kê mô tả tính phân tán
Thống kê mô tả khuynh hướng tập trung
Thống kê mô tả khuynh hướng tập trung có thể là trung bình (mean), trung
vị (median) và yếu vị (mode) Những thống kê này cho biết giá trị tiêu biểu cho số
liệu
Thí dụ: có hai loại thuốc hạ áp A và B Giả sử có 5 đối tượng sau khi sử
dụng thuốc hạ áp A sẽ có huyết áp 110 - 115 -120 - 125 -130 và ở 5 đối tượng khác
sau khi sử dụng thuốc hạ áp B sẽ có huyết áp 120 - 125 - 130 - 135 - 140 Con số
tiêu biểu nhất để cho biết tác dụng của thuốc A là huyết áp trung bình sau khi sử
Trang 9dụng thuốc A và là 120 Con số huyết áp trung bình này thấp hơn huyết áp trung
bình sau khi sử dụng thuốc B cho biết thuốc A có tác dụng mạnh hơn
Trung bình của số liệu, được kí hiệu là (x (đọc là x gạch) là tổng các giá trị
của số liệu chia cho số lần quan sát (N)
N
x
x i
Thí dụ: Số liệu về huyết áp tâm thu của 5 đối tượng là 120, 125, 130, 135,
150 Huyết áp tâm thu trung bình sẽ là 132
132 5
150 125 130 125 120
Do không thể thực hiện các phép toán số học trên các biến số định tính
(danh định và thứ tự) chúng ta chỉ có thể tính trung bình cho số liệu của biến số
định lượng
Nếu chúng ta sắp xếp số liệu theo thứ tự, giá trị đứng ở giữa được gọi là
trung vị Nếu có hai giá trị cùng đứng ở giữa, trung bình cộng của hai giá trị này là
trung vị
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125,
130, 135, 150 Trung vị của huyết áp tâm thu là giá trị đứng ở giữa và bằng 130
Số liệu về chiều cao (cm) của 6 người là 153, 155, 160, 162, 165, 161 Ðể
tính trung vị, trước tiên chúng ta phải sắp xếp số liệu này: 153, 155, 160, 161, 162,
165 Do có hai giá trị 160 và 161 cùng ở giữa, trung vị sẽ là (160+161)/2 = 160,5
cm
Do bản chất của biến số danh định không thể sắp được theo thứ tự, chúng ta
chỉ có thể tính trung vị của số liệu định lượng và số liệu của biến số thứ tự
Ngoài ra yếu vị (mode) cũng được sử dụng làm con số thống kê tiêu biểu
Yếu vị là giá trị xuất hiện phổ biến nhất (có tần suất cao nhất)
Trang 10Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125,
130, 135, 150 Trong trường hợp này không có yếu vị
Ðiểm số của 5 học sinh là 5, 5, 6, 7, 9 Yếu vị của điểm số là 5
Trong một ấp có 361 gia đình người Kinh, 120 gia đình người Khmer và 27
gia đình người Hoa Yếu vị của biên số dân tộc là dân tộc Kinh
Trong một số liệu cụ thể, có thể không có yếu vị, có thể có một yếu vị hoặc
hai hay nhiều yếu vị Ðây là khuyết điểm chính của số thống kê này Do vậy người
ta thường chỉ dùng yếu vị cho biến số danh định hay trong các trường hợp đặc biệt
Có thể sử dụng trung bình, trung vị hay yếu vị cho biến số định lượng Khi
biến số định lượng có phân phối bình thường (hình chuông) thì ba con số này xấp
xỉ bằng nhau và khi đó người ta thường tính trung bình bởi vì trung bình có những
đặc tính toán học mạnh Tuy nhiên nếu số liệu bị lệch thì con số trung vị phản ánh
giá trị tiêu biểu một cách chính xác hơn
Thí dụ: Bệnh nhân bị loét dạ dày - tá tràng được điều trị theo một phác đồ
diệt vi khuẩn Helicobacter Sau điều trị, bệnh nhân được theo dõi và ghi nhận thời
gian kể từ khi sử dụng thuốc đến lúc bắt đầu cải thiện triệu chứng đau Ở 10 bệnh
nhân thời gian này (ngày ) là như sau: 1, 2, 2, 2, 2, 2, 3, 3, 3, 30 Bệnh nhân có thời
gian từ lúc điều trị đến lúc giảm triệu chứng là 30 ngày trên thực chất là bệnh nhân
không đáp ứng với điều trị Trung vị và trung bình của số liệu là 2 và 5 ngày Con
số trung vị phản ánh chân thực hơn bởi vì với tư cách là một bác sĩ lâm sàng từ số
liệu trên có thể nhận xét rằng một bệnh nhân tiêu biểu sẽ giảm đau sau 2 ngày dùng
thuốc Con sôs 30 trong thí dụ trên được gọi là số ngoại lai (outlier) và làm số liệu
bị lệch Nhìn chung, khi số liệu bị lệch thì con số trung bình sẽ bị ảnh hưởng rất
nhiều và không phản ánh giá trị tiêu biểu như con số trung vị
Thống kê mô tả tính phân tán:
Có 3 thống kê mô tả tính phân tán: độ lệch chuẩn, khoảng tứ phân vị và
Trang 11trong bảng 2
Thống kê mô tả tính phân tán có tầm quan trọng thứ hai sau con số mô tả
khuynh hướng tập trung
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu
sau khi dùng thuốc là 110, 115, 120, 125 và 130 Thuốc hạ áp B được sử dụng trên
5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100, 110, 120, 130, 140 Như vậy
hai thuốc hạ áp này có hiệu quả hạ áp là tương đương (bởi vì trung bình của hai số
liệu là bằng nhau) nhưng kết quả của thuốc B phân tán hơn và điều này làm thuốc
B trở nên kém an toàn
Ðộ lệch chuẩn (standard deviation - viết tắt là SD hay s) là con số đánh giá
mức độ phân tán và được tính theo công thức:
Như vậy độ lệch chuẩn phản ánh khoảng cách trung bình của số liệu so với
giá trị tiêu biểu Khái niệm độ lệch chuẩn chỉ có thể áp dụng cho biến số định
lượng bởi vì chúng ta có thể thực hiện các phép toán số học trên các đại lượng
nhưng không thể thực hiện trên các giá trị của biến số định tính là các đặc tính
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125,
130, 135, 150 Trung bình của huyết áp là 132 và độ lệch chuẩn bằng
5 , 11 5 , 132 4
530 4
324 9 4 49 144
1 5
) 132 150 ( ) 132 135 ( ) 130 132 ( ) 132 125 ( ) 132 120 (
1
) (
2 2
2 2
2 1
Phương sai về mặt từ nguyên là bình phương của độ lệch chuẩn Phương sai
(variance) có thể được kí hiệu và Var hay s2 và được tính theo công thức sau:
s
1
2
1 ) (
Trang 122 2
1
) (
Phạm vi của số liệu là tất cả các giá trị của số liệu từ giá trị nhỏ nhất đến giá
trị lớn nhất
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125,
130, 135, 150 Phạm vi của biến số huyết áp là 120 đến 150
Thí dụ: Thuốc hạ áp A được sử dụng trên 5 bệnh nhân và huyết áp tâm thu
sau khi dùng thuốc là 110, 115, 120, 125 và 130 Thuốc hạ áp B được sử dụng trên
5 bệnh nhân và có huyết áp sau sử dụng thuốc là 100, 110, 120, 130, 140 Số liệu
của thuốc B có tính phân tán cao hơn do phạm vi thay đổi từ 100-140 trong khi đó
phạm vị của số liệu thuốc A chỉ từ 110-130
Khoảng tứ phân vị (inter-quartile): Nếu chúng ta chia số liệu sắp theo thứ tự
làm 2 phần đều nhau, khoảng tứ phân vị là khoảng cách của trung vị phần trên và
trung vị phần dưới
Thí dụ: Số liệu về huyết áp tâm thu (mmHg) của 5 đối tượng là 120, 125,
130, 135, 150 Số liệu này được chia làm 2 phần: phần 1 gồm 120, 125, 130 và
phần 2 gồm 130, 135, và 150 Trung vị của phần trên là 125 - trung vị của phần
dưới là 135, do đó phạm tứ phân vị là 125-135
Do bản chất của khoảng tứ phân vị là trung vị của phần số liệu trên và phần
số liệu dưới, cũng giống như trung vị, khoảng tứ phân vị không bị ảnh hưởng bởi
các giá trị ngoại lai như trong trường hợp của độ lệch chuẩn Cũng như trung vị,
khoảng tứ phân vị chỉ có thể áp dụng cho biến số định lượng hay thứ tự
Trang 13Câu hỏi: Phân tích trên máy tính về biến số hemoglobin cho kết quả sau
Hãy thử đọc và lí giải kết quả:
Variable | Obs Mean Std Dev Min Max
-+ -
hemoglobin | 70 11.98429 1.416122 8.8 15.1
Phương pháp trình bày số liệu
Số liệu có thể được trình bày thành bảng hoặc các đồ thị
Trình bày bảng:
Phân phối tần suất của biến số định tính
Số liệu của biến số rời rạc có thể được trình bày dưới dạng một phân phối
tần suất Phân phối tần suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị rời
rạc của biến số (Bảng 1) Như vậy bảng phân phối tần suất gồm 2 cột, một cột liệt
kê các giá trị của biến số và một cột trình bày tần suất tương ứng của các giá trị đó
Table 1 Phân phối giới tính của 69 học sinh lớp cơm thường trường
mầm non 23 tháng 11, Huyện Hóc môn
Bảng trên là bản phân phối tần suất của giới tính Bởi vì giới tính có 2 giá trị
nam và nữ nên ta liệt kê 2 giá trị này ở một cột Ở cột thứ nhì ta ghi tần suất tương
ứng của các giá trị này Ðôi khi bảng phân phối tần suất có thêm cột phần trăm như
trong thí dụ ở trên Bảng 2 là một thí dụ khác về bảng phân phối tần suất
Trang 14Table 2 Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện
Phân phối tần suất của biến số định lượng
Nếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trị
của biến số Trong trường hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến
2 Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d
Cần lưu ý độ rộng mỗi khoảng d nên là đại lượng chẵn như 1, 2, 5, 10 hay 0,5, 0,2
và số các khoảng n nên từ 5-12 (trung bình là 7-8) Trong thí dụ trên ta có thể chia
phạm vi ra làm 8khoảng với chiều rộng khoảng bằng 1 đơn vị Khi đó các khoảng
là: 8-8,9; 9-9,9; 10-10,9; 11-11,9; 12-12,9; 13-13,9; 14-14,9; 15-15,9
Trang 153 Ðếm các giá trị thích hợp vào khoảng đã định trước
Hemoglobin (g/100ml)
4 Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của
biến số và tần suất tương ứng với các khoảng giá trị đó Chúng ta cũng có thể thêm
vào cột phần trăm và cột phần trăm tích lũy (nếu thích hợp)
Table 3 Hemoglobin của 70 phụ nữ
Hemoglobin Tần suất Phần trăm Phần trăm tích
Trang 16Thí dụ như nếu biên số là chu vi vòng cánh tay của trẻ chúng ta có thể làm
tròn chu vi vòng cánh tay đến 1 cm Khi đó ta có thể xem thang đo của biến số là
rời rạc và trình bày bảng phân phối tần suất của biến số (bảng 2)
Table 4 Phân phối số đo vòng cánh tay của 69 trẻ lớp cơm thường nhà
Số liệu cũng có thể được trình bày dưới dạng đồ thị hoặc biểu đồ Mặc dù
không có ranh giới tuyệt đối hoàn toàn rõ rệt, nói chung đồ thị (graph) có tính
chất toán học nhiều hơn, trong đó có trục hoành và trục tung còn biểu đồ (chart) là
hình ảnh mang tính chất tượng trưng
Nếu biến số là biến rời rạc, có thể trình bày dưới dạng biểu đồ hình thanh
(bar chart - hình 1) hoặc biểu đồ hình bánh (pie chart) Nếu biến số là biến liên tục,
thì phân phối của biến số có thể trình bày dưới dạng tổ chức đồ (histogram - hình
2) hoặc đa giác tần suất
Hình thức của bảng
-Có tựa ngắn gọn và rõ ràng
-Ðặt tên cho các hàng và cột
Trang 17-Trình bày tổng số của hàng và cột
-Ðịnh nghĩa các kí hiệu và chữ viết tắt ở dưới bảng
-Ghi nguồn số liệu ở dưới bảng
Biểu đồ hình thanh
Biểu đồ hình thang là biểu đồ nhằm mô tả sự phân bố của biến số rời rạc
Biểu đồ hình thanh gồm có trục hoành trên đó xác định những giá trị của biến số
Ứng với từng giá trị của biến số người ta vẽ các thanh có chiều cao tỉ lệ với tần
suất của giá trị đó Cần lưu ý luôn luôn có khoảng trống giữa các thanh
45
24
0 10
Hình 1 Biểu đồ hình thanh (bar chart) mô tả phân bố giới tính của
những học sinh trong trường mầm non 23/11, Hóc môn
Chúng ta cũng có thể xây dựng các thanh theo chiều ngang như trong ví dụ
sau
478 65
Trang 18Hình 2 Phương pháp sinh của 600 trẻ sanh tại bệnh viện X trong năm
Đường âm đạo Mổ lấy thai
Hình 4 Tỉ suất lây truyền từ mẹ sang con ở những người mẹ bị nhiễm
Trang 19HIV theo điều trị hĩa dự phịng và phương pháp sinh (Nguồn: The European
Mode of Delivery Collaboration, Lancet, 27/3/1999)
Biểu đồ hình bánh
Biểu đồ hình bánh cũng được dùng để mơ tả sự phân bố của biến số rời rạc
Biểu đơ hình bánh là một vịng trịn được chia làm nhiều cung tương ứng với các
giá trị của biến số Ðộ lớn của cung tỉ lệ với tần suất của giá trị biến số
Nữ 35%
Nam 65%
Hình 5 Biểu đồ hình bánh (pie chart) mơ tả phân bố giới tính của
những học sinh trong trường mầm non 23/11, Hĩc mơn
Sinh thường
Sinh mổ Sinh
forceps
Hình 6 Biểu đồ hình bánh thể hiện phương pháp sinh của 600 đứa trẻ
sinh tại bệnh viện X
Trang 20Tổ chức đồ và đa giác tần suất
Tổ chức đồ (histogram) và đa giác tần suất (polyline) được dùng trong mô tả
phân bố của biến số liên tục Ðể vẽ tổ chức đồ, người ta chia biên độ của giá trị
làm nhiều khoảng giá trị và tính tần suất của những khoảng giá trị đó Những
khoảng giá trị này được biểu thị ở trên trục hoành Ứng với mỗi khoảng giá trị
người ta vẽ những hình chữ nhật có diện tích tỉ lệ với tần suất của khoảng giá trị
đó Bởi vì các khoảng giá trị này nằm sát nhau trên trục hoành, các hình chữ nhật
của tổ chức đồ cũng thường nằm sát nhau
Hình 7 Tổ chức đồ mức hemoglobin của 70 phụ nữ
Trang 21Hình 8 Ða giác tần suất của hemoglobin của 70 phụ nữ
Ðể vẽ đa giác tần suất, người ta thường vẽ tổ chức đồ và nối các trung điểm
của các cạnh trên của các hình chữ nhật Ða giác tần suất thường không đẹp như
các tổ chức đồ nhưng nó có ưu điểm là có thể vẽ nhiều đa giác tần suất trên cùng
một đồ thị để dễ so sánh các phân phối của chúng
Trang 22
hemoglobin
0 5 10
15
Hình 9 Ða giác tần suất hemoglobin của 28 phụ nữ nghèo (đường đỏ) so
vơí 42 phụ nữ trung bình và khá (đường xanh)
Trang 23ÐẠI CƯƠNG VỀ PHÂN TÍCH SỐ LIỆU
Ước lượng
Dân số và mẫu
Thông thường chúng ta không thể nghiên cứu toàn bộ dân số mà chúng ta
quan tâm Chúng ta thường chỉ có thể nghiên cứu chỉ một phần dân số đó, phần
này được gọi là mẫu (sample) và từ đó ước đoán về những đặc tính của dân số
Trong nghiên cứu khoa học, chúng ta đi từ đặc trưng của cá thể (biến số -
variable) để có được đặc trưng của mẫu (được gọi là thống kê - statistics) và từ đặc
trưng của mẫu chúng ta sử dụng phương pháp suy luận thống kê và lí giải để có
được đặc trưng của dân số (được gọi là tham số - parameter)
Một loại mẫu thường được gặp trong nghiên cứu là mẫu ngẫu nhiên đơn
Khi lấy mẫu ngẫu nhiên đơn, chúng ta có thể tính được giá trị trung bình và độ
lệch chuẩn của mẫu Rõ ràng là giá trị trung bình và độ lệch chuẩn sẽ khác nhau
với những mẫu khác nhau Tuy vậy các nhà thống kê đã chứng minh rằng giá trị
trung bình của mẫu sẽ có phân phối bình thường và các giá trị trung bình này sẽ tập
trung tại trung bình của dân số Do đó nếu chúng ta tính trung bình của mẫu thì
chúng ta hi vọng trung bình của dân số sẽ nằm ngay tại hay ở lân cận trung bình
của mẫu Ðộ phân tán của trung bình mẫu xung quanh chung bình dân số được gọi
là sai số chuẩn (standard error) và sẽ giảm đi khi cỡ mẫu càng lớn:
n
s n
s e
s
2
.
Độ lệch chuẩn và sai số chuẩn là hai đại lượng thể hiện sự phân tán nhưng
độ lệch chuẩn thể hiện sự phân tán của cá thể chung quanh giá trình trung bình dân
Trang 24số còn sai số chuẩn là đại lượng thể hiện sự phân tán của con số thống kê (trung
bình mẫu hay tỉ lệ của mẫu) chung quanh giá trị của tham số (trung bình dân số
hay tỉ lệ của dân số)
Ước lượng khoảng tin cậy của trung bình
Như chúng ta đã trình bày, trung bình của mẫu sẽ dao động nhưng tập trung
tại giá trị trung bình của dân số, nên chúng ta có thể ước lượng trung bình dân số
bằng cách tính trung bình của mẫu
Nhưng do trung bình mẫu có dao động, chúng ta không chắc là trung bình
mẫu sẽ chính xác bằng trung bình của dân số mà chỉ có thể tin là trung bình dân số
nằm ở vị trí đâu đó chung quanh trung bình của dân số Các nhà thống kê cho rằng
95% các trường hợp trung bình dân số không nằm xa quá 1,96 x SE so với trung
bình mẫu: phạm vi này được gọi là khoảng tin cậy 95% Như vậy khoảng tin cậy
95% của trung bình của biến sô định lượng
Khoảng tin cậy 95% (95% CI) : x 1,96s/n Trong trường hợp cỡ mẫu nhỏ (n < 30), chúng ta không thể sử dụng giá trị
1,96 như trong công thức trên mà cần phải sử dụng các giá trị hơi lớn hơn (và càng
lớn nếu cỡ mẫu càng nhỏ), giá trị này được gọi là giá trị của phân phối t với (cỡ
mẫu – 1) độ tự do
Khoảng tin cậy 95% (95% CI) : x t(1- /2) s/n
Bài tập:
1 Một nghiên cứu ghi nhận trên cỡ mẫu 1235 trẻ sơ sinh ở tỉnh Đồng Tháp
cho thấy trọng lượng trung bình của trẻ sơ sinh là 3121 gram và độ lệch chuẩn là
435 gram Hãy ước lượng khoảng tin cậy 95% của trọng lượng trung bình của trẻ
sơ sinh tỉnh Đồng Tháp
Sử dụng công thức trên ta tính được:
95%CI=3096.74 - 3145.26 gram
Trang 25176; 176 Hãy ước lượng khoảng tin cậy 95% của chiều cao trung bình
Trước tiên chúng ta phải xác định trung bình của chiều cao là 168,8 cm và
độ lệch chuẩn của chiều cao là 5,493 Do cỡ mẫu là 10 chúng ta phải dò bảng phân
phối t ở 9 độ tự do ta được giá trị t (tương ứng với khoảng tin cậy 95%) là 2,26 Từ
đó chúng ta tính được khoảng tin cậy 95%
95%CI=164.87 - 164.87
Ước lượng khoảng tin cậy của tỉ lệ
Để ước lượng khoảng tin cậy của một tỉ lệ, chúng ta cần xác định tỉ lệ p sau
đó dựa vào p để ước lượng khoảng tin cậy 95% của p
n
) -
(1 p
p
p 1 , 96
Bài tập
Điều tra trên 127 thanh niên có 45 thanh niên hút thuốc lá Hãy tính tỉ lệ
thanh niên hút thuốc lá và khoảng tin cậy 95% của tỉ lệ hút thuốc lá
Chúng ta tính được tỉ lệ hút thuốc lá ở thanh niên là 0.354 (35.4%) Dựa vào
công thức trên chúng ta tính được khoảng tin cậy 95% của tỉ lệ hút thuốc lá là
0,271 đến 0,438
Suy luận thống kê
Kiểm định ý nghĩa
Phương pháp kiểm định ý nghĩa được Fisher đề xuất và dựa trên căn bản của
phép phản chứng Phép phản chứng trong logic học sử dụng bằng mệnh đề: Nếu A
kéo theo B thì không B sẽ kéo theo không A
A B BA
Một thí dụ của phép phản chứng là khi chúng ta gặp một bệnh nhân nghi ngờ
tắc ruột và chúng ta hỏi bệnh sử xem bệnh nhân có bí trung tiện hay không Giả sử
bệnh nhân không bí trung tiện thì chúng ta sẽ bác cỏ chẩn đoán tắc ruột với suy
luận sau: Nếu bệnh nhân bị tắc ruột sẽ bí trung tiện thì bệnh nhân sẽ bí trung tiện,
Trang 26do bệnh nhân không bí trung tiện nên bệnh nhân không bị tắc ruột
Một cách tổng quan hơn, khi chúng ta đưa ra giả thuyết chẩn đoán (thí dụ
như chẩn đoán tắc ruột), chúng ta thường sẽ xem xét các hệ quả phổ biến giả
thuyết này (Bệnh nhân tắc ruột thường bị đau bụng,nôn ói, bí trung tiện và chướng
bụng) Việc không có một trong các hậu quả phổ biến của giả thuyết này (thí dụ
như bệnh nhân không có đau bụng, không có nôn ói, không bị bí trung tiện hay
không có chướng bụng) thì chúng ta có thể bác bỏ chẩn đoán Các biến cố nằm
ngoài các hệ quả phổ biến của giả thuyết (biến cố không có đau bụng, không có
nôn ói, không bị bí trung tiện hay không có chướng bụng) được gọi là miền bác bỏ
của chẩn đoán
Trong kiểm định thống kê người ta cũng sử dụng các lập luận tương tự Để
kiểm định một giả thuyết thống kê (được gọi là giả thuyết Ho) cần phải xác định
miền xảy ra phổ biến của các con số thống kê (như trung bình, tỉ lệ, thống kê t,
thống kê z, thống kê chi bình phương, v.v.) và nếu con số thống kê này nằm ngoài
miền xảy ra phổ biến thì chúng ta sẽ bác bỏ giả thuyết Ho Miền nằm ngoài miền
xảy ra phổ biến của số thống kê được gọi miền bác bỏ
Trang 27Hình Error! Bookmark not defined Nguyên tắc kiểm định ý nghĩa theo
Fisher Đường cong phân phối hình chuông thể hiện phân phối của thống kê
của z khi µ=0 (giả thuyết Ho) Vùng diện tích dưới đường cong màu trắng thể
hiện miền các thống kê z thường xảy ra nếu giả thuyết Ho là đúng Vùng diện
tích dưới đường cong màu sẫm là miền bác bỏ giả thuyết Ho và có diện tích là
xác suất sai lầm loại 1 (5%)
Khi sử dụng kiểm định ý nghĩa chúng ta cần lưu ý các điểm sau:
- Kiểm định dựa trên nguyên tắc phản chứng nghĩa là chúng ta chỉ có
thể bác bỏ chứ không thể chứng minh được giả thuyết Ho Vì vậy nếu chúng ta
muốn chứng minh hút thuốc lá là yếu tố nguy cơ của ung thư phổi thì phải đặt ra
giả th.uyết thống kê Ho là hút thuốc lá không phải là yếu tố nguy cơ của ung thư
phổi và sử dụng phương pháp kiểm định để bác bỏ điều này
RR=1 hay Ho: điểm trung bình về bệnh lây truyền qua đường tình dục ở nam thanh
niên = điểm trung bình về bệnh lây truyền qua đường tình dục ở nữ thanh niên ) thì
Trang 28mới có thể tính được phân phối của thống kê Giả thuyết Ho không thể thể hiện
bằng bất đẳng thức (Ho: RR>1 là sai)
- Do diện tích miền bác bỏ là một con số cố định (thường là 0,05), để
xác định con số thống kê T có nằm trong miền bác bỏ hay không người ta tính xác
suất xảy ra thống kê cực đoan hơn giá trị T nếu giả thuyết Ho là đúng (được thể
hiện bằng công thức: P (>T |Ho) ) Xác suất này được gọi là giá trị p Và nếu giá trị
p nhỏ hơn ngưỡng bác bỏ nghĩa là thống kê T nằm trong vùng bác bỏ và chúng ta
có thể bác bỏ giả thuyết Ho
Giá trị p được kí hiệu khác nhau trên các phần mềm thống kê Thí dụ ở phần
mềm Epi-Info, giá trị p được kí hiệu là p-value, ở phần mềm SPSS, giá trị p được
kí hiệu là Sig Ở phần mềm Stata, các giá trị p thường được kí hiệu khác nhau tùy
theo thống kê được sử dụng là thống kê gì Cụ thể, trong phần mềm Stata, giá trị p
được kí hiệu như sau:
P > |T| (nếu kiểm định t) P > |z| (nếu kiểm định z)
Prob > chi2 (kiểm định chi bình phương) Prob > F (Kiểm định F; Kiểm định
ANOVA)
Trang 29Kiểm định giả thuyết
Khuyết điểm của phương pháp kiểm định ý nghĩa khi khơng bác bỏ được giả
thuyết H0 chúng ta khơng biết được xác suất H0 đúng là bao nhiêu Một nhà thống
kê học khác tên là Neyman đã đề ra phương pháp kiểm định giả thuyết trong đĩ cĩ
Bác bỏ giả thuyết
Xác suất sai lầm loại 2 Không nhỏ
Nhỏ
Chấp nhận giả thuyết
Thực hiện nghiên cứu với cỡ mẫu lớn hơn
Không nhỏ tra bảng tính p
Sai lầm loại một và sai lầm loại hai
Sai lầm loại một: bác bỏ giả thuyết H0 trong khi giả thuyết H0 là đúng
Sai lầm loại hai: Khơng bác bỏ giả thuyết H0 trong khi giả thuyết H0 sai
Trong nghiên cứu thống kê người ta khơng bao giờ cĩ thể chắc chắn Do
vậy, khi nhà nghiên cứu đi đến kết luận bác bỏ giả thuyết H0, người nghiên cứu cĩ
thể bị sai lầm (sai lầm loại một - với một xác suất nào đĩ) Khi nhà nghiên cứu
khơng bác bỏ giả thuyết H0, nhà nghiên cứu cũng cĩ thể bị sai lầm (sai lầm loại hai
- cũng với một xác suất nào đĩ) Một điều nên nhớ là bằng kiểm định thống kê
người ta cĩ thể xác định được xác suất sai lầm loại một nhưng khơng thể tính được
xác suất sai lầm loại hai mà chỉ cĩ thể tính được dựa vào đối thuyết Ha và cỡ mẫu
của nghiên cứu
Ðơi khi người ta cịn sử dụng khái niệm năng lực (power) của kiểm định
thống kê Năng lực của kiểm định thống kê = 1 - xác suất sai lầm loại 2 Khái niệm
Trang 30năng lực của thống kê hay được dùng trong tính cỡ mẫu
Bảng Error! Bookmark not defined Tóm tắt về sai lầm loại 1, sai lầm
loại 2 và giá trị ngưỡng của nó
Chân lí là Ho đúng (Không có sự khác biệt)
Chân lí là Ha đúng (Không có sự khác biệt)
(Xác suất = )
Power của nghiên cứu)
(Xác suất = 1-)
(Xác suất = )
Chọn lựa kiểm định phù hợp
Như vậy nguyên lí của kiểm định ý nghĩa (hay kiểm định giả thuyết là như
nhau) Các kiểm định chỉ khác nhau việc lựa chọn thống kê xuất phát từ giả thuyết
H0. Việc lựa chọn này phụ thuộc vào biến số của vấn đề quan tâm và thiết kế của
nghiên cứu
Trang 31Bảng 10 Chọn lựa kiểm định phù hợp theo thiết kế nghiên cứu
Loại thiết kế nghiên cứu
Thang đo của
biến số phụ thuộc
Hai nhóm điều trị gồm các
cá nhân khác nhau
nhiêù) nhóm điều
nhân khác nhau
sau một điều trị (hoặc 2 điều trị) ở
Phân tích phương sai
t-test bắt cặp Phân tích
phương
lường lập lại
Hồi quy tuyến
tương quan pearson Ðịnh tính - Danh
Cochranc
e Q
Hệ số của bảng n x
m (phi, OR, RR) Ðịnh tính -Thứ
Wallis
Kruskal-Kiểm định sắp hạng có dấu
Wilcoxon
tương quan Spearman
Trang 32Bảng 11 Chọn lựa kiểm định phù hợp để tìm sự liên hệ giữa biến độc lập và
biến phụ thuộc
thứ tự)
Định lượng, đa biến (hoặc thứ tự)
Định lượng phân phối bình
thường
tính Biến định lượng phân phối
không bình thường – Biến
thứ tự
quát Logrank
quát Logrank
Hồi quy Cox
Phép kiểm t bắt cặp
Tiên lượng của bệnh nhân suy hô hấp mãn tính tăng carbonic thường kém (tỉ
lệ tử vong trong 3 năm thay đổi từ 30% đến 100%) và hiện tại chưa có phương
pháp điều trị hữu hiệu Tilapur và Mir (Am J Med 1984; 77:987) cho rằng chế độ
ăn giảm carbonhydrate có thể cải thiện tình trạng hô hấp Các nhà nghiên cứu này
tiến hành thực nghiệm trên 8 người suy hô hấp mãn tính (có dấu hiệu của tim lớn,
gan lớn, phù và tăng áp phổi) với chế độ điều trị bằng chế độ ăn 600 Kcal và ghi
nhận PaO2 (phân áp oxy động mạch) và PaCO2 (phân áp carbon dioxide động
mạch) trước và sau điều trị Kết quả nghiên cứu được trình bày trong Bảng 1 Hãy
Trang 33Bảng 1 Phân áp Oxy động mạch và phân áp CO2 động mạch trên 8 đối
tượng trước và sau chế độ điều trị với chế độ ăn giảm carbonhydrate
Đối tượng Pa02 trước Pa02 sau Hiệu số PaC02 trước PaC02 sau Hiệu số
Bước 1: Xây dựng giả thuyết Ho:
Ho: Phân áp oxy động mạch trước và sau điều trị không thay đổi
Bước 2: Chọn kiểm định phù hợp
Kiểm định phù hơp là kiểm định t bắt cặp với 7 độ tự do
Bước 3: Tính thống kê t
Tính trung bình và độ lệch chuẩn của biến số d (hiệu số của phân áp oxy
động mạch trước và sau điều trị) để tính thống kê t
66 , 4 /
; 2 , 8
; 5 ,
n s
d t s
Bước 4: tính xác suất của giá trị thống kê t
Để tính xác suất của giá trị thống kê t ta sử dụng hàm tdist(giá trị t, độ tự do,
Trang 342) Cụ thể để tính p tương ứng với giá trị t = 4.63 ở 7 độ tự do chúng ta đánh công
thức "=tdist(4.63, 7, 2) vào một ô Kết quả ta được giá trị p= 0.002397687
Bước 5: Kết luận
Vì giá trị p= 0.002397687 nhỏ hơn 0.05 nên chúng ta bác bỏ giả thuyết Ho
nghĩa là phân áp oxy động mạch có cải thiện sau khi điều trị
Phép kiểm t (không bắt cặp)
Nhằm tìm hiểu vai trò của catecholamine trong tăng huyết áp vô căn, de
Champlain (Circ Res 1976; 38:109) nghiên cứu 22 bênh nhân tăng huyết áp vô căn
(gồm 13 người có nồng độ catecholamine cao và 9 bình thường), ghi nhận nhịp
tim, huyết áp tâm thu, huyết áp tâm trương Kết quả của nghiên cứu được trình bày
trong bảng 2 Hãy so sánh nhịp tim ở hai nhóm, nhóm có tăng catecholamine và
nhóm không tăng catecholamine
Bảng Error! Bookmark not defined Trung bình và độ lệch chuẩn của
Luợng catecholamine huyết thanh, nhịp tim, huyết áp tâm thu và huyết áp
tâm trung ở 13 bệnh nhân tăng huyết áp tăng catecholamine và 9 bệnh nhân
tăng huyết áp không tăng catecholamine
Tăng catecholamine Không tăng
catecholamine huyết thanh
x=0.206 s=0.060