Sai số chọn: xảy ra khi có sự khác biệt hệ thống các đặc tính của những đối tượng được chọn vào nghiên cứu với đặc tính của những người không được chọn vào nghiên cứu do quá trình lự[r]
Trang 1Quản lý chất lượng nghiên cứu:
Sai số, nhiễu và phương pháp
khống chế
M ụ c tiêu
Sau bu ổ i h ọ c, h ọ c viên có kh ả năng
1 Trình bày được các khía cạnh của chất
lượng nghiên cứu
2 Trình bày được khái niệm, phân loại và
cách khắc phục các sai số thường gặp
trong nghiên cứu
3 Trình bày được khái niệm nhiễu, tương
tác và cách khắc phục ảnh hưởng của
nhiễu
Trang 2Hai khía c ạ nh c ủ a ch ấ t lư ợ ng
nghiên c ứ u
• Tính giá trị (validity):
– Nội suy (internal validity)
– Ngoại suy (external validity)
• Tính tin cậy (reliability)
Giá trị nội suy (internal validity)
• “Mối liên hệ giữa yếu tố nguy cơ và vấn đề sức khỏe
được nghiên cứu có thể được quy cho là do yếu tố nguy
cơ đó qua kết quả của NC này được không?
– Có đúng là các kết quả thu được phán ánh đúng bản chất
của quần thể nghiên cứu hay không?
• Nhóm NC đã được lựa chọn đúng hay chưa?
– Lỗi lựa chọn
• Có xảy ra sai lầm nào trong quá trình đo lường yếu tố
nguy cơ và vấn đề sức khỏe hay không?
– Lỗi đo lường
• Có yếu tố nào tác động đến mối liên hệ giữa yếu tố nguy
cơ và vấn đề sức khỏe được nghiên cứu hay không?
– Yếu tố nhiễu
Trang 3Giá trị ngoại suy (external validity)
• Kết quả nghiên cứu có thể khái quát hóa từ
nhóm nghiên cứu ra quần thể đích hay không?
Có thể khái quát hóa cho các quần thể khác
ngoài nhóm NC không?
– Có thể ngoại suy được không?
• Cần quan tâm chú ý:
– Các sai lầm và các sai số (internal validity)
– Các đặc điểm của quần thể nghiên cứu so với quần
thể đích và các quần thể khác ngoài nhóm NC
• Giới, tuổi, các vấn đề khác ….
Tin cậy và giá trị (Reliability and validity)
Trang 4Các sai lầm thường gặp trong nghiên
cứu và các loại sai số
• Các NC y sinh học cung cấp bằng chứng cho
– Cần xác định và hạn chế sai số trong tất cả các bước
thiết kế nghiên cứu
Nguyên nhân dẫn đến NC không có tính
giá trị - Các loại sai số
• Sai số ngẫu nhiên:
– Sai số do chọn mẫu (random sampling errors)
– Sai số đo lường (random measurement
variability)
• Sai số hệ thống:
– Sai số chọn (selection bias)
– Sai số đo lường (mesuarment errors)
– Nhiễu
Trang 5Sai số
Sai s ố ng ẫ u nhiên
• Giá trị của một quan sát trên một mẫu nghiên cứu bị
lệch đi so với giá trị thật của quần thể hoàn toàn do
ngẫu nhiên, may rủi dẫn đến sự thiếu chính xác trong
mô tả thông số của quần thể và trong việc đo lường
sự kết hợp
• Thường xảy ra trong quá trình chọn mẫu nghiên cứu
=> do may rủi
=> do biến đổi sinh học của đối tượng nghiên cứu
• Không có sai số ngẫu nhiên= chính xác (precise)
Trang 6Đi ể m thi
Nếu coi 9 sinh viên này là 1 quần thể è
Chọn ngẫu nhiên mẫu có 2 SV, ta sẽ có 36 cơ hội
STT CÆp sinh
viªn sè:
§iÓm cña tõng sinh viªn
§iÓm trung b×nh cña 2 sinh viªn
Trang 7=> Khắc phục sai số ngẫu nhiên:
• Kiểm định giả thuyết, nhằm:
• So sánh kết quả mẫu với giá trị thực
quần thể
• Tính toán giá trị p (xác suất quy
thuộc cho may rủi)
Sai s ố h ệ th ố ng
• còn gọi là sai chệch là bất kỳ sai số
nào trong quá trình nghiên cứu làm sai
lệch ước lượng sự kết hợp giữa phơi
Trang 8Sai số hệ thống làm thay đổi số đo trung bình
nên gọi là sai chệch
Các lo ạ i sai s ố h ệ th ố ng
1 Sai số chọn: xảy ra khi có sự khác biệt hệ thống các đặc
tính của những đối tượng được chọn vào nghiên cứu với đặc
tính của những người không được chọn vào nghiên cứu do quá
trình lựa chọn, phân bổ và sử dụng đối tượng nghiên cứu.
Có 2 vấn đề cần quan tâm trong sai số chọn:
– Những người tham gia nghiên cứu không đại diện
cho quần thể nghiên cứu
• Mẫu không ngẫu nhiên
• Lựa chọn mẫu nghiên cứu không phù hợp
– Các nhóm so sánh khác nhau một cách có hệ thống so với các
nhóm khác
• Các nhóm được chọn từ các nguồn khác nhau, tỷ lệ khác nhau, mất số
liệu
• Kết quả chỉ ra mối liên quan giữa yếu tố nguy cơ và bệnh quá cao hoặc
quá thấp so với dự kiến (mong đợi)
Trang 9Các nguồn sai số chọn
• Lựa chọn đối tượng nghiên cứu không phù hợp
– Tự nguyện
– Tỷ lệ tham gia thấp (<80%)
– Mất đối tượng nghiên cứu (ví dụ chết)
– Nhóm chứng được lựa chọn trong bệnh viện
• Phân bổ nhóm can thiệp không ngẫu nhiên
• Loại bỏ đối tượng NC trong quá trình phân tích
số liệu (không theo dõi được hoặc mất dữ liệu)
Sai số chọn trong NC ngang
• Câu hỏi đặt ra là:
– Các đối tượng tham gia NC có phải là một mẫu đại
diện ngẫu nhiên cho quần thể NC hay không?
– Quá trình lựa chọn được tiến hành ngẫu nhiên như
Trang 10Sai số chọn trong nghiên cứu
can thiệp
• Phân bổ vào nhóm can thiệp không ngẫu nhiên
– Hạn chế bằng cách:
• Sử dụng máy tính để phân bổ ngẫu nhiên để đối
tượng không thể tự lựa chọn nhóm
• Làm mù trong quá trình phân nhóm
• Một số đối tượng NC từ bỏ can thiệp sớm
– Hạn chế bằng cách:
• Phân tích tất cả các đối tượng tham gia vào
nghiên cứu
• Xem xét kỹ lưỡng sự khác biệt giữa hai nhóm nếu
có sự chênh lệch về đối tượng NC giữa hai nhóm
Sai số chọn trong NC thuần tập
• Câu hỏi đặt ra là:
– Các đối tượng tham gia NC có hoàn toàn là
không có bệnh (không có vấn đề SK) mà NC
quan tâm hay không?
– Hai nhóm phơi nhiễm và không phơi nhiễm có
sự khác biệt gì không?
– Tỷ lệ đối tượng được theo dõi đến cùng là
bao nhiêu ở từng nhóm?
Trang 11Sai số chọn trong NC bệnh
chứng
• Câu hỏi đặt ra là:
– Các đối tượng NC có được lựa chọn ngẫu
nhiên từ quần thể NC hay không?
– Quần thể NC có được làm rõ trong NC hay
không?
• Ví dụ :
– Sai số chuyển tuyến
– Sai số do đối tượng NC (tỷ lệ đáp ứng)
– Sai số trong tính tỷ lệ hiện mắc hoặc mới mắc
2 Sai số đo lường/chẩn đoán
• Sai chệch gây ra do đo lường kết quả sai hoặc
phân loại sai đối tượng nghiên cứu, nguyên nhân
từ phía người làm nghiên cứu hoặc từ đối tượng
nghiên cứu
• Ví dụ
– Các đối tương khác nhau áp dụng quy trình
chẩn đoán khác nhauà kết quả
– Xảy ra khi một hiểu biết về mối quan hệ nhân
quả ảnh hưởng đến kết quả chẩn đoán
Các lo ạ i sai s ố h ệ th ố ng
Trang 122 Sai số đo lường/chẩn đoán
• Các nguồn sai số đo lường/chẩn đoán:
– Do đối tượng nghiên cứu
• Sai số nhớ lại (recall bias): Loại sai số này thường xảy ra trong
các nghiên cứu bệnh chứng và các nghiên cứu thuần tập hồi cứu
• Sai số do bối cảnh đo
– Sai số do công cụ thu thập thông tin
– Sai số quan sát (thu thập thông tin)hay sai số
phỏng vấn (interview bias) VD kinh nghiệm người
TTTT
– Sai số phân loại (xếp lẫn- misclassification): sai số
sắp xếp nhầm đối tượng vào nhóm bệnh-không
bệnh, phơi nhiễm – không phơi nhiễm
Các lo ạ i sai s ố h ệ th ố ng
Phân loại sai số đo lường
• Sai số đo lường có sự khác biệt
(Differential measuarement error)
• Sai số đo lường không có sự khác biệt
(non-differential error)
Trang 13Sai số đo lường không có sự
khác biệt
• Sai số xảy ra ở cả hai nhóm so sánh
(nhóm bệnh và nhóm chứng trong NC
bệnh chứng, nhóm phơi nhiễm và không
phơi nhiễm trong NC thuần tập, nhóm can
thiệp và không can thiệp trong NC can
thiệp)
• Kết quả là mối liên quan giữa yếu tố phơi
nhiễm và bệnh đo được không như mong
muốn (bias toward the null, OR, RR=1)
Sai số đo lường có sự khác biệt
• Sai số đo lường khác nhau giữa hai nhóm so sánh
• Ảnh hưởng đến độ lớn và chiều hướng của sự kết
hợp giữa phơi nhiễm và bệnh
• Nguyên nhân (nguồn gốc):
– Sai số giám sát (VD: đo lường/chẩn đoán tình trạng
phơi nhiễm khác nhau giữa hai nhóm)
– Sai số nhớ lại: nhóm bệnh thường có xu hướng nhớ
rõ hơn về tình trạng phơi nhiễm hơn là nhóm chứng
– Sai số phỏng vấn/ quan sát
• Hạn chế bằng cách làm mù điều tra viên (không
biết về giả thuyết NC, tình trạng bệnh, tình trạng
phơi nhiễm…)
Trang 14Hạn chế các sai số hệ thống
• Hạn chế tối đa việc đối tượng từ chối tham gia nghiên
cứu hoặc bỏ cuộc
• lựa chọn chỉ số nghiên cứu và thiết kế phù hợp
• chọn quần thể nghiên cứu phù hợp
• sử dụng quy trình chẩn đoán, theo dõi và đánh giá giống
nhau để hạn chế các sai số chẩn đoán
• Chuẩn hoá công cụ đo lường có độ chính xác cao và phải
đo đi đo lại nhiều lần
• Sử dụng thống nhất công cụ đo lường, phương pháp tiến
hành giữa các đối tượng nghiên cứu
Hạn chế các sai số hệ thống
• Đào tạo thống nhất các nghiên cứu viên, điều tra viên,
người thu thập số liệu để thực hiện quy trình và phương
pháp giống nhau
• không nên hỏi về sự kiện xảy ra quá lâu, quá xa mà đối
tượng không thể nhớ đượcà SD nhật ký
• tạo cho đối tượng sự thoải mái khi cung cấp thông tin
• Sử dụng nhiều nguồn thông tin đối chiếu
• Làm mù, phân bổ đối tượng và NCV ngẫu nhiên
Trang 15Bài tập: xác đinh những sai số có
thể có và chiến lược hạn chế sai số
• Nghiên cứu xác định tỷ lệ mắc bệnh phụ
khoa tại 1 cộng đồng
• Nghiên cứu bệnh chứng về liên quan giữa
hút thuốc lá và viêm phế quản mạn: chọn
bệnh ở khoa hô hấp, chứng ở khoa chấn
• đối tương đến khám là người có vấn đềà tỷ lệ mắc cao hơn.
• Chọn khu vực nước ngập/sông nước
– Sai số chẩn đoán:
• Do kỹ thuật TTTT: dùng hai phương pháp phát hiện khác
nhau để chẩn đoán, hoặc người lao động ở vùng sông
nước được khám kỹ hơn.
• Do đối tượng NC: Nhớ lại triệu chứng không chính xác
• Do Phỏng vấn: Bác sĩ nam khámà đối tượng ngại kể các
dấu hiệu, 2 người PV cho 2 kết quả khác nhau
• Xếp lẫn: test có độ nhạy và độ đặc hiệu không caoà xếp lẫn
Trang 16BIẾN NHIỄU
“ Một biến số (yếu tố) thứ 3 làm ảnh hưởng tới mối liên
quan giữa phơi nhiễm và bệnh”
Các đặc điểm của biến nhiễu
Ø Là yếu tố nguy cơ (hoặc bảo vệ) độc lập đối với bệnh
Ø Có liên quan đến phơi nhiễm, không phụ thuộc vào phơi
nhiễm
Ø Không phải là yếu tố trung gian trong mối quan hệ nhân
quả của phơi nhiễm – bệnh
Lưu ý: Nhiễu và phơi nhiễm có thể đổi chỗ cho nhau nếu quan tâm
của nghiên cứu thay đổi
32
ĐỊNH NGHĨA
Một biến nhiễu là một biến mà khi ta hiệu chỉnh
(kiểm soát) trong quá trình phân tích sẽ dẫn tới
để thể hiện mối liên quan giữa phơi nhiễm và
bệnh chứ không dùng các kết quả thô (crude)
Trang 17• Quan điểm thống kê: Một biến số (yếu tố) thứ 3 có
mối tương quan với cả hai biến đang quan tâm: phơi
Trang 18Biến/Yếu tố nhiễu
• Yếu tố (biến số) nhiễu dẫn đến những sai chệch
trong việc đo lường mối liên quan giữa phơi nhiễm
và bệnh
– RR hoặc OR có thể tăng hoặc giảm so với giá trị thực
– Đặc biệt quan trọng trong các nghiên cứu phân tích
• Một biến có thể nghi ngờ là yếu tố nhiễu khi:
– Không nằm trong giả thuyết nghiên cứu
– Hội đủ 3 tiêu chuẩn của một yếu tố nhiễu
• Yếu tố được coi là nhiễu thực sự khi:
– Yếu tố đó bị nghi ngờ là yếu tố nhiễu và kết quả kiểm
tra xác định là yếu tố nhiễu
Ví dụ về yếu tố nhiễu
• Câu hỏi nghiên cứu: Có mối liên quan giữa uống
rượu và ung thư gan hay không?
• Những yếu tố nào có thể “gây nhiễu” hay “làm
sai lệch” mối quan hệ giữa uống rượu và ung
thư gan?
– Yếu tố nguy cơ: uống rượu
– Bệnh: ung thư gan
• Liệu có yếu tố nào khác ảnh hưởng đến mối liên
quan giữa uống rượu và bệnh ung thư gan hay
không?
Trang 19Liệu hút thuốc lá có phải là yếu tố nhiễu
hay không?
• HTL không nằm trong giả thuyết NC
• HTL có đảm bảo 3 tiêu chuẩn của 1 yếu tố nhiễu
không?
– Là 1 yếu tố nguy cơ độc lập đối với K gan? ĐÚNG
– Có liên quan đến uống rượu hay không? Cần kiểm tra
– Không phải là yếu tố trung gian giữa uống rượu và K gan?
Trang 20Kiểm tra yếu tố nhiễu (tiếp): phân tầng
K gan Tổng
Có 600 19,400 20,000 Không 150 4,850 5,000 Tổng 750 24,250 25,000
Uống rượu
K gan Tổng
Có 15 4,985 5,000 Không 60 19,940 20,000 Tổng 75 24,985 25,000
So sánh RR
• So sánh mối liên quan giữa yếu tố nguy cơ
(uống rượu) và bệnh (K gan) trong toàn bộ mẫu
NC và phân tầng theo yếu tố nghi ngờ nhiễu cho
thấy:
– RR toàn bộ mẫu = 2,9
– Nhóm có hút thuốc lá RR=1,0
– Nhóm không hút thuốc lá RR=1,0
ÞNhư vậy hút thuốc lá là yếu tố nhiễu ảnh hưởng
tới mối liên quan giữa uống rượu và K gan
RR=2,9 rất cao là do yếu tố hút thuốc lá gây ra
chứ không phải do uống rượu (hút thuốc lá là
“yếu tố gây phiền toái”)
Trang 21– Nếu RR (OR) chung và RR (OR) các tầng không có
sự khác biệt thì yếu tố đó không phải yếu tố nhiễu và
không có tác động tương hỗ
– Nếu RR (OR) chung khác với RR (OR) các tầng có
sự khác biệt và RR (OR) các tầng đều bằng 1,0 hoặc
kiểm tra tính đồng nhất của RR (OR) theo từng tầng
không có khác biệt thì yếu tố đó là yếu tố nhiễu
– Nếu RR (OR) chung và RR (OR) các tầng khác nhau
thì yếu tố đó có tác động tương hỗ
Trang 22TƯƠNG TÁC (Interaction/Effect Modification)
Tương tác xuất hiện khi tác dụng của phơi nhiễm đối với
bệnh thể hiện khác nhau trên các nhóm đối tượng khác
nhau (tác dụng này có thể mạnh hơn hay yếu hơn)
44
VÍ DỤ TƯƠNG TÁC
Giả thuyết
Uống rượu (E) liên quan tới ung thư gan (D)
Biến tương tác tiềm ẩn (Effect Modifier): Hút thuốc lá
Bệnh Không bệnhUống rượu
OR = 2.3
Trang 23• Giá trị đo lường (OR) mối liên quan giữa yếu tố
nguy cơ và bệnh rất khác nhau giữa hai tầng
(hút thuốc và không hút thuốc)
– Tất cả các đối tượng NC OR = 2,3
– Đối tượng hút thuốc lá OR = 3,8
– Đối tượng không hút thuốc lá OR = 1,0
• Từ kết quả trên có thể kết luận hút thuốc lá có
tác động tương hỗ đến mối liên quan giữa uống
rượu và bệnh k gan
Trang 24TƯƠNG TÁC
Có sự thay đổi về độ lớn của mối liên quan giữa phơi
nhiễm và bệnh tùy thuộc vào các mức độ của một biến số
thứ ba (the effect modifier)
ØPhản ánh đặc điểm của mối quan hệ tự nhiên giữa bệnh và phơi
nhiễm
Ø Tương tác là khái niệmhoàn toàn độc lậpvới biến nhiễu
Ø Khi phân tích, nếu thấy có hiện tượng tương tác, không hiệu
chỉnh theo biến nhiễu mà phải trình bày các kết quả độc lập ở từng
tầng
Tác động tương hỗ
ÞCác yếu tố có tác động tương hỗ thường
là các yếu tố sinh học liên quan đến tiến
trình của bệnh
ÞKhác với yếu tố nhiễu:
– Cần phải loại bỏ ảnh hưởng của yếu tố nhiễu
ÞTrong 1 NC có thể vừa có yếu tố nhiễu
vừa có các yếu tố có tác động tương hỗ
Trang 25Thực hiện phân tích tương quan
Biến phân tầng là biến gây nhiễu
Báo cáo OR (RR) kết hợp với test
Đánh giá yếu tố nhiễu và tương tác
OR thô Các OR từng tầng Hiệu chỉnh Phiên giải ý nghĩa
Trang 26KIỂM SOÁT NHIỄU
1 Khống chế nhiễu một cách tối đa khi thiết kế nghiên cứu
• Thu hẹp phạm vi nghiên cứu
• phân nhóm ngẫu nhiên (randomisation)
• ghép cặp (matching): ví dụ trong nghiên cứu bệnh-chứng, có
thể ghép cặp theo tuổi, giới, v.v.
2 Khống chế, kiểm soát nhiễu khi phân tích
• Phân tích phân tầng (stratified analyses)
• Phân tích bằng mô hình đa biến (multivariable modeling)
Ø nhiễu có thể được kiểm soát ở cả giai đoạn thiết kế
nghiên cứu và giai đoạn phân tích
52
CÁC BƯỚC KIỂM SOÁT NHIỄU
1 Phân tầng theo các mức độ của yếu tố nghi ngờ là
“yếu tố nhiễu”
2 Tính các ước lượng (RR hoặc OR) không bị nhiễu
đặc trưng cho từng tầng
3 Đánh giá sự khác biệt của các ước lượng này ở các
tầng: bằng cảm tính (eyeballing) và/hoặc thông qua
kiểm định ý nghĩa ( test of significance)
Trang 27KIỂM SOÁT NHIỄU
4 Nếu khụng cú dấu hiệu của tương tỏc: tớnh toỏn cỏc
ước lượng chung cú hiệu chỉnh thụng qua phương
phỏp Mantel-Haenszel (tớnh ORMH hoặc RRMH), sử
dụng cỏc phần mềm như EpiInfo, SPSS
5 Nếu cú dấu hiệu của tương tỏc:
a Khụng tỡm cỏch hiệu chỉnh kết quả theo yếu tố
nhiễu.
b Tớnh toỏn và đưa ra kết quả về RR (hay OR) trong
từng tầng
2 Thu hẹp phạm vi nghiờn cứu
• Ví dụ chỉ chọn nghiên cứu một giới để loại yếu tố giới,
chọn một nhóm tuổi nhất định, chọn chỉ những ngời
có hút thuốc lá
* Ưu điểm:đơn giản, thuận tiện dễ làm, ít tốn kém để
kiểm soát nhiễu tiềm ẩn
* Nhược điểm:
• Làm giảm số người đủ tiêu chuẩn tham gia nghiên
cứu, khó chọn đủ cỡ mẫu (phải sàng lọc)
• Có thể không loại hết nhiễu nếu giới hạn chưa đủ
hẹp
Trang 28Kh«ng ph¬i nhiÔm
1000 / 200
=
=
cRR
02.1100/21
900/194
900/29
100/6
RR
RR hiÖu chØnh = 1.14
4 Phân tích tầng