Nhập số liệu nghiên cứu
Trang 1Nhập số liệu nghiên cứu
Nguyễn Văn Tuấn Nguyễn Đình Nguyên
Trang 2Các thông số trong dữ liệu
• Các ký hiệu nhận dạng: số mã nghiên cứu, số thứ tự, các mã số xét nghiệm.
• Biến phụ thuộc chính: Yếu tố kết cục được đặc
ra trong thiết kế nghiên cứu.
• Các biến phụ thuộc thứ yếu: Cũng là các yếu tố kết cục cần quan tâm nhưng không phải là yếu
tố chính.
• Các yếu tố dự đoán hay là yếu tố nguy cơ.
Trang 3Ký hiệu nhận dạng
• Cần phải có một mã số nhận dạng duy nhất cho mỗi
bệnh nhân, nhất là khi có nhiều bảng số liệu cho cùng
Trang 4Ký hiệu nhận dạng: ví dụ
Hồ sơ dùng để phân tích
id gioitinh noio vung
1 nam rach gia
2 nu ba ria
3 nam soc trang
Hồ sơ dùng để theo dõi
id gioitinh ho ten diachi dienthoai
1 nam nguyen A thon 2 ap 4 xa… 894347
2 nu tran B so 3 duong… 439845
3 nam phan C ap 5 xa… 945709
Cần tách biệt với
Trang 5Dữ liệu phân tích
• Bất luận dữ liệu để phân tích là kết cục (outcome) hay là yếu tố nguy cơ, dự đoán đều có thể sắp xếp thành hai nhóm số liệu chính:
– Biến số liên tục (huyết áp, chiều cao, cân nặng, tuổi, cholesterol…)
– Biến số rời rạc: gồm biến số nhị phân (có,
không) biến số phân nhóm theo định tính (tốt, vừa, xấu)
Trang 6Dữ liệu phân tích
1 Dữ liệu phân tích phải được nghiên cứu kỹ lưỡng trước khi
bắt tay vào thu thập số liệu đầu tiên.
2 Các dữ liệu sau khi đã thu thập phải được lưu trữ trong dạng
bảng vi tính hóa, tùy theo quy mô của nghiên cứu
(micro-access, hoặc với số liệu nhỏ, đơn giản và hiệu quả là file
xcel)
3 Mã số của dữ liệu nên thiết kế trước từ khi lập bộ câu hỏi
nghiên cứu và để đi kèm với bộ câu hỏi nghiên cứu.
4 Cần nhập số liệu mới thu thập được sớm để có thể nhận
dạng các yếu tố bất hợp lý phát sinh trong quá trình mã hóa
và nhập dữ liệu.
5 Kiểm tra chéo số liệu đã nhập, đảm bảo chính xác trước khi
bắt tay vào phân tích.
6 Cần phải có những phân tích nhanh (interim) tạm thời để
xem số liệu thu thập được có tin cậy và hợp lý không.
Trang 7Nghiên cứu kỹ số liệu trước
• Tham khảo y văn về chủ đề liên quan, xem cách thức thu thập số liệu như thế nào, cách trình bày số liệu như thế nào.
• Thí dụ: Tuổi: trẻ nhỏ dưới 5 tuổi, tính bằng tháng, từ 5 tuổi trở lên tính bằng năm cho đến ngày thu thập số liệu.
• Do đó “khôn ngoan” nhất là nên hỏi ngày tháng năm sinh của đối tượng chứ không nên hỏi bao nhiêu tuổi là cách
để giảm thiểu sai số qua nhiều giai đoạn.
• Và khi đó ngày ghi nhận số liệu (ngày phỏng vấn, hoặc ngày xuất hiện bệnh, hoặc ngày chết…) có khi là một dữ kiện “phụ” nhưng lại đóng một vai trò quan trọng phải để vào trong bộ câu hỏi thu thập số liệu.
Trang 8Ghi nhận và nhập số liệu
• Các số liệu ghi nhận và nhập luôn luôn phải giữ ở
dạng số liệu thô, như trong bộ câu hỏi.
• Không nhập số liệu cần phải thông qua quá trình tính toán vào trong bảng dữ liệu gốc Thí dụ: chỉ số trọng lượng cơ thể (BMI) là được ước tính là cân nặng
(kg)/ chiều cao bình phương (m2), do đó chỉ nhập số liệu cân nặng (kg) và chiều cao (cm); BMI sẽ được ước tính sau, chứ không nên tính BMI rồi nhập vào bảng số liệu để đảm bảo tính nhất quán trong tính
toán tránh error và bias.
Trang 9Dữ kiện cần thu thập và lưu trữ
chet (7)
benh (8)
tgtheodoi (7)
Trang 10Ví dụ thực hành trên R
Hồ sơ dữ liệu “hoso” save ở dạng file hoso.csv, các trường ngày tháng được định dạng trong cvs là “yyyy-mm-dd” (tức là năm-tháng-ngày)
Để đọc dữ liệu hoso này trên R thì dùng lệnh ‘read.csv’ như sau:
hoso <- read.csv("C:/DOES/NGUYEN/LECTURES/VN Epi workshop
2007/Data/Kien Giang/hoso.csv", header=T, na.strings=‘NA') hoso
id ngaysinh ngaychet ngaypvan phatbenh
Trang 11# Xac dinh ngay phan tich
hoso$phantich <- Sys.Date() # Ngay hom nay
Trang 12# Co benh thi tinh den ngay phat benh
#Khong benh: Chet tinh den ngay chet
#Khong benh: khong chet, tinh den ngay phan tich
#Do do:
hoso$tgtheodoi[hoso$chet==1 & hoso$benh==0] <- hoso$ngaychet-hoso$ngaypvan hoso$tgtheodoi[hoso$chet==0 & hoso$benh==0] <- hoso$phantich-hoso$ngaypvan
Trang 13tuoi1 tuoi chet benh tgtheodoi
Trang 14Tiêu đề, ‘text’ của bảng số liệu
• Ngắn, không có dấu cách, dễ nhớ, dễ gõ bằng bàn
phím, không có dấu tiếng việt, hạn chế chữ IN HOA.
• Hint: nên sử dụng ba chữ cái đầu hoặc hai chữ cái đầu
và cuối.
– stt: số thứ tự
– hatth: huyết áp tâm thu; hattr: huyết áp tâm trương.
– ccao: chiều cao; can/cnang: cân nặng
• Cần phải có một hồ sơ lưu trữ chú thích các mã mình
đã sử dụng trong tiêu đề cũng như nội dung của bảng
số liệu một cách chi tiết.
Trang 154 Ngo Huyen 10/10/1996 chaudoc
5 Tran Tuan 3/03/2001 sadec
Đây là file lưu trữ trên csv
stt H Tên ngày.sinh noisinh
1 1 Tr?n Nguyên 12/03/2000 camau
2 2 Nguy?n Ng?c 23/04/1999 cantho
3 3 Ph?m Hoang 11/02/2003 vinhlong
4 4 Ngo Huyen 10/10/1996 chaudoc
5 5 Tran Tuan 3/03/2001 sadec
Đây là file khi đọc trên hệ thống phân tích (R)
Trang 16Nghiên cứu kỹ số liệu trước
• Một ví dụ khác: Xác định chiều cao của đối tượng, nếu
mô tả trong phương pháp là sai số đến 0.1cm thì khi thu thập số liệu nên lấy chỉ số đến 1 số thập phân
có ý kiến’ hoặc ‘không muốn trả lời’, vẫn là một khả
năng để phân tích.
Trang 17Mã số liệu đi kèm câu hỏi
• Trong năm qua ông/bà có bị té ngã không?
Mã số nên đặt: cho biến nhị phân: không (0), và có (1)
cho biến biểu thị mức độ: 0,1,2,3…tuỳ theo tình huống
Nhưng không cần thiết Nhập số liệu thô, và có thể mã hoá lại sau
Trang 18Mã hoá số liệu
hoso3
id gioitinh dausaumo
1 1 nam rat dau
2 2 nu dau it
3 3 nu khong dau
4 4 nam dau vua
5 5 nam rat dau
hoso3$gioitinh.1 <- ifelse(hoso3$gioitinh =="nam",1,0) hoso3$dausaumo.1[hoso3$dausaumo=="khong dau"] <- 0
hoso3$dausaumo.1[hoso3$dausaumo=="dau it"] <- 1
hoso3$dausaumo.1[hoso3$dausaumo=="dau vua"] <- 2
hoso3$dausaumo.1[hoso3$dausaumo=="rat dau"] <- 3
hoso3
id gioitinh dausaumo gioitinh.1 dausaumo.1
1 1 nam rat dau 1 3
2 2 nu dau it 0 1
3 3 nu khong dau 0 0
4 4 nam dau vua 1 2
Trang 20Ví dụ về tính toán dữ kiện: BMI
id cannang chieucao bmi1
id cannang chieucao bmi1 bmi2
1 1 55.2 155.5 22.82855 23
2 2 50.3 147.3 23.18262 23
3 3 46.1 149.6 20.59860 21
4 4 70.0 160.2 27.27552 27
Việc tính toán và làm tròn BMI có thể thực hiện dễ dàng và không sai số
BMI= cân nặng (kg)/chiều cao (m)^2
Trang 22Định dạng (format) trường ngày tháng
Chọn (highlight) toàn bộ cột có ngày tháng, sau đó click chuột phải > format cell
> Date > nên chọn ‘2001-03-14’ > bấm OK Tương tự các trường khác tuỳ chọn.
Trang 23Lưu trữ file dữ liệu
Việc đầu tiên là chúng ta cần làm, như nói trên, là vào Excel để lưu dưới dạng csv:
Vào Excel, chọn File \ Save as
Chọn Save as type “CSV (Comma delimited)”
Trang 24Lưu lệnh R ở đâu? Tinn-R
Địa chỉ để tải ở đây: http://www.sciviews.org/Tinn-R/
và tải chỗ này: Setup for Tinn-R, old stable version (1.17.2.4) (.exe, 5.2 Mb)
compatible with Rgui in SDI or MDI mode, with SciViews R Console and with S-PLUS.
Kích hoạt Tinn-R cùng với R
Chọn R ở đây
Gõ lệnh trên Tinn-R
Gửi lệnh đến R ơ đây
Trang 25Muốn lưu lại file dữ liệu vừa mới thao tác?
Trang 26Vài điểm quan trọng
• Thiết kế bộ câu hỏi đi kèm với các mã cần thiết.
• Nhập toàn bộ số liệu thu thập được ngay vào hồ sơ điện tử, chỉ nhập các số liệu thô
có trong bộ câu hỏi, không tính toán.
• Lưu file hồ sơ gốc bằng ‘.csv’ và luôn luôn phải có một file dự trữ.
• Nếu chưa quen, chỉ làm việc trên file copy.
Trang 27Lời Cảm tạ
• Chúng tôi xin chân thành cám
ơn Công ty Dược phẩm Bridge Healthcare, Australia
đã tài trợ cho chuyến đi.