Nghiên cứu có từ trước có cùng cách chọn mẫu Tính bằngcôngthức: Design effect = 1 + m-1 * Trong đó: m: độ lớn trung bình của 1cụm : hệ số tương quan intra-class correlationcoefficien
Trang 1CHỌN MẪU VÀ TÍNH CỠ MẪU
I NGHIÊN CỨU CẮTNGANG
1.1 Tính cỡ mẫu:
Nghiên cứu cắt ngang thướng được sử dụng để ước lượng một số trung bình (biến
số liên tục) hay một tỉ lệ (biến số rời) cho nghiên cứu cắtngang
Công thức tính cỡ mẫu nhằm ước lượng:
- Một số trungbình:
trong đó : độ lệch chuẩn
d: sai số biên của ước lượng
- Một tỷ lệ:
trong đó p: tỉ lệ ước tính của vấn đề cần khảo sát
d: sai số biên của ước lượng
Ví dụ 1: Cần phải có cỡ mẫu là bao nhiêu để xác định tỉ lệ đàn ông Việt nam hút thuốc
lá, biết rằng kết quả từ một nghiên cứu trước đây cho thấy tỉ lệ này là 20% và chúng ta mong muốn kết quả tìm thấy có giá trị nằm trong khoảng 5% giá trị thật
p = 0,2, 1-p = 0,8, = 0,05=> n = 1,962 x 0,2 x 0,8/ 0,052 = = 245,8 = 246 người
(*)Lưu ý:
Đây là cỡ mẫu được tính cho nghiên cứu KHÔNG sử dụng phương pháp chọn mẫu cụm Nếu chọn mẫu cụm => phải tính “hệ số thiết kế” (designeffect)
MỤC TIÊU: Sau khi học xong bài này, sinh viên có thể
1 Tính được cỡ mẫu cho nghiên cứu cắtngang
2 Tính được cỡ mẫu cho nghiên cứubệnh-chứng
3 Phân biệt được các cách chọn mẫu và quyết định được phương pháp chọn mẫu thích hợp cho từng thiết kế nghiên cứu khácnhau
Trang 2lớn nhất
Ví dụ 2: Cần phải có cỡ mẫu là bao nhiêu để ước tính trung bình của đường kính động mạch chủ bụng của người Việt nam, biết rằng kết quả từ một nghiên cứu trước đây cho thấy độ lệch chuẩn là 5 và chúng ta mong muốn kết quả tìm thấy có giá trị nằm trong khoảng 5% giá trị thật (tức là sai số khoảng 0,75)
= 5, = 0,75
=> n = 1,96 x 5/ (0,75)2 = 170,7 = 171 người
Nếu tỉ lệ tham gia NC chỉ 80% thì cỡ mẫu cần có phải tăng lên = 16/0,8 = 214 người
* Cách xác định “hệ số thiết kế” (design effect)
1 Xácđịnh bằng nghiên cứu pilot
2 Nghiên cứu có từ trước có cùng cách chọn mẫu
Tính bằngcôngthức: Design effect = 1 + (m-1) *
Trong đó:
m: độ lớn trung bình của 1cụm
: hệ số tương quan (intra-class correlationcoefficient)
Có thể là 1 con số âm rất nhỏ (khi cấu trúc trong từng cụm rất khác nhau) hoặc =1 (khi cấu trúc trong từng cụm thuần nhất)
Do kết luận rút ra được từ mẫu khảo sát sẽ được dùng để suy luận cho dân số (mà
từ đó mẫu được lấy ra) nên mẫu được chọn cần phải đảm bảo tính đại diện, và vì vậy
cần phải được thực hiện theo các kỹ thuật thích hợp để tránh các sai lệch có thể xảyra
Có 2 phương pháp chọn mẫu: chọn mẫu có xác suất (Probability sampling
method) và chọn mẫu không có xác suất (non-probability sampling method) Cách tốt
nhất để bảo đảm một mẫu sẽ cho ra các suy diễn chính xác và đáng tin cậy là dùng các mẫu được chọn bằng phương pháp có xác suất
Một mẫu (được chọn bằng phương pháp) có xác suất là 1 mẫu được rút ra từ dân
số theo cách mà tất cả các thành phần của dân số đều có 1 xác suất (đã biết trước) được chọn vào mẫu
Trang 31.2.2 Các phương pháp lấy mẫu có xác suất:
✓ Chọn mẫu ngẫu nhiên đơn (simple randomsampling)
✓ Chọn mẫu ngẫu nhiên hệ thống (systematic randomsampling)
✓ Chọn mẫu phân tầng (stratifiedsampling)
✓ Chọn mẫu cụm (clustersampling)
✓ Chọn mẫu nhiều giai đoạn (multi-stagesampling)
Chọn mẫu ngẫu nhiên đơn (Simple random sampling -SRS):
Là phương pháp chọn mẫu mà mọi đơn vị lấy mẫu đều được chọn vào mẫu nghiên cứu với xác suất bằng nhau và độc lập với việc chọn đơn vị lấy mẫukhác
Các bước cần thiết để chọn mẫu ngẫu nhiên đơn giản:
B1.Lập danh sách chọn mẫu (khung chọn mẫu - sampling frame), trong đó các đối tượng
trong dân số đã được đánh số thứ tự
B2.Rút thăm các số nguyên ngẫu nhiên cho đủ cỡ mẫu bằng cách:
+ Dùng bảng số ngẫu nhiên sau khi đã xác định vị trí khởi đầu một cách ngẫu
Trang 4hoặc + Dùng chương trình vi tính cho ra số lượng số ngẫu nhiên cầnthiết
Ưu điểm của phương pháp chọn mẫu ngẫu nhiên đơngiản:thực hiện đơngiản
Khuyếtđiểm
+ Có thể không có được danh sách các đơn vị lấymẫu
+ Có thể tốn kém nhiều do mẫu nghiên cứu bị trảirộng
+ Có thể kém hiệu quả ở một số dân số nhấtđịnh
Chọn mẫu ngẫu nhiên hệ thống (Systematic randon sampling):
Là phương pháp chọn ngẫu nhiên một nhóm gồm nhiều đơn vị lấy mẫu cách nhau một khoảng cách mẫu (k)
Các bước cần thiết để chọn mẫu ngẫu nhiên hệ thống:
+ Tính khoảng cách mẫu k = N/n
+ Chọn ngẫu nhiên một số i (số đầu tiên), 1 i k
+ Chọn một nhóm gồm các đơn vị lấy mẫu i, i+k, i+2k, v.v
Trang 5Chọn mẫu phân tầng (Stratifiedsampling):
Là phương pháp chọn mẫu với nhều cá thể đại diện được chọn từ các tầng (strata) riêng biệt của dân số
Sử dụng khi:
+ Các tầng có khác nhau về biến số quantâm + Bản thân sự khác biệt này là mục tiêu của nghiêncứu
Yếu tố phân tầng thường là tuổi, phái tính, độ nặng của bệnh, tình trạng hút thuốc
- không hút thuốc v.v… Việc chọn mẫu phân tầng thường theo tỉ lệ tương xứng (proportional stratified sampling) nhưng đôi khi có thể không tương xứng (disproportional stratified sampling)
Ưu điểm của phương pháp chọn mẫutầng: mẫu đại diện hơn, chính xáchơn
Khuyếtđiểm
+ Trên thực tế đôi khi không tìm được tính chất để phântầng
+ Về mặt kinh tế, cũng gây tốn kém tương đương với cch chọn mẫu ngẫu nhiênđơn
Chọn mẫu cụm (Cluster sampling):
Là phương pháp chọn mẫu mà trong đó một hoặc nhiều đợn vị lấy mẫu (listing units) được phối hợp sử dụng, nói cách khác đây là phương pháp chọn mẫu mà khung chọn mẫu bao gồm nhiều cụm, mỗi cụm gồm nhiều đối tượng trong một địa phương
(hay địa điểm) nhất định Khác với tầng (bao gồm những đơn vị lấy mẫu thuần nhất về
Trang 6+ Muốn giảm chi phí tiếp cận đốitượng
Một số đặc tính quan trọng của chọn mẫu cụm:
Tiến trình chọn mẫu theo từng bậc Ví dụ nếu khu phố là cụm và hộ gia đình là
đơn vị lấy mẫu thì sẽ có 2 bước để chọn hộ gia đình: bước đầu tiên: chọn khu phố, bước
thứ 2: chọn hộ gia đình Hai bước này được gọi là hai giai đoạn (stages) Vì vậy trong
cách chọn mẫu cụm sẽ có một số giai đoạn (stages) được thực hiện Nếu trong thiết kế chọn mẫu chúng ta thực hiện nhiều giai đoạn thì các đơn vị lấy mẫu ở giai đoạn đầu tiên
là đơn vị lấy mẫu nguyên phát (primary sampling units –PSUs)
Cụm có thể được chọn bằng nhiều kỹ thuật chọn mẫu khác nhau Chẳng hạn ta
có thể chọn cụm bằng cách chọn mẫu ngẫu nhiên đơn giản hay bằng cách chọn mẫu hệthống
+ Nếu chọn cụm bằng phương pháp chọn mẫu ngẫu nhiên đơn giản =>chọn mẫu
+ Nếu chọn cụm không phải bằng phương pháp ngẫu nhiên đơn giản => chọn mẫu với xác suất tỉ lệ với độ lớn của cụm (sampling with probability proportional to size)
Trang 7Trong tiến trình chọn mẫu cụm, có thể sử dụng nhiều khung chọn mẫu khácnhau
Sau khi thực hiện giai đoạn 1, khung chọn mẫu mới được tập hợp lại từ các cụm đượcchọn
Ưu điểm của phương pháp chọn mẫucụm: khả thi, kinh tế hơn vì chỉ cần chuẩn bị
danh sách chi tiết trong các cụm đượcchọn
Khuyếtđiểm: các số ước lượng có thể không chính xác bằng chọn mẫu SRS, chọn
mẫu tầng nếu khảo sát trên cùng cỡ mẫu => Để tăng độ chính xác -> tăng cỡmẫu
Chọn mẫu nhiều giai đoạn (Multi-stagesampling):
Chọn mẫu nhiều giai đoạn là sự kết hợp nhiều phương pháp lấy mẫu Mỗi một phương pháp chọn mẫu được áp dụng là 1 giaiđoạn
Trên thực tế phương pháp thường được áp dụng nhất: chọn mẫu cụm nhiều giai đoạn Phương pháp chọn mẫu cụm 2 giai đoạn đơn giản được thực hiện trên giả định là các cụm có số lượng đơn vị lấy mẫu bằng nhau Tuy nhiên trên thực tế, các cụm hầu như không có cùng độ lớn, vì vậy người ta sử dụng chọn mẫu với xác suất tỉ lệ với độ lớn của cụm (sampling with probability proportional to size) – phương pháp chọn mẫuPPS
Chọn mẫu PPS (probability proportionate to size) – chọn mẫu có xác suất tỉ lệ với
độ lớn của cụm
Giai đoạn 1: Chọn ra n cụm từ tổng số N cụm bằng phương pháp chọn mẫu hệ thống:
+ Tính khoảng cách mẫu k = N/n
+ Chọn ngẫu nhiên một số i (số đầu tiên), 1 i k
+ Chọn một nhóm gồm các đơn vị lấy mẫu i, i+k, i+2k, v.v
Trong chương trình tiêm chủng mở rộng của TCYTTG, số cụm cần chọn là 30, do đó khoảng cách mẫu là N/30
Giai đoạn 2: Trong n cụm được đã chọn, chọn ra số đối tượng cần thiết (= cỡ mẫu/n
cụm) bằng phương pháp mẫu chọn ngẫu nhiên đơn giản hay chọn mẫu hệ thống
Trong chương trình EPI của TCYTTG, để chọn ra 7 nhà trong 1 cụm người ta chọn
ra nhà đầu tiên một cách ngẫu nhiên rồi sau đi các nhà tiếp theo - theo nguyên tắc nhà liền nhà
II Nghiên Cứu Bệnh-Chứng
2.1 Tính cỡmẫu:
Nghiên cứu bệnh – chứng
Ước lượng tỷ số chênh
Trang 8Kiểm định tỷ số chênh:
Nghiên cứu đoàn hệ
Ước lượng nguy cơ tương đối
a Có thể lấy từ cộng đồng, dân sốchung
Khó khăn: việc đăng ký (các trường hợp bệnh) trong cộng đồng thường không phổ biến,
tốn kém, và có thể không liệt kê đầy đủ tất cả các trường hợp bệnh
b Có thể lấy từ bệnh viện hay phòngkhám
Nhược điểm: chọn ca bệnh từ nguồn này dễ gặp phải bias vì người đến bệnh viện thường
là những người bị bệnh nặng, có nhiều bệnh khác kèm theo
Các ca bệnh được chọn nên là những ca bệnh mới chẩn đoán hay là bệnh hiện có (có cả những ca bệnhcũ)?
Thông thường, người ta thích chọn ca bệnh từ những ca mới (incident cases) vì dễ
áp dụng các tiêu chuẩn chẩn đoán một cách nghiêm ngặt và (về mặt lý thuyết) không bỏ sót các ca bệnh diễn ra trong thời gian ngắn Tuy nhiên, nếu bệnh thực sự quá hiếm thì cần phải sử dụng cả bệnh cũ lẫn bệnh mới để có thể lấy đủ cỡ mẫu cần thiết Sử dụng prevalent cases có thể dẫn đến việc đại diện quá mức (over-representative) của những ca bệnh có thời gian bệnh kéo dài vì những người chết vì bệnh hay những người hồi phục nhanh chóng có rất ít khả năng được lựa chọn vào nhómbệnh
2 2 1
2 2 2 1 1 1 2 2 2 / 1
)(
})1()1()
1(2{
p p
p p p p Z p p Z
n
−
−+
−+
−
p*= (p1 + p2 )/2
Trang 92.2.2 Chọn cachứng
Nguồnchọn:
* Có thể từ các bệnh nhân trong bệnh viện
Tiện lợi:
+ Dễ dàng lấy được đủ số đối tượng nghiên cứu cầnthiết
+ Thuận tiện trong việc thực hiện các xétnghiệm
+ Sai lệch do nhớ lại (Recall bias) có thể giảm đi nếu một người được phỏng vấn nhiềulần
+ Các ca chứng được chọn từ nguồn này thường sẵn sàng hợp tác hơn và ít khi bỏ cuộc giữachừng
Đây là cách tiết kiệm ngân sách nhất khi lựa chọn nhóm chứng
Nhượcđiểm:
Những ca chứng được chọn từ bệnh viện đều là những người bệnh nên thường có
xu hướng có kèm theo bệnh khác hoặc đã từng tiếp xúc với nhiều yếu tố nguy cơ khác
Đó chính là những yếu tố gây nhiễu (confouding factors) trong diễn giải KQ
Việc lựa chọn ca chứng từ bệnh viện phải dựa trên một số tiêu chuẩn lọai trừ (exclusion criteria) Do đó có thể làm thay đổi kết quả nghiên cứu vì chúng ta đã loại những ca chứng có một số bệnh nào đó – mà những bệnh đó lại có thể có mối liên hệ với tình trạng tiếp xúc với yếu tố nguy cơ mà chúng ta đang khảosát
* Chọn nhóm chứng từ dân sốchung
Đây là nhóm chứng lýtưởng
Tỉ lệ tiếp xúc với yếu tố nguy cơ của nhóm chứng có thể dùng để ước lượng tỉ lệ tiếp xúc với yếu tố nguy cơ trong dân số chung, từ đó có thể tính được nguy cơ tuyệtđối Tuy nhiên, chọn nhóm chứng từ dân số chung khá tốn kém và mất thờigian
* Chọn nhóm chứng từ bạn bè, gia đình, hàng xóm
Tiệnlợi:
Nhóm chứng này chủ yếu là người khoẻ mạnh => tránh được hạn chế đã nêu đối với nhóm chứng được chọn từ bệnhviện
Ca bệnh và ca chứng có một số đặc điểm giống nhau về các yếu tố văn hoá, địa lý
=> có thể điều chỉnh được các yếu tố gây nhiễunày
Bất lợi: vì ca chứng là bạn bè, gia đình, hàng xóm của ca bệnh nên ca bệnh và chứng có nhiều điểm chung, thậm chí việc tiếp xúc với yếu tố nguy cơ (VD: hút thuốc, uống rượu…) gần như giống nhau giữa ca bệnh và ca chứng => dễ đánh giá thấp (under-estimate) ảnh hưởng thật sự của việc tiếp xúc với yếu tố nguy cơ đang nghiên cứu
Trang 10control study) nên dùng nhiều hơn 1 nhóm chứng
* Số ca chứng cho một cabệnh
Nếu số ca bệnh rất hiếm, cần dùng nhiều ca chứng cho 1 ca bệnh để tăng độ mạnh của nghiên cứu Tỉ lệ ca bệnh/ca chứng có thể đến 1/4 hay 1/5 nhưng không nên tăng lên nữa vì nếu tăng thêm hơn nữa thì độ mạnh của test thống kê cũng không tăng lên thêm bao nhiêu
Bắt cặp(matching)
Kiểm soát được các yếu tố gây nhiễu (confounding factors) VD: dùng ca chứng là anh chị em song sinh của ca bệnh có thể đảm bảo được cả ca bệnh và chứng đều chịu chung ảnh hưởng của yếu tố gen, yếu tố môitrường
Không cần thiết phải chuẩn bị cả danh sách các ca chứng đủ tiêu chuẩn để sau đó chọn lại một cách ngẫunhiên
TÀI LIỆU THAM KHẢO
1 Ancelle T Chapitre 16: Enquetes Épidémiogiques Statistique Épidemilogie Paris:
Maloine, 2011 p.189-215
2 Fletcher R.W., Fletcher S.W Chapter 6: Looking backward
ClinicalEpidemiology.Philadelphia: Lippincott Williams & Wilkins, 2005 p 91-104
3 Gordis L Chapter 10: Case-Control Studies and Other Study Designs Epidemiology
Philadelphia: Saunders, Elservier Inc., 2009 p.147-199
4 Greenberg R.S., Daniels S.R., Flanders W.D., Eley J.W., Boring J.R Chapter 9: Case-
Control Studies Medical epidemiology New Jersey, McGraw-Hill Medical Companies,
Inc., 2005 p.147-161
5 Hennekens C.H., Buring J.E Chapter 6: Case-Control Studies Epidemiology in Medicine Boston, Little Brown Company, 1987 p.132-152
6 Last J.M., Spasoff R.A., Harris S.S., Thuriaux M A dictionary of epidemiology New
York, Oxford University Press,2001
Trang 11NGUYÊN TẮC XÂY DỰNG BỘ CÂU HỎI
1 ĐỊNH NGHĨA
Bộ câu hỏi thường được sử dụng để phỏng vấn khi tiến hành một cuộc khảo sát
về vấn đề sức khoẻ nào đó ở cộng đồng Bộ câu hỏi là một công cụ để đo lường, nói đúng hơn đó là một thước đo, đòi hỏi phải chính xác và tin cậy Để đạt được điều này, người thiết kế phải tuân theo nhiều giai đoạn khác nhau, từ việc xem xét các mục tiêu, biến số của nghiên cứu cho đến thử độ chính xác và độ tin cậy
2 CÁC LOẠI CÂU HỎI
Có ba loại câu hỏi : (a) câu hỏi đóng; (b) câu hỏi mở và (c) câu hỏi bán cấu trúc
là câu hỏi đóng trước và kết thúc bằng câu hỏi mở
Câu hỏi đóng có dạng sau:
- Dạng câu hỏi có nhiều lựa chọn
Mục tiêu bài giảng
1 Nguyên tắc xây dựng một bộ câu hỏi
2 Biết được các loại câu hỏi thường dùng trong nghiên cứu cộng đồng
3 Các bước tiến hành thiết kế một bộ câu hỏi
Trang 12Ví dụ: trong đợt ốm gần đây nhất, anh/chị có các biểu hiện sau đây không? (đọc lần lượt)
b) Câu hỏi mở
Câu hỏi mở được đặt ra như một gợi ý để đối tượng nói ra những gì mà họ đã trải qua hoặc đang suy nghĩ Câu hỏi mở được dùng cả trong trường hợp thu thập thông tin định lượng và cả định tính
Ví dụ 1: hãy cho biết khi bị đau bụng, anh/chị thấy có các biểu hiện gì khác bất thường?
Trang 13Ví dụ 2: xin cho ý kiến về tình hình hoạt động của trạm y tế xã trong tháng qua? Khi đặt câu hỏi mở phải chú ý liệu đối tượng có thể hiểu đúng câu hỏi không?
Có thể trả lời đúng vào câu hỏi không? Có sẵn sang suy nghĩ để trả lời không? Có
bị nhiễu hoặc bị “lái” khi trả lời không? Dùng các câu hỏi mở sau này có thể mã hoá các câu trả lời để phân tích định lượng và cũng có thể để mô tả theo sơ đồ logic, vẽ lên các cây vấn đề trước khi thu thập thông tin định tính
c) Câu hỏi bán cấu trúc
Là các câu hỏi phối hợp giữ câu hỏ đóng trước, sau đó là câu hỏi mở Ví
dụ: khi đau bụng anh/chị có các biểu hiện sau đây đi kèm không?
1 Sốt
2 Phân có máu
3 Nôn mửa
4 Và các biểu hiện khác: ………
Do các câu hỏi đóng thường bị đánh giá cao hơn (nhiều hơn) thực tế, câu hỏi
mở lại đánh giá thấp hơn (vì có thể quên), câu hỏi đóng thường giới hạn các câu trả lời mà ta muốn biết, còn câu hỏi mở lại muốn lắng nghe những gì đối tượng muốn nói cho mình biết Vì vậy, kết hợp với nhau sẽ được cả hai lợi điểm
3 CẤU TRÚC CỦA BỘ CÂU HỎI
Sau các câu “mào đầu” là phần hành chính, hỏi về các đặc điểm nhân khẩu học, văn hoá, nghề nghiệp Tiếp đến là phần “thân bài” hay nội dung chính Kết thúc của bộ câu hỏi có thể là một số câu hỏi đóng để khẳng định những câu hỏi quan trọng nhất trước đó và phần cảm ơn đối tượng
Trang 144.1 Xác định nội dung
Khởi đầu bằng mục tiêu và biến số: câu trả lời cho câu hỏi sẽ chứa đựng giá trị của các biến số quan tâm, do đó việc xác định các mục tiêu và biến số cho cuộc điều tra là rất cần thiết, giúp đảm bảo thu thập thông tin cần thiết và tránh thu thập thông tin thừa vô ích mất thời gian và tốn kém
4.2 Hình thành các câu hỏi
Các câu hỏi này vừa đủ để thu được những thông tin cần thiết, mỗi câu hỏi chỉ giành riêng cho một biến số (học viên cần xem lại các loại biến số trong nghiên cứu) Các câu hỏi phải đơn giản, dễ hiểu Tránh câu hỏi gợi ý Đặc biệt phải lưu ý việc mã hoá các câu trả lời để dễ dàng cho việc xử lý số liệu sau này
4.3 Sắp xếp lại các câu hỏi theo thứ tự hợp lý
Phần hành chính được xếp vào phần đầu của bộ câu hỏi, phần hành chính là các biến số có liên quan đến kinh tế, xã hội, nhân khẩu, sau đó đến các phần khác theo một thứ tự hợp lý
4.4 Thử lại bộ câu hỏi về độ tin cậy, độ chính xác, và về mặt ngôn ngữ
Một bộ câu hỏi không nên được sử dụng nếu không được thử ít nhất là một lần qua những nghiên cứu thử Nghiên cứu thử được thực hiện trên 10-15 đối tượng sẽ cho thấy ngay những thiếu sót không thấy được khi xây dựng bộ câu hỏi Người trả lời sẽ trả lời không đúng với dự đoán của người muốn hỏi và như vậy sẽ phải sửa lại bộ câu hỏi, nhất là khi dùng từ có nhiều nghĩa trong các câu hỏi
Để thực hiện một cuộc điều tra phức tạp, cần thu thập nhiều thông tin liên quan tới nhiều lĩnh vực, một bộ câu hỏi phải được thử lại nhiều lần trước khi dùng để điều tra thực sự Sau mỗi lần thử cần có sự sửa chữa, hiệu chỉnh lại cho bộ câu hỏi hoàn thiện hơn
Trang 15PHẦN MỀM SPSS TRONG NGHIÊN CỨU SỨC KHỎE CỘNG ĐỒNG
1 GIỚI THIỆU
Hiện nay, có rất nhiều phần mêm thống kê đang được sử dụng như: Epi Data, Stata, Medcalc, SPSS… Trong đó phần mềm SPSS là một phần mêm cho phép người dùng thực hiện nhiều phân tích thống kê một cách dễ dàng Chỉ cần nhấp chuột vài lần là bạn có thể tạo ra các bảng tần suất, phần trăm, giá trị trung bình và
độ lệch chuẩn, biểu đồ tần suất, kiểm định thống kê Ngoài việc tạo ra những số thống kê thông thường, chúng ta có thể tạo ra các thống kê đặc biệt mà chúng ta cần, tuỳ theo trường hợp và giải thích chúng
2 QUẢN LÝ SỐ LIỆU
2.1 Tạo biến số liệu:
Để tạo ra các biến cho việc nhập liệu theo các bộ câu hỏi trên, bạn thực hiện
theo các bước sau: Vào Data Window – Variable View
Mục tiêu bài giảng
1 Giới thiệu và hiểu được về phần mềm SPSS.
2 Xử lý và phân tích các biến định tính, định lượng trong phần mềm SPSS.
Trang 16Mở cửa sổ số liệu trong SPSS, chọn Variable View ở góc dưới trái màn hình
Bạn sẽ thấy toàn bộ các tên cột từ trái qua phải ở phía trên màn hình gồm có: Name
(tên biến), Type (kiểu biến), Width (Độ rộng của biến), Decimals (số thập phân),
Label (nhãn biến), Values (các giá trị), Missing (giá trị khuyết), Columns (độ
rộng của cột), Align (canh lề), Measure (kiểu đo lường)
2.2 Nhập số liệu
Sau khi tạo biến số liệu nhập liệu ở thanh Variable View Chúng ta sẽ nhập số
liệu từ từng bộ câu hỏi ở thanh Data View
2.3 Tạo biến mới
Đôi khi bạn muốn tính toán một biến mới dựa trên các biến hiện có trong bộ
số liệu Ví dụ, chúng ta cần biết sự khác nhau giữa điểm chất lượng cuộc sau chấn
thương với trước chấn thương ở từng đối tượng Chúng ta có thể tính được bằng
tay nhưng tính cho tất cả các đối tượng sẽ tốn rất nhiều thời gian Thay vì tính bằng
tay chúng ta có thể sử dụng SPSS tính toán sự khác nhau này và đưa các giá trị vào
biến mới
Trang 17Để dùng thực đơn lệnh, bạn vào Transform/Compute…
Bạn đặt biến mới và tính toán cho biến đó, bạn có thể dùng các hàm tính toán ở
danh sách bên dưới Function và kết hợp với các toán tử
2.3 Mã hóa lại các biến:
a) Mã hoá lại một biến phân loại
Trong phiếu điều tra về cân nặng sơ sinh có các biến về trình độ học vấn, tuổi thai phụ, tuần tuổi thai, cân nặng sơ sinh, cân nặng mẹ… Trong phân tích của mình các nhà nghiên cứu không muốn có quá nhiều phân loại trình độ học vấn (5 nhóm)
và họ chỉ quan tâm đến tỷ lệ sinh con nhẹ cân ở các bà mẹ có trình độ học vấn thuộc
3 nhóm: từ cấp 1 trở xuống, từ hết cấp 1 đến hết cấp 2 và trên cấp 2 Họ muốn tạo
ra các biến mới mà có ít phân loại hơn Để làm được điều này họ có thể tạo nên các
Trang 18kết hợp một số phân loại với nhau, tạo ra một biến trình độ học vấn hvan_gr với 3 loại, và một biến nhecan (gồm 2 nhóm là nhẹ cân và không nhẹ cân)
Dùng menu lệnh: Transform/Recode:
*** Nếu chọn Into same variables…: mã hóa lại giá trị của một biến và kết
quả mới sẽ được lưu đè lên chính biến đó Khi đó, cửa sổ sau hiện ra, bạn chọn biến cần nhóm
- Nhấn nút Old and New Values… để chọn giá trị nhóm, cửa sổ sau hiện ra:
Trang 20- Bên phần Old Value, chọn những giá trị sẽ được phân vào một nhóm
- Sau đó nhập giá trị mới, đại diện cho cả nhóm đó vào ô Value ở phần New
Value
- Nhấn nút Add và tiếp tục làm với các phân nhóm tiếp theo
*** Nếu chọn Into different variables…: nghĩa là bạn sẽ thực hiện mã hóa
một biến nhưng kết quả mã hóa được lưu vào một biến khác và giá trị «gốc » vẫn
được giữ nguyên
- Chọn biến cần mã hóa từ danh sách các biến và kích mũi tên, ở đây chẳng
hạn chỉ biến « tuoi »
- Nhập tên biến mới vào hộp Name và nhấn nút Change
- Nhấn nút Old and New Values… để thực hiện mã hóa (phân nhóm) cho
các giá trị Quá trình này cũng được thực hiện giống như phần trên
Trang 21- Hộp Old -> New sẽ lưu danh sách các phân nhóm mà bạn vừa làm, từ
danh sách này, bạn có thể kiểm tra xem mình đã phân nhóm đúng chưa Bạn
cũng có thể sửa lại bằng cách chọn nhóm trong danh sách đó và kích vào nút
Chang, kích vào nút Remove nếu bạn muốn xóa bỏ
- Nhấn Continue để khẳng định việc mã hóa bạn vừa làm rồi ấn OK để
thực hiện
Trang 221 PHÂN TÍCH BIẾN ĐỊNH TÍNH
1.1 Tính tần số (n) và tỷ lệ (%)
Các bảng tần số và biểu đồ cột của tần suất và tỷ lệ mô tả phân bố các giá trị của một biến định tính (phân loại) có được qua SPSS bằng cách dùng lệnh sau: 1
.Từ thực đơn dọc chọn: Analyse /Descriptive Statistics/Frequencies
2 Từ danh sách các biến, chọn biến hocvan (trinh độ học vấn), và nghe (nghề nghiệp) và chuyển chúng vào hộp Variable(s) bằng cách nhấp chuột lên
phím mũi tên
Trang 23Click OK, SPSS sẽ cho kết quả như sau:
1.2 Lập bảng liên quan (mô tả mối liên quan 2 biến định tính)
Mô tả về nhẹ cân sơ sinh theo giới tính thai nhi
1 Từ thực đơn dọc chọn: Analyse/Descriptive Statistics /Crosstabs
2 Từ danh sách biến, chọn biến gtinhtre và chuyển vào hộp Row(s) bằng
cách nhấp chuột lên nút mũi tên
3 Chọn biến nhecan và chuyển vào hộp Column(s)