Bạn đặt biến mới và tính toán cho biến đó, bạn có thể dùng các hàm tính toán ở danh sách bên dưới Function và kết hợp với các toán tử 2.3 Mã hóa lại các biến: a Mã hoá lại một biến phâ
Trang 1Bài 05:
PHÂN TÍCH SỐ LIỆU TRONG NGHIÊN CỨU SỨC KHỎE CÔNG ĐỒNG
THỐNG KÊ VÀ PHÂN TÍCH SỐ LIỆU VỚI PHẦN MỀM SPSS
A QUẢN LÍ SỐ LIỆU TRÊN PHẦN MỀM SPSS
Hiện nay, có rất nhiều phần mêm thống kê đang được sử dụng như: Epi Data, Stata, Medcalc, SPSS… Trong đó phần mềm SPSS là một phần mêm cho phép người dùng thực hiện nhiều phân tích thống kê một cách dễ dàng Chỉ cần nhấp chuột vài lần là bạn có thể tạo ra các bảng tần suất, phần trăm, giá trị trung bình và độ lệch chuẩn, biểu đồ tần suất, kiểm định thống kê Ngoài việc tạo ra những số thống kê thông thường, chúng ta có thể tạo ra các thống kê đặc biệt mà chúng ta cần, tuỳ theo trường hợp và giải thích chúng
2.1 Tạo biến số liệu:
Để tạo ra các biến cho việc nhập liệu theo các bộ câu hỏi trên, bạn thực
hiện theo các bước sau: Vào Data Window – Variable View
Trang 2Mở cửa sổ số liệu trong SPSS, chọn Variable View ở góc dưới trái màn hình Bạn sẽ thấy toàn bộ các tên cột từ trái qua phải ở phía trên màn hình gồm có:
Name (tên biến), Type (kiểu biến), Width (Độ rộng của biến), Decimals (số thập phân), Label (nhãn biến), Values (các giá trị), Missing (giá trị khuyết), Columns (độ rộng của cột), Align (canh lề), Measure (kiểu đo lường)
2.2 Nhập số liệu
Sau khi tạo biến số liệu nhập liệu ở thanh Variable View Chúng ta sẽ nhập số liệu từ từng bộ câu hỏi ở thanh Data View
2.3 Tạo biến mới
Đôi khi bạn muốn tính toán một biến mới dựa trên các biến hiện có trong
bộ số liệu Ví dụ, chúng ta cần biết sự khác nhau giữa điểm chất lượng cuộc sau chấn thương với trước chấn thương ở từng đối tượng Chúng ta có thể tính được bằng tay nhưng tính cho tất cả các đối tượng sẽ tốn rất nhiều thời gian Thay vì tính bằng tay chúng ta có thể sử dụng SPSS tính toán sự khác nhau này và đưa các giá trị vào biến mới
Để dùng Menu lệnh, bạn vào Transform/Compute…
Trang 3Bạn đặt biến mới và tính toán cho biến đó, bạn có thể dùng các hàm tính toán
ở danh sách bên dưới Function và kết hợp với các toán tử
2.3 Mã hóa lại các biến:
a) Mã hoá lại một biến phân loại
Trong phiếu điều tra về cân nặng sơ sinh có các biến về trình độ học vấn, tuổi thai phụ, tuần tuổi thai, cân nặng sơ sinh, cân nặng mẹ… Trong phân tích của mình các nhà nghiên cứu không muốn có quá nhiều phân loại trình độ học vấn (5 nhóm) và họ chỉ quan tâm đến tỷ lệ sinh con nhẹ cân ở các bà mẹ có trình độ học vấn thuộc 3 nhóm: từ cấp 1 trở xuống, từ hết cấp 1 đến hết cấp 2
và trên cấp 2 Họ muốn tạo ra các biến mới mà có ít phân loại hơn Để làm được điều này họ có thể tạo nên các biến mới bằng cách gộp các phân loại hiện tại, và kết hợp một số phân loại với nhau, tạo ra một biến trình độ học vấn
hvan_gr với 3 loại, và một biến nhecan (gồm 2 nhóm là nhẹ cân và không
nhẹ cân)
Dùng menu lệnh: Transform/Recode:
*** Nếu chọn Into same variables…: mã hóa lại giá trị của một biến và
kết quả mới sẽ được lưu đè lên chính biến đó Khi đó, cửa sổ sau hiện ra, bạn chọn biến cần nhóm
Trang 4- Nhấn nút Old and New Values… để chọn giá trị nhóm, cửa sổ sau hiện ra:
- Bên phần Old Value, chọn những giá trị sẽ được phân vào một nhóm
- Sau đó nhập giá trị mới, đại diện cho cả nhóm đó vào ô Value ở phần New Value
- Nhấn nút Add và tiếp tục làm với các phân nhóm tiếp theo
*** Nếu chọn Into different variables…: nghĩa là bạn sẽ thực hiện mã
hóa một biến nhưng kết quả mã hóa được lưu vào một biến khác và giá trị «gốc » vẫn được giữ nguyên
Trang 5
- Chọn biến cần mã hóa từ danh sách các biến và kích mũi tên, ở đây chẳng
hạn chỉ biến « tuoi »
- Nhập tên biến mới vào hộp Name và nhấn nút Change
- Nhấn nút Old and New Values… để thực hiện mã hóa (phân nhóm) cho các
giá trị Quá trình này cũng được thực hiện giống như phần trên
Trang 6- Hộp Old -> New sẽ lưu danh sách các phân nhóm mà bạn vừa làm, từ danh
sách này, bạn có thể kiểm tra xem mình đã phân nhóm đúng chưa Bạn cũng
có thể sửa lại bằng cách chọn nhóm trong danh sách đó và kích vào nút
Chang, kích vào nút Remove nếu bạn muốn xóa bỏ
- Nhấn Continue để khẳng định việc mã hóa bạn vừa làm rồi ấn OK để thực
hiện
Trang 7B PHÂN TÍCH SỐ LIỆU TRÊN PHẦN MỀM SPSS
Mục tiêu:
1 Biết được cách phân tích biến định lượng
2 Biết được cách phân tích biến định tính
1 PHÂN TÍCH BIẾN ĐỊNH TÍNH
1.1 Tính tần số (n) và tỷ lệ (%)
Các bảng tần số và biểu đồ cột của tần suất và tỷ lệ mô tả phân bố các giá trị của một biến định tính (phân loại) có được qua SPSS bằng cách dùng lệnh sau:
1 Từ Menu dọc chọn: Analyse /Descriptive Statistics/Frequencies
2 Từ danh sách các biến, chọn biến hocvan (trinh độ học vấn), và nghe (nghề nghiệp) và chuyển chúng vào hộp Variable(s) bằng cách nhấp chuột lên phím
mũi tên
Click OK, SPSS sẽ cho kết quả như sau:
Trang 81.2 Lập bảng liên quan (mô tả mối liên quan 2 biến định tính)
Mô tả về nhẹ cân sơ sinh theo giới tính thai nhi
1 Từ Menu dọc chọn: Analyse/Descriptive Statistics /Crosstabs
2 Từ danh sách biến, chọn biến gtinhtre và chuyển vào hộp Row(s) bằng
3 Chọn biến nhecan và chuyển vào hộp Column(s)
4 Nhấp chuột lên nút Cells và chọn nút Row để yêu cầu đưa kết quả tỷ lệ theo
hàng (nhẹ cân theo giới tính)
Trang 95 Nhấp chuột lên Continue sau đó OK để hoàn thành lệnh
Kết quả trong SPSS có dạng:
Trang 101.3 So sánh một tỷ lệ với một tỷ lệ quẩn thể hay một tỷ lệ lý thuyết:
Giả thuyết H0: tỷ lệ sơ sinh nhẹ cân là bằng với một nghiên cứu khoa học khác
là 7%
Chúng ta sử dụng kiểm định khi bình phương một mẫu để so sánh tỷ lệ sơ sinh nhẹ cân trong nghiên cứu cân nặng sơ sinh với tỷ lệ sơ sinh nhẹ cân trong một
1 Từ thanh Menu chọn: Analyse - Nonparametric Tests - Chi-Square
Bạn sẽ có hộp thoại giống như sau:
Trang 112 Từ danh sách các biến, đánh dấu biến mà bạn muốn phân tích, trong ví dụ
này là nhecan và chuyển biến đó sang ô Test Variable List bằng cách kích
vào mũi tên
3 Bây giờ bạn phải chỉ cho SPSS biết tỷ lệ nào mà bạn mong muốn trên cơ sở giá trị quần thể mà bạn muốn sử dụng Để thực hiện điều này bạn phải đưa
giá trị vào ô Expected Values Giá trị này phải nhỏ hơn 1 Trong ví dụ này
giá trị kỳ vọng là 0.07 của tất cả các trẻ sinh ra bị nhẹ cân Cho nên, chúng
ta mong 0.93 tất cả các trẻ sinh ra không bị nhẹ cân
4 Thêm tỷ lệ này vào ô Expected Values, bạn nhập số trong ô nhỏ bên cạnh vào từ Values, sau đó kích vào Add và giá trị này sẽ được chuyển sang ô lớn
phía dưới
Trang 12Lưu ý: bạn phải nhập tỷ lệ kỳ vọng tương ứng với các giá trị theo đúng các giá trị đã được mã hóa
5 click OK để chạy số liệu
1.4 So sánh tỷ lệ của hai nhóm:
Giả thuyết H0: tỷ lệ sơ sinh nhẹ cân của trẻ gái tương đương với trẻ trai khi trẻ mới sinh ra
Chúng ta sử dụng kiểm định khi bình phương để kiểm tra giả thuyết là tỷ
lệ sơ sinh gái nhẹ cân tương đương với là tỷ lệ sơ sinh trai nhẹ cân
1 Từ thanh Menu chọn : Analyse → Descriptive Statistics → Crosstabs
Một hộp thoại sẽ hiện ra
2 Từ danh sách các biến, đánh dấu vào biến phụ thuộc mà bạn muốn phân
tích Trong ví dụ này là nhecan (<2500gram hoặc >=2500gram), và kích vào mũi tên để chuyển biến đó sang ô Column(s)
3 Từ danh sách các biến, đánh dấu vào biến độc lập mà bạn muốn phân tích,
trong ví dụ này là gtinhtre (trai hoặc gái), và kích vào mũi tên để chuyển sang
ô Row(s)
Trang 134 Để tính kiểm định Chi-square, kích vào Statistics sau đó đánh dấu vào
Chi-square
Trang 14Nếu chúng ta muốn tính chỉ số OR (giả sử trong nghiên cứu bệnh chứng), hoặc
tính chỉ số RR (trong nghiên cứu đoàn hệ) thì click và Risk Sau đó kích vào Continue
5 Nếu hiện thi tỷ lệ phần trăm tỷ lệ trẻ nhẹ cân thì kích vào Cells và một hộp thoại mới xuất hiện
Đánh dấu vào ô hàng (Row) nếu bạn chọn tỷ lệ phần trăm tính theo hàng và đánh dấu vào ô cột (Column) nếu bạn chọn tỷ lệ phần trăm tính theo cột Sau
đó kích Continue
6 Bây giờ kích OK
Trang 152 PHÂN TÍCH BIẾN ĐỊNH LƯỢNG
2.1 Mô tả giá trị cho khuynh hướng trung tâm và độ phân tán
Trước khi thực hiện thống kê mô tả cho bất kỳ định lượng nào, dù cho toàn mẫu hay cho nhóm, ta đều phải kiểm tra xem dữ liệu đó có tuân theo phân phối chuẩn (normal distribution) cho toàn mẫu hoặc cho mỗi nhóm hay không?
- Nếu biến định lượng có phân phối chuẩn, thì mô tả khuynh hướng tập trung bằng giá trị trung bình (Mean) và độ phân tán bằng độ lệch chuẩn (Standard deviation)
- Nếu biến định lượng có phân phối không chuẩn, thì mô tả khuynh hướng tập trung bằng giá trị trung vị (Median) và độ phân tán bằng giá trị nhỏ nhất (min), lớn nhất (max), hoặc bằng khoảng (range), hoặc bằng khoảng tứ vị (IQR)
*** Có 2 cách để kiểm tra một biến định lượng:
Cách 1: Vẽ hình chuông phân phối cho biến định lượng đó bằng cách vào
Graph -> Legacy Dialogs -> Histogram như hình sau:
Kết quả: Nếu như biểu đồ có dạng hình chuông úp ngược đối xứng hai bên, như
Trang 16kết quả sau, xem như có phân phối chuẩn
Cách 2: Có thể dùng kiểm định One-Sample Kolmogorov-Smirnov để kiểm định tính chuẩn của số liệu Bằng cách vào Analyze -> Nonparametric Tests -> Legacy Dialogs -> 1-Sample K-S
Trang 18Kết quả như sau:
Nếu P (Asymp Sig.) > 0,05 Biến đó có phân phối chuẩn (Ví dụ trên biến không có phân phối chuẩn)
Trong trường hợp không có phân phối chuẩn, nhưng nếu biến đó xấp xỉ có phân phối chuẩn, ta vẫn có thể mô tả và thực hiện thống kê suy luận theo qui luật của biến phân phối chuẩn Một biến được xem là xấp xỉ chuẩn nếu thõa các điều kiện sau:
- Giá trị trung bình có nằm trong +10% so với trung vị
- Giá trị trung bình +3SD xấp xỉ cực đại và cực tiểu
- Hệ số Skewness và Kurtorsis nằm trong +3?
- Biểu đồ Histogram có dạng hình chuông
Trang 192.2 Biến định lượng có phân phối chuẩn: giá trị trung bình và độ lệch chuẩn Giả định biến cnss là phân bố chuẩn, và bạn muốn sử dụng giá trị trung bình và
độ lệch chuẩn để mô tả phân bố của biến này
1 Từ Menu dọc chọn Analyse/Descriptive Statistics/Frequencies
2 Từ danh sách biến, chọn biến age (tuổi) và chuyển vào hộp Variable(s) bằng
cách nhấp chuột vào dấu mũi tên
3 Nhấp chuột lên Statistics, chọn Mean và Std deviation
Trang 202.3 Trường hợp biến định lượng không có phân phối chuẩn: Giá trị trung vị
và min/ max/ range/ khoảng tứ vị
Giả định biến tuổi không là phân bố chuẩn, và bạn cần có giá trị trung vị và một số giá trị lượng giá độ phân tán để mô tả phân bố của biến này
1 Nhấp chuột lên Statistics, chọn Median, Minimum, Maximum, và Range và Quartiles (tứ phân vị)
Nhấp chuột lên Continue/OK để hoàn thành lệnh Phần kết quả thống kê của
SPSS đưa ra như sau:
Trang 212.4 Phân tích thống kê mô tả theo các nhóm:
Ví dụ mô tả trọng lượng sơ sinh theo nhóm tuổi của mẹ
a) Mô tả bằng số
*Tính tính giá trị trung bình và độ lệch chuẩn trong từng phân nhóm
1 Từ Menu chọn: Analyse/Reports/Case Summaries
2 Từ danh sách biến, chọn biến cnss và chuyển vào hộp biến, sau đó chọn nhomtuoi và chuyển vào hộp Grouping Variable(s) bằng cách nhấp chuột lên dấu
mũi tên
3 Bỏ đánh dấu ở Display Cases – bạn không muốn điều này
4 Nhấp chuột lên nút Statistics, và bôi đen Mean và Standard Deviation, sau
đó chuyển chúng qua hộp Cell Statistics
Trang 225 Nhấp chuột lên nút Continue, sau đó là nút OK để hoàn thành lệnh
Kết quả trong SPSS có dạng như hình dưới đây
2.5 Tính giá trị trung vị trong các phân nhóm
Lặp lại bước 1 đến 3 ở trên, sau đó
4 Nhấp chuột lên nút Statistics, bôi đen Median, Minimum, Maximum, và Range, rồi chuyển vào hộp Cell Statistics
Trang 235 Nhấp chuột lên nút Continue, sau đó chọn OK để hoàn thành lệnh
Kết quả trong SPSS có dạng như dưới đây
Trang 24SO SÁNH GIÁ TRỊ TỶ LỆ
1 So sánh một tỷ lệ với một tỷ lệ quẩn thể hay một tỷ lệ lý thuyết:
Giả thuyết H0: tỷ lệ sơ sinh nhẹ cân là bằng với một nghiên cứu khoa học khác là 7%
Chúng ta sử dụng kiểm định khi bình phương một mẫu để so sánh tỷ lệ
sơ sinh nhẹ cân trong nghiên cứu cân nặng sơ sinh với tỷ lệ sơ sinh nhẹ cân trong một nghiên cứu khoa học khác, như ví dụ ở đây là 7%
B1 Từ thanh Menu chọn: Analyse - Nonparametric Tests - Square
Trang 25Chi-Bạn sẽ có hộp thoại giống như sau:
B2: Từ danh sách các biến, đánh dấu biến mà bạn muốn phân tích, trong ví dụ này là nhecan và chuyển biến đó sang ô Test Variable List bằng
cách kích vào mũi tên
B3: Bây giờ bạn phải chỉ cho SPSS biết tỷ lệ nào mà bạn mong muốn
trên cơ sở giá trị quần thể mà bạn muốn sử dụng Để thực hiện điều này bạn
phải đưa giá trị vào ô Expected Values Giá trị này phải nhỏ hơn 1 Trong ví
dụ này giá trị kỳ vọng là 0.07 của tất cả các trẻ sinh ra bị nhẹ cân Cho nên, chúng ta mong 0.93 tất cả các trẻ sinh ra không bị nhẹ cân
B4: Thêm tỷ lệ này vào ô Expected Values, bạn nhập số trong ô nhỏ bên cạnh vào từ Values, sau đó kích vào Add và giá trị này sẽ được chuyển sang ô
Trang 26Chúng ta sử dụng kiểm định khi bình phương để kiểm tra giả thuyết là
tỷ lệ sơ sinh gái nhẹ cân tương đương với là tỷ lệ sơ sinh trai nhẹ cân
B1 Từ thanh Menu chọn : Analyse → Descriptive Statistics →
Crosstabs Một hộp thoại sẽ hiện ra
B2 Từ danh sách các biến, đánh dấu vào biến phụ thuộc mà bạn muốn phân tích Trong ví dụ này là nhecan (<2500gram hoặc >=2500gram), và kích vào mũi tên để chuyển biến đó sang ô Column(s)
B3 Từ danh sách các biến, đánh dấu vào biến độc lập mà bạn muốn phân tích, trong ví dụ này là gtinhtre (trai hoặc gái), và kích vào mũi tên để
Trang 27chuyển sang ô Row(s)
B4 Để tính kiểm định Chi-square, kích vào Statistics sau đó đánh dấu vào Chi-square
Trang 28Nếu chúng ta muốn tính chỉ số OR (giả sử trong nghiên cứu bệnh
chứng), hoặc tính chỉ số RR (trong nghiên cứu đoàn hệ) thì click và Risk Sau
6 Bây giờ kích OK
Trang 29SO SÁNH GIÁ TRỊ TRUNG BÌNH
Phép kiểm T là phép kiểm được dùng nhiều nhất trong thống kê để xử
lý các biến số liên tục Trong các phần mềm thống kê thông dụng như info, SPSS, Strata chúng ta chỉ thấy phép kiểm T mà không thấy phép kiểm Z (dựa trên phân phối chuẩn) Thực ra phép kiểm hay phân phối T được suy diễn từ phân phối chuẩn, với mẫu nhỏ (n=5, 10,15 ) chúng ta chỉ cần hiệu chỉnh Z=1,96 ra T Nếu mẫu càng nhỏ (bậc tự do nhỏ), T càng lớn
Epi-1 Test T 1 mẫu (One sample T-Test)
Chúng ta sử dụng Test T 1 mẫu để so sánh giá trị trung bình của bộ số liệu với một giá trị tham khảo từ quần thể, ở đây ví dụ là 2500g
Giả thuyết H0: Cân nặng sơ sinh của trẻ bằng 2500g
THỰC HIỆN:
Vào menu: Analyze>Compare Means>One-Sample T test
Trang 30Đưa biến số cnss vào ô Test Varriables, gõ giá trị cần so sánh (2500g) vào ô
Test Value:
Kết quả Output như sau:
Phiên giải: Giá trị trung bình cân nặng sơ sinh trong mẫu nghiên cứu khác
2500g và sự khác biệt này có ý nghĩa thống kê (p<0,001)
Trang 312 Test T 2 mẫu độc lập trong SPSS (Independent – Sample T-Test
Giả thuyết H0: Cân nặng sơ sinh trung bình ở trẻ trái và trẻ gái là như nhau
Chúng ta sử dụng Test T 2 mẫu độc lập để so sánh 2 giá trị trung bình độc lập có phân phối chuẩn, ở ví dụ này, chúng ta sẽ so sánh giá trị trung bình cân nặng của trẻ trai và trẻ gái trong bộ số liệu, xem chúng có khác biệt nhau không
THỰC HIỆN:
Vào menu: Analyze>Compare Means>Independent-Samples T Test
Trang 32Phiên giải: Cân nặng sơ sinh trung bình ở trẻ trai và trẻ gái có sự khác biệt,
trung bình khác biệt là 126,368g và sự khác biệt có ý nghĩa thống kê (p<0,005)
* Lưu ý: ở kết quả này, Levene’s Test cho p=0,204 > 0,05 Đồng nhất phương sai, đọc kết quả ở dòng Equal Variances Assumed
Trang 333 Test T ghép cặp (Paired Samples T-Test)
Test T ghép cặp sử dụng để đo lường sự thay đổi của một đại lượng theo đơn vị thời gian, sự ảnh hưởng của một can thiệp, sự biến đổi của cùng một đại lượng ở 2 điều kiện khác nhau Ở ví dụ lần này là cân nặng sơ sinh của cùng 1 nhóm trẻ trước và sau 10 ngày
Giả thuyết H0: Cân nặng của trẻ 10 ngày sau sinh và cân nặng lúc mới sinh không có sự khác biệt
THỰC HIỆN:
Analyze>Compare Means>Paired-Samples T Test