Phân tích crosstabs này rất hữu ích trong việc xác định mối quan hệ, số lượng biến quan sát giữa các biến định tính, hoặc định lượng với nhau.. Không có mối quan hệ giữa các biến cần k
Trang 1Ôn Tập Thống Kê Y Học
I Independent Samples Test:
Là một thử nghiệm thống kê kiểm định xem có sự khác biệt có ý nghĩa thống kê giữa các phương tiện trong hai nhóm thống kê không liên quan hay không Ví
dụ, ta có 2 nhóm giá trị là nhóm độ tuổi (dưới 30 tuổi; trên 30 tuổi) và biến mức
độ hài lòng Để biết được giữa hai nhóm này, nhóm nào có mức độ hài lòng cao hơn ta sẽ dùng phương pháp kiểm định Independent Samples T-Test.
Analyze Compare Means Independent-samples T-test
Cách phân tích kiểm định Levene:
Nếu giá trị Sig trong kiểm định Levene (kiểm định F) < 0.05 thì phương sai của 2 tổng thể khác nhau, ta sử dụng kết quả kiểm định t ở dòng Equal variances not assumed.
Nếu Sig ≥ 0.05 thì phương sai của 2 tổng thể không khác nhau, ta sử dụng kết quả kiểm định t ở dòng Equal variances assumed.
Trong ví dụ trên Sig của kiểm định F = 0.494 > 0.05 nên chấp nhận giả thuyết H0: không có
sự khác nhau về phương sai của 2 tổng thể nên sử dụng kết quả ở dòng Equal variances assumed.
Cách phân tích Independent-samples T-test:
Nếu Sig của kiểm định t ≤ α (mức ý nghĩa) có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể Mức ý nghĩa thông thường là 0.05 nhé.
Nếu Sig > α (mức ý nghĩa) không có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể.
Trong ví dụ trên sig = 0.291 > 0.05 nên kết luận không có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể Nói cách khác, giữa hai nhóm tuổi khác nhau thì chưa có bằng chứng cho
thấy có sự khác nhau về sự hài lòng Cụ thể bằng mắt thường nhìn vào cột Mean trong
bảng Group statistic ở trên Ta thấy trung bình giá trị Hài Lòng của nhóm bé hơn 30 tuổi là 3.3434, của nhóm lớn hơn 30 tuổi là 3.2302 Và thực sự hai giá trị này không chênh lệnh nhau
mấy, nên không có sự khác biệt là điều dễ hiểu.
Trang 2II One-Sample T-Test:
Dùng để so sánh giá trị trung bình của một tổng thể với một giá trị cụ thể nào
đó Chẳng hạn như kiểm tra xem chiều cao trung bình của đội tuyển bóng đá nam U22 Việt Nam là cao hơn, thấp hơn hay bằng với mức 1,8 mét; Điểm trung bình môn Triết học của sinh viên trong lớp là cao hơn, thấp hơn hay bằng 7 điểm…
Analyze > Compare Means > One-Sample T Test.
Ho: 66,5 = Chiều cao trung bình ("chiều cao trung bình của người trưởng thành bằng 66,5 inch) H1: 66,5 ≠ Chiều cao trung bình ("chiều cao trung bình của người trưởng thành không bằng
66,5inch)
• Trung bình biến T1 là 68.032
• Độ lệch chuẩn là 5.326
• Giả thiết không "Test Value = 66,5"
• Giá trị t = 5.810.
• Khoảng tin cậy cho độ chênh lệch giữa trung bình tổng thể của Height và 66,5 là 1,0135 ; 2.0501.
• Giá trị p-value (Sig (2-tailed)) là 0.000 < 5%
Trang 3=> Bác bỏ giả thiết Ho ở mức ý nghĩa 5% và chấp nhận giả thiết H1
Kết luận: Vì p <0,001, chúng tôi bác bỏ giả thuyết không rằng giá trị trung bình của
mẫu bằng với trung bình dân số giả thuyết và kết luận rằng chiều cao trung bình của mẫu khác biệt đáng kể so với chiều cao trung bình của tổng thể người trưởng thành (cao hơn khoảng 1,5 inch so với trung bình dân số trưởng thành).
III Paired Sample T-Test:
Phương pháp paired samples t-test được sử dụng cho mục đích so sánh sự biến đổi từng cặp giá trị trước khi và sau khi có một tác động gì đó (so sánh xem trước và sau có sự khác biệt hay không) Một ví dụ minh họa cho kiểm định này là: Một công ty áp dụng mức KPI (chỉ số đo lường và đánh giá hiệu quả hoạt động) cho một bộ phận trong công ty để thử nghiệm sự khác biệt mức độ hài lòng của nhân viên giữa chính sách mới và chính sách cũ.
Analyze > Compare Means > Paired Samples T-Test.
Ho: “Trung bình tổng thể của Tính thời sự cập nhật và tính xác thực thông tin là như
nhau”.
Trang 4Ta có Sig (2-tailed) = 0.668 > α = 0.05 => chấp nhận giả thuyết Ho, tức là Trung bình tổng thể của Tính thời sự cập nhật và tính xác thực thông tin là như nhau.
Trang 5IV Kiểm định Chi – bình phương (Chi-square).
V Phân tích crosstabs này rất hữu ích trong việc xác định mối quan hệ, số lượng
biến quan sát giữa các biến định tính, hoặc định lượng với nhau.
VI Analyze -> Descriptive Statistics -> Crosstabs…
VII Chi-Square Tests
df
XII.
XIII Asymp Sig (2-sided)
Chi-Square
7 a
XVI
8
XVII .039
XVIII Likelihood Ratio XIX 18.70
8
XX
XXII Linear-by-Linear
XXVI N of Valid Cases XXVII 511 XXVIII
XXIX
XXX a 8 cells (44.4%) have expected count less than 5 The minimum expected count is 1.69.
XXXI H0: không có mối quan hệ giữa các biến.
XXXII H1: có mối quan hệ giữa các biến.
XXXIII Để kết luận là chấp nhận hay bác bỏ giả thuyết H0, ta sẽ dùng các kiểm định
phù hợp.
XXXIV Dựa vào giá trị P (p-value) (SPSS viết tắt p-value là sig.) để kết luận là chấp
nhận hay bác bỏ giả thuyết H0
XXXV p-value (sig.) ≤ α (mức ý nghĩa) là bác bỏ giả thuyết H0 Có nghĩa là có mối
quan hệ có ý nghĩa giữa các biến cần kiểm định.
XXXVI p-value (sig.) > α (mức ý nghĩa) à chấp nhận H0 Không có mối quan hệ giữa
các biến cần kiểm định.
XXXVII Mức ý nghĩa thông dụng nhất là 5% hay là 0.05
XXXVIII.Hàng đầu tiên của bảng Chi-square tests thể hiện giá trị P, ở đây là 0.039 Giá
XXXIX Cuối bảng Chi-Square tests SPSS sẽ đưa ra dòng thông báo cho biết % số ô có
tần suất mong đợi dưới 5 Kiểm định Chi-bình phương chỉ có ý nghĩa khi số quan sát đủ lớn, nếu có quá 20% số ô trong bảng chéo có tần số lý thuyết nhỏ hơn 5 thì giá trị chi-bình phương không còn đáng tin cậy.
Trang 6XL Trong ví dụ trên có đến 44.4% số ô có tần số mong đợi dưới 5, biện pháp cho
trường hợp này là ta sẽ gom các biểu hiện trên các biến lại để tăng số quan sát trong mỗi nhóm.
Trang 7XLI Phân tích tương quan:
XLII Kiểm định hệ số tương quan Pearson dùng để kiểm tra mối liên hệ tuyến tính giữa
các biến.
XLIII Analyze-> Correlate -> Bivariate
XLIV Tương quan Pearson có giá trị từ [-1;1] (r chỉ có ý nghĩa khi sig < 5%)
• Nếu r tiến về [-1;1] tương quan tuyến tính càng mạnh.
• Nếu r tiến về 0 tương quan tuyến tính càng yếu.
• Nếu r = 1 tương quan tuyến tính tuyệt đối.
XLV Đồ thị Scatter các điểm sẽ nhập thành một đường thẳng.
• Nếu r = 0 không có mối tương quan tuyến tính.
(1) Không có mối liên hệ giữa hai biến số.
(2) Chúng có mối quan hệ phi tuyến.
XLVI.
XLVII.
XLVIII Ô xanh: hệ số tương quan
XLIX Ô đỏ: significant của kiểm định
Pearson Giả thuyết Ho: hệ số tương quan = 0.
• Nếu sig < 5% 2 biến số tương quan nhau.
• Nếu sig > 5% 2 biến số không tương quan nhau.
• Hệ số tương quan càng lớn, tương quan càng chặt.
L.
LI.
LII.
LIII.
LIV.
LV Khi sig < 0.05 thì chỗ hệ số tương quan Pearson, ta thấy * hoặc **:
• ** cho biết cặp biến này có sự tương quan tuyến tính ở mức độ tin cậy đến 99% (tương ứng mức ý nghĩa 1%)
• * cho biết cặp biến này có sự tương quan tuyến tính ở mức độ tin cậy đến 95%
(tương ứng mức ý nghĩa 5%)
LVI.
LVII.
LVIII
LIX
Trang 8LXI LXII LXIII
LXIV LXV
Trang 9LXVI Biến định tính nhiều giá trị khác với biến định danh:
A Có thể sắp xếp theo chiều tăng/giảm dần các giá trị của biến
B Giá trị của biến là số nguyên
C Giá trị của biến không phải là con số cân, đo, đong, đếm
D Không thể sắp xếp theo chiều tăng/giảm dần các giá trị của biến
LXVII A
LXVIII Chọn phát biểu đúng:
A Biến định lượng có thể chuyển thành biến định tính
B Biến định tính có thể chuyển thành biến định lượng
C Không thể chuyển đổi qua lại giữa biến định tính và biến định lượng
D Chỉ có biến định lượng liên tục chuyển thành biến định tính
LXIX A
A Chỉ có biến định lượng liên tục mới có tất cả các tính chất của biến định tính
B Biến định tính có tất cả các tính chất của biến định lượng
C Biến định tính có mức độ đo lường cao hơn biến định lượng
D Biến định lượng có tất cả các tính chất của biến định tính
LXXI D
LXXII Mức độ đo lường của các biến theo thứ tự tăng dần:
A ĐT định danh, ĐT thứ tự, ĐL khác biệt, ĐL tỷ số
B ĐT định danh, ĐL khác biệt, ĐL tỷ số, ĐT thứ tự
C ĐT thứ tự, ĐL khác biệt, ĐT định danh, ĐL tỷ số
D ĐT thứ tự, ĐT định danh, ĐL khác biệt, ĐL tỷ số
LXXIII A
LXXIV Khi nạp dữ liệu vào máy tính, chúng ta phải mã hóa cho biến:
A Định lượng
B Định tính
C A, B đúng
D A, B sai
LXXV B
LXXVI Ghi nhận tình trạng cân nặng gồm: trẻ nhẹ cân (<2500g), bình thường (>=2500g), biến tình trạng
cân nặng là:
A BIến định lượng rời rạc
B Biến nhị phân (nhị giá)
C Biến định lượng liên tục
D Tất cả sai
LXXVII B
LXXVIII Biến nào sau đây là biến định lượng rời rạc:
A Chiều cao
B Cân nặng
C Nhóm máu
D, Số con trong một gia đình
LXXIX D
LXXX Biến nào sau đây là biến định danh:
A Chiều cao
B Tuổi
Trang 10C Dân tộc
D Phân loại (già, trẻ)
LXXXI C
LXXXII Biến nào sau đây không phải biến định tính:
A Tuổi
B Giới tính
C Tình trạng hôn nhân
D Tình trạng cân nặng của trẻ
LXXXIII A
LXXXIV Biến nào sau đây là biến định tính:
A Đường huyết
B Chiều cao
C Giảm huyết áp sau điều trị hạ áp
D Mức độ nghiêm trọng của máu do khó đông (nhẹ, vừa, nặng)
LXXXV D
LXXXVI Đại lượng nào sau đây không dùng đo mức độ tập trung của số liệu:
A Trung bình
B Trung vị
C Yếu vị
D Biên độ
LXXXVIII Đại lượng sau đây không dùng đo mức độ phân tán của số liệu:
A Phương sai
B Trung vị
C Độ lệch chuẩn
D Biên độ
LXXXIX B
XC Các đại lượng nào sau đây được dùng để báo cáo khi số liệu phân bố chuẩn:
A Trung bình, độ lệch chuẩn
B Trung vị, tứ phân vị
C Yếu vị, biên độ
D Trung vị, biên độ
XCI A
XCII Các đại lượng nào sau đây được dùng để báo cáo khi số liệu không phân bố chuẩn:
A Trung bình, độ lệch chuẩn
B Trung vị, độ lệch chuẩn
C Nốt, biên độ
D Trung vị, khoảng tứ phân vị
XCIII D
XCIV Chọn phát biểu đúng nhất về độ lệch chuẩn:
A Độ lệch chuẩn càng lớn thì sự phân tán càng tăng
B Độ lệch chuẩn bằng 0 khi không có sự phân tán
C Độ lệch chuẩn bằng căn bậc 2 của phương sai
D Tất cả đều đúng
XCV D
Trang 11XCVI Trung bình, trung vị, yếu vị của dãy số 8, 7, 9, 12, 14, 10, 14, 11, 15, 14 lần lượt là:
A 11,5 , 11,5 , 14
B 10 , 5 , 14
C 11,2 , 12 , 14
D 10 , 12 , 14
XCVII A
XCVIII Khi có các biến định tính và chỉ đơn giản là đếm tần số xuất hiện của mỗi giá trị Giá trị đo xu
hướng tập trung là:
A Trung bình
B Trung vị
C Yếu vị
D Biên độ
XCIX C
C Cho dãy số 7, 8, 9, 10, 11, 12, 13, 14, 14 Bách phân vị thứ 25 (Q1), 75 (Q3) và khoảng tứ phân vị là:
A 8,5, 13,5, 5
B 8 , 13 , 5
C 8 , 14 , 6
D 7,5 , 14,5 , 7
CI A
CII Khi số liệu có phân bố chuẩn, tỷ lệ các giá trị quan sát nằm trong 2 lần độ lệch chuẩn của giá trị trung
bình (x gạch ± 2ơ) gần với:
A 34%
B 68%
C 95%
D 99,7%
CIII C
CIV Một nghiên cứu với cân nặng trên 586 trẻ sơ sinh cho thấy cân nặng trung bình là 3,116kg và độ lệch
chuẩn 0,277kg Khoảng giới hạn sinh lý bình thường gần với khoảng giá trị:
A (3,091 , 3,144)
B (2,573 , 3,659)
C (3,116 , 3,656)
D Một kết quả khác
CV B
CVI Khi kiểm tra 400 người dân tỉnh X, phát hiện 40 người đau mắt hột, khoảng tin cậy 95% cho tỉ lệ người
đau mắt hột của tỉnh X với khoảng giá trị:
A (4% , 6%)
B (7,54% , 12,46%)
C, (7,06% , 12,94%)
D (8,5% , 11,5%)
CVII C
CVIII Đại lượng nào sau đây không dùng để đo mức độ tập trung của số liệu:
A Trung bình (mean)
B Trung vị (median)
C Mốt (mode)
D Biên độ (range)
CIX D
Trang 12CX Đại lượng nào sau đây không dùng để đo mức độ phân tán của số liệu:
A Phương sai (variance)
B Trung vị (median)
C Độ lệch chuẩn (standard deviation)
D Biên độ (range)
CXI B
CXII Các đại lượng nào sau đây được dùng để báo cáo khi số liệu có phân bố chuẩn:
A Trung bình (mean), độ lệch chuẩn (standard deviation)
B Trung vị (median), tứ phân vị (quartiles)
C Mốt (mode), biên độ (range)
D Trung vị (median), biên độ (range)
CXIII A
CXIV Các đại lượng nào sau đây được dùng để báo cáo khi số liệu không có phân bố chuẩn:
A Trung bình (mean), độ lệch chuẩn (standard deviation)
B Trung vị (median), độ lệch chuẩn (standard deviation)
C Mốt (mode), biên độ (range)
D Trung vị (median), biên độ (range)
CXV D
CXVI Trung bình, trung vị và mốt của dãy số: 8, 7, 9, 12, 14, 10, 14, 11, 13, 14 lần lượt là:
A 11,2 , 11,5 , 14
B 10 , 5 , 14
C 11,2 , 12 , 14
D 10 , 12 , 14
CXVII A
CXVIII Khi có các biến định tính và chỉ đơn giản là đếm tần số, xuất hiện của mỗi giá trị Giá trị đo xu
hướng tập trung là:
A Trung bình
B Trung vị
C Mốt
D Biên độ
CXIX C
CXX Để giải thích mối quan hệ giữa một biến định tính có 2 giá trị và một biến định tính khác có 3 giá
trị, ta tạo bảng:
A Bảng 2x2
B Bảng 3x2
C Bảng 2x2
D A & B đúng
CXXI D
CXXII Để giải thích mối liên hệ giữa 2 biến định tính, ta tạo một bảng 2 chiều với tỷ lệ được tính theo dòng
hoặc theo cột:
A Nếu tỉ lệ được tính theo dòng thì sự so sánh được thể hiện theo cột
B Nếu tỉ lệ được tính theo cột thì sự so sánh được thể hiện theo dòng
C A & B sai
D A & B đúng
CXXIII D
Trang 13CXXIV Chọn phát biểu đúng về biểu đồ hình cột:
A Gồm nhiều cột rời nhau, chiều cao của mỗi cột là tần số hoặc tỉ lệ
B Thể hiện phân phối của biến định tính
C Thể hiện phân phối của biến định lượng
D A & B đúng
CXXV D
CXXVI Chọn phát biểu đúng về biểu đồ hình quạt:
A Các thành phần thể hiện tỉ lệ
B Thể hiện phân phối của biến định tính
C Thể hiện phân phối của biến định lượng
D A & B đúng
CXXVII D
CXXVIII Biểu đồ nào dùng để diễn tả phân phối chiều cao của các đối tượng trong nghiên cứu :
A Hình cột
B Hình quạt
C Histogram
D Tất cả đều đúng
CXXIX C
CXXX Một là một tập con của
A Mẫu, quần thể
B Thống kê, tham số
C Quần thể, mẫu
D Tham số, thống kê
CXXXI A
CXXXII Sai số chuẩn là :
A Căn bậc 2 của trung bình
B Bình phương của độ lệch chuẩn
C Độ lệch chuẩn chia cho trung bình
D Độ lệch chuẩn chia cho căn bậc 2 của cỡ mẫu
CXXXIII D
CXXXIV Một mẫu 9 trẻ sơ sinh được chọn ngẫu nhiên Tính được trung bình cân nặng là 3,2kg và độ lệch chuẩn
là 0,28kg Sai số chuẩn là:
A 0,183
B 0,215
C 0,093
D 1,96
CXXXV C
CXXXVI.Với cỡ mẫu của của 9 và sai số chuẩn là 5,2 thì độ lệch chuẩn là:
A 46,8
B 15,6
C 0,556
D 46,8
CXXXVIII Một nghiên cứu về cân nặng trên 463 trẻ sơ sinh cho thấy cân nặng trung bình là
3,116kg và độ lệch chuẩn là 0,277kg Khoảng tin cậy 95% cho giá trị trung bình tổng thể gần với khoảng giá trị:
Trang 14A (3,091 , 3,141)
B (2,573 , 3,659)
C (3,116 , 3,659)
D Một kết quả khác
CXXXIX A
CXL Khi kiểm tra 400 người dân tỉnh X, phát hiện 40 người đau mắt hột Khoảng tin cậy 95% cho tỷ lệ người
đau mắt hột của tỉnh X gần với khoảng giá trị:
A (4%, 6%)
B (7,54%, 12,46%)
C (7,06%, 12,94%)
D (8,5%, 11,5%)
CXLI C
CXLII Nếu giới hạn khoảng tin cậy 95% của giá trị trung bình từ 10,5 đến 13, chúng ta kết luận rằng, nếu lặp
lại nghiên cứu 100 lần thì:
A Kết quả sẽ có 5 lần ý nghĩa thống kê
B Khoảng 95% số lần, trung bình tổng thể sẽ nằm trong khoẳng từ 10,5 đến 13 và khoảng 5% số lần nằm ngoài khoảng này
C Kết quả sẽ có 95 lần ý nghĩa thống kê
D 5% số lần, trung bình tổng thể sẽ nằm trong khoảng từ 10,5 đến 13 và 95% số lần nằm ngoài khoảng này
CXLIII B
CXLIV "Giới hạn của khoảng tin cậy 95% tỷ lệ mắc bệnh H từ 56% đến 72%" có nghĩa là:
A Xác suất 95% tỷ lệ mắc bệnh H của quần thể dao động từ 56% đến 72%
B Nếu lặp lại nghiên cứu 100 lần, có khoảng 95% số lần tỷ lệ mắc bệnh H của quần thể dao động từ 56% đến 72% và 5% số lần nằm ngoài khoảng này
C A & B đúng
D Một kết quả khác
CXLV `C
CXLVI Khoảng tin cậy càng hẹp khi
A Cỡ mẫu càng lớn
B Cỡ mẫu càng nhỏ
C Độ tin cậy không đổi
D Tất cả đều sai
CXLVII A
CXLVIII Mối quan hệ giữa cỡ mẫu và sai số chọn mẫu là gì ?
A Cỡ mẫu càng lớn thì sai số chọn mẫu càng lớn
B Cỡ mẫu càng lớn thì sai số chọn mẫu càng nhỏ
C Cỡ mẫu bằng sai số chọn mẫu
D Tất cả đều sai
CXLIX B
A Khoảng tin cậy sẽ hẹp đi
B Khoảng tin cậy sẽ không đổi
C Khoảng tin cậy sẽ rộng hơn
D Cỡ mẫu tăng
CLI C