Xác định mối liên quan giữa các biến Bộ số liệu... THỰC HÀNHTìm mối tương quan giữa các biến • Mối liên quan giữa biến liên tục với biến liên tục... Mối liên quan giữa biến phân loại với
Trang 1THỐNG KÊ Y TẾ
Trang 2ĐỂ PHÂN TÍCH ĐƯỢC MỘT BỘ SỐ LIỆU
BẠN PHẢI HIỂU ĐƯỢC THIẾT KẾ
NGHIÊN CỨU ĐÓ
Trang 3PHẦN MỀM THỐNG KÊ
Trang 7GIỚI THIỆU
Trang 10Số liệu & Dữ liệu
Trang 11KIỂU DỮ LIỆU TRONG EPIDATA
Trang 12Kiểu ID number
Là kiểu dữ liệu số tự động, có các đặc điểm:
Chuỗi định dạng là <IDNUM>
Giá trị số liệu của trường sẽ được tự động nhập
Sử dụng để khai báo cho trường khóa.
Khai báo trường mã số phỏng vấn có tên trường là IDX, kiểu số tự động, có nhãn là
“So thu tu phong van”
Viết như sau:
IDX So thu tu phong van <IDNUM>
Trang 13V1 “Tong thu nhap” ########
V1 Tong thu nhap ########.##
Trang 14Kiểu Text
Chuỗi định dạng là sử dụng ký tự “_” hoặc <E >
Chuỗi văn bản nhập vào có thể gồm các ký tự a, b, c,
V3 “Mat khau” <E > (7ký tự = “<E >”)
V2’ Ho ten <A> hay<A >
Trang 15Kiểu Boolean
Ví dụ:
Khai báo biến giới tính có tên là V4, trong đó, giá trị Y thể hiện giới tính là nữ và N thể hiện giới tính là nam,
ta viết như sau:
V4 Gioi tinh <Y>
Trang 16Kiểu Date
Chuỗi định dạng là <dd/mm/yyyy>, hoặc
<mm/dd/yyyy>, hoặc <yyyy/mm/dd>
Ví dụ:
Khai báo biến ngày sinh tên là V5 viết như sau:
V5 Ngay sinh <dd/mm/yyyy>
Trang 17Kiểu soundex
Chuỗi định dạng là <S >
Trường số liệu kiểu Soundex chấp nhận tất cả các kí
tự Trừ kí tự đầu tiên, các kí tự còn lại sẽ được tự động mã hóa.
Khuôn dạng của chuỗi mã hóa là A-999, tức là chuỗi
mã hóa gồm một kí tự đầu và tiếp theo là dấu “-“ và
ba chữ số Khi chuỗi nhập vào là HOLMES, chữ H
được giữ lại và chuỗi “OLMES” được mã hóa thành
452 và ta có chuỗi sau mã hóa là H-452.
Ví dụ:
Khai báo biến tên tỉnh có tên biến là V7, viết như sau:
V7 Ten tinh <S >
Trang 21KHAI BÁO BỘ CÂU HỎI VÀ HẠN CHẾ
LỖI SỐ LIỆU
Trang 22KHAI BÁO SỐ LIỆU
THIẾT LẬP RÀNG BUỘC
Trang 23KHAI BÁO SỐ LIỆU
Trang 29THIẾT LẬP RÀNG BUỘC
Trang 34NHẬP DỮ LIỆU
Trang 35GHÉP VÀ CHUYỂN ĐỊNH DẠNG TỆP
Trang 38Làm thế nào để chuyển định dạng tệp
Trang 39Thực hành
file 1 file 2 file 3 file 4
file 6 file Lớp
Trang 40PHÂN TÍCH TK
MÔ TẢ
PHÂN TÍCH SỐ LIỆU
LÀM SẠCH SỐ LIỆU NHẬP SỐ LIỆU
PHÂN TÍCH TK SUY LUẬN
Trang 42LÀM SẠCH SỐ LIỆU
Trang 43CÓ 3 LỖI CHÍNH
LỖI VỀ MÃ
SỐ LIỆU LỖI NHẬP SỐ LIỆU
LỖI VỀ TÍNH NHẤT QUÁN CỦA
SỐ LIỆU
Trang 47PHÂN TÍCH TK
MÔ TẢ
PHÂN TÍCH SỐ LIỆU
PHÂN TÍCH TK SUY LUẬN
Trang 48PHÂN TÍCH SỐ LIỆU
Trả lời câu hỏi nghiên cứu
Giải quyết mục tiêu nghiên cứu
ĐỂ PHÂN TÍCH ĐƯỢC MỘT BỘ SỐ LIỆU BẠN PHẢI HIỂU ĐƯỢC THIẾT KẾ NGHIÊN CỨU ĐÓ
Trang 49PHÂN TÍCH THỐNG KÊ
MÔ TẢ
Trang 50KẾ HOẠCH PHÂN TÍCH THỐNG KÊ MÔ TẢ
1 Xác định từng loại biến
2 Hình thành câu hỏi dùng để phân tích TK mô tả
3 Tính tần số, tỷ lệ và biểu đồ cột cho các biến định tính
4 Kiểm tra tính phân PHỐI chuẩn của biến liên tục
5 Nếu biến phân phối chuẩn thì tính Mean, SD và biểu đồ
Box- and- Whisker
6 Nếu biến không là phân phối chuẩn thì tính Median,
Max, Min, Range và biểu đồ Box- and- Whisker
7 Xác định mối liên quan giữa các biến
Bộ số liệu
Trang 51Phân phối chuẩn (Normal Distribution)
Trang 52• Tính Median và Độ phân tán thống kê
• Vẽ biểu đồ BOX- AND- WHISKER
Trang 53Biểu đồ BOX- AND- WHISKER
• Hình ảnh rõ ràng về phân bố biến định lượng
• Mức độ tập trung của mẫu
• Xác định được vị trí của trung vị (50%), 2 tứ phân vị (25% và 75%), 2 tứ bát vị (12,5% và 87,5%)
• So sánh phân bố của nhiều biến hoặc nhiều biến trên nhiều nhóm quan sát.
Trang 55238 544
N =
nu nam
Trang 56782 782
THCS THPT THCS THCS
782 782
N =
c3a so thanh vien tr NHOM TUOI
8 7 6 5 4 3 2 1 0
33 109
576 61 354
Trang 572 22 472 107
23 130 142
434 441 585
14 471 436
8 578 586 455
78 347 1 616
Trang 58320 2
82 43
103
33 123
329 354
400
575 61
759
Trang 59THỰC HÀNH
Tìm mối tương quan giữa các biến
• Mối liên quan giữa biến liên tục với biến liên tục
Trang 60Mối liên quan giữa biến phân loại với biến phân loại
Giá trị p Giá trị
X 2
Trang 61Mối liên quan giữa biến liên tục với biến phân loại
Trang 62Mối liên quan giữa biến liên tục với biến phân loại
74 110
109 489
N =
c2 nghe nghiep:
khac cong nhan
CB,CC nong dan
142
Trang 63Mối liên quan giữa biến liên tục với biến liên tục
• Mối liên quan giữa 2 biến liên tục biễu diễn dưới dạng số hay biểu đồ chấm
• Nếu 2 biến đều là phân phối chuẩn thì dùng hệ số tương quan Pearson
• Nếu không phải phân phối chuẩn thì dùng hệ số tương quan Spearman hoặc dùng cho biến định tính có thứ tự
Trang 64Mối liên quan giữa biến liên tục với biến liên tục
Trang 65Mối liên quan giữa biến liên tục với biến liên tục
Trang 66Mối liên quan giữa biến liên tục với biến liên tục
Trang 67Mối liên quan giữa biến liên tục với biến liên tục
Trang 68Mối liên quan giữa biến liên tục với biến liên tục
Trang 69PHÂN TÍCH THỐNG KÊ SUY LUẬN
Trang 70 So sánh giữa các biến
Kiểm định giả thuyết thống kê (test t, test X2 )
Trang 71KẾ HOẠCH PHÂN TÍCH THỐNG KÊ SUY LUẬN
giữa các biến
kê hiệu quả cho nghiên cứu
Bộ số liệu
Trang 73THỰC HÀNH
1 So sánh 1 giá trị trung bình với một giá trị lý
thuyết hay quần thể
2 So sánh giá trị trung bình của 2 nhóm
3 So sánh giá trị trung bình nhiều hơn 2 nhóm
4 So sánh đo lường lặp lại trên cung một đơn vị-
Trang 753 Không nhóm- 2 biến là biến liên tục nhưng
không phân phối chuẩn
Trang 76Suy luận thống kê
1
Là một quá trình rút ra kết
luận về một quần thể dựa
trên những thông tin của
điểm và khoảng
2
Bản chất của suy luận thống kê là việc ước tính các tham số quần thể (parameters)
Trang 77Quần thể
Mẫu
Xác suất
Toàn bộ những cá nhân cần nghiên
Trang 79Mục đích của thống kê suy
luận
Thống kê suy luận có thể
cho biết kết quả nghiên cứu thu được chỉ là do ngẫu nhiên hay không
Trang 80Sự khác biệt chỉ là ngẫu nhiên?
Trang 81Thống kê suy luận
Kết quả quan sát chỉ là do ngẫu nhiên?
Những nguyên nhân ngẫu nhiên:
Những giao động của sự ngẫu nhiênNhững nguyên nhân không ngẫu nhiên:
Những khác biệt thực sự trong quần thể Sai lệch trong thiết kế nghiên cứu
Thống kê
suy luận
phân biệt
Một kết quả có ý nghĩa thống kê không có nghĩa là kết quả đó phải
là “thật”, mà chỉ nói rằng kết quả đó không phải là ngẫu nhiên.
Trang 82Kiểm định giả thuyết
• Là một phương pháp thống kê suy luận
• Để xác định yếu tố ngẫu nhiên có giải thích cho kết quả quan sát hay không
• Là quy trình ra quyết định có cơ sở về tính xác thực của sự khác biệt (ảnh hưởng)
Trang 83trước khi phân tích
Tôi giả định điểm dịch tễ trung bình của sinh viên YTCC là 8,0!
Trang 85Giả thuyết nghiên cứu, H1
• Đối lập với giả thuyết gốc (đối thuyết)
– Ví dụ: Số con trung bình trong một gia đình người Việt Nam khác 3
• Mâu thuẫn với hiện trạng
• Không bao giờ có dấu“=”
• Có thể hoặc không thể chấp nhận
• Là giả thuyết mà nhà nghiên cứu tin là đúng và muốn chứng minh.
Trang 86Mức ý nghĩa
• Là xác suất thu được kết quả lớn bằng hoặc lớn hơn kết quả quan sát nếu giả thuyết Ho đúng
• Không phải là xác suất của giả thuyết Ho
• Ví dụ: p=0,05 là xác suất thu được sự khác biệt giữa đại lượng thống kê và tham số quần thể được xác định bởi giả thuyết Ho bằng hoặc lớn hơn so với kết quả quan sát
Trang 87Mức ý nghĩa
• Là giá trị ngưỡng của kiểm định
• Xác định những giá trị không thể (hiếm) của một đại lượng thống kê nếu giả thuyết Ho đúng – còn gọi là miền bác bỏ của phân bố mẫu
– Những giá trị phổ biến là 0.01, 0.05, 0.10
• Được nhà nghiên cứu chọn khi bắt đầu cuộc điều tra
Trang 88Miền bác bỏ
Trang 89Các loại sai lầm của kiểm định
Xuất hiện khi ra quyết định dựa trên xác suất
• Sai lầm loại I
– Bác bỏ giả thuyết Ho đúng
– Có hậu quả rất nghiêm trọng
– Xác suất của sai lầm loại I là
• Còn gọi là mức ý nghĩa
• Được xác định bởi nhà nghiên cứu
• Sai lầm loại II
– Không bác bỏ giả thuyết Ho sai
– Xác suất của sai lầm loại II là , phụ thuộc vào mức độ khác biệt thực sự trong quần thể
Trang 90• Xác suất không mắc sai lầm loại I:
– (1-)
– gọi là mức tin cậy
• Xác suất không mắc sai lầm loại II:
Trang 92Sai lầm loại I & loại II có mối quan hệ nghịch
Nếu bạn giảm xác suất của một sai số, thì xác suất của sai số kia sẽ tăng lên để mọi thứ không thay đổi.
Trang 93Các yếu tố ảnh hưởng tới sai lầm loại II
• Giá trị thực của tham số quần thể
tăng khi sự khác biệt giữa tham số giả
thuyết và giá trị thực của nó giảm
Trang 94Lựa chọn giữa sai lầm loại I và loại II
• Phụ thuộc vào hậu quả của các sai lầm
• Chọn sai lầm loại I nhỏ hơn khi hậu quả của việc bác bỏ giả thuyết Ho lớn
• Chọn sai lầm loại I lớn hơn khi bạn
mong muốn thay đổi hiện trạng
Trang 95Hai phía
Miền
Trang 96Phía trái
Miền bác bỏ
Trang 97Phía phải
Miền bác bỏ
Trang 98So sánh giá trị ngưỡng với giá trị thống kê kiểm định
Phía phải Phía trái
Hai phía
Trang 99Các bước kiểm định giả thuyết
• Bước 1: Mô tả bộ số liệu
– phương pháp thống kê mô tả: loại biến, đại
lượng thống kê tóm tắt – để xác định loại kiểm định thích hợp
• Bước 2: Đặt giả định
– tuỳ theo từng loại kiểm định
– tuỳ theo câu hỏi nghiên cứu
Trang 100Ba cách đặt giả thuyết
0 là giá trị giả định của trung bình quần thể
Trang 101Các bước kiểm định giả thuyết
• Bước 4: Phân bố xác suất của giá trị thống kê kiểm định
– Mỗi loại kiểm định tương ứng với một loại phân bố xác suất (phân bố mẫu)
– Chọn kiểm định thống kê tuỳ thuộc bản
Trang 102• Bước 6: Tính toán cụ thể
– Giá trị kiểm định = (đại lượng thống kê - tham số giả
thuyết) / sai số của đại lượng thống kê
– Tìm giá trị P bằng cách tra bảng hoặc phần mềm TK
Trang 103Kiểm định giả thuyết cho một trung bình
• Khi muốn so sánh trung bình mẫu với một trung bình giả thuyết
– từ số liệu thống kê quốc gia
– từ một nghiên cứu khác
• Hai trường hợp kiểm định:
– biết độ lệch chuẩn của quần thể
– không biết độ lệch chuẩn của quần thể
Trang 104Kiểm định giả thuyết cho một trung bình,
đã biết
• Ví dụ: điểm trung bình về mức độ lo âu của trẻ em 10 tuổi là 7, độ lệch chuẩn là 2 Một nhà nghiên cứu muốn tìm hiểu những trẻ em cùng độ tuổi, có cha/mẹ nghiện rượu có điểm trung bình lo âu khác với 7 không.
Nhà nghiên cứu chọn ngẫu nhiên một nhóm 16 trẻ 10 tuổi
có cha/mẹ nghiện rượu và tính được điểm lo âu trung bình là 8,1
Trang 106• Bước 6: Tính toán cụ thể
– Giá trị p (tra bảng) = 0,028
– Vì p < , bác bỏ Ho, chấp nhận H1
2 ,
2 16
2
1 , 8 7
n
x
x z
Trang 107• Bước 7: Kết luận về kiểm định
– vì giá trị p (0,028) nhỏ hơn (0,05), nên sự khác biệt giữa điểm trung bình lo âu giữa trẻ em 10 tuổi có cha/mẹ nghiện rượu và trẻ em bình thường cùng độ tuổi là có ý nghĩa thống kê
– điểm trung bình lo âu của trẻ em 10 tuổi có cha mẹ nghiện rượu (8,1) cao hơn có ý nghĩa so với trung bình quần thể
(7), z = 2,2, p=0,028
Đã biết , dùng kiểm định Z
Trang 108Kiểm định giả thuyết cho một trung
x s
x t
Trang 109• n tăng lên, phân bố t
tiến tới phân bố chuẩn tắc
Trang 110• Một chuyên gia dinh dưỡng đưa ra một mô hình dinh dưỡng mới cho trẻ nhỏ giúp tăng cường trí tuệ.
Các nhà lãnh đạo ngành y tế rất quan tâm Trước
khi đầu tư ngân sách hàng tỷ đồng để triển khai
mô hình, họ đề nghị các nhà khoa học phải chứng minh là chương trình này thực sự có hiệu quả
Kiểm định giả thuyết cho một trung
bình, không biết
Trang 111• Nhà thống kê muốn loại bỏ yếu tố ngâu nhiên
ra khỏi kết quả quan sát
• Kiểm định t một mẫu
– gồm 7 bước tương tự kiểm định z
– Tra bảng tìm giá trị ngưỡng t/2 với 35 bậc tự là 2,03
Kiểm định giả thuyết cho một trung
bình, không biết
Trang 112• Vì giá trị kiểm định t (2,4) lớn hơn giá trị t tra bảng (2,03)
• Bác bỏ Ho, chấp nhận H1
• Kết luận trung bình IQ của trẻ em được dùng mô hình
dinh dưỡng mới (110) lớn hơn có ý nghĩa thống kê so với trung bình IQ của trẻ em bình thường (100), t(35) = 2,4 p<0.05
Kiểm định giả thuyết cho một trung
bình, không biết
Trang 113Quần thể
_
Hai trường hợp kiểm định
Trang 114Tóm tắt
• Kiểm định giả thuyết gồm 7 bước
• Kiểm định giả thuyết cho trung bình một mẫu gồm hai trường hợp
• Kiểm định t đòi hỏi bằng chứng mạnh hơn
kiểm định z
• Kiểm định hai phía đòi hỏi bằng chứng mạnh hơn kiểm định một phía
Trang 115So sánh phân bố t (9 bậc tự do)
với phân bố chuẩn tắc
Trang 116Tóm tắt
• Kiểm định giả thuyết gồm 7 bước
• Kiểm định giả thuyết cho trung bình một mẫu gồm hai trường hợp
• Kiểm định t đòi hỏi bằng chứng mạnh hơn kiểm định z
• Kiểm định hai phía đòi hỏi bằng chứng mạnh hơn kiểm định một phía
• Có ý nghĩa thống kê không nhất thiết là có ý nghĩa thực tiễn và
ngược lại
Trang 117Bước 1
XÁC ĐỊNH GIẢ THUYẾT NGHIÊN CỨU
Trang 118Giả thuyết khoa học
• Giả thuyết không:
– Thể hiện bằng đẳng thức để có thể tiến hành suy luận thống kê
– Là mệnh đề phủ định với giả thuyết nghiên cứu muốn chứng minh (do việc chứng minh được thực hiện bằng phản chứng)
– Việc kiểm định chỉ có thể chứng minh được
sự khác biệt
– Ví dụ: CNSS nam = CNSS nữ
Trang 120Nhắc lại cơ sở lý luận của kiểm
Trang 121Nhắc lại cơ sở lý luận của kiểm
Trang 122Bước 2
Trang 123Các biến số
• Biến số phụ thuộc: mô tả hay đo lường vấn
đề nghiên cứu
– Ví dụ:
• Biến số độc lập: mô tả hay đo lường các yếu
tố gây nên (hay ảnh hưởng) đến vấn đề
nghiên cứu
– Ví dụ:
• Biến số gây nhiễu: làm sai lệch mối quan hệ giữa biến số độc lập và phụ thuộc
Trang 124Bước 3:
CHỌN LỰA KIỂM ĐỊNH
VÀ PHIÊN GIẢI KẾT QUẢ
Trang 125Nguyên lý lựa chọn thống kê
Thang đo của
biến số phụ
thuộc
Loại thiết kế nghiên cứu (loại biến độc lập)
Hai nhóm đối tượng gồm các
cá nhân khác nhau
Ba hay nhiều nhóm đối tượng gồm các
cá nhân khác nhau
Trước và sau nghiên cứu trên cùng các đối tượng
3 can thiệp trên cùng các đối tượng
Liên hệ giữa hai biến số
bảng n x m (OR, RR…)
hạng – tổng Mann-Whitney
Kruskal-Wallis Kiểm định sắp
hạng có dấu Wilcoxon
quan Spearman
Trang 126So sánh trung bình
không ghép cặp
• So sánh tb ở hai thời điểm khác nhau trên
• So sánh nhiều trung bình ở các thời điểm
Trang 127Các giả định liên quan đến các
kiểm đinh thống kê
• Khi lựa chọn và thực hiện kiểm định thống
kê, cần lưu ý các giả định (các yêu cầu
của kiểm định)
• Thông thường:
– Phân phối của biến số liên tục
– Các giả định về phương sai
Trang 128Phần 1: Kiểm định giả thuyết cho
giá trị trung bình
• Câu hỏi 1: Cân nặng sơ sinh trong NC có bằng CNSS trung bình trong quần thể (là 3000gr) không?
• Giả thuyết:
– Ho: μ CNSS trong NC = μ CNSS quần thể
– Ha: μ CNSS trong NC ≠ μ CNSS quần thể
Trang 129Kiểm định gt cho trung bình mẫu và
Trang 130Analyze Compare means
One-sample t test
One-Sample Statistics
641 3123.2496 664.57546 26.24915 birth weight in gms
N Mean Std Deviation
Std Error Mean
One-Sample Test
4.695 640 000 123.2496 71.7047 174.7945 birth weight in gms
t df Sig (2-tailed)
Mean Difference Lower Upper
95% Confidence Interval of the Difference Test Value = 3000
Trang 131Phần 2: Kiểm định giả thuyết cho
Trang 133AnalyzeCompare means
Independent t-test
Trang 134Phần 3: Kiểm định giả thuyết cho
• Câu hỏi 3: Cân nặng sơ sinh trung bình
con các bà mẹ ở các nhóm tuổi có khác
nhau không?
• Giả thuyết:
– Ho: CNSS trung bình con các bà mẹ ở các
nhóm tuổi là như nhau
– Ha: Có ít nhất 1 CNSS trung bình trong 1 nhóm tuổi mẹ khác với các nhóm còn lại
Trang 135So sánh trung bình ở nhiều nhóm
độc lập
• Mô tả biến
– Phụ thuộc: cân nặng, liên tục, chuẩn
– Độc lập : nhóm tuổi mẹ (≤ 30 tuổi, 31 đến 35 tuổi, ≥
Trang 136Analyze Compare Means One-way
Trang 137(J) TUOIME 31-35
tu 36 tro len
tu 30 tro xuong
tu 36 tro len
tu 30 tro xuong 31-35
95% Confidence Interval
Trang 139Kiểm định giá trị tỷ
lệ
Trang 140Mục tiêu
1 Thực hiện được kiểm định thống kê cho giá trị một
tỷ lệ và hai tỷ lệ cho mẫu ghép cặp bằng phần
mềm SPSS.
2 Phiên giải được kết quả đầu ra của máy tính
140
Trang 141Nhắc lại thống kê mô tả cho biến
- Có thể dùng % tích luỹ
- Bảng phân phối tần suất (sắp xếp theo thứ tự)
- Có thể dùng % tích luỹ
- Bảng phân phối tần suất (sắp xếp theo tần suất)
- Không dùng % tích luỹ
Trang 142Bảng phân phối tần suất
142
Trang 143Phần 2
KIỂM ĐỊNH THỐNG KÊ CHO
BIẾN PHÂN LOẠI
Trang 144Nguyên lý lựa chọn thống kê
Thang đo của
Hai nhóm đối tượng gồm các
cá nhân khác nhau
Ba hay nhiều nhóm đối tượng gồm các cá nhân khác nhau
Trước và sau nghiên cứu trên cùng các đối tượng
3 can thiệp trên cùng các đối tượng
Liên hệ giữa hai biến số
Định danh 2 bảng 2 x n 2 bảng 3 x n test McNemar Cochrance Q Hệ số của bảng
n x m (OR, RR…)
Thứ tự Kiểm định sắp
hạng – tổng Mann-Whitney
Kruskal-Wallis Kiểm định sắp
hạng có dấu Wilcoxon
Friedman Hệ số tương
quan Spearman
144