Bài giảng Xác suất thống kê y học: Thống kê mô tả cung cấp các kiến thức giúp người học có thể phân biệt các loại biến số, hiểu được ý nghĩa của thống kê mô tả, lựa chọn các phương pháp mô tả phù hợp với loại dữ liệu. Mời các bạn cùng tham khảo.
Trang 1THỐNG KÊ MÔ TẢ
(phần 1)
Ths Bùi Thị Kiều AnhThs Lê Huỳnh Thị Cẩm Hồng
Trang 2Mục tiêu:
Phân biệt các loại biến số:
• Biến số định tính – biến số định lượng
• Biến số độc lập – biến số phụ thuộc
• Biến số gây nhiễu
Hiểu được ý nghĩa của thống kê mô tả
Lựa chọn các phương pháp mô tả phù hợp với loại dữ liệu
Trang 3là kết quả việc thu thập có hệ thống về các đặc tính hay đại lượng của đối tượng nghiên cứu
Số liệu
Trang 4ID Tuổi Giới Quốc tịch Thời gian sống ở Úc (năm) Ngôn ngữ sử dụng ở nhà
BHBR001 31 Nữ Burma 2 months Karenni and BurmeseBHBR002 24 Nữ Thailand 2 years Kayah
BHBR003 32 Nam Thailand 3 months Karenni and BurmeseBHBR004 67 Nữ Myanmar 2 months Karenni and BurmeseBHBR005 19 Nữ Thailand 3 months Karen
BHBR006 17 Nữ Thailand 3 years Karen
BHBR007 69 Nam Burma 3 years Sakaw/Karen
BHBR008 70 Nữ Burma 35 years Burmese
BHBR009 31 Nam Myanmar 4 years 2 months Sakaw/Karen
BHBR010 38 Nam Burma 3 years Karen/Myanmar
Vd: Bảng số liệu
Trang 5Biến số
(thường gọi tắt là biến) là những đại lượng hoặc đặc tính có thể thay đổi từ người này sang người khác, từ thời điểm này sang thời điểm khác.
Trang 6Biến số (tt)
Cần phân biệt sự khác biệt giữa biến số và giá trị của biến số (còn gọi là yếu tố)
Giới tính là biến số nhưng Nữ không phải là biến
số mà là một giá trị của biến số
Thời gian chờ đợi để được sử dụng dịch vụ y tế
là biến số nhưng thời gian chờ đợi lâu là giá trị của biến số
Trang 7Tiêu chí phân loại biến số
1, Biến số định tính - Biến số định lượng
2, Biến số độc lập - Biến số phụ thuộc
3, Biến số gây nhiễu
Trang 8Biến số định tính
- Biến số định lượng
Trang 10VD: Trầm cảm (nhẹ, trung bình, nặng); BMI (suy
dinh dưỡng, bình thường, béo phì); Thu nhập (thấp, trung bình, cao)
VD: Trầm cảm (nhẹ, trung bình, nặng); BMI (suy
dinh dưỡng, bình thường, béo phì); Thu nhập (thấp, trung bình, cao)
Trang 11Biến định lượng
Là biến số có những giá trị diễn tả được bằng số
Gồm 2 loại: biến liên tục hoặc biến không liên tục
Trang 12Biến định lượng
Biến liên tục
Giữa hai giá trị của 1 biến liện tục,
có mọi giá trị đi liền nhau
VD:
• Chiều cao (1.1m, 1.2m, …)
• Thu nhập (3 triệu, 3,1 triệu, …)
• Huyết áp (90mmHg, 91mmHg)
Giữa hai giá trị của 1 biến liện tục,
có mọi giá trị đi liền nhau
Trang 14Biến số độc lập
- Biến số phụ thuộc
Trang 15VD: - Hút thuốc lá làm tăng nguy cơ ung thư phổi
- Tập thể dục đều đặn làm giảm nguy cơ béo phì.
Trang 16
Sự khác biệt có ý nghĩa thống kê (p<0,05)
Các bà mẹ không hút thuốc lá có tỉ lệ sinh con nhẹ cân thấp hơn các bà mẹ hút thuốc lá
Hút thuốc lá là một trong nhiều yếu tố nguy cơ của sinh con nhẹ cân
Trang 17Hút thuốc lá
(có/không)
Tình trạng sinh con
nhẹ cân (con nhẹ cân / con không bệnh)
Hút thuốc lá là biến
số độc lập
Tình trạng sinh con nhẹ cân
là biến số phụ thuộc
Trang 18Chế độ ăn
nhiều ra củ
quả
Bệnh về tim mạch (có bệnh/không bệnh)
Biến số độc lập
Biến số phụ thuộc
Việc tập thể
dục hàng ngày
Một nghiên cứu đoàn hệ tiến hành trong 20 năm tại Úc
đã đưa ra kết luận rằng việc tập thể dục đều đặn hàng ngày và chế độ ăn nhiều rau củ quả giúp làm giảm nguy
cơ bệnh về tim mạch ở người trưởng thành.
Trang 19Biến số gây nhiễu
Trang 20Biến số gây nhiễu
Là biến số gây nhiễu khi có 3 đặc tính sau:
– Có liên quan đến biến số phụ
thuộc (là yếu tố nguy cơ của vấn đề
nghiên cứu)
– Có liên quan đến biến số độc lập (phân
bố không đều giữa các giá trị của biến độc lập)
– Không nằm trong cơ chế tác động của
biến độc lập lên biến phụ thuộc
Không thuộc trọng tâm nghiên cứu
Trang 21Khám thai
(Đủ / Không đủ)
(Biến độc lập)
Cân nặng con (Nhẹ cân / Bình thường)
(Biến phụ thuộc)
Thu nhập gia đình (cao / trung bình /
thấp) (Biến số nhiễu)
Trang 22Tuổi (thanh niên / trung niên / cao tuổi) (Biến số nhiễu)
Trang 23Béo phì)
(Biến phụ thuộc)
Thu nhập gia đình (cao / trung bình /
thấp) (Biến số nhiễu)
Trang 24Kiểm soát biến số nhiễu
Phương pháp chia nhóm ngẫu nhiên:
Thực hiện trong nghiên cứu thực nghiệm: toàn diện nhất
Phương pháp mô hình hóa:
Dùng hồi quy đa biến để tách riêng tác động của từng biến số
Phương pháp hạn chế
Khi chọn mẫu: chọn mẫu bắt cặp; phân tầng.
Khi phân tích: phân tích phân tầng: riêng cho
từng nhóm (VD: nhóm người trẻ, nhóm người lớn tuổi: trong nghiên cứu “nhồi máu cơ tim” và “vận
động thể lực”).
Trang 25
THỐNG KÊ MÔ TẢ
Trang 27Mô tả dữ liệu
- Cần để tóm tắt thông tin cho người đọc
- Chỉ ra những điểm trong dữ liệu mà bạn muốn người đọc chú ý
- 2 điểm chính mà bạn nên mô tả là:
• Mô tả khuynh hướng tập trung
• Mô tả tính phân tán
Trang 28THỐNG KÊ MÔ TẢ KHUYNH HƯỚNG TẬP TRUNG
Trung bình
Trung vị
Yếu vị
Trang 29 Công thức:
Trang 30135, 150, 120, 125, 130
= (120 + 125 + 130 + 135 + 150) / 5 = 132
Trang 31Trung vị
• Trung vị là giá trị chia phân phối làm đôi
• Nếu các giá trị sắp xếp theo thứ tự tăng dần;
trung vị là quan sát ở chính giữa
• Nếu có 1 số chẵn các quan sát, không có quan sát chính giữa thì lấy trung bình của 2 quan sát ở giữa làm trung vị
Trang 32Yếu vị
• Yếu vị là giá trị xảy ra thường xuyên nhất
Khmer, 27 Hoa Yếu vị của biến số dân tộc là: Người Kinh.
yếu vị, có thể có 1, 2 hay nhiều yếu vị
Trang 34Khi biến số định lượng có phân phối bình
thường, trung bình thường được dùng để mô tả
số liệu.
Khi số liệu bị lệch (do những số ngoại lai), trung
vị phản ánh chính xác hơn giá trị tiêu biểu của
số liệu.
Trang 35Tuổi trung bình: 19 Tuổi trung vị: 16
Trang 37• Standard deviation - SD
• Công thức:
Độ lệch chuẩn:
Trang 39 Inter-quartile range (IQR)
Khoảng tứ vị là khoảng cách trung vị phần trên và phần dưới
Số liêu về huyết áp tâm thu của 5 người là:
Trang 40• Range (Min – Max)
• Là tất cả các giá trị của số liệu từ Min đến Max.
• Số liêu về huyết áp tâm thu của 5 người là:
120, 125, 130, 135, 150
Vậy có phạm vi số liệu là (120 – 150)
Phạm vi số liệu
Trang 41Nên cần mô tả cả khuynh hướng
tập trung và tính phân tán
Trung bình
Trung vị
Min, Max, Phạm vi số liệu, Khoảng tứ vị
Độ lệch chuẩn
Trang 42Trung bình hay Trung vị
Trong các y văn, chúng ta thường thấy trung
bình và độ lệch chuẩn được trình bày.
Nhưng trong một số trường hợp, trình bày trung bình và độ lệch chuẩn thì không phù hợp
Trang 43Giả sử có 19 người nghèo và 1 tỉ phú trong một căn phòng Mọi người đều bỏ tất cả tiền trong túi mình ra và đặt lên một cái bàn
Mỗi người nghèo đặt 5 đồng lên bàn; người tỉ phú đặt 1 tỷ đồng (109 đồng) lên đó
Khi đó, tổng số là 1.000.000.095 đồng
Số tiền trung bình: 50.000.004 đồng và 75 xu
Nhưng số trung vị lại là 5 đồng
Theo nghĩa đó, số trung vị là số tiền mà một người điển hình mang tới
Ngược lại, giá trị trung bình không điển hình chút nào
Trung bình hay Trung vị ???
Trang 44Trung vị dùng để mô tả dữ liệu tốt hơn khi dữ liệu
có phân phối lệch
Trang 45Good study!!!