BÀI GIẢNG hướng dẫn tính, trình bày và phiên giải các phép thống kê trong nghiên cứu ĐO LƯỜNG VỊ TRÍ TRUNG TÂM VÀ ĐỘ BIẾN THIÊN PHÉP THỐNG KÊ: trung bình, trung vị, phương sai, độ lệch chuẩn, Mode, Khoảng, Khoảng phân vị, giá trị lớn nhất, Giá trị nhỏ nhất.
Trang 1HANOI UNIVERSITY OF PUBLIC HEALTH
THỐNG KÊ SAU ĐẠI HỌC
ĐO LƯỜNG VỊ TRÍ TRUNG TÂM
VÀ ĐỘ BIẾN THIÊN
www.hsph.edu.vn
MỤC TIÊU
• Tính và trình bày được ý nghĩa của các giá trị:
– trung bình - trung vị, – phương sai - độ lệch chuẩn
• Xác định và trình bày được ý nghĩa của:
– Mode, – Khoảng, khoảng phân vị
www.hsph.edu.vn
CÁC GIÁ TRỊ THỐNG KÊ CƠ BẢN
• Đo lường vị trí trung tâm (trung tâm hoặc giá
trị đại diện cho bộ số liệu)
– Trung bình (trung bình số học)
– Trung vị
– Mode
• Đo lường sự phân tán (độ phân tán, độ biến
thiên của các quan sát)
– Khoảng
– Phương sai, độ lệch chuẩn
– Phân vị
www.hsph.edu.vn
ĐO LƯờNG Sự TậP TRUNG
TRUNG BÌNH TRUNG VỊ MODE
Trang 2TRUNG BÌNH
• Giá trị trung bình :
– Trung bình của 2, 5, và 8 là 5, vì 15÷3 = 5
– Trung bình của 1, 3, 2, và 8 là 3.5, vì 14/4 =3.5
1
or
i n
i i
X X
www.hsph.edu.vn
TÍNH CHẤT GIÁ TRỊ TRUNG BÌNH
• Điểm mạnh
– Tính toán rất đơn giản – Giá trị trung bình là duy nhất
• Điểm yếu
– Dễ bị ảnh hưởng bởi các giá trị đầu cùng của bộ số liệu – Ví dụ
• Trung bình của 1, 2, và 1.000.000 là 33.334,33, Không thể nói là đại diện cho bộ số liệu được
• Hoặc giá trị trung bình của 1; 2; 9500; 9600; 9700 và
9900 là 6450.5 !
TRUNG VỊ
• Giá trị trung vị của một tập hợp các quan sát
là giá trị đứng giữa các quan sát đó nếu
chúng taxếp các quan sát theo thứ tự
• Có sự khác biệt giữa giá trị trung vị của bộ số
liệu có số quan sát chẵn và lẻ
• Ví dụ:
– Trung vị của 1, 3, 15, 16, và 17 là15
– Trung vị của 1, 2, 3, 5, 8, và 9 là giá trị trung bình
của hai giá trị đứng giữa (3+5)/2 =4
TÍNH CHẤT CỦA GIÁ TRỊ TRUNG VỊ
• Điểm mạnh
– Duy nhất đối với mỗi bộ số liệu – Tiện dụng trong việc mô tả độ lệch của các quan sát bao gồm cả các quan sát cực lớn hoặc cực nhỏ
• Điểm yếu
– Do việc xác định giá trị trung vị có sự khác biệt giữa bộ số liệu chẵn lẻ do đó nó ít được sử dụng trong các thống kê suy luận
Trang 3GIÁ TRỊ MODE
• Giá trị mode của một tập hợp các quan sát là giá
trị có tần số xuất hiện nhiều nhất trong tập hợp đó
• Ví dụ
– Mode của 1, 2, 2, 3, 4, 5 là 2
– Tập hợp 1, 2, 3, 4, 5 không có mode
– Tập hợp 1, 2, 3, 3, 4, 5, 5 có 2 mode: 3 và 5
www.hsph.edu.vn
TÍNH CHẤT CỦA GIÁ TRỊ MODE
• Điểm mạnh
– Nếu một bộ số liệu có giá trị MODE, thì sẽ rất hữu dụng cho ta khi mô tả bộ số liệu đó Ví dụ:
hầu hết các trường hợp tự tử đều là trẻ em gái tuổi 14-19
• Điểm yếu
– Có nhiều bộ số liệu không có MODE, hoặc có quá nhiều MODE, và trong trường hợp này sử dụng giá trị MODE sẽ không có tác dụng gì nhiều
www.hsph.edu.vn
KHOẢNG PHƯƠNG SAI
ĐỘ LỆCH CHUẨN PHÂN VỊ
www.hsph.edu.vn
KHOẢNG
• Giá trị Khoảng là khoảng cách giữa giá trị
lớn nhất và giá trị nhỏ nhất của bộ số liệu
• Ví dụ – Khoảng của bộ 2, 4, 7 là 5 – Khoảng của bộ -10, -3, 4 là 14
• Tính chất: dùng để mô tả – Số ngày nằm viện trung bình là 10 ngày (1-50 ngày)
Trang 4• n quan sát : x1, x2, xn
• Phương sai s2 được tính:
• Bậc tự do: “Tổng số các quan sát độc lập trừ
đi số lượng các tham số cần ước lượng”
PHƯƠNG SAI
1
) (
1
2 2
n
x x s
n
i i
www.hsph.edu.vn
ĐỘ LỆCH CHUẨN
• Độ lệch chuẩn của các quan sát được tính bằng công thức:
2 1
1
i n
i i
s
n
ĐỘ LỆCH CHUẨN
• Khoảng 68% các giá trị quan sát sẽ nằm trong
khoảng (trung bình + s)
• Khoảng 95% các giá trị quan sát nằm trong
khoảng (trung bình + 2s)
• Hầu hết nằm trong khoảng (trung bình + 3s)
BÀI TẬP THỰC HÀNH
• Bộ số liệu
1, 4, 6, 3, 9, 3, 8,13
–Tính:
• Trung bình
• Trung vị
• Khoảng
• Phương sai
• Độ lệch chuẩn
Trang 5PHÂN VỊ
• Một tập hợp các giá trị quan sát : x1, x2, xn
• Giá trị phân vị thứ p (pth) là:
– giá trị x
– có p% giá trị quan sát nhỏ hơn pth
– và có (100-p)% giá trị quan sát lớn hơn pth
(Giá trị nhỏ nhất)
(Giá trị lớn nhất)
Q1
Q3
Q2
(Phân vị 1/4)
(Phân vị ½)
(Phân vị 3/4)
Biểu đồ Box-Whisher
Vẽ biểu đồ B-W cho ví dụ 4
www.hsph.edu.vn
PHÂN VỊ (tiếp)
• Phân vị ¼
– Q1= giá trị quan sát thứ (n+1)/4
– Q2= giá trị quan sát thứ (n+1)/2
– Q3= giá trị quan sát thứ 3(n+1)/4
• Khoảng phân vị
– IQR= Q3-Q1
www.hsph.edu.vn
BÀI TẬP THỰC HÀNH
• Bộ số liệu
–1, 4, 6, 3, 9, 3, 8,13
–Tính:
• Tính Q1
• Tính Q2
• Tính Q3
• Tính IQR
Trang 6HANOI UNIVERSITY OF PUBLIC HEALTH
Đọc kết quả phân tích trên
máy tính
www.hsph.edu.vn
Epi info lệnh FREQ
Total Sum Mean Variance Std Dev Std Err
75 2761 36.813 460.181 21.452 2.477 Minimum 25%ile Median 75%ile Maximum Mode 3.000 16.000 36.000 58.000 77.000 11.000 Student's "t", testing whether mean differs from zero.
T statistic = 14.862, df = 74 p-value = 0.00000
Phân tích số liệu bằng EXCEL
• Tool data analysis Descriptive statistics
Phân tích số liệu bằng EXCEL
Trang 7Phân tích số liệu bằng EXCEL
Standard Error 3.001163
Standard Deviation 23.43983
Sample Variance 549.4256
Kurtosis 2.830657
Skewness 1.470264
www.hsph.edu.vn
TÍNH BẰNG STATA
summ var1, detail var1
-Percentiles Smallest
1% 35.9 35.9 5% 44.73 41.98 10% 51.7 44.4 Obs 61 25% 57.9 44.73 Sum of Wgt 61 50% 69.91 Mean 73.33229
Largest Std Dev 23.43983 75% 83.82 114.79
90% 100.36 128.4 Variance 549.4256 95% 114.79 149.68 Skewness 1.43386 99% 153.56 153.56 Kurtosis 5.507125
HANOI UNIVERSITY OF PUBLIC HEALTH
THỐNG KÊ SAU ĐẠI HỌC
PHÂN TÍCH MÔ TẢ VÀ
VẼ BIỂU ĐỒ SPSS
www.hsph.edu.vn
MỤC TIÊU
1 Lựa chọn được các loại thống kê mô tả
và đồ thị thích hợp cho việc mô tả các loại số liệu
2 Sử dụng được phần mềm SPSS để phân tích thống kê và vẽ đồ thị
Trang 8GIỚI THIỆU
• Phân tích mô tả
– Tóm tắt các đại lượng thống kê cơ bản
– So sánh các số liệu
• Kế hoạch phân tích
– Đưa ra từ khi thiết kế nghiên cứu
– Dựa trên các câu hỏi nghiên cứu:
- Ai?
- Cái gì?
- Như thế nào?
www.hsph.edu.vn
LẬP KẾ HOẠCH PHÂN TÍCH
1 Câu hỏi nghiên cứu: mô tả hay suy luận (kiểm định giả thuyết)?
2 Quy trình
* Liệt kê các biến: độc lập, phụ thuộc
* Phân tích mô tả các biến, mối liên quan
* Chọn một kiểm định phù hợp
* Phiên giải các kết quả
PHÂN TÍCH MÔ TẢ
Sử dụng bộ số liệu: cnss.sav
Phụ thuộc vào kiểu đo lường
– Biến định lượng
– Biến danh mục/ phân loại/ định tính
PHÂN TÍCH MÔ TẢ
Mô tả một biến phân loại/ định tính
Mô tả một biến định lượng
Một biến định tính và môt biến định lượng
Hai biến định tính
Hai biến định lượng
Nhớ rằng chúng ta có hai loại biến cơ bản:
định lượng hoặc định tính/ phân loại!
Trang 9MÔ TẢ ĐƠN BiẾN
Câuhỏi: Mô tả các đặc điểm: giới tính trẻ (gioi), tuổi mẹ
(tuoime), nghề nghiệp (n_nghiep), tuổi thai (tuoithai)
– Giá trị thống kê: Tần số, tỷ lệ
– Biểu đồ: Cột rời (bar chart, pie chart, stacked bar)
– Nếu là phân bố chuẩn: sử dụng giá trị trung bình, độ lệch
chuẩn, biểu đồ Box-and-Whisker, histogram.
– Nếu không là phân bố chuẩn: sử dụng giá trị trung vị, cực
tiểu, cực đại và biểu đồ Box-and Whisker, histogram.
www.hsph.edu.vn
MÔ TẢ GiỚI TÍNH TRẺ
• Loại biến?
• ĐỊNH TÍNH/ DANH MỤC
• Giá trị thống kê dự định mô tả?
• TẦN SỐ VÀ TỶ LỆ
• Biểu đồ mô tả?
• CỘT RỜI – BAR CHART
• HÌNH TRÒN/ BÁNH- PIE CHART
www.hsph.edu.vn
MÔ TẢ GiỚI TÍNH TRẺ
• Bảng tần số
– AnalyseDescriptive Statistics
Frequencies
www.hsph.edu.vn
Chọn biến cần phân tích
Đảm bảo
có tuỳ chọn bảng phân
bố tần số
Click chuột để chuyển biến sang ô bên phải
MÔ TẢ GiỚI TÍNH TRẺ
Trang 10Vẽ biểu đồ cột rời (hoặc hình tròn),
vẽ theo tỷ lệ
%
MÔ TẢ GiỚI TÍNH TRẺ
www.hsph.edu.vn
Tỷ lệ trẻ nam là 49,5%;
nữ là 50,5%
MÔ TẢ GiỚI TÍNH TRẺ
• Loại biến?
• ĐỊNH LƯỢNG LIÊN TỤC
• Giá trị thống kê dự định mô tả?
• Phân bố chuẩn/ xấp xỉ chuẩn:TRUNG BÌNH,
ĐỘ LỆCH CHUẨN, PHÂN VỊ.
• Phân bố không chuẩn: TRUNG VỊ, KHOẢNG;
PHÂN VỊ…
• Biểu đồ mô tả?
• HISTOGRAM
• BOX-PLOTS
Nếu anh/ chị có thể trả lời “Có” cho các câu hỏi sau, anh/chị đã có bộ số liệu xấp xỉ phân bố chuẩn
• Giá trị trung bình có nằm trong 10% giá trị trung vị không?
• Giá trị trung bình 3sd có xấp xỉ giá trị cực đại và cực tiểu trong bộ số liệu không?
• Hệ số skewness có nằm trong 3sd không?
• Hệ số kurtosis có nằm trong 3sd không?
• Biểu đồ cột liên tục có xuất phát điểm thấp, cao nhất ở giữa sau đó thấp dần về phía xa (không cần thiết phải theo đúng hình chuông) không?
Trang 11Chọn giá trị
thống kê
muốn có
MÔ TẢ TUỔI MẸ
www.hsph.edu.vn
MÔ TẢ TUỔI MẸ
Vẽ biểu đồ Histogram với đường cong phân
bố chuẩn
www.hsph.edu.vn
MÔ TẢ TUỔI MẸ
www.hsph.edu.vn
MÔ TẢ MỘT BIẾN ĐỊNH LƯỢNG VÀ
MỘT BIẾN ĐỊNH TÍNH
Trọng lượng sơ sinh theo giới tính của trẻ
Trang 12TRỌNG LƯỢNG SS THEO GiỚI
• Loại biến?
• Trọng lượng sơ sinh: Định lượng
• Giới tính của trẻ: Định tính
• Giá trị thống kê dự định mô tả?
• Phân bố chuẩn/ xấp xỉ chuẩn:TRUNG BÌNH,
ĐỘ LỆCH CHUẨN, PHÂN VỊ.
• Phân bố không chuẩn: TRUNG VỊ, KHOẢNG;
PHÂN VỊ…
• Biểu đồ mô tả?
• BOX-PLOTS www.hsph.edu.vn
TRỌNG LƯỢNG SS THEO GiỚI
Analyze/ Reports/ Case Summaries
TRỌNG LƯỢNG SS THEO GiỚI
Chọn biến cần phân tích, chọn các giá trị thống kê mong muốn
TRỌNG LƯỢNG SS THEO GiỚI
Kết quả phân tích trọng lượng sơ sinh của trẻ theo giới tính, trung bình cân nặng sơ sinh của trẻ trai là 3191 gram (SD=483,7), trẻ gái là 3107 gram (SD=485.8).
Trang 13TRỌNG LƯỢNG SS THEO GiỚI
Graphs/ Legacy Dialogs/ Box-plots
Lấy các tuỳ chọn để vẽ biểu
đồ Box plot, đưa các biến số cần vẽ vào ô phù hợp
www.hsph.edu.vn
TRỌNG LƯỢNG SS THEO GiỚI
Max Q3 Q2 Q1 P2,5th
Outliers
www.hsph.edu.vn
MÔ TẢ HAI BIẾN ĐỊNH TÍNH
Nhóm cân nặng ss và giới tính trẻ
www.hsph.edu.vn
NHÓM CÂN NẶNG SS THEO GiỚI
• Loại biến?
• Nhóm cân nặng sơ sinh: Định tính
• Giới tính của trẻ: Định tính
• Giá trị thống kê dự định mô tả?
• Tần số, tỷ lệ.
• Biểu đồ mô tả?
• Bar chart
• Stacked bar
Trang 14NHÓM CÂN NẶNG SS THEO GiỚI
Analyze/ Descriptive Statistics/ Crosstabs
www.hsph.edu.vn
NHÓM CÂN NẶNG SS THEO GiỚI
Chọn biến cần phân tích, click Cells, lấy giá trị tỷ lệ theo dòng (row)
NHÓM CÂN NẶNG SS THEO GiỚI
Tỷ lệ trẻ có cân nặng dưới 2500 gram trong nhóm trẻ
gái là 10,8%, tỷ lệ này trong nhóm trẻ trai là 8,3%.
NHÓM CÂN NẶNG SS THEO GiỚI
Vẽ biểu đồ Cột rời xếp chồng,
vẽ theo tỷ lệ % và đưa biến vào vị trí phù hợp
Trang 15NHÓM CÂN NẶNG SS THEO GiỚI
www.hsph.edu.vn
MÔ TẢ HAI BIẾN ĐỊNH LƯỢNG
Cân nặng sơ sinh và Tuổi thai
www.hsph.edu.vn
CÂN NẶNG SS VÀ TUỔI THAI
• Loại biến?
• Cân nặng sơ sinh: Định lượng
• Tuổi thai: Định lượng
• Giá trị thống kê dự định mô tả?
• Hệ số tương quan
• Biểu đồ mô tả?
• Scatter plots
www.hsph.edu.vn
CÂN NẶNG SS VÀ TUỔI THAI
Analyze/ Correlate/ Bivariate
Trang 16CÂN NẶNG SS VÀ TUỔI THAI
Chọn biến
cần phân
tích.
Lấy các tuỳ
chọn hệ số
tương
quan, kiểm
định hệ số
tương
quan
www.hsph.edu.vn
CÂN NẶNG SS VÀ TUỔI THAI
Có mối liên quan giữa trọng lượng sơ sinh và tuổi thai (r=0,62), tuổi thai càng tăng thì trọng lượng sơ sinh càng tăng (quan sát thêm biểu đồ scatter plots để rõ về xu hướng)
CÂN NẶNG SS VÀ TUỔI THAI
Vẽ biểu đồ scatter plots
CÂN NẶNG SS VÀ TUỔI THAI
Trang 17BÀI TẬP THỰC HÀNH
• Sử dụng bộ số liệu RTI.SAV và tiến hành
phân tích mô tả đưa ra bảng tần số và biểu
đồ của các biến trong bộ số liệu điều tra về
tai nạn giao thông
– Phân tích mô tả bằng bảng tần số, biểu đồ với
các biến: sex, ageround, occupati, edgrp
– Tính giá trị trung bình, độ lệch chuẩn, phân vị
của các biến: qol_bef, và qol_af