Chọn đúng các giá trị trung tâm, giá trị phân tán cho từng bộ số liệu 3.. Xác định và sử dụng được giới hạn sinh lý bình thường trong trường hợp phân phối đối xứng và phân phối không đối
Trang 1THỐNG KÊ MÔ T NG KÊ MÔ T NG KÊ MÔ TẢ
TS BS Nguyễn Ngọc Vân Phương
2 Chọn đúng các giá trị trung tâm, giá trị phân tán cho từng bộ số liệu
3 Tính được số trung bình, số trung vị, phương sai, độ lệch chuẩn
4 Xác định và sử dụng được giới hạn sinh lý bình thường trong trường hợp phân
phối đối xứng và phân phối không đối xứng
PHẦN 2 TRÌNH BÀY SỐ LIỆU
1 Nêu được các cách trình bày số liệu
2 Lựa chọn được các loại biểu đồ, đồ thị thích hợp cho việc mô tả từng loại biến số
1
2
Trang 3Các giá trị trung tâm
Trung bình Trung vị Mode
Các giá trị trung tâm
Trung bình Trung vị Mode
Đại diện cho độ tập trung
Trang 4Không nên sử dụng Mean
• Khi thang đo của dữ liệu là thang đo thứ tự
Nên sử dụng Mean
Khi các giá trị của bộ số liệu tương đối đồng đều
Và không có giá trị cực (outliers)
5.4 1.10 0.42 0.73 0.48 1.10 (*)
Trung bình = 1.538
Số trung bình (Mean)
(*) Hàm lượng chì trong không khí tại khu vực tòa tháp đôi thế giới sau vụ khủng bố 11/9/2001 vài ngày.
7
Trang 5Số trung vị (Median)
Nên sử dụng Trung vị
Khi dữ liệu bao gồm các giá trị cực (outliers)
Hoặc khi thang đo của dữ liệu là thang đo thứ tự
Ví dụ: thang đo Likert (rất không đồng ý, không đồng ý,
• Mode là giá trị trung tâm duy nhất được sử dụng cho dữ liệu có thang đo định danh
Ví dụ: Phân loại sinh viên đọc sách tại thư viện
Nhận xét: sinh viên y khoa là bạn đọc thường xuyên nhất của thư viện
9
10
Trang 6Tương quan giữa các giá trị trung tâm
Trong một phân phối đối xứng
3 giá trị trung tâm trùng nhau.
Tương quan giữa các giá trị trung tâm
Trong phân phối không đối xứng, với phân phối lệch phải
Trung bình > Trung vị
Trong phân phối không đối xứng, với phân phối lệch trái
Trung bình < Trung vị
11
Trang 7toàn bbbbộ giágiá giá tr trtrị???? BBị ảnh bbbbởiiii outliers?nhnh houtliers?hhhưởngng
Mode GT xuất hiện
nhiều nhất Thỉnh thoảng Lúc có,Lúc không Không KhôngMean, Median, Mode
Các giá trị phân tán
Biên độ Khoảng tứ phân vị
Độ lệch chuẩn
Các giá trị phân tán
Biên độ Khoảng tứ phân vị
Trang 8Biên độ (Range) (Range)
• Là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất của tập
hợp
Biên độ = Xmax – Xmin
• Không đại diện cho bộ số liệu
Data 1: 1 2 2 2 3 4 4 5 6
Biên độ 1 = 6 -1 = 5Data 2: 1 1 1 1 1 1 1 1 6
Biên độ 2 = 6 -1 = 5
Kho
Khoảng ng ng ttttứ phân phân phân vvvvị ((((Interquatile Interquatile Interquatile range range range –––– IQR) IQR)
• Mô tả sự phân tán của bộ số liệu
Trang 9Khoảng ng ng ttttứ phân phân phân vvvvị ((((Interquatile Interquatile Interquatile range range range –––– IQR) IQR)
Điểm số của 20 sinh viên
Q2 = Median = vị trí giữa giá trị 60 và 62 = 61
Q1 = P25 = 52.5
Q3 = P75 = 70.5
IQR = 70.5 – 52.5 = 18 (trong khi biên độ là 80 – 43 = 37)
Độ llllệch ch ch chu chu chuẩn nn n (Standard deviation) (Standard deviation)
- Là giá trị phân tán được dùng nhiều nhất
- Cho biết mức độ phân tán của các giá trị quan sát
1 s
17
18
Trang 10Phương ng ng sai sai
Trang 11Phân ph ph phốiiii Bình Bình Bình th th thườn nn ng gg
Là phân phối rất phổ biến trong các hiện tượng tự nhiên,
sinh học (chiều cao, cân nặng, tuổi, IQ…)
Có dạng hình chuông
2 2
2 ) (
Trang 12Phân ph ph phốiiii Bình Bình Bình th th thườn nn ng gg
Phân
Phân ph ph phốiiii Bình Bình Bình th th thườn nn ng gg
23
Trang 13Khoảng ng ng gi gi giớiiii h h hạn nn n sinh sinh sinh lý lý lý bình bình bình th th thườn nn ng gg
- Là khoảng chứa 95% các giá trị của mẫu.
- Công thức:
- Nhận xét:
* Một người nào có giá trị nằm ngoài khoảng GHSL bình thường, ta kết
luận người đóbất thườngvề giá trị của biến số đang khảo sát Câu kết luận
này có nguy cơ sai lầmα = 0.05
* Ngược lại, một người nào có giá trị nằm trong khoảng GHSL bình thường,
ta kết luận người đóbình thườngvề giá trị của biến số đang khảo sát thì kết
luận này có nguy cơ sai lầmβkhông tính được
x ± 2s
TRÌNH BÀY SỐ LIỆU
225
26
Trang 14Có
Trang 15TS.BS Nguyễn Ngọc Vân Phương
• Biểu diễn 1 hay nhiều biến.
29
30
Trang 16Bảng 1 Phân phối tần số cân nặng (kg) của mẫu khảo sát.
Trang 17Hb trung bình Tỉ lệ thiếu máu
SDD thể nhẹ cân a, c
Có SDD 13.45 1.34 27 12.8 Không SDD 13.79 1.34 90 7.2
SDD thể thấp lùn a, c
Có SDD 13.30 1.35 35 15.0 Không SDD 13.82 1.33 82 6.7
SDD thể gầy b
Có SDD 13.61 1.24 29 8.0 Không SDD 13.78 1.37 88 8.1
Thừa cân b
Có 14.09 1.13 3 3.4 Không 13.72 1.35 114 8.4
!"!#$ !"!%"
!"!#"
B
Bảng ng ng phân phân phân ph ph phốiiii ttttần nn n ssssố nhi nhi nhiều u u chi chi chiều u
Bảng 3 Hb trung bình, tỉ lệ thiếu máu theo tình trạng dinh dưỡng
B
Bảng ng
- Có tựa ngắn gọn, rõ ràng (Mô tả biến số gì, trên đối
tượng nào, ở đâu, và thời gian nào?)
- Đặt tên cho các hàng, các cột
- Trình bày tổng số của hàng, cột
- Định nghĩa các kí hiệu và chữ viết tắt ở dưới bảng.
- Ghi nguồn số liệu ở dưới bảng.
33
34
Trang 18Số trường hợp bị viêm dạ dày ruột tại thành phố A, 1955-1985
- Số cá mắc bệnh tăng gấp 3 lần trong vòng 30 năm.
- Xu hướng tăng không đồng đều.
• Từ 1955 đến 1965, số trường hợp bệnh tăng 200 ca mỗi 5 năm.
• Giai đoạn tiếp theo, số trường hợptăng mỗi 5 năm giảm còn
Trang 19- Với lát bánh được đặt tên là
“Các loại khác”, thường được
Trang 20- Dùng để so sánh các giá trị của đặc tính khảo sát
BI
BIỂU U U ĐỒ Hình thanh Hình thanh
Most used technology
Trang 21- Cho các biến số có dữ liệu âm.
- Dùng cho biến định lượng liên tục
- Diễn tả sự phân phối tần số.
BI
Phần trăm đàn ông chơi thể thao ít nhất 1giờ trong tuần theo tuổi
41
42
Trang 22BIỂU U U ĐỒ Box Plot Box Plot
Định lượng Thứ bậc Danh định
Trình bày số liệu -Phân nhóm số
liệu
-Bảng phân phối tần suất
-Bảng phân phối tần suất (sắp xếp theo thứ tự)
-Bảng phân phối tần suất (sắp xếp theo tần suất)
Đồ thị, biểu đồ Histograms
Box plot
Biểu đồ cột Biểu đồ bánh
Biểu đồ cột Biểu đồ bánh
TÓM T
43