Sau ñây là các dữliệu vềsốcân giảm ñi của mẫu gồm năm thành viên trong CLB thểhình sau 4 tháng... Nhìn qua các quan sát trong hai mẫu ta thấy các quan sát trong mẫu A ít phân tán hơn các
Trang 2• Các ñ o l ườ ng khuynh h ướ ng t ậ p trung là nh ữ ng
ñ o l ườ ng mô t ả nh ằ m cho bi ế t ñ i ể m trung tâm c ủ a
t ậ p d ữ li ệ u n ằ m ở ñâu trong phân phố i t ầ n su ấ t c ủ a
m ộ t t ậ p d ữ li ệ u.
• Ba tr ị s ố (ñặ c tr ư ng) th ườ ng dùng ñể ño lườ ng
khuynh h ướ ng t ậ p trung c ủ a t ậ p d ữ li ệ u là trung
bình (mean), trung v ị (median) và y ế u v ị (mode).
Trang 3• Ví d ụ
Bảng sau cho thấy tổng số tiền lương phải trả trong
năm 2002 cho 5 ñội bòng chày quốc gia tại Mỹ
62931267534
million 78
$ 5
Trang 4• Các giá tr ị mà chúng quá nh ỏ ho ặ c quá l ớ n so
v ớ i ph ầ n l ớ n các giá tr ị trong t ậ p d ữ li ệ u ñượ c
g ọ i là các giá tr ị b ấ t th ườ ng (outliers)
• Ví d ụ
Bảng sau trình bày dân số năm 2000 của năm tiểu
bang thuộc vùng Pacific ởMỹ
5894 3421 627 1212 33,872
Trang 5Trung vị= Giá trịsốhạng thứ(n+1)/2 trong tập dữliệu
ñã ñược sắp theo thứtự tăng dần
Sau ñây là các dữliệu vềsốcân giảm ñi của mẫu
gồm năm thành viên trong CLB thểhình sau 4 tháng
Trang 6• Ví d ụ
Sau ñây là các dữliệu vềsốcân giảm ñi của mẫu
gồm sáu thành viên trong CLB thểhình sau 4 tháng
• Trung v ị cho ta ñiể m trung tâm c ủ a bi ể u ñồ t ầ n
su ấ t, v ớ i m ộ t n ử a các giá tr ị d ữ li ệ u n ằ m bên trái
trung v ị và m ộ t n ử a n ằ m bên ph ả i trung v ị
• Khi dùng trung v ị làm ñặ c tr ư ng ñ o l ườ ng
khuynh h ướ ng t ậ p trung, giá tr ị c ủ a nó không b ị
ả nh h ưở ng b ở i các giá tr ị b ấ t th ườ ng.
Y ế u v ị
• Y ế u v ị là giá tr ị x ả y ra v ớ i t ầ n su ấ t cao nh ấ t
trong t ậ p d ữ li ệ u.
Trang 9• Các ñ o l ườ ng ñộ phân tán là nh ữ ng ñ o l ườ ng mô
t ả nh ằ m cho bi ế t s ự phân tán c ủ a d ữ li ệ u hay là
tính bi ế n thiên c ủ a chúng trong t ậ p d ữ li ệ u.
• Ba tr ị s ố (ñă c tr ư ng) th ườ ng dùng ñể ño lườ ng ñộ
phân tán c ủ a t ậ p d ữ li ệ u là kho ả ng bi ế n thiên
(range), ph ươ ng sai (variance) và ñộ l ệ ch chu ẩ n
(standard deviation).
Kho ả ng bi ế n thiên
Kho ả ng bi ế n thiên = GT l ớ n nh ấ t – GT nh ỏ nh ấ t
Trang 10• Ví d ụ
Bảng sau cho biết tổng diện tích (tính theo miles) của
bốn tiểu bang vùng Western South-Central của Mỹ
53,182 49,651 69,903 267,277
Khoảng biến thiên của tập dữliệu này là 267,277 –
49,651 = 217,626 square miles
• Kho ả ng bi ế n thiên, gi ố ng nh ư trung bình, b ị
ả nh h ưở ng b ở i các giá tr ị b ấ t th ườ ng.
• Kho ả ng bi ế n thiên ñượ c tính d ự a trên ch ỉ hai
giá tr ị là giá tr ị nh ỏ nh ấ t và giá tr ị l ớ n nh ấ t.
Ph ươ ng sai và ñộ l ệ ch chu ẩ n
• ðộ l ệ ch chu ẩ n là ñặ c tr ư ng ñượ c dùng nhi ề u
nh ấ t ñể ño lườ ng ñộ phân tán c ủ a t ậ p d ữ li ệ u
• Giá tr ị c ủ a ñộ l ệ ch chu ẩ n cho ta bi ế t các giá tr ị
c ủ a t ậ p d ữ li ệ u g ầ n v ớ i trung bình ñế n c ỡ nào
Trang 11• T ổ ng quát, giá tr ị c ủ a ñộ l ệ ch chu ẩ n nh ỏ cho
ta bi ế t các giá tr ị trong t ậ p d ữ li ệ u phân tán
quanh trung bình trong m ộ t ph ạ m vi t ươ ng ñố i
nh ỏ (phân tán ít).
• Ngượ c l ạ i, giá tr ị c ủ a ñộ l ệ ch chu ẩ n l ớ n cho ta
bi ế t các giá tr ị trong t ậ p d ữ li ệ u phân tán quanh
trung bình trong m ộ t ph ạ m vi t ươ ng ñố i l ớ n
(phân tán nhi ề u)
Nhìn qua các quan sát trong hai mẫu ta thấy các quan
sát trong mẫu A ít phân tán hơn các quan sát trong
mẫu B Ít phân tán hơn có nghĩa là các quan sát có giá
trịgần với giá trịcủa trung bình hơn
Như vậy ñộlệch chuẩn của mẫu A sẽcó giá trịnhỏ
hơn giá trịcủa ñộlệch chuẩn của mẫu B
Trang 122 2
• Công th ứ c tính ph ươ ng sai sau t ươ ng ñươ ng
v ớ i công th ứ c trên, nhưng việ c tính toán ñượ c
x x
=
2 2
x x
s
Trang 13Bảng sau cho thấy tổng số tiền lương phải trả trong
năm 2002 cho 5 ñội bòng chày quốc gia của Mỹ
62931267534
Tính ñộlệch chuẩn của mẫu trên?
Trang 14ðộlệch chuẩn của mẫu là:
( )
498 , 387 , 34
$ 387498
34 50
.
1182
50 1182 4
420 , 30 150 , 35 1
5 5
) 390 ( 150 , 35 1
2 2
s
• Nh ậ n xét.
- Giá trịcủa phương sai và ñộlệch chuẩn không âm
- ðơn vị ño của phương sai luôn là bình phương ñơn
vị ño của dữliệu gốc
Tóm l ạ i,
• Ba ñặ c tr ư ng th ườ ng dùng ñể ño lườ ng
khuynh h ướ ng t ậ p trung c ủ a t ậ p d ữ li ệ u là
trung bình, trung v ị và y ế u v ị
• Ba ñặ c tr ư ng th ườ ng dùng ñể ño lườ ng ñộ
phân tán c ủ a t ậ p d ữ li ệ u là kho ả ng bi ế n
thiên, ph ươ ng sai và ñộ l ệ ch chu ẩ n.
• Sáu ñặ c tr ư ng này ñượ c g ọ i chung là các
ñ o l ườ ng tóm l ượ c (summary measures) c ủ a
t ậ p d ữ li ệ u ñ ã cho.
Trang 15• Các ñ o l ườ ng tóm l ượ c ñượ c tính toán ñố i v ớ i
t ậ p d ữ li ệ u m ẫ u ñượ c g ọ i là th ố ng kê m ẫ u hay
Trang 17∑mf = 535
2013515014090
mf
N = 25
49642
21 25
Trang 18• Ví d ụ
Bảng sau cho biết phân phối tần suất của số lượng
ñơn ñặt hàng qua thư trong 50 ngày vừa qua của một
công ty cho phép ñặt hàng qua thư
4122014
Tính trung bình của mẫu
11141720
m
∑mf = 832
44168340280
mf
n = 50
4122014
16 50
Trang 19• Công th ứ c tính ph ươ ng sai sau t ươ ng ñươ ng
v ớ i công th ứ c trên, nhưng việ c tính toán ñượ c
mf f
m
∑ − ∑
=
2 2
mf f
m s
Trong ñó m là trung ñiểm của lớp, và f là tần suất
của lớp
Trang 20(minutes)
Trang 21∑m²f =
14,825
1002025375049004050
m²f
515253545
m
N = 25
49642
11 04 135
04 135 25
3376 25
25
) 535 ( 825 , 14 )
(
2
2 2
mf f
m
Như vậy, ñộlệch chuẩn của thời gian ñi lại hằng ngày
giữa nhà và nơi làm việc của các nhân viên là 11.62
phút
Trang 22• Ví d ụ
Bảng sau cho biết phân phối tần suất của số lượng
ñơn ñặt hàng qua thư trong 50 ngày vừa qua của một
công ty cho phép ñặt hàng qua thư
4122014
Tính ñộlệch chuẩn của mẫu
∑mf = 832
44168340280
mf
∑m²f = 14,216
484235257805600
m²f
11141720
m
n = 50
4122014
Trang 23orders 75
2 5820 7
5820 7 1
50
50
) 832 ( 216 , 14 1
) (
2
2 2
m
s
Như vậy, ñộlệch chuẩn của số ñơn ñặt hàng qua thư
của công ty trong 50 ngày vừa qua là 2.75 ñơn ñặt
Trang 26• Trong các hình v ẽ trên ta dùng ký hi ệ u trung
bình và ñộ l ệ ch chu ẩ n c ủ a t ổ ng th ể Tuy nhiên,
phụnữ ñược khảo sát vềtình trạng cao huyết áp là
187 và ñộlệch chuẩn là 22 Hỏi có ít nhất bao nhiêu
phần trăm phụnữtrong số ñó có huyết áp trong
Trang 27Theo ñịnh lý Chebyshev, ta có ít nhất 75% phụnữtrong
tổng thể khảo sát có huyết áp nằm trong khoảng 143 và
Trang 28người là phân phối chuẩn, có trung bình và ñộlệch
chuẩn lần lượt là 40 và 12 Tính xem có xấp xỉbao
nhiêu phần trăm người trong mẫu này có ñộtuổi trong
Vậy k = 2, theo quy tắc thực nghiệm ta có xấp xỉ95%
số người có ñộtuổi trong khoảng từ 16 ñến 64
Trang 29Ta có xấp xỉ 95% các quan sát nằm trong khoảng hai
ñộ lệch chuẩn so với trung bình
Trang 305 Các ñ o l ườ ng v ị trí
• ðo lườ ng v ị trí xác ñị nh giá tr ị ứ ng v ớ i m ộ t v ị trí
nào ñ ó trong m ố i t ươ ng quan v ớ i các giá tr ị khác
• Các ñ i ể m t ứ phân (quartiles) là ba ño lườ ng
tóm l ượ c nh ằ m chia t ậ p d ữ li ệ u ñ ã ñượ c s ắ p
Trang 31• ðiể m t ứ phân th ứ hai (Q2) chính là trung v ị
c ủ a t ậ p d ữ li ệ u.
• ðiể m t ứ phân th ứ nh ấ t (Q1) là giá tr ị ñứ ng
gi ữ a trong s ố các quan sát nh ỏ hơn trung vị
• ðiể m t ứ phân th ứ ba (Q3) là giá tr ị ñứ ng gi ữ a
trong s ố các quan sát l ớ n h ơ n trung v ị
• Kho ả ng cách gi ữ a ñ i ể m t ứ phân th ứ ba và
ñ i ể m t ứ phân th ứ nh ấ t ñượ c g ọ i là ñộ tr ả i gi ữ a
IR (interquartile range) Ta có IR = Q3 – Q1.
• Ví d ụ
Sau ñây là tuổi của 9 nhân viên của một công ty bảo
hiểm Hãy xác ñịnh giá trịcủa các ñiểm tứphân Cho
Trang 32• ðiể m bách phân th ứ k ký hi ệ u là Pk Trong ñ ó
k là s ố nguyên n ằ m trong kho ả ng t ừ 1 ñế n 99.
P 1 P 2 P 3 P 97 P 98 P 99
Mỗi một phần này chứa 1% các quan sát của tập
dữli u ñược sắp xếp theo thứtự tăng dần
• Pk có th ể hi ể u là m ộ t giá tr ị sao cho có kho ả ng
k% các quan sát nh ỏ hơn hoặ c b ằ ng Pk, và
Trang 33• Ví d ụ
Sau ñây là dữliệu vềtổng lợi tức của 12 ban nhạc
hàng ñầu của vùng Bắc Mỹtrong suốt thời gian qua
(tính theo triệu USD)
Trang 356 Bi ể u ñồ h ộ p và râu
• Bi ể u ñồ h ộ p và râu bi ể u di ễ n d ữ li ệ u thông qua
n ă m ñ o l ườ ng tóm l ượ c bao g ồ m:
• Kho ả ng I (Inner Fence) ñượ c xác ñị nh b ở i biên
d ướ i và biên trên như sau :
- Biên dướ i kho ả ng I = Q1 – 1 ,5 x ðộ tr ả i gi ữ a
- Biên trên kho ả ng I = Q3 + 1,5 x ðộ tr ả i gi ữ a
• Ví d ụ
Sau ñây là thu nhập hằng năm của một mẫu gồm 12
gia ñình (tính theo triệu ñồng)
35 29 44 72 43 64 41 50 54 104 39 58
Sắp xếp lại theo thứtự tăng dần ta ñược
29 34 35 39 41 44 50 54 58 64 72 104
Trang 36Biên dưới khoảng I = 37 – 1,5 x 24 = 37 - 36 = 1
Biên trên khoảng I = 61 + 1,5 x 24 = 97
Khoảng I = (1, 97)
GTNN của tập dữ liệu nằm trong khoảng I là 29
GTLN của tập dữliệu nằm trong khoảng I là 72
(1 gọi là lower inner fence, 97 gọi là upper inner fence,
khoảng I gọi là inner fence)
Thu nhập
ðiểm tứphân
thứba Trung vị
ðiểm tứphân
thứnhất
105
Trang 37Thu nhập
ð i ể m t ứ phân th ứ ba Trung v ị
ð i ể m t ứ phân
th ứ nh ấ t
GTLN n ằ m trong kho ả ng I
- Khoảng 50% các giá trịdữ liệu rơi vào bên trong hộp
- Khoảng 25% các giá trị rơi vào phía bên phải của hộp
- Khoảng 25% các giá trị rơi vào phía bên trái của hộp
- Khoảng 50% các giá trị rơi vào phía bên phải trung vị
- Khoảng 50% các giá trị rơi vào phía bên trái trung vị
- Với tập dữliệu ñã cho, phân phối tần suất của nó lệch
vềbên phải vì 50% các giá trịnhỏ hơn ñược phân tán
trên một khoảng nhỏ hơn 50% các giá trị ớn hơn
Trang 38- Liên quan ñến khoảng O (outer fence).
- Biên dưới khoảng O = Q1– 3 x KL tứphân
- Biên trên khoảng O = Q3+ 3 x KL tứphân
- Một quan sát nằm ngoài khoảng I nhưng nằm trong
khoảng O ñược gọi là phần tửbất thường yếu (mild
outlier), còn nếu nằm ngoài khoảng O ñược gọi là
phần tửbất thường mạnh (extreme outlier)
• Ví d ụ
Với tập dữliệu ñã cho ta có:
Q1= (35 + 39) / 2 = 37 và Q3= (58 + 64) / 2 = 61
Khoảng lệch tứphân = Q3- Q1 = 61 - 37 = 24
Biên dưới khoảng I = 37 – 1,5 x 24 = 37 - 36 = 1
Biên trên khoảng I = 61 + 1,5 x 24 = 97
Biên dưới khoảng O = 37 – 3 x 24 = -35
Biên trên khoảng O = 61 + 3 x 24 = 133
Vậy 104 là phần tửbất thường yếu