SỐ ĐO KHUYNH HƯỚNG TẬP TRUNG Measures of Central Tendency : Số đo khuynh hướng tập trung chuyển tải thông tin về giá trị trung bình average value của một tập hợp số liệu.. Số trung vị
Trang 1TÓM TẮT SỐ LIỆU
I GIỚI THIỆU :
Số đo mô tả (descriptive measure) là phương tiện tóm tắt số liệu (TTSL)
– Số đo mô tả tính được từ số liệu của 1 mẫu được gọi là số thống kê
(statistic)
– Số đo mô tả tính được từ số liệu của 1 dân số được gọi là thông số
(parameter)
II SỐ ĐO KHUYNH HƯỚNG TẬP TRUNG (Measures of Central Tendency)
:
Số đo khuynh hướng tập trung chuyển tải thông tin về giá trị trung bình (average value) của một tập hợp số liệu Ba số đo khuynh hướng tập trung thường
dùng nhất là: số trội số trung vị , và số trung bình
1 Số trội (Mode) :
Số trội của một tập hợp giá trị là giá trị xuất hiện nhiều lần nhất Một tập
hợp
giá trị có thể không có số trội nào, hoặc có nhiều hơn 1 số trội
Trang 2Đặc điểm của số trội
Số trội có thể được sử dụng để mô tả số liệu định tính
2 Số trung vị (Median)
Số trung vị của một tập hợp số liệu là giá trị đứng giữa 2 phần bằng nhau của
tập hợp (số giá trị bằng hoặc lớn hơn số trung vị bằng với số giá trị bằng hoặc
nhỏ hơn số trung vị)
Nếu số giá trị là một số lẻ, số trung vị sẽ là giá trị đứng ngay giữa chuỗi thống
kê Nếu số giá trị là một số chẵn, số trung vị sẽ bằng số trung bình của 2 giá trị
đứng ngay giữa chuỗi thống kê
Đặc điểm của số trung vị:
– Độc nhất (đối với mỗi tập hợp số liệu chỉ có 1 số trung vị)
Trang 3– Đơn giản (dễ hiểu và dễ tính toán)
– Giá trị cực (extreme values) không gây ảnh hưởng nhiều đến số trung
vị
3 Số trung bình toán học (Arithmatic Mean) :
Trung bình (của) dân số (Population Mean) :
N
x
N
i i
N: số giá trị của dân số
Trung bình (của) mẫu (Sample Mean) :
n
x
n
i
i
x
n: số giá trị của mẫu
Đặc điểm của số trung bình:
– Độc nhất (đối với mỗi tập hợp số liệu chỉ có 1 số trung bình)
– Đơn giản (dễ hiểu và dễ tính toán)
– Giá trị cực (extreme values) gây ảnh hưởng nhiều đến số trung bình
Trang 4Số trung bình gia trọng (Weighted mean)
Là số trung bình được tính khi phân tích số liệu từ nhiều mẫu về cùng 1 loại thông tin nhưng được thu thập ở những thời điểm khác nhau và có cỡ mẫu khác nhau Số trung bình gia trọng được tính như sau:
Weighted x = ∑ nixi/N
ni số giá trị của mẫu i
xI số trung bình của mẫu i
N tổng số giá trị của các mẫu
Trimmed mean (số trung bình gọn) và Winsorized mean (số trung bình gán)
Là hai phép tính lại số trung bình nhằm hạn chế tác động của giá trị cực
– Trimmed mean: số trung bình được tính sau khi đã “gọt bỏ” giá trị đầu và giá trị
cuối của chuỗi thống kê
– Winsorize mean: số trung bình được tính sau khi đã gán 5% số giá trị ở đầu chuỗi
Trang 5thống kê (các giá trị cực thấp) bằng với giá trị thấp kế tiếp (so
với 5% các giá trị cực thấp), và 5% số giá trị ở cuối chuỗi
thống kê (các giá trị cực cao) bằng với giá trị cao kế tiếp (so
với 5% các giá trị cực cao)
III SỐ ĐO KHUYNH HƯỚNG PHÂN TÁN (Measures of Dispersion) :
Số đo phân tán chuyển tải thông tin về khối lượng (mức độ) biến thiên hiện diện
trong tập hợp số liệu
1 Biên độ(Range) :
R = xL – xs
Công dụng của biên độ rất giới hạn (vì chỉ dùng có 2 giá trị)
2 Phương sai (Variance) :
Trang 6Phương sai của một tập hợp số liệu là số đo độ phân tán tương đối của các giá
trị (thuộc tập hợp) xung quanh số trung bình (của tập hợp số liệu)
+ Phương sai (của) dân số (Population Variance)
2
1
2
N
x
N
i i
N: số giá trị của dân số
+ Phương sai (của) mẫu (Sample Variance)
Trường hợp mẫu nhỏ :
2
1
1
2
n
x x
n
i i
S n: số giá trị của mẫu
Trường hợp mẫu lớn :
1
2 1
2 1
2
n n
x x
n S
n
i i
n
i i
3 Độ lệch chuẩn (Standard Deviation)
Trang 7ĐLC là số đo độ phân tán giống như phương sai, nhưng được diễn tả bằng
đơn
vị đo ban đầu ĐLC được tính bằng cách rút căn 2 của phương sai
ĐLC của dân số có ký hiệu (sigma), ĐLC của mẫu có ký hiệu là s
IV Bách phân vị và Tứ phân vị (Percentiles and Quartiles)
Cho một tập hợp có n giá trị x 1 , x 2 , …… , x n , bách phân vị thứ p (gọi là P) là
giá trị
của X mà theo đó có p% số giá trị nhỏ hơn P và (100–p)% số giá trị lớn hơn P
P10 chỉ bách phân vị thứ 10, P50 chỉ bách phân vị thứ 50, v v
Thông thường, bách phân vị được tính trong các trường hợp tập hợp số liệu lớn
Vị trí của bách phân vị thứ k (Pk) có thể được tính như sau:
Trang 8k
Pk 100
Bách phân vị thứ 25 thường được gọi là Tứ phân vị thứ nhất (Q 1 )
Bách phân vị thứ 50 (số trung vị) thường được gọi là Tứ phân vị thứ hai
(hoặc Tứ phân vị giữa – Q 2 )
Bách phân vị thứ 75 thường được gọi là Tứ phân vị thứ ba (Q 3 )
3 Hộp và Dây kéo (Box-and-Whisker Plots)
Công cụ hình ảnh để trình bày các tứ phân vị Năm bước để vẽ:
– Đặt biến số lên trục ngang (hoành)
– Vẽ một box vào khoảng không nằm trên trục ngang với các đặc điểm: đầu
bên trái của box ứng với Q1, và đầu bên phải của box ứng với Q3
– Chia box làm 2 phần bằng 1 đường dọc ứng với Q2
Trang 9– Kẻ 1 đường nằm ngang gọi là whisker từ đầu trái của box đến điểm
ứng với
giá trị nhỏ nhất của chuỗi số liệu
– Kẻ 1 đường nằm ngang khác, cũng gọi là whisker từ đầu phải của box
đến
điểm ứng với giá trị lớn nhất của chuỗi số liệu