Bài giảng Thống kê ứng dụng trong kinh doanh: Chương 4 - Tóm tắt dữ liệu bằng các đại lượng số được biên soạn với các nội dung sau: Các đại lượng đo lường xu hướng tập trung; Các đại lượng đo lường độ phân tán; Các đại lượng đo lường hình dáng phân phối và phát hiện giá trị bất thường; Biểu đồ hình hộp; Thực hành phân tích dữ liệu bang thống kê mô tả với Excel/ SPSS. Mời các bạn cũng tham khảo bài giảng tại đây!
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN KINH TẾ VÀ QUẢN LÝ
CHƯƠNG 4
TÓM TẮT DỮ LIỆU BẰNG CÁC ĐẠI LƯỢNG SỐ
EM3230 THỐNG KÊ ỨNG DỤNG TRONG KINH DOANH
Trang 2Nội dung chính
4.1 Các đại lượng đo lường xu hướng tập trung
4.2 Các đại lượng đo lường độ phân tán
4.3 Các đại lượng đo lường hình dáng phân phối và phát hiện giá trị bất thường 4.4 Biểu đồ hình hộp
4.5 Thực hành phân tích dữ liệu bang thống kê mô tả với Excel/ SPSS
Trang 34.1 Các đại lượng đo lường xu hướng tập trung
Xu hướng tập trung
4.1.1 Trung bình 4.1.2 Trung vị 4.1.3 Mode 4.1.5 Trung bình
nhân
4.1.4 Tứ phân vị
Trang 44.1 Các đại lượng đo lường xu hướng tập trung
Phân biệt 3 loại dữ liệu
§ Dữ liệu rời rạc, không phân tổ (tần số), không
khoảng cách tổ
§ Dữ liệu có phân tổ (tần số), không có khoảng cách tổ
§ Dữ liệu có phân tổ (tần số) và có khoảng cách tổ
Trang 6x x
i i
i i
f
f
m x
1 1
Trang 74.1.1 Trung bình cộng
Ví dụ
VD1: DL không có khoảng cách tổ, không có tần số
Cho bộ số liệu về số năm công tác của 10 nhân viên phòng Kinh doanh công ty TNHH Hồng Minh:
6, 3, 4, 2, 6, 3, 8, 6, 4, 5
VD2: DL không có khoảng cách tổ, có tần số
7 , 4 10
5 4 6 8 3 6 2 4 3 6
320
f
f x
x
Trang 8i i i
n i i
m f x
Trang 94.1.1 Trung bình cộng
Tính chất của Trung bình cộng
§ Có một giá trị trung bình duy nhất trong dãy số
§
§ Có thể áp dụng đối với DL khoảng và DL tỷ lệ
§ TB bị ảnh hưởng bởi các giá trị đột biến
§ 2, 3, 3, 4, 4, 5, 6, 6, 6, 8 2, 3, 3, 4, 4, 5, 6, 6, 6, 20
å
=
= -
n i
x
1
0 )
(
6 , 6
=
x
7 , 4
=
x
Trang 10§ Trung vị chia bộ dữ liệu thành 2 phần bằng nhau, ½ số đơn vị trong bộ dữ liệu
có giá trị nhỏ hơn Me, ½ số đơn vị trong bộ dữ liệu có giá trị lớn hơn Me
Trang 11xMe(min) : Giá trị giới hạn dưới của tổ chứa trung vị
hMe : Khoảng cách tổ của tổ chứa trung vị
sMe-1 : Tần số tích lũy của tổ trước tổ chứa trung vị
fMe : Tần số của tổ chứa trung vị
Bước 1: Xác định tổ chứa trung vị S i >=(Sf i +1)/2
Bước 2 : Xác định trung vị theo công thức
Trang 123 2
4
3 2
11
10 + = + =
Trang 134.1.2 Trung vị (Median-Me)
§ Ví dụ
q VD 3 ( DL có khoảng cách tổ)
5,69 26
16 2
50 2
x M
*
Trang 144.1.2 Trung vị (Median-Me)
Tính chất của trung vị
§ Có một trung vị duy nhất trong mỗi dãy số
§ Có thể áp dụng đối với dữ liệu thứ bậc, dữ liệu khoảng, dữ liệu tỷ lệ
§ Không bị ảnh hưởng bởi giá trị đột biến
2, 3, 3, 4, 4, 5, 6, 6, 6, 8 2, 3, 3, 4, 4, 5, 6, 6, 6, 20
Me = 4,5 Me = 4,5
6 , 6
=
x
7 , 4
=
x
Trang 154.1.3 Mốt (Mode- Mo)
Khái niệm: giá trị gặp nhiều lần nhất trong tập dữ liệu
Công thức tính:
§ Dữ liệu không có khoảng cách tổ
o Mốt là giá trị có tần số xuất hiện lớn nhất
§ Dữ liệu có khoảng cách tổ
• Bước 1: Xác định tổ chứa Mốt ( fmax)
• Bước 2: Xác định Mốt theo công thức
) (
)
1(min)
0 0
0 0
0 0
0
+-
+
+
-=
M M
M M
M
M M
Mo o
f f
f f
f
f h
x M
xMo(min) : Giá trị giới hạn dưới của tổ chứa mốt
hMo : Khoảng cách tổ của tổ chứa mốt
fMo : Tần số của tổ chứa mốt
fMo-1 : Tần số của tổ trước tổ chứa mốt
fMo+1 : Tần số của tổ trước sau tổ chứa mốt
Trang 1626 2
+
-´ +
=
o
M
Trang 17§ Nên sử dụng Mốt đối với tổng thể có tương đối nhiều đơn vị
§ Không nên sử dụng Mốt đối với tổng thể có đặc điểm phân phối không bình
6 , 6
=
x
7 , 4
=
x
Trang 18So sánh trung bình, trung vị và mode
Trang 194.1.4 Các tứ phân vị (Quartiles)
Khái niệm: là các giá trị chia bộ dữ liệu ra làm 4 phần bằng nhau
Công thức tính (cần sắp xếp thứ tự từ nhỏ đến lớn trước khi tính)
§ Tứ phân vị thứ 1: Q1= X(n+1)/4 chia dữ liệu thành 2 phần (25% các giá trị đầu< Q1; 75% các giá trị sau > Q1
§ Tứ phân vị thứ 2: Q2= Me
§ Tứ phân vị thứ 3: Q3= X3(n+1)/4 chia dữ liệu thành 2 phần (75% các giá trị đầu< Q3; 25% các giá trị sau > Q3
Trang 204.1.4 Các tứ phân vị (Quartiles)
Nguyên tắc
Nếu kết quả tính vị trí của tứ phân vị [(n+1)/4] và [3n+1)/4] thu được là
§ số nguyên thì tứ phân vị là giá trị của đơn vị đứng thứ tự đó
§ là số ½ thì lấy trung bình của 2 giá trị tương ứng
§ không phải là số nguyên cũng không phải số ½ thì làm tròn đến số nguyên gần nhất
Trang 214.1.5 Trung bình nhân (Geometric mean)
Khái niệm : Trung bình nhân của một bộ n số liệu là căn bậc n của tích các sốliệu đó
Công thức tính:
Phạm vi áp dụng trung bình nhân?
Sử dụng trong các trường hợp các lượng biến có quan hệ tích số với nhau
(số tương đối với gốc so sánh khác nhau)
n
n
x x
x x
d = 1 2 3
Trang 224.1.5 Trung bình nhân (Geometric mean)
§ Ví dụ
§ Gọi x1 và x2 lần lượt là tốc độ phát triển liên hoàn cuối tháng 1 và cuối tháng 2
§ Trung bình cộng
§ Trung bình nhân
Trang 234.1 Các đại lượng đo lường xu hướng tập trung
Xu hướng tập trung
4.1.1 Trung bình 4.1.2 Trung vị 4.1.3 Mode 4.1.5 Trung bình
nhân
4.1.4 Tứ phân vị
Trang 244.2 Các đại lượng đo lường độ phân tán
Trang 254.2 Các đại lượng đo lường độ phân tán
Mean
Mean
Mean
No Variability in Cash Flow
Variability in Cash Flow Mean
Trang 264.2.1 Khoảng biến thiên (Range)
§ Khái niệm: là chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất của bộ dữ
liệu.
§ Công thức tính:
§ Ý nghĩa:
Khoảng biến thiên càng nhỏ thì tổng thể càng đồng đều và ngược lại
§ Ưu điểm: Đơn giản dễ tính
§ Nhược điểm: Chỉ phụ thuộc vào đơn vị lớn nhất và nhỏ nhất
Nên việc đánh giá không hoàn toàn chính xác.
Trang 27-4.2.2 Khoảng tứ phân vị (Inter-quartile Range- IQR)
Khái niệm: là chênh lệch giữa giá trị của tứ phân vị thứ nhất và tứ phân vị thứ 3
-Phát hiện giá trị đột biến (Outliers)
Một quan sát được xem là bất thường nếu giá trị của nó
Lớn hơn: Q3 + 1,5*IQR hay Nhỏ hơn: Q1 – 1,5*IQR
Trang 284.2.3 Phương sai (Variance) và độ lệch chuẩn (Standard Deviation)
a) Phương sai
Khái niệm: là trung bình cộng của bình phương các độ lệch giữa các trị số trong dãy
số với số trung bình cộng của dãy số đó
1
2 2
-÷ ø
ö ç
è
æ -
= -
n
x
x s
n i
n i
i i
n i
i
2 1
2 2
x N
i
i N
i
i
) ( - 2
ån x i x f i ån (m i - x) 2 f i
Trang 294.2.3 Phương sai (Variance) và độ lệch chuẩn (Standard Deviation)
Trang 304.2.3 Phương sai (Variance) và độ lệch chuẩn (Standard Deviation)
Trang 314.2.3 Phương sai (Variance) và Độ lệch chuẩn (Standard Deviation)
Thu nhập tr./tháng
349
1541
m s
n
i
i
6 , 5 50
f
f m
x
773 ,
1
= s s
Thu nhập tr./tháng
Trang 32Đặc điểm chung của 4 đại lượng đo lường độ phân tán
v 4 đại lượng trên càng bé thì tổng thể càng đồng đều và ngược lại
v Nếu tất cả các đơn vị của tổng thể có trị số bằng nhau thì 4 đại lượng trên đều tiến tới = 0
v Các đại lượng trên đều không âm
v Không thể so sánh giữa các tổng thể nếu đơn vị đo lường khác nhau
Khi đó phải dùng đến trị số : Hệ số biến thiên.
Trang 33µ
s
=
CV
Trang 34Quy tắc thực nghiệm
Nếu tổng thể X có phân phối chuẩn với trung bình µ và và độ lệch chuẩn s, thì:
§ Xấp xỉ 68% giá trị nằm trong khoảng µ ±1s
§ Xấp xỉ 99,73% giá trị nằm trong khoảng µ ±3s
á+¥
¥á -
=
-
-x e
x f
1 )
µ
ps
68%
95%
4.3 Các đại lượng đo lường hình dáng phân phối và phát hiện giá trị bất thường
Trang 354.3 Các đại lượng đo lường hình dáng phân phối và phát hiện giá trị bất thường
Quy tắc Chebyshev :
Đối với mọi tập dữ liệu bất kỳ, không cần xét đến hình dáng của phân phối,
thì sẽ có ít nhất (1-1/k 2 )*100% quan sát tập trung trong phạm vi k lần độ lệch chuẩn tính từ trung bình với mọi k>1.
Với k=2, có ít nhất 75% số quan sát của tập trung trong phạm vi 2 lần độ lệch chuẩn xung quanh giá trị
trung bình
k Số quan sát tối thiểu (%) Phạm vi 1,5 55,56 (µ± 1,5 s) 2,0 75,00 (µ± 2 s) 2,5 84,00 (µ± 2,5 s) 3,0 88,89 (µ± 3 s)
Trang 364.3 Các đại lượng đo lường hình dáng phân phối và phát hiện giá trị bất thường
§ Giá trị chuẩn hoá (Normalization) - Z
§ μ: trung bình (kỳ vọng_ của tập số)
chuẩn Z cho biết một dữ liệu lệch khỏi trung bình mấy lần độ lệch chuẩn.
Trang 374.4 Biểu đồ hình hộp
Khái niệm: là một cách tóm tắt dữ liệu mà chúng cung cấp một số thông tin về hìnhdáng của phân phối dữ liệu
Các bước xây dựng biểu đồ hình hộp
1 Sắp xếp thứ tự theo thứ tự tăng dần, tính các tứ phân vị
2 Vẽ một trục toạ độ bao trùm lên khoảng biến thiên của dữ liệu
3 Đánh dấu lên trục tọa độ 5 giá trị Xmin, Xmax, Q1, Q3, Me
4 Vẽ hình hộp có 2 cạnh song song với trục tọa độ và được giới hạn bởi Q1 và Q3
5 Vẽ một đoạn thẳng cắt ngang hình hộp tại điểm Me
6 Vẽ 2 đoạn thẳng (2 râu) nối 2 đầu của hình hộp với Xmax và Xmin
Trang 384.4 Biểu đồ hình hộp
Ví dụ:
Có bộ dữ liệu như sau: 5, 7, 9, 9, 10, 11, 16, 16, 21, 25 (n=10)
Tính 5 giá trị: Xmax= 25 ; Xmin = 5; Q1 = X 3= 9; Q3= X8= 16; Me = X5,5 = 10,5
Q1 M
IQR= Q3-Q1= 7 Q1-1,5*IQR=9-10,5=-1,5 Q3+1,5*IQR= 16+10,5=26,5
à Bộ dữ liệu không có giá trị đột biến
Trang 394.4 Biểu đồ hình hộp
Pages vẽ biểu đồ hình hộp tự động
http://www.alcula.com/calculators/statistics/box-plot/
http://www.imathas.com/stattools/boxplot.html
Trang 404.4 Biểu đồ hình hộp
Ý nghĩa:
§ Cho biết độ trải của dữ liệu thông qua R, IQR
§ Cho biết xu hướng tập trung của dữ liệu thông qua Me
§ Cho biết dữ liệu có phân phối đối xứng qua trung vị ( Nếu 2 phần của hình hộp
có kích thước xấp xỉ = 2 râu ) hay không?
Trang 414.4 Biểu đồ hình hộp
Ý nghĩa:
§ Biểu đồ hình hộp còn được dùng để so sánh các bộ dữ liệu
§ Ví dụ so sánh tốc độ của ánh sáng
Trang 42Sử dụng Add-ins: Data Analysis/ Descriptive Statistics
Trang 434.5 Thực hành với Excel và SPSS
Trang 444.5 Thực hành với Excel và SPSS
Tính toán các đại lượng thống kê mô tả trong SPSS
muốn tính toán
Kết quả
Trang 45TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN KINH TẾ VÀ QUẢN LÝ
CHÚC CÁC BẠN HỌC TỐT