Bài giảng THỐNG KÊ KINH DOANH Chương 4 THỐNG KÊ MÔ TẢ Bài giảng THỐNG KÊ KINH DOANH Chương 4 THỐNG KÊ MÔ TẢ Thạc sĩ Nguyễn Công Nhựt Khoa KHCB Trường Đại học Văn Lang Ngày 13 tháng 10 năm 2022 Nguyen. 41 Dạng 1 : Các đặc trưng đo mức tập trung của dữ liệu (trung bình, trung vị và yếu vị) 42 Dạng 2 : Các đặc trưng đo mức phân tán của dữ liệu (độ lệch tuyệt đối bình quân, phương sai và độ lệch chuẩn mẫu, hệ số biến thiên) 43 Các hệ số đo vị trí tương đối của dữ liệu 44 Các hệ số tương quan của các bộ dữ liệu 45 Các hệ số đo hình dạng của quy luật phân phối
Trang 1Bài giảng
THỐNG KÊ KINH DOANH
Chương 4 THỐNG KÊ MÔ TẢ
Thạc sĩ Nguyễn Công Nhựt
Khoa KHCB Trường Đại học Văn Lang
Ngày 13 tháng 10 năm 2022
Trang 2THỐNG KÊ KINH DOANH
⋆ Hướng dẫn cách học - chi tiết cách đánh giá môn học
Tài liệu, video bài giảng được đưa lên elearning hàng tuần Sinh viên tải về, in ra và mangtheo khi học Điểm tổng kết môn học được đánh giá xuyên suốt quá trình học
Trang 31 BIẾN NGẪU NHIÊN
2 MỘT SỐ PHÂN PHỐI XÁC SUẤT THÔNG DỤNG
3 NGUYÊN LÝ THỐNG KÊ
4 THỐNG KÊ MÔ TẢ
5 ƯỚC LƯỢNG KHOẢNG
6 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
7 CHUỖI THỜI GIAN VÀ DỰ BÁO TRÊN CHUỖI THỜI GIAN
Trang 41 BIẾN NGẪU NHIÊN
2 MỘT SỐ PHÂN PHỐI XÁC SUẤT THÔNG DỤNG
3 NGUYÊN LÝ THỐNG KÊ
4 THỐNG KÊ MÔ TẢ
5 ƯỚC LƯỢNG KHOẢNG
6 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
7 CHUỖI THỜI GIAN VÀ DỰ BÁO TRÊN CHUỖI THỜI GIAN
Trang 51 BIẾN NGẪU NHIÊN
2 MỘT SỐ PHÂN PHỐI XÁC SUẤT THÔNG DỤNG
3 NGUYÊN LÝ THỐNG KÊ
4 THỐNG KÊ MÔ TẢ
5 ƯỚC LƯỢNG KHOẢNG
6 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
7 CHUỖI THỜI GIAN VÀ DỰ BÁO TRÊN CHUỖI THỜI GIAN
Trang 61 BIẾN NGẪU NHIÊN
2 MỘT SỐ PHÂN PHỐI XÁC SUẤT THÔNG DỤNG
3 NGUYÊN LÝ THỐNG KÊ
4 THỐNG KÊ MÔ TẢ
5 ƯỚC LƯỢNG KHOẢNG
6 KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
7 CHUỖI THỜI GIAN VÀ DỰ BÁO TRÊN CHUỖI THỜI GIAN
Trang 7CHƯƠNG 4 THỐNG KÊ MÔ TẢ
NỘI DUNG
4-1 Dạng 1 : Các đặc trưng đo mức tập trung của dữ liệu (trung bình, trung vị và yếu vị)
4-2 Dạng 2 : Các đặc trưng đo mức phân tán của dữ liệu (độ lệch tuyệt đối bình quân,
phương sai và độ lệch chuẩn mẫu, hệ số biến thiên)
4-3 Các hệ số đo vị trí tương đối của dữ liệu
4-4 Các hệ số tương quan của các bộ dữ liệu
4-5 Các hệ số đo hình dạng của quy luật phân phối
Trang 8CHƯƠNG 4 THỐNG KÊ MÔ TẢ
YÊU CẦU CẦN NẮM
Dựa trên mẫu dữ liệu sinh viên tính toán được các đặc trưng số của dữ liệu gồm:
⋆ Các đặc trưng đo mức bình quân và tập trung của dữ liệu: trung bình, trung vị (median)
và yếu vị (mode)
⋆ Các đặc trưng đo mức độ phân tán của dữ liệu: khoảng biến thiên, độ lệch tuyệt đối bìnhquân, phương sai, độ lệch chuẩn, hệ số biến thiên
⋆ Các đặc trưng đo vị trí tương đối của dữ liệu: tứ phân vị, phân vị, quy tắc 3 sigma
⋆ Hệ số tương quan giữa các bộ dữ liệu
Trang 94.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 104.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 114.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.1 Số trung bình số học
Trung bình số học có trọng số
Xét một mẫu có kích thước n với các giá trị là x1,· · ·, xk, trong đó x1 có n1 giá trị, ,xk có
nk giá trị vàn =n1+ · · · +nk Số liệu được lập thành bảng có tần số như sau:
n
∑
i=1
Trang 124.1 Các đại lượng đo mức độ tập trung của dữ liệu ==> 4.1.1 Số trung bình số học
Trang 134.1 Các đại lượng đo mức độ tập trung của dữ liệu ==> 4.1.1 Số trung bình số học
Trang 144.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 154.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.2 Số trung bình điều hòa
Số trung bình điều hòa
Mi =Xini : Tổng tất cả các lượng biến cùng giá trị lượng biến thứ i
Tính trung bình lương của một người theo bảng số liệu sau
Tiền lương 1 người (nhóm)(ngàn đồng) 500 650 800 950 1.000
Tiền lương cả nhóm 4.500 5.200 16.000 9.500 7.000
Trang 164.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.3 Quy luật phân phối của trung bình mẫu
Định nghĩa
Giả sử tổng thể X có quy luật phân phối chuẩn vớiX ∼N µ; σ2
trên tổng thể này tathu thập một mẫu dữ liệu cỡ mẫun gồm(X1; X2; ; Xn)thì ta có đại lượng trung bìnhmẫu X¯ cũng tuân theo quy luật phân phối chuẩn với X¯ ∼Nµ; σ2
n
hướng xấp xỉ bởi một phân phối chuẩn
Trang 174.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.3 Quy luật phân phối của trung bình mẫu
Ví dụ 4
Giám đốc nhân sự của công ty xây dựng hồ sơ của 2500 của nhân viên để báo cáo ban giámđốc Trong mục báo cáo về tiền lương hằng năm của nhân viên cho thông tin Trung bình tổngthể tiền lương hằng năm của nhân viên là 51800 USD Độ lệch chuẩn tổng thể tiền lươnghằng năm của nhân viên là 4000 USD Giả sử bây giờ cơ sở dữ liệu chi tiết của 2500 nhân viênchưa được cập nhật, nên thay vào đó giám đốc nhân sự dùng dữ liệu của 30 nhân viên để báocáo thay tổng thể Câu hỏi là nếu sai số trung bình mẫu tiền lương hằng năm nhân viên so vớitổng thể không quá 500USD có xác suất là bao nhiêu?
Trang 184.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.3 Quy luật phân phối của trung bình mẫu
Giải Theo quy luật phân phối của trung bình mẫu, vớin =30 ta có
!
−φ −4000500
√ 30
!
=2φ(0, 68) =2×0, 2517=50, 34%
Như vậy với một mẫun =30, cho xác suất về mức chênh lệch giữa trung bình mẫu tiền lương
cao hơn, giám đốc nhân sự nên suy nghĩ về việc sử dụng một mẫu dữ liệu với cỡ mẫu lơn hơn
Trang 194.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.4 Số trung bình nhân
Số trung bình nhân
Trường hợp lượng biến quan sát không cùng gốc so sánh, mà lượng biến sau thay đổi phụthuộc vào lượng biến trước, thì trung bình giữa các lượng biến được tính theo công thức trungbình nhân
Trang 204.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 214.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.5 Yếu vị (Mode)
Mode
Yếu vị là biểu hiện của một lượng biến được gặp nhiều nhất trong tổng thể Nếu xác định trên
đồ thị với trục tung là tần số, trục hoành là lượng biến thì ta có thể nói yếu vị là hoành độ củađiểm có tung độ cao nhất
Trường hợp lượng biến rời rạc
X x1 x2 · · · xk · · ·
ni n1 n2 · · · nk · · ·Mod(X) =xi sao cho ni =Max{n1, n2,· · ·, nk}
Trong trường hợp lượng biến rời rạc thì Mode là giá trị của lượng biến tương ứng với tần
số lớn nhất
Trang 224.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.5 Yếu vị (Mode)
Trường hợp lượng biến liên tục
X [x1, x2] [x2, x3] · · · [xk, xk+1] · · ·
ni n1 n2 · · · nk · · ·
Việc xác định giá trị Mod qua hai bước:
• Trường hợp số liệu phân tổ có khoảng cách bằng nhau Tổ chứa Mod là tổ có tần sốlớn nhất
• Trường hợp số liệu phân tổ có khoảng cách không bằng nhau Tổ chứa Mod là tổ cómật độ lớn nhất, với mật độ tổ cho bởi Mi = ni
hi, trong đó:ni là tần số của tổ thứi và
hi là chiều dài của tổ thứi
Trang 234.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.5 Yếu vị (Mod)
Bước 2: Xác định giá trị Mod trong tổ:
ModX=XMo(Min)+hM0 MM0−MMo−1
(MM 0−MM o −1) + (MM 0−MM 0 +1)
Trong đó XMo(Min: cận dưới của tổ chứa Mod
hMo : chiều dài của tổ chứa Mod
MMo: mật độ tổ chứa Mod
MMo − 1: mật độ tổ trước tổ chứa Mod
MMo+1: mật độ tổ sau tổ chứa Mod
Trang 244.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 254.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 264.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.6 Trung vị
Trung vị
Số trung vị là lượng biến của đơn vị tổng thể đứng ở vị trí giữa trong dãy số lượng biến đãđược sắp xếp theo thứ tự tăng dần Số trung vị phân chia dãy số lượng biến làm hai phần(phần trên và phần dưới số trung vị) mỗi phần có số đơn vị tổng thể bằng nhau
Trường hợp lượng biến rời rạc
Trang 274.1 Các đại lượng đo mức độ tập trung của dữ liệu
Cách 1: Dựa vào % tần suất cộng dồn > 50%
Cách 2: Dựa vào tần số cộng dồn Tổ chứa trung vị là tổ có tần số cộng dồn vừa lớn hơn haybằng ∑ ni +1
Trang 284.1 Các đại lượng đo mức độ tập trung của dữ liệu
4.1.6 Trung vị
Trung vị
- Bước 1: xác định tổ chứa trung vị
Cách 1: Dựa vào % tần suất cộng dồn > 50%
Cách 2: Dựa vào tần số cộng dồn Tổ chứa trung vị là tổ có tần số cộng dồn vừa lớn hơn haybằng ∑ ni +1
Trang 294.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 304.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 314.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 324.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 334.1 Các đại lượng đo mức độ tập trung của dữ liệu
Trang 344.2 Các đại lượng đo mức độ phân tán
4.2.1 Khoảng biến thiên
Định nghĩa
Khoảng biến thiên là độ dài khoảng giá trị mà lượng biến tối đa và tối thiểu có thể nhậnđược
R: Khoảng biến thiên
XMax: lượng biến tối đa
XMin: lượng biến tối thiểu
Trang 354.2 Các đại lượng đo mức độ phân tán
4.2.2 Độ lệch tuyệt đối bình quân
Độ lệch tuyệt đối bình quân
Độ lệch tuyệt đối bình quân là mức chênh lệch bình quân giữa các lượng biến và số bình quâncộng của các lượng biến đó
- Ưu điểm khảo sát sự chênh lệch của toàn bộ bảng số liệu so với giá trị trung bình
- Nhược điểm phụ thuộc vào việc xét dấu giá trị tuyệt đối,
Trang 364.2 Các đại lượng đo mức độ phân tán
4.2.2 Độ lệch tuyệt đối bình quân
Ví dụ 10
Cho bảng số liệu về tiền lương của nhân viên một công ty như sau
STT Mức lương (triệu dồng/người) Số nhân viên
Trang 374.2 Các đại lượng đo mức độ phân tán
4.2.2 Độ lệch tuyệt đối bình quân
Ví dụ 11
Có tài liệu về doanh thu của 79 cửa hàng trong tháng 10 năm 2009 như bảng dưới Xác định
độ lệch tuyệt đối bình quân của bảng số liệu
Doanh thu (triệu đồng) Số Cửa hàng Độ lệch tuyệt đối
Trang 384.2 Các đại lượng đo mức độ phân tán
Công thức theo tần số σ2 =Var X = N1 ∑N
i = 1(Xi −EX)2
Trang 394.2 Các đại lượng đo mức độ phân tán
Trang 404.2 Các đại lượng đo mức độ phân tán
Trang 414.2 Các đại lượng đo mức độ phân tán
4.2.5 Hệ số biến thiên
5 Hệ số biến thiên
Hệ số biến thiên là tỷ số so sánh giữa độ lệch tiêu chuẩn (hoặc độ lệch tuyệt đối bình quân)với số bình quân cộng của các lượng biến
Hệ số biến thiên tính theo độ lệch chuẩnV = XS¯
Hệ số biến thiên tính theo độ lệch tuyệt đối trung bình V = Xd¯ ¯
V: Hệ số biến thiên
¯
d: Độ lệch tuyệt đối trung bình
S: Độ lệch chuẩn
Trang 424.2 Các đại lượng đo mức độ phân tán
Trang 434.2 Các đại lượng đo mức độ phân tán
4.2.5 Hệ số biến thiên
Ví dụ 13
Có tài liệu về doanh thu của 79 cửa hàng trong tháng 10 năm 2009 như bảng dưới Xác định
hệ số biến thiên của bảng số liệu theo độ lệch chuẩn và độ lệch tuyệt đối bình quân
Doanh thu (triệu đồng) Số cửa hàng
Trang 444.2 Các đại lượng đo mức độ phân tán
Trang 454.2 Các đại lượng đo mức độ phân tán
Ví dụ 15
Một dàn máy rạp hát gia đình trong một phòng nhỏ là cách dễ nhất và rẻ nhất để tạo ra âmthanh lập thể chi trung tâm giải trí gia đình Một mẫu về giá được cho ở đây (ConsumerReports Buying Guide, 2004) Giá cả cho các mô hình có một đầu DVD và cho mô hình không
Panasonic SC-MTI 400 Henwood HTB-206 300
a) Tính giá trung bình cho các mô hình có đầu DVD và giá trung bình cho mô hình không cóđầu DVD Giá phải trả thêm để có đầu DVD trong dàn máy nhà hát gia đình là bao nhiêu?b) Tính khoảng biến thiên, phương sai và độ lệch chuẩn của hai mẫu Thông tin này cho bạnbiết gì về giá cả của mô hình có đầu DVD và không có đầu DVD
Trang 464.2 Các đại lượng đo mức độ phân tán
Giải
a) Tính giá trung bình cho các mô hình có đầu DVD và giá trung bình cho mô hình không
có đầu DVD Giá phải trả thêm để có đầu DVD trong dàn máy nhà hát gia đình là bao nhiêu?
- Giá trung bình cho các mô hình có đầu DVD:X¯ = 450 + 300 + 400 + 500 + 400
Trang 474.2 Các đại lượng đo mức độ phân tán
- Độ lệch tiêu chuẩn:Sx =pS2 =√
5500=47, 162
Mô hình không có đầu DVD:
Trang 484.2 Các đại lượng đo mức độ phân tán
Phân phối Chi bình phương
Cho n biến ngẫu nhiên X1, X2, , Xn có quy luật phân phối chuẩn đơn giản
Xi ∼N(0; 1);∀i =1, nBiến ngẫu nhiên dạng:
χ2 =X12+X22+ .+Xn2gọi là biến ngẫu nhiên theo quy luật phân phối Chi bình phương n bậc tự do Ký hiệu χ2(n)
Hình:
Trang 494.2 Các đại lượng đo mức độ phân tán
4.2.6 Quy luật phân phối của phương sai mẫu
6 Quy luật phân phối của phương sai mẫu
Nghiên cứu một tổng thể đặc trưng bởi biến ngẫu nhiênX,
- Tổng thểX giả sử có dạng phân phối chuẩnX ∼N µ, σ2
Trang 504.2 Các đại lượng đo mức độ phân tán
4.2.6 Quy luật phân phối của phương sai mẫu
Trang 514.2 Các đại lượng đo mức độ phân tán
4.2.6 Quy luật phân phối của phương sai mẫu
Trang 524.2 Các đại lượng đo mức độ phân tán
Phân phối Student
Cho biến ngẫu nhiên X theo quy luật phân phối chuẩn đơn giản vàY theo quy luật phân phốiChi bình phương bậc tự do n Biến ngẫu nhiên dạng:
n√X
YTuân thủ theo phân phối Student n bậc tự do, kí hiệu T ∼t(n)
Hình:
Trang 534.2 Các đại lượng đo mức độ phân tán
Phân phối Student
Trang 544.3 Các khuynh hướng đo vị trí tương đối
Trang 554.3 Các khuynh hướng đo vị trí tương đối
Bởi vì giá trị z này cao hơn 2 , nên chúng ta xác địnhx =15 là một giá trị đột biến có thể
có Chúng ta phải xem xét thủ tục lấy mẫu của mình để xem liệu x =15là một giá trị quansát bị sai hay không
Trang 564.3 Các khuynh hướng đo vị trí tương đối
4.3.2 Phân vị
Cho x1, x2, , xn là bộ giá trị quan sát đã được sắp theo thứ tự tăng dần Phân vị thứ p làgiá trị của x sao cho có nhiều nhất làp%các giá trị đo lường là thấp hơn giá trị của x và ítnhất là (100−p)% là cao hơn giá trị củax
Công thức xác định vị trí của giá trị phân vị thứ p : i = 100p (n+1
Nếu i là số lẻ dạngi = [i] +a/b thì phân vị thứp được tính bằng: x[i]+ ab x[i+1]−x[i]
Trong đó: [i] phần của i
a/b là phần lẻ thứ nhất của i
Trang 574.3 Các khuynh hướng đo vị trí tương đối
4.3.2 Phân vị
Cho x1, x2, , xn là bộ giá trị quan sát đã được sắp theo thứ tự tăng dần Phân vị thứ p làgiá trị của x sao cho có nhiều nhất làp%các giá trị đo lường là thấp hơn giá trị của x và ítnhất là (100−p)% là cao hơn giá trị củax
Công thức xác định vị trí của giá trị phân vị thứ p : i = 100p n
Lập cột tần số cộng dồn, tổ có tần số cộng dồn vừa đủ hơn i là tổ chứa phân vị
Trang 584.3 Các khuynh hướng đo vị trí tương đối
4.3.2 Tứ phân vị
Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu Tứ phân vị có 3 giátrị, đó là tứ phân vị thứ nhất (Q1), thứ nhì (Q2), và thứ ba (Q3) Ba giá trị này chia một tậphợp dữ liệu (đã sắp xếp dữ liệu theo trật từ từ bé đến lớn) thành 4 phần có số lượng quan sátđều nhau
Hình:
Box Plot biểu diễn các đại lượng của dãy số như min, max, phân vị, khoảng tứ phân vị
(Interquartile Range – IQR)
Trang 594.4 Hệ số tương quan của các bộ dữ liệu
4.4.1 Hiệp phương sai
Hiệp phương sai của hai biến ngẫu nhiên X , Y là đại lượng đo mức độ biến thiên cùng nhaugiữa hai biến ngẫu nhiên, định nghĩa bởi:
Cov(X ; Y) =E((X −EX)(Y −EY))
Cho hai biến ngẫu nhiên X , Y Hệ số tương quan giữa X , Y được tính theo bộ dữ liệu là:
Trang 604.4 Hệ số tương quan của các bộ dữ liệu
4.4.1 Hiệp phương sai
1 Nếu hai biến ngẫu nhiên X , Y độc lập và có phương sai hữu hạn thì
E(XY) =EX EY ⇔Cov(X , Y) =0
⇔Var(X +Y) =Var X+Var Y
- Nếu hai biến ngẫu nhiên X , Y có Cov(X , Y) =0 thì ta nói X , Y không tương quan vớinhau
- KhiX , Y độc lập với nhau nghĩa làX , Y không tương quan
- Nhưng X , Y không tương quan chưa chắc đã độc lập với nhau
Trang 614.4 Hệ số tương quan của các bộ dữ liệu
4.4.1 Hiệp phương sai
2 Tương quan tuyến tính
Cho hai biến ngẫu nhiên X , Y và a, b, c, d là các số thực
Cov(aX+b; cX +d) =acCov(X , Y)
Nếu X1, X2, , Xn làn biến ngẫu nhiên độc lập và có giá trị phương sai hữu hạn thì
Trang 624.4 Hệ số tương quan của các bộ dữ liệu
4.4.2 Hệ số tương quan
Cho hai biến ngẫu nhiênX , Y Hệ số tương quan giữaX , Y ký hiệu là ρ(X , Y); là đại lượng
đo mức độ phụ thuộc tuyến tính giữa hai biến ngẫu nhiên:
ρ(X , Y) =
( Cov ( X ,Y )
√
VarXX · VarY khiVarX; Var Y ̸=0
0 khi Var X =0 hay Var Y =0
Tính chất - −1≤ρ(X ; Y) ≤1
- ρ(X , Y) = ±1 khi và chỉ khi tồn tại a, b̸=0 sao choY =aX+b
Trang 634.4 Hệ số tương quan của các bộ dữ liệu
- Trường hợp ρ(X , Y) >>0 hay (|ρ(X , Y)| <0.3): tương quan thấp
- Trường hợp ρ(X , Y) ≫1 hay (0.8< |ρ(X , Y)|): tương quan cao
Trang 644.4 Hệ số tương quan của các bộ dữ liệu
- Gọi X là biến ngẫu nhiên chỉ trọng lương của một người, đơn vị (kg)
- Gọi Y là biến ngẫu nhiên chỉ vòng eo của một người, đơn vị (cm)
Trang 654.4 Hệ số tương quan của các bộ dữ liệu
Trang 664.4 Hệ số tương quan của các bộ dữ liệu
4.4.2 Hệ số tương quan
ρ(X ; Y) = √Cov(X ,Y)
Var X Var Y = √ 130.7857
124.5524 × 163.5714 =0.9237
Dựa vào hệ số tương quan ta thấy trong nhóm đối tượng này mối tương quan giữa cân nặng
và vòng eo là rất cáo • Và nếu nhóm đối tượng này được khảo sát nhiều lần mà hệ số tươngquan vẫn cao như vậy thì ta có thể kết luận có thể dựa vào cân nặng để dự đoán vòng eo vàngược lại
Hình:
Nguyen Cong Nhut Thống kê Kinh doanh Ngày 13 tháng 10 năm 2022 66 / 71