XSTK Ứng Dụng Trong Kinh Tế - TLU and maths ď Chuong4_HO tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tậ...
Trang 1.
Chương 4: TÓM TẮT DỮ LIỆU BẰNG CÁC ĐẠI
LƯỢNG THỐNG KÊ MÔ TẢ
Trần Minh Nguyệt Đại học THĂNG LONG Tháng 8 năm 2014
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 1 / 48
Nội dung
Trung bình cộng
Trung vị
Mode
Tứ phân vị
Phân vị
Khoảng biến thiên
Độ trải giữa
Phương sai và độ lệch chuẩn
Hệ số biến thiên
Quy tắc thực nghiệm
Quy tắc Chebyshev
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 2 / 48
Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Trung bình cộng
Trung bình cộng
Trung bình cộng của tổng thể, kí hiệu µ:
Số quan sát của tổng thể
Số quan sát của mẫu
Trang 2.
Trung bình cộng
Ví dụ: Tiền điện (nghìn đồng) trong 12 tháng năm 2008 của một hộ gia
đình là:
Vậy trung bình tiền điện một tháng của hộ gia đình trên là:
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 4 / 48
Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Trung bình cộng
Trung bình cộng
Nhận xét: Đại lượng trung bình cộng là đại lượng bị ảnh hưởng bởi các
giá trị ngoại biên
Ví dụ: Cho tập dữ liệu:
1, 2, 2, 3, 18 Trung bình của tập dữ liệu:
1 + 2 + 2 + 3 + 22
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 5 / 48
Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Trung vị
Trung vị (Median)
Kí hiệu M d
Trung vị là giá trị đứng giữa của tập dữ liệu khi đã được sắp xếp tăng dần
Trang 3.
Ví dụ 1: Cho tập dữ liệu:
2, 1, 7, 5, 4
Dữ liệu sau khi được sắp xếp tăng dần:
1, 2,4, 5, 7 Vậy trung vị của tập dữ liệu trên là: 4
Ví dụ 2: Cho tập dữ liệu:
1, 5, 9, 4, 6, 10, 10, 3
Dữ liệu sau khi được sắp xếp tăng dần:
1, 3, 4, 5, 6, 9, 10, 10 Trong trường hợp này có hai giá trị cùng ”đứng giữa” là 5 và 6, khi đó
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 7 / 48
Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Trung vị
Cách tính trung vị
Sắp xếp lại các quan sát của tập dữ liệu theo thứ tự tăng dần
2
là trung vị;
Nếu n là chẵn thì trung vị là trung bình cộng của 2 quan sát nằm ở vị trí n
n
Nhận xét: Không giống như trung bình cộng, trung vị là đại lượng không
bị ảnh hưởng bởi các giá trị ngoại biên
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 8 / 48
Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Trung vị
Ý nghĩa của trung vị
Chú ý: Khi số quan sát của tập dữ liệu càng lớn thì sự ”xấp xỉ” trên càng
chính xác
Ví dụ: Tính toán cho biết: Trung vị của điểm thi tuyển sinh khối A (tổng
điểm 3 môn Toán, Lý, Hóa) của trường trong kì thi vừa qua là 7.5 Kết quả này cho biết điều gì?
Trang 4.
Mode
Kí hiệu M0
Mode là giá trị gặp nhiều nhất trong tập dữ liệu
Mode còn được gọi là yếu vị
Nhận xét: Mode không bị ảnh hưởng bởi giá trị ngoại biên.
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 10 / 48
Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Mode
Ví dụ
..1 Cho tập dữ liệu:
1, 2, 3, 3, 3, 4, 4, 100
..2 Tập dữ liệu:
3, 5, 7, 9, 11 không có Mode
..3 Tập dữ liệu:
2, 2, 3, 4, 4, 5, 10
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 11 / 48
Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Mode
Sự so sánh trung bình, trung vị, mode và mối liên hệ với hình dáng phân phối của tập dữ liệu
Trường hợp 1: Trung bình = Trung vị = Mode: Khi đó tập dữ liệu có
phân phối đối xứng
Mo=Md=TB hinh a
Trang 5.
Sự so sánh trung bình, trung vị, mode và mối liên hệ với hình dáng phân phối của tập dữ liệu
Trường hợp 2: Trung bình < Trung vị < Mode: Khi đó tập dữ liệu có
phân phối lệch trái
TB<Md<Mo hinh c
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 13 / 48
Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Mode
Sự so sánh trung bình, trung vị, mode và mối liên hệ với hình dáng phân phối của tập dữ liệu
Trường hợp 3: Mode < Trung vị < Trung bình: Khi đó tập dữ liệu có
phân phối lệch phải
Mo<Md<TB hinh b
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 14 / 48
Các đại lượng mô tả sự phân bố của tập dữ liệu Tứ phân vị
Tứ phân vị (Quartiles)
Các tứ phân vị chia một tập dữ liệu đã được sắp xếp theo theo thứ tự tăng dần thành 4 phần có số quan sát bằng nhau:
giá trị ¥ Q1
giá trị ¥ Q3
Trang 6.
Tứ phân vị
Ví dụ: Tính toán cho biết: Các tứ phân vị của điểm thi tuyển sinh khối A
(tổng điểm 3 môn Toán, Lý, Hóa) của trường trong kì thi vừa qua là 5; 7.5; 12 Kết quả này cho biết điều gì?
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 16 / 48
Các đại lượng mô tả sự phân bố của tập dữ liệu Phân vị
Phân vị
tăng dần là một giá trị chia tập dữ liệu thành hai phần: phần bên trái
chứa khoảng p% số quan sát của tập dữ liệu, phần còn lại chứa khoảng (100 p)% số quan sát của tập dữ liệu.
Hỏi: Các tứ phân vị Q1, Q2, Q3là phân vị thứ bao nhiêu?
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 17 / 48
Các đại lượng mô tả sự phân bố của tập dữ liệu Phân vị
Phân vị
Tính toán cho biết: Phân vị thứ 90 của điểm thi tuyển sinh khối A (tổng điểm 3 môn Toán, Lý, Hóa) của trường trong kì thi vừa qua là 15 Kết quả này cho biết điều gì?
Trang 7.
Khoảng biến thiên (Range)
Kí hiệu R.
Khoảng biến thiên của một tập dữ liệu được tính bởi công thức:
R = x max x min
Khoảng biến thiên là chỉ phụ thuộc vào hai giá trị nhỏ nhất và lớn
cách phân bố nội bộ tập dữ liệu
Khoảng biến thiên bị ảnh hưởng bởi giá trị ngoại lệ
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 19 / 48
Các đại lượng đo lường độ phân tán Khoảng biến thiên
Khoảng biến thiên (Range)
Ví dụ:
..1 Cho tập dữ liệu:
1 4 3 6 7
..2 Cho tập dữ liệu:
1 4 3 3 6 6 6 7
..3 Cho tập dữ liệu:
1 4 3 6 7 100
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 20 / 48
Các đại lượng đo lường độ phân tán Độ trải giữa
Công thức tính:
R Q = Q3 Q1
Độ trải giữa không bị phụ thuộc giá trị ngoại lệ nhưng độ trải giữa cũng không xem xét đến cách thức phân bố của các quan sát trong tập dữ liệu
Trang 8.
Phương sai
bởi công thức
N
trong đó µ là trung bình tổng thể và N là số quan sát của tổng thể.
công thức
s2=
n 1
trong đây x là trung bình mẫu và n là số quan sát của mẫu.
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 22 / 48
Các đại lượng đo lường độ phân tán Phương sai và độ lệch chuẩn
Độ lệch chuẩn
Độ lệch chuẩn của tổng thể, ký hiệu là σ, là căn bậc hai của phương sai tổng thể
Độ lệch chuẩn của mẫu, ký hiệu là s, là căn bậc hai của phương sai
mẫu
Chú ý: Phương sai, độ lệch chuẩn mô tả sự biến động của dữ liệu quanh
giá trị trung bình
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 23 / 48
Các đại lượng đo lường độ phân tán Phương sai và độ lệch chuẩn
¯x
.x i x i ¯x
Hai mẫu có trung bình bằng nhau nhưng mẫu 1 có phương sai lớn hơn mẫu 2
Trang 9.
Phương sai và độ lệch chuẩn
Ví dụ:
Cho tổng thể gồm 5 phần tử:
1, 2, 2, 3, 0 Tính phương sai và độ lệch chuẩn của tổng thể
Một mẫu gồm 4 phần tử của tổng thể trên là:
1, 2, 3, 0 Tính phương sai và độ lệch chuẩn của mẫu trên
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 25 / 48
Các đại lượng đo lường độ phân tán Phương sai và độ lệch chuẩn
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 26 / 48
Một số đại lượng thống kê mô tả cho bảng tần số
Một số đại lượng thống kê mô tả cho bảng tần số
cho bởi công thức:
x=
°k
°k
thứ i, f i là tần số của quan sát hoặc tổ thứ i, °k
°k
°k
thứ i, f i là tần số của quan sát hoặc tổ thứ i, °k
Trang 10.
Một số đại lượng thống kê mô tả cho bảng tần số
Phương sai của một tập dữ liệu mẫu thu gọn xác định bởi công thức:
s2=
°k
°k
thứ i, f i là tần số của quan sát hoặc tổ thứ i, °k
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 28 / 48
Một số đại lượng thống kê mô tả cho bảng tần số
Ví dụ
thôn được ghi lại trong bảng sau:
Tính trung bình, phương sai, và độ lệch chuẩn của mẫu trên
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 29 / 48
Một số đại lượng thống kê mô tả cho bảng tần số
Trang 11.
Khám phá dữ liệu qua biểu đồ hộp và râu
Biểu đồ hộp và râu điểm thi Toán khối D năm 2009 vào trường Thăng Long như sau:
Bieu do hop va rau cua diem toan khoi D
Nam 2008
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 31 / 48
Khám phá dữ liệu qua biểu đồ hộp và râu
Khám phá dữ liệu qua biểu đồ hộp và râu
Biểu đồ hộp và râu điểm thi Toán khối A năm 2009 vào trường Thăng Long như sau:
●
●
●
●
●
●
●
●
BieuDoHopVaRauDiemToanA
Nam2009
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 32 / 48
Khám phá dữ liệu qua biểu đồ hộp và râu
Biểu đồ hộp và râu
Đường thẳng nằm trong hộp đi qua tứ phân vị thứ hai (trung vị) Hai
dài của hộp) Các giá trị ngoại biên là các giá trị vượt ra khỏi giới hạn này, được diễn tả bằng các dấu chấm
Điểm mút của râu trái (râu dưới) là giá trị nhỏ nhất (nếu không có giá trị ngoại biên nhỏ)
Điểm mút của râu phải (râu trên) là giá trị lớn nhất (nếu không có giá trị ngoại biên lớn)
Trang 12.
Thông tin từ một biểu đồ hộp và râu
Trong biểu đồ hộp và râu thể hiện đồng thời các thông tin sau:
Giá trị lớn nhất, giá trị nhỏ nhất của tập dữ liệu
Các tứ phân vị
Các giá trị ngoại biên (nếu có)
Hình dáng phân phối của tập dữ liệu:
Hai râu dài tương đương nhau: Tập dữ liệu có phân phối đối xứng Râu phải dài hơn: Tập dữ liệu có phân phối lệch phải
Râu trái dài hơn: Tập dữ liệu có phân phối lệch trái
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 34 / 48
Khám phá dữ liệu qua biểu đồ hộp và râu
Nhận xét cho biểu đồ hộp và râu về điểm thi toán khối D, A ở trên
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 35 / 48
Khám phá dữ liệu qua biểu đồ hộp và râu
Cách vẽ biểu đồ hộp và râu trên R
> boxplot(x, col=, border=, main=, sub=, horizontal= F) Trong đó:
x: Tên véc tơ dữ liệu,
col: Màu của hộp,
border: Màu của râu,
horizontal= T/F: Biểu đồ nằm ngang/đứng
Trang 13.
Ví dụ
Đây là các lệnh vẽ biểu đồ trên:
> boxplot(KhoiDmoi, col='red', main='Bieu do hop va rau cua diem toan khoi D', sub= 'Nam 2008', horizontal= T)
Bieu do hop va rau cua diem toan khoi D
Nam 2008
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 37 / 48
Sự kết hợp giữa trung bình và độ lệch chuẩn Hệ số biến thiên
Ví dụ
Ví dụ 1: Xét tập dữ liệu về cân nặng của một mẫu gồm 5 bé một tuổi
(đơn vị kg):
9, 10, 9.5, 10.5, 12
Và đây là cân nặng của chúng tính bằng gam:
9000, 10000, 9500, 10500, 12000 Phương sai của mẫu khi tính bằng kg là: 1.325
Phương sai của mẫu khi tính bằng gam là: 1325000
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 38 / 48
Sự kết hợp giữa trung bình và độ lệch chuẩn Hệ số biến thiên
Ví dụ
Ví dụ 2: Xét tập dữ liệu về giá bán rau muống của 5 cửa hàng (ngàn
đồng/kg):
1, 2, 3, 4, 5
và giá thịt lợn của năm cửa hàng (ngàn đồng/kg):
95, 96, 97, 98, 99
Cả hai tập dữ liệu trên đều có phương sai là 2.5, tuy nhiên mức độ biến động của giá bán của hai mặt hàng này lại không như nhau
Nhận xét:
Phương sai (độ lệch chuẩn) bị ảnh hưởng bởi đơn vị đo
Không dùng phương sai (độ lệch chuẩn) để so sánh sự biến động của hai tập dữ liệu có trung bình khác nhau được
Trang 14.
Hệ số biến thiên
Hệ số biến thiên của tập dữ liệu mẫu được tính theo công thức:
CV= (s
Trong đó x là trung bình cộng.
Hệ số biến thiên của tập dữ liệu tổng thể tính theo công thức:
CV= (σ
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 40 / 48
Sự kết hợp giữa trung bình và độ lệch chuẩn Hệ số biến thiên
Hệ số biến thiên
Nhận xét:
Hệ số biến thiên không bị ảnh hưởng bởi đơn vị đo
Hệ số biến thiên được sử dụng để so sánh mức độ biến động tương đối của những tập dữ liệu cả khi chúng có giá trị trung bình khác nhau
Ví dụ: Trong Ví dụ 1, khi đo bằng các đơn vị khác nhau thì hệ số biến
thiên không thay đổi là 11.29%
Trong Ví dụ 2, hệ số biến thiên của giá rau muốn là: CV= 52.70%; hệ số biên thiên của giá thịt lợn là: CV= 1.63% Vậy giá rau muống biến động hơn giá thịt lợn
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 41 / 48
Sự kết hợp giữa trung bình và độ lệch chuẩn Quy tắc thực nghiệm
Quy tắc thực nghiệm
Nếu một tổng thể (mẫu) có trung bình µ(x) và độ lệch chuẩn σ(s) mà
phân phối có dạng hình chuông cân đối thì:
(µ σ, µ + σ) (hoặc (x s, x + s)).
(µ 2σ, µ + 2σ) (hoặc (x 2s, x + 2s)).
(µ 3σ, µ + 3σ) (hoặc (x 3s, x + 3s)).
Trang 15.
Quy tắc thực nghiệm
µ + σ
µ − σ
68%
µ + 2 σ
µ − 2 σ
95%
µ + 3 σ
µ − 3 σ
99.7%
µ + σ
µ − σ
68%
µ + 2 σ
µ − 2 σ
95%
µ + 3 σ
µ − 3 σ
99.7%
µ + σ
µ − σ
68%
µ + 2 σ
µ − 2 σ
95%
µ + 3 σ
µ − 3 σ
99.7%
µ + σ
µ − σ
68%
µ + 2 σ
µ − 2 σ
95%
µ + 3 σ
µ − 3 σ
99.7%
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 43 / 48
Sự kết hợp giữa trung bình và độ lệch chuẩn Quy tắc thực nghiệm
Ví dụ
Tập dữ liệu về chiều cao của 300 bạn sinh viên có phân phối đối xứng với trung bình là 158 cm và độ lệch chuẩn là 4 cm Hỏi:
Khoảng bao nhiêu % sinh viên có chiều cao nằm trong khoảng [150, 166] cm?
Khoảng 68% số sinh viên trong tập dữ liệu có chiều cao nằm trong khoảng nào?
Khoảng 99.7% số sinh viên trong tập dữ liệu có chiều cao nằm trong khoảng nào?
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 44 / 48
Sự kết hợp giữa trung bình và độ lệch chuẩn Quy tắc Chebyshev
Quy tắc Chebyshev
quan sát tập trung trong phạm vi k lần độ lệch chuẩn tính từ trung bình
(µ 1.5σ, µ + 1.5σ) (hoặc (x 1.5s, x + 1.5s)).
(µ 2σ, µ + 2σ) (hoặc (x 2s, x + 2s)).
(µ 2.5σ, µ + 2.5σ) (hoặc (x 2.5s, x + 2.5s)).
Trang 16.
Quy tắc Chebyshev
µ − 2 σ µ + 2 σ
75%
µ
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 46 / 48
Sự kết hợp giữa trung bình và độ lệch chuẩn Quy tắc Chebyshev
Ví dụ
Tập dữ liệu về điểm thi môn XSTK của 250 bạn sinh viên có phân phối đối xứng lệch trái với trung bình là 4 và độ lệch chuẩn là 1 Hỏi:
Khoảng bao nhiêu % sinh viên trong tập dữ liệu có điểm thi thuộc khoảng [2.5, 5.5]?
Khoảng 75% số sinh viên trong tập dữ liệu có điểm thi nằm trong khoảng nào?
Khoảng bao nhiêu % số sinh viên trong tập dữ liệu có điểm thi nằm trong khoảng [1,7]?
Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 47 / 48
Sự kết hợp giữa trung bình và độ lệch chuẩn Quy tắc Chebyshev
Các câu lệnh trong R
Cho véc tơ dữ liệu x, thì một số đại lượng thống kê mô tả được tính toán
trong R như sau:
mean(x): Tính trung bình
median(x): Tính trung vị
which(table(x)== max(table(x))): Tính mode
summary(x): Tính giá trị lớn nhất, nhỏ nhất, các tứ phân vị
quantile(x, p/100): Tính phân vị thứ p
range(x): Tính khoảng biến thiên
var(x): Tính phương sai
sd(x): Tính độ lệch chuẩn