1. Trang chủ
  2. » Thể loại khác

XSTK Ứng Dụng Trong Kinh Tế - TLU and maths ď Chuong4_HO

16 224 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 260,45 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

XSTK Ứng Dụng Trong Kinh Tế - TLU and maths ď Chuong4_HO tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tậ...

Trang 1

.

Chương 4: TÓM TẮT DỮ LIỆU BẰNG CÁC ĐẠI

LƯỢNG THỐNG KÊ MÔ TẢ

Trần Minh Nguyệt Đại học THĂNG LONG Tháng 8 năm 2014

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 1 / 48

Nội dung

Trung bình cộng

Trung vị

Mode

Tứ phân vị

Phân vị

Khoảng biến thiên

Độ trải giữa

Phương sai và độ lệch chuẩn

Hệ số biến thiên

Quy tắc thực nghiệm

Quy tắc Chebyshev

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 2 / 48

Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Trung bình cộng

Trung bình cộng

Trung bình cộng của tổng thể, kí hiệu µ:

Số quan sát của tổng thể

Số quan sát của mẫu

Trang 2

.

Trung bình cộng

Ví dụ: Tiền điện (nghìn đồng) trong 12 tháng năm 2008 của một hộ gia

đình là:

Vậy trung bình tiền điện một tháng của hộ gia đình trên là:

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 4 / 48

Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Trung bình cộng

Trung bình cộng

Nhận xét: Đại lượng trung bình cộng là đại lượng bị ảnh hưởng bởi các

giá trị ngoại biên

Ví dụ: Cho tập dữ liệu:

1, 2, 2, 3, 18 Trung bình của tập dữ liệu:

1 + 2 + 2 + 3 + 22

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 5 / 48

Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Trung vị

Trung vị (Median)

Kí hiệu M d

Trung vị là giá trị đứng giữa của tập dữ liệu khi đã được sắp xếp tăng dần

Trang 3

.

Ví dụ 1: Cho tập dữ liệu:

2, 1, 7, 5, 4

Dữ liệu sau khi được sắp xếp tăng dần:

1, 2,4, 5, 7 Vậy trung vị của tập dữ liệu trên là: 4

Ví dụ 2: Cho tập dữ liệu:

1, 5, 9, 4, 6, 10, 10, 3

Dữ liệu sau khi được sắp xếp tăng dần:

1, 3, 4, 5, 6, 9, 10, 10 Trong trường hợp này có hai giá trị cùng ”đứng giữa” là 5 và 6, khi đó

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 7 / 48

Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Trung vị

Cách tính trung vị

Sắp xếp lại các quan sát của tập dữ liệu theo thứ tự tăng dần

2

là trung vị;

Nếu n là chẵn thì trung vị là trung bình cộng của 2 quan sát nằm ở vị trí n

n

Nhận xét: Không giống như trung bình cộng, trung vị là đại lượng không

bị ảnh hưởng bởi các giá trị ngoại biên

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 8 / 48

Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Trung vị

Ý nghĩa của trung vị

Chú ý: Khi số quan sát của tập dữ liệu càng lớn thì sự ”xấp xỉ” trên càng

chính xác

Ví dụ: Tính toán cho biết: Trung vị của điểm thi tuyển sinh khối A (tổng

điểm 3 môn Toán, Lý, Hóa) của trường trong kì thi vừa qua là 7.5 Kết quả này cho biết điều gì?

Trang 4

.

Mode

Kí hiệu M0

Mode là giá trị gặp nhiều nhất trong tập dữ liệu

Mode còn được gọi là yếu vị

Nhận xét: Mode không bị ảnh hưởng bởi giá trị ngoại biên.

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 10 / 48

Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Mode

Ví dụ

..1 Cho tập dữ liệu:

1, 2, 3, 3, 3, 4, 4, 100

..2 Tập dữ liệu:

3, 5, 7, 9, 11 không có Mode

..3 Tập dữ liệu:

2, 2, 3, 4, 4, 5, 10

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 11 / 48

Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Mode

Sự so sánh trung bình, trung vị, mode và mối liên hệ với hình dáng phân phối của tập dữ liệu

Trường hợp 1: Trung bình = Trung vị = Mode: Khi đó tập dữ liệu có

phân phối đối xứng

Mo=Md=TB hinh a

Trang 5

.

Sự so sánh trung bình, trung vị, mode và mối liên hệ với hình dáng phân phối của tập dữ liệu

Trường hợp 2: Trung bình < Trung vị < Mode: Khi đó tập dữ liệu có

phân phối lệch trái

TB<Md<Mo hinh c

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 13 / 48

Các đại lượng đo lường xu hướng hướng tâm của tập dữ liệu Mode

Sự so sánh trung bình, trung vị, mode và mối liên hệ với hình dáng phân phối của tập dữ liệu

Trường hợp 3: Mode < Trung vị < Trung bình: Khi đó tập dữ liệu có

phân phối lệch phải

Mo<Md<TB hinh b

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 14 / 48

Các đại lượng mô tả sự phân bố của tập dữ liệu Tứ phân vị

Tứ phân vị (Quartiles)

Các tứ phân vị chia một tập dữ liệu đã được sắp xếp theo theo thứ tự tăng dần thành 4 phần có số quan sát bằng nhau:

giá trị ¥ Q1

giá trị ¥ Q3

Trang 6

.

Tứ phân vị

Ví dụ: Tính toán cho biết: Các tứ phân vị của điểm thi tuyển sinh khối A

(tổng điểm 3 môn Toán, Lý, Hóa) của trường trong kì thi vừa qua là 5; 7.5; 12 Kết quả này cho biết điều gì?

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 16 / 48

Các đại lượng mô tả sự phân bố của tập dữ liệu Phân vị

Phân vị

tăng dần là một giá trị chia tập dữ liệu thành hai phần: phần bên trái

chứa khoảng p% số quan sát của tập dữ liệu, phần còn lại chứa khoảng (100  p)% số quan sát của tập dữ liệu.

Hỏi: Các tứ phân vị Q1, Q2, Q3là phân vị thứ bao nhiêu?

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 17 / 48

Các đại lượng mô tả sự phân bố của tập dữ liệu Phân vị

Phân vị

Tính toán cho biết: Phân vị thứ 90 của điểm thi tuyển sinh khối A (tổng điểm 3 môn Toán, Lý, Hóa) của trường trong kì thi vừa qua là 15 Kết quả này cho biết điều gì?

Trang 7

.

Khoảng biến thiên (Range)

Kí hiệu R.

Khoảng biến thiên của một tập dữ liệu được tính bởi công thức:

R = x max  x min

Khoảng biến thiên là chỉ phụ thuộc vào hai giá trị nhỏ nhất và lớn

cách phân bố nội bộ tập dữ liệu

Khoảng biến thiên bị ảnh hưởng bởi giá trị ngoại lệ

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 19 / 48

Các đại lượng đo lường độ phân tán Khoảng biến thiên

Khoảng biến thiên (Range)

Ví dụ:

..1 Cho tập dữ liệu:

1 4 3 6 7

..2 Cho tập dữ liệu:

1 4 3 3 6 6 6 7

..3 Cho tập dữ liệu:

1 4 3 6 7 100

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 20 / 48

Các đại lượng đo lường độ phân tán Độ trải giữa

Công thức tính:

R Q = Q3 Q1

Độ trải giữa không bị phụ thuộc giá trị ngoại lệ nhưng độ trải giữa cũng không xem xét đến cách thức phân bố của các quan sát trong tập dữ liệu

Trang 8

.

Phương sai

bởi công thức

N

trong đó µ là trung bình tổng thể và N là số quan sát của tổng thể.

công thức

s2=

n 1

trong đây x là trung bình mẫu và n là số quan sát của mẫu.

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 22 / 48

Các đại lượng đo lường độ phân tán Phương sai và độ lệch chuẩn

Độ lệch chuẩn

Độ lệch chuẩn của tổng thể, ký hiệu là σ, là căn bậc hai của phương sai tổng thể

Độ lệch chuẩn của mẫu, ký hiệu là s, là căn bậc hai của phương sai

mẫu

Chú ý: Phương sai, độ lệch chuẩn mô tả sự biến động của dữ liệu quanh

giá trị trung bình

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 23 / 48

Các đại lượng đo lường độ phân tán Phương sai và độ lệch chuẩn

¯x

.x i x i  ¯x

Hai mẫu có trung bình bằng nhau nhưng mẫu 1 có phương sai lớn hơn mẫu 2

Trang 9

.

Phương sai và độ lệch chuẩn

Ví dụ:

Cho tổng thể gồm 5 phần tử:

1, 2, 2, 3, 0 Tính phương sai và độ lệch chuẩn của tổng thể

Một mẫu gồm 4 phần tử của tổng thể trên là:

1, 2, 3, 0 Tính phương sai và độ lệch chuẩn của mẫu trên

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 25 / 48

Các đại lượng đo lường độ phân tán Phương sai và độ lệch chuẩn

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 26 / 48

Một số đại lượng thống kê mô tả cho bảng tần số

Một số đại lượng thống kê mô tả cho bảng tần số

cho bởi công thức:

x=

°k

°k

thứ i, f i là tần số của quan sát hoặc tổ thứ i, °k

°k

°k

thứ i, f i là tần số của quan sát hoặc tổ thứ i, °k

Trang 10

.

Một số đại lượng thống kê mô tả cho bảng tần số

Phương sai của một tập dữ liệu mẫu thu gọn xác định bởi công thức:

s2=

°k

°k

thứ i, f i là tần số của quan sát hoặc tổ thứ i, °k

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 28 / 48

Một số đại lượng thống kê mô tả cho bảng tần số

Ví dụ

thôn được ghi lại trong bảng sau:

Tính trung bình, phương sai, và độ lệch chuẩn của mẫu trên

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 29 / 48

Một số đại lượng thống kê mô tả cho bảng tần số

Trang 11

.

Khám phá dữ liệu qua biểu đồ hộp và râu

Biểu đồ hộp và râu điểm thi Toán khối D năm 2009 vào trường Thăng Long như sau:

Bieu do hop va rau cua diem toan khoi D

Nam 2008

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 31 / 48

Khám phá dữ liệu qua biểu đồ hộp và râu

Khám phá dữ liệu qua biểu đồ hộp và râu

Biểu đồ hộp và râu điểm thi Toán khối A năm 2009 vào trường Thăng Long như sau:

BieuDoHopVaRauDiemToanA

Nam2009

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 32 / 48

Khám phá dữ liệu qua biểu đồ hộp và râu

Biểu đồ hộp và râu

Đường thẳng nằm trong hộp đi qua tứ phân vị thứ hai (trung vị) Hai

dài của hộp) Các giá trị ngoại biên là các giá trị vượt ra khỏi giới hạn này, được diễn tả bằng các dấu chấm

Điểm mút của râu trái (râu dưới) là giá trị nhỏ nhất (nếu không có giá trị ngoại biên nhỏ)

Điểm mút của râu phải (râu trên) là giá trị lớn nhất (nếu không có giá trị ngoại biên lớn)

Trang 12

.

Thông tin từ một biểu đồ hộp và râu

Trong biểu đồ hộp và râu thể hiện đồng thời các thông tin sau:

Giá trị lớn nhất, giá trị nhỏ nhất của tập dữ liệu

Các tứ phân vị

Các giá trị ngoại biên (nếu có)

Hình dáng phân phối của tập dữ liệu:

Hai râu dài tương đương nhau: Tập dữ liệu có phân phối đối xứng Râu phải dài hơn: Tập dữ liệu có phân phối lệch phải

Râu trái dài hơn: Tập dữ liệu có phân phối lệch trái

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 34 / 48

Khám phá dữ liệu qua biểu đồ hộp và râu

Nhận xét cho biểu đồ hộp và râu về điểm thi toán khối D, A ở trên

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 35 / 48

Khám phá dữ liệu qua biểu đồ hộp và râu

Cách vẽ biểu đồ hộp và râu trên R

> boxplot(x, col=, border=, main=, sub=, horizontal= F) Trong đó:

x: Tên véc tơ dữ liệu,

col: Màu của hộp,

border: Màu của râu,

horizontal= T/F: Biểu đồ nằm ngang/đứng

Trang 13

.

Ví dụ

Đây là các lệnh vẽ biểu đồ trên:

> boxplot(KhoiDmoi, col='red', main='Bieu do hop va rau cua diem toan khoi D', sub= 'Nam 2008', horizontal= T)

Bieu do hop va rau cua diem toan khoi D

Nam 2008

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 37 / 48

Sự kết hợp giữa trung bình và độ lệch chuẩn Hệ số biến thiên

Ví dụ

Ví dụ 1: Xét tập dữ liệu về cân nặng của một mẫu gồm 5 bé một tuổi

(đơn vị kg):

9, 10, 9.5, 10.5, 12

Và đây là cân nặng của chúng tính bằng gam:

9000, 10000, 9500, 10500, 12000 Phương sai của mẫu khi tính bằng kg là: 1.325

Phương sai của mẫu khi tính bằng gam là: 1325000

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 38 / 48

Sự kết hợp giữa trung bình và độ lệch chuẩn Hệ số biến thiên

Ví dụ

Ví dụ 2: Xét tập dữ liệu về giá bán rau muống của 5 cửa hàng (ngàn

đồng/kg):

1, 2, 3, 4, 5

và giá thịt lợn của năm cửa hàng (ngàn đồng/kg):

95, 96, 97, 98, 99

Cả hai tập dữ liệu trên đều có phương sai là 2.5, tuy nhiên mức độ biến động của giá bán của hai mặt hàng này lại không như nhau

Nhận xét:

Phương sai (độ lệch chuẩn) bị ảnh hưởng bởi đơn vị đo

Không dùng phương sai (độ lệch chuẩn) để so sánh sự biến động của hai tập dữ liệu có trung bình khác nhau được

Trang 14

.

Hệ số biến thiên

Hệ số biến thiên của tập dữ liệu mẫu được tính theo công thức:

CV= (s

Trong đó x là trung bình cộng.

Hệ số biến thiên của tập dữ liệu tổng thể tính theo công thức:

CV= (σ

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 40 / 48

Sự kết hợp giữa trung bình và độ lệch chuẩn Hệ số biến thiên

Hệ số biến thiên

Nhận xét:

Hệ số biến thiên không bị ảnh hưởng bởi đơn vị đo

Hệ số biến thiên được sử dụng để so sánh mức độ biến động tương đối của những tập dữ liệu cả khi chúng có giá trị trung bình khác nhau

Ví dụ: Trong Ví dụ 1, khi đo bằng các đơn vị khác nhau thì hệ số biến

thiên không thay đổi là 11.29%

Trong Ví dụ 2, hệ số biến thiên của giá rau muốn là: CV= 52.70%; hệ số biên thiên của giá thịt lợn là: CV= 1.63% Vậy giá rau muống biến động hơn giá thịt lợn

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 41 / 48

Sự kết hợp giữa trung bình và độ lệch chuẩn Quy tắc thực nghiệm

Quy tắc thực nghiệm

Nếu một tổng thể (mẫu) có trung bình µ(x) và độ lệch chuẩn σ(s) mà

phân phối có dạng hình chuông cân đối thì:

(µ  σ, µ + σ) (hoặc (x  s, x + s)).

(µ  2σ, µ + 2σ) (hoặc (x  2s, x + 2s)).

(µ  3σ, µ + 3σ) (hoặc (x  3s, x + 3s)).

Trang 15

.

Quy tắc thực nghiệm

µ + σ

µ − σ

68%

µ + 2 σ

µ − 2 σ

95%

µ + 3 σ

µ − 3 σ

99.7%

µ + σ

µ − σ

68%

µ + 2 σ

µ − 2 σ

95%

µ + 3 σ

µ − 3 σ

99.7%

µ + σ

µ − σ

68%

µ + 2 σ

µ − 2 σ

95%

µ + 3 σ

µ − 3 σ

99.7%

µ + σ

µ − σ

68%

µ + 2 σ

µ − 2 σ

95%

µ + 3 σ

µ − 3 σ

99.7%

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 43 / 48

Sự kết hợp giữa trung bình và độ lệch chuẩn Quy tắc thực nghiệm

Ví dụ

Tập dữ liệu về chiều cao của 300 bạn sinh viên có phân phối đối xứng với trung bình là 158 cm và độ lệch chuẩn là 4 cm Hỏi:

Khoảng bao nhiêu % sinh viên có chiều cao nằm trong khoảng [150, 166] cm?

Khoảng 68% số sinh viên trong tập dữ liệu có chiều cao nằm trong khoảng nào?

Khoảng 99.7% số sinh viên trong tập dữ liệu có chiều cao nằm trong khoảng nào?

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 44 / 48

Sự kết hợp giữa trung bình và độ lệch chuẩn Quy tắc Chebyshev

Quy tắc Chebyshev

quan sát tập trung trong phạm vi k lần độ lệch chuẩn tính từ trung bình

(µ  1.5σ, µ + 1.5σ) (hoặc (x  1.5s, x + 1.5s)).

(µ  2σ, µ + 2σ) (hoặc (x  2s, x + 2s)).

(µ  2.5σ, µ + 2.5σ) (hoặc (x  2.5s, x + 2.5s)).

Trang 16

.

Quy tắc Chebyshev

µ − 2 σ µ + 2 σ

75%

µ

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 46 / 48

Sự kết hợp giữa trung bình và độ lệch chuẩn Quy tắc Chebyshev

Ví dụ

Tập dữ liệu về điểm thi môn XSTK của 250 bạn sinh viên có phân phối đối xứng lệch trái với trung bình là 4 và độ lệch chuẩn là 1 Hỏi:

Khoảng bao nhiêu % sinh viên trong tập dữ liệu có điểm thi thuộc khoảng [2.5, 5.5]?

Khoảng 75% số sinh viên trong tập dữ liệu có điểm thi nằm trong khoảng nào?

Khoảng bao nhiêu % số sinh viên trong tập dữ liệu có điểm thi nằm trong khoảng [1,7]?

Trần Minh Nguyệt (ĐH THĂNG LONG) Xác suất thống kê ứng dụng trong kinh tế xã hội Tháng 8 năm 2014 47 / 48

Sự kết hợp giữa trung bình và độ lệch chuẩn Quy tắc Chebyshev

Các câu lệnh trong R

Cho véc tơ dữ liệu x, thì một số đại lượng thống kê mô tả được tính toán

trong R như sau:

mean(x): Tính trung bình

median(x): Tính trung vị

which(table(x)== max(table(x))): Tính mode

summary(x): Tính giá trị lớn nhất, nhỏ nhất, các tứ phân vị

quantile(x, p/100): Tính phân vị thứ p

range(x): Tính khoảng biến thiên

var(x): Tính phương sai

sd(x): Tính độ lệch chuẩn

Ngày đăng: 09/12/2017, 06:07

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm