1. Trang chủ
  2. » Giáo án - Bài giảng

Cac do luong mo ta

39 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 525,65 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sau ñây là các dữliệu vềsốcân giảm ñi của mẫu gồm năm thành viên trong CLB thểhình sau 4 tháng... Nhìn qua các quan sát trong hai mẫu ta thấy các quan sát trong mẫu A ít phân tán hơn các

Trang 2

• Các ñ o l ườ ng khuynh h ướ ng t ậ p trung là nh ữ ng

ñ o l ườ ng mô t ả nh ằ m cho bi ế t ñ i ể m trung tâm c ủ a

t ậ p d ữ li ệ u n ằ m ở ñâu trong phân phố i t ầ n su ấ t c ủ a

m ộ t t ậ p d ữ li ệ u.

• Ba tr ị s ố (ñặ c tr ư ng) th ườ ng dùng ñể ño lườ ng

khuynh h ướ ng t ậ p trung c ủ a t ậ p d ữ li ệ u là trung

bình (mean), trung v ị (median) và y ế u v ị (mode).

Trang 3

• Ví d ụ

Bảng sau cho thấy tổng số tiền lương phải trả trong

năm 2002 cho 5 ñội bòng chày quốc gia tại Mỹ

62931267534

million 78

$ 5

Trang 4

• Các giá tr ị mà chúng quá nh ỏ ho ặ c quá l ớ n so

v ớ i ph ầ n l ớ n các giá tr ị trong t ậ p d ữ li ệ u ñượ c

g ọ i là các giá tr ị b ấ t th ườ ng (outliers)

• Ví d ụ

Bảng sau trình bày dân số năm 2000 của năm tiểu

bang thuộc vùng Pacific ởMỹ

5894 3421 627 1212 33,872

Trang 5

Trung vị= Giá trịsốhạng thứ(n+1)/2 trong tập dữliệu

ñã ñược sắp theo thứtự tăng dần

Sau ñây là các dữliệu vềsốcân giảm ñi của mẫu

gồm năm thành viên trong CLB thểhình sau 4 tháng

Trang 6

• Ví d ụ

Sau ñây là các dữliệu vềsốcân giảm ñi của mẫu

gồm sáu thành viên trong CLB thểhình sau 4 tháng

• Trung v ị cho ta ñiể m trung tâm c ủ a bi ể u ñồ t ầ n

su ấ t, v ớ i m ộ t n ử a các giá tr ị d ữ li ệ u n ằ m bên trái

trung v ị và m ộ t n ử a n ằ m bên ph ả i trung v ị

• Khi dùng trung v ị làm ñặ c tr ư ng ñ o l ườ ng

khuynh h ướ ng t ậ p trung, giá tr ị c ủ a nó không b ị

ả nh h ưở ng b ở i các giá tr ị b ấ t th ườ ng.

Y ế u v

• Y ế u v ị là giá tr ị x ả y ra v ớ i t ầ n su ấ t cao nh ấ t

trong t ậ p d ữ li ệ u.

Trang 9

• Các ñ o l ườ ng ñộ phân tán là nh ữ ng ñ o l ườ ng mô

t ả nh ằ m cho bi ế t s ự phân tán c ủ a d ữ li ệ u hay là

tính bi ế n thiên c ủ a chúng trong t ậ p d ữ li ệ u.

• Ba tr ị s ố (ñă c tr ư ng) th ườ ng dùng ñể ño lườ ng ñộ

phân tán c ủ a t ậ p d ữ li ệ u là kho ả ng bi ế n thiên

(range), ph ươ ng sai (variance) và ñộ l ệ ch chu ẩ n

(standard deviation).

Khong bi ế n thiên

Kho ả ng bi ế n thiên = GT l ớ n nh ấ t – GT nh ỏ nh ấ t

Trang 10

• Ví d ụ

Bảng sau cho biết tổng diện tích (tính theo miles) của

bốn tiểu bang vùng Western South-Central của Mỹ

53,182 49,651 69,903 267,277

Khoảng biến thiên của tập dữliệu này là 267,277 –

49,651 = 217,626 square miles

• Kho ả ng bi ế n thiên, gi ố ng nh ư trung bình, b ị

ả nh h ưở ng b ở i các giá tr ị b ấ t th ườ ng.

• Kho ả ng bi ế n thiên ñượ c tính d ự a trên ch ỉ hai

giá tr ị là giá tr ị nh ỏ nh ấ t và giá tr ị l ớ n nh ấ t.

Ph ươ ng sai và ñộ lch chun

• ðộ l ệ ch chu ẩ n là ñặ c tr ư ng ñượ c dùng nhi ề u

nh ấ t ñể ño lườ ng ñộ phân tán c ủ a t ậ p d ữ li ệ u

• Giá tr ị c ủ a ñộ l ệ ch chu ẩ n cho ta bi ế t các giá tr ị

c ủ a t ậ p d ữ li ệ u g ầ n v ớ i trung bình ñế n c ỡ nào

Trang 11

• T ổ ng quát, giá tr ị c ủ a ñộ l ệ ch chu ẩ n nh ỏ cho

ta bi ế t các giá tr ị trong t ậ p d ữ li ệ u phân tán

quanh trung bình trong m ộ t ph ạ m vi t ươ ng ñố i

nh ỏ (phân tán ít).

• Ngượ c l ạ i, giá tr ị c ủ a ñộ l ệ ch chu ẩ n l ớ n cho ta

bi ế t các giá tr ị trong t ậ p d ữ li ệ u phân tán quanh

trung bình trong m ộ t ph ạ m vi t ươ ng ñố i l ớ n

(phân tán nhi ề u)

Nhìn qua các quan sát trong hai mẫu ta thấy các quan

sát trong mẫu A ít phân tán hơn các quan sát trong

mẫu B Ít phân tán hơn có nghĩa là các quan sát có giá

trịgần với giá trịcủa trung bình hơn

Như vậy ñộlệch chuẩn của mẫu A sẽcó giá trịnhỏ

hơn giá trịcủa ñộlệch chuẩn của mẫu B

Trang 12

2 2

• Công th ứ c tính ph ươ ng sai sau t ươ ng ñươ ng

v ớ i công th ứ c trên, nhưng việ c tính toán ñượ c

x x

=

2 2

x x

s

Trang 13

Bảng sau cho thấy tổng số tiền lương phải trả trong

năm 2002 cho 5 ñội bòng chày quốc gia của Mỹ

62931267534

Tính ñộlệch chuẩn của mẫu trên?

Trang 14

ðộlệch chuẩn của mẫu là:

( )

498 , 387 , 34

$ 387498

34 50

.

1182

50 1182 4

420 , 30 150 , 35 1

5 5

) 390 ( 150 , 35 1

2 2

s

• Nh ậ n xét.

- Giá trịcủa phương sai và ñộlệch chuẩn không âm

- ðơn vị ño của phương sai luôn là bình phương ñơn

vị ño của dữliệu gốc

Tóm l ạ i,

• Ba ñặ c tr ư ng th ườ ng dùng ñể ño lườ ng

khuynh h ướ ng t ậ p trung c ủ a t ậ p d ữ li ệ u là

trung bình, trung v ị và y ế u v ị

• Ba ñặ c tr ư ng th ườ ng dùng ñể ño lườ ng ñộ

phân tán c ủ a t ậ p d ữ li ệ u là kho ả ng bi ế n

thiên, ph ươ ng sai và ñộ l ệ ch chu ẩ n.

• Sáu ñặ c tr ư ng này ñượ c g ọ i chung là các

ñ o l ườ ng tóm l ượ c (summary measures) c ủ a

t ậ p d ữ li ệ u ñ ã cho.

Trang 15

• Các ñ o l ườ ng tóm l ượ c ñượ c tính toán ñố i v ớ i

t ậ p d ữ li ệ u m ẫ u ñượ c g ọ i là th ố ng kê m ẫ u hay

Trang 17

mf = 535

2013515014090

mf

N = 25

49642

21 25

Trang 18

• Ví d ụ

Bảng sau cho biết phân phối tần suất của số lượng

ñơn ñặt hàng qua thư trong 50 ngày vừa qua của một

công ty cho phép ñặt hàng qua thư

4122014

Tính trung bình của mẫu

11141720

m

mf = 832

44168340280

mf

n = 50

4122014

16 50

Trang 19

• Công th ứ c tính ph ươ ng sai sau t ươ ng ñươ ng

v ớ i công th ứ c trên, nhưng việ c tính toán ñượ c

mf f

m

∑ − ∑

=

2 2

mf f

m s

Trong ñó m là trung ñiểm của lớp, và f là tần suất

của lớp

Trang 20

(minutes)

Trang 21

m²f =

14,825

1002025375049004050

m²f

515253545

m

N = 25

49642

11 04 135

04 135 25

3376 25

25

) 535 ( 825 , 14 )

(

2

2 2

mf f

m

Như vậy, ñộlệch chuẩn của thời gian ñi lại hằng ngày

giữa nhà và nơi làm việc của các nhân viên là 11.62

phút

Trang 22

• Ví d ụ

Bảng sau cho biết phân phối tần suất của số lượng

ñơn ñặt hàng qua thư trong 50 ngày vừa qua của một

công ty cho phép ñặt hàng qua thư

4122014

Tính ñộlệch chuẩn của mẫu

mf = 832

44168340280

mf

m²f = 14,216

484235257805600

m²f

11141720

m

n = 50

4122014

Trang 23

orders 75

2 5820 7

5820 7 1

50

50

) 832 ( 216 , 14 1

) (

2

2 2

m

s

Như vậy, ñộlệch chuẩn của số ñơn ñặt hàng qua thư

của công ty trong 50 ngày vừa qua là 2.75 ñơn ñặt

Trang 26

• Trong các hình v ẽ trên ta dùng ký hi ệ u trung

bình và ñộ l ệ ch chu ẩ n c ủ a t ổ ng th ể Tuy nhiên,

phụnữ ñược khảo sát vềtình trạng cao huyết áp là

187 và ñộlệch chuẩn là 22 Hỏi có ít nhất bao nhiêu

phần trăm phụnữtrong số ñó có huyết áp trong

Trang 27

Theo ñịnh lý Chebyshev, ta có ít nhất 75% phụnữtrong

tổng thể khảo sát có huyết áp nằm trong khoảng 143 và

Trang 28

người là phân phối chuẩn, có trung bình và ñộlệch

chuẩn lần lượt là 40 và 12 Tính xem có xấp xỉbao

nhiêu phần trăm người trong mẫu này có ñộtuổi trong

Vậy k = 2, theo quy tắc thực nghiệm ta có xấp xỉ95%

số người có ñộtuổi trong khoảng từ 16 ñến 64

Trang 29

Ta có xấp xỉ 95% các quan sát nằm trong khoảng hai

ñộ lệch chuẩn so với trung bình

Trang 30

5 Các ñ o l ườ ng vtrí

• ðo lườ ng v ị trí xác ñị nh giá tr ị ứ ng v ớ i m ộ t v ị trí

nào ñ ó trong m ố i t ươ ng quan v ớ i các giá tr ị khác

• Các ñ i ể m t ứ phân (quartiles) là ba ño lườ ng

tóm l ượ c nh ằ m chia t ậ p d ữ li ệ u ñ ã ñượ c s ắ p

Trang 31

• ðiể m t ứ phân th ứ hai (Q2) chính là trung v ị

c ủ a t ậ p d ữ li ệ u.

• ðiể m t ứ phân th ứ nh ấ t (Q1) là giá tr ị ñứ ng

gi ữ a trong s ố các quan sát nh ỏ hơn trung vị

• ðiể m t ứ phân th ứ ba (Q3) là giá tr ị ñứ ng gi ữ a

trong s ố các quan sát l ớ n h ơ n trung v ị

• Kho ả ng cách gi ữ a ñ i ể m t ứ phân th ứ ba và

ñ i ể m t ứ phân th ứ nh ấ t ñượ c g ọ i là ñộ tr ả i gi ữ a

IR (interquartile range) Ta có IR = Q3 – Q1.

• Ví d ụ

Sau ñây là tuổi của 9 nhân viên của một công ty bảo

hiểm Hãy xác ñịnh giá trịcủa các ñiểm tứphân Cho

Trang 32

• ðiể m bách phân th ứ k ký hi ệ u là Pk Trong ñ ó

k là s ố nguyên n ằ m trong kho ả ng t ừ 1 ñế n 99.

P 1 P 2 P 3 P 97 P 98 P 99

Mi mt phn này cha 1% các quan sát ca tp

dli u ñược sp xếp theo thtự tăng dần

• Pk có th ể hi ể u là m ộ t giá tr ị sao cho có kho ả ng

k% các quan sát nh ỏ hơn hoặ c b ằ ng Pk, và

Trang 33

• Ví d ụ

Sau ñây là dữliệu vềtổng lợi tức của 12 ban nhạc

hàng ñầu của vùng Bắc Mỹtrong suốt thời gian qua

(tính theo triệu USD)

Trang 35

6 Biu ñồ hp và râu

• Bi ể u ñồ h ộ p và râu bi ể u di ễ n d ữ li ệ u thông qua

n ă m ñ o l ườ ng tóm l ượ c bao g ồ m:

• Kho ả ng I (Inner Fence) ñượ c xác ñị nh b ở i biên

d ướ i và biên trên như sau :

- Biên dướ i kho ả ng I = Q1 – 1 ,5 x ðộ tr ả i gi ữ a

- Biên trên kho ả ng I = Q3 + 1,5 x ðộ tr ả i gi ữ a

• Ví d ụ

Sau ñây là thu nhập hằng năm của một mẫu gồm 12

gia ñình (tính theo triệu ñồng)

35 29 44 72 43 64 41 50 54 104 39 58

Sắp xếp lại theo thứtự tăng dần ta ñược

29 34 35 39 41 44 50 54 58 64 72 104

Trang 36

Biên dưới khoảng I = 37 – 1,5 x 24 = 37 - 36 = 1

Biên trên khoảng I = 61 + 1,5 x 24 = 97

Khoảng I = (1, 97)

GTNN của tập dữ liệu nằm trong khoảng I là 29

GTLN của tập dữliệu nằm trong khoảng I là 72

(1 gọi là lower inner fence, 97 gọi là upper inner fence,

khoảng I gọi là inner fence)

Thu nhp

ðim tphân

thba Trung v

ðim tphân

thnht

105

Trang 37

Thu nhp

ð i ể m t ứ phân th ứ ba Trung v ị

ð i ể m t ứ phân

th ứ nh ấ t

GTLN n ằ m trong kho ả ng I

- Khoảng 50% các giá trịdữ liệu rơi vào bên trong hộp

- Khoảng 25% các giá trị rơi vào phía bên phải của hộp

- Khoảng 25% các giá trị rơi vào phía bên trái của hộp

- Khoảng 50% các giá trị rơi vào phía bên phải trung vị

- Khoảng 50% các giá trị rơi vào phía bên trái trung vị

- Với tập dữliệu ñã cho, phân phối tần suất của nó lệch

vềbên phải vì 50% các giá trịnhỏ hơn ñược phân tán

trên một khoảng nhỏ hơn 50% các giá trị ớn hơn

Trang 38

- Liên quan ñến khoảng O (outer fence).

- Biên dưới khoảng O = Q1– 3 x KL tứphân

- Biên trên khoảng O = Q3+ 3 x KL tứphân

- Một quan sát nằm ngoài khoảng I nhưng nằm trong

khoảng O ñược gọi là phần tửbất thường yếu (mild

outlier), còn nếu nằm ngoài khoảng O ñược gọi là

phần tửbất thường mạnh (extreme outlier)

• Ví d ụ

Với tập dữliệu ñã cho ta có:

Q1= (35 + 39) / 2 = 37 và Q3= (58 + 64) / 2 = 61

Khoảng lệch tứphân = Q3- Q1 = 61 - 37 = 24

Biên dưới khoảng I = 37 – 1,5 x 24 = 37 - 36 = 1

Biên trên khoảng I = 61 + 1,5 x 24 = 97

Biên dưới khoảng O = 37 – 3 x 24 = -35

Biên trên khoảng O = 61 + 3 x 24 = 133

Vậy 104 là phần tửbất thường yếu

Ngày đăng: 06/04/2021, 22:33

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w