1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI GIẢNG THỐNG KÊ - CÁC KHÁI NIỆM CƠ BẢN VỀ THỐNG KÊ potx

88 461 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Các Khái Niệm Cơ Bản Về Thống Kê
Trường học Trường Đại Học Khoa Học Tự Nhiên - Hà Nội
Chuyên ngành Thống Kê
Thể loại Bài Giảng
Thành phố Hà Nội
Định dạng
Số trang 88
Dung lượng 304,32 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

** đặc trưng cho biết mức độ phân tán của các số liệu, mức độ biến động: biên độ, độ lệch trung bình, độ lệch tiêu chuẩn và phương sai.. iii Nếu các số liệu mẫu được ghép lớp theo phân

Trang 1

Chương THỐNG KÊ

§ Thống kê là gì? Tại sao phải thống kê?

Vai trò quan trọng của các đặc trưng của một BNN (?)

Thí dụ Một hộp chứa 3 bi trắng và 1 bi đen Trò chơi đặt

ra: Người tham gia chơi sẽ bốc ngẫu nhiên một viên bi Sẽ nhận được 2 đô la nếu bốc được bi trắng, sẽ phải trả 3 đô

la nếu bốc phải bi đen Biết rằng xác suất bốc được của mỗi viên bi là như nhau Có nên tham gia trò chơi?

Trang 2

Thí dụ Một công ty chăn nuôi lợn lấy thịt, mỗi lứa nuôi

Trang 3

Thí dụ Một sư đoàn có kế hoạch may quân phục cho

khoảng 1 triệu tân binh

a) Dựa vào tiêu chí nào để đưa ra các kích cỡ

quân phục phù hợp?

b) Nếu biết các chỉ số về kích thước của các tân binh tuân theo quy luật chuẩn N (1, 7;0, 312) và dự kiến đưa ra 3 kích cỡ quân phục thì nên đưa ra các kích cỡ như thế nào cho phù hợp?

Thí dụ Có hai giống lúa Nên dựa vào tham số nào để

so sánh năng suất của hai giống lúa? Làm thế nào để tính các tham số đó?

Trang 4

Kết luận: Trong nhiều tình huống, để đưa ra quyết

định, đánh giá hay giải quyết một vấn đề nào đó … Æ

ta dựa vào các tham số μ σ, , p

Lưu ý rằng khi xét BNN nào đó, thì mỗi tham số là duy nhất

Æ thống kê để có các thông tin về các tham số

Trang 5

§ Cơ sở lý thuyết mẫu

Các khái niệm cơ bản

a) Mẫu ngẫu nhiên

Thí dụ Gọi X là số chấm thu được khi tung một con

xúc xắc, X là biến ngẫu nhiên tuân theo quy luật

P 1/6 1/6 1/6 1/6 1/6 1/6Nếu tung con xúc xắc 3 lần và gọi X i = i ( 1, 3) là số chấm xuất hiện ở lần thứ i thì ta có 3 biến ngẫu nhiên độc lập tạo nên mẫu ngẫu nhiên kích thước n = 3

Trang 6

Mẫu ngẫu nhiên kích thước n là tập hợp

n biến ngẫu nhiên độc lập X 1 , X 2 , …, X n được thành lập từ biến ngẫu nhiên X

Giả sử X1 nhận giá trị x1; X2 nhận giá trị x2; …, Xn nhận giá trị xn Tập hợp n giá trị x1, x2, …, xn tạo thành một mẫu cụ thể, ký hiệu

w = (x1, x2, …, xn)

Trang 7

§ Các phương pháp mô tả số liệu mẫu

a) Bảng phân bố thực nghiệm

Bảng phân bố thực nghiệm của dấu hiệu điều tra X:

X x1 x2 … xk Tổng

Tần số n1 n2 … nk ∑ni = n Tần suất f1 f2 … fk ∑fi = 1trong đó i

i

n f

(ii)

1

k

i i

f

=

=

Trang 8

Thí dụ Điều tra điểm thi tốt nghiệp môn toán của một

thành phố, người ta điều tra ngẫu nhiên 400 em học sinh (n

Trang 9

b) Bảng phân bố ghép lớp

trong một số trường hợp giá trị điều tra khá gần nhau,

cỡ mẫu n lớn Æ chia khoảng, sao cho mỗi giá trị điều

tra thuộc và chỉ một khoảng

Trang 10

Thí dụ Chiều cao (dm) của 400 cây được trình bày

thành bảng phân bố ghép lớp

Khoảng Tần số Tần suất Độ rộng khoảng4,5 – 9,5

9,5 – 11,5 11,5 – 13,5

Trang 11

c) Tần số tích lũy và tần suất tích lũy

*( )

i i

(i) F x xác định tần suất của biến cố * ( ) {X < x} (?)

(ii) Khi cỡ mẫu đủ lớn thì F x và * ( ) F x sai khác ( )

nhau không đáng kể (?)

Trang 12

§ Biểu diễn bằng biểu đồ, tổ chức đồ

Giả sử ta có bảng phân bố thực nghiệm

Tần số 10 20 30 15 10 10 5 20Tần suất 1/12 2/12 3/12 1/8 1/12 1/12 1/24 1/6

Trang 15

Đối với bảng ghép lớp, ta dùng tổ chức đồ (histogram)

để biểu diễn và lưu ý rằng hai trường hợp sau đây cách lấy chiều cao các cột là khác nhau

(i) Độ rộng các khoảng bằng nhau

(ii) Độ rộng các khoảng không bằng nhau

Trang 16

Thí dụ Doanh thu 51 cửa hàng của một công ty

năm 1996 (đơn vị là triệu đồng vn)

120

88

71 135 156 120 112 123

95

195 109

90

121 147

67 166

64 113

87

60

27

129 118

62

83

49 155

66

79 104

55

84

a) lập bảng ghép lớp, sử dụng 8 khoảng với độ rộng 22

b) vẽ tổ chức đồ tần suất

Trang 17

Khoảng Tần số Tần suất26,5-48,5

48,5-70,5 70,5-92,5 92,5-114,5114,5-136,5136,5-158,5158,5-180,5180,5-202,5

Trang 18

70 .5 -9 2.

5

114 5

92.5-11 4.5 -1 36.

5

13 6.5 -15 8.

5

15 8.5 -18 0.

5

180 5 -2

02. 5

tần suất

Trang 19

Trong trường hợp độ rộng các khoảng không bằng nhau,

ta dựng các hình chữ nhật đó có diện tích đúng bằng tần

số tương ứng (bằng tần suất nếu là biểu đồ tần suất)

nghĩa là trên các khoảng thứ i có độ rộng li ta dựng hình chữ nhật có chiều cao i ( i

Trang 20

Thí dụ Chiều cao (dm) của 400 cây được trình bày

Trang 21

Khoảng ri li i i

i

r y

Trang 22

§ Thống kê

Khi nghiên cứu một dấu hiệu nào đó mà ta gọi là BNN

X, một việc làm rất tự nhiên là rút ra một mẫu ngẫu

nhiên (X X1, 2, ,X để quan sát Các BNN n ) X mặc dù i

là cùng quy luật với X nhưng vì quy luật của X chưa

biết nên các BNN X cũng vậy i

Tuy nhiên, nếu tổng hợp các biến ngẫu nhiên này thì sẽ bộc lộ những thông tin về BNN X

Trang 23

Việc tổng hợp mẫu W = (X X1, 2, ,X n ) được thực hiện

dưới dạng một hàm nào đó của các giá trị X , 1 X , …, 2

n

X , nó được gọi là thống kê, và kí hiệu là G

Bản chất của G cũng là một BNN, tuân theo một quy

luật nào đó và cũng có các tham số đặc trưng như

Trang 24

§ Một số thống kê đặc trưng của mẫu ngẫu nhiên

Các thống kê đặc trưng của mẫu ngẫu nhiên chia thành

ba loại

(*) Đặc trưng cho biết xu hướng trung tâm của mẫu:

cho biết các số liệu của mẫu tập trung xung quanh

những con số nào Đó là các đặc trưng như trung bình mẫu, trung vị, và mode

(**) đặc trưng cho biết mức độ phân tán của các số

liệu, mức độ biến động: biên độ, độ lệch trung bình,

độ lệch tiêu chuẩn và phương sai

(***) các thống kê đặc trưng dạng phân phối

Trang 25

n =

Trang 27

(iv) Độ lệch chuẩn của X thường dùng để phản ánh sai số ước lượng nên thường gọi là sai số chuẩn

(Standard error) Se của trung bình mẫu

n

i i

r x x

Trang 28

Thí dụ Tính chiều cao trung bình của 400 cây

Khoảng Tần số Tần suất Trung điểm 4,5 – 9,5

7 10,5 12,5

15

18

21 24,5 31,5 Tổng 400 1

Trang 30

(iii) Nếu các số liệu mẫu được ghép lớp theo phân phối

tần số thì giá trị trung vị có thể tính gần đúng bằng công thức:

n là tần số của lớp chứa trung vị

h là độ dài của lớp chứa trung vị

Trang 31

Thí dụ Cho bảng phân bố tần số của X

(kích thước mẫu n = 400) Hãy tính trung bình mẫu và

Trang 32

Thí dụ Tìm khoảng trung vị và số trung vị của mẫu được

cho bởi phân phối thực nghiệm trong bảng sau

Đoạn giá trị chiều dài h = 5 Tần số n i Tần số tích lũy w i

Trang 33

Nhận xét Trung vị, cũng như trung bình mẫu, phản ánh xu

hướng trung tâm của phân phối mẫu song nó có đặc điểm không san bằng các chênh lệch giữa các giá trị của mẫu do

đó thường được dùng để bổ sung hoặc thay thế trung bình mẫu khi không có đủ số liệu để tính

Trang 34

trong đó, L là giới hạn dưới của lớp chứa mốt

d là hiệu số giữa tần số của lớp chứa mode và 1

Trang 35

Thí dụ Với bảng số liệu sau đây hãy tìm giá trị mode

Đoạn giá trị chiều dài h = 5 Tổng các tần số tương ứng n i

Trang 36

Thí dụ ghi lại kết quả của việc bán 200 đôi dày

Giá bán Tần số ri Độ cao yi

30-40 40-50 50-55 55-60 60-65 65-70 70-80 80-90 90-100

7 7,4 3,2

1 2,1 0,5

Hãy tính khoảng mode, khoảng trung vị, số trung

vị và giá trị trung bình của doanh số

Trang 37

Nhận xét Cũng như trung vị, mode là đại lượng

không san bằng chênh lệch giữa các giá trị của mẫu, do đó nó bổ sung hoặc thay thế trung bình mẫu khi việc tính trung bình mẫu gặp khó khăn

Trang 38

Các tham số đặc trưng cho độ phân tán của các giá trị

Trang 39

e) Tổng bình phương các sai lệch và độ lệch bình phương

Lúc đó tổng bình phương sai lệch giữa các giá trị của mẫu

và trung bình mẫu được kí hiệu là SS

2 1

n

i i

=

Giá trị SS thường được dùng trong phân tích phương sai

Chia SS cho kích thước mẫu ta được độ lệch bình phương trung bình, ký hiệu là MS

2 1

n

i i

Trang 40

Ta thường tính toán theo công thức

1

1 k

i i i

n =

f) Phương sai mẫu

Phương sai mẫu, ký hiệu là S2 được xác định bằng công thức

Trang 41

Thí dụ Tính trung bình, phương sai mẫu và độ lệch tiêu

chuẩn

Khoảng Tần số Tần suất Trung điểm

4,5 – 9,5 9,5 – 11,5 11,5 – 13,5

7 10,5 12,5

15

18

21 24,5 31,5

Tổng 400 1

Trang 42

CHƯƠNG: ƯỚC LƯỢNG CÁC THAM SỐ CỦA BIẾN NGẪU NHIÊN

Giả sử cần nghiên cứu dấu hiệu X trong tổng thể;

mà rõ ràng hơn là nghiên cứu các tham số đặc trưng của X như kỳ vọng EX, phương sai DX, … Tất nhiên ở đây ta phải biết được dạng phân phối của BNN X (nghĩa là biết X tuân theo một quy luật nào đó ví dụ như X tuân theo quy luật chuẩn N(μ,σ2 ) mà μ,σ chưa xác định; hay biết X tuân theo quy luật nhị thức B(n,p) mà p chưa xác

định…)

Trang 43

§ Phương pháp ước lượng điểm

Phương pháp này chủ trương lấy một giá trị để thay thế

cho tham số θ chưa biết

Ví dụ như cần ước lượng kỳ vọng EX của BNN X, ta có thể

- ước lượng (xấp xỉ) EX bởi trung bình mẫu ngẫu nhiên

Trang 44

Một vấn đề đặt ra là nên chọn ước lượng nào cho hiệu quả nhất??

a) Ước lượng không chệch

Thống kê ˆθ của mẫu được gọi là ước lượng không chệch của

tham số θ của BNN nếu E θ( )ˆ = θ

Trang 45

b) Ước lượng hiệu quả

Mỗi tham số có thể có nhiều ước lượng không chệch Một câu hỏi đặt ra là nên chọn ước lượng nào trong số đó?

Thống kê của mẫu được gọi là ước lượng hiệu quả nhất của tham số θ của BNN gốc X nếu nó là ước lượng không chệch và có phương sai nhỏ nhất so với mọi ước lượng

không chệch khác được xây dựng trên cùng mẫu đó

Thí dụ Từ một mẫu ngẫu nhiên kích thước n = 2 ta xét

hai ước lượng sau đây của trung bình tổng thể m

Trang 46

b) Ước lượng nào hiệu quả hơn

Trang 47

§ Phương pháp ước lượng bằng khoảng tin cậy

Ước lượng kỳ vọng toán của biến ngẫu nhiên tuân theo quy luật chuẩn

a) Đã biết σ Æ khoảng tin cậy với độ tin cậy β = 1 - α

Trang 48

b) Chưa biết σ Æ tùy vào cỡ mẫu n

(*) nếu n ≥ 30 thì khoảng tin cậy là

Trang 50

Thí dụ Trọng lượng của một loại sản phẩm là biến ngẫu

nhiên phân phối theo quy luật chuẩn với độ lệch chuẩn

là 1 gam Cân thử 25 sản phẩm loại này ta thu được kết quả sau

Trọng lượng (gam) 18 19 20 21

Số SP tương ứng 3 5 15 2Với độ tin cậy 0,95 hãy tìm khoảng tin cậy của trọng

lượng trung bình của loại sản phẩm nói trên

Trang 51

Thí dụ Để xác định trọng lượng trung bình của các bao

bột trong kho, người ta đem cân ngẫu nhiên 15 bao của kho đó và tìm được x = 39, 8kg ; s =2 0,144 Hãy tìm

khoảng tin cậy của trọng lượng trung bình của các bao bột trong kho với yêu cầu độ tin cậy của việc ước lượng

là 99% Giả thiết rằng trọng lượng đóng bao của các bao bột là biến ngẫu nhiên tuân theo phân phối chuẩn

Trang 52

Thí dụ Phỏng vấn 5 gia đình có 3 người về chi phí hàng

tháng cho nhu yếu phẩm thu được các số liệu sau: 150 ngàn đồng, 180 ngàn, 200 ngàn, 250 ngàn, 300 ngàn

Vậy phải phỏng vấn bao nhiêu gia đình cùng loại để độ tin cậy 95% sai số của việc ước lượng chi phí trung bình hàng tháng cho nhu yếu phẩm không vượt quá 30 ngàn đồng Giả thiết chi phí hàng tháng cho nhu yếu phẩm là biến ngẫu nhiên phân phối chuẩn

Trang 53

Chương 4 KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ

KIỂM ĐỊNH GIẢ THIẾT VỀ GIÁ TRỊ TRUNG BÌNH

a) Phương sai σ2 đã biết

test thống kê là

/

X T

n

μ σ

Trang 54

Thí dụ Trong năm trước trọng lượng trung bình trước

khi xuất chuồng của bò ở một trại chăn nuôi là 380 kg Năm nay người ta áp dụng thử một chế độ nuôi mới với

hy vọng là bò sẽ tăng trọng nhanh hơn Sau thời gian áp dụng thử người ta lấy ngẫu nhiên 50 con bò trước khi

xuất chuồng đem cân và tính trọng lượng trung bình

của chúng là 390 kg Vậy với mức ý nghĩa α = 0,01 có thể cho rằng trọng lượng trung bình của bò trước khi

xuất chuồng đã tăng lên hay không? Giả thiết trọng

lượng của bò là biến ngẫu nhiên phân phối chuẩn với độ lệch chuẩn là 35,2kg

Trang 55

Giải Gọi X là trọng lượng của bò trước khi xuất

chuồng

Cặp giả thuyết thống kê có dạng:

H0: μ = 380 và H1: μ > 380 Test thống kê là

Trang 56

b) Phương sai σ2 chưa biết

Test thống kê là 0

/

X T

Trang 57

Thí dụ Trọng lượng đóng bao của các bao gạo trong

kho là biến ngẫu nhiên theo phân phối chuẩn với trọng lượng trung bình theo quy định là 50 kg Nghi ngờ bị đóng thiếu, người ta đem cân ngẫu nhiên 25 bao và thu được các số liệu sau

Trọng lượng bao (kg) Số bao tương ứng

48,0 – 48,5 48,5 – 49,0 49,0 – 9,5 49,5 – 50,0 50,0 – 50,5

trên

Trang 58

Giải: Cặp giả thuyết thống kê:

s

=

trong đó X và s là trung bình và độ lệch chuẩn của mẫu

thay số vào ta được Tqs = − 6,887

ta có − tα(n−1) = − t0,0124 = − 2, 402 nên miền bác bỏ là

( −∞ − , 2, 402 )

Trang 59

BÀI TOÁN SO SÁNH HAI GIÁ TRỊ TRUNG BÌNH

Giả sử X ~ N(μ1, σ12) và Y ~ N(μ2, σ22) và ta muốn so sánh μ1 và μ2 dựa trên hai mẫu quan sát của X và Y

a) Phương sai σ12 và σ22 đã biết

Bài toán 1 [hai phía]

H0: μ1 = μ2 với đối thiết H1: μ1 ≠ μ2

Trang 60

Bài toán 2 [một phía]

Trang 61

Thí dụ Tại một xí nghiệp người ta xây dựng hai phương án

gia công cùng một loại chi tiết Để đánh giá xem chi phí

trung bình về nguyên liệu theo hai phương án ấy có khác

nhau hay không người ta tiến hành sản xuất thử và thu

được các kết quả sau:

Phương án 1: 2,5 3,2 3,5 3,8 3,5

Phương án 2: 2,0 2,7 2,5 2,9 2,3 2,6

Với mức ý nghĩa α = 0,05, hãy kết luận vấn đề trên biết

rằng chi phí nguyên liệu theo cả hai phương án gia công đều

là các biến ngẫu nhiên phân phối chuẩn với 2 2

σ = σ =

Trang 62

Giải Bài toán kiểm định

H0: μ1 = μ2 và H1: μ1 ≠ μ2 khi đã biết 2

2

2,0 2,7 2,5 2,9 2,3 2,6

2,56

Trang 63

Ta có giá trị quan sát của test là

s

3,3 2,50,16 0,16

q

+

Trang 64

b) Phương sai σ12 và σ22 chưa biết và mẫu lớn (n ≥ 30, m

Trang 65

Thí dụ Một nghiên cứu được thực hiện đối với 20 người

ở một phường và 19 người ở một phường khác trong

thành phố để xem thu nhập trung bình hàng năm (tính bằng triệu đồng) của dân cư hai phường đó có thực sự khác nhau hay không Các số liệu mẫu thu được như

trung bình của dân cư ở hai phường đó khác nhau hay không? Giả thiết thu nhập hàng năm của dân cư hai

phường cùng phân phối chuẩn với phương sai như nhau

Trang 66

Giải cặp giả thuyết

Trang 67

d) Khoảng tin cậy cho hiệu số μ1 - μ2

trong trường hợp σ12 và σ22 đã biết thì khoảng tin cậy với độ tin cậy β cho μ1 - μ2 là

trong trường hợp mẫu nhỏ (n, m < 30), phương sai σ12

và σ22 chưa biết nhưng bằng nhau thì ĐLNN

Trang 68

e) Trường hợp hai mẫu điều tra phụ thuộc theo từng cặp

ở các trường hợp trước ta luôn giả thiết rằng các mẫu điều tra là độc lập từ các tổng thể khác nhau Trong

thực tế có nhiều trường hợp hai mẫu điều tra được rút

ra từ một tổng thể Æ không còn độc lập

Æ ở phần này ta xét việc kiểm định khi hai mẫu điều tra cùng kích thước n, trong đó các giá trị của mẫu phụ thuộc tương ứng theo từng cặp

Giả sử có hai tổng thể, trong đó có các ĐLNN X1 và

X2 cùng phân phối chuẩn với các phương sai chưa biết

Từ hai tổng thể rút ra hai mẫu ngẫu nhiên

Trang 69

Ta xác định trung bình mẫu và phương sai mẫu

1

1 n

i i

Trang 70

Thí dụ Theo dõi doanh số bán của một công ty (tính

bằng triệu đồng) trong 15 ngày đầu tháng 3 và 15 ngày đầu tháng 5 thu được kết quả sau

7,3 9,1 8,4 1,5 2,7 5,0 4,9 5,3 2,0 4,2 11,0 11,0 6,1 6,7 7,5

0,3 1,1 1,1 -0,2 0,3 0,5 0,4 0,9 0,2 0,6 0,3 1,1 0,8 0,0 0,9

Trang 71

Nếu giả thiết doanh số hàng ngày phân phối chuẩn thì với mức ý nghĩa α = 0,05 có thể nói rằng doanh số bán trung bình hàng ngày trong tháng 5 có giảm sút so với tháng 3 hay không?

Giải Gọi X1 và X2 tương ứng là doanh số bán hàng ngày trong tháng 3 và tháng 5 Theo giả thiết X1 và X2

có phân phối chuẩn Vậy doanh thu trung bình là μ1 và

μ2 Ta kiểm định cặp giả thuyết

H0: μ1 - μ2 = 0; H1: μ1 - μ2 > 0

Test thống kê là

D

D n T

s

=Với α = 0,05 thì ( )1 ( )14

0,05 1,761

n

tα − = t =Vậy miền bác bỏ là (1,761; + ∞)

Từ số liệu mẫu ta tìm được

Trang 72

i n

Trang 73

KIỂM ĐỊNH GIẢ THIẾT VỀ GIÁ TRỊ CỦA XÁC SUẤT

Giả sử trong tổng thể nghiên cứu biến ngẫu nhiên gốc X phân phối không – một với tham số là p Nếu chưa biết

p nhưng có cơ sở giả thiết rằng giá trị của nó bằng p0, ta đưa ra giả thuyết thống kê

H0: p = p0nếu n và p thỏa mãn điều kiện

n > 5 và

11

Trang 74

Bài toán 1 H0: p = p0, và đối thiết H1: p ≠ p0Miền bác bỏ là |T| > Uα/2

Bài toán 2 H0: p = p0, và đối thiết H1: p > p0

Có miền bác bỏ là T > Uα/2

Bài toán 3 H0: p = p0, và đối thiết H1: p < p0

Có miền bác bỏ là T < Uα/2

Ngày đăng: 09/08/2014, 20:21

HÌNH ẢNH LIÊN QUAN

Bảng phân bố thực nghiệm của dấu hiệu điều tra X: - BÀI GIẢNG THỐNG KÊ - CÁC KHÁI NIỆM CƠ BẢN VỀ THỐNG KÊ potx
Bảng ph ân bố thực nghiệm của dấu hiệu điều tra X: (Trang 7)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm