1. Trang chủ
  2. » Giáo án - Bài giảng

Tài liệu giảng dạy môn Thống kê và phân tích dữ liệu

105 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 105
Dung lượng 0,96 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

(NB) Tài liệu giảng dạy môn Thống kê và phân tích dữ liệu được tổ chức thành 5 chương, cung cấp cho người học những kiến thức về: Sơ lược về xác suất và biến ngẫu nhiên, dữ liệu thống kê và các đại lượng thống kê mô tả, ước lượng tham số tổng, kiểm định giả thiết thống kê và phân tích phương sai, phân tích hồi quy và tương quan. Mời các bạn cùng tham khảo để biết thêm các nội dung chi tiết.

Trang 1

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 1

MỤC LỤC Nội dung Trang Chương I: Sơ lược về xác suất và biến ngẫu nhiên 2

I: Định nghĩa, công thức tính xác suất 2

II: Biến ngẫu nhiên, quy luật phân phối xác suất 10

Chương II: Dữ liệu thống kê và các đại lượng thống kê mô tả 23

I: Thu thập dữ liệu và lưu trữ dữ liệu 23

II: Các đại lượng thống kê mô tả 27

Chương III: Ước lượng tham số tổng 31

I Ước lượng điểm 31

II Khoảng ước lượng điểm 32

Chương IV: Kiểm định giả thiết thống kê và phân tích phương sai 41

I: Kiểm định giả thiết tham số 41

II: Kiểm định giả thiết phi tham số 71

Chương V: Phân tích hồi quy và tương quan 82

I: Hệ số tương quan và phương trình hồi quy 82

II: Phân Kiểm định hệ số tương quan, sự phù hợp của phương trình hồi quy 84

Tài liệu tham khảo 95

Phụ lục 96

Trang 2

CHƯƠNG I

SƠ LƯỢC XÁC SUẤT, BIẾN NGẪU NHIÊN

Mục tiêu học tập: Sau khi học xong bài này, người học có thể:

* Hiểu khái niệm xác suất

* Nắm vững các công thức tính xác suất

* Giải được các bài toán cơ bản về xác suất

I ĐỊNH NGHĨA, CÔNG THỨC TÍNH XÁC SUẤT

1 Biến cố ngẫu nhiên và các phép toán trên biến cố ngẫu nhiên

1.1 Đặt vấn đề

Trong thực tế cho thấy có rất nhiều thí nghiệm khi tiến hành nhiều lần trong cùng điều kiện ban đầu nhưng không dẫn đến cùng kết quả Chẳng hạn khi tung một con xúc xắc xem như thực hiện một thí nghiệm, khi đó ta không thể đoán trước được chắc chắn kết quả xuất hiện là mặt mấy chấm Những hiện tượng khi biết trước các điều kiện ban đầu mà ta không thể xác định chắc chắn kết quả xảy ra của nó gọi là hiện tượng ngẫu nhiên hay phép thử ngẫu nhiên

Ví dụ: lượng mưa trong năm; đầu tư vào một dự án; tham gia một kỳ thi tuyển sinh; kinh doanh một mặt hàng nào đó;… là các hiện tượng ngẫu nhiên

1.2 Biến cố ngẫu nhiên, Không gian biến cố sơ cấp

Khi gieo một con xúc xắc Gọi ei là kết quả xuất hiện mặt i chấm(i=1;2;3;4;5;6)

Khi đó: + Phép thử này có 6 biến cố sơ cấp : e1; e2; e3; e4; e5;e6

+ Không gian các biến cố sơ cấp ={e1; e2; e3; e4; e5;e6}

Ví dụ:

Khi gieo một hạt giống Gọi N là kết quả nảy mầm; K là kết quả không nảy mầm

Khi đó: + Phép thử này có 2 biến cố sơ cấp : N; K

+ Không gian các biến cố sơ cấp ={N; K}

b Biến cố ngẫu nhiên(gọi tắt là biến ngẫu nhiên)

Trang 3

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 3

Khi thực hiện phép thử ngẫu nhiên, mỗi kết cục có thể xảy ra hoặc không thể xảy ra trong kết quả của phép thử gọi là biến cố ngẫu nhiên Biến ngẫu nhiên thường kí hiệu: A, B, C, D, …

Ví dụ:

Khi gieo một con xúc xắc Gọi A là kết cục mặt chẵn xuất hiện; B là kết cục mặt lẻ xuất hiện; C

là kết cục mặt chia hết cho 3 xuất hiện; …

Khi đó: + A, B, C, … là các biến cố ngẫu nhiên

* Biến cố ngẫu nhiên A là tập hợp gồm một số biến cố sơ cấp Do đó biến cố ngẫu nhiên A là tập hợp con của 

Ví dụ: :

* Chọn các mệnh đề đúng trong các mệnh đề sau

a) Biến cố ngẫu nhiên là kết cục luôn xảy ra trong phép thử ngẫu nhiên

b) Phép thử ngẫu nhiên là biến cố ngẫu nhiên

c) Biến cố sơ cấp là biến cố ngẫu nhiên

d) Biến cố ngẫu nhiên là phép thử ngẫu nhiên

* Tung đồng thời 3 đồng tiền gồm hai mặt S, N Xác định các phần tử của  Xác định 3 biến

cố ngẫu nhiên mà không phải là biến cố sơ cấp

c Biến cố chắc chắn, biến cố không thể

Biến cố nào mà luôn xảy ra trong phép thử gọi là biến cố chắc chắn(kí hiệu ); Biến cố nào mà không thể xảy ra trong phép thử gọi là biến cố không thể(Kí hiệu )

1.3 Các phép toán trên biến cố

1.3.1 quan hệ giữa các biến cố

* Biến cố A được gọi là kéo theo biến cố B, kí hiệu A  B nếu A xảy ra thì kéo theo B cũng xảy

ra

* Biến cố A và biến cố B được gọi là bằng nhau, kí hiệu AB nếu A kéo theo B và B kéo theo

A

Ví dụ:

Tung một con xúc xắc một lần, với ={e1; e2; e3; e4; e5;e6}

Gọi A là biến cố mặt chẵn xuất hiện; B là biến cố mặt lẻ xuất hiện; C là biến cố mặt chia hết cho 3 xuất hiện

* Các kết quả sau kết quả nào đúng :

a) {e1} A b) {e2} A c) A={e2; e4; e6} d) A B e) C A f) {e2;e5} B g) A  {e1; e2; e4; e6} h) A B=

Trang 4

* Xác định các phần tử cho các biến cố A, B, C, A B, A  C, B  C, A  B, A  C, B  C và

mô tả bằng lời các biến cố ngẫu nhiên này

1.3.2 Các phép toán

Cho A và B là hai biến cố ngẫu nhiên của cùng một phép thử

a Phép cộng: Tổng của hai biến cố A và B, kí hiệu A B là biến cố xảy ra khi và chỉ khi ít

nhất một trong hai biến cố A, B xảy ra

b Phép nhân: Tích của hai biến cố A và B, kí hiệu A B là biến cố xảy ra khi và chỉ khi hai

biến cố A, B đồng thời xảy ra

c Phép trừ: Hiệu của hai biến cố A và B, kí hiệu A\B là biến cố xảy ra khi và chỉ khi biến cố

A xảy ra mà biến cố B không xảy ra

Định nghĩa :

+ Ta gọi A = \ A là biến cố đối lập của biến cố A

+ Hai biến cố A, B được gọi là xung khắc nếu A B=

Chú ý:

Những tính chất của phép cộng, nhân và trừ giống như các tính chất của phép hợp, giao và hiệu

của các tập hợp

Yêu cầu SV:

Xét không gian biến cố sơ cấp  = {e1,e2,e4,e6}

Gọi A là biến cố xuất hện mặt chẵn

B là biến cố xuất hiện mặt lẻ

C là biến cố xuất hiện mặt chia hết cho 3

Đáp án nào đúng, đáp án nào sai:

a) B = A b) A, B xung khắc

c) C = A B d) A \ B là biến cố xuất hiện mặt chẵn

e) A \ C là biến cố xuất hiện mặt hai chấm hoặc bốn chấm

f) A \ C là biến cố xuất hiện mặt hai chấm

g) A C là biến cố xuất hiện mặt chẵn hoặc ba chấm

Trang 5

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 5

a) B1 B2  …  Bn = 

b) B  i B j= ,  i  j

Yêu cầu SV:

Các đáp án sau đâu đúng, đâu sai:

1) Cho  = {e1,e2,…en}, khi đó hệ e1,e2,…en lập thành hệ đầy đủ

2) Gieo đồng thời 2 đồng tiền gồm hai mặt S, N

Gọi NN là biến cố hai đồng tiền xuất hiện mặt ngữa

SS là biến cố hai đồng tiền xuất hiện mặt sấp

SN là biến cố đồng tiền thứ nhất xuất hiện mặt sấp, đồng tiền thứ 2 xuất hiện mặt ngữa

NS là biến cố đồng tiền thứ nhất xuất hiện mặt ngữa, đồng tiền thứ 2 xuất hiện mặt sấp.

A là biến cố có một đồng tiền xuất hiện mặt sấp

a)  = {NN; NS; SN; SS} b) Phép thử này có 4 biến cố sơ cấp

)(

n

A n

Trong đó: + n ( A ) là số biến cố sơ cấp (kết quả) có trong A( hay là số kết quả thuận lợi cho A xảy ra)

+ n (  ) là số biến cố sơ cấp (kết quả) của không gian ( hay là số kết quả có thể xảy ra)

Ví dụ: Tung một con xúc xắc cân đối và đồng chất

Gọi ei là biến cố xuất hiện mặt i chấm(i=1,2,…, 6)

A là biến cố xuất hiện mặt chẵn

B là biến cố xuất hiện mặt chia hết cho 3

Ta thấy: + Các ei đồng khả năng vì P(ei)=

6

1 i1,2, ,6 + A={e2, e4, e6}: có 3 kết quả (biến cố sơ cấp) thuận lợi cho A xảy ra

Trang 6

+ B={e3, e6}: có 2 kết quả (biến cố sơ cấp) thuận lợi cho B xảy ra

+ ={e1; e2; e3; e4; e5;e6}: Có 6 kết quả (biến cố sơ cấp) có thể xảy ra

6

3)(

)()

6

2)(

)()

Ví dụ:

1) Một đợt xổ số phát hành 106 vé số, trong đó có 1 giải đặc biệt (6 số); 10 giải nhất(5 số), 10 giải nhì(5 số), 20 giải ba(5 số); 70 giải tư(5 số); 100 giải năm(4 số); 300 giải sáu(4 số); 1000 Giải bảy(3 số); 10000 giải tám(2 số); 9 giải phụ đặc biết và 45 giải khuyến khích Một người mua ngẫu nhiên một tờ vé số Tìm xác suất để người đó:

a) Trúng giải đặc biệt; giải nhất; giải tư; giải tám

b) trúng số

2) Khi lai hai cây đậu có kiểu gen Aa Tính xác suất để thế hệ con mang kiểu gen:

a) aa b) AA c) Dị hợp tử d) đồng hợp tử

3) Một hộp gồm 5 bi trắng, 4 bi đỏ Từ hộp đó lấy ngẫu nhiên cùng ra 2 bi

a) Không gian biến cố sơ cấp có bao nhiêu phần tử

b) Gọi B là biến cố lấy được hai bi đỏ Tìm P(B)

c) Gọi C là biến cố lấy được hai bi khác màu Tìm P(C)

d) Gọi D là biến cố lấy được hai bi cùng màu Tìm P(D)

3.2 Định nghĩa xác suất tần suất

Qua định nghĩa ở mục 3.1 ta thấy nó đòi hỏi không gian biến cố sơ cấp  hữu hạn phần tử và lại đồng khả năng Vì vậy để khắc phục nhược điểm đó ta xét định nghĩa sau:

Giả sử một phép thử có thể lặp lại n lần độc lập, trong đó biến cố A xuất hiện m lần trong n lần thực hiện phép thử Khi đó ta gọi f =

n

m là tần suất xuất hiện biến cố A Người ta kiểm chứng được

khi số lần lặp n càng lớn thì tỉ số

n

m tiến về một giá trị cố định p nào đó,

Ví dụ: Nhà toán học Pearson và Buffon đã làm thực nghiệm gieo nhiều lần một đồng tiền cân

đối và đồng chất kết quả được ghi lại như sau:

Người làm thí nghiệm Số lần gieo Số lần xuất hiện mặt ngữa

f=

n m

Trang 7

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 7

Với bảng thực nghiệm trên cho thấy xác suất để mặt ngữa xuất hiện là p = 0.5

Ví dụ: Để biết xác suât bắn trúng mục tiêu của một xạ thủ là bao nhiêu, người ta tiến hành cho

xạ thủ đó bắn n viên đủ lớn(mỗi lần bắn xem như thực hiện một phép thử), sau đó ghi nhận số viên đạn trúng mục tiêu (giả sử m viên trúng mục tiêu)

)1(

)(

)(

)()

1 1

1 1

n n

n l j k

l j k n

j k

j k n

k

k n

k

k P A P A A P A A A P A A A A

k

k P A A

P

1 1

)()

(

* Với hai biến cố A, B: P(A B)=P(A)+P(B)-P(A  B)

P(A B)=P(A)+P(B), (Với A, B xung khắc)

* Với ba biến cố A, B, C:

P(A B  C)=P(A)+P(B)+P(C)-P(A  B)-(A  C)-P(B  C)+P(A  B  C)

P(A B  C)=P(A)+P(B)+P(C), (Với A, B, C đôi một xung khắc)

Ví dụ:

1) Từ một hộp gồm 3 bi trắng, 5 bi đỏ lấy ngẫu nhiên cùng lúc ra 3 bi

Gọi A là biến cố lấy được 2 dỏ, 1 trắng

B là biến cố lấy được 2 trắng, 1 đỏ

Tìm P(A), P(B), P(A B)

2) Có 3 bức thư khác nhau và 3 phong bì có ghi địa chỉ sẵn, cho ngẫu nhiên 3 bức thư vào 3 phong bì đó Tìm xác suất trong 3 bức thư đó có ít nhất một bức thư gửi đúng địa chỉ

4.2 Xác suất có điều kiện, công thức nhân

a Xác suất điều kiện

Trang 8

Ví dụ: Từ bộ bài Lutukhơ(52 lá), rút ngẫu nhiên ra 1 lá

Gọi A là biến cố rút được lá hai

4

 , P(B) =

2

152

26

 , P(A B)=

26

152

2)

(

)(

)

B n

B A n B A P

* Ta gọi P ( B A ) là xác suất của biến cố A với điều kiện biến cố B đã xảy ra và nó được tính bởi công thức

)(

)(

)(

)(

)(

B P

B A P B

n

B A n B A

k

A P

1 1

) ( )

( 

Chú ý: Nếu không có gì nhầm lẫn thì ta có thể sử dụng kí hiệu A+B thay cho A B; A.B thay cho

A B

4.3 Công thức xác suất đầy đủ và công thức Bayes

Trong không gian  cho hệ đầy đủ các biến cố A1, A2,…, An , A là một biến cố bất kỳ của , Khi đó ta có:

a) P ( A )  P ( A1) P ( A A1)  P ( A2) P ( A A2)   P ( An) P ( A An),

Trang 9

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 9

(Công thức xác suất đầy đủ)

b) Nếu P ( A )  0 thì

) (

) ( ) ( ) (

A P

A A P A P A A

Chứng minh a) Ta có:

A=A=An

k k

k n

b) Ta có:

) (

) ( ) ( )

(

) (

) (

A P

A A P A P A

P

A A P A

A

Yêu cầu SV

1) Từ một hộp gồm 10 bi trắng, 5 bi đỏ, lấy lần lượt không hoàn lại ra 2 bi

a) Tính xác suất 2 bi lấy ra cùng màu đỏ

b) Tính xác suất 2 bi lấy ra khác màu nhau

2) Có hai lô sản phẩm, lô 1 có 100 sản phẩm trong đó có 10 phế phẩm; lô 2 có 90 sản phẩm trong đó có 5 phế phẩm

a) Lấy ngẫu nhiên mỗi lô 1 sản phẩm Tìm xác suất trong 2 sản phẩm lấy ra có 1 phế phẩm b) Chọn ngẫu nhiên 1 lô, rồi từ lô đó lấy ngẫu nhiên ra 2 sản phẩm Tìm xác suất trong 2 sản phẩm lấy ra có 1 phế phẩm

4.4 Công thức xác suất nhị thức

Cho n phép thử độc lập(kết quả xảy ra hay không xảy ra của phép thử này không ảnh hưởng đến kết quả xảy ra hay không xảy ra của phép thử khác), mỗi phép thử ta chỉ quan tâm đến hai biến cố

A và A và P(A) =p (không đổi với mỗi phép thử)

Xác suất để biến cố A xuất hiện k lần trong n lần thực hiện phép thử được xác định:

Pn(k)=C n k p k(1 )p nk , k = 0, 1, 2, …,n

Chứng minh

Trang 10

Gọi B là biến cố trong n lần thực hiện phép thử có k lần biến cố A xảy ra

k n k

k n

)

()

()

(

1 1

P

k n k

k n

)]

([)]

([)]

([)]

([)

P B P A k P A nk P A k P A nk , ( có C n k số hạng)

k n k

k

n p p C

II BIẾN NGẪU NHIÊN

1 Khái niệm biến ngẫu nhiên và hàm phân phối

1 1 Khái niệm biến ngẫu nhiên:

Ví dụ : Tung 3 lần một đồng tiền cân đối và đồng chất Khi đó ta có  = { NNN, NNS, NSN, SNN, NSS, SSN, SSS}

Trong đó: N là biến cố xuất hiện mặt ngửa trong mỗi lần tung

S là biến cố xuất hiện mặt sấp trong mỗi lần tung

Trên không gian  ta xác định một hàm X lấy giá trị trên R như sau:

Như vậy tập giá trị của X ( ) : { 0, 1, 2, 3}

Trong ví dụ trên X được gọi là bến ngẫu nhiên và ta cũng thấy rằng: xR luôn tồn tại biến

Trang 11

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 11

+ Biến ngẫu nhiên thường kí hiệu: X, Y, Z,…

+ Giá trị của biến ngẫu nhiên kí hiệu: x, y, z, …

+ Nếu không có gì nhầm lẫn thì X ( ) = x, đôi khi ta viết X = x

b) Từ một hộp có 7 bi đỏ, 3 bi xanh và 10 bi vàng lấy lần lượt có hoàn lại 4 viên bi

1.2 Hàm phân phối của biến ngẫu nhiên:

Định nghĩa

Cho X là biến ngẫu nhiên, khi đó luôn tồn tại P ( { : X ( ) < x}) x và ta gọi

F(x) =P(X < x) : là hàm phân phối xác suất của biến ngẫu nhiên X

Ví dụ: Bắn 3 viên đạn độc lập vào mục tiêu Gọi X là số vên đạn trúng đích Xác suất bắn

trúng mỗi viên là 0,6

+ X là biến ngẫu nhiên, tập giá trị: {0,1,2,3}

Trang 12

+ Không gian biến cố sơ cấp  =  A A A, A A A, A A A, A A A, A AA, A A A, AA , A

32

),2()1()0(

21

),1()0(

10

),0(

0),(

x

x X

P X

P X

P

x X

P X

P

x X

32

,6,0.436,0.4,0.34,0

21

,6,0.4,0.34,0

10

,4,0

0,0

2 3

3

3 3

3

x

x x

x x

2 Các tính chất hàm phân phối:

i) Hàm phân phối là hàm đơn điệu tăng

ii) Hàm phân phối F(x) liên tục trái, nghĩa là

a x

10

,

0,0

x

x x

Trang 13

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 13

2) Giả sử X có hàm phân phối:

0,0

x e

x

ax a) Tìm a và vẽ đồ thị hàm F(x)

b) Tính P( -1  x < 1)

3) Phân phối rời rạc và phân phối liên tục:

3.1 Phân phối rời rạc:

3.1.1 Bảng phân phối xác suất

Cho X là biến ngẫu nhiên rời rạc nhận các giá trị: x1,x2, ,x n, với xác suất tương ứng như sau:

Trong đó: P +1 P + … +2 P +… = 1 n

+ Bảng trên được gọi là bảng phân phối xác suất của X

+ Nếu x1< x2<…< xn<… thì hàm phân phối của X có dạng:

0 nếu x  x1

P1 nếu x1< x  x2 F(x) = P1 + p2 nếu x2< x  x3

P1 + p2 + + pk nếu xk< x  xk+1

Yêu cầu:

Một gia đình có ba người con, giả sử xác suất sinh con trai và sinh con gái là như nhau Gọi X là số con trai của gia đình đó Tìm phân phố xác suất(bảng phân phối xác suất) và hàm phân phố xác suất của X

3.1.2.Hàm mật độ xác suất của X

Cho X là biến ngẫu nhiên rời rạc nhận các giá trị: x1,x2, ,x n, , hàm số được định

nghĩa: f(x) = P(X=x),x = x1, x2, …,xn, … được gọi là hàm mật độ xác suất của X

Chú ý: Bảng phân phối xác suất của X còn gọi là hàm mật độ xác suất cùa X dưới dạng

bảng

X x 1 x … 2 x … n

P(X = x ) i P 1 P … 2 P … n

Trang 14

Yêu cầu

1) Bắn 5 viên đạn độc lập với nhau vào một mục tiêu (trong điều kiện như nhau), xác suất bắn trúng mục tiêu của mỗi lần bắn là như nhau và bằng 0,2 Gọi X là số viên đạn bắn

trúng mục tiêu

a) Tìm phân phối xác suất của X, cho biết X thuộc dạng phân phối nào?

b) muốn mục tiêu bị phá hủy phải có ít nhất 3 viên đạn trúng mục tiêu Tìm xác suất để mục tiêu bị phá hủy

3.2 Phân phối liên tục

f( ) , x  R + Tại những điểm x làm cho f(x) liên tục thì F ’ (x)=f(x)

+ Hàm mật độ xác suất của X tồn tại là duy nhất

b) Tìm hàm phân phối xác suất của X và tính P(0<X<1)

4 Các đặc trưng của biến ngẫu nhiên

4.1 Kỳ vọng(trung bình) :

Kỳ vọng của X đặc trưng cho giá trị trung tâm của biến ngẫu nhiên X

Trang 15

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 15

X E

/

)(

xf( ) , X liên tục

Tính chất

+ E(C) = C, (C hằng số)

+ E(CX) = CE(X)

+ Nếu X, Y có kỳ vọng thì E(X+Y) = E(X)+E(Y)

+ Nếu X, Y độc lập và có kỳ vọng thì E(XY) = E(X)E(Y)

4.2 Phương sai: Đặc trưng cho mức độ phân tán của các giá trị của X so với kỳ vọng

/

)()(

)(XE XE X Var

h k

Mod là giá trị của X(kí hiệu xmod) mà tại đó hàm mật độ đạt giá trị lớn nhất

+ Trường hợp biến ngẫu nhiên rời rạc thì P(X=xmod) là lớn nhất

+ xmod có thể có duy nhất một giá trị cũng có thể có nhiều hơn một giá trị

Trang 16

2) Trong hộp gồm 7 sản phẩm tốt và 3 sản phẩm hỏng, lấy ngẫu nhiên ra 3 sản phẩm Gọi X là số sản phẩm hỏng có trong 3 sản phẩm lấy ra.Tìm trung bình , phương sai và xMod

5 Các quy luật phân phối quan trọng

5.1 Phân phối nhị thức

Biến ngẫu nhiên X được gọi là có phân phối nhị thức nếu hàm mật độ xác suất của nó có dạng:

f(x)P(Xx)C n x p x(1p)nx,x0,1, ,n

Kí hiệu: X~B(n,p), n và p gọi là hai tham số của phân phối nhị thức

+ Nếu X~B(n,p) thì E(X) = np; Var(X) =np(1-p)

* Đặc biệt: Nếu n = 1 thì phân phối B(1,p) gọi là phân phối Bernouli

5.2 Phân phối poisson

Biến ngẫu nhiên X được gọi là có phân phối Poisson nếu hàm mật độ xác suất của nó có dạng:

!)(

)

x x X P x f

x

,  >0

Kí hiệu: X~P( ),  gọi là tham số của phân phối Poisson

+ Nếu X~P( ) thì E(X) =  ; Var(X) = 

5.3 Mối liên hệ giữa phân phối nhị thức và phân phối Poisson

Định lý: Cho X có phân phối nhị thức B(n,p)

Nếu np n , pn  0 thì P(Xx)C n x p x(1p)nxn 

e x

x n x

x n

n n

x

x n n

n p

p C x X P

1()

1()

x

n n

x n n

1(

Trang 17

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 17

a) Tìm phân phối xác suất của X, cho biết X thuộc dạng phân phối nào?

b) muốn mục tiêu bị phá hủy phải có ít nhất 3 viên đạn trúng mục tiêu Tìm xác suất để mục tiêu bị phá hủy

2) Một lô bóng đèn điện tử gồm 10000 bóng, xác suất để mỗi bong hỏng là 0,001 gọi X

là số bóng đèn hỏng của lô hàng

a) Xác định dạng phân phối xác suất của X

b) Tìm xác suất trong lô có đúng 3 bóng hỏng; ít nhất 4 bóng hỏng

5.4 Phân phối chuẩn

Biến ngẫu nhiên X được gọi là có phân phối chuẩn nếu hàm mật độ xác suất của nó có dạng:

2 2

2 ) (

2

1)

x

e x

Trang 18

(Trong đó:  

e t

0

2

2

1)

Yêu cầu: Điều tra ngẫu nhiến 10000 trẻ em, giả sử xác suất sinh con trai và con gái như

nhau và bằng 1/2 Gọi X là số trẻ em trai.Tính xác suất để X nằm trong khoảng 4000 đến 6000; dưới 5000; trên 6000

5.5 Phân phối Gamma và khi bình phương

+ Áp dụng phương pháp tích phân từng phần ta có: (t1)t.(t), với t >0

5.5.2 Phân phối Gamma

Biến ngẫu nhiên X được gọi là có phân phối Gamma nếu hàm mật độ xác suất của nó có dạng:

1)

5.6 Phân phối khi bình phương

Phân phối khi bình phương là phân phối Gamma G(,), với , 2

 r , trong đó r

=1, 2, 3, …

Trang 19

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 19

2 1 2

2

2)2(

1)

r x

Nếu X1, X2, …, Xn là n biến ngẫu nhiên độc lập có phân phối N(0;1) thì

T= X12 + X22 + …+ Xn2 là biến ngẫu nhiên có phân phối 2(n)

5.7 Phân phối Student

Cho hai biến ngẫu nhiên độc lập X~N(0;1), Y~ 2(n), khi đó phân phối của biến ngẫu

nhiên T=

n Y

X

được gọi là phân phối Student

2 1 2

)1(

1.)2(

)2

1()

n

n x

f

Kí hiệu: X~T(n), với n gọi là tham số(bậc tự do) của phân phối Student

5.8 Phân phối Fisher

Cho hai biến ngẫu nhiên độc lập X~ 2( )

)1(

.).(

)2()

2(

)2

()

n n

m n

x m

n n m

n m x

Trang 20

Bài Tập củng cố chương I

1) Một lớp có 50 sinh viên ( trong đó có 30 nam và 20 nữ) Chọn ngẫu nhiên một nhóm gồm 4 sinh

viên Tính các xác suất:

a) Có 2 nam trong số 4 sinh viên được chọn

b) Có ít nhất một sinh viên nam trong số 4 sinh viên được chọn

c) Có ít nhất 2 sinh viên nam trong số 4 sinh viên được chọn

d) Không có sinh viên nam trong số 4 sinh viên được chọn

2) Một phân xưởng có 60 công nhân, trong đó có 40 nữ và 20 nam Tỉ lệ công nhân nữ tốt nghiệp

phổ thông trung học là 15% Còn tỉ lệ này đối với nam là 20% Gặp ngẫu nhiên một công nhân của phân xưởng Tính xác suất để gặp người công nhân tốt nghiệp phổ thông trung học

3) Một hộp đựng 3 bi đỏ và 7 bi xanh Lấy ngẫu nhiên từ hộp ra một bi Nếu bi lấy ra màu đỏ thì bỏ

vào hộp một bi xanh Nếu bi lấy ra màu xanh thì bỏ vào hộp một bi màu đỏ Sau đó từ hộp ta lấy tiếp ra một bi

a) Tìm xác suất để bi lấy ra lần sau là bi đỏ

b) Nếu hai bi lấy ra ( lấy lần thứ nhất và lần thứ hai) cùng màu Tìm xác suất để hai bi này cùng màu xanh

4) Một người có 5 chìa khóa nhưng chỉ có 2 chìa khóa mở được cửa Người đó thử từng chìa ( thử

xong nếu không mở được khóa để riêng chìa khóa đó ra) Tính xác suất để lần thứ hai người đó mở được khóa

5) Có 3 xạ thủ cùng bắn vào một bia Mỗi xạ thủ bắn 1 viên Xác suất bắn trúng bia của xạ thú thứ

nhất, thứ hai, thứ ba tương ứng là: 0,6; 0,7; 0,8 Tính xác suất để hai viên trúng bia

6) Hộp thứ nhất có 8 chai thuốc ( trong đó có 3 chai kém phẩm chất) Hộp thứ hai có 5 chai thuốc (

trong đó có 2 chai kém phẩm chất) Lấy ngẫu nhiên từ mỗi hộp ra một chai Tìm xác suất lấy được hai chai thuốc tốt

7) Hộp thứ nhất có 7 sản phẩm loại 1 và 3 sản phẩm loại 2; hộp thứ hai có 5 sản phẩm loại 1 và 3

sản phẩm loại 2 Lấy ngẫu nhiên 1 sản phẩm ở hộp thứ nhất bỏ vào hộp thứ hai rồi sau đó từ hộp thứ hai lấy ngẫu nhiên ra một sản phẩm

a) Tìm xác suất sản phẩm lấy ra là loại 1

b) Biết sản phẩm lấy ra là loại 2 Tìm xác suất sản phẩm đó được bỏ từ hộp 1 sang

8) Trong một hộp có 12 bóng đèn, trong đó có 3 bóng hỏng lấy ngẫu nhiên có thứ tự không hoàn

lại 3 bóng để dùng Tìm xác suất để cả 3 bóng đều không hỏng

Trang 21

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 21

9) Có 2 máy cùng sản xuất một loại sản phẩm Tỉ lệ làm ra chính phẩm của máy thứ nhất là 0,9; của

máy thứ hai là 0,85 Từ một kho chứa

3

1

số sản phẩm của máy thứ nhất ( còn lại của máy thứ hai) lấy ra một sản phẩm để kiểm tra

a/ Tinh xác suất lấy được phế phẩm

b/ Nếu sản phẩm lấy ra không phải là phế phẩm Tính xác suất để sản phẩm đó do máy thứ hai sản xuất ra

10) Có hai chuồng thỏ, chuồng thứ nhất có 5 con thỏ cái và 10 con thỏ đực; chuồng thứ hai

có 3 con thỏ cái và 7 con thỏ đực Có một con thỏ từ chuồng thứ nhất chui qua chuồng thứ hai, không rõ giới tính, sau đó bắt ngẫu nhiên một con thỏ từ chuồng thứ hai đem bán

a Tính xác suất con thỏ đem bán là con thỏ đực

b Biết rằng con thỏ đem bán là con thỏ đực, tính xác suất con thỏ đó là con thỏ ở chuồng thứ nhất chui qua

11)Tỉ lệ phế phẩm của một máy là 5% Người ta sử dụng một thiết bị kiểm tra tự động có độ chính xác cao nhưng vẫn có sai sót Tỉ lệ sai sót đối với chính phẩm là 4%, còn đối với phế phẩm là 1% a) Tìm tỉ lệ sản phẩm được kết luận là chính phẩm nhưng thực ra là phế phẩm

b) Tìm tỉ lệ sản phẩm được kết luận là phế phẩm nhưng thực ra là chính phẩm

c) Tìm tỉ lệ sản phẩm được kết luận nhầm

12 Một xạ thủ có 4 viên đạn, anh ta bắn lần lượt từng viên cho đến khi trúng mục tiêu hoặc hết cả 4

viên thì thôi Tìm phân phối xác suất của viên đạn đã bắn? Biết xác suất bắn trúng mục tiêu của mỗi viên là 0,7

13 Khi một người đi thi lấy bằng lái xe, nếu không đạt anh ta lại đăng ký thi lại cho đến khi

đạt mới thôi, biết rằng khả năng thi đỗ của anh ta là 0,65 Gọi X là số lần anh ta dự thi

a Tìm hàm mật độ xác suất của X; và cho biết X thuộc dạng phân phối gì

b Hãy dự đoán xem trong 243 người dự thi ( mỗi người có xác suất thi đỗ là 0,65) có bao nhiêu người thi đạt ngay lần đầu, thi đạt ở lần thứ hai, phải thi ít nhất 4 lần

14 Theo số liệu thống kê ở một cửa hàng thì người ta thấy lượng hàng bán ra là đại lượng ngẫu

nhiên có bảng phân phối xác suất như sau:

Trang 22

Nếu giá nhập là 10 triệu đ/ tấn thì cửa hàng sẽ lời 5 triệu đ/ tấn, tuy nhiên nếu cuối ngày không bán được sẽ bị lỗ 8 triệu đ/ tấn Vậy mỗi ngày cửa hàng nên nhập bao nhiêu tấn hàng để hy vọng sẽ thu được số tiền lời nhiều nhất?

15 Tiến hành khảo sát số khách trên một ô tô xe buýt tại một tuyến giao thông, người ta thu được

bảng số liệu sau: ( số xe khảo sát là 500)

Giả sử chi phí cho mỗi chuyến xe là 200 ngàn đồng, không phụ thuộc vào số khách đi trên xe thì công ty phải quy định giá vé ( đơn vị: ngàn đồng) là bao nhiêu để có thể thu được số tiền lời

bình quân cho mỗi chuyến là 100 ngàn đồng ( kết quả lấy 3 số thập phân)

16 Từ một lô hàng gồm 10.000 sản phẩm ( trong đó có 8000 sản phẩm loại A) người ta ngẫu nhiên

ra 100 sản phẩm để kiểm tra Nếu thấy có ít nhất 84 sản phẩm loại A trong 100 sản phẩm kiểm tra thì mua lô hàng đó Tìm xác suất để lô hàng được mua ( tính gần đúng bằng công thức tích phân Lapplace)

17 Trọng lượng của các bao gạo do một nhà máy đóng bao sản xuất là đại lượng ngẫu nhiên X

Cho biết X ~ N ( 50; 0,16) Bao gạo là loại I nếu trọng lượng của nó từ 49,8 kg trở lên Tìm tỷ lệ bao loại I của máy

Trang 23

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 23

CHƯƠNG II

DỮ LIỆU THỐNG KÊ VÀ CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ

Mục tiêu học tập: Sau khi học xong bài này, người học có thể:

* Nắm vững các phương pháp thu thập dữ liệu

* Nắm vững các hình thức lưu trữ dữ liệu, mô tả dữ liệu

* Nắm vững cách tính trung bình và phương sai dữ liệu quan sát

* Hiểu rõ ý nghĩa của các đại lượng thống kê mô tả

* Vận dụng được phần mềm SPSS tính giá trị thống kê mô tả

I THU THẬP DỮ LIỆU VÀ LƯU TRỮ DỮ LIỆU

1 Thu thập dữ liệu

Trong thống kê toán học, ta hiểu đám đông là tập hợp toàn bộ các đối tượng mà ta quan tâm nghiên cứu Chẳng hạn: các sản phẩm làm ra trong môt ca làm việc; các trái cây trong một vụ thu hoạch ở nông trường; các sinh viên trong một trường đại học nào đó; các cửa hàng trong một thành phố nào đó; …

Kí hiệu đám đông(tổng thể): ; còn , là cá thể (phần tử) của tổng thể 

Trên tổng thể  ta cần nghiên cứu một đặc tính X nào đó Chẳng hạn: X là độ bền của sản phẩm; X là lượng đường có trong một loại trái cây; X là điểm học tập của sinh viên tại một trường đại học; X là tổng doanh thu của cửa hàng trong một thành phố nào đó;…; X là màu lá của một loài cây nào đó; X là màu tóc một dân tộc nào đó;…

Để biết được các thông tin của đặc tính nghiên cứu X, ta cần khảo sát các cá thể của tổng thể

 Giả sử ta tiến hành khảo sát đặc tính X trên n cá thể của  và được kết quả:

x1 là giá trị của X trên phần tử thứ nhất

x2 là giá trị của X trên phần tử thứ hai

xn là giá trị của X trên phần tử thứ n

Và ta gọi bộ gồm n giá trị (x 1 , x 2 , …, x n ) gọi là dữ liệu quan sát, hay mẫu quan sát

2 Các phương pháp thu thập dữ liệu

Trong thống kê các kết luận về thông tin liên quan đến đặc tính X thường dựa trên cơ sở dữ liệu thống kê thu thập được, chính vì vậy cần đảm bảo tính khách quan trong quá trình thu thập dữ liệu

* Lấy dữ liệu có hoàn lại : Từ tổng thể , ta chọn ngẫu nhiên một phần tử tiến hành quan sát đặc tính X và ghi lại giá trị (x1), rồi trả phần phần tử vừa quan sát trở về tổng thể Sau đó tiếp tục

Trang 24

chọn ngẫu nhiên một phần tử từ tổng thể  tiến hành quan sát đặc tính X và ghi lại giá trị (x2),rồi trả phần phần tử vừa quan sát trở về tổng thể Tiến trình này được tiếp diễn n lần, khi đó ta có dữ liệu quan sát (x1, x2, …, xn)

* Lấy dữ liệu không hoàn lại: Tương tự như trường hợp trên, nhưng sau khi quan sát và ghi lại

giá trị của mỗi phần tử ta không bỏ phần tử đó trở vào tổng thể  Với phương pháp này sau n lần lấy ta cũng có dữ liệu quan sát (x1, x2, …, xn)

Chú ý: Nếu số phần tử của tổng thể lớn thì hai phương pháp lấy mẫu trên được xem là như

nhau Và dữ liệu quan sát lấy được gọi là dữ liệu quan sát độc lập

* Mẫu(dữ liệu)quan sát cơ học: Ta đánh số tất cả các phần tử của tổng thể, ấn định kích thước

n của mẫu, rồi dùng bảng số ngẫu nhiên(sử dụng phần mềm) để chọn

* Mẫu quan sát đặc trưng: Ta chia đám đông  thành các nhóm( chia theo địa lý; chủng loại; tính chất; …), rồi ấn định tỉ lệ phần trăm cho các nhóm, sau đó chọn ngẫu nhiên các phần tử của nhóm theo tỉ lệ đã định

3 Lưu trữ dữ liệu quan sát

Sau khi tiến hành quan sát đặc tính X trên n phần tử của tổng thể, ta có được dữ liệu(mẫu quan sát) được lưu lại dưới 3 hình thức:

i) Nếu cỡ mẫu khá nhỏ thì số liệu được ghi:

Ví dụ: Để ước lượng tổng doanh thu (triệu đồng/tháng) của một công ty gồm 380 cửa hàng trên

toàn quốc trong một tháng, người ta lấy ngẫu nhiên 10% số cửa hàng và có được doanh thu trong một tháng là

Trang 25

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 25

Biểu đồ tần số iii) Khi kích thước mẫu lớn, các giá trị của mẫu gần nhau, khi đó số liệu mẫu được ghi theo

khoảng

X x 1 - x 2 x 2 – x 3 … x k - x k+1

Số phần tử n 1 n 2 … n k

(n 1 +n 2 +…+ n k =n)

Chú ý: + Số khoảng k được xác định là số nhỏ nhất sao cho 2k > n

+ Độ dài mỗi khoảng phải bằng nhau và bằng :

(Giá trị quan sát lớn nhất – giá trị quan sát nhỏ nhất)/k

Ví dụ: Quan sát trọng lượng của một nhóm 108 người ở độ tuổi từ 30-50 ta có kết quả:

+ Ta gọi f i là tần suất của giá trị x i

+ Ta có bảng tần suất được mô tả như sau:

Trang 26

Ví dụ: Từ hai bảng tần điều tra về doanh thu của cửa hàng, ta có bảng tần suất

Doanh thu 20 40 60 80

Tần suất 0,21 0,42 0,32 0,05

Biểu đồ tần suất

5 Các dạng thang đo, phân loại đặc tính X

* Thang đo định danh: Trong dạng thang đo này các con số được sử dụng đơn thuần như một

giá trị xác định sự khác biệt cho các giá trị quan sát Đối với loại thang biểu danh các giá trị số được sử dụng như là ký số nhận dạng và không có giá trị về một thứ tự cao thấp và độ lớn giữa các con số

* Thang đo thứ tự: Trong dạng thang đo này dữ liệu quan sát được sắp xếp theo một thứ tự cao

- thấp nhất định, nhưng không diễn tả được độ lớn và vị trí cao thấp của số liệu Tóm lại, thang đo thứ tự bao gồm cả thông tin về định danh đồng thời cung cấp luôn mối quan hệ theo thứ tự giữa các giá trị nhưng không đo được khoảng cách giữa các giá trị đó

* Thang đó khoảng cách: Giống như đặc tính của thang đo thứ tự, tuy nhiên đối với thang đo

khoảng cách cho phép ta đo được khoảng cách giữa các giá trị Nhưng do thang đo khoảng cách không xác định được điểm 0 chung (giống như thang đo nhiệt độ) do đó ta có thể xác định giá trị này lớn hơn giá trị kia bao nhiêu đơn vị mà không thể kết luận lớn hơn bao nhiêu lần

* Thang đo tỷ lệ: Đây là thang đo có đủ các đặc tính thứ tự và khoảng cách Ngoài ra việc xác

định tỷ số chênh lệch giữa các giá trị có thể thực hiện được, do ở thang đo này điểm 0 được xác định một cách có ý nghĩa

* Đặc tính định lượng: Là đặc tính mà các giá trị của nó có ý nghĩa khi thực hiện các phép toán

cộng, trừ, nhân, chia, và nó được đo bằng thang đo khoảng cách hay tỉ lệ

* Đặc tính định tính: Là đặc tính mà các giá trị của nó không có ý nghĩa khi thực hiện các phép

toán cộng, trừ, nhân, chia, và nó được đo bằng thang đo định danh hay thang đo thứ tự

Trang 27

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 27

II CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ

1 Trung bình của dữ liệu quan sát

Giả sử X là một đặc tính của tổng thể , với (x 1 , x 2 , …, x n ) là dữ liệu quan sát của X giá trị

trung bình của nó được xác định:

x n

2 Trung vị

Là giá trị chia dãy dữ liệu ra làm hai phần bằng nhau khi sắp xếp dãy dữ liệu theo thứ tự tăng dần nó thuộc dạng thang đo thứ tự, dùng để đo mức độ tập trung của các số liệu

3 Mod

Là giá trị của dãy dữ liệu có tần suất lớn nhất, nó phù hợp với thang đo định danh

4 Phương sai của dữ liệu quan sát

Giả sử X là một đặc tính của tổng thể , với (x 1 , x 2 , …, x n ) là dữ liệu quan sát của X phương

sai của nó được xác định:

2

1

2

)(1

1

x x n

1

2

)(1

* Phương sai s 2 hay độ lệch chuẩn s là những thang đo hữu hiệu cho mức độ phân tán của các

số liệu so với giá trị trung bình

5 Sai số của giá trị trung bình

Xét X là một đặc tính của tổng thể , giả sử ta có rất nhiều mẫu quan sát cho đặc tính X, mỗi mẫu quan sát xác định cho ta một giá trị trung bình Khi đó, sai số của các giá trị trung bình đó được đo bởi:

Gía trị Kurt đại lượng dùng để đo độ nhọn của dạng phân phối dữ liệu Nó có giá trị dương khi

dữ liệu có phân phối tương đối có đỉnh, nó có giá trị âm khi các dữ liệu có phân phối tương đối phẳng

)3)(

2(

)1(3)

3)(

2)(

1(

)1

x x n

n n

n n Kurt

n

i i

Trang 28

7 Giá trị bất đối xứng(Skewness):

Gía trị Skew đại lượng dùng để đo mức độ bất đối xứng của dạng phân phối dữ liệu xung quanh giá trị trung bình Nó có giá trị dương khi dữ liệu có phân phối bất đối xứng, với đuôi lệch về phía giá trị dương(phía bên phải), nó có giá trị âm khi các dữ liệu có phân phối bất đối xứng, với đuôi lệch về phía giá trị âm(phía bên trái)

3

1

)2)(

n

n Skew

Ví dụ:

Để nghiên cứu độ ổn định của một loại máy tiện người ta tiến hành lấy mẫu gồm 24 trục máy

do máy tiện loại này sản xuất ra và đo đường kính( đơn vị mm) của chúng cho kết quả :

24,1 27,2 26,7 23,6 24,6 24,5 26,4 26,1

25,8 27,3 23,2 26,9 27,1 25,4 23,3 25,9

22,7 26,9 24,8 24,0 23,4 23,0 24,3 25,4

Tính các đại lượng thống kê: x ; xMe, xMod, s2, s, s x, Kurt, Skew của dãy số liệu trên

Sử dụng phần mềm SPSS để tính các giá trị thống kê mô tả

Ta có thể tính các đại lượng thống kê: x ; xMe, xMod, s2, s, s x, Kurt, Skew và lập bảng tần số, tần suất của dãy số liệu trên bằng phần mềm SPSS

- Bước 1: Nhập số liệu vào bảng tính của SPSS

- Bước 2: Phân tích dữ liệu: Data view/Analyze/Descriptive Statistics/Frequencies…

- Bước 3: Trong hộp thoại Frequencies…ấn định các chi tiết cần thiết, có được bảng kết quả:

Median(xMe) 25.100 Mode(xMod) 25.4aStd Deviation(s) 1.5036 Variance(s2) 2.261 Skewness(Skew) -.011

Trang 29

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 29

Std Error of Skewness 472 Kurtosis(Kurt) -1.407 Std Error of Kurtosis 918 Range(Max-min) 4.6 Minimum 22.7 Maximum 27.3

Bảng tần số, tần suất và tần suất tích lũy

duongkinh

Frequency (Tấn số)

Percent Valid Percent

24 1 2.6 4.2 29.2 24.1 1 2.6 4.2 33.3 24.3 1 2.6 4.2 37.5 24.5 1 2.6 4.2 41.7 24.6 1 2.6 4.2 45.8 24.8 1 2.6 4.2 50.0 25.4 2 5.3 8.3 58.3 25.8 1 2.6 4.2 62.5 25.9 1 2.6 4.2 66.7 26.1 1 2.6 4.2 70.8 26.4 1 2.6 4.2 75.0 26.7 1 2.6 4.2 79.2 26.9 2 5.3 8.3 87.5 27.1 1 2.6 4.2 91.7 27.2 1 2.6 4.2 95.8 27.3 1 2.6 4.2 100.0 Valid

Total 24 63.2 100.0

Trang 30

1 Tiến hành quan sát độ bền X(kg/mm2) của một loại thép, ta có bảng số liệu :

a Tìm các giá trị thống kê: x ; xMe, xMod, s2, s, s x, Kurt, Skew

b Vẽ đồ thị tần số và tần suất

2 Để ước lượng tổng doanh thu (triệu đồng/tháng) của một công ty gồm 380 cửa hàng trên toàn quốc trong một tháng, người ta lấy ngẫu nhiên 10% số cửa hàng và có được doanh thu trong một tháng là :

Trang 31

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 31

CHƯƠNG III ƯỚC LƯỢNG THAM SỐ TỔNG THỂ

Mục tiêu học tập: Sau khi học xong bài này, người học có thể:

* Nắm vững khái niệm về ước lượng

* Nắm vững các bước tiến hành tìm khoảng ước lượng cho tham số

* Giải được các bài toán tìm khoảng ước lượng

* Vận dụng được phần mềm SPSS giải bài toán ước lượng tham số

I ƯỚC LƯỢNG ĐIỂM

1 Khái niệm về ước lượng điểm

Khi nghiên cứu về đặc tính X của tổng thể , thông thường ta tập trung tìm hiểu những thông tin của X như là: Trung bình của X, phương sai của X, trung vị của X, mod của X, tỉ lệ các phần tử mang dấu hiệu A của X,… Để biết chính xác các thông tin này ta cần quan sát toàn bộ các phần tử của  về đặc tính X, điều này trên thực tế không làm được, vì số lượng phần tử của thường là rất lớn Do đó, nếu thông qua một số đại lượng thống kê mô tả nào đó mà ta có thể tìm hiểu được các thông tin đó một cách tương đối đầy đủ và đáng tin cậy thì đại lượng thống kê đó gọi là ước lượng điểm của tham số đó

Phương pháp được sử dụng để tìm ước lượng điểm tốt nhất cho tham số tổng thể là phương

pháp ước lượng hợp lý cực đại

2 Phương pháp ước lượng

Trong thống kê có rất nhiều phương pháp ước lượng điểm cho tham số, trong đó phương pháp ước lượng hợp lý cực đại là phương pháp thường sử dụng và khá đơn giản và nó được mô tả như sau;

Giả sử (x1, x2, …, xn) là mẫu quan sát, độc lập của đặc tính X, có phân phối f(x,1, , r)

+ Đặt L(x1, x n,1, , r) ( , 1, , )

1

r i

1 là ước lượng hợp lí cực đại của  , ,1  r

Để tìm các ước lượng hợp lí cực đại ta tiến hành như sau:

+ Lấy ln hai vế của phương trình (*)

+ Lấy các đạo hàm riêng và giải hệ phương trình:

Trang 32

L x x i r

i

r n

, ,2,1,0), ,,, ,(

, ,2,1,0), ,,, ,(ln

1

1 1

f( , ) 1  , x0; 0, với (x1, x2, …, xn) là mẫu quan sát, độc lập của đặc tính X Tìm ước lượng hợp lý cực đại cho

2) Cho đặc tính X có phân phối chuẩn N( , 2

2

2 ) (

2

1)

i

x f

* Xác định hàm: lnL

* Xác định đạo hàm riêng của hàm lnL theo

* Giải phương trình đạo hàm riêng tìm  (Kết thúc)

i

x f

II KHOẢNG ƯỚC LƯỢNG

1 Khoảng ước lượng(khoảng tin cậy)

Khoảng (; ) gọi là khoảng ước lượng cho tham số  , với độ tin cậy  (0<  <1) nếu 

P( ) = 

Trang 33

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 33

* Qua định nghĩa trên ta thấy độ tin cậy  chính là khả năng mà khoảng ước lượng tìm được

của tham số  chứa giá trị thật của  Người làm thống kê bao giờ cũng mong muốn rằng khoảng

ước lượng có độ tin cậy càng cao càng tốt, tuy nhiên điều đó nó còn ảnh hưởng bởi độ chính xác của ước lượng

* Nếu (; ) là khoảng ước lượng đối xứng của  thì đại lượng 

2

  dùng để đo độ chính xác(sai số) của ước lượng Nếu đại lượng  càng nhỏ thì ta nói ước lượng càng chính xác

Như vậy: Nếu độ tin cậy  càng lớn thì khoảng ( ; ) càng rộng,  càng lớn, do đó độ chính 

xác càng kém

Vì lẽ đó: khi tìm khoảng ước lượng ta cần cho trước độ tin cậy  Sau đó xác định phương

pháp ước lượng sao cho  là nhỏ nhất

Các mô hình ước lượng sau đây được xây dựng thõa mãn yêu cầu trên

2 Khoảng ước lượng trung bình

2.1 Nếu biết phương sai  hoặc cỡ mẫu lớn (n  30) 2

Giả sử (x1, x2, …, xn) là mẫu quan sát, độc lập của đặc tính X , với  là trung bình cần ước

lượng

+ Nếu cho trước độ tin cậy  , thì dực vào luật phân phối chuẩn N(0;1) ta luôn xác định được

giá trị t  sao cho: P(/Z/ >t  ) =

2)

 , Nếu chưa cho  thì dùng s thay thế

Trong đó: + x là trung bình mẫu quan sát

+  là độ lệch chuẩn tổng thể + s là độ lệch chuẩn mẫu quan sát

+ t  là phân vị chuẩn, được xác định sao cho

2)

 là độ chính xác( sai số của ước lượng)

2.2 Nếu chưa biết phương sai  và cỡ mẫu nhỏ 2

+ Ta có khỏang ước lượng cho  với độ tin cậy  là:

Trang 34

;(

n

s t x n

s t

  là độ chính xác( sai số ước lượng)

Ví dụ: Tiến hành quan sát độ bền X(kg/mm2) của một loại thép, ta có bảng số liệu :

a Ước lượng độ bền trung bình của loại thép trên, với độ tin cậy 95%

b Thép có độ bền từ 195kg/mm2 trở lên gọi là thép bền Ước lượng độ bền trung bình

của thép bền với độ tin cậy 90%

Sử dụng phần mềm SPSS để xử lý số liệu cho bài toán trên

- Bước 1: Nhập số liệu vào bảng tính của SPSS

- Bước 2: Phân tích dữ liệu: Data view/Analyze/Descriptive Statistics/Explore…

- Trong hộp thoại Explore…ấn định các chi tiết cần thiết, có được bảng kết quả:

Bảng phân tích dữ liệu

Statistic Std Error Mean 162.78 2.795

Lower Bound 157.25 95% Confidence

Interval for Mean Upper Bound 168.30 5% Trimmed Mean 162.72 Median 165.00 Variance 1.125E3 Std Deviation 33.542 Minimum 105 Maximum 225

Interquartile Range 40 Doben

Skewness -.120 202

X 95-115 115-135 135-155 155-175 175-195 195-215 215-235

Số pt 15 19 23 31 29 21 6

Trang 35

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 35

Bảng phân tích dữ liệu

Statistic Std Error Mean 162.78 2.795

Lower Bound 157.25 95% Confidence

Interval for Mean Upper Bound 168.30 5% Trimmed Mean 162.72 Median 165.00 Variance 1.125E3 Std Deviation 33.542 Minimum 105 Maximum 225

Interquartile Range 40 Skewness -.120 202 Kurtosis -.904 401

b)

Descriptives

Statistic Std Error Mean 209.29 1.579

Lower Bound 206.60 90% Confidence

Interval for Mean Upper Bound 211.98 5% Trimmed Mean 208.65 Median 205.00 Variance 69.841 Std Deviation 8.357 Minimum 205 Maximum 225

Interquartile Range 0 Skewness 1.473 441 Thepben

Kurtosis 176 858

KL: a) Khoảng ước lượng 95% cho độ bền trung bình của thép: (157,25; 168,3) (kg/cm2)

b) Khoảng ước lượng 90% cho độ bền trung bình của thép bền: (206,6; 211,98) (kg/cm2)

Trang 36

2 Khoảng ước lượng tỉ lệ p

Giả sử (x1, x2, …, xn) là mẫu quan sát, độc lập của đặc tính X A là dấu hiệu cần quan tâm của

X Gọi p là tỉ lệ phần tử mang dấu hiệu A của tổng thể

+ Ta có khỏang ước lượng cho p với độ tin cậy  là:

( (1 ); (1 ))

n

f f t f n

f f t

Yêu cầu SV: Tiến hành khảo sát số gạo bán ra hàng ngày (X) tại một cửa hàng, ta có

số liệu sau :

X(kg) 110-125 125-140 140-155 155-170 170-185 185-200 200-215 215-230

a Những ngày bán trên 200kg là những ngày cao điểm Ước lượng số tiền bán được

trung bình trong ngày cao điểm với độ tin cậy 95%, biết giá gạo là 10000/kg

b Ước lượng tỷ lệ ngày cao điểm với độ tin cậy 99%

3 Khoảng ước lượng phương sai  của phân phối chuẩn 2

Giả sử (x1, x2, …, xn) là mẫu quan sát, độc lập của đặc tính X

+ Ta có khỏang ước lượng cho  với độ tin cậy  là: 2

(( 1) ;( 12) )

; 1

2 2

; 2 2

S n S

Yêu cầu SV: Để nghiên cứu độ ổn định của một loại máy tiện người ta tiến hành lấy ngẫu nhiên

24 trục máy do máy tiện loại này sản xuất ra và đo đường kính( đơn vị mm) của chúng cho kết quả

Trang 37

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 37

: 24,1 27,2 26,7 23,6 24,6 24,5 26,4 26,1

25,8 27,3 23,2 26,9 27,1 25,4 23,3 25,9

22,7 26,9 24,8 24,0 23,4 23,0 24,3 25,4

Với độ tin cậy 95% hãy ước lượng :

a) Độ phân tán của đường kính trục máy

b) Độ phân tán tối đa của đường kính trục máy

4 Khoảng ước lượng tỉ lệ

(y1, y2, …, ym) là mẫu quan sát, độc lập của đặc tính X trên tổng thể 2

+ Ta có khỏang ước lượng cho 2

2

2 1

)1(

)1(

;)1(

)1(

2

2 1

; 2 2 2

2 1

; 1

s m

s n F s m

s n F

+ F2; được xác định từ bảng phân vị Fisher ở bậc tự do(m-1; n-1),và mức

2

1

Chú ý: Khi tra bảng cần quan tâm đến mối liên hệ sau:

)1,1,2

1(

1)

1,1,2

1(

n m F

………

Bài tập củng cố chương III

1 Để nghiên cứu tuổi thọ của một thiết bị ( tính bằng tháng), người ta điều tra ngẫu nhiên 15 thiết

bị loại này kết quả như sau : 114; 78; 96; 137; 78; 103; 126; 86; 99; 114; 72; 104; 73; 86; 117, giả

sử tuổi thọ của thiết bị có phân phối chuẩn

a) Tìm ước lượng điểm cho trung bình và độ lệch tiêu chuẩn của tuổi thọ thiết bị và khoảng tin cậy 95% cho trung bình tuổi thọ của thiết bị

b) Nếu muốn độ tin cậy của ước lượng tuổi thọ trung bình là 95% và độ chính xác là 5 tháng thì cần điều tra them bao nhiêu thiết bị nữa

Trang 38

2 Để ước lượng tổng doanh thu (triệu đồng/tháng) của một công ty gồm 380 cửa hàng trên toàn quốc trong một tháng, người ta lấy ngẫu nhiên 10% số cửa hàng và có được doanh thu trong một tháng là :

b Ước lượng tỷ lệ ngày cao điểm với độ tin cậy 99%

4 Một nông dân muốn ước lượng tỉ lệ nảy mầm cho giống lúa mới, người ta tiến hành gieo thử

nghiệm 1000 hạt lúa thuộc giống lúa này và thấy có 640 hạt nảy mầm

a) Với độ tin cậy 95% hãy ước lượng tỷ lệ nảy mầm của giống lúa này

b) Muốn có độ tin cậy 95%, sai số của ước lượng tỷ lệ không vượt quá 0,02 thì cần gieo tối thiểu bao nhiêu hạt

5 Người ta tiến hành điều tra thị trường về một loại sản phẩm mới, phỏng vấn ngẫu nhiên 300

khách hàng thì thấy có 90 người thích sản phẩm này

a) Hãy ước lượng tỷ lệ khách hàng thích sản phẩm này với độ tin cậy 95%

b) Với mẫu điều tra trên và muốn độ chính xác của ước lượng tỷ lệ khách hàng thích sản phẩm

là 0,0436 thì đảm bảo độ tin cậy là bao nhiêu

6 Lãi suất cổ phiếu của một công ty trong 5 năm qua (đơn vị %) là 15; 10; 20; 7; 14, với độ tin cậy

90% hãy ước lượng :

a) Độ phân tán về lãi suất của cổ phiếu

Trang 39

Tài liệu giảng dạy môn: Thống kê và phân tích dữ liệu 39

b) Độ phân tán tối đa của lãi suất cổ phiếu của công ty đó

(Biết lãi suất cổ phiếu là biến ngẫu nhiên có phân phối chuẩn)

7 Để nghiên cứu độ ổn định của một loại máy tiện người ta tiến hành lấy ngẫu nhiên 24 trục máy

do máy tiện loại này sản xuất ra và đo đường kính( đơn vị mm) của chúng cho kết quả :

24,1 27,2 26,7 23,6 24,6 24,5 26,4 26,1 25,8 27,3 23,2 26,9 27,1 25,4 23,3 25,9 22,7 26,9 24,8 24,0 23,4 23,0 24,3 25,4

Với độ tin cậy 95% hãy ước lượng :

a) Độ phân tán của đường kính trục máy

b) Độ phân tán tối đa của đường kính trục máy

8 Rủi ro đầu tư thường được đo bằng phương sai của tỉ lệ thu hồi vốn của dự án Theo dõi ngẫu

nhiên tỉ lệ thu hồi vốn của hai dự án trong 10 năm thu được kết quả:

Dự án 1 Dự án 2 Kích thước mẫu

Tỉ lệ thu hồi vốn trung bình ( %)

Phương sai mẫu (%)2

10 13,2 10,9

10 14,6 25,6

a) Với độ tin cậy 95% hãy ước lượng tỉ lệ thu hồi vốn trung bình của hai dự án

b) Hãy ước lượng phương sai của tỉ lệ thu hồi vốn của hai dự án, biết rằng tỉ lệ thu hồi vốn là biến ngẫu nhiên có phân phối chuẩn

9 Điều tra tỉ lệ X ( tính bằng %) của một số sản phẩm cùng loại được kết quả trong bảng:

x i 0-5 5-10 10-15 15-20 20-25 25-30 30-35 35-40

n 7 12 20 i 25 18 12 5 1

a) Những sản phẩm có chỉ tiêu X không quá 10% là loại 2 Hãy ước lượng tỉ lệ sản phẩm loại 2 với độ tin cậy 99%

b) Hãy ước lượng trung bình các chỉ tiêu X các sản phẩm loại 2 với độ tin cậy 99% ( giả sử X

có phân phối chuẩn)

c) Nếu dùng số liệu của mẫu để ước lượng trung bính chỉ tiêu X với độ tin cậy 95% và độ chính xác 1% thì cần điều tra thêm bao nhiêu sản phẩm nữa

10 Để đánh giá mức tiêu thụ điện của mỗi hộ gia đình ở vùng A trong mùa khô, công ty điện lực vùng này tiến hành điều tra 400 hộ kết quả trong bảng:

Trang 40

11 Một kỹ sư xây dựng cho rằng trọng lượng W mà một chiếc cầu chịu đựng được, không bị phát

vỡ cấu trúc có phân phối chuẩn với trung bình là 400 tấn và độ lệch tiêu chuẩn là 40 tấn, giả sử trọng lượng của một ô tô có trung bình là 3 tấn và độ lệch tiêu chuẩn là 0,3 tấn, số ô tô trên cầu là bao nhiêu để xác suất cầu bị phá vỡ cấu trúc vượt quá 0,1

Ngày đăng: 09/05/2021, 16:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w