1. Trang chủ
  2. » Cao đẳng - Đại học

Khóa luận THỐNG KÊ TOÁN NÂNG CAO

69 61 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 2,45 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đề tài khóa luận tốt nghiệp đại học sư phạm toán THỐNG KÊ TOÁN NÂNG CAO đã được chỉnh sửa hoàn chỉnh

Trang 1

TRƯỜNG ĐẠI HỌC QUẢNG NAM

KHOA TOÁN

-NGUYỄN THỊ NHẬT HÀ

THỐNG KÊ TOÁN NÂNG CAO

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Quảng Nam, tháng 5 năm 2017

Trang 2

TRƯỜNG ĐẠI HỌC QUẢNG NAM

KHOA TOÁN

- -KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Tên đề tài:

THỐNG KÊ TOÁN NÂNG CAO

Sinh viên thực hiện

NGUYỄN THỊ NHẬT HÀ

MSSV: 2113010111

CHUYÊN NGÀNH: SƯ PHẠM TOÁN

KHÓA 2013 – 2017Cán bộ hướng dẫn

ThS PHẠM NGỌC HOÀNG

Quảng Nam, tháng 5 năm 2017

Trang 3

LỜI CẢM ƠN

Trong suốt thời gian thực hiện khóa luận của mình, tôi đã gặp không ít khó khăn,vướng mắc về hình thức lẫn nội dung nghiên cứu Nhưng dưới sự giúp đỡ và hướngdẫn tận tâm tận tình của các thầy cô, tôi đã hoàn thành khóa luận của mình

Tôi xin gửi lời cảm ơn sâu sắc đến Th.S Phạm Ngọc Hoàng, giảng viên hướng dẫntôi nghiên cứu đề tài khóa luận này Thầy đã hướng dẫn, chỉ bảo, góp ý và cung cấpcho tôi những kiến thức nền tảng vô cùng quan trọng và cần thiết cho việc nghiên cứu.Nhờ có sự giúp đỡ nhiệt tình của thầy, tôi đã hoàn thành tốt bài khóa luận của mình.Tôi xin gửi lời cảm ơn chân thành đến tất cả thầy cô trong khoa Toán Trong suốtbốn năm học đại học, thầy cô đã truyền dạy cho tôi vô vàn kiến thức bổ ích, giúp tôivận dụng những kiến thức này để hoàn thành khóa luận

Tôi xin cảm ơn gia đình, bạn bè đã luôn động viên, cổ vũ tinh thần và tạo mọi điềukiện để tôi tập trung hoàn toàn vào việc nghiên cứu khóa luận

Không có thành công nào mà không có sự nỗ lực của bản thân mình cùng với sựgiúp đỡ từ mọi người Một lần nữa, tôi xin chân thành cảm ơn

Đề tài này được nghiên cứu trong phạm vi và thời gian có hạn, vì thế không tránhkhỏi những thiếu sót hay kiến thức chưa đủ sâu rộng để giải quyết tất cả các vấn đề Vìvậy, kính mong nhận được sự đóng góp ý kiến đến từ thầy cô, bạn bè để khóa luậnngày càng hoàn thiện hơn

Trang 4

MỤC LỤC

Phần 1 MỞ ĐẦU 1

1 Lí do chọn đề tài 1

2 Mục tiêu của đề tài 1

3 Đối tượng và phạm vi nghiên cứu 1

4 Phương pháp nghiên cứu 2

5 Đóng góp của đề tài 2

6 Cấu trúc đề tài 2

Phần 2: NỘI DUNG NGHIÊN CỨU 3

CHƯƠNG 1: BÀI TOÁN ƯỚC LƯỢNG THAM SỐ 3

1.1 Bài toán ước lượng điểm 3

1.1.1 Ước lượng không chệch 3

1.1.2 Ước lượng vững 4

1.1.3 Ước lượng hiệu quả 6

1.1.4 Ước lượng hợp lý cực đại 7

1.2 Bài toán ước lượng khoảng 9

1.2.1 Bài toán ước lượng hiệu hai giá trị trung bình 9

1.2.2 Bài toán ước lượng hiệu hai giá trị xác suất 10

CHƯƠNG 2: BÀI TOÁN KIỂM ĐỊNH GIẢ THIẾT 12

2.1 Khái niệm bài toán kiểm định giả thiết 12

2.2 Bài toán kiểm định giả thiết bằng phương pháp P – giá trị 13

2.3 Kiểm định giả thiết về giá trị của nhiều xác suất 15

2.4 Tiêu chuẩn kiểm định phi tham số 17

2.4.1 Kiểm định giả thiết về luật phân phối 17

2.4.2 Kiểm định giả thiết về tính độc lập 19

2.4.3 Tiêu chuẩn Mann – Whitney 21

2.4.4 Tiêu chuẩn Wilcoxon 24

Trang 5

2.5 Bài toán so sánh mở rộng 27

2.5.1 Bài toán so sánh (kiểm định) nhiều tỉ lệ 27

2.5.2 So sánh các phân bố 28

2.5.3 Phân tích phương sai một nhân tố 31

2.5.4 Phân tích phương sai hai nhân tố 34

CHƯƠNG 3: PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY 42

3.1 Phân tích tương quan tuyến tính 42

3.2 Phân tích tương quan phi tuyến 44

3.3 Phân tích hồi quy tuyến tính 47

3.4 Hồi quy phi tuyến 50

3.5 Hồi quy bội 52

Phần 3 KẾT LUẬN 55

Phần 4 TÀI LIỆU THAM KHẢO 56

Phần 5 PHỤ LỤC 57

Trang 6

Phần 1 MỞ ĐẦU

1 Lí do chọn đề tài

Thống kê là quá trình nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồmphân tích, giải thích, trình bày và tổ chức dữ liệu Chúng ta áp dụng thống kê đểnghiên cứu các lĩnh vực khoa học, công nghiệp hoặc các vấn đề xã hội Thống kê rấtcần thiết để bắt đầu nghiên cứu một tiến trình Thống kê học là một ngành lớn, vớinhiều phương pháp khác nhau để dùng cho các tình huống khác nhau và có nhiều điểmcần chú ý để khỏi dẫn đến các kết luận thống kê sai lệch Ngày nay, cùng với sự pháttriển của khoa học máy tính thì lí thuyết xác suất thống kê ngày càng phát triển, cónhiều ứng dụng trong thực tiễn và được các nhà khoa học trong và ngoài nước quantâm nghiên cứu

Thống kê toán học có thể coi là tổng thể các phương pháp toán học, dựa trên lýthuyết xác suất và các công cụ khác, nhằm đưa ra được những thông tin mới, kết luậnmới, có giá trị, từ những bảng số liệu thô ban đầu và nhằm giải quyết những vấn đềnảy sinh từ thực tế Có thể kể tên một số mục đích chính của thống kê như sau: mô tả

số liệu, ước lượng và dự đoán các đại lượng, tìm ra các mối quan hệ giữa các đạilượng, kiểm định các giả thiết

Hiện nay, lí thuyết thống kê được đưa vào chương trình giảng dạy đại học cho hầuhết các ngành học Tuy nhiên, do thời lượng chương trình nội dung của lí thuyết thống

kê chỉ đề cập đến việc ước lượng và kiểm định các tham số cơ bản Do đó, nhằm cungcấp một cách đầy đủ và có hệ thống kiến thức về lý thuyết thống kê và các dạng bàitoán ứng dụng trong thống kê kèm theo lời giải chi tiết cho từng bài tập liên quan,

đồng thời bổ sung một số ứng dụng nâng cao khác, tôi chọn đề tài: “Thống kê toán

nâng cao” làm đề tài khóa luận của mình.

2 Mục tiêu của đề tài

Nghiên cứu nội dung lý thuyết thống kê

Trình bày có hệ thống các ứng dụng thống kê cơ bản

Đồng thời cung cấp một số ứng dụng thống kê nâng cao

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: Bài toán ước lượng tham số, bài toán kiểm định giả thiết,phân tích tương quan và hồi quy

Phạm vi nghiên cứu: Lý thuyết thống kê và ứng dụng

Trang 7

4 Phương pháp nghiên cứu

Phương pháp phân tích và tổng hợp lý thuyết

Phương pháp nghiên cứu tài liệu

Tham khảo ý kiến chuyên gia

5 Đóng góp của đề tài

Hệ thống kiến thức và các dạng bài toán ứng dụng trong thống kê

Trình bày các bước thực hiện và giải chi tiết các bài tập liên quan đến từng dạngbài toán đó

Cung cấp cho học sinh, sinh viên một số ứng dụng thống kê nâng cao không được trìnhbày trong chương trình học, giúp các em có thêm tài liệu để tham khảo và nghiên cứu

6 Cấu trúc đề tài

Bài khóa luận ngoài phần mở đầu và kết luận thì nội dung được chia làm 3 chương: Chương 1: Bài toán ước lượng tham số

Chương 2: Bài toán kiểm định giả thiết

Chương 3: Phân tích tương quan và hồi quy

Trang 8

Phần 2: NỘI DUNG NGHIÊN CỨU CHƯƠNG 1: BÀI TOÁN ƯỚC LƯỢNG THAM SỐ

* Khái niệm bài toán ước lượng tham số

Giả sử X1, ,K X n là mẫu ngẫu nhiên từ phân phối f x( , ),  �U( là tham số).

Trên cơ sở mẫu ( ,X X1 2, ,X đã cho ta cần ước lượng tham số  (hoặc hàm số của n)tham số  ).

Chẳng hạn: X có phân phối Poisson P( ) thì   , X có phân phối chuẩn

2

( , )

N   thì  ( , 2) Phân phối của X được xác định nếu ta tìm được hay ướclượng được giá trị của 

Bài toán tìm một thống kê $ để thay thế (hay ước lượng) cho tham số  chưa biết

được gọi là bài toán ước lượng điểm của  Do giá trị của  chưa biết nên không thể

so sánh $ với  để đánh giá chất lượng của $, vì vậy người ta đưa ra các tiêu chuẩnsau: ước lượng không chệch, ước lượng vững, ước lượng hiệu quả

1.1 Bài toán ước lượng điểm

* Định nghĩa: Ước lượng điểm của tham số  (hoặc hàm số tham số   ) là đại( )lượng ngẫu nhiên T n ( , , , )x x1 2 x n chỉ phụ thuộc vào các quan sát x x1, , ,2 x và n

không phụ thuộc vào tham số 

* Ví dụ: Giả sử ( ,X X1 2, ,X là mẫu ngẫu nhiên độc lập từ phân phối chuẩn n)dạng tổng quát N( ; 2) Khi đó:

là ước lượng điểm của kỳ vọng  Ta thấy trong biểu

thức của X không có mặt  mà chỉ chứa các quan sát X1, ,K X n.

cũng là ước lượng điểm của  2

1.1.1 Ước lượng không chệch

* Định nghĩa: Ước lượng T của tham số  (hoặc hàm số tham số n   ) được gọi( )

là ước lượng không chệch nếu ET n  (ET n    

Trang 9

* Ý nghĩa: Từ định nghĩa ta có E( $ ) 0 (trung bình của độ lệch (sai số) giữaước lượng với giá trị thực bằng 0) Sai số trung bình bằng 0 được gọi là sai số ngẫunhiên, ngược lại gọi là sai số hệ thống Như vậy $ là ước lượng không chệch của khi sai số ước lượng là sai số ngẫu nhiên.

* Ví dụ: Một số ước lượng không chệch sau:

1 n

i i

n

i i

  cho trước tùy ý ta có: limP T��n  �� 1

* Ý nghĩa: Với n đủ lớn thì xác suất gần 1 ta có  $�

Trang 10

* Ví dụ: Giả sử X1, ,K X n là mẫu ngẫu nhiên độc lập từ phân phối chuẩn dạng

* Ví dụ: Giả sử k là số lần xuất hiện biến cố A trong dãy n phép thử Bernoulli.( )

P A là xác suất xuất hiện biến cố A trong mọi phép thử, không đổi và bằng p.

, 2

14

Trang 11

1.1.3 Ước lượng hiệu quả

* Định nghĩa: Ước lượng T được gọi là ước lượng không chệch với phương sai n

bé nhất của hàm tham số  ( ) nếu:

1) E T( )n   .

2) D T nD V n trong đó V là ước lượng không chệch bất kì của n  ( ).

D X là kí hiệu phương sai của X khi  đã cho.

* Định nghĩa: Thống kê  được gọi là ước lượng hiệu quả của  nếu nó là ước$lượng không chệch và có phương sai bé nhất trong các ước lượng không chệch của  Nếu hàm mật độ xác suất của X thỏa mãn một số điều kiện nhất định thì ta có bất

ln ( , )

V

f X nE

Trang 12

1.1.4 Ước lượng hợp lý cực đại

* Định nghĩa hàm hợp lý: Giả sử X1, ,K X n là mẫu ngẫu nhiên độc lập từ phânphối f x( , ),  �U Gọi tích L X( /) f X( , ) (1  f X2, ) ( f X n, ) là hàm hợp lý.

* Định nghĩa ước lượng hợp lý cực đại: Uớc lượng $X1, ,K X n được gọi là ước

lượng hợp lý cực đại của tham số  nếu L X( /$( ))XL X( /) với mọi  � U

Từ định nghĩa ước lượng hợp lý cực đại ta rút ra phương pháp tìm ước lượng như

sau: Tìm giá trị $( )X của  sao cho L X( /) đạt cực đại tại $( )X .

thì $ là ước lượng phải tìm Nếu f x( , ) 0  thì L X( /) 0 Ta có thể viết:

n i i

Trang 13

i i i

X X

* Ví dụ: Giả sử X1, ,K X n là mẫu ngẫu nhiên độc lập từ phân phối chuẩn dạng

Trang 14

1 2

2 2

2

n

n i

i i

1.2 Bài toán ước lượng khoảng

* Định nghĩa khoảng ước lượng: Giả sử X1, ,K X n là mẫu ngẫu nhiên độc lập từ

phân phối f x( , ),  �U Khoảng �1X1, ,K X n; �2 X1, ,K X n,  � �1 2

được gọi

là khoảng ước lượng của tham số  với độ tin cậy 1  nếu:

�1  �2  1

P�� X    X �� 

1.2.1 Bài toán ước lượng hiệu hai giá trị trung bình

* Bài toán: Giả sử X1, ,K X n là mẫu ngẫu nhiên độc lập từ phân phối chuẩn

+ Nếu n m �60 thì t tra ở bảng phân phối Student với n m 2 bậc tự do và

mức  (Bảng tiêu chuẩn hai phía)

+ Nếu n m 60 thì t tra ở bảng phân phối chuẩn sao cho Φ   = 1–

2

Trang 15

* Ví dụ: Cho hai mẫu ngẫu nhiên độc lập từ phân phối chuẩn

Theo giả thiết của bài toán ta có n7, m6,  0,1.

Tra bảng phân phối Student ta tìm được t0,1 t(11; 0,1) 1,8 Ta tính được

213,06, 12,55, S 2,89

1.2.2 Bài toán ước lượng hiệu hai giá trị xác suất

* Bài toán: Xét hai dãy phép thử Bernoulli Dãy thứ nhất có n phép thử, X là số

lần xuất hiện biến cố A trong dãy I, xác suất để biến cố A xuất hiện trong mỗi phép thửcủa dãy I là P A( ) Dãy thứ hai có m phép thử, Y là số lần xuất hiện biến cố A p1trong dãy II, xác suất để biến cố A xuất hiện trong mỗi phép thử của dãy II là

Trang 16

* Ví dụ: Để đánh giá chất lượng sản phẩm do hai nhà máy sản xuất ra, người ta

kiểm tra ngẫu nhiên 200 sản phẩm ở nhà máy I thấy có 20 phế phẩm và 300 sản phẩm

ở nhà máy II thấy có 15 phế phẩm Tìm khoảng ước lượng của hiệu hai xác suất để tìmsản phẩm là phế phẩm của hai nhà máy với độ tin cậy 95%

Trang 17

CHƯƠNG 2: BÀI TOÁN KIỂM ĐỊNH GIẢ THIẾT 2.1 Khái niệm bài toán kiểm định giả thiết

* Định nghĩa giả thiết thống kê

Giả sử đại lượng ngẫu nhiên X có phân phối ( )F x (hoặc ( , ), F x  � ) GiảUthiết thống kê là mệnh đề có liên quan đến quy luật phân phối xác suất của đại lượngngẫu nhiên X đó

Giả thiết thống kê được kiểm định gọi là giả thiết không, kí hiệu H Đó là một o

giả thiết mà ta nghi ngờ và muốn bác bỏ Để kiểm định H , ta đưa ra giả thiết o H gọi1

là đối thiết H sẽ được chấp nhận khi 1 H bị bác bỏ o

* Ví dụ: Một số kiểm định giả thiết:

a) H a o: 5, H a1: � 5

b) H a o:  hoặc 5 a7, H1: 5 a 7

c) H a o: �5, H a1: 5

Nếu tập giả thiết H có một phần tử (H: tập hợp các mệnh đề) thì o H được gọi là o

giả thiết đơn (bài toán a và c) Nếu tập H có từ 2 phần tử trở lên thì o H được gọi là o

giả thiết hợp (bài toán b)

Tương tự, nếu tập giả thiết H có một phần tử thì 1 H được gọi là đối thiết đơn1(bài toán b và c) Nếu tập H1 có từ 2 phần tử trở lên thì H được gọi là đối thiết hợp1

(bài toán a)

* Kiểm định giả thiết thống kê: là việc chọn một trong hai quyết định là bác bỏ giả

thiết H hoặc chấp nhận giả thiết o H o

Chúng ta sẽ quyết định bác bỏ giả thiết H nếu xác suất xuất hiện của một sự kiện o

quan sát được (tính trong điều kiện giả thiết H đúng) là “nhỏ” o

Trong khi đưa ra quyết định phải lựa chọn giữa hai giả thiết H và o H , ta có thể1phạm hai loại sai lầm:

+ Sai lầm loại 1: H o đúng mà bác bỏ.

+ Sai lầm loại 2: H o sai mà chấp nhận.

* Tiêu chuẩn kiểm định giả thiết: Để có được quyết định chấp nhận hoặc bác bỏ

giả thiết H ta phải dựa trên một tiêu chuẩn nào đó Vậy tiêu chuẩn kiểm định giả thiết o

được hiểu như sau: Tiêu chuẩn kiểm định giả thiết là một đại lượng ngẫu nhiên phụthuộc vào các quan sát X1, ,K X n và không phụ thuộc tham số  .

* Các bước cần thiết trong việc tiến hành một kiểm định giả thiết thống kê gồm:

Trang 18

1 Phát biểu giả thiết H và đối thiết o H 1

2 Định rõ mức ý nghĩa  (xác suất mắc sai lầm loại 1)

3 Chọn kiểm định (test) thống kê

4 Chọn miền bác bỏ giả thiết H o

5 Tính giá trị của test thống kê từ mẫu quan sát được

6 Kết luận bác bỏ H hay chấp nhận o H tùy theo giá trị của test thống kê có rơi vào o

miền bác bỏ hay giả thiết hay không

Ta có các bài toán kiểm định giả thiết cơ bản đã biết như: kiểm định giá trị trungbình, kiểm định tỉ lệ, kiểm định phương sai, kiểm định tỉ lệ tổng thể p, bài toán so sánhhai giá trị trung bình, so sánh hai giá trị tỉ lệ tổng thể, so sánh hai giá trị phương sai.Trong khóa luận này, tôi nêu lên các bài toán kiểm định nâng cao

2.2 Bài toán kiểm định giả thiết bằng phương pháp P – giá trị

Phương pháp P – giá trị là phương pháp được sử dụng khá rộng rãi

* Định nghĩa

Xét bài toán kiểm định giả thiết H o:  o, H1:  o

Các số liệu mẫu cho ta giá trị của , n X  Ta muốn kiểm định xem số liệu đã cho cóx o

thể bác bỏ H hay không? Giả sử o H là đúng, hãy tính xem xác suất để trung bình o

mẫu bé hơn hay bằng giá trị quan sát được x là bao nhiêu Giá trị của xác suất này o

{ o}

P P X � (tính trong điều kiện x H đúng) được gọi là P – giá trị kết hợp với số o

liệu mẫu quan sát được

Tương tự đối với bài toán H o:  o, H1:  thì P – giá trị là xác suấto{ o}

P P X � (tính dưới giả thiết x H đúng) o

Còn đối với bài toán kiểm định hai phía H o:  o, H1: � thì P – giá trịotrong trường hợp kiểm định hai phía này gấp đôi P – giá trị trong trường hợp kiểmđịnh một phía, tức là P2 {P Xx o}.

Trang 19

* Cách tính: P – giá trị được sử dụng theo hai cách

- Cách 1: Tính P – giá trị và dựa vào một số hướng dẫn để đưa ra quyết định liệu cóbác bỏ H hay không o

+ Nếu P0,05 ta không có đủ cơ sở để bác bỏ H o

+ Nếu P thì ta chưa có cơ sở bác bỏ H o

* Ví dụ 1: Một loại cây trong điều kiện bình thường có chiều cao trung bình là 12

cm Người ta muốn kiểm tra sự ảnh hưởng của nguyên tố vi lượng A tới chiều cao củacây Trong một vườn thí nghiệm trồng 50 cây có bón thêm nguyên tố vi lượng A,người ta tính được chiều cao trung bình là 11,3 cm với độ lệch tiêu chuẩn là s2,5.

Sử dụng phương pháp P – giá trị, với mức ý nghĩa 5% hãy kết luận xem nguyên tố vilượng A có ảnh hưởng đến chiều cao của cây hay không?

Vậy nguyên tố vi lượng A có ảnh hưởng đến chiều cao của cây

* Ví dụ 2: Một cơ quan báo cáo rằng số nhân viên của họ có ít nhất 35% là nữ.

Kiểm tra ngẫu nhiên danh sách 92 nhân viên thấy có 22 nữ Sử dụng phương pháp P –giá trị, với mức ý nghĩa 2,5% hãy nhận xét về báo cáo của cơ quan này?

Trang 20

Khi đó f có phân phối xấp xỉ chuẩn với kì vọng là 0,35 và độ lệch tiêu chuẩn là:

(1 ) 0,35.0,65

0,0592

Vậy báo cáo của cơ quan này là không đúng

2.3 Kiểm định giả thiết về giá trị của nhiều xác suất

* Bài toán: Xét một phép thử ngẫu nhiên G và một hệ đầy đủ các biến cố

1, , ,2 k

B B B liên kết với G Nghĩa là với mỗi kết quả của G, luôn luôn có một và chỉ

một biến cố trong các biến cố B B1, , ,2 B xảy ra Giả sử ta quan tâm tới các xác suất k

(chưa biết) của các biến cố B này i

Khi đó ta có bài toán kiểm định giả thiết về giá trị của nhiều xác suất

1 1

2 2

: ( ) ( )

1

k i i

Các số n này được gọi là tần số quan sát i

Ta trình bày các tần số quan sát n thành bảng sau: i

Các số ninp i i ( 1,2, , )k được gọi là các tần số lí thuyết

Chọn tiêu chuẩn kiểm định (test thống kê) là

�2

Trang 21

Trong đó c2(k1, ) là phân vị mức  của phân phối 2

với k  bậc tự do và1

các tần số lý thuyết n� 5i

* Ví dụ: Chi nhánh điện lực huyện A ghi lại các vụ báo xin chữa điện trong tuần như sau:

Thứ hai Thứ ba Thứ tư Thứ năm Thứ sáu Thứ bảy Chủ nhật

Căn cứ trên số liệu này, với mức ý nghĩa 1%, hãy nhận xét xem các sự cố về điện cóxảy ra với xác suất như nhau trong các ngày trong tuần hay không?

Giải

Bài toán kiểm định giả thiết H : Các sự cố về điện xảy ra với xác suất như nhau o

Dưới giả thiết H , các tần số lí thuyết sẽ là o

hai

Thứba

Thứtư

Thứnăm

Thứsáu

Thứbảy

Chủnhật

Tổng

  �  

T c nên bác bỏ H o

Vậy ý kiến cho rằng các sự cố về điện xảy ra với xác suất như nhau trong các ngàytrong tuần là không đúng

Trang 22

2.4 Tiêu chuẩn kiểm định phi tham số

Các tiêu chuẩn thống kê dùng để kiểm định sự khác nhau giữa giá trị trung bình của hai tập hợp chính mà ta trình bày ở trên gọi là các kiểm định có tham số Chúng phải dựa trên giả thiết quan trọng là tập hợp chính đang xét có phân phối chuẩn hoặc kích thước mẫu khá lớn Nếu một trong các điều kiện trên vi phạm thì các tiêu chuẩn

đó không thể sử dụng được Khi đó, ta phải sử dụng các tiêu chuẩn phi tham số Lưu ý rằng, các kiểm định phi tham số không mạnh bằng các kiểm định có tham số Vì vậy, nếu điều kiện cho phép dùng kiểm định có tham số được thỏa mãn thì ta nên dùng kiểm định có tham số

2.4.1 Kiểm định giả thiết về luật phân phối

* Bài toán: Giả sử đại lượng ngẫu nhiên X có luật phân phối xác suất F x chưa X( )

biết Với mức ý nghĩa  cho trước, từ mẫu quan sát ( , , )x x1 2 x , ta có kiểm định giả n

thiết sau H o:F x X( )F x H F x*( ), 1: X( )�F x*( ) với F x là luật phân phối xác suất*( )

đã biết

Tương tự như kiểm định tham số, ta dựa vào một tiêu chuẩn kiểm định xây dựng

từ mẫu ngẫu nhiên được rút ra từ X Loại tiêu chuẩn kiểm định này được gọi là tiêuchuẩn phù hợp Có nhiều tiêu chuẩn phù hợp khác nhau Ở đây ta xét tiêu chuẩn thôngdụng của Pearson Tiêu chuẩn này được xây dựng dựa trên cơ sở so sánh tần số quansát và tần số lí thuyết của phân phối xác suất cần kiểm định

Chọn tiêu chuẩn kiểm định

Trang 23

+ Tra bảng khi bình phương c2(k r 1, ) .

Ở đây r là số tham số của luật phân phối cần kiểm định Ví dụ: N( ,  thì 2) r 2,( )

P  thì r1.

+ So sánh hai giá trị , G c rồi kết luận.

* Ví dụ: Để tìm hiểu số thiết bị bị hỏng trong một tháng của một hệ thống máy,

người ta theo dõi 50 tháng liền và được số thiết bị bị hỏng cho trong bảng sau:

x

         Bài toán kiểm định giả thiết H : ( ) o F x XP(2,8)

Do có n i  nên ta sắp xếp lại số liệu sau:5

Trang 24

Vậy không thể cho rằng số thiết bị bị hỏng X tuân theo quy luật Poisson ( )P  .

2.4.2 Kiểm định giả thiết về tính độc lập

* Bài toán: Giả sử cần nghiên cứu đồng thời hai dấu hiệu X và Y, với X có k dấu

hiệu thành phần x1, ,x và Y có m dấu hiệu thành phần k y1, ,y Ta có kiểm định giả m

thiết H : X và Y độc lập, o H : X và Y phụ thuộc, với mức ý nghĩa  cho trước 1

Từ mẫu kích thước n , quan sát đồng thời hai dấu hiệu (X, Y), ta có

n : tần số ứng với các phần tử đồng thời mang dấu hiệu x y i, j

Chọn tiêu chuẩn kiểm định:

2 ij

* Quy tắc thực hành:

+ Tính

2 ij

+ Tra bảng Khi bình phương c2(k1)(m1), 

+ So sánh hai giá trị , G c rồi kết luận.

Trang 25

* Ví dụ: Điều tra ngẫu nhiên thu nhập của 400 công nhân ở hai thành phố A và B

kết quả như sau (đơn vị triệu đồng/1 năm):

Vậy thu nhập của công nhân không phụ thuộc vào thành phố mà họ làm việc

2.4.3 Tiêu chuẩn Mann – Whitney

* Bài toán: Giả sử ta có hai mẫu ngẫu nhiên độc lập với nhau Mẫu thứ nhất

x x1, , ,2 x là n quan sát độc lập về đại lượng ngẫu nhiên X, mẫu thứ hai n

y y1, , ,2 y m là m quan sát độc lập về đại lượng ngẫu nhiên Y Phân phối của X và Ychưa biết và không nhất thiết là phân phối chuẩn Ta muốn kiểm định giả thiết H : X o

và Y có cùng phân phối, H : X và Y khác phân phối.1

* Tiêu chuẩn Mann – Whitney được xây dựng như sau:

i) Gộp hai mẫu trên thành một mẫu có cỡ mẫu là n m

Trang 26

ii) Sắp xếp n m giá trị x1, , , , ,x y n 1 y theo thứ tự tăng dần Giả sử sau khi sắp nxếp ta được dãy sau:

1 2 3 n m

c    c c c

Nếu x i  thì ta nói hạng của c k x là k Tương tự nếu i y j  thì ta nói hạng của c k y là k j

iii) Giả sử x có hạng là ( 1,2, , ) i r i in Ta tính tổng các hạng của x i

2

2 2

của phân phối chuẩn tắc

* Chú ý: Nếu trong dãy ( ) c có những giá trị trùng nhau thì ta quy ước hạng của i

các giá trị trùng nhau được tính như sau:

Giả sử c k1 c k c k1c k2

Khi đó hạng của c và k c k1 đều được gán giá trị là k k 2 1

Hạng của c k2 vẫn là k2

Trang 27

Tương tự nếu có ba giá trị trùng nhau c k1 c k c k1 c k2 c k3

thì hạng của c c k, k1, c k2 đều được gán giá trị là

( 1) ( 2)

13

k

Hạng của3

k

c  vẫn có hạng là k 3

* Ví dụ: Người quản lý một nhà hàng muốn so sánh số khách trung bình mà hai

tiếp viên A và B của nhà hàng phục vụ trong mỗi ngày Anh ta thu được các số liệuthống kê sau đây:

Tiếp viên A: 42, 36, 58, 27, 48, 85, 38, 44, 62

Tiếp viên B: 53, 48, 65, 41, 57, 49, 74, 49, 56

Sử dụng tiêu chuẩn hạng Mann – Whitney, với mức ý nghĩa 5% hãy nhận định xem

số khách trung bình mà hai tiếp viên A và B phục vụ mỗi ngày là như nhau haykhác nhau?

Giải

Bài toán kiểm định giả thiết H : Số khách trung bình mà hai tiếp viên A và B phục o

vụ mỗi ngày là như nhau

Đầu tiên, ta có bảng xếp hạng các số liệu như sau:

Trang 28

Hạng Số khách Tiếp viên1

234567,57,59,59,51112131415161718

273638414244484849495356575862657485

AAABAAABBBBBBAABBATổng các hạng của tiếp viên A là R     1 2 3 5 6 7,5 14 15 18 71,5   Với n9, m , 9 R có phân phối xấp xỉ chuẩn với kì vọng là

71,5 85,5

1, 236

128, 25

R R

2.4.4 Tiêu chuẩn Wilcoxon

* Bài toán: Giả sử (X, Y) là một cặp gồm hai đại lượng ngẫu nhiên Có thể coi

thành phần thứ nhất X là hiệu quả của phương pháp thứ nhất, còn Y là hiệu quả củaphương pháp thứ hai tác động lên cùng một cá thể Ta muốn kiểm định giả thiết H : o

Hiệu quả của phương pháp thứ nhất và của phương pháp thứ hai là như nhau

* Tiêu chuẩn Wilcoxon được xây dựng như sau:

Giả sử x y1, 1 , x y2, 2 , , x y là n quan sát độc lập về (X, Y) n, n

i) Xuất phát từ hai mẫu ta tính d i   x i y i

Bỏ qua các giá trị d i 0

Trang 29

ii) Tính hạng của d i (d i � ): Tương tự như cách tính hạng trong tiêu chuẩn0Mann – Whitney.

iii) Gọi %n là số các giá trị d i �0

, R có phân phối xấp xỉ chuẩn Vì vậy, test thống kê là

% %

( 1)4( 1)(2 1)24

n n R R

của phân phối chuẩn tắc

* Ví dụ: Để so sánh năng suất lao động trước và sau khi nghỉ phép của công nhân,

một mẫu gồm 22 công nhân được lựa chọn để theo dõi năng suất lao động của họtrước và sau khi nghỉ một tuần Kết quả ghi lại như sau:

Số thứ tự Trước khi nghỉ Sau khi nghỉ1

2345678910111213

83857591807590657885837578

79877093857580718088827175

Trang 30

808288858078817080

858685828778848581

Sử dụng tiêu chuẩn Wilcoxon, với mức ý nghĩa 5% thì có thể coi năng suất lao độngcủa công nhân trước và sau khi nghỉ phép có sự thay đổi hay không?

Giải

Bài toán kiểm định giả thiết H : Năng suất lao động của công nhân trước và sau o

khi nghỉ phép không thay đổi

Từ số liệu trên, ta tính d i   , hạng của x i y i d i và trình bày trong bảng sau:

010

6

2

3

143

5

4

33

1

12415415

1917481,512815128818

8201,5

1215

19

1,5128

88

83,5

R 

4

415

1748

1512

18

8201,5126,5

R 

Ta có % 20n , RminR R,  min 83,5; 126,5  83,5

Trang 31

n n R T

2.5.1 Bài toán so sánh (kiểm định) nhiều tỉ lệ

Bài toán so sánh (kiểm định) nhiều tỉ lệ là bài toán mở rộng của bài toán so sánhhai tỉ lệ (xác suất) Từ việc nghiên cứu tỉ lệ cá thể có đặc tính A trên hai tập hợp chính

mở rộng lên nghiên cứu trên nhiều tập hợp chính

* Bài toán: Giả sử ta có k tập hợp chính H H1, 2, , H Mỗi cá thể của chúng có k

thể mang hay không mang đặc tính A Gọi p là tỉ lệ cá thể mang đặc tính A trong tập i

hợp chính H ( 1,2, , i ik) Các tỉ lệ này được gọi là các tỉ lệ lý thuyết (chưa biết)

Ta muốn kiểm định giả thiết sau H o: p1 p2   p k

Từ mỗi tập hợp chính H ta rút ra một mẫu ngẫu nhiên có kích thước i n , trong đó i

chúng ta thấy có m cá thể mang đặc tính A và i l i   cá thể không mang đặc tínhn i m i

A Các dữ liệu được trình bày trong bảng sau:

1

k i

Trang 32

* Ví dụ: Một nghiên cứu được tiến hành ở thành phố công nghiệp X để xác định tỉ

lệ những người đi làm bằng xe máy, xe đạp và xe buýt Việc điều tra được tiến hànhtrên hai nhóm Kết quả như sau:

Bài toán kiểm định giả thiết H : Tỉ lệ công nhân nữ sử dụng các loại phương tiện o

giao thông đi làm là như nhau, H : Tỉ lệ công nhân nữ sử dụng các loại phương tiện1giao thông đi làm là khác nhau

Gọi p ( 1,2, i ir) là tỉ lệ cá thể có tính trạng A trong tập hợp chính H Khi đó, i

đại lượng  ( ,p p1 2, , )p r được gọi là phân bố của A trong tập hợp chính H.

* Ví dụ: Mọi người đi làm có thể sử dụng một trong các phương tiện sau: đi bộ, đi

xe đạp, đi xe máy, đi xe buýt Trong thành phố X có 10% đi bộ, 20% đi xe đạp, 50% đi

xe máy, 20% đi xe buýt Như vậy  (0,1; 0, 2; 0,5; 0, 2) là phân bố cách đi làm Atrong tập hợp các dân cư của thành phố X

* Bài toán: Giả sử ta có k tập hợp chính H H1, 2, , H Gọi k i ( ,1i 2i, , i)

r

 

là phân bố của A( , , , )A A1 2 A r trong tập hợp chính H Ta có kiểm định giả thiết i

sau H o:1 2   k (các phân bố là như nhau trên các tập hợp chính H ) i

Trang 33

Chú ý: H tương đương với hệ đẳng thức sau: o

Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên Mẫu ngẫu nhiên chọn

từ tập hợp chính H được gọi là mẫu ngẫu nhiên thứ i ( 1,2, , i ik).

Giả sử trong mẫu ngẫu nhiên thứ i có: n cá thể có tính trạng 1i A1

Trang 34

+ T c thì bác bỏ H o

+ T c� thì chấp nhận H o

Trong đó c2(k1)(r1),  là phân vị mức  của phân phối 2

 với(k1)(r bậc tự do và các tần số lý thuyết không nhỏ hơn 5.1)

* Chú ý: Nếu có một trong số tần số lý thuyết nhỏ hơn 5 thì ta ghép dòng (cột) có

chứa tần số lý thuyết đó với dòng (cột) khác để được bảng số liệu mới thỏa mãn cácđiều kiện kiểm định

* Ví dụ: Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A, B, C, D, E

yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố

mà họ đang sống Kết quả được cho như sau:

Bài toán kiểm định giả thiết H : Mức độ thỏa mãn cuộc sống có phân bố giống o

nhau trong 5 thành phố trên

Vậy mức độ thỏa mãn cuộc sống có phân bố khác nhau trong 5 thành phố trên

2.5.3 Phân tích phương sai một nhân tố

Chúng ta đã biết bài toán so sánh hai giá trị trung bình hay so sánh giá trị trungbình của hai tập hợp chính Tổng quát lên, chúng ta sẽ có bài toán so sánh các giá trịtrung bình của nhiều tập hợp chính chịu ảnh hưởng bởi một nhân tố nào đó

Giả sử xét một nhân tố X ở k mức khác nhau Kí hiệu X là hiệu quả của việc tác i động nhân tố X ở mức i đối với cá thể Với i là hiệu quả trung bình của nhân tố X ở

Ngày đăng: 30/03/2021, 18:41

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w