1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kiểm định phi tham số (KL07475)

60 459 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 1,8 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Lí do chọn đề tài Trong chương trình đại học, ở các trường sư phạm đối với chuyên ngành toán ứng dụng, do khuôn khổ chương trình, chúng ta chỉ được tìm hiểu về một số bài toán kiểm đị

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

KHOA TOÁN

======

LÊ THỊ MINH HẠNH

KIỂM ĐỊNH PHI THAM SỐ

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Chuyên ngành: Toán ứng dụng

Người hướng dẫn khoa học:

TS TRẦN TRỌNG NGUYÊN

Trang 2

LỜI CẢM ƠN

Trong quá trình nghiên cứu và hoàn thành khóa luận này, em đã nhận

được sự quan tâm, động viên, khích lệ của các thầy giáo, cô giáo trong tổ Toán ứng dụng nói riêng và các thầy cô trong khoa Toán trường Đại học

sư phạm Hà Nội 2 nói chung Em xin bày tỏ lòng biết ơn sâu sắc đối với

các thầy giáo, cô giáo, đặc biệt là TS.Trần Trọng Nguyên người đã tận

tình hướng dẫn em trong suốt thời gian qua để em hoàn thành khóa luận này

Hà Nội, ngày 2 tháng 5 năm 2015

Sinh viên

Lê Thị Minh Hạnh

Trang 3

LỜI CAM ĐOAN

Em xin cam đoan đề tài này là do em thực hiện, đó là kết quả quá trình nghiên cứu của em dưới sự hướng dẫn của TS.Trần Trọng Nguyên

và đề tài này không trùng với các kết quả của tác giả khác

Hà Nội, ngày 2 tháng 5 năm 2015

Sinh viên

Lê Thị Minh Hạnh

Trang 4

MỤC LỤC

LỜI MỞ ĐẦU 1

1 Lí do chọn đề tài 1

2 Mục đích nghiên cứu 1

3 Phương pháp và công cụ nghiên cứu 1

4 Cấu trúc khóa luận 2

Chương 1 KIẾN THỨC CHUẨN BỊ 3

1.1 Mẫu ngẫu nhiên 3

1.1.1 Tổng thể nghiên cứu và phương pháp mẫu 3

1.1.1.1 Tổng thể nghiên cứu 3

1.1.1.2 Các tham số đặc trưng của tổng thể 3

1.1.1.3 Phương pháp mẫu 4

1.1.2 Mẫu ngẫu nhiên 5

1.1.3 Các phương pháp chọn mẫu 7

1.1.3.1 Mẫu ngẫu nhiên đơn giản 7

1.1.3.2 Mẫu ngẫu nhiên hệ thống 7

1.1.3.3 Mẫu chùm 8

1.1.3.4 Mẫu phân tổ 8

1.1.3.5 Mẫu nhiều cấp 8

1.1.4 Thang đo các giá trị mẫu 9

1.1.4.1 Thang định danh 9

1.1.4.2 Thang thứ bậc 9

1.1.4.3 Thang đo khoảng 9

1.1.4.4 Thang đo tỉ lệ 9

1.1.5 Các phương pháp mô tả số liệu mẫu 9

1.1.6 Một số thống kê đặc trưng của mẫu 10

Trang 5

1.1.6.1.Trung bình mẫu 10

1.1.6.2 Tổng bình phương các sai lệch và độ lệch bình phương trung bình 11

1.1.6.3 Phương sai mẫu 2 S và phương sai S 11 *2 1.1.6.4 Hệ số bất đối xứng 12

1.1.6.5 Hệ số nhọn 12

1.2 Bài toán kiểm định giả thuyết thống kê 12

1.2.1 Giả thuyết thống kê 12

1.2.2 Kiểm định giả thuyết thống kê 14

1.2.3 Tiêu chuẩn kiểm định giả thuyết thống kê 15

1.2.4 Miền bác bỏ giả thuyết 15

1.2.5 Giá trị quan sát của tiêu chuẩn kiểm định 15

1.2.6 Quy tắc kết luận kiểm định giả thuyết thống kê 16

1.2.7 Sai lầm trong kiểm định 16

1.2.8.Thủ tục kiểm định giả thuyết thống kê 17

1.2.8.1 Kiểm định với giá trị cho trước của α 17

1.2.8.2 Kiểm định với giá trị cho trước của α vàβ 18

1.2.9 Phương pháp P – value 19

1.2.9.1 Ý nghĩa của trị số P – value 19

1.2.9.2 Sử dụng phương pháp p – value trong kiểm định giả thuyết thống kê 20

Chương 2 MỘT SỐ BÀI TOÁN KIỂM ĐỊNH PHI THAM SỐ 22

2.1 Kiểm định giả thuyết về tính độc lập của hai dấu hiệu định tính 22

2.2 Kiểm định tính chuẩn của biến ngẫu nhiên 30

2.2.1.Tiêu chuẩn phù hợp Kolmogrov 30

2.2.2 Kiểm định Lilliefors về dạng phân phối chuẩn 32

Trang 6

2.2.4 Sử dụng phần mềm Eviews vào việc giải các bài toán kiểm định

định tính chuẩn của biến ngẫu nhiên 46

KẾT LUẬN 51

TÀI LIỆU THAM KHẢO 52

PHỤ LỤC 53

Trang 7

LỜI MỞ ĐẦU

1 Lí do chọn đề tài

Trong chương trình đại học, ở các trường sư phạm đối với chuyên

ngành toán ứng dụng, do khuôn khổ chương trình, chúng ta chỉ được tìm hiểu về một số bài toán kiểm định giả thuyết về các tham số đặc trưng của biến ngẫu nhiên với giả thiết, biến ngẫu nhiên gốc tuân theo một quy luật phân phối nào đó, đây được gọi là bài toán kiểm định tham số; các bài toán kiểm định về dạng phân phối, hoặc về tính độc lập của các biến ngẫu nhiên

mà được gọi chung là bài toán kiểm định phi tham số thì chúng ta chưa được tìm hiểu Cũng giống như bài toán kiểm định tham số, mục đích của bài toán kiểm định phi tham số là đi kiểm định tính đúng sai của giả thuyết dựa vào những mẫu số liệu quan sát; tuy nhiên, tùy thuộc vào từng bài toán

cụ thể mà người ta sử dụng những tiêu chuẩn kiểm định khác nhau Với lòng yêu thích và mong muốn tìm hiểu sâu về nội dung này trong phạm vi của một khóa luận tốt nghiệp, em xin trình bày những hiểu biết của mình về

đề tài “ Kiểm định phi tham số”

2 Mục đích nghiên cứu

- Nghiên cứu một số bài toán kiểm định phi tham số: Kiểm định tính độc lập, kiểm định tính chuẩn của biến ngẫu nhiên;

- Ứng dụng các phần mềm thống kê để giải các bài toán kiểm định

3 Phương pháp và công cụ nghiên cứu

- Nghiên cứu tổng hợp tài liệu;

- Nghiên cứu thực nghiệm với dữ liệu thực tế;

- Sử dụng phần mềm Eviews trong việc kiểm định tính chuẩn của biến ngẫu nhiên

Trang 8

4 Cấu trúc khóa luận

Nội dung đề tài bao gồm các chương sau:

 Chương 1: Kiến thức chuẩn bị

 Chương 2: Một số bài toán kiểm định phi tham số:

+ Kiểm định tính độc lập của hai dấu hiệu định tính; + Kiểm định tính chuẩn của biến ngẫu nhiên

Trang 9

Chương 1 KIẾN THỨC CHUẨN BỊ

1.1 Mẫu ngẫu nhiên

1.1.1 Tổng thể nghiên cứu và phương pháp mẫu

1.1.1.1 Tổng thể nghiên cứu

Định nghĩa 1.1: Toàn bộ tập hợp các phần tử đồng nhất theo một

dấu hiệu nghiên cứu định tính hoặc định lượng nào đó được gọi là tổng thể nghiên cứu hay tổng thể

+ Số lượng các phần tử của tổng thể được gọi là kích thước của tổng thể kí hiệu là N (kích thước N của tổng thể là hữu hạn)

+ Với mỗi tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà thông qua một hay nhiều dấu hiệu đặc trưng Chúng được gọi là dấu hiệu nghiên cứu, kí hiệu là 

Phương sai tổng thể, kí hiệu là 2, là trung bình số học của bình

phương các sai lệch giữa các giá trị của dấu hiệu trong tổng thể và trung

Trang 10

x m N

N i i

x m N

 

   

* Tần suất của tổng thể

Người ta thường nghiên cứu tổng thể có kích thướcN, trong đóM

phần tử mang dấu hiệu nghiên cứu, cònNM phần tử còn lại không mang

dấu hiệu đó Lúc đó, tần suất của tổng thể là tỷ số giữa số phần tử mang

dấu hiệu nghiên cứu và kích thước của tổng thể:

M p N

1.1.1.3 Phương pháp mẫu

Trong thực tế, ta thường phải nghiên cứu một tập hợp các phần tử

đồng nhất theo một hay nhiều dấu hiệu định tính hoặc định lượng đặc trưng cho phần tử đó Để nghiên cứu tập hợp các phần tử này theo một dấu hiệu nhất định, đôi khi người ta sử dụng phương pháp nghiên cứu toàn bộ tổng thể Tuy nhiên, trên thực tế việc áp dụng phương pháp này gặp phải rất nhiều khó khăn:

+ Nếu quy mô của tập hợp quá lớn, thì việc nghiên cứu toàn bộ sẽ dẫn đến tốn kém chi phí vật chất và thời gian

Trang 11

+ Nếu quy mô của tập hợp quá lớn có thể xảy ra trường hợp tính trùng lặp hoặc bỏ sót các phần tử của nó

+ Quy mô nghiên cứu lớn mà trình độ tổ chức nghiên cứu lại hạn chế, dẫn đến các sai sót trong quá trình thu thập thông tin ban đầu, hạn chế độ chính xác của kết quả phân tích

+ Trong nhiều trường hợp không thể nắm được toàn bộ các phần tử của tập hợp cần nghiên cứu, do đó không thể tiến hành nghiên cứu toàn bộ được

+ Nếu các phần tử của tập hợp lại bị phá hủy trong quá trình nghiên cứu, thì việc nghiên cứu toàn bộ trở nên vô nghĩa

Vì vậy, phương pháp nghiên cứu toàn bộ thường chỉ được áp dụng với các tập hợp có quy mô nhỏ, còn đối với tập hợp có quy mô lớn thì người ta chủ yếu sử dụng phương pháp nghiên cứu chọn mẫu (phương pháp mẫu)

Phương pháp mẫu là phương pháp mà từ tập hợp cần nghiên cứu

chọn ra một số phần tử, phân tích các phần tử này và dựa vào đó mà suy ra các kết luận về tập hợp cần nghiên cứu

1.1.2 Mẫu ngẫu nhiên

Khi nghiên cứu về một tổng thể, các đặc tính của tổng thể có thể xác định được một cách trực tiếp nếu áp dụng phương pháp nghiên cứu toàn bộ tổng thể, song do quy mô quá lớn của tổng thể hay mức độ kém tin cậy của

số liệu điều tra nên việc tính toán vừa khó khăn, tốn kém mà vẫn không thu được kết quả chính xác Vì vậy, người ta thường áp dụng phương pháp mẫu bằng cách nghiên cứu n phần tử được chọn ra từ tổng thể nghiên cứu Tập

hợp n phần tử này được gọi là mẫu kích thước n

Trang 12

Mẫu được tạo lập với những giả thiết sau:

+ Lấy lần lượt từng phần tử vào mẫu;

+ Mọi phần tử của tổng thể đều được lấy vào mẫu với khả năng như nhau;

+ Trước khi lấy phần tử thứ k thì trả lại tổng thể phần tử thứ (k-1) mà

ta đã nghiên cứu xong (k 2, ).n

Mẫu được lấy ra theo nguyên tắc đơn giản, ngẫu nhiên và hoàn lại nên ta có thể mô hình hóa mẫu được chọn như sau:

Gọi X i i( 1, )n là giá trị của dấu hiệu  đo lường được trên phần tử

thứ i của mẫu Vì có thể mô hình hóa dấu hiệu  bằng một biến ngẫu nhiên X với một quy luật phân phối xác suất nào đó nên việc chọn mẫu kích thước n theo nguyên tắc trên có thể xem như tiến hành n phép thử

độc lập đối với X, lúc đó các giá trị X icủa dấu hiệu thu được trên mẫu có

thể xem như các biến ngẫu nhiên thu được qua việc tiến hành n phép thử độc lập đối với biến ngẫu nhiên X Từ đó ta có các định nghĩa sau:

Xét biến ngẫu nhiên X k, chiều: 1 2

( , , , k)

XX X X k1

+ Định nghĩa 1.2: Mẫu ngẫu nhiên kích thước n về biến ngẫu nhiên

gốc X (hoặc về quy luật phân bố gốc mà X tuân theo) là một biến ngẫu nhiên:

Trang 13

Mỗi X i gọi là một thành phần mẫu

Tập hợp  {x( ,x x1 2, ,x n)} trong đó x i là giá trị có thể có của

( 1, )

i

X in được gọi là không gian mẫu

Mỗi điểm x( ,x x1 2, ,x n)của không gian mẫu được gọi là một giá

trị có thể có của mẫu ngẫu nhiên X

1.1.3 Các phương pháp chọn mẫu

1.1.3.1 Mẫu ngẫu nhiên đơn giản

Là loại mẫu được chọn trực tiếp từ danh sách đã đánh số của tổng thể

Từ một tổng thể có kích thước N người ta rút ra n phần tử của mẫu theo một bảng số ngẫu nhiên nào đó

Các bảng số ngẫu nhiên có thể sử dụng là:

- Các bảng của Tippett gồm các số có bốn chữ số;

- Các bảng của Fisher và Yates;

- Các bảng của Kendall và Babington Smith gồm các số có 5 chữ số;

- Các bảng của Burke Haton;

- Các bảng của công ty Rand…

Ưu điểm: + Cho phép thu được một mẫu có tính đại diện cao;

+ Cho phép suy rộng các kết quả của mẫu cho tổng thể với một sai số xác định

Nhược điểm: Phải có được toàn bộ danh sách của tổng thể nghiên cứu

và chi phí chọn mẫu sẽ khá lớn

1.1.3.2 Mẫu ngẫu nhiên hệ thống

Là loại mẫu đã được đơn giản hóa trong cách chọn, trong đó chỉ có phần tử đầu tiên được chọn một cách ngẫu nhiên, sau đó dựa trên danh sách

đã được đánh số của tổng thể để chọn ra các phần tử tiếp theo vào mẫu theo

Trang 14

Ưu điểm: Cách thức đơn giản

Nhược điểm: Dễ mắc sai số hệ thống khi danh sách của tổng thể

không được sắp xếp một cách ngẫu nhiên, mà lại theo một trật tự chủ quan

- Mỗi phần tử của tổng thể được phân vào một chùm;

- Mỗi chùm cố gắng chứa nhiều phần tử khác nhau về dấu hiệu nghiên cứu, sao cho nó có độ phân tán cao như của tổng thể;

- Phân chia sao cho các chùm tương đối đồng đều nhau về quy mô

Ưu điểm: Đỡ tốn kém chi phí và thích hợp với việc nghiên cứu theo

nhiều dấu hiệu cùng một lúc

Nhược điểm: Sai số cao hơn phương pháp chọn ngẫu nhiên đơn với

cùng kích thước mẫu

1.1.3.4 Mẫu phân tổ

Mẫu phân tổ là loại mẫu mà người ta phân chia tổng thể ra thành các

tổ có độ thuần nhất cao để chọn ra các phần tử đại diện cho từng tổ

Trang 15

1.1.4 Thang đo các giá trị mẫu

1.1.4.3 Thang đo khoảng

Là thang đo thứ bậc có các khoảng cách đều nhau giữa các bậc, dùng

để đánh giá sự khác biệt giữa các phạm trù và có thể dùng để tính các tham

số đặc trưng như trung bình, phương sai,…

Các thang đo định danh, thứ bậc và thang đo khoảng dùng để đặc trưng các giá trị của dấu hiệu nghiên cứu định tính

1.1.4.4 Thang đo tỉ lệ

Là thang đo khoảng với một điểm gốc tuyệt đối, được dùng để đặc trưng các giá trị của dấu hiệu nghiên cứu định lượng

1.1.5 Các phương pháp mô tả số liệu mẫu

Giả sử từ tổng nghiên cứu ta rút ra một mẫu ngẫu nhiên gốc X có

kích thước n: W(X X1, 2, ,X n).

Giả sử các giá trị của mẫu ngẫu nhiên x1 xuất hiện với tần số n1,x2

xuất hiện với tần số n2,…,x k xuất hiện với tần số n k Sau khi các x iđược sắp xếp theo thứ tự tăng dần thì các giá trị của mẫu cụ thể được mô tả bằng bảng phân phối tần số thực nghiệm:

Trang 16

 là tần suất xuất hiện giá trị x i thì lúc đó các giá trị của mẫu cụ thể w còn được mô tả bằng bảng phân phối tần suất thực nghiệm:

n

 

Trang 17

1.1.6.2 Tổng bình phương các sai lệch và độ lệch bình phương trung

  được gọi là tổng bình phương các sai lệch

giữa các giá trị của mẫu và trung bình mẫu

Nếu ta đem chia SS cho kích thước mẫu (giả sử mẫu có kích thước n)

n

  

gọi là độ lệch bình phương trung bình

Trên thực tế với mẫu cụ thể ms thường được tính bằng công thức:

2 1

1 n i i

n

 

1.1.6.3 Phương sai mẫu S và phương sai 2 S *2

Phương sai mẫu kí hiệu là S và được xác định bởi công thức: 2

      được gọi là phương sai

Giá trị của của phương sai mẫu S và phương sai 2 S trên một giá trị *2

cụ thể của mẫu là những số xác định, kí hiệu là 2

s và s*2

Trang 18

Nếu lấy căn bậc hai của phương sai mẫu S thì ta thu được thống kê 2gọi là độ lệch chuẩn mẫu, kí hiệu là S:

2 1

1

1

n i i

1( )

n i i

n a

1( )

n i i

n a

S

1.2 Bài toán kiểm định giả thuyết thống kê

Khi nghiên cứu về một lĩnh vực nào đó trong thực tế, ta thường đưa

ra những nhận xét khác nhau về đối tượng quan tâm Những nhận xét như

vậy được gọi là giả thuyết Mỗi giả thuyết như vậy có thể đúng, cũng có thể sai Việc xác định tính đúng sai của một giả thuyết được gọi là kiểm định

1.2.1 Giả thuyết thống kê

Giả sử dấu hiệu nghiên cứu trong tổng thể có thể xem như là biến ngẫu nhiên X, khi nghiên cứu hai hay nhiều biến ngẫu nhiên thuộc các tổng thể khác nhau hay thuộc cùng một tổng thể ta thường phải xét xem chúng độc lập hay phụ thuộc nhau, các tham số của chúng có bằng nhau hay

Trang 19

không Nếu chưa biết một cách chắc chắn song có cơ sở để nhận định về

các vấn đề đó cũng có thể đưa ra các giả thuyết tương ứng

Từ đó ta có định nghĩa về giả thuyết thống kê như sau:

Định nghĩa1.3: Giả thuyết thống kê là giả thuyết về dạng phân phối

xác suất của biến ngẫu nhiên, về các tham số đặc trưng của biến ngẫu

nhiên hoặc về tính độc lập của các biến ngẫu nhiên

Ta kí hiệu: H0là giả thuyết thống kê được đưa ra và được gọi là giả

thuyết gốc;

H1 là giả thuyết đối của giả thuyết H0

Tức là, nếu bác bỏ giả thuyếtH0thì ta chấp nhận giả thuyếtH1và

ngược lại;H0vàH1 tạo thành cặp giả thuyết thống kê

Chẳng hạn, ta nghiên cứu về tỉ lệ nảy mầm của hạt thóc trong điều

kiện môi trường nào đó Ta có thể đưa ra các cặp giả thuyết thống kê sau:

0

H

 : Tỉ lệ nảy mầm của hạt thóc là p90%, khi đó giả thuyết đối

tương ứng với giả thuyết H0 có thể là:

1: 90%, 1: 90%, 1: 90%

0

H

 : Tỉ lệ nảy mầm của hạt thóc không phụ thuộc vào điều kiện môi

trường; khi đó ta có giả thuyết đối là H1: Tỉ lệ nảy mầm của hạt thóc phụ

thuộc vào điều kiện môi trường Trên thực tế giả thuyết được chia làm hai loại:

+ Giả thuyết đơn là giả thuyết chỉ chứa một mệnh đề;

+ Giả thuyết hợp là giả thuyết chứa đựng nhiều mệnh đề (chứa đựng

một số hữu hạn hoặc vô hạn các giả thuyết đơn)

Ở đây ta chỉ nghiên cứu giả thuyết gốc là giả thuyết đơn

Trang 20

1.2.2 Kiểm định giả thuyết thống kê

Vì các giả thuyết thống kê có thể đúng hoặc sai nên ta cần phải đi kiểm định, tức là tìm ra kết luận về tính thừa nhận hay không thừa nhận của

giả thuyết đó, việc kiểm định như vậy được gọi là kiểm định giả thuyết thống kê

Đối với kiểm định giả thuyết thông kê, người ta thường chia làm hai loại:

+ Loại 1: Kiểm định tham số là bài toán kiểm định giả thuyết về các

tham số đặc trưng của biến ngẫu nhiên

Ví dụ 1.1: Cho biến ngẫu nhiên X có phân phối xác suất cho trước

nhưng tham số đặc trưng  chưa biết Yêu cầu kiểm định giả thuyết:

0

"  ", với 0là hằng số đã biết

+ Loại 2: Kiểm định phi tham số là các bài toán kiểm định các giả

thuyết còn lại

Ví dụ 1.2: Cho biến ngẫu nhiên X chưa rõ phân phối xác suất, song

có cơ sở để giả thiết rằng X có phân phối theo quy luật A nào đó, từ đó người ta đưa ra giả thuyếtH0: X phân phối theo quy luật A Yêu cầu kiểm định giả thuyết H0

Phương pháp chung để kiểm định giả thuyết thống kê:

+ Giả sử giả thuyết gốc H0là đúng;

+ Dựa vào thông tin của mẫu rút ra từ tổng thể nghiên cứu, ta tìm được một biến cố A nào đó sao cho xác suất xảy ra biến cố A bằng  bé

đến mức có thể coi A không xảy ra trong một phép thử về biến cố này;

+ Trên một mẫu cụ thể thực hiện một phép thử đối với biến cố A:

 Nếu A xảy ra thì chứng tỏ H0sai và ta bác bỏ giả thuyết H0;

 Nếu A không xảy ra thì ta chưa có cơ sở để bác bỏ giả thuyếtH0.

Trang 21

1.2.3 Tiêu chuẩn kiểm định giả thuyết thống kê

Từ tổng thể nghiên cứu rút ra một mẫu ngẫu nhiên có kích thước n

1 2

W(X X, , ,X n)

và chọn lập thống kê Gf X X( 1, 2, ,X n,0)

trong đó 0là tham số liên quan đến giả thuyết cần kiểm định

Điều kiện đặt ra đối với thống kê G là nếu giả thuyết H0 là đúng, thì

quy luật phân phối xác suất của G là hoàn toàn xác định Thống kê Gđược

gọi là tiêu chuẩn kiểm định

1.2.4 Miền bác bỏ giả thuyết

Sau khi đã chọn được tiêu chuẩn kiểm định Gthì với một xác suất khá bé bằng  cho trước, ta có thể tìm được miềnWtương ứng sao cho với điều kiện giả thuyếtH0là đúng, xác suất đểGnhận giá trị thuộc miền

Wbằng :

0

( W / )

trong đó:  được gọi là mức ý nghĩa;

Wđược gọi là miền bác bỏ của giả thuyết H0với mức ý nghĩa 

Miền giá trị còn lại củaG, kí hiệu làW được gọi là miền không bác

bỏ giả thuyết ( miền thừa nhận giả thuyết)

1.2.5 Giá trị quan sát của tiêu chuẩn kiểm định

Thực hiện một phép thử đối với mẫu ngẫu nhiên có kích thước

Trang 22

1.2.6 Quy tắc kết luận kiểm định giả thuyết thống kê

Sau khi tính được giá trị quan sátG ta đi so sánh giá trị này với miền qs

bác bỏW:

+ NếuG qsWthì chứng tỏH0sai và do đó ta bác bỏ giả thuyết H0

(giả thuyết gốc), thừa nhận giả thuyếtH1( giả thuyết đối);

+ NếuG qsWthì ta chưa khẳng định được rằng H0sai, do đó chưa có

cơ sở để bác bỏH0( trên thực tế thì ta thừa nhận H0)

Đây chính là kết luận chung trong phương pháp miền bác bỏ để giải

các bài toán kiểm định giả thuyết

1.2.7 Sai lầm trong kiểm định

Với quy tắc kiểm định như trên ta có thể mắc hai loại sai lầm sau:

+ Sai lầm loại 1: Bác bỏ giả thuyết H0trong khiH0đúng hay giá trị quan sát G thuộc vào miền bác bỏ qs H0trong khi H0đúng

Xác suất để mắc sai lầm này là:

Trang 23

Quan hệ giữa kiểm định giả thuyết và các loại sai lầm có thể mô tả qua bảng sau:

Bác bỏH0 Sai lầm loại 1;

Xác suất

Quyết định đúng; Xác suất=1

Không bác bỏH0 Quyết định đúng;

Xác suất 1 

Sai lầm loại 2; Xác suất

Nhận xét: Sai lầm loại một và sai lầm loại hai mâu thuẫn nhau, cụ

thể khi ta giảm thì đồng thời sẽ làm tăng  và ngược lại, chẳng hạn nếu lấy 0 thì sẽ không bác bỏ bất kì giả thuyết nào kể cả giả thuyết sai, như vậy sẽ đạt cực đại

Sau khi ấn định một mức ý nghĩa và với mẫu có kích thước n xác

định thì ta tìm được vô số miền bác bỏW, ta chọn ra miền bác bỏWsao cho là nhỏ nhất hay1 là lớn nhất Vì vậy, cần tìm miền bác bỏ thỏa mãn điều kiện sau:

P G( W / H0) cho trước

P G( W / H1) 1   max

1.2.8.Thủ tục kiểm định giả thuyết thống kê

1.2.8.1 Kiểm định với giá trị cho trước của α

Dùng để kiểm soát khả năng mắc sai lầm loại một, thủ tục kiểm định được tiến hành như sau:

Bước 1: Xây dựng giả thuyếtH0cần kiểm định;

Bước 2: Từ tổng thể nghiên cứu lập mẫu ngẫu nhiên có kích thướcn;

Tình huống Quyết định

Trang 24

Bước 3: Chọn tiêu chuẩn kiểm địnhG và xác định quy luật phân phối với điều kiện giả thuyếtH0 là đúng;

Bước 4: Với mức ý nghĩa cho trước xác định miền bác bỏ tốt nhất tùy thuộc vào giả thuyết đốiH1;

Bước 5: Lập mẫu cụ thể và tìm được giá trị tiêu chuẩn kiểm định trên mẫu;

Bước 6: So sánh giá trị quan sát của tiêu chuẩn kiểm định với miền bác bỏ và kết luận;

Bước 7: Đánh giá xác suất mắc sai lầm loại hai theo các giá trị khác nhau củaH1

1.2.8.2 Kiểm định với giá trị cho trước của α và β

Dùng để kiểm soát khả năng mắc cả hai sai lầm (sai lầm loại một và sai lầm loại hai), thủ tục kiểm định được tiến hành như sau:

Bước1: Xây dựng giả thuyết gốcH0cần kiểm định;

Bước 2: Chọn tiêu chuẩn kiểm địnhGvà xác định quy luật phân phối xác suất của nó với điều kiện giả thuyếtH0là đúng;

Bước 3: Với  và  cho trước, xác định kích thước mẫu cần điều tra để việc kiểm định phạm hai sai lầm trên với xác suất không vượt quá mức cho trước;

Bước 4: Dựa vào kết quả ở bước 3 ta đi điều tra một mẫu cụ thể và tiến hành tiếp như ở trường hợp trước

Trang 25

1.2.9 Phương pháp P – value

1.2.9.1 Ý nghĩa của trị số P – value

Trong mỗi bài toán kiểm định giả thuyết thống kê, với mỗi mức ý nghĩa cố định thì kết luận thống kê sẽ bị ảnh hưởng bởi một thay đổi dù rất nhỏ của thống kê mẫu Do đó, thay vì xác định mức ý nghĩa ta sẽ xét đến

khái niệm p – value

Định nghĩa 1.4: (Trị số p – value)

Trị số p (p- value) của một giá trị mẫu cụ thể là giá trị nhỏ nhất của xác suất bác bỏ giả thuyết H0 dựa trên giá trị thống kê kiểm định được tính trên mẫu đó, tức p – value là giá trị nhỏ nhất của mức ý nghĩa cho phép ta bác bỏ giả thuyết H0 dựa trên mẫu được chọn nếu ta coi giá trị thống kê kiểm định được tính trên mẫu đó là giá trị giới hạn miền bác bỏ giả thuyết

0

H

Trong thực tế, một kết luận thống kê được coi là có ý nghĩa thống kê nếu p – value <0,05

Trang 26

1.2.9.2 Sử dụng phương pháp p – value trong kiểm định giả thuyết

thống kê

Để tìm trị số p – value ta thực hiện theo sơ đồ sau:

Cụ thể ta có cách tìm p – value trong bài toán kiểm định  ( sử dụng thống kê Z )

Trang 27

trong đó 2

0

0

1( )

Quy tắc kết luận của phương pháp p – value trong các bài toán

kiểm định giả thuyết thống kê:

Sau khi tìm được giá trị p – value cụ thể, với mức ý nghĩa  cho trước, ta có thể kết luận:

 Nếu pvalue thì ta bác bỏ H0, chấp nhận H1;

 Nếu pvalue thì ta chưa có cơ sở để bác bỏ H0(thực tế là chấp nhận H0)

Trang 28

Chương 2 MỘT SỐ BÀI TOÁN KIỂM ĐỊNH PHI THAM SỐ

2.1 Kiểm định giả thuyết về tính độc lập của hai dấu hiệu định tính Giả sử cần nghiên cứu đồng thời hai dấu hiệu định tính A có phạm trù

A A1, 2, ,A h và B có phạm trù làB B1, 2, ,B k Từ đó đưa ra cặp giả thuyết:

H0: A và B độc lập

H1: A và B phụ thuộc

và yêu cầu kiểm định cặp giả thuyết trên?

Để đi kiểm định cặp giả thuyết trên, từ tổng thể nghiên cứu ta lập một mẫu có kích thước n và trình bày các số liệu mẫu dưới dạng bảng sau:

Trang 29

Trong đó:

n là kích thước mẫu;

n ilà tổng các tần số tương ứng với dấu hiệu thành phần ;

m là tổng các tần số tương ứng với dấu hiệu thành phần j ;

n là tần số tương ứng với các phần tử mang đồng thời hai dấu hiệu ij

1 1

j i

1 1

1

n n

Trang 30

Với mức ý nghĩa  miền bác bỏ củaH0là:

2 ij

1 1

1

qs

n n

+ Nếuqs2 W ( qs2 2(h1)(k1)) thì ta chưa có cơ sở để bác bỏ H0

Ví dụ 2.1: Điều tra ngẫu nhiên 200 sinh viên thì thấy60% trong số họ

là ở nội trú và 40% là ở ngoại trú Tỉ lệ sinh viên học khá, trung bình, kém trong số sinh viên nội trú tương ứng là30%,40%,30% Tỉ lệ này ở các sinh viên ngoại trú là20%,50%,30% Với mức ý nghĩa là0,05có thể cho rằng nơi cư trú của sinh viên có ảnh hưởng đến chất lượng học tập hay không?

Ngày đăng: 02/11/2015, 10:46

HÌNH ẢNH LIÊN QUAN

Phụ lục 2: Bảng giá trị tới hạn của phân phối Kolmogrov - Kiểm định phi tham số (KL07475)
h ụ lục 2: Bảng giá trị tới hạn của phân phối Kolmogrov (Trang 60)

TỪ KHÓA LIÊN QUAN

w