Trong chương trìnhđại học, ở các trường sư phạm đối với chuyên ngành toán ứng dụng, do khuôn khổchương trình, chúng ta chỉ được tìm hiểu về một số bài toán kiểm định giả thuyết vềcác tha
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
NGUYỄN THỊ MINH NGUYỆT
MỘT SỐ KIỂM ĐỊNH PHI THAM SỐ VÀ
ỨNG DỤNG VỚI SPSS
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng
Hà Nội - 2017
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
NGUYỄN THỊ MINH NGUYỆT
MỘT SỐ KIỂM ĐỊNH PHI THAM SỐ
VÀ ỨNG DỤNG VỚI SPSS
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán ứng dụng
Người hướng dẫn PGS TS TRẦN TRỌNG NGUYÊN
Hà Nội - 2017
Trang 3LỜI CẢM ƠN
Trong quá trình nghiên cứu và hoàn thành khóa luận này, em đã nhận được
sự động viên, quan tâm, khích lệ của các thầy giáo, cô giáo trong tổ Toán ứng dụngnói riêng và các thầy cô trong khoa Toán trường Đại học sư phạm Hà Nội 2 nóichung, em xin bày tỏ lòng biết ơn sâu sắc đối với các thầy cô Và đặc biệt, em xinchân thành cảm ơn PGS.TS.Trần Trọng Nguyên – người đã tận tình hướng dẫn emtrong suốt thời gian qua để em hoàn thành khóa luận này
Em xin kính chúc các thầy cô sức khỏe dồi dào, thành công trong công việc
và cuộc sống
Xin chân thành cảm ơn!
Hà Nội, ngày tháng năm
Sinh viên thực hiện
Nguyễn Thị Minh Nguyệt
Trang 4LỜI CAM ĐOAN
Em xin cam đoan đề tài này là do em thực hiện, đó là kết quả quá trìnhnghiên cứu của em dưới sự hướng dẫn của PGS.TS.Trần Trọng Nguyên Đề tài này
đã được kế thừa các kết quả của một số tài liệu khác
Em xin chịu hoàn toàn trách nhiệm về lời cam đoan này!
Hà Nội, ngày tháng năm
Sinh viên thực hiện
Nguyễn Thị Minh Nguyệt
Trang 5MỤC LỤC
LỜI MỞ ĐẦU 1
1 Lí do chọn đề tài 1
2 Mục đích nghiên cứu và nhiệm vụ nghiên cứu 1
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp và công cụ nghiên cứu 2
5 Cấu trúc khóa luận 2
Chương 1: KIẾN THỨC CHUẨN BỊ 3
Biến ngẫu nhiên 3
Định nghĩa 3
Các đặc trưng của biến ngẫu nhiên 4
Hàm phân phối 5
Một số phân phối thường gặp 6
Phân phối chuẩn 6
Phân phối Poison 6
Phân phối Khi bình phương (Chi-square) 6
Phân phối Student 7
Mẫu ngẫu nhiên 7
Tổng thể nghiên cứu 7
Mẫu ngẫu nhiên 7
Đặc trưng mẫu 8
Kiểm định giả thuyết 9
Khái niệm 9
Bài toán kiểm định giả thuyết 10
Tiêu chuẩn kiểm định giả thuyết 10
Miền bác bỏ giả thuyết 11
Các sai lầm mắc phải khi kiểm định 11
Kiểm định phi tham số 11
Trang 6Chương 2: MỘT SỐ KIỂM ĐỊNH PHI THAM SỐ 12
Kiểm định Khi bình phương 12
Kiểm định sự phù hợp của quy luật thực nghiệm 12
Kiểm định tính độc lập của hai dấu hiệu 17
Kiểm định dấu (sign test) 20
Kiểm định dạng phân phối xác suất 23
Tiêu chuẩn Kolmogorov 23
Tiêu chuẩn Jacque- Bera 25
Tiêu chuẩn Kolmogorov- Simirnov 26
Kiểm định tương quan hạng 29
Kiểm định Wilcoxon 29
Kiểm định tương quan hạng Spearman 34
Kiểm định Mann-Whitney 37
Kiểm định Kruskal-Wallis 39
Chương 3: SPSS VỚI KIỂM ĐỊNH PHI THAM SỐ 42
Chi Square (Khi bình phương) 42
Thủ tục Binomial 44
Thủ tục Runs Test 45
Thủ tục K-S Test 48
KẾT LUẬN 50
TÀI LIỆU THAM KHẢO 51
Trang 7Kiểm định giả thuyết là một bài toán quan trọng trong đời sống cũng nhưtrong thống kê, kiểm toán Ta thường gặp một cặp giả thuyết đối nghịch nhau, bằngkhả năng của mình, ta phải xác định xem giả thuyết nào đúng Trong chương trìnhđại học, ở các trường sư phạm đối với chuyên ngành toán ứng dụng, do khuôn khổchương trình, chúng ta chỉ được tìm hiểu về một số bài toán kiểm định giả thuyết vềcác tham số đặc trưng của biến ngẫu nhiên với giả thuyết, biến ngẫu nhiên gốc tuântheo một quy luật phân phối nào đó, đây được gọi là bài toán kiểm định tham số.Các bài toán kiểm định về dạng phân phối, hoặc về tính độc lập của các biến ngẫunhiên mà được gọi chung là bài toán kiểm định phi tham số thì chúng ta chưa đượctìm hiểu Với lòng yêu thích và mong muốn tìm hiểu sâu về nội dung này trongphạm vi của một khóa luận tốt nghiệp, dưới sự hướng dẫn của PGS.TS Trần TrọngNguyên, em xin trình bày những hiểu biết của mình về đề tài “Một số kiểm định phitham số và ứng dụng với SPSS”.
2 Mục đích nghiên cứu và nhiệm vụ nghiên cứu
- Nghiên cứu một số bài toán kiểm định phi tham số Cũng giống như bàitoán kiểm định tham số, mục đích của bài toán kiểm định phi tham số là đi kiểmđịnh tính đúng sai của giả thuyết dựa vào những mẫu số liệu quan sát Tùy thuộcvào từng bài toán cụ thể mà người ta sử dụng những tiêu chuẩn kiểm định khác nhau
- Ứng dụng phần mềm thống kê SPSS để giải các bài toán kiểm định phitham số
Trang 83 Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Các kiến thức về kiểm định phi tham số và phầnmềm thống kê SPSS
- Phạm vi nghiên cứu: Kiểm định phi tham số trong thống kê
4 Phương pháp và công cụ nghiên cứu
- Nghiên cứu tổng hợp tài liệu, phân tích và so sánh
- Nghiên cứu thực nghiệm với dữ liệu thực tế
- Sử dụng phần mềm SPSS với một số bộ dữ liệu kinh tế có sẵn
5 Cấu trúc khóa luận
Nội dung đề tài bao gồm các chương sau:
- Chương 1: Kiến thức chuẩn bị
Giới thiệu cơ sở lý thuyết
- Chương 2: Một số kiểm định phi tham số
Trình bày về 3 loại kiểm định sau: Kiểm định Khi bình phương, một số kiểmđịnh dạng phân phối thông dụng, các kiểm định tương quan hạng
- Chương 3: Ứng dụng kiểm định phi tham số với SPSS
Từ những bộ số liệu có sẵn, tiến hành thực hiện các bước kiểm định trênSPSS và nêu ra những nhận xét đánh giá
Trang 9Chương 1: KIẾN THỨC CHUẨN BỊ
Chương này chủ yếu trình bày về các khái niệm, tính chất và các kiến thức liên quan để phục vụ cho nội dung chính ở chương 2
Biến ngẫu nhiên
Định nghĩa
- Định nghĩa 1.1: Biến ngẫu nhiên (còn được gọi là đại lượng ngẫu nhiên) là
X , X
- Phân loại: Căn cứ vào tập các giá trị người ta phân làm 2 loại: Biến ngẫunhiên rời rạc và biến ngẫu nhiên liên tục
➢ Biến ngẫu nhiên rời rạc:
- Nếu tập các giá trị mà biến ngẫu nhiên nhận là một tập gồm một số hữuhạn điểm hoặc vô hạn nhưng đếm được, khi đó biến ngẫu nhiên gọi là biến ngẫunhiên rời rạc
Giả sử biến ngẫu nhiên X nhận các giá trị x 1 , x 2 , x 3 ,… x n ,… và
➢ Biến ngẫu nhiên liên tục:
- Nếu tập các giá trị biến ngẫu nhiên nhận lấp đầy một khoảng nào đó, khi
đó biến ngẫu nhiên được gọi là biến ngẫu nhiên liên tục
- Để mô tả (hoặc xác định) biến ngẫu nhiên liên tục ta dùng khái niệm hàmmật độ
Trang 10- Hàm p(x) được gọi là hàm mật độ của biến ngẫu nhiên nào đấy nếu thỏa
mãn 2 điều kiện sau:
- Bản chất: Kì vọng là trung bình theo nghĩa xác suất của biến ngẫu nhiên
- Ý nghĩa: Kì vọng phản ánh giá trị trung tâm của phân phối xác suất củabiến ngẫu nhiên
Trang 11- Ý nghĩa: Phản ánh mức độ phân tán của các giá trị của biến ngẫu nhiên sovới giá trị trung tâm là kì vọng Phương sai càng nhỏ thì các giá trị càng tập trung ởgần giá trị trung tâm
Phân vị, trung vị, giá trị tới hạn
- Phân vị mức của biến ngẫu nhiên X, ký hiệu v , là giá trị phân chiamiền giá trị R X của X thỏa mãn: P X v P X v
Trong định nghĩa trên x là biến của hàm F, x nhận giá trị thực, x ,
Tại một điểm x bất kì hàm F x chính là xác suất để biến ngẫu nhiên nhận giá trị
nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x Chỉ số của hàm
để chỉ hàm phân phối của biến ngẫu nhiên X.
Trang 12Một số phân phối thường gặp
Phân phối chuẩn
- Biến ngẫu nhiên liên tục X có phân phối chuẩn, kí hiệu là
1
x 2
X N ,2
nếu hàm mật độ của X có dạng p x 1 e2 với x .
- Trường hợp đặc biệt với
Phân phối Poison
- Biến ngẫu nhiên rời rạc X có phân phối Poison, kí hiệu X P, nếu
- Cho X1, X2 , , X n là n biến ngẫu nhiên độc lập có phân phối chuẩn tắc.
Xét biến ngẫu nhiên 2
Trang 13Phân phối Student
- Biến ngẫu nhiên liên tục X có dạng phân phối Student với n bậc tự do, kí
- Số lượng các phần tử của tổng thể được gọi là kích thước của tổng thể, kí
hiệu là N (kích thước N của tổng thể là hữu hạn).
- Với mỗi tổng thể ta không nghiên cứu trực tiếp tổng thể đó mà thông qua một
Mẫu ngẫu nhiên
- Định nghĩa 1.4: Mẫu ngẫu nhiên kích thước n về biến ngẫu nhiên gốc X (hoặc quy luật phân bố gốc mà X tuân theo) là một biến ngẫu nhiên: W(X) (X1,
luật phân
phối xác suất với X).
- Định nghĩa 1.5: Cho mẫu ngẫu nhiên có kích thước n: W(X) (X1,X2, ,X n )
trong đó X i (i 1, n) là các biến ngẫu nhiên i.i.d (độc lập và có cùng quy luật phân
phối xác suất với X).
Tập hợp x x1, x2 , , x n trong đó x i là các giá trị có thể có của
Trang 14n i
Mỗi điểm x x1, x2 , , x n của không gian mẫu được gọi là một giá trị có
thể có của mẫu ngẫu nhiên X.
Tổng bình phương các sai lệch và độ lệch bình phương trung bình
- Cho mẫu ngẫu nhiên có kích thước n được xây dựng từ biến ngẫu nhiên
gốc X: W X1, X2 , , X n Khi đó SS X i X được gọi là tổng bình
phương
các sai lệch giữa các giá trị của mẫu và trung bình mẫu
- Nếu ta đem chia SS cho kích thước mẫu (giả sử mẫu có kích thước n) ta
được: MS 1 X X gọi là độ lệch bình phương trung bình
Trang 15Hạng của dãy quan sát (Rank)
Hạng của dãy quan sát là thứ tự tăng dần (hoặc giảm dần) của các quan sát.Nếu hai dãy quan sát có khoảng biến thiên như nhau thì có thể dùng hạng của chúng
Kiểm định giả thuyết: là các bài toán kiểm định về quy luật phân phối xácsuất của biến ngẫu nhiên, về các tham số đặc trưng của biến ngẫu nhiên hoặc về tínhđộc lập của biến ngẫu nhiên
Trang 16Kiểm định giả thuyết thống kê chia làm 2 loại: kiểm dịnh tham số và kiểmđịnh phi tham số.
Trang 17▪ Kiểm định tham số: là bài toán kiểm định giả thuyết về các tham số đặctrưng của biến ngẫu nhiên.
▪ Kiểm định phi tham số: là các bài toán kiểm định về quy luật phân phốixác suất của biến ngẫu nhiên và về tính độc lập của biến ngẫu nhiên
Bảng 1.1: So sánh kiểm định phi tham số và kiểm định có tham số
Bài toán kiểm định giả thuyết
thu được, ta phải quyết định xem giả thuyết H 0 đúng hay sai Giả thuyết H 1 đối
hay bác bỏ một giả thuyết thống kê gọi là làm kiểm định (hay kiểm định thống kê)
Tiêu chuẩn kiểm định giả thuyết
Từ tổng thể nghiên cứu rút ra một mẫu ngẫu nhiên có kích thước n
là tham số liên quan đến giả thuyết cần kiểm định
phân phối xác suất của G là hoàn toàn xác định Thống kê G được gọi là tiêu chuẩn
kiểm định
Trang 18Miền bác bỏ giả thuyết
Sau khi đã chọn được tiêu chuẩn kiểm định G thì với một xác suất khá bé
thuyết H 0 là đúng, xác suất để G nhận giá trị thuộc miền W bằng α:
P(G W / H0 )
Trong đó: α được gọi là mức ý nghĩa;
W được gọi là miền bác bỏ của giả thuyết H 0 với mức ý nghĩa α.
thuyết (miền thừa nhận giả thuyết)
Các sai lầm mắc phải khi kiểm định
Khi làm kiểm định, ta có thể mắc phải các sai lầm sau đây:
• Sai lầm loại 1: Bác bỏ 1 giả thuyết đúng ( Bác bỏ H 0 khi H 0 đúng)
• Sai lầm loại 2: Chấp nhận 1 giả thuyết sai (Nhận H 0 khi H 0 sai)
Kiểm định phi tham số
Định nghĩa 1.6: Kiểm định phi tham số là các thủ tục thống kê để kiểm địnhgiả thuyết khi không có được các giả thuyết liên quan đến tham số của tổng thể haydạng phân phối xác suất của tổng thể
Kiểm định phi tham số dùng trong trường hợp các nghiên cứu thử nghiệm,vậy nên áp dụng trong trường hợp mẫu nhỏ thì dùng phương pháp kiểm định không
có hiệu quả
Một cách tổng quát, kiểm định phi tham số là kiểm định thường dùng dữ liệu
ở dạng liệt kê, số đếm và không yêu cầu điều kiện giả định về phân phối của tồngthể (đặc biệt là phân phối chuẩn)
Trang 19Chương 2: MỘT SỐ KIỂM ĐỊNH PHI THAM SỐ
Chương này dành riêng cho các kiểm định phi tham số, đây là các kiểm định
cơ bản thường được tiến hành để xác định tính chất của các tổng thể thông qua các
bộ số liệu hay các mẫu ngẫu nhiên Các kiểm định quan trọng hơn cả là kiểm định
về dạng phân phối thực nghiệm và sự phù hợp của chúng với phân phối lí thuyết.Chương này cũng dành một phần quan trọng cho việc kiểm định các phân phốithông dụng như phân phối Chuẩn, phân phối Poison, Có thể chia nội dung kiểmđịnh phi tham số thành hai phần, đó là kiểm định Khi bình phương và các kiểm địnhphi tham số khác mà chủ yếu là các kiểm định dựa trên cơ sở tương quan hạng
• Các tệp dữ liệu được lấy từ địa chỉ
Kiểm định Khi bình phương
Kiểm định sự phù hợp của quy luật thực nghiệm
Kiểm định Khi bình phương được dùng phổ biến trong việc kiểm định giảthuyết về dạng phân phối Kiểm định này dựa trên cơ sở đánh giá tổng bình phươngkhác biệt giữa giá trị lý thuyết theo giả thuyết và giá trị tương ứng Để đưa ra cácgiả thuyết về dạng phân phối, người ta thường mô tả và phân tích sơ bộ hiện tượng,đặc điểm của biến ngẫu nhiên thông qua số hiểu quan sát Tuy vậy, trong nhiềutrường hợp các phân tích này có thể bị bỏ qua, vì nhận thức chủ quan hay kinhnghiệm của người phân tích
Thống kê Khi bình phương thiết lập trên một mẫu kích thước n với k nhóm
(giá trị hay đặc trưng) có thể mô tả tổng quát nhờ công thức sau:
k O E 2
χ 2 = i i (2.1)
i 1 i
Trong đó: E i là tần số lý thuyết theo giả thuyết, O i là tần số thực nghiệm
tương ứng Với n đủ lớn thống kê (2.1) phân phối Khi bình phương (k-1) bậc tự do.
Kiểm định giả thuyết về phân phối đều
Phân phối đều trên đoạn [a,b] là phân phối liên tục, mà biến ngẫu nhiên
tương ứng có khả năng nhận các giá trị khác nhau trong đoạn này bằng nhau Đây
Trang 20cũng là trường hợp minh họa dễ dàng nhất đối với các kiểm định về dạng phân phốicủa các biến ngẫu nhiên liên tục Đặc điểm chính là thực tế quan sát chúng ta nhậnđược các giá trị rời rạc, kiểm định này thực hiện trên cơ sở phân khoảng và rời rạc
hóa phân phối đều như sau: Giả sử X nhận các giá trị x i trong k khoảng thời
gian
có độ dài bằng nhau Nếu X phân phối đều theo thời gian thì các giá trị của X trong
2 k 1 mức α.
Thí dụ 2.1: Quan sát số lượng lương thực/tháng cung cấp cho các hộ 4 người
ta nhận được kết quả như sau:
Để tính giá trị thống kê Khi bình phương ta lập bảng sau:
Bảng 2.1: Bảng tính giá trị thống kê Khi bình phương
Trang 21Có 122 hộ với 11 mức chi tiêu dùng gạo nên nếu phân phối theo của mứctiêu dùng gạo là phân phối đều thì trung bình số hộ của mỗi mức như nhau:
ta có:
2
thuyết cho rằng lượng lương thực cung cấp cho hộ là đều đặn (phân phối đều
R(17,27)).
Kiểm định giả thuyết về cấu trúc tổng thể
Giả thiết về cấu trúc tổng thể theo các dấu hiệu của 1 biến định tính hay cáckhoảng của 1 biến định lượng, có thể quy về một phân phối xác suất của một biếnngẫu nhiên rời rạc Có thể xem đây là trường hợp tổng quát kiểm định phân phốixác suất của các biến ngẫu nhiên rời rạc với việc sử dụng tiêu chuẩn Khi bìnhphương để kiểm định cấu trúc tổng thể Không mất tính tổng quát, có thể mô tảkiểm định này qua một thí dụ cụ thể sau đây
Thí dụ 2.2: Giả sử mức sống của cư dân một vùng có thể phân chia 5 bậc
như sau: quá nghèo, nghèo, trung bình, khá và giàu Có người cho rằng tỷ lệ dân cư
Trang 22Như vậy đủ cơ sở bác bỏ giả thuyết về cấu
trúc mức sống dân cư nói trên
Kiểm định giả thuyết về phân phối Poison
Phân phối Poison là một trong những phân phối có nhiều ứng dụng trongthực tế, đấy là phân phối của các hiện tượng “hiếm” Có rất nhiều cách nhận biết
một biến ngẫu nhiên X phân phối Poison, như dựa vào hiện tượng trung bình xấp xỉ
phương sai, tính chất của dòng biến cố theo thời gian, Chúng ta nêu thủ tục, nhờ
đó có thể kiểm tra lại chính các phân tích có định tính này nhờ tiêu chuẩn Khi bìnhphương qua một thí dụ cụ thể
Thí dụ 2.3: Quan sát số lần máy bay bay qua một không phận A, người ta có
số liệu (k và n k) và bảng tính toán sau:
k
Trang 232
2
Ta có:0,05 5 11, 07048 , vậy không đủ cơ sở bác bỏ giả thuyết số lần
máy bay bay qua không phận A phân phối Poison.
Kiểm định giả thuyết về phân phối chuẩn
Phân phối chuẩn là phân phối liên tục, tuy vậy trong thực hành chúng ta luônnhận được các giá trị quan sát rời rạc Để kiểm định giả thuyết về phân phối chuẩn
của một biến ngẫu nhiên X, người ta dựa trên các tần số theo khoảng Thủ tục kiểm
định như sau:
Chia vùng giá trị quan sát thành k khoảng dạng x i , x i1 ;
quan sát thuộc khoảng x i , x i1
tiêu chuẩn mẫu s.
Chuẩn hóa theo các khoảng ước lượng với các giá trị biên là: z x i x
i
s
Tính các tần số lý thuyết:
phân phối N(0,1).
Tính giá trị quan sát của thống kê Khi bình phương
So sánh với giá trị tới hạn k 1 và kết luận
Thí dụ 2.4: Sau đây là kiểm định giả thuyết thu nhập X của viên chức
vùng A phân phối chuẩn, (Z là biến chuẩn hóa của X).
Trang 24Trung
bình
Độ lệch TC (s) = 10,439;
Kiểm định tính độc lập của hai dấu hiệu
Kiểm định tính độc lập của hai dấu hiệu định tính nhờ tiêu chuẩn Khi bìnhphương là kiểm định dựa trên cơ sở kiểm định sự đồng nhất của phân phối xác suất
đồng thời và tích hai phân phối biên Với biến nhẫu nhiên hai chiều (X,Y) chúng ta
đã biết rằng nếu X và Y độc lập thì hàm mật độ đồng thời f(x,y) bằng tích hai hàm
của hai dấu hiệu
Giả sử A và B là hai biến ngẫu nhiên định tính A có p dấu hiệu và B có q dấu hiệu Với mẫu ngẫu nhiên kích thước n ta có bảng tiếp liên:
Trang 25mức ý nghĩa α, kết luận A, B không độc lập nếu 2 2 p 1q 1.
qs
Thí dụ 2.5: Với tệp số liệu GSS93 ta có thể kiểm dịnh giả thuyết cho rằng sự
ưa thích nhạc cổ điện và nhạc đồng quê Châu Âu độc lập với nhau Các tính toán từbảng tiếp liên như sau:
Classical Music * Country Western Music Crosstabulation
Count
Class Totalli
keitv
lik
e it
mixed
dislikeit
dislik
i 89 90 92 33 2032
d
i 33 47 40 24 8 15disl
ike 16 16 10 6 13 61
2
644 3323 121464
Trang 269,8Giá trị thống kê Khi bình phương: 80,90812 Kết luận nhận được là bác bỏ ýkiến trên.
Kết quả sau nhận được từ SPSS với chương trình:
Trang 27Kiểm định dấu (sign test)
Kiểm định dấu là một trong những cách thức kiểm định đơn giản nhưng cónhiều ứng dụng Đơn giản nhất là kiểm định giả thuyết về trung vị của một biến Xnhờ một mẫu ngẫu nhiên Tư tưởng của kiểm định dấu được mở rộng cho nhiềukiểm định khác như kiểm định xác suất, kiểm định tính ngẫu nhiên của mộtmẫu Thực tế kiểm định này có thể quy về kiểm định cấu trúc tổng thể đã trình bày
ở trên, việc sử dụng các tiếp cận khác có thể làm cho việc kiểm định thuận tiện hơn
Kiểm định giả thuyết về giá trị trung vị
Giả thuyết H o là M d X m o thì P( X m0 ) 0,5 , như vậy các giá trị quan sát từ
một mẫu ngẫu nhiên có khả năng chia đều về hai phía của m o Nếu điều đóthực sự
không đúng thì hoặc là giả thuyết H o sai hoặc là mẫu được chọn thực tế là mẫukhông ngẫu nhiên Trước tiên ta xem xét thủ tục kiểm định giá trị trung vị
Với một quan sát mẫu, dấu của quan sát là dấu “-” nếu giá trị quan sát nhỏ
hơn m o , dấu của quan sát là dấu “+” nếu giá trị quan sát lớn hơn m o, các giá trị quan
Gọi số dấu “+”(chẳng hạn khi có ít dấu “+”) là Y, thì Y phân phối Nhị thức với hai tham số n và 0,5 Bn,0,5 Với giả thuyết trên tại mỗi giá trị Y o (số dấu
“+”) quan sát được ta xác định được P(Y Y o ) và PY Y0 Các giá trị này là cơ sở
để kết luận về giả thuyết trên với mức ý nghĩa cho trước
Vì việc lựa chọn Y là số dấu “+” hay số dấu “-” không làm thay đổi phân phối
Thí dụ 2.6: Có giả thuyết cho rằng thu nhập hộ/tháng ở một thành phố có giá
trị trung vị là 500$ Quan sát ngẫu nhiên 100 hộ ta nhận được 66 hộ có thu nhậpkhông thấp hơn 500$/tháng và 34 hộ có thu nhập thấp hơn 500$/tháng Như vậy số
dấu “–” trong 100 quan sát là 34 Gọi Y là số dấu – thì Y phân phối B(100; 0,5) và
Trang 28P(Y 34) = 0,009 Với mức ý nghĩa 5% ta bác bỏ giả thuyết trung vị của thu nhập
hộ là 500$/tháng
Kiểm định giả thuyết về giá trị xác suất
Hoàn toàn tương tự với kiểm định trung vị, ta có thể sử dụng phân phối nhịthức để tiến hành kiểm định xác suất
Giả thuyết cần kiểm định là H o : PA p o và H1 : P A p o Với mẫu ngẫu
nhiên kích thước n (quan sát A n lần), gọi m là số lần xuất hiện A, tương ứng dấu
“+”, thì A không xuất hiện (n-m) lần, tương ứng số dấu “-” Không mất tính tổng quát có thể giả sử p o lớn và m nhỏ, gọi Y là số dấu “+” thì Y phân phối Bn, p o
Xác định P(Y m) nếu giá trị xác suất này nhỏ hơn mức ý nghĩa kiểm định thì bác
bỏ giả thuyết H o Trường hợp p o nhỏ và m lớn hoàn toàn tương tự.
Thí dụ 2.7: Một dây chuyền sản suất tự động được coi là bình thường nếu tỷ
lệ phế phẩm không quá 5% Kiểm tra ngẫu nhiên 50 sản phẩm thấy có 4 phế phẩm,
có thể xem là dây chuyền hoạt động bình thường hay không?
Gọi Y là số phế phẩm thì Y phân phối nhị thức B50; 0, 05
đủ cơ sở cho rằng dây chuyền hoạt động không bình thường
Chú ý là trong mô hình có nội dung như thí dụ này không thể sử dụng
PY 4 để so sánh với mức ý nghĩa của kiểm định vì PY 4 PY 4
nhưng
thay câu hỏi trên bằng câu hỏi sau đây:
lớn hơn Để giải thích cho cách làm này hãy
Xác định số phế phẩm tối thiểu (m) khi kiểm tra ngẫu nhiên 50 sản phẩm để
Trang 29Kiểm định giả thuyết về tính ngẫu nhiên của mẫu – Kiểm định các đoạn mạch (Runs test)
Một trong những yêu cầu của suy luận thống kê từ mẫu là tính ngẫu nhiêncủa mẫu cụ thể phải được đảm bảo Có nhiều thủ tục kiểm định hay xác nhận tínhngẫu nhiên của các quan sát, ở đây ta xét việc ứng dụng kiểm định dấu để giải quyết
vấn đề này Giả sử có n quan sát về X: x 1, x 2, , x n Theo một dấu hiệu nào đó mà
chúng ta xác định làm tiêu chuẩn ngẫu nhiên, chẳng hạn nếu X là thu nhập hộ ta có
thể chọn tiêu chuẩn nhỏ hơn hay lớn hơn trung bình để xem xét, hoặc thay chotrung bình ta có thể chọn trung vị Với một tiêu chuẩn xem xét xác định các quansát được chia thành hai nhóm với hai dấu hiệu “+”, “-” theo thứ tự quan sát Ta gọidãy các dấu như nhau là 1 đoạn mạch
Kiểm định các đoạn mạch được thực hiện như sau:
tính các giá trị M 1 và M 2 cho kiểm định các đoạn mạch, nếu M 1 < m < M 2 mẫu đượcxem là ngẫu nhiên, ngược lại ta kết luận mẫu không ngẫu nhiên
Thí dụ 2.8: Quan sát số lần ốm đau trong năm và số con của phụ nữ trên 49
tuổi đã từng kết hôn người ta nhận được số liệu về số con của họ như sau: 2 3 2 4 5
3 2 1 1 3 4 6 2 4 3 5 6 3 2 Người ta cho rằng người quan sát đã không quan sát theothứ tự ngẫu nhiên vì trung bình số con của phụ nữ đã hết tuổi sinh đẻ trong vùng có
số con trung bình là 2,8 Hãy xác nhận tính ngẫu nhiên nếu có của số liệu quan sátvới mức ý nghĩa 5%
Ta lập các đoạn mạch như sau:
-
+-+++ -+++-+++++-Ta thấy n1 12, n2 7 và số đoạn mạch m = 9 Tra bảng M ta
hiện theo thứ tự không ngẫu nhiên
Với n1, n2 10 số đoạn mạch m phân phối xấp xỉ chuẩn.
Với trung bình: E(m) 2 n 1 n 2
1
Trang 31Chuẩn hóa biến m ta có:
U
X người ta nhận được 24 đoạn mạch với 42 dấu “+” và 64 dấu “-” Có thể kiểm định
tự tương quan trong mô hình trên nhờ kiểm định tính ngẫu nhiên về dấu của cácphần dư như sau:
51,74,90-5,6Với mức ý nghĩa 5% ta bác bỏ giả thuyết các sai số ngẫu nhiên không tươngquan tuyến tính với nhau hay mô hình có sự tương quan
Kiểm định dạng phân phối xác suất
Phần này giới thiệu một số thủ tục kiểm định dạng phân phối của biến ngẫunhiên một chiều Các thủ tục kiểm định được trình bày ở đây tập trung cho một sốdạng phân phối như: phân phối đều; phân phối Poison; phân phối mũ và đặc biệtchú trọng đến phân phối chuẩn
Tiêu chuẩn Kolmogorov
Tiêu chuẩn Kolmogorov áp dụng được cho mọi phân phối liên tục nhưng đây
là tiêu chuẩn dựa trên các tham số lý thuyết xác định ngoài số liệu thống kê Tiêuchuẩn này được sử dụng khi đã có một “chuẩn mực” cho đại lượng được nghiêncứu Chẳng hạn, một thiết kế kĩ thuật, một quá trình kinh tế hay một quá trình sinhhóa đã xác định có tính chất lý thuyết, vấn đề còn lại là thực tế đối tượng nghiêncứu có xảy ra như lý thuyết hay không Có thể tóm tắt tiêu chuẩn này như sau: Dựa