Tính cấp thiết của đề tài Xử lý số liệu thống kê là một môn học quan trọng của lĩnh vực thống kê, từ mẫu ngẫu nhiên khảo sát được, ta có thể đưa ra những nhận định sát với tổng thể để có
Trang 2MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Mục tiêu nghiên cứu 1
3 Đối tượng và phạm vi nghiên cứu 1
4 Phương pháp nghiên cứu 1
5 Bố cục đề tài 1
CHƯƠNG 1 ƯỚC LƯỢNG VÀ KIỂM ĐỊNH THAM SỐ 3
1.1 Khoảng tin cậy và kiểm định kì vọng 3
1.1.1 2 ~ ( ; ) X N với 2 đã biết 3
1.1.2 X ~N( ; 2) với 2 chưa biết 6
1.2 Khoảng tin cậy và kiểm định tỷ lệ 11
1.3 So sánh 2 kì vọng của 2 phân phối chuẩn 14
1.3.1 Cỡ mẫu lớn 14
1.3.2 Cỡ mẫu nhỏ và hai phương sai bằng nhau 16
1.3.3 Cỡ mẫu nhỏ và hai phương sai không bằng nhau 18
1.4 So sánh hai tỷ lệ 20
CHƯƠNG 2 KIỂM ĐỊNH KHI BÌNH PHƯƠNG 23
2.1 Kiểm định tính độc lập 23
2.2 Kiểm định phù hợp 26
CHƯƠNG 3 PHÂN TÍCH PHƯƠNG SAI 30
3.1 Phân tích phương sai một nhân tố 30
3.2 Phân tích phương sai hai nhân tố 34
3.2.1 Phân tích phương sai hai nhân tố không lặp lại 34
3.2.2 Phân tích phương sai hai nhân tố có lặp 40
CHƯƠNG 4 KIỂM ĐỊNH PHI THAM SỐ 47
Trang 34.1 Kiểm định dấu 47
4.2 Kiểm định hạng có dấu Wilcoxon 51
4.2.1 Kiểm định trung vị 51
4.2.2 So sánh 2 kì vọng 54
KẾT LUẬN 57
TÀI LIỆU THAM KHẢO 58
PHỤ LỤC 59
Trang 4LỜI CẢM ƠN
Trên thực tế không có thành công nào là không có sự giúp đỡ của người khác, dù là trực tiếp hay gián tiếp Bản thân em từ khi bắt đầu làm khóa luận đến nay đã nhận được sự nhiệt tình giúp đỡ của thầy cô, gia đình, bạn bè và các cơ quan nhà trường Với lòng biết ơn chân thành nhất, cho phép em gởi lời cảm ơn đến tất cả thầy cô, các cơ quan, gia đình và bạn bè
Trước hết, em xin chân thành gởi lời cảm ơn đến quý thầy cô Khoa Toán,Trường Đại Học Sư Phạm – Đại Học Đà Nẵng đã dùng những tri thức
và tâm huyết của mình có để truyền đạt cho chúng em vô vàng kiến thức quý báu, đồng thời luôn tạo mọi điều kiện để em hoàn thành khóa luận một cách tốt đẹp Em chúc quý thầy cô của Khoa luôn dồi dào sức khỏe
Đặc biệt, em xin chân thành gởi lời cảm ơn sâu sắc đến thầy Lê Văn Dũng, thầy đã tận tình chỉ bảo, hướng dẫn và luôn giúp đỡ em mỗi khi gặp vấn đề khó khăn trong suốt quá trình làm khóa luận vừa qua
Và cuối cùng, em xin được bày tỏ lòng biết ơn đến lãnh đạo Trường Đại Học Sư Phạm Đà Nẵng đã tạo điều kiện cho em trong quá trình học tập và làm khóa luận
Với điều kiện và kiến thức còn hạn chế, khóa luận này không thể không tránh khỏi thiếu sót Vì vậy em rất mong nhận được sự đóng góp của các thầy
cô để em học thêm được nhiều kinh nghiệm hơn và sẽ hoàn thành tốt hơn
Em xin chân thành cảm ơn!
Sinh viên ký tên
Bùi Thị Bích Hậu
Trang 5LỜI CAM ĐOAN
Bài khóa luận được thực hiện bởi chính bản thân em, trong khóa luận có tham khảo một số nguồn thông tin dưới sự hướng dẫn của thầy Lê Văn Dũng
Em xin cam đoan bài khóa luận này là của riêng em, không sao chép từ bất
kỳ bài khóa luận nào khác
Sinh viên ký tên
Bùi Thị Bích Hậu
Trang 6MỞ ĐẦU
1 Tính cấp thiết của đề tài
Xử lý số liệu thống kê là một môn học quan trọng của lĩnh vực thống kê, từ mẫu ngẫu nhiên khảo sát được, ta có thể đưa ra những nhận định sát với tổng thể để có được những dự đoán tương đối chính xác về một hiện tượng xã hội hay các biến động trong tương lai…Ở nước ta hiện nay, xử lý số liệu thống kê chưa được quan tâm đáng kể trong các trường đại học và cao đẳng Nếu phát triển môn học này hơn nữa thì lợi ích của nó mang đến cho lĩnh vực khoa học, các lĩnh vực nghiên cứu khác và thực tiễn là không hề nhỏ Bắt nguồn từ điều này, với sự hướng dẫn của thầy và nghiên cứu của bản thân, em đã thực hiện
bài khóa luận với đề tài : “Xử lý số liệu thống kê và một số ứng dụng”
2 Mục tiêu nghiên cứu
Từ một mẫu số liệu cho trước, sử dụng phương pháp xử lý số liệu thống kê, đưa ra được những nhận định về khỏang tin cậy, tính độc lập cũng như phân
bố chuẩn của các mẫu số liệu
3 Đối tượng và phạm vi nghiên cứu
Nội dung chính là tập trung nghiên cứu về các mẫu số liệu cần được kiểm định nên giữ lại hay loại bỏ (bác bỏ)
4 Phương pháp nghiên cứu
Bài khóa luận chủ yếu tập trung hai phương pháp chính là : ước lượng và kiểm định thông qua việc sử dụng phần mềm Minitab
5 Bố cục đề tài
Chương 1 Ước lượng và kiểm định: Chương này sẽ đề cập đến các đặc trưng của tổng thể dựa trên các đặc trưng của mẫu Các đặc trưng tổng thể là giá trị trung bình, phương sai hoặc tỷ lệ các đơn vị tổng thể có một tính chất nào đó
Chương 2 Kiểm định phù hợp phân bố xác suất: Nội dung chủ yếu của chương này là kiểm định giả thuyết thống kê có phù hợp với thực nghiệm hay không và kiểm định tính độc lập thống kê của dữ liệu
Trang 7Chương 3 Phân tích phương sai : Nội dung của chương này là phân tích sự ảnh hưởng của 1 hay nhiều yếu tố nguyên nhân tác động đến một yếu tố kết quả
Chương 4 Kiểm định phi tham số : Chương này gồm kiểm định dấu và hạng Wilcoxon, nội dung chủ yếu là kiểm định phân phối của hai mẫu tổng thể
Trang 8CHƯƠNG 1 ƯỚC LƯỢNG VÀ KIỂM ĐỊNH THAM SỐ 1.1 Khoảng tin cậy và kiểm định kì vọng
N với chưa biết và 2
đã biết Nếu ( ,x x1 2, ,x n) là mẫu số liệu của X thì với độ tin cậy 1 , khoảng tin cậy cho là:
Với độ tin cậy 95%, khoảng tin cậy cho trọng lượng trung bình của sản phẩm:49,7 50,5
Trang 9Ví dụ 1.2 Một nhà sản xuất máy tính xách tay quan tâm đến nguồn cấp
điện cho máy tính, nguồn cấp đạt tiêu chuẩn đối với máy tính là 19 volt Đo
Trang 10nguồn cấp điện của một mẫu 25 sạc pin được chọn ngẫu nhiên của hãng sản xuất A người ta tính được trung bình mẫu x 19, 25 Giả sử guồn cấp điện của sạc pin trên có phân bố chuẩn với độ lệch chuẩn 0,5 volt Với mức ý nghĩa 0, 05 hãy kiểm định giả thuyết gốc H0: 19 (volt) với đối thuyết
Trang 11p-giá trị = 0,012 < 0,05 nên bác bỏ H0
~ ( ; )
X N với 2 chƣa biết
Cho biến ngẫu nhiên X có phân bố chuẩn 2
( ; )
N với chưa biết và 2
chưa biết Nếu ( ,x x1 2, ,x n) là mẫu số liệu của X thì với độ tin cậy 1 , khoảng tin cậy cho là:
Ví dụ 1.3 Một mẫu 16 pin dùng cho smartphone được chọn ngẫu nhiên
của công ty A có tuổi thọ trung bình mẫu x 24.308 (giờ) và độ lệch chuẩn mẫu s 727 (giờ) Giả sử rằng tuổi thọ pin smartphone có phân bố chuẩn Với
độ tin cậy 95%, hãy tìm khoảng tin cậy tuổi thọ trung bình smartphone được sản xuất bởi công ty A
Trang 12Ví dụ 1.4 Kết quả khảo sát hàm lượng asen trong nước máy sinh hoạt của
25 mẫu được chọn ngẫu nhiên ở thành phố A thu được như sau (đơn vị 3
10
mg/l)
6,06 11,07 10,77 15,67 10,15 5,51 10,87 12,02 12,08 6,17 9,96 9,95 13,95 10,06 11,25 8,79 8,52 11,31 13,92 11,81 11,27 11,12 11,89 14,64 9,83
Giả sử hàm lượng asen trung bình trong nước máy sinh hoạt có phân bố chuẩn Với độ tin cậy 95%, hãy tìm khoảng tin cậy cho hàm lượng asen trung bình trong nước máy sinh hoạt
Trang 13Tạo dữ liệu 25 mẫu asen trong minitab vào ô C1
Stat Basic Statistics 1- Sample t
Chọn One or more samples, each in a column
Trang 14~ ( ; )
X N với 2 chưa biết
Giả thuyết gốc H0: 0.
Giá trị thống kê kiểm định: x 0
s
: = ( ] [ ; ) 2P( | |)
: = [ ; ) P( )
: = ( ] P( )
Trong trường hợp n > 30 :
Ví dụ 1.5.Tuổi thọ trung bình của một loại bóng đèn do nhà máy A sản
xuất khi chưa cải tiến kĩ thuật là 2.000 giờ Sau thời gian cải tiến kĩ thuật người ta chọn ngẫu nhiên 25 bóng đèn cho lắp thử nghiệm, kết quả thực nghiệm thu được tuổi thọ trung bình mẫu x 2.010 giờ và độ lệch chuẩn mẫu
15
s giờ Với mức ý nghĩa 0,025 có thể kết luận “sau khi cải tiến kĩ thuật, tuổi thọ bóng đèn có tăng lên” không? Biết tuổi thọ bóng đèn có phân phối chuẩn
Giải Gọi là tuổi thọ trung bình của bóng đèn sau cải tiến kĩ thuật Bài toán kiểm định giả thuyết H0: 2.000, H1: 2.000
n
Miền bác bỏ H0 là W [2, 0639; )
x
s
Do đó, có cơ sở bác bỏ H0, tức là có cơ sở để kết luận “sau khi cải tiến kĩ thuật, tuổi thọ bóng đèn có tăng lên”
Trang 161.2 Khoảng tin cậy và kiểm định tỷ lệ
Ví dụ 1.6 Với độ tin cậy 95% hãy tìm khoảng tin cậy cho tỷ lệ phế phẩm
của một nhà máy biết rằng kiểm tra 100 sản phẩm của nhà máy thì thấy có 10 phế phẩm
Giải
/ 2 0,025
10
ˆ 0,1 100
1,96
0, 05
k
p n
Trang 17Ví dụ 1.7 Giám đốc một công ty tuyên bố 90% sản phẩm của công ty đạt
tiêu chuẩn quốc gia Một công ty kiểm định độc lập đã tiến hành kiểm tra 200 sản phẩm của công ty đó thì thấy có 168 sản phẩm đạt yêu cầu Với mức ý nghĩa 0, 05 có thể cho rằng tỷ lệ sản phẩm đạt tiêu chuẩn quốc gia thấp hơn 90% không?
Giải Gọi plà tỷ lệ sản phẩm của công ty đạt chuẩn quốc gia
Cho pˆ k n/ là một ước lượng của tỷ lệ p từ 1 mẫu ngẫu nhiên kích thước n Giả thuyết gốc H0: p p0.
Giá trị thống kê kiểm định: 0
ˆ
(1 )
Trang 18Bài toán kiểm định giả thuyết:
0
1
: 0,9 : 0,9
Trang 191.3 So sánh 2 kì vọng của 2 phân phối chuẩn
Cho X và Y biến số ngẫu nhiên của hai tổng thể độc lập nhau và lần lượt
~ ( y; y)
Y N (iii) Hai mẫu ngẫu nhiên trên độc lập với nhau
1.3.1 Cỡ mẫu lớn
Ví dụ 1.8 Người ta cân trẻ sơ sinh ở hai khu vực thành thị và nông thôn,
kết quả thu được như sau:
Giả thuyết thống kê H0: x y 0.
Giá trị thống kê kiểm định: 0
2 2
.
y x
x y z
s s
Trang 20Với mức ý nghĩa 0,05 có thể coi trọng lượng trung bình của trẻ sơ sinh ở hai khu vực khác nhau không? Biết trọng lượng trẻ sơ sinh ở hai khu vực có phân phối chuẩn
Giải Gọi trọng lượng trung bình của trẻ sơ sinh ở nông thôn và thành thị
lần lượt là x(kg) và y(kg) Bài toán kiểm định giả thuyết:
Trang 21Y N với x y chưa biết
Giả thuyết thống kê H0: x y 0
Giá trị thống kê kiểm định:
Ví dụ 1.9.Một nghiên cứu được thực hiện đối với 20 người ở phường A và
19 người ở phường B trong một thành phố để xem thu nhập trung bình hàng năm của dân cư hai phường đó thực sự khác nhau hay không Các mẫu số liệu thu được như sau:
Trang 22Với mức ý nghĩa 0,05 có thể cho rằng thu nhập trung bình của dân cư hai phường đó khác nhau hay không? Giả sử thu nhập hàng năm của dân cư hai phường đó có phân phối chuẩn và hai phương sai bằng nhau
Giải Gọi x và y tương ứng là thu nhập trung bình hàng năm của dân cư hai phường A và B Bài toán kiểm định giả thuyết:
0
1
: :
H H
Từ giả thiết bài toán ta tính được:
2, 773 ; 2
Trang 23Kết quả thu được
Giá trị thống kê kiểm định:
0 2 2
x y t
s s
m n
Trong đó là phần nguyên của:
2 2 2
y x
s s
Ví dụ 1.10 Hàm lượng asen trong 20 mẫu nước ngầm được lấy ngẫu nhiên
ở hai vùng dân cư A và B được cho như sau (đơn vị: 3
10 mg/l)
Trang 24Giải Từ biểu đồ xác suất chuẩn (Hình 1.1) ta có thể khẳng định hai tổng
thể có phân phối chuẩn và hai phương sai khác nhau
Từ mẫu số liệu ta tính được t 2,8, 13.
Tạo dữ liệu hai vùng cư dân A và B trong Minitab
Stat Basic Statistics 2- Sample t
Trang 25Chọn Each sample is in its own column
m n
k l ˆ
Trang 26Đối thuyết Miền bác bỏ p – giá trị
: | | :
Ví dụ 1.11 Kiểm tra ngẫu nhiên các sản phẩm cùng loại do hai nhà máy
sản xuất thu được số liệu sau:
Nhà máy Số sản phẩm được kiểm tra Số phế phẩm
Gọi p1 và p2 lần lượt là tỉ lệ phế phẩm của nhà máy A và B
Bài toán kiểm định giả thuyết:
: :
Trang 28CHƯƠNG 2 KIỂM ĐỊNH KHI BÌNH PHƯƠNG 2.1 Kiểm định tính độc lập
Trong mục này ta sẽ xét bài toán kiểm tra tính độc lập của 2 dấu hiệu A và
B trong một tổng thể Ta chia dấu hiệu A làm m mức độ:A A1, 2, ,A m và dấu hiệu B ra n mức độ: B1, B2, ., B n Xét một mẫu ngẫu nhiên có k ij cá thể mang dấu hiệu A ở mức A i và dấu hiệu B ở mức B j Khi đó ta có bảng sau:
Kí hiệu p ij là xác suất để một cá thể chọn ngẫu nhiên mang các dấu hiệu A i
và B j, p i* là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu A i, p * j là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu B j
Xét bài toán kiểm định giả thuyết H0: A và Bđộc lập, H1: A và Bkhông độc lập (phụ thuộc)
Giả sử H0 đúng, khi đó P AB( ) P A P B( ) ( ) nên ta có p ij p p i* *j
Các xác suất p i* và p * j được ước lượng bởi:
Trang 29Do đó:
* *
2
i j ij
k k p
k được gọi là tần số lý thuyết còn các số k ij được gọi là tần số thực
nghiệm Khoảng cách các tần số lý thuyết và tần số thực nghiệm được đo bởi
Người ta đã chứng minh được rằng nếu N lớn và các tần số ˆ 5
ij
k thì có phân bố xấp xỉ phân bố 2
[ ( ); ),
m n
2 ( 1)( 1)p-gi¸ trÞP(m n T)
Ví dụ 2.1 Ở cây ngọc trâm lá có 2 dạng “phẳng” hoặc “nhăn”, hoa có 2
dạng “bình thường” hoặc “hoàng hậu” Quan sát một mẫu gồm 560 cây ngọc trâm thu được kết quả:
Trang 30Với mức ý nghĩa 5% có thể cho rằng hai đặc tính của hoa và lá trên cây ngọc trâm là độc lập không?
Giải Bài toán kiểm định giả thuyết:
Tạo dữ liệu trong Minitab
Stat Tables Chi – Square Test for Association
Chọn Summarized data in a two – way table
Columns containing the table : nhập cột bình thường và hoàng hậu
Labels for the table
Row : nhập cột chứa đặc điểm phẳng và nhăn
Kết thúc chọn OK
Kết quả thu được
Trang 31Chi-Square Test
Chi-Square DF P-Value Pearson 0.369 1 0.544
Người ta đã chứng minh được nếu tất các các giá trị n k 5 thì:
= ∑ ( ) ,
có phân bố khi bình phương m r 1 bậc tự do với r là số tham số cần ước lượng của quy luật cần kiểm định (chẳng hạn phân phối Bernoulli và Poisson
có r 1) Giả thuyết H0 bị bác bỏ nếu lớn một cách bất thường
Vì vậy, với mức ý nghĩa , miền bác bỏ H0 là 2
1 [ m r ( ); )
Ví dụ 2.2 Một nhà di truyền học tiến hành phép lai giữa hai cá thể ruồi
giấm F1 và thu được 176 cá thể F2 gồm 130 có kiểu hình hoang dại và 46 có
X x1 x2 … xm n1 + n2 + … + nm = n
ni n1 n2 … nm
X x1 x2 … xm n1 + n2 + … + nm = n
ni n1 n2 … nm
Trang 32kiểu hình đột biến Với mức ý nghĩa 5% có thể cho rằng kết quả thu được có phù hợp với tỉ lệ 3 trội : 1 lặn theo định luật phân ly của Mendel không?
Tạo dữ liệu hai cột và trong Minitab
Stat Tables Chi – Square Test for Association
Chọn Summarized data in a two – way table
Columns containing the table : nhập cột
Labels for the table
Trang 33Chi-Square Test
N DF Chi-Sq P-Value
176 1 0.121212 0.728
Vì p = 0.728 > 0.05 nên chấp nhận
Ví dụ 2.3 Theo dõi sự di truyền của hai tính trạng chiều cao và dạng lá ở
cà chua, người ta thực hiện một phép lai và thu được kết quả ở F2 như sau: Thân cao, lá chẻ 926; Thân cao, lá nguyên 288; Thân thấp, lá chẻ 293; Thân thấp, lá nguyên 104.Với mức ý nghĩa 5% có thể cho rằng kết quả thu được có phù hợp với tỉ lệ phân ly 9 : 3 : 3 : 1 theo định luật phân ly độc lập của Mendel không?
Giải Bài toán kiểm định giả thuyết
Trang 34Giải bằng Minitab
Tạo dữ liệu hai cột và trong Minitab
Stat Tables Chi – Square Test for Association
Chọn Summarized data in a two – way table
Columns containing the table : nhập cột
Labels for the table
Trang 35CHƯƠNG 3 PHÂN TÍCH PHƯƠNG SAI 3.1 Phân tích phương sai một nhân tố
Giả sử ta cần quan tâm tác động của nhân tố A lên biến số ngẫu nhiên X
ở kmứcA1, A2, ,A k Kí hiệu X ij là kết quả của tác động mứcA j lên phần tử
H H