1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xử lý số liệu thống kê và một số ứng dụng

66 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xử Lý Số Liệu Thống Kê Và Một Số Ứng Dụng
Tác giả Bùi Thị Bích Hậu
Người hướng dẫn TS. Lê Văn Dũng
Trường học Trường Đại Học Sư Phạm Đại Học Đà Nẵng
Chuyên ngành Toán Ứng Dụng
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2019
Thành phố Đà Nẵng
Định dạng
Số trang 66
Dung lượng 1,65 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tính cấp thiết của đề tài Xử lý số liệu thống kê là một môn học quan trọng của lĩnh vực thống kê, từ mẫu ngẫu nhiên khảo sát được, ta có thể đưa ra những nhận định sát với tổng thể để có

Trang 2

MỤC LỤC

LỜI CẢM ƠN

LỜI CAM ĐOAN

MỞ ĐẦU 1

1 Tính cấp thiết của đề tài 1

2 Mục tiêu nghiên cứu 1

3 Đối tượng và phạm vi nghiên cứu 1

4 Phương pháp nghiên cứu 1

5 Bố cục đề tài 1

CHƯƠNG 1 ƯỚC LƯỢNG VÀ KIỂM ĐỊNH THAM SỐ 3

1.1 Khoảng tin cậy và kiểm định kì vọng 3

1.1.1 2 ~ ( ; ) X N   với  2 đã biết 3

1.1.2 X ~N( ;  2) với  2 chưa biết 6

1.2 Khoảng tin cậy và kiểm định tỷ lệ 11

1.3 So sánh 2 kì vọng của 2 phân phối chuẩn 14

1.3.1 Cỡ mẫu lớn 14

1.3.2 Cỡ mẫu nhỏ và hai phương sai bằng nhau 16

1.3.3 Cỡ mẫu nhỏ và hai phương sai không bằng nhau 18

1.4 So sánh hai tỷ lệ 20

CHƯƠNG 2 KIỂM ĐỊNH KHI BÌNH PHƯƠNG 23

2.1 Kiểm định tính độc lập 23

2.2 Kiểm định phù hợp 26

CHƯƠNG 3 PHÂN TÍCH PHƯƠNG SAI 30

3.1 Phân tích phương sai một nhân tố 30

3.2 Phân tích phương sai hai nhân tố 34

3.2.1 Phân tích phương sai hai nhân tố không lặp lại 34

3.2.2 Phân tích phương sai hai nhân tố có lặp 40

CHƯƠNG 4 KIỂM ĐỊNH PHI THAM SỐ 47

Trang 3

4.1 Kiểm định dấu 47

4.2 Kiểm định hạng có dấu Wilcoxon 51

4.2.1 Kiểm định trung vị 51

4.2.2 So sánh 2 kì vọng 54

KẾT LUẬN 57

TÀI LIỆU THAM KHẢO 58

PHỤ LỤC 59

Trang 4

LỜI CẢM ƠN

Trên thực tế không có thành công nào là không có sự giúp đỡ của người khác, dù là trực tiếp hay gián tiếp Bản thân em từ khi bắt đầu làm khóa luận đến nay đã nhận được sự nhiệt tình giúp đỡ của thầy cô, gia đình, bạn bè và các cơ quan nhà trường Với lòng biết ơn chân thành nhất, cho phép em gởi lời cảm ơn đến tất cả thầy cô, các cơ quan, gia đình và bạn bè

Trước hết, em xin chân thành gởi lời cảm ơn đến quý thầy cô Khoa Toán,Trường Đại Học Sư Phạm – Đại Học Đà Nẵng đã dùng những tri thức

và tâm huyết của mình có để truyền đạt cho chúng em vô vàng kiến thức quý báu, đồng thời luôn tạo mọi điều kiện để em hoàn thành khóa luận một cách tốt đẹp Em chúc quý thầy cô của Khoa luôn dồi dào sức khỏe

Đặc biệt, em xin chân thành gởi lời cảm ơn sâu sắc đến thầy Lê Văn Dũng, thầy đã tận tình chỉ bảo, hướng dẫn và luôn giúp đỡ em mỗi khi gặp vấn đề khó khăn trong suốt quá trình làm khóa luận vừa qua

Và cuối cùng, em xin được bày tỏ lòng biết ơn đến lãnh đạo Trường Đại Học Sư Phạm Đà Nẵng đã tạo điều kiện cho em trong quá trình học tập và làm khóa luận

Với điều kiện và kiến thức còn hạn chế, khóa luận này không thể không tránh khỏi thiếu sót Vì vậy em rất mong nhận được sự đóng góp của các thầy

cô để em học thêm được nhiều kinh nghiệm hơn và sẽ hoàn thành tốt hơn

Em xin chân thành cảm ơn!

Sinh viên ký tên

Bùi Thị Bích Hậu

Trang 5

LỜI CAM ĐOAN

Bài khóa luận được thực hiện bởi chính bản thân em, trong khóa luận có tham khảo một số nguồn thông tin dưới sự hướng dẫn của thầy Lê Văn Dũng

Em xin cam đoan bài khóa luận này là của riêng em, không sao chép từ bất

kỳ bài khóa luận nào khác

Sinh viên ký tên

Bùi Thị Bích Hậu

Trang 6

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Xử lý số liệu thống kê là một môn học quan trọng của lĩnh vực thống kê, từ mẫu ngẫu nhiên khảo sát được, ta có thể đưa ra những nhận định sát với tổng thể để có được những dự đoán tương đối chính xác về một hiện tượng xã hội hay các biến động trong tương lai…Ở nước ta hiện nay, xử lý số liệu thống kê chưa được quan tâm đáng kể trong các trường đại học và cao đẳng Nếu phát triển môn học này hơn nữa thì lợi ích của nó mang đến cho lĩnh vực khoa học, các lĩnh vực nghiên cứu khác và thực tiễn là không hề nhỏ Bắt nguồn từ điều này, với sự hướng dẫn của thầy và nghiên cứu của bản thân, em đã thực hiện

bài khóa luận với đề tài : “Xử lý số liệu thống kê và một số ứng dụng”

2 Mục tiêu nghiên cứu

Từ một mẫu số liệu cho trước, sử dụng phương pháp xử lý số liệu thống kê, đưa ra được những nhận định về khỏang tin cậy, tính độc lập cũng như phân

bố chuẩn của các mẫu số liệu

3 Đối tượng và phạm vi nghiên cứu

Nội dung chính là tập trung nghiên cứu về các mẫu số liệu cần được kiểm định nên giữ lại hay loại bỏ (bác bỏ)

4 Phương pháp nghiên cứu

Bài khóa luận chủ yếu tập trung hai phương pháp chính là : ước lượng và kiểm định thông qua việc sử dụng phần mềm Minitab

5 Bố cục đề tài

Chương 1 Ước lượng và kiểm định: Chương này sẽ đề cập đến các đặc trưng của tổng thể dựa trên các đặc trưng của mẫu Các đặc trưng tổng thể là giá trị trung bình, phương sai hoặc tỷ lệ các đơn vị tổng thể có một tính chất nào đó

Chương 2 Kiểm định phù hợp phân bố xác suất: Nội dung chủ yếu của chương này là kiểm định giả thuyết thống kê có phù hợp với thực nghiệm hay không và kiểm định tính độc lập thống kê của dữ liệu

Trang 7

Chương 3 Phân tích phương sai : Nội dung của chương này là phân tích sự ảnh hưởng của 1 hay nhiều yếu tố nguyên nhân tác động đến một yếu tố kết quả

Chương 4 Kiểm định phi tham số : Chương này gồm kiểm định dấu và hạng Wilcoxon, nội dung chủ yếu là kiểm định phân phối của hai mẫu tổng thể

Trang 8

CHƯƠNG 1 ƯỚC LƯỢNG VÀ KIỂM ĐỊNH THAM SỐ 1.1 Khoảng tin cậy và kiểm định kì vọng

N   với  chưa biết và  2

đã biết Nếu ( ,x x1 2, ,x n) là mẫu số liệu của X thì với độ tin cậy 1  , khoảng tin cậy cho  là:

Với độ tin cậy 95%, khoảng tin cậy cho trọng lượng trung bình của sản phẩm:49,7    50,5

Trang 9

Ví dụ 1.2 Một nhà sản xuất máy tính xách tay quan tâm đến nguồn cấp

điện cho máy tính, nguồn cấp đạt tiêu chuẩn đối với máy tính là 19 volt Đo

Trang 10

nguồn cấp điện của một mẫu 25 sạc pin được chọn ngẫu nhiên của hãng sản xuất A người ta tính được trung bình mẫu x 19, 25 Giả sử guồn cấp điện của sạc pin trên có phân bố chuẩn với độ lệch chuẩn   0,5 volt Với mức ý nghĩa   0, 05 hãy kiểm định giả thuyết gốc H0:   19 (volt) với đối thuyết

Trang 11

p-giá trị = 0,012 < 0,05 nên bác bỏ H0

~ ( ; )

X N   với  2 chƣa biết

Cho biến ngẫu nhiên X có phân bố chuẩn 2

( ; )

N   với  chưa biết và  2

chưa biết Nếu ( ,x x1 2, ,x n) là mẫu số liệu của X thì với độ tin cậy 1  , khoảng tin cậy cho  là:

Ví dụ 1.3 Một mẫu 16 pin dùng cho smartphone được chọn ngẫu nhiên

của công ty A có tuổi thọ trung bình mẫu x  24.308 (giờ) và độ lệch chuẩn mẫu s 727 (giờ) Giả sử rằng tuổi thọ pin smartphone có phân bố chuẩn Với

độ tin cậy 95%, hãy tìm khoảng tin cậy tuổi thọ trung bình smartphone được sản xuất bởi công ty A

Trang 12

Ví dụ 1.4 Kết quả khảo sát hàm lượng asen trong nước máy sinh hoạt của

25 mẫu được chọn ngẫu nhiên ở thành phố A thu được như sau (đơn vị 3

10

mg/l)

6,06 11,07 10,77 15,67 10,15 5,51 10,87 12,02 12,08 6,17 9,96 9,95 13,95 10,06 11,25 8,79 8,52 11,31 13,92 11,81 11,27 11,12 11,89 14,64 9,83

Giả sử hàm lượng asen trung bình trong nước máy sinh hoạt có phân bố chuẩn Với độ tin cậy 95%, hãy tìm khoảng tin cậy cho hàm lượng asen trung bình trong nước máy sinh hoạt

Trang 13

Tạo dữ liệu 25 mẫu asen trong minitab vào ô C1

Stat Basic Statistics 1- Sample t

Chọn One or more samples, each in a column

Trang 14

~ ( ; )

X N   với  2 chưa biết

Giả thuyết gốc H0:    0.

Giá trị thống kê kiểm định:  x 0

s

: = ( ] [ ; ) 2P( | |)

: = [ ; ) P( )

: = ( ] P( )

Trong trường hợp n > 30 :

Ví dụ 1.5.Tuổi thọ trung bình của một loại bóng đèn do nhà máy A sản

xuất khi chưa cải tiến kĩ thuật là 2.000 giờ Sau thời gian cải tiến kĩ thuật người ta chọn ngẫu nhiên 25 bóng đèn cho lắp thử nghiệm, kết quả thực nghiệm thu được tuổi thọ trung bình mẫu x 2.010 giờ và độ lệch chuẩn mẫu

15

s giờ Với mức ý nghĩa 0,025 có thể kết luận “sau khi cải tiến kĩ thuật, tuổi thọ bóng đèn có tăng lên” không? Biết tuổi thọ bóng đèn có phân phối chuẩn

Giải Gọi  là tuổi thọ trung bình của bóng đèn sau cải tiến kĩ thuật Bài toán kiểm định giả thuyết H0:   2.000, H1:   2.000

n

Miền bác bỏ H0 là W  [2, 0639;  )

x

s

   Do đó, có cơ sở bác bỏ H0, tức là có cơ sở để kết luận “sau khi cải tiến kĩ thuật, tuổi thọ bóng đèn có tăng lên”

Trang 16

1.2 Khoảng tin cậy và kiểm định tỷ lệ

Ví dụ 1.6 Với độ tin cậy 95% hãy tìm khoảng tin cậy cho tỷ lệ phế phẩm

của một nhà máy biết rằng kiểm tra 100 sản phẩm của nhà máy thì thấy có 10 phế phẩm

Giải

/ 2 0,025

10

ˆ 0,1 100

1,96

0, 05

k

p n

Trang 17

Ví dụ 1.7 Giám đốc một công ty tuyên bố 90% sản phẩm của công ty đạt

tiêu chuẩn quốc gia Một công ty kiểm định độc lập đã tiến hành kiểm tra 200 sản phẩm của công ty đó thì thấy có 168 sản phẩm đạt yêu cầu Với mức ý nghĩa   0, 05 có thể cho rằng tỷ lệ sản phẩm đạt tiêu chuẩn quốc gia thấp hơn 90% không?

Giải Gọi plà tỷ lệ sản phẩm của công ty đạt chuẩn quốc gia

Cho pˆ k n/ là một ước lượng của tỷ lệ p từ 1 mẫu ngẫu nhiên kích thước n Giả thuyết gốc H0: pp0.

Giá trị thống kê kiểm định: 0

ˆ

(1 )

Trang 18

Bài toán kiểm định giả thuyết:

0

1

: 0,9 : 0,9

Trang 19

1.3 So sánh 2 kì vọng của 2 phân phối chuẩn

Cho XY biến số ngẫu nhiên của hai tổng thể độc lập nhau và lần lượt

~ ( y; y)

Y N   (iii) Hai mẫu ngẫu nhiên trên độc lập với nhau

1.3.1 Cỡ mẫu lớn

Ví dụ 1.8 Người ta cân trẻ sơ sinh ở hai khu vực thành thị và nông thôn,

kết quả thu được như sau:

Giả thuyết thống kê H0: x y  0.

Giá trị thống kê kiểm định: 0

2 2

.

  

y x

x y z

s s

Trang 20

Với mức ý nghĩa 0,05 có thể coi trọng lượng trung bình của trẻ sơ sinh ở hai khu vực khác nhau không? Biết trọng lượng trẻ sơ sinh ở hai khu vực có phân phối chuẩn

Giải Gọi trọng lượng trung bình của trẻ sơ sinh ở nông thôn và thành thị

lần lượt là x(kg) và y(kg) Bài toán kiểm định giả thuyết:

Trang 21

Y N   với x  y chưa biết

Giả thuyết thống kê H0: x y  0

Giá trị thống kê kiểm định:

Ví dụ 1.9.Một nghiên cứu được thực hiện đối với 20 người ở phường A và

19 người ở phường B trong một thành phố để xem thu nhập trung bình hàng năm của dân cư hai phường đó thực sự khác nhau hay không Các mẫu số liệu thu được như sau:

Trang 22

Với mức ý nghĩa 0,05 có thể cho rằng thu nhập trung bình của dân cư hai phường đó khác nhau hay không? Giả sử thu nhập hàng năm của dân cư hai phường đó có phân phối chuẩn và hai phương sai bằng nhau

Giải Gọi x và y tương ứng là thu nhập trung bình hàng năm của dân cư hai phường A và B Bài toán kiểm định giả thuyết:

0

1

: :

H H

Từ giả thiết bài toán ta tính được:

2, 773 ; 2

Trang 23

Kết quả thu được

Giá trị thống kê kiểm định:

0 2 2

x y t

s s

m n

Trong đó  là phần nguyên của:

2 2 2

y x

s s

Ví dụ 1.10 Hàm lượng asen trong 20 mẫu nước ngầm được lấy ngẫu nhiên

ở hai vùng dân cư A và B được cho như sau (đơn vị: 3

10 mg/l)

Trang 24

Giải Từ biểu đồ xác suất chuẩn (Hình 1.1) ta có thể khẳng định hai tổng

thể có phân phối chuẩn và hai phương sai khác nhau

Từ mẫu số liệu ta tính được t  2,8,   13.

Tạo dữ liệu hai vùng cư dân A và B trong Minitab

Stat Basic Statistics 2- Sample t

Trang 25

Chọn Each sample is in its own column

m n

k l ˆ

Trang 26

Đối thuyết Miền bác bỏ p – giá trị

: | | :

Ví dụ 1.11 Kiểm tra ngẫu nhiên các sản phẩm cùng loại do hai nhà máy

sản xuất thu được số liệu sau:

Nhà máy Số sản phẩm được kiểm tra Số phế phẩm

Gọi p1 và p2 lần lượt là tỉ lệ phế phẩm của nhà máy A và B

Bài toán kiểm định giả thuyết:

: :

Trang 28

CHƯƠNG 2 KIỂM ĐỊNH KHI BÌNH PHƯƠNG 2.1 Kiểm định tính độc lập

Trong mục này ta sẽ xét bài toán kiểm tra tính độc lập của 2 dấu hiệu A

B trong một tổng thể Ta chia dấu hiệu A làm m mức độ:A A1, 2, ,A m và dấu hiệu B ra n mức độ: B1, B2, ., B n Xét một mẫu ngẫu nhiên có k ij cá thể mang dấu hiệu A ở mức A i và dấu hiệu B ở mức B j Khi đó ta có bảng sau:

Kí hiệu p ij là xác suất để một cá thể chọn ngẫu nhiên mang các dấu hiệu A i

B j, p i* là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu A i, p * j là xác suất để một cá thể chọn ngẫu nhiên mang dấu hiệu B j

Xét bài toán kiểm định giả thuyết H0: ABđộc lập, H1: ABkhông độc lập (phụ thuộc)

Giả sử H0 đúng, khi đó P AB( ) P A P B( ) ( ) nên ta có p ijp p i* *j

Các xác suất p i* và p * j được ước lượng bởi:

Trang 29

Do đó:

* *

2

i j ij

k k p

k được gọi là tần số lý thuyết còn các số k ij được gọi là tần số thực

nghiệm Khoảng cách các tần số lý thuyết và tần số thực nghiệm được đo bởi

Người ta đã chứng minh được rằng nếu N lớn và các tần số ˆ 5

ij

k  thì  có phân bố xấp xỉ phân bố 2

[   ( ); ),

m n 

2 ( 1)( 1)p-gi¸ trÞP(mn T)

Ví dụ 2.1 Ở cây ngọc trâm lá có 2 dạng “phẳng” hoặc “nhăn”, hoa có 2

dạng “bình thường” hoặc “hoàng hậu” Quan sát một mẫu gồm 560 cây ngọc trâm thu được kết quả:

Trang 30

Với mức ý nghĩa 5% có thể cho rằng hai đặc tính của hoa và lá trên cây ngọc trâm là độc lập không?

Giải Bài toán kiểm định giả thuyết:

Tạo dữ liệu trong Minitab

Stat Tables Chi – Square Test for Association

Chọn Summarized data in a two – way table

Columns containing the table : nhập cột bình thường và hoàng hậu

Labels for the table

Row : nhập cột chứa đặc điểm phẳng và nhăn

Kết thúc chọn OK

Kết quả thu được

Trang 31

Chi-Square Test

Chi-Square DF P-Value Pearson 0.369 1 0.544

Người ta đã chứng minh được nếu tất các các giá trị n k  5 thì:

= ∑ ( ) ,

có phân bố khi bình phương m r  1 bậc tự do với r là số tham số cần ước lượng của quy luật cần kiểm định (chẳng hạn phân phối Bernoulli và Poisson

r 1) Giả thuyết H0 bị bác bỏ nếu  lớn một cách bất thường

Vì vậy, với mức ý nghĩa , miền bác bỏ H0 là 2

1 [ m r ( ); )

Ví dụ 2.2 Một nhà di truyền học tiến hành phép lai giữa hai cá thể ruồi

giấm F1 và thu được 176 cá thể F2 gồm 130 có kiểu hình hoang dại và 46 có

X x1 x2 … xm n1 + n2 + … + nm = n

ni n1 n2 … nm

X x1 x2 … xm n1 + n2 + … + nm = n

ni n1 n2 … nm

Trang 32

kiểu hình đột biến Với mức ý nghĩa 5% có thể cho rằng kết quả thu được có phù hợp với tỉ lệ 3 trội : 1 lặn theo định luật phân ly của Mendel không?

Tạo dữ liệu hai cột và trong Minitab

Stat Tables Chi – Square Test for Association

Chọn Summarized data in a two – way table

Columns containing the table : nhập cột

Labels for the table

Trang 33

Chi-Square Test

N DF Chi-Sq P-Value

176 1 0.121212 0.728

Vì p = 0.728 > 0.05 nên chấp nhận

Ví dụ 2.3 Theo dõi sự di truyền của hai tính trạng chiều cao và dạng lá ở

cà chua, người ta thực hiện một phép lai và thu được kết quả ở F2 như sau: Thân cao, lá chẻ 926; Thân cao, lá nguyên 288; Thân thấp, lá chẻ 293; Thân thấp, lá nguyên 104.Với mức ý nghĩa 5% có thể cho rằng kết quả thu được có phù hợp với tỉ lệ phân ly 9 : 3 : 3 : 1 theo định luật phân ly độc lập của Mendel không?

Giải Bài toán kiểm định giả thuyết

Trang 34

Giải bằng Minitab

Tạo dữ liệu hai cột và trong Minitab

Stat Tables Chi – Square Test for Association

Chọn Summarized data in a two – way table

Columns containing the table : nhập cột

Labels for the table

Trang 35

CHƯƠNG 3 PHÂN TÍCH PHƯƠNG SAI 3.1 Phân tích phương sai một nhân tố

Giả sử ta cần quan tâm tác động của nhân tố A lên biến số ngẫu nhiên X

kmứcA1, A2, ,A k Kí hiệu X ij là kết quả của tác động mứcA j lên phần tử

H H

Ngày đăng: 08/05/2021, 14:26

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Dương Thiệu Tống (2005), Thống kê ứng dụng trong ngiên cứu khoa học giáo dục, Nhà Xuất bản Khoa học Xã hội Sách, tạp chí
Tiêu đề: Thống kê ứng dụng trong ngiên cứu khoa học giáo dục
Tác giả: Dương Thiệu Tống
Nhà XB: Nhà Xuất bản Khoa học Xã hội
Năm: 2005
[2] Nguyễn Duy Tiến, Vũ Viết Yên (2009), Lý thuyết xác suất, Nhà Xuất bản Giáo dục Sách, tạp chí
Tiêu đề: Lý thuyết xác suất
Tác giả: Nguyễn Duy Tiến, Vũ Viết Yên
Nhà XB: Nhà Xuất bản Giáo dục
Năm: 2009
[3] Đặng Hùng Thắng (2009), Mở đầu về lý thuyết xác suất và các ứng dụng, Nhà Xuất bản Giáo dục Sách, tạp chí
Tiêu đề: Mở đầu về lý thuyết xác suất và các ứng dụng
Tác giả: Đặng Hùng Thắng
Nhà XB: Nhà Xuất bản Giáo dục
Năm: 2009
[4] Đặng Hùng Thắng (2008), Bài tập thống kê, Nhà Xuất bản Giáo dục. Tiếng anh Sách, tạp chí
Tiêu đề: Bài tập thống kê
Tác giả: Đặng Hùng Thắng
Nhà XB: Nhà Xuất bản Giáo dục. Tiếng anh
Năm: 2008
[6] Shelldon M. Cross (2004), Introduction to Probability and Statistics for engineers and scientists, Elsevier Academic Press Sách, tạp chí
Tiêu đề: Introduction to Probability and Statistics for engineers and scientists
Tác giả: Shelldon M. Cross
Năm: 2004
[5] Jay L. Devore (2010), Probability and Statistics for Engineering and the Sciences Khác
[7] Douglas C. Montgomery, George C. Runger (2007), Applied Statistics and Probability for Engineers Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w