1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo bài tập lớn xác SUẤT THỐNG kê chọn 1 biến định lượng nào đó và thực hiện tìm các đặc trưng từ mẫu dữ liệu tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể

55 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 337,41 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Câu 1: Chọn 1 biến định lượng nào đó và thực hiện:- Tìm các đặc trưng từ mẫu dữ liệu - Tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể.. Bài toán: Dựa và số liệu

Trang 1

STT Họ tên SINH VIÊN MSSV

Ngành học Ký tên tham

dự

L04 L04 L04 L04 L04 L04 L04 L04 L04

Điện-Điện tử

Điện-Điện tử

Điện-Điện tử

Điện-Điện tử

Điện-Điện tử

Điện-Điện tử

Xây dựng Điện-Điện

Trang 2

| P a g e

Phụ lục

A Lập bài toán -4

B Cơ sở lý thuyết -4

C Tính toán bằng tay -5

D Tính bằng excel -7

Bài 2 10 A Lập bài toán -10

B Cơ sở lý thuyết -11

C Tính toán bằng tay -12

D Tính bằng excel -13

Bài 3 16 A Lập bài toán -16

B Cơ sở lý thuyết -18

C Tính toán bằng tay -19

D Tính bằng excel -20

Bài 4 23 A Lập bài toán -23

B Cơ sở lý thuyết -25

C Tính toán bằng tay -26

D Tính bằng excel -27

Bài 5 29 A Lập bài toán -29

B Cơ sở lý thuyết -29

C Tính toán bằng tay -32

Trang 3

| P a g e

D Tính bằng excel -33

Bài 6 -35

A Lập bài toán -35

B Cơ sở lý thuyết -36

C Tính toán bằng tay -37

D Tính bằng excel -38

Trang 4

Câu 1: Chọn 1 biến định lượng nào đó và thực hiện:

- Tìm các đặc trưng từ mẫu dữ liệu

- Tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể.

A Lập bài toán

* Chọn biến định lượng: Chi phí trung bình cho các hoạt động giải trí của sinh viên.

Bài toán: Dựa và số liệu thu thập được từ khảo sát, hãy tìm các đặc trưng mẫu của dữ liệu “Chiphí trung bình cho các hoạt động giải trí của sinh viên “ Với độ tin cậy 99%, tìm các khoảng tincậy cho giá trị trung bình và phương sai của tổng thể

B Cơ sở lý thuyết

Mẫu dữ liệu bao gồm một số đặc trưng như: Giá trị trung bình, phương sai, độ lệch chuẩn, Tính toán các giá trị đặc trưng của mẫu là công việc cần thiết nhất trong phân tích số liệu ở thốngkê

Tìm khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể với độ tin cậy 99%:

Khoảng tin cậy cho giá trị trung bình:

Bài toán thuộc trường hợp n> 30, (n = 123)

Trang 5

và khoảng ước lượng của a là (xE ;x + £)

• Khoảng tin cậy cho phương sai tổng thể:

Từ đó, với môt mẫu cụ thể ta có khoảng ước lượng của ơ là:

125.000 đồng

175.000 đồng

200.000 đồng

Trang 7

*Phương pháp: Tại phần mềm Excel, chức năng Descriptive Statistics hổ trợ trong việc tính toán

các giá trị đặc trưng của mẫu Để mở chức năng này trong Excel, thực hiện các bước: Data — Data Analysis — Hộp option xuất hiện, chọn Descriptive Statistics rồi nhấn OK.

Hộp Data Analysis

Trang 8

Hộp Descriptive Statistics

Tại hộp Descriptive Statistics ta nhập các dữ liệu sau

• Input range: Nhập đầu vào dữ liệu

• Grouped by: Dữ liệu được sắp xếp theo cột (Columns) hay hàng (Rows)

• Output Range: Tích chọn để chọn vị trí xuất dữ liệu đầu ra

• Summary statistics: Thống kê tóm tắt

• Confidence Level for Mean: Độ tin cậy cho giá trị trung bình

(Lưu ý: Dữ liệu đầu vào phải ở định dạng Number thì Excel mới có thể xử lý.)

Sau khi nhập dữ liệu ta nhấn OK, kết quả nhận được như sau:

Trang 9

Chi phí cho các hoạt động giải trí của sinh viên

Standard Error Giá trị sai số tiêu chuẩn của mẫu (thước đo khác nhau giữa dự đoán và

thực tế)

Standard

Deviation

Độ lệch chuẩn

Sample Variance Phương sai

Confidence Level Khoảng tin cậy cho giá trị trung bình

Nhận xét: Giá trị Contidence Level nhận được chính là £ = 13,142.22 (đồng)

Để tìm khoảng tin cậy cho phương sai của dữ liệu:

Trong Excel để tìm khoảng tin cậy cho phương sai của dữ liệu ta sử dụng hàm CHISQ.INV.RT

để tính x a(n-1) và hàm CHISQ.INV để tính x

1 - a(n-1)

Trang 10

Nhập hàm vào ô nhập hàm để tìm giá trị X a ( n 1 ):

Ta cũng làm tương tự để tìm giá trị x 1-a(n 1 ):

Dựa vào hai hết quả vừa có được ta có thể tính ra được khoảng tin cậy của phương sai:

2,280,500,030.62 4,426^030,844.95

Ta có được khoảng tin cậy của phương sai: I -1

Nhận xét: khoảng tin cậy của phương sai là (2280.50; 4426.03) (Nghìn đồng2)

Câu 2: Chọn dữ liệu 2 biến định lượng (hoặc xử lý số liệu theo nhóm cho phù hợp)

để lập bài toán kiểm định so sánh 2 trung bình tổng thể.

Trang 12

1 0

1 0

Dạng bài: Kiểm định giả thuyết trung bình (bài toán hai mẫu).

Giả sử tổng thể I có trung bình a 1; tổng thể II có trung bình a2 Từ tổng thể I có mẫu kích thước

n 1, trung bình mẫu X 1, phương sai mẫu hiệu chỉnh S 2 1. Từ tổng thể II có mẫu kích thước n2, trung

bình mẫu X2, phương sai mẫu hiệu chỉnh S2 Vì mẫu lớn (n> 30) nên phương sai mẫu S 1 , S2được

xem là phương sai của tổng thể ơ 2 , ơ2 Khi ấy, ta áp dùng trắc nghiệm z để so sánh giá trị trungbình của hai mẫu với phương sai biết trước

Phương pháp giải: So sánh trung bình 2 tổng thể với phương sai biết trước (n > 30)

Giả thuyết:

Ho: a 1 =a 2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là như nhau”

Hi: a 1 ^a 2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là khác nhau”

Kích thước mẫu lớn (n > 30) Nên ta xem chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao

và chơi game là phân phối chuẩn

Trang 13

Đặt a 1, a 2 lần lượt là trung bình mức độ ưu tiên của sinh viên với hoạt động thể thao và hoạt động

chơi game

Đặt giả thuyết kiểm định:

H0: a 1=a 2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là như nhau”

Hi: a 1 ^a 2 “Chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là khác nhau”.Với bảng dữ liệu thu thập được ta tìm được các đặt điểm của hai dữ liệu như sau:

Mức độ ưu tiên hoạt độngchơi thể thao

Mức độ ưu tiên hoạt động

Ta thấy Zqs 6 W aBác bỏ H0, chấp nhận Hi Vậy chỉ số đánh giá mức độ ưu tiên hoạt động

chơi thể thao và chơi game (thể thao điện tử) là khác nhau

D Tính toán bằng Excel:

Công cụ giải: Descriptive Statistics và z-Test: Two Sample for Means

Quy trình thực hiện Excel:

Bước 1: Đầu tiên, ta sử dụng công cụ Descriptive Statistics trong Data/Data Analysis lần lượt tìmcác đặc trưng cho 2 mẫu

Trang 14

Data Analysis

Ạnalysis Toois

Anova Two-Fador With Replication Ariovâ: Twũ-Fađcư Mithũut Replkation Correlation

Covariance

Denriptivẹ statiiticĩ

Exponential Smoothing F-TestTwo-Sampl« ỉorVariances Foưrier Analyíis

Bước 2: Chọn các mục như trong ảnh:

I QK Canceí He!p

Input

|_ŨK J

Trang 15

+ Input: Phạm vi đầu vào.

+ Group By: Cách sắp xếp dữ liệu theo hàng hay cột

+ Output Range: Phạm vi đầu ra

+ Labels in first row: Nhãn dữ liệu

+ Summary statistics: Kết quả tóm tắt

+ Confidence Level for Mean: Mức tin cậy 95%

Ta được kết quả:

Đánh gìá mức độ ưu tiên

hoạt đì

ịng [Chơi thế thao]

Đánh giá mức độ ưu tiên hoạt động [Chơi game, tl

'lế thao điện tử]

Bước 3: Tiếp theo, ta sử dụng công cụ “z-Test: Two Sample for Means” trong Data/ Data

Analysis để so sánh trung bình hai tổng thể

Data Analysis

Analysis Tools

Hiỉtogram

Moving Average

Random Number Generation

Rank and Percentile

Regression

Samphng

t-Test: Paired Two Sample tor Meanỉ

t-Test: Two-Sample Assuming Equal Variances

t-Test: Two-5ample Assuming Unequal Vanances

Z-Test: Two Sample for Means

Bước 4: Chọn các mục như trong ảnh:

Input

Variable 1 Range:

variable ỉ Rang Ế:

Z-Tesi: Two Sample for Means

Hỉpothesìied Mcan Díterence:

0.5567 0.6119

Trang 17

+ Variable 1 Variance (known): 0.5567

+ Variable 2 Variance (known): 0.6119

Tiêu chuẩn kiểm định: Zqs = 2.7525 6 Wa.

Kết luận: Bác bỏ H , chấp nhận H1 Vậy chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao

và chơi game (thể thao điện tử) là khác nhau

Câu 3: Chọn dữ liệu cho k biến (k > 3) (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập bài toán so sánh về trung bình k tổng thể.

A Lập bài toán cụ thể:

Từ mẫu dữ liệu đã thu thập và xử lý được, chọn ra ba thông số về mức độ ưu tiên tham gia cáchoạt động giải trí của sinh viên để kiểm định so sánh trung bình tổng thể với mức ý nghĩa 5%, từ

đó kết luận về mức độ ưu tiên với các hoạt động giải trí này là khác hay giống nhau:

Hoạt động thứ nhất: Tán gẫu, ăn uống với bạn bè

Hoạt động thứ hai: Chơi các môn thể thao, vận động

Hoạt động thứ ba: Nghe nhạc, đọc sách

Trang 19

mức độ ưu tiên [Nghe nhạc, đọc sách]

Trang 20

B Cơ sở lý thuyết:

Lý thuyết phân tích phương sai

Phép phân tích phương sai là so sánh trung bình của hai hay nhiều nhóm dựa trên các giátrị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thiết đểkết luận và sự bằng nhau của các trung bình tổng thể này

Phương pháp phân tích phương sai 1 yếu tố

Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trungbình của hai hay nhiều biến mẫu được lấy từ các phân số Đây có thể được xem như phần

mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình)

Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu

tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2, ,k)

Mô hình

Trang 21

MSF = SSr

k -1MSE= SSI

Bước 1: Đặt giả thuyết :

Ho: M1 P-2 ■■■ M'k ^ “Các giá trị trung bình bằng nhau”

Hi: ^ ^ ^k^ “Ít nhất có hai giá trị trung bình bằng nhau”

Bước 2: Tính toán giá trị kiểm định:

C Tính toán bằng tay:

Gọi ai, a2, a3 lần lượt là các giá trị trung bình mức độ ưu tiên của sinh viên với các hoạt động tán

MSFMSE

Bước 3: Biện luận: Nếu F < Fa( k - 1;N -

Trang 22

gẫu, ăn uống; thể thao; nghe nhạc, đọc sách.

Giả thuyết:

H0: a1 = a2 = as; “Các giá trị trung bình bằng nhau” (chọn k = 3)

H1: ai = a_j “Tồn tại ít nhất hai giá trị trung bình khác nhau”; i, j G (1; 2; 3 Ị

Tính toán các giá trị kiểm định:

Ta thấy: F >F a = 3.0204 — Bác bỏ giả thuyết H0

Vậy mức độ ưu tiên của sinh viên với các hoạt động giải trí này là khác nhau

D Tính toán bằng Excel:

Dạng bài: Kiểm định trung bình (Bài toán nhiều mẫu)

Phương pháp giải: Phân tích phương sai 1 yếu tố.

Công cụ giải: Anova: Single Factor.

Bước 1: Nhập k dữ liệu đã được xử lý từ dữ liệu khảo sát (k = 3) vào Excel

Trang 23

mức độ ưu tiên [Nghe nhạc, đọc sách]

Bước 3: Trong hộp thoại Anova: Single Factor lần lượt chọn:

• Input Range (Phạm vi đầu vào): Nhấp chuột và kéo vùng dữ liệu muốn tính toán

• Columns/Rows: Sắp xếp dữ liệu theo cột hay hàng

• Labels in Fisrt Row/Column: Nhãn dữ liệu

• Alpha: Mức ý nghĩa

Trang 24

Xuất kết quả ra Excel:

Anova: Single Factor

SUMMARY

mức độ ưu tiên [Tán gẫu, ăn

Bước 4: Biện luận

Output Options: Tùy chọn đầu ra

Trang 25

Giá trị quan sát: F= 6.1865 > Giá trị ngưỡng F crit= 3.0204

Trang 26

Bác bỏ giả thuyết H0, chấp nhận gải thuyết H1.

Kết luận: vậy mức độ ưu tiên của các bạn sinh viên với các hoạt động giải trí là khác nhau.

Câu 4: Chọn dữ liệu cho 2 biến (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập bài toán kiểm định so sánh về sự phân tán Trình bày các bước thực hiện và nhận xét kết quả.

A Lập bài toán cụ thể:

Khảo sát số lần tham gia vào các hoạt động giải trí trong tuần và thời gian tham gia các hoạtđộng giải trí trong ngày của các bạn sinh viên Với mức ý nghĩa là 5% hãy so sánh mức độ phântán về số lần tham gia và thời gian tham gia của các bạn sinh viên Giả thiết các biến này phân bốtheo quy luật chuẩn

Với các đặt trưng mẫu cho trong bảng sau:

Trang 28

B Cơ sở lý thuyết:

• Lý thuyết kiểm định phương sai hai tổng thể

Khi cần kiểm định hai tổng thể có mức độ đồng đều như nhau hay không chúng ta dùng phươngpháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F như sau:

3.

00

2 50

10 1

1.

50

3 50

10 2

1.

50

1 50

10 3

1.

50

1 50

10 4

1.

50

2 50

10 5

6.

10 6

3.

10 7

3.

00

3 50

10 8

3.

10 9

6.

00

3 50

11 ũ’

3.

00

2 50

11 1

3.

00

1 50

11 2

8.

00

2 50

11 3

3.

00

2 50

11 4

1.

50

3 50 11

5

1.

50

1 50 11

6'

6.

00

3 50

11 7

1.

50

3 50

11 8'

6.

11 9'

3.

12 0

1.

50

1 50

12 1

3.

12 2

1.

50

4 50

12 3

3.

12 4

8.

Trang 29

Thông thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai ta làm như sau:trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt ở tử số, và như vậy mẫutương ứng với phương sai đó là mẫu thứ nhất.

Giả thiết đặt ra là kiểm định hai bên:

H0: ơi 2= Ơ2 2

Hi: Ơ1 2^ Ơ2 2

Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằngnhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng hộ giả thuyết H0 Như vậy tỉ lệ Flớn đến đâu thì xem như là đủ bằng chứng bác bỏ H0 và ngược lại?

Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có phân phối xác suấtgọi tên là phân phối Fisher Các giá trị tới hạn của phân phối F phụ thuộc và hai giá trị bậc tự do,bậc tự do tử số (df 1 = n 1 — 1) gắn liền với mẫu thứ nhất và bậc tự do mẫu số gắn liền với mẫu thứhai (d f

2 = n

2 — 1)

Quy tắc thực sự để bác bỏ H o với kiểm định hai bên khi df 1 = n 1 —1 và df 2 = n2 — 1 với mức ý

nghĩa a là: giả thiết Ho bị bác bỏ nếu giá trị kiểm định F lớn hơn giá trị tới hạn trên

Quy tắc bác bỏ H o là khi F tt > F u(n 1 —1 ;n 2 —1 ;a)

Phương pháp kiểm định phương sai tổng thể

Bài toán kiểm định phương sai tổng thể đưcọ thực hiện qua các bước sau:

Bước 1: Đặt giả thiết kiểm định Ho và giả thiết đối Hi.

F = S, 2 /S?

Bước 2: Xác định tiêu chuân kiểm định 1 2

Trang 30

Bước 3: Xác định miền bác bỏ bằng giá trị tra bảng Fisher.

Bước 4: Dựa vào tiêu chuẩn kiểm định và miền Wa đưa ra kết luận.

C Tính toán bằng tay:

Gọi Ư1 2, Ư2 2là phương sai mức độ phân tán của hai biến khảo sát

Giả thiết:

Ho: Ơ 1 2= Ơ 2 2 ,”Mức độ phân tán của hai biến này là như nhau”

Hi: ơ 1 2> Ơ 2 2,”Mức độ phân tán của số lần tham gia hoạt động giải trí trong tuần cao hơn mức

độ phân tán thời gian trung bình trong một ngày dành cho giải trí”

Kết luận: Mức độ phân tán của số lần tham gia hoạt động giải trí trong tuần cao hơn mức độ

phân tán thời gian trung bình trong một ngày dành cho giải trí

D Tính toán bằng Excel:

Dạng bài: Kiểm định giả thuyết cho phương sai hai tổng thể.

Công cụ: F-Test Two-Sample for Variances.

Bước 1: Nhập dữ liệu vào bảng tính

Trang 31

A B

Số lần tham gia các

hoạt động giải trí trong Thời ẽian trung bình

một tuần, (lần/tuànl trong một ngày dành

1 cho giải trí (giờ/ ngày)

Anova: Two-Factor with Replication

Anova: Two-Factor vvithout Replication

Trang 32

F-Test Two-Sample for Variances

Xuất kết quả ra Excel:

F-Test Tvvo-Sample for Variances

Số lần tham gia các hoạt

động giải tri trong một tuần (lần/tuần)

Thời gian trung bình trong một ngày dành cho giải trí (giờ/

Kết luận: Mức độ phân tán của số lần tham gia hoạt động giải trí trong tuần cao hơn mức độ

phân tán thời gian trung bình trong một ngày dành cho giải trí

Câu 5: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ (hay là bài toán kiểm định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả.

Trang 33

Dữ liệu 1: Nơi ở hiện tại của sinh viên.

Dữ liệu 2: Mức độ ưu tiên của sinh viên cho hoạt động chơi thể thao

Với mức ý nghĩa a = 5%, hãy so sánh phân bố tỉ lệ mức ưu tiên với các nơi ở cảu sinh viên

B Cơ sở lý thuyết:

Trong thống kê, kiểm định chi bình phương hay kiểm tra /2 (đôi khi đọc là "khi bình

phương") là một họ các phương pháp kiểm định giả thiết thống kê trong đó thống kê

kiểm định tuân theo phân bố X2nếu giả thuyết không là đúng

Dạng thống kê kiểm định thông dụng nhất là:

Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác.

Xét một bộ A gồm r tính trạng, A = (A1, A2, ,Ar), trong đó mỗi cá thể của tập hợp

Chú thích:

„2_ (o- e ) 2

Y = e

Trang 34

H có và chỉ có một trong các tính trạng (hay phạm trù) Ai.

Gọi pi (i = 1, 2, r) là tỷ lệ cá thể tính trạng Ai trong tập hợp chính H Khi đó véctơ

%=(p1, p2, ,pr) được gọi là phân bố của A trong tập hợp chính H

Giả sử (p1, p2, pr) là phân bố của (A1, A2, ,Ar) trong tập hợp chính H và (q1, q2, ,qr) làphân bố của A = (A1, A2, ,Ar) trong tập hợp chính Y Ta nói (A1, A2, ,Ar) có phân bố nhưnhau trong X và Y nếu (p1, p2, ,pr) = (q1, q2, ,qr) ^ p1 = q1, ,pr = qr

Chúng ta muốn kiểm định xem A = (A1, A2, ,Ar) có cùng phân số trong X và Y hay

không dựa trên các mẫu ngẫu nhiên rút từ X và Y

Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2, Hk Gọi n =(p 1 , p 2 , ,p r) là phân bố của

A = (A1, A2, ,Ar) trong tập hợp chính Hi

Ngày đăng: 16/01/2022, 22:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w