1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo bài tập lớn xác SUẤT THỐNG kê tìm các đặc trưng từ mẫu dữ liệu

32 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Bài Tập Lớn Xác Suất Thống Kê Tìm Các Đặc Trưng Từ Mẫu Dữ Liệu
Tác giả Nhóm: 07
Người hướng dẫn GVHD: Nguyễn Kiều Dung
Trường học Đại học Bách Khoa Thành phố Hồ Chí Minh
Thể loại báo cáo
Năm xuất bản 2020
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 32
Dung lượng 1,93 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Step3: Sử dụng hàm CHIINV và các công thức để tính khoảng ước lượng của phươngsai.Kết quả: Câu 2: Chọn dữ liệu 2 biến định lượng hoặc xử lý số liệu theo nhóm cho phù hợp để lập bài toán

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH

-*** -BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ

GVHD: Nguyễn Kiều Dung

Nhóm: 07 Danh sách thành viên

TP.HCM, ngày 5 tháng 12 năm 2020

Trang 2

Câu 1: Chọn 1 biến định lượng nào đó và thực hiện:

- Tìm các đặc trưng từ mẫu dữ liệu

- Tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể

Trang 3

- Phương sai mẫu hiệu chỉnh:

 Ước lượng mẫu

- Ước lượng khoảng trung bình mẫu

- Ước lượng khoảng phương sai

Phương pháp giải trong trường hợp tổng thể có phân phối chuẩn

Để thuận tiện cho tra bảng, trong các bài toán tìm khoảng ước lượng của

phương sai ta luôn xét 1 = 2 = 2 Khi đó, khoảng ước lượng của phương sai

là:

Trang 4

3

Trang 5

C Lời giải tính tay

̅̅̅

= 100 = 3.0125 ̂ 2 = 3.0125 − 1.6 2 = 0.4525

Trang 6

Vậy khoảng ước lượng cần tìm là:

99 × 0.457 99 × 0.457 ( 128.422 ;

73.361 ) Hay (0.3523; 0.6167)

D Lời giải từ việc sử dụng exel

Step1: Nhập số liệu:

Step2: Sử dụng chức năng Data Analysis  Chọn Descriptive Statistics

Trang 7

Step3: Sử dụng hàm CHIINV và các công thức để tính khoảng ước lượng của phươngsai.

Kết quả:

Câu 2: Chọn dữ liệu 2 biến định lượng (hoặc xử lý số liệu theo nhóm cho phù hợp) để

lập bài toán kiểm định so sánh 2 trung bình tổng thể

A Lập bài toán cụ thể

Khảo sát 100 sinh viên K19 và 200 sinh viên K20 về mức chi tiêu cho việc ăn uốnghàng tháng của trường Đại Học Bách Khoa Tp.HCM được bảng số liệu sau :

Trang 8

Phải chăng số tiền trung bình cho việc chi tiêu ăn uống hàng tháng của sinh viên K19

và K20 như nhau với mức ý nghĩa 5% ?

B Cơ sở lý thuyết

- Kiểm định so sánh trung bình 2 tổng thể:

Giả thiết điều kiện H0: a1=a2

Giả thiết đối điều kiện H1: a1≠a2

n1 và n2 đều lớn hơn 30 nên sử dụng bảng tra Laplace: ϕ(Zα)=(1-α)/2 => Zα

Miền bác bỏ khi giả thiết đối là : W α =(-∞;-Z α ) ∪ (Z α ;+∞)

Nếuthuộc miền bác bỏ thì bác bỏ giả thuyết và chất nhận giả thuyết điều kiện 1

C Lời giải tính tay

Gọi a1 và a2 là trung bình chi tiêu cho việc ăn uống của khóa K19 và

Phương sai mẫu hiệu chỉnh: 1 = 4.5707 × 10 11

Độ lệch chuẩn mẫu hiệu chỉnh: 1 = 676070.05

K20: n2=200

Trung bình mẫu: 2 = 1.397.500vnđ

Phương sai mẫu hiệu chỉnh: 2 = 5.3718 × 10 11

Trang 9

Độ lệch chuẩn mẫu hiệu chỉnh: 2= 732925.6

Tiêu chuẩn kiểm định:=

D Lời giải từ việc sử dụng exel

Giả sử a1 và a2 lần lượt là trung bình số tiều chi tiêu cho việc ăn uống của

sinh viên K19, K20 của đại học Bách Khoa

Giải thuyết Ho: a1= a2

Giải thuyết đối H1: a 1 ≠a 2

Với mức ý nghĩa   5% và n 1 và n 2 đều lớn hơn 30 => ϕ(Z α ) =1−02.05 = 0.475 =>

Z α =1.96

Vậy miền bác bỏ w  ( ; 1.96)  (1.96; )

Step 1: Nhập số liệu vào excel

Step 2: Sử dụng Data Analysis  Descriptive statistics

Step 3: Chọn vùng dữ liệu và vùng xuất

Trang 10

Theo đề ta tính được các được trưng mẫu của khóa K19:

- Trung bình mẫu: 1 =1.600.000 (vnđ)

- Phương sai mẫu hiệu chỉnh : s 2 =4.57x10 11 1

- Độ lệch chuẩn mẫu hiệu chỉnh 1 =676070.05

Trang 11

Tương tự ta cũng tính cho khóa K20 :

Trang 12

Step 3: Chọn vùng dữ liệu:

- Nhóm 1 vào Variable 1 Range

- Nhóm 2 vào Variable 2 Range

Step 3: OK

Vì thuộc khoảng αnên ta có thể bác bỏ 0 tạm thời chấp nhận giả thiết đối 1

Kết luận số tiền chi tiêu trung bình cho việc ăn uống của sinh viên K19, K20 là

khác nhau

Trang 13

Câu 3: Chọn dữ liệu cho k biến (k >= 3) (hoặc xử lý số liệu theo nhóm cho phù hợp)

để lập bài toán so sánh về trung bình k tổng thể

A Lập bài toán cụ thể

Với mức ý nghĩa 5% Kiểm định so sánh trung bình số tiền chi tiêu mỗi tháng cho

việc giải trí của sinh viên K18, K19, K20 của trường Đại học Bách Khoa Tp.HCM

với số liệu khảo sát được ở bảng sau (giả sử các tổng thể phân phối bình thường):

Giả sử chúng ta muốn so sánh trung bình k tổng thể (với ví dụ trên k=3) dựa trên

các mẫu ngẫu nhiên độc lập n1, n2, …, nk quan sát từ k tổng thể này Ta có 3 giả định

về các nhóm tổng thể được tiến hành phân tích ANOVA

- Các tổng thể này phân phối bình thường

- Các phương sai tổng thể bằng nhau

- Các quan sát được lấy mẫu độc lập với nhau

Nếu trung bình các tổng thể được kí hiệu là a1, a2, …, ak thì các giả định trên đươc đáp

ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm

định giả thuyết như sau:

H0: a1 =a2=…=ak

Giả thuyết H0 cho rằng trung bình k tổng thể đều bằng nhau ( Giả thuyết cho rằng các

yếu tố nguyên nhân không có tác động gì đến các vấn đề ta đang nghiêm cứu) Và giả

Trang 14

Phương sai giữa các nhóm: MSG.

Cuối cùng  Tỷ số F:

=

Sau đó so sánh &  Kết luận giả thuyết

(Lời giải chi tiết ở phần tiếp theo)

C Lời giải tính tay

Gọi 1 , 2 , 3 lần lượt là trung trung bình số tiền chi tiêu trên tháng cho việc giải trí của sinh viên K18, K19, K20.

Phương sai trong nội bộ nhóm:

Trang 15

Sử dụng hàm FINV trong exel : 0.05 (2; 347) = 3.022

Vậy: ∈ nên bác bỏ giả thuyết số tiền chi tiêu trung bình trên tháng cho việc giải trí của sinh viên ba khóa K18, K19, K20 là bằng nhau.

D Lời giải từ việc sử dụng excel

Trang 16

1 Dùng Data Analysis  chọn Anova: Single Factor

Trang 17

3 Xuất ra kết quả như sau:

Câu 4: Chọn dữ liệu cho 2 biến (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập

bài toán kiểm định so sánh về sự phân tán Trình bày các bước thực hiện và nhận xét kết quả

Trang 18

A Lập bài toán cụ thể

Khảo sát về số tiền sinh viên chi tiêu cho việc ăn uống hàng tháng giữa sinh viênK19 và K20 (Trường Đại học Bách Khoa Tp.HCM) Chọn ngẫu nhiên 200 sinh viên để khảo sát, kết quả thu được cho ở bảng sau:

Với mức ý nghĩa 5%, hãy nêu kết luận về sự đồng đều của số tiền chi tiêu cho việc

ăn uống hàng tháng giữa sinh viên K19 và sinh viên K20

B Cơ sở lý thuyết giải bài toán

Dạng bài: Kiểm định giả thuyết cho phương sai hai tổng thể.

Công cụ giải: chức năng F-Test Two-Sample for Variances trên Excel.

là phương sai của mẫu thứ nhất, có kích cỡ 1 là phương sai của mẫu thứ nhất, có kích cỡ 2

Thông thường, để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai

ta làm như sau: Trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt

ở tử số, và như vậy mẫu tương ứng với phương sai đó là mẫu thứ nhất

Trang 19

Giả thiết đặt ra kiểm định một bên:

0 : 1 = 2

1 : 1 > 2

Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng nhau được, ngược lại nếu tỉ

số này gần đến 1 ta sẽ có bằng chứng ủng hộ giả thiết 0 Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ có

phân phối xác suất gọi tên là phân phối Fisher Các giá trị tới hạn của phân phối

Fisher phụ thuộc vào hai giá trị bậc tự do, bậc tự do của tử số ( 1 = 1 − 1) gắn liền với mẫu thứ nhất và bậc tự do của mẫu số ( 2 = 2 − 1) gắn liền với mẫu thứ hai.

Miền bác bỏ bên phải: = ( ( 1 ; 2 ); +∞)

Quy tắc để bác bỏ 0 với kiểm định một bên với mức ý nghĩa là: Giả thiết 0 bị bác bỏ nếu giá trị kiểm định thuộc miền bác bỏ hay là giá trị kiểm định lớn hơn giá trị tới hạn ( 1 ; 2 ).

C Lời giải tính tay và nhận xét kết quả

Gọi 1 và 2 lần lượt là phương sai của số tiền chi tiêu cho việc ăn uống hàng tháng của sinh viên K20 và K19.

 Mức ý nghĩa 5% ⇒ = 0,05

 Đặt giả thiết kiểm định:

: 2 = 2 “Độ đồng đều chi phí ăn uống hàng tháng của sinh viên hai

 Biện luận: vì không thuộc miền bác bỏ nên chấp nhận 0 , bác bỏ 1

Kết luận: Độ đồng đều về chi phí ăn uống hàng tháng của sinh viên K19 và K20

là như nhau

18

Trang 20

D Lời giải từ việc sử dụng Excel

 Nhập dữ liệu vào Excel:

 Chi tiêu cho việc ăn uống hàng tháng của sinh viên K19: A2 ⟹ A84

 Chi tiêu cho việc ăn uống hàng tháng của sinh viên K20: C2 ⟹ C118

 Chi tiêu cho việc ăn uống từng khoảng được lấy giá trị trung bình:

Trang 21

Mở Data Analysis chọn F-Test Two-Sample for Variances

Hộp thoại F-Test Two-Sample for Variances

- Variable 1 Range: Phạm vi dữ liệu biến 1 (Chi tiêu cho việc ăn uống của sinh viên K20:C2⇒C118).

- Variable 2 Range: Phạm vi dữ liệu biến 2 (Chi tiêu cho việc ăn uống

của sinh viên K19: A2⇒A84).

- L able : Nhãn (“K19”, “K20”): tick chọn.

- A lpha : Mức ý nghĩa (0,05).

- O utput Range: Phạm vi xuất dữ liệu (G2)

 Kết quả thu được:

Trang 22

Tiêu chuẩn kiểm định: = 1,10774041 (H9)

Giá trị tới hạn một bên: − = 1,40913369 (H11)

Miền bác bỏ: = (1,40913369; +∞)

Từ bảng trên, ta thấy được ∉

⇒ Chấp nhận 0 , bác bỏ 1

K19 và sinh viên K20 là như nhau

Câu 5: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài toán kiểm

định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả

Trang 23

chấp nhận giả thiết0 , việc chấp nhận giả thiết 0 tương đương với bác bỏ đối thiết 1 và ngược lại.

- Điều kiện số quan sát mỗi mẫu 1 , 2 ≥ 30.

=

∪( ;+∞)

+ 1 )

C Lời giải tính tay

- Gọi 1, 2 lần lượt là tỉ lệ chi phí đi lại cao của sinh viên K19, K20.

Trang 24

D Lời giải từ việc sử dụng excel

So sánh tỉ lệ chi phí đi lại cao giữa K19 và K20

1 , 2 lần lượt là tỉ lệ chi phí đi lại cao của SV K19,K20.

- Giả thiết kiểm định 0 : 1 = 2

- Giả thiết đối 1 : 1 ≠ 2

Lấy từ số liệu chung cột chi phí đi lại của K19 và K20, tạo bảng số liệu mới về chiphí đi lại Trong đó chi phí đi lại trên 200 nghìn đồng sẽ kí hiệu là 1, dưới 200 nghìnđồng sẽ kí hiệu là 0 Như hình dưới:

- Thao tác trên Excel: Data/ Data Analysis/ t-Test: two-sample Assuming Equal

Variances

- Sau đó nhập số liệu theo từng ô:

Trang 25

+Hai ô đầu tiên là nhập lần lượt cột số liệu của K19 và

K20 +Dưới là sự khác nhau của trung bình nhập là 0

Trang 26

- t Critical two-tail = Zα = 1,96795 = (−∞ ; −1.9679) ∪ (1,9679 ; +∞)

có thể nói chi tiêu cho đi lại của K19 cao hơn K20.

* Nhận xét: chi phí đi lại của K20 thấp hơn K19 ta có thể đưa ra vài lí do:

- Năm nhất nên chưa quen đường, nên hay đi xe buýt => tiết kiệm tiền hơn

- Ít bạn bè, đa số chưa có người yêu nên ít đi chơi

- Năm nhất sẽ học quân sự ngay trong kì I nên ít tốn tiền đi lại

Câu 6: Khảo sát hệ số tương quan giữa 2 biến định lượng cụ thể, dự đoán phương

trình đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa) và nhận xét về

mối tương quan tuyến tính giữa 2 biến

A Lập bài toán cụ thể

Khảo sát hệ số tương quan giữa thời gian thí nghiệm mạch điện tử (X) với năng

lượng tiêu thụ trên tải (Y) Dự đoán phương trình đường hồi qua tuyến tính và nhận

xét về mối tương quan tuyến tính giữ chúng

Bảng số liệu về thời gian thí nghiệm mạch điện tử với công suất tiêu thụ

trên tải được lấy ngẫu nhiên trên các thiết bị :

(Nguồn: Bộ môn kĩ thuật điện, trường Đại học Bách Khoa TP.HCM)

B Cơ sở lý thuyết giải bài toán

Dạng bài: : Khảo sát hệ số tương quan giữa 2 biến định lượng cụ thể, dự

đoán phương trình đường hồi quy tuyến tính

1 Tìm hệ số tương quan X và Y:

- Hệ số tương quan là một chỉ số đo lường của một số loại tương quan, nghĩa là mối liên hệ thống kê giữa hai biến số

Trang 27

2 Phương trình đường hồi quy tuyến tính:

̅”= + , = , = − ”

 Kiểm định hệ số a,b :

+ Giả thiết 0: Hệ số hồi quy không có ý nghĩa (=0)

+ Giả thiết 1: Hệ số hồi quy có ý nghĩa (≠ 0)

+ Trắc nghiệm t < , −2: chấp nhận 0

 Kiểm định phương trình hồi quy:

+ Giả thiết 0: “Phương trình hồi quy tuyến tính không thích hợp.”

+ Giả thiết 1: “Phương trình hồi quy tuyến tính thích hợp.”

Trang 28

+ 56.430 + 70.535 + 75.587) = 18659,9

 Hệ số tương quan là:

= 18659,9 − 43,2.349,2 = 0.998399

√520,76.24613,56

Ta có hệ số tương quan bằng 0.998399 ≈ 1 cho thấy thời gian và năng lượng tiêu thụ có quan hệ bậc nhất.

 Phương trình đường hồi quy tuyến tính :

D Lời giải từ việc sử dụng excel

- Dùng công cụ Data analysis => Regression (như hình dưới) :

+ Chọn dữ liệu biến Y (thời gian) vào cột “INPUT Y RANGE”

Trang 29

+ Chọn dữ liệu biến X (Năng lượng tiêu thụ) vào cột “INPUT X RANGE”

+ Đánh dấu tick vào mục “Line Fit Plots”: vẽ đồ thị minh họa (hình dưới)

-Kết quả:

+Đồ thị:

Trang 30

“Multiple R “: 0.995588 = Hệ số tương quan.

‘Intercept” = 47,07759 = hệ số A của phương trình hồi quy tuyến tính

“Thời gian( phút ) “= 6.961346 = hệ số B của phương trình hồi quy tuyến tính

Trang 31

Số liệu thu thập:

Ngày đăng: 25/01/2022, 10:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w