1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO cáo bài tập lớn xác SUẤT THỐNG kê

40 35 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 2,75 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tài liệu tham khảo:...2 PHẦN II: THỰC HÀNH CÁC BÀI TOÁN TRÊN EXCEL...3 Câu 1:Vẽ biểu đồ tần số histogram ; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng.. Trình

Trang 2

PHỤ LỤC

PHẦN I: GIỚI THIỆU 2

1 Giới thiệu form khảo sát: 2

2 Đường dẫn đến form khảo sát: 2

3 Tài liệu tham khảo: 2

PHẦN II: THỰC HÀNH CÁC BÀI TOÁN TRÊN EXCEL 3

Câu 1:Vẽ biểu đồ tần số histogram ; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng Nêu nhận xét: 3

Câu 2: Vẽ biểu đồ Pie của 1 biến định tính: 6

Câu 3: (Thống kê mô tả) 8

Câu 4: Kiểm định xem 1 biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không 11

Câu 5: Chọn dữ liệu 2 biến (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập bài toán kiểm định so sánh 2 trung bình tổng thể Trình bày các bước thực hiện và nhận xét kết quả 15

Câu 6: Chọn dữ liệu cho k biến (k3) để lập bài toán so sánh trung bình k tổng thể Trình bày các bước thực hiện và nhận xét 19

Câu 7: Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán 27

Câu 8: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài toán kiểm định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả 33

Câu 9: Khảo sát hệ số tương quan giữa 2 biến cụ thể, dự đoán phương trình đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa) và nhận xét về mối tương quan tuyến tính giữa 2 biến 36

Trang 3

PHẦN I: GIỚI THIỆU

1 Giới thiệu form khảo sát:

2 Đường dẫn đến form khảo sát:

https://docs.google.com/forms/d/e/1FAIpQLSdlQu9Dhd8fJuWyGsC55z-eWGciTth6GyNvTwa9a3cJ5POg/viewform

3 Tài liệu tham khảo:

Kiểm định phi tham số - Nguyễn Cao Văn - Trần Thái Ninh

Phân tích phương sai – Nguyễn Cao Văn – Trần Thái Ninh

Phân tích tương quan và hồi quy đơn –Nguyễn Cao Văn – Trần Thái

Ninh

Kiểm định phi tham số - Lý Hoàng Tú – Trần Tuấn Điệp

Trang 4

PHẦN II: THỰC HÀNH CÁC BÀI TOÁN TRÊN EXCEL

Câu 1: Vẽ biểu đồ tần số histogram ; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng Nêu nhận xét:

Giải:

Bảng 1 Dữ liệu khảo sát về số giờ dùng cho việc học online trong một tuần của

sinh viên Bách Khoa (kích thước mẫu n= 72)

 Nhập dữ liệu vào Excel:

 Chia khoảng thời gian mà sinh viên dùng để học online:

 Tiến hành tạo bảng tần số và tần số tích lũy dựa theo khoảng chia:

 Chọn thẻ Data/Data Analysis/Histogram

 Mục Input Range ta quét bảng dữ liệu

 Mục Bin Range ta quét cột chia từ A13:A19

Trang 5

 Output Range chọn nơi xuất (Tùy ý)

 Tick vào thẻ Cumulative Percentage để xuất tần số tích lũy.

 Ta được kết quả:

 Tiến hành vẽ biểu đồ mật độ tần số:

0-5 5 - 10 10-20 20-30 More 0

Trang 6

 Tiến hành vẽ biểu đồ tích lũy tần số:

0-5 5 - 10 10-20 20-30 More 0.00%

Trang 7

Câu 2: Vẽ biểu đồ Pie của 1 biến định tính:

- Biến định tính này phản ánh tính chất, sự hơn kém, ta không tính được trị trung bình của dữ liệu dạng định tính.

- Biến định tính được chọn : Bạn thường học online ở đâu?

Bạn thường học online ở đâu? Số lượt chọn

Trang 8

- Chọn Insert -> Chart -> Pie để vẽ:

- Kết quả:

Trang 9

Câu 3: (Thống kê mô tả)

Ở đây ta chọn biến định lượng chiều cao (tính theo đơn vị cm) của người tham gia khảo sát.

a)Tìm các giá trị ngoại lai outlier.

Bước 1: Sắp xếp giá trị mẫu theo thứ tự tăng dần ( xi ≤ xi+1) bằng công cụ SORT trong tab DATA Ta được dãy tăng dần.

Bước 2: ta đi tìm giá trị của trung vị mẫu (Q2 )

Trong Excell ta dùng hàm MEDIAN(SAS:SAS) tìm được Q2 = 168.5 (cm)

Trang 10

Bước 3: Tìm tứ phân vị dưới Q1 và tứ phân vị trên Q3 :

Trong Excell, Q1 = QUARTILE(SAS:SAS,1) = 164

Q3 = QUARTILE(SAS:SAS,3) = 173

Bước 4: Tìm Độ rải giữa IQR = RQ = Q3 – Q1 = 9

Bước 5: Điểm ngoại lai Outlier là các điểm có giá trị nằm ngoài khoảng

(Q1 – 1.5IQR; Q3 + 1.5IQR) = (150.5, 186.5)

Sử dụng hàm IF và OR để lọc ra các điểm ngoại lai Outliers:

IF(OR(SAS < Q1 – 1.5IQR, SAS > Q3 + 1.5IQR), 1, 0)

Ta tìm đc 1 giá trị Outlier = 150.

Đề xuất xử lí Outlier: Chỉ có 1 điểm ngoại lai và giả trị chỉ cách miền không ngoại lai rất

bé = 0.5 cm nên có thể chấp nhận được Hoặc có các cách sau:

- Delete rows containing outlier: Xóa dòng dữ liệu chứa outlier ra khỏi dữ liệu

phân tích Việc này sẽ làm mất một số thông tin trên các cột khác nếu các cột này cần cho phân tích.

- Change value to mean: Các giá trị outlier sẽ được thay bằng giá trị trung bình.

- Change value to null: Xóa giá trị outlier đặt lại là null (empty).

- Change value to specific value: Đổi outlier thành một giá trị cụ thể (do người phân tích, chuyên gia đề xuất).

Trang 11

b) Các đặc trưng của mẫu dữ liệu.

Sử dụng công cụ thống kê DATA ANALYSIS trong EXCEL ta tìm đươc các đặc trưng của mẫu dữ liệu chiều cao:

- Trung bình mẫu (Mean) = 167.8913 (cm)

- Sai số chuẩn của trung bình mẫu : SE = 0.6428

- Phương sai mẫu hiệu chỉnh: s2 = 38.0100

- Phương sai mẫu: = = * 38.0100 = 37.5969

Trang 12

Câu 4: Kiểm định xem 1 biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không.

Dưới đây là khảo sát cân nặng của sinh viên Với mức ý nghĩa 5% có thể xem

số cân nặng có tuân theo phân phối chuẩn hay không ?

Ta có quy tắc kiểm định như sau:

Tìm χα2 = χα2(k – r – 1) từ bảng phân phối 2, ở đây là tham số của F(x).

Tính thông kê χ02 =

Nếu χ02 <= χα2 thì chấp nhận H

Nếu χ02 > χα2 thì bác bỏ H

Dạng bài: Kiểm định phân phối chuẩn.

Công cụ giải: Hàm NORM.DIST, CHISQ.INV.

Giải quyết bài toán trên Excel:

Trang 14

Bước 3: Lập bảng và sử dụng hàm NORM.DIST để tính giá trị quan sát

 r là tham số cần ước lượng => r = 2

Sử dụng hàm CHISQ.INV ta tìm được miền bác bỏ Wα= (0.351846 ; +∞)

Bước 5: Biện luận

- Giả thiết H0 : Số cân nặng của sinh viên tuân theo quy luật phân phối chuẩn

- Giả thiết H1 : Số cân nặng của sinh viên tuân không theo quy luật phân phối chuẩn

- Miền bác bỏ : Wα= (0.351846 ; +∞)

Trang 15

Bảng thống kê của nhóm về chiều cao của nam và nữ:

Chiều cao của nam

X1 Chiều cao của nữ X2

Trang 17

Giả thiết: Chiều cao nam, nữ có giá trị trung bình là ngang nhau

Do cả nam ,nữ có độ tuổi phát triển chiều cao các nhau nên

Trang 18

Thực hiện trên Excel:

 Nhập bảng số liệu.

 Mở Data Analysis chọn t-Test: Two-Sample Assuming Unequal Variances

 Bảng số liệu nhập vào: Hộp thoại t-Test: Two-Sample Assuming Unequal

Variances xuất hiện:

 Kết quả:

Trang 19

Câu 6: Chọn dữ liệu cho k biến (k 3) để lập bài toán so sánh trung bình k tổng thể

Trình bày các bước thực hiện và nhận xét.

Trong khảo sát nhóm đã thực hiện có 93 câu trả lời về địa điểm thường học online bao gồm trường, nhà, quán cà phê Để đánh giá địa điểm học online chủ yếu của các bạn sinh viên, chúng ta dựa vào tiêu chuẩn kiểm định mức độ yêu thích trung bình của các bạn với các địa điểm

Bảng 6.1 là câu trả lời cho mức độ yêu thích của các bạn sinh viên với 3 địa điểm học online, với mức ý nghĩa 5%.

STT Mức độ yêu

Ở trường

Ở quán cafe

Trang 22

6.1.1 Lý thuyết phân tích phương sai 1 yếu tố.

Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều nhóm dựa trên giá trị trung bình của các mẫu quan sát được từ các nhóm này, thông qua kiểm định giả thiết

để kết luận về sư bằng nhau của các trung bình tổng thể này.

6.1.2 Phương pháp phân tích phương sai 1 yếu tố

Phép phân tích phương sai được dung trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy Đây có thể được xem như phần mở rộng các trắc nghiệm t hay z (so sánh giá trị trung bình).

Mục đích của phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (tự nhiên hoặc nhân tạo) đến các giá trị quan sát, (i=0,0,2,…,k).

Trang 23

Giả thiết “ Các giá trị trung bình bằng nhau”.

Giả thiết “Ít nhất có 2 giá trị trung bình khác nhau”

Giá trị thống kê:

6.5 Biện luận

Nếu Chấp nhận giả thiết

6.6 Giải quyết bài toán trên Excel:

Dạng bài: Kiểm định trung bình (bài toán nhiều mẫu)

Phương pháp giải: Phân tích phương sai một yếu tố

Công cụ giải: ANOVA Single Factor

Điều kiện của bài để phân tích phương sai một yếu tố:

 Mẫu được chọn một cách ngẫu nhiên và độc lập

 Mẫu tuân theo phân phối chuẩn.

 Phương sai của mẫu giữa các nhóm nhân tố ít phân tán.

Trang 24

Giả sử mẫu được chọn tuân theo phân phối chuẩn:

+ Bước 1: Nhập bảng số liệu:

Hình 6.1: Nhập dữ liệu trong Excel.

+ Bước 2: Sử dụng công cụ “Anova: Single Factor” trong Data/Data Analysis:

Trang 25

Hình 6.2: Chọn công cụ Anova: Single Factor.

+Bước 3: Chọn các mục sau:

 Input: Địa chỉ chứa dữ liệu.

 Label in first row.

 Alpha: 0.05 (Mức ý nghĩa 5%)

 Output range: nơi xuất kết quả.

6.7 Kết quả

Trang 26

Hình 6.3: Kết quả thực hiện trên Excel.

+ Bước 4: Biện luận

Giả thiết : Mức độ yêu thích trung bình của các bạn sinh viên ba các địa điểm học online là như nhau.

Giả thiết Mức độ yêu thích trung bình của các bạn sinh viên với 3 địa điểm học online là khác nhau.

Trang 27

Câu 7: Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán.

Trình bày các bước thực hiện và nhận xét kết quả.Để đánh giá việc học online của sinh viên trong lúc nghỉ dịch có phụ thuộc nhiều vào thời gian sử dụng MXH

không Chọn ngẫu nhiên 92 mẫu thời học online và dùng MXH Hãy kiểm định sự phân tán 2 biến đó.

Bảng thống kê của nhóm về khảo sát thói quen sinh hoạt:

Thời gian cho việc học online trong tuần (giờ)

Trang 28

Cơ sở lý thuyết:

Ta có 2 tổng thể có ppc với phương sai 12 và

22 dựa vào hai mẫu được chọn ngẫu nhiên từ hai tổng thể, ta cần kiểm định xem phương

S22 là phương sai của mẫu thứ hai, mẫu này có cỡ n2

 Phương pháp kiểm định phương sai tổng thể

Giả thiết kiểm định H0 và giả thiết đối H1

Tiêu chuẩn kiểm định F= S12/S22

Thời gian dùng MXH trong ngày (giờ)

Thời gian cho việc học online trong tuần (giờ)

Trang 29

Xác định miền bác bỏ với tùy thuộc vào giá trị F tra bảng.

Dựa vào Tiêu chuẩn Kiểm định và Miền Wα đưa ra kết luận

Dạng bài: Kiểm định phương sai hai tổng thể.

Công cụ giải: F – Test Two Samples for Variances

 Giải quyết bài toán trên Excel:

Bước 1: Nhập bảng số liệu

Trang 30

Bước 2: Sử dụng công cụ: ‘F – Test Two Samples for Variances’ trong Data/Data Analysis.

Bước 3: Chọn các mục như hình:

▪ Input: địa chỉ tuyệt đối chứa dư liệu.

▪ Output Range: vị trí xuất kết quả.▪ Labels in first row

Trang 31

Gọi σ12 và σ22 là 2 phương sai ảnh hưởng của 2 thời gian: thời gian dùng MXH và thời gian học online.

lệch Có nghĩa là sự phân tán về độ ảnh hưởng của 2 thời gian là có sự chênh lệch.

Trang 32

Câu 8: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài toán kiểm định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả.

Giải

Cơ sở lý thuyết: Bài toán kiểm định tính độc lập

 Xét mẫu có kích thước n, của BNN định tính 2 chiều (X,Y) X nhận các giá trị Y nhận các giá trị

 Giả thuyết kiểm định X, Y độc lập

 Giả thuyết đối X, Y không độc lập.

Trang 33

 Gọi X là biến ngẫu nhiên đặc tính chiều cao Y là biến ngẫu nhiên đặc tính cân nặng Ta sẽ kiểm định xem chiều cao và cân nặng có phụ thuộc lẫn nhau không Với mức ý nghĩa

 Giả thuyết Kiểm định “X và Y độc lập”

 Giả thuyết đối “X và Y không độc lập”

 Lập Bảng tần số lý thuyết

Trang 34

 Dùng hàm Chistest để kiểm định tính độc lập:

Giá trị P_value = 2.475x <<

 Bác bỏ Chấp nhận

Nhận xét: Ta thấy giá trị P_value rất nhỏ Rất dễ dàng để bác bỏ Như

vậy ta thấy chiều cao và cân nặng phụ thuộc lẫn nhau rất chặt chẽ.

Trang 35

Câu 9: Khảo sát hệ số tương quan giữa 2 biến cụ thể, dự đoán phương trình

đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa) và nhận xét về

mối tương quan tuyến tính giữa 2 biến.

Bảng thống kê của nhóm về khảo sát thói quen sinh hoạt:

- Tìm hệ số tương quan giữa X và Y, ở đây là giữa k1 và k2 :

o Cơ sở lí thuyết :

Hệ số tương quan :

 Nếu R > 0 thì

X, Y tương quan thuận.

 Nếu R < 0 thì

X, Y tương quan nghịch.

 Nếu R = 0 thì

X, Y không tương quan.

 Nếu | R |= 1 thì

X, Y có quan

hệ hàm bậc nhất.

 Nếu | R |→ 1 thì X, Y có tương quan chặt (tương quan mạnh).

 Nếu | R |→ 0 thì X, Y có tương quan không chặt (tương quan yếu).

Thời gian cho việc học online trong tuần (giờ)

Thời gian cho việchọc online trong tuần (giờ)

Trang 36

o Thực hiện trên Excel :

Nhập dữ liệu vào bảng tính :

Chọn chức năng Data/Data Analysis/Correlation :

o Kết quả :

Thời gian dùng MXH trong ngày (giờ)

Thời gian học online trong tuần (giờ)

Trang 37

Thời gian dùng MXH trong ngày (giờ)

1

Thời gian học online trong tuần (giờ)

-Dự đoán phương trình đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa)

o Phương trình hồi quy tuyến tính :

o Kiểm định hệ số a, b :

Giả thiết H0 : Hệ số hồi quy không có ý nghĩa (=0).

H1 : Hệ số hồi quy có ý nghĩa (≠0).

Trắc nghiệm: chấp nhận H0.

o Kiểm định phương trình hồi quy :

Giả thiết H0 : “Phương trình hồi quy tuyến tính không thích hợp”.

H1 : “Phương trình hồi quy tuyến tính thích hợp”.

Trắc nghiệm : chấp nhận H0.

o Thực hiện trên Excel :

Dùng chức năng Data/Data Analysis/Regression.

Trang 39

Biện luận:

o Kiểm định đường hồi quy tuyến tính

▪ Giả thiết H0: Phương trình đường hồi quy tuyến tính không thích hợp

▪ Giả thiết H1: Phương trình đường hồi quy tuyến tính thích hợp

▪ Significance F = 0.005288< 0.05 → Bác bỏ H0, chấp nhận H1

o Kiểm định hệ sô a, b có ý nghĩa thống kê (a là hệ số tự do, b là hệ số góc)

▪ Phương trình hồi quy:

▪ Giả thiết H0: a, b không có ý nghĩa thống kê

▪ Giả thiết H1: a, b có ý nghĩa thống kê

▪ P – Value = 0.001105< 0.05 → Bác bỏ H0, chấp nhận H1 Vậy hệ số tự do a có ý nghĩa thống kê.

▪ P – Value = 0.005288< 0.05 → Bác bỏ H0, chấp nhận H1 Vậy hệ số góc b có ý nghĩa thống kê

 Kết luận: Phương trình đường hồi quy tuyến tính thích hợp.

Trang 40

━━━━━━━━

Ngày đăng: 03/08/2021, 07:03

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w