Tài liệu tham khảo:...2 PHẦN II: THỰC HÀNH CÁC BÀI TOÁN TRÊN EXCEL...3 Câu 1:Vẽ biểu đồ tần số histogram ; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng.. Trình
Trang 2PHỤ LỤC
PHẦN I: GIỚI THIỆU 2
1 Giới thiệu form khảo sát: 2
2 Đường dẫn đến form khảo sát: 2
3 Tài liệu tham khảo: 2
PHẦN II: THỰC HÀNH CÁC BÀI TOÁN TRÊN EXCEL 3
Câu 1:Vẽ biểu đồ tần số histogram ; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng Nêu nhận xét: 3
Câu 2: Vẽ biểu đồ Pie của 1 biến định tính: 6
Câu 3: (Thống kê mô tả) 8
Câu 4: Kiểm định xem 1 biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không 11
Câu 5: Chọn dữ liệu 2 biến (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập bài toán kiểm định so sánh 2 trung bình tổng thể Trình bày các bước thực hiện và nhận xét kết quả 15
Câu 6: Chọn dữ liệu cho k biến (k3) để lập bài toán so sánh trung bình k tổng thể Trình bày các bước thực hiện và nhận xét 19
Câu 7: Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán 27
Câu 8: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài toán kiểm định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả 33
Câu 9: Khảo sát hệ số tương quan giữa 2 biến cụ thể, dự đoán phương trình đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa) và nhận xét về mối tương quan tuyến tính giữa 2 biến 36
Trang 3PHẦN I: GIỚI THIỆU
1 Giới thiệu form khảo sát:
2 Đường dẫn đến form khảo sát:
https://docs.google.com/forms/d/e/1FAIpQLSdlQu9Dhd8fJuWyGsC55z-eWGciTth6GyNvTwa9a3cJ5POg/viewform
3 Tài liệu tham khảo:
Kiểm định phi tham số - Nguyễn Cao Văn - Trần Thái Ninh
Phân tích phương sai – Nguyễn Cao Văn – Trần Thái Ninh
Phân tích tương quan và hồi quy đơn –Nguyễn Cao Văn – Trần Thái
Ninh
Kiểm định phi tham số - Lý Hoàng Tú – Trần Tuấn Điệp
Trang 4PHẦN II: THỰC HÀNH CÁC BÀI TOÁN TRÊN EXCEL
Câu 1: Vẽ biểu đồ tần số histogram ; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng Nêu nhận xét:
Giải:
Bảng 1 Dữ liệu khảo sát về số giờ dùng cho việc học online trong một tuần của
sinh viên Bách Khoa (kích thước mẫu n= 72)
Nhập dữ liệu vào Excel:
Chia khoảng thời gian mà sinh viên dùng để học online:
Tiến hành tạo bảng tần số và tần số tích lũy dựa theo khoảng chia:
Chọn thẻ Data/Data Analysis/Histogram
Mục Input Range ta quét bảng dữ liệu
Mục Bin Range ta quét cột chia từ A13:A19
Trang 5 Output Range chọn nơi xuất (Tùy ý)
Tick vào thẻ Cumulative Percentage để xuất tần số tích lũy.
Ta được kết quả:
Tiến hành vẽ biểu đồ mật độ tần số:
0-5 5 - 10 10-20 20-30 More 0
Trang 6 Tiến hành vẽ biểu đồ tích lũy tần số:
0-5 5 - 10 10-20 20-30 More 0.00%
Trang 7Câu 2: Vẽ biểu đồ Pie của 1 biến định tính:
- Biến định tính này phản ánh tính chất, sự hơn kém, ta không tính được trị trung bình của dữ liệu dạng định tính.
- Biến định tính được chọn : Bạn thường học online ở đâu?
Bạn thường học online ở đâu? Số lượt chọn
Trang 8- Chọn Insert -> Chart -> Pie để vẽ:
- Kết quả:
Trang 9Câu 3: (Thống kê mô tả)
Ở đây ta chọn biến định lượng chiều cao (tính theo đơn vị cm) của người tham gia khảo sát.
a)Tìm các giá trị ngoại lai outlier.
Bước 1: Sắp xếp giá trị mẫu theo thứ tự tăng dần ( xi ≤ xi+1) bằng công cụ SORT trong tab DATA Ta được dãy tăng dần.
Bước 2: ta đi tìm giá trị của trung vị mẫu (Q2 )
Trong Excell ta dùng hàm MEDIAN(SAS:SAS) tìm được Q2 = 168.5 (cm)
Trang 10Bước 3: Tìm tứ phân vị dưới Q1 và tứ phân vị trên Q3 :
Trong Excell, Q1 = QUARTILE(SAS:SAS,1) = 164
Q3 = QUARTILE(SAS:SAS,3) = 173
Bước 4: Tìm Độ rải giữa IQR = RQ = Q3 – Q1 = 9
Bước 5: Điểm ngoại lai Outlier là các điểm có giá trị nằm ngoài khoảng
(Q1 – 1.5IQR; Q3 + 1.5IQR) = (150.5, 186.5)
Sử dụng hàm IF và OR để lọc ra các điểm ngoại lai Outliers:
IF(OR(SAS < Q1 – 1.5IQR, SAS > Q3 + 1.5IQR), 1, 0)
Ta tìm đc 1 giá trị Outlier = 150.
Đề xuất xử lí Outlier: Chỉ có 1 điểm ngoại lai và giả trị chỉ cách miền không ngoại lai rất
bé = 0.5 cm nên có thể chấp nhận được Hoặc có các cách sau:
- Delete rows containing outlier: Xóa dòng dữ liệu chứa outlier ra khỏi dữ liệu
phân tích Việc này sẽ làm mất một số thông tin trên các cột khác nếu các cột này cần cho phân tích.
- Change value to mean: Các giá trị outlier sẽ được thay bằng giá trị trung bình.
- Change value to null: Xóa giá trị outlier đặt lại là null (empty).
- Change value to specific value: Đổi outlier thành một giá trị cụ thể (do người phân tích, chuyên gia đề xuất).
Trang 11b) Các đặc trưng của mẫu dữ liệu.
Sử dụng công cụ thống kê DATA ANALYSIS trong EXCEL ta tìm đươc các đặc trưng của mẫu dữ liệu chiều cao:
- Trung bình mẫu (Mean) = 167.8913 (cm)
- Sai số chuẩn của trung bình mẫu : SE = 0.6428
- Phương sai mẫu hiệu chỉnh: s2 = 38.0100
- Phương sai mẫu: = = * 38.0100 = 37.5969
Trang 12Câu 4: Kiểm định xem 1 biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không.
Dưới đây là khảo sát cân nặng của sinh viên Với mức ý nghĩa 5% có thể xem
số cân nặng có tuân theo phân phối chuẩn hay không ?
Ta có quy tắc kiểm định như sau:
Tìm χα2 = χα2(k – r – 1) từ bảng phân phối 2, ở đây là tham số của F(x).
Tính thông kê χ02 =
Nếu χ02 <= χα2 thì chấp nhận H
Nếu χ02 > χα2 thì bác bỏ H
Dạng bài: Kiểm định phân phối chuẩn.
Công cụ giải: Hàm NORM.DIST, CHISQ.INV.
Giải quyết bài toán trên Excel:
Trang 14Bước 3: Lập bảng và sử dụng hàm NORM.DIST để tính giá trị quan sát
r là tham số cần ước lượng => r = 2
Sử dụng hàm CHISQ.INV ta tìm được miền bác bỏ Wα= (0.351846 ; +∞)
Bước 5: Biện luận
- Giả thiết H0 : Số cân nặng của sinh viên tuân theo quy luật phân phối chuẩn
- Giả thiết H1 : Số cân nặng của sinh viên tuân không theo quy luật phân phối chuẩn
- Miền bác bỏ : Wα= (0.351846 ; +∞)
Trang 15Bảng thống kê của nhóm về chiều cao của nam và nữ:
Chiều cao của nam
X1 Chiều cao của nữ X2
Trang 17Giả thiết: Chiều cao nam, nữ có giá trị trung bình là ngang nhau
Do cả nam ,nữ có độ tuổi phát triển chiều cao các nhau nên
Trang 18Thực hiện trên Excel:
Nhập bảng số liệu.
Mở Data Analysis chọn t-Test: Two-Sample Assuming Unequal Variances
Bảng số liệu nhập vào: Hộp thoại t-Test: Two-Sample Assuming Unequal
Variances xuất hiện:
Kết quả:
Trang 19Câu 6: Chọn dữ liệu cho k biến (k 3) để lập bài toán so sánh trung bình k tổng thể
Trình bày các bước thực hiện và nhận xét.
Trong khảo sát nhóm đã thực hiện có 93 câu trả lời về địa điểm thường học online bao gồm trường, nhà, quán cà phê Để đánh giá địa điểm học online chủ yếu của các bạn sinh viên, chúng ta dựa vào tiêu chuẩn kiểm định mức độ yêu thích trung bình của các bạn với các địa điểm
Bảng 6.1 là câu trả lời cho mức độ yêu thích của các bạn sinh viên với 3 địa điểm học online, với mức ý nghĩa 5%.
STT Mức độ yêu
Ở trường
Ở quán cafe
Trang 226.1.1 Lý thuyết phân tích phương sai 1 yếu tố.
Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều nhóm dựa trên giá trị trung bình của các mẫu quan sát được từ các nhóm này, thông qua kiểm định giả thiết
để kết luận về sư bằng nhau của các trung bình tổng thể này.
6.1.2 Phương pháp phân tích phương sai 1 yếu tố
Phép phân tích phương sai được dung trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy Đây có thể được xem như phần mở rộng các trắc nghiệm t hay z (so sánh giá trị trung bình).
Mục đích của phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (tự nhiên hoặc nhân tạo) đến các giá trị quan sát, (i=0,0,2,…,k).
Trang 23Giả thiết “ Các giá trị trung bình bằng nhau”.
Giả thiết “Ít nhất có 2 giá trị trung bình khác nhau”
Giá trị thống kê:
6.5 Biện luận
Nếu Chấp nhận giả thiết
6.6 Giải quyết bài toán trên Excel:
Dạng bài: Kiểm định trung bình (bài toán nhiều mẫu)
Phương pháp giải: Phân tích phương sai một yếu tố
Công cụ giải: ANOVA Single Factor
Điều kiện của bài để phân tích phương sai một yếu tố:
Mẫu được chọn một cách ngẫu nhiên và độc lập
Mẫu tuân theo phân phối chuẩn.
Phương sai của mẫu giữa các nhóm nhân tố ít phân tán.
Trang 24Giả sử mẫu được chọn tuân theo phân phối chuẩn:
+ Bước 1: Nhập bảng số liệu:
Hình 6.1: Nhập dữ liệu trong Excel.
+ Bước 2: Sử dụng công cụ “Anova: Single Factor” trong Data/Data Analysis:
Trang 25Hình 6.2: Chọn công cụ Anova: Single Factor.
+Bước 3: Chọn các mục sau:
Input: Địa chỉ chứa dữ liệu.
Label in first row.
Alpha: 0.05 (Mức ý nghĩa 5%)
Output range: nơi xuất kết quả.
6.7 Kết quả
Trang 26Hình 6.3: Kết quả thực hiện trên Excel.
+ Bước 4: Biện luận
Giả thiết : Mức độ yêu thích trung bình của các bạn sinh viên ba các địa điểm học online là như nhau.
Giả thiết Mức độ yêu thích trung bình của các bạn sinh viên với 3 địa điểm học online là khác nhau.
Trang 27Câu 7: Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán.
Trình bày các bước thực hiện và nhận xét kết quả.Để đánh giá việc học online của sinh viên trong lúc nghỉ dịch có phụ thuộc nhiều vào thời gian sử dụng MXH
không Chọn ngẫu nhiên 92 mẫu thời học online và dùng MXH Hãy kiểm định sự phân tán 2 biến đó.
Bảng thống kê của nhóm về khảo sát thói quen sinh hoạt:
Thời gian cho việc học online trong tuần (giờ)
Trang 28Cơ sở lý thuyết:
Ta có 2 tổng thể có ppc với phương sai �12 và
�22 dựa vào hai mẫu được chọn ngẫu nhiên từ hai tổng thể, ta cần kiểm định xem phương
S22 là phương sai của mẫu thứ hai, mẫu này có cỡ n2
Phương pháp kiểm định phương sai tổng thể
Giả thiết kiểm định H0 và giả thiết đối H1
Tiêu chuẩn kiểm định F= S12/S22
Thời gian dùng MXH trong ngày (giờ)
Thời gian cho việc học online trong tuần (giờ)
Trang 29Xác định miền bác bỏ với tùy thuộc vào giá trị F tra bảng.
Dựa vào Tiêu chuẩn Kiểm định và Miền Wα đưa ra kết luận
Dạng bài: Kiểm định phương sai hai tổng thể.
Công cụ giải: F – Test Two Samples for Variances
Giải quyết bài toán trên Excel:
Bước 1: Nhập bảng số liệu
Trang 30Bước 2: Sử dụng công cụ: ‘F – Test Two Samples for Variances’ trong Data/Data Analysis.
Bước 3: Chọn các mục như hình:
▪ Input: địa chỉ tuyệt đối chứa dư liệu.
▪ Output Range: vị trí xuất kết quả.▪ Labels in first row
Trang 31Gọi σ12 và σ22 là 2 phương sai ảnh hưởng của 2 thời gian: thời gian dùng MXH và thời gian học online.
lệch Có nghĩa là sự phân tán về độ ảnh hưởng của 2 thời gian là có sự chênh lệch.
Trang 32Câu 8: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài toán kiểm định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả.
Giải
Cơ sở lý thuyết: Bài toán kiểm định tính độc lập
Xét mẫu có kích thước n, của BNN định tính 2 chiều (X,Y) X nhận các giá trị Y nhận các giá trị
Giả thuyết kiểm định X, Y độc lập
Giả thuyết đối X, Y không độc lập.
Trang 33 Gọi X là biến ngẫu nhiên đặc tính chiều cao Y là biến ngẫu nhiên đặc tính cân nặng Ta sẽ kiểm định xem chiều cao và cân nặng có phụ thuộc lẫn nhau không Với mức ý nghĩa
Giả thuyết Kiểm định “X và Y độc lập”
Giả thuyết đối “X và Y không độc lập”
Lập Bảng tần số lý thuyết
Trang 34 Dùng hàm Chistest để kiểm định tính độc lập:
Giá trị P_value = 2.475x <<
Bác bỏ Chấp nhận
Nhận xét: Ta thấy giá trị P_value rất nhỏ Rất dễ dàng để bác bỏ Như
vậy ta thấy chiều cao và cân nặng phụ thuộc lẫn nhau rất chặt chẽ.
Trang 35Câu 9: Khảo sát hệ số tương quan giữa 2 biến cụ thể, dự đoán phương trình
đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa) và nhận xét về
mối tương quan tuyến tính giữa 2 biến.
Bảng thống kê của nhóm về khảo sát thói quen sinh hoạt:
- Tìm hệ số tương quan giữa X và Y, ở đây là giữa k1 và k2 :
o Cơ sở lí thuyết :
Hệ số tương quan :
Nếu R > 0 thì
X, Y tương quan thuận.
Nếu R < 0 thì
X, Y tương quan nghịch.
Nếu R = 0 thì
X, Y không tương quan.
Nếu | R |= 1 thì
X, Y có quan
hệ hàm bậc nhất.
Nếu | R |→ 1 thì X, Y có tương quan chặt (tương quan mạnh).
Nếu | R |→ 0 thì X, Y có tương quan không chặt (tương quan yếu).
Thời gian cho việc học online trong tuần (giờ)
Thời gian cho việchọc online trong tuần (giờ)
Trang 36o Thực hiện trên Excel :
Nhập dữ liệu vào bảng tính :
Chọn chức năng Data/Data Analysis/Correlation :
o Kết quả :
Thời gian dùng MXH trong ngày (giờ)
Thời gian học online trong tuần (giờ)
Trang 37Thời gian dùng MXH trong ngày (giờ)
1
Thời gian học online trong tuần (giờ)
-Dự đoán phương trình đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa)
o Phương trình hồi quy tuyến tính :
o Kiểm định hệ số a, b :
Giả thiết H0 : Hệ số hồi quy không có ý nghĩa (=0).
H1 : Hệ số hồi quy có ý nghĩa (≠0).
Trắc nghiệm: chấp nhận H0.
o Kiểm định phương trình hồi quy :
Giả thiết H0 : “Phương trình hồi quy tuyến tính không thích hợp”.
H1 : “Phương trình hồi quy tuyến tính thích hợp”.
Trắc nghiệm : chấp nhận H0.
o Thực hiện trên Excel :
Dùng chức năng Data/Data Analysis/Regression.
Trang 39Biện luận:
o Kiểm định đường hồi quy tuyến tính
▪ Giả thiết H0: Phương trình đường hồi quy tuyến tính không thích hợp
▪ Giả thiết H1: Phương trình đường hồi quy tuyến tính thích hợp
▪ Significance F = 0.005288< 0.05 → Bác bỏ H0, chấp nhận H1
o Kiểm định hệ sô a, b có ý nghĩa thống kê (a là hệ số tự do, b là hệ số góc)
▪ Phương trình hồi quy:
▪ Giả thiết H0: a, b không có ý nghĩa thống kê
▪ Giả thiết H1: a, b có ý nghĩa thống kê
▪ P – Value = 0.001105< 0.05 → Bác bỏ H0, chấp nhận H1 Vậy hệ số tự do a có ý nghĩa thống kê.
▪ P – Value = 0.005288< 0.05 → Bác bỏ H0, chấp nhận H1 Vậy hệ số góc b có ý nghĩa thống kê
Kết luận: Phương trình đường hồi quy tuyến tính thích hợp.
Trang 40━━━━━━━━