Trình bày các bước thực hiện và nhận xét...25 Câu 7: Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán.. Trình bày các bước thực hiện và nhận xét kết quả...30 Câu
Trang 1cĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Giảng viên hướng dẫn: ThS Nguyễn Kiều Dung
Nhóm sinh viên thực hiện: 5 – L09
Ký tên thamdự1
Nguyễn Hoàng Anh Vũ
Nguyễn Trương Giang
Lê Huỳnh Ái Trân
Trần Thị Tuyết
Nguyễn Tiến Phát
1711482181335318148141810901181441818146391712572
L09L09L09L09L09L09L09
Cơ điện tửXây dựngĐiện – Điện tửĐiện – Điện tửLogistics và Quản
lí chuỗi cung ứngKhoa học máy tính
Trang 2MỤC LỤ
C
ĐỀ TÀI 1
Câu 1: Vẽ biểu đồ histogram; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng Nêu nhận xét 1
Câu 2: Vẽ biểu đồ Pie của một biến định tính 7
Câu 3 Chọn một biến định lượng nào đó và thực hiện: 9
Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý 9
Tìm các đặc trưng từ mẫu dữ liệu 9
Câu 4: Kiểm định xem một biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không 14
Câu 5: Chọn dữ liệu 2 biến để lập bài toán kiểm định so sánh 2 trung bình tổng thể Trình bày các bước thực hiện và nhận xét kết quả 20
Câu 6 Chọn dữ liệu cho k biến (k 3) để lập bài toán so sánh về trung bình Trình bày các bước thực hiện và nhận xét 25
Câu 7: Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán Trình bày các bước thực hiện và nhận xét kết quả 30
Câu 8: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài toán kiểm định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả 35
Câu 9: Khảo sát hệ số tương quan giữa 2 biến cụ thể, dự đoán phương trình đường hồi quy tuyến tính giữa chúng (có hình vẽ minh họa) và nhận xét về mối tương quan giữa 2 biến 40
Câu 10: Chọn ra k biến ( k >= 3) và xem xét có thể lập mô hình hồi quy tuyến tính đa biến giữa chúng hay không 50
Trang 4ĐỀ TÀI NGHIÊN CỨU MỐI LIÊN QUAN GIỮA MỘT SỐ THÔNG SỐ
CỦA BỆNH NHÂN VỚI BỆNH TIM MẠCH
Bệnh Tim mạch là bệnh lý về tim và mạch máu bao gồm: tăng huyết áp, rối loạnnhịp tim, bệnh động mạch vành, bệnh van tim, suy tim, xơ vữa động mạch, đột quỵ…Bệnh Tim mạch là nguyên nhân hàng đầu gây tử vong trên thế giới Mỗi năm, bệnh Timmạch gây ra cho hơn 17,5 triệu cái chết và dự đoán sẽ có khoảng 25 triệu người bị bệnhTim mạch tử vong vào năm 2020
Với mục đích tìm thấy bất kỳ xu hướng nào khác các triệu chứng trong dữ liệu vềtim của bệnh nhân để dự đoán các sự kiện tim mạch nhất định hoặc tìm thấy bất kỳ dấuhiệu rõ ràng nào về sức khỏe của tim, đề tài “Nghiên cứu mối liên quan giữa một số thông
số của bệnh nhân với bệnh tim mạch” đã được thực hiện với cơ sở dữ liệu của Cleveland.Nghiên cứu được thực hiện trên 300 đối tượng từ độ tuổi 30 tới 80 với 14 loại thôngtin Để phù hợp với bài tập lớn, nhóm chúng em đã chọn ra 8 loại của 150 đối tượng (gồmcó: độ tuổi, giới tính, loại đau ngực, huyết áp lúc nghĩ ngơi, chỉ số Cholesterol, chỉ sốđường huyết, nhịp tim tối đa, đoạn ST giảm xuống gây ra khi tập thể dục tương đối vớilúc nghỉ trong điện tâm đồ) cho việc thống kê và đánh giá
https://www.kaggle.com/ronitf/heart-disease-uci
Những người thực hiện thí nghiệm:
1 Viện Tim mạch Hungary Budapest: Andras Janosi, M.D
2 Bệnh viện Đại học, Zurich, Thụy Sĩ: William Steinbrunn, M.D
3 Bệnh viện Đại học, Basel, Thụy Sĩ: Matthias Pfisterer, M.D
4 V.A Trung tâm y tế, Long Beach và Tổ chức phòng khám Cleveland: Robert Detrano,M.D., Ph.D
1
Trang 6Câu 1: Vẽ biểu đồ histogram; biểu đồ mật độ tần số; biểu đồ tích lũy tần số của một biến định lượng Nêu nhận xét.
Bài làm
Dạng bài: Thống kê mô tả
Chọn dữ liệu
Bảng dữ liệu về bệnh tim (A)
Thực hiện phương pháp phân tổ dữ liệu (A)
Nhập dữ liệu (A) vào Excel
Chọn biến định lượng để vẽ biểu đồ: Chỉ số Cholesterol (E1-E151)
1
Trang 7 Xác định số tổ cần chia:
+ Chọn ô A7 nhập vào biểu thức: =(2*COUNT(E2:E151))^(1/3)
+ Kết quả: k = 6.6943
+ Chọn k = 7
Xác định trị số khoảng cách h theo công thức:
+ Chọn ô A8 nhập vào biểu thức: =(MAX(E2:E151)-MIN(E2:E151))/7
Chọn chức năng Data → Data Analysis → Histogram
Input Range: địa chỉ tuyệt đối chứa dữ liệu
Bin Range: địa chỉ chứa bảng phân nhóm
Output Range: vị trí xuất kết quả
Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tínhtần suất
Trang 10 Biểu đồ mật độ: là hình chữ nhật cho mỗi tổ với đáy là khoảng cách tổ và chiều cao
Trang 12Câu 2: Vẽ biểu đồ Pie của một biến định tính.
Bài làm
Dạng bài: Thống kê mô tả
Chọn biến định tính trong dữ liệu (A): Giới tính (B2;B151)
Vẽ biểu đồ tròn thể hiện tỉ lệ giữa con trai và con gái:
Quét chọn cột (B2:B151)
Dùng chức năng Insert pie
Kết quả thu được
7
Trang 1345%
BIỂU ĐỒ TỈ LỆ NAM NỮ
Trang 14Câu 3 Chọn một biến định lượng nào đó và thực hiện:
Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý
Tìm các đặc trưng từ mẫu dữ liệu.
Ý một: Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý:
Giới thiệu: Giá trị ngoại lại (Outlier) có ảnh hưởng lớn đến độ chính xác của các môhình dự đoán Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quátrình chuẩn bị dữ liệu cho mô hình dự đoán
Phương pháp xử lý: Dùng Quartile để tìm các giá trị ngoại lai
Hàm QUARTILE có dạng: QUARTILE(array,quart), với:
Array: Là list các giá trị trong một colunm
Quart: Các option để lựa chọn cho phù hợp với mục đích tính toán
Quá trình xử lý: Chọn biến Đoạn ST giảm điện tâm đồ trong bảng dữ liệu để khảosát
+ Q1: Tứ phân vị thứ nhất( là phân vị thứ 25)
+ Q3: Tứ phân vị thứ ba ( là phân vị thứ 75)
+ IQR: Là độ rộng từ giá trị Q1 đến Q3 Tình bằng: IQR = Q3-Q1
+ Lower Bound = Q1 – (1.5*IQR) : Biên dưới của miền dữ liệu, công thức được xácđịnh dựa theo định nghĩa trong thống kê
+ Uppon Bound = Q3 + (1.5*IQR): Biên trên của miền dữ liệu
9
Trang 15Giá trị ngoại lai (Oulier) được xác định khi (Values > Uppon Bound || Values <Lower Bound) là TRUE.
Cuối cùng, dùng hàm COUNTIF([dữ liệu cột Outlier],TRUE) để đếm xem có baonhiêu giá trị ngoại lai xuất hiện
Kết quả:
Đề xuất xử lý giá trị ngoại lại (Outlier)
Xóa dòng dữ liệu chưa outlier ra khỏi dữ liệu phân tích Việc này sẽ làm mất một
số thông tin trên các cột khác nếu cần phân tích
Các giá trị outlier sẽ thay bằng giá trị trung bình của dữ liệu
Xóa các giá trị outlier và đặt lại là NULL(empty)
Đổi outlier thành một giá trị cụ thể(do người phân tích, chuyên gia đề xuất)
Trang 17Ý hai: Tìm các đặc trưng từ mẫu dữ liệu
Giới thiệu: Mẫu dữ liệu bao gồm một số đặc trưng như: Giá trị trung bình, phươngsai, độ lệch chuẩn, Tính toán các giá trị đặc trưng của mẫu là công việc cần thiếtnhất trong phân tích số liệu ở thống kê
Phương pháp: Tại phần mềm Excel, chức năng Descriptive Statistics hổ trợ trongviệc tính toán các giá trị đặc trưng của mẫu Để mở chức năng này trong Excel, thựchiện các bước: Data -> Data Analysis -> Hộp option xuất hiện, chọn DescriptiveStatistics rồi nhấn OK
Quá trình xử lý: Chọn biến Đoạn ST giảm điện tâm đồ trong bảng dữ liệu để thực hiện tính toán các giá trị đặc trưng
Tại Input Range trong Descriptive Statistics ta nhập độ rộng của column dữ liệu
Trang 18Option: chọn Summary statistics
Kết quả: Sau khi nhập giá trị tại Input Range và nhấn OK, kết quả cho được như sau:
Statistic Describle
Mean Giá trị trung bình của mẫu dữ liệu
Standard Error Giá trị sai số tiêu chuẩn của mẫu (thước đo khác nhau giữa dự đoán
và thực tế)Median Trung vị của mẫu dữ liệu
Standard
Deviation
Độ lệch chuẩn
13
Trang 19Sample
Variance
Phương sai
Kurtosis Giá trị KURT
Skewness Giá trị SKEW
Minimum Giá trị nhỏ nhất
Maximum Giá trị lớn nhất
Sum Tổng giá trị các phần tử của mẫu dữ liệu
Count Tổng số lượng các phần tử của mẫu
Trang 20Câu 4: Kiểm định xem một biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không.
Cơ sở lý thuyết:
Bài toán: Giả sử đại lượng ngẫu nhiên X chưa rõ phân phối Cho một mẫu có kích
thước n Hãy kiểm định giả thuyết:
Ta có quy tắc kiểm định như sau:
Bước 1: Tìm X2α (k-r-1) từ bảng phân phối X2 , ở đây r là số tham số của F(x)
Trang 21- Trường hợp X là đại lượng ngẫu nhiên liên tục:
Viết lại mẫu đã cho dưới bảng:
x i n i
(-∞ ; a1)(a1;a2¿(a2;a3¿
Ta có quy tắc kiểm định như sau:
Bước 1: Tìm X2α = X2α(k-r-1) từ bảng phân phối X2, ở đây là tham số của F(x)
Thực hiện câu hỏi
Ở bài này, ta dùng biến Huyết áp lúc nghỉ ngơi (tạm gọi là A) để kiểm định dạng phânphối
Để thuận tiện cho việc kiểm định, đầu tiên ta phân tổ dữ liệu:
Trang 22+ Xác định khoảng cách h theo công thức:
Nhập biểu thức vào Excel: =(MAX(D2:D151)-MIN(D2:D151))/7
Kết quả: 12,2857
Chọn h = 13
Dùng chức năng Data/Data Analysis/Histogram
Và kết quả cho được như sau:
17
Trang 23Kiểm định A: Với mức ý nghĩa 5%, có thể coi mẫu A phù hợp với phân phối chuẩn
hay không?
Giả thuyết kiểm định : Mẫu phù hợp với phân phối chuẩn
Giả thuyết kiểm định : Mẫu không phù hợp với phân phối chuẩn
Tính các đặc trưng của mẫu :
+ Kích thước mẫu: n = 150
+ Trung bình mẫu: = 128.8267 (Dùng lệnh: =AVERAGE(D2:D151)
+ Độ lệch mẫu: ^s = 16.16323 (Dùng lệnh =STDEV.P(D2:D151))
+ là ước lượng hợp lý cực đại cho a → a = 128.8267
+ ^s2 là ước lượng hợp lý cực đại choσ2 → σ= 16.16323
Nếu X có phân phối chuẩn thì X ~ N(128.8267;(16.16)2)
Trang 24 Số tham số của phân phối chuẩn là r = 2, nên:
Với k = 8, r = 2=> X2α = X20.05 (7−2−1) = 9.487729 (Excel =CHIINV(0.05,4))
Miền bác bỏ W α = (9.487729 ; +∞)
19
Trang 26Câu 5: Chọn dữ liệu 2 biến để lập bài toán kiểm định so sánh 2 trung bình tổng thể Trình bày các bước thực hiện và nhận xét kết quả.
Nhập dữ liệu: chọn chỉ số Cholesterol giữa nam và nữ.
Với mức ý nghĩa , so sánh chỉ số Cholesterol trung bình giữa nam và nữ
Bài làm
Dạng bài: Kiểm định giả thuyết trung bình (bài toán hai mẫu).
Phương pháp giải: So sánh trung bình 2 tổng thể với phương sai biết trước (N >
30)
Cơ sở lý thuyết:
21
Trang 27Giả sử tổng thể I có trung bình ; tổng thể II có trung bình Từ tổng thể I có
mẫu kích thước , trung bình mẫu ;phương sai mẫu hiệu chỉnh Từ tổng thể II cómẫu kích thước , trung bình mẫu , phương sai mẫu hiệu chỉnh Vì mẫu lớn (N >30) nên phương sai của mẫu được xem là phương sai của tổng thể Khi ấy, ta
áp dùng trắc nghiệm z để so sánh giá trị trung bình của hai mẫu với phương sai biết trước
Giả thuyết: H0: “Chỉ số Cholesterol trung bình của nam và nữ là như nhau”
H1: “Chỉ số Cholesterol trung bình của nam và nữ là khác nhau”
Kích thước mẫu lớn (N > 30) nên ta xem chỉ số Cholesterol của nam và nữ làphân phối chuẩn
Giá trị thống kê:
Miền bác bỏ:
Công cụ giải: Descriptive Statistics và z-Test: Two Sample for Means.
Quy trình thực hiện excel:
Bước 1: Đầu tiên, ta sử dụng công cụ Descriptive Statistics trong Data/Data Analysis lầnlượt tìm các đặc trưng cho 2 mẫu
Bước 2: Chọn các mục như trong ảnh:
Trang 28+ Input: Phạm vi đầu vào.
+ Group By: Cách sắp xếp theo hang hay cột
+ Output Range: Phạm vi đầu ra
+ Labels in first row: Nhãn dữ liệu
+ Summary statistics: Kết quả tóm tắt
+ Confidence Level for Mean: Mức tin cậy 95%
Ta được kết quả:
Xác định phương sai mẫu của nam và nữ:
23
Trang 29Bước 3: Tiếp theo, ta sử dụng công cụ “z-Test: Two Sample for Means” trong Data/ DataAnalysis để so sánh trung bình hai tổng thể.
Bước 4: Chọn các mục như trong ảnh:
+ Input: Phạm vi đầu vào
+ Output Range: Phạm vi đầu ra
+ Variable 1 Variance (known): 1432.1
+ Variable 2 Variance (known): 4347.16
Trang 30Kết luận: Bác bỏ H0 Chấp nhận H1 Vậy chỉ số Cholesterol trung bình của nam và
nữ là khác nhau
25
Trang 31Câu 6 Chọn dữ liệu cho k biến (k 3) để lập bài toán so sánh về trung bình Trình bày các bước thực hiện và nhận xét.
Mẫu dữ liệu thu thập được ta thấy có rất nhiều thông số Dưới đây là 3 thông số nhóm em chọn ra để thực hành cho bài toán này Với mức ý nghĩa là 5%
Cơ sở lý thuyết:
▪ Lý thuyết phân tích phương sai
Phép phân tích phương sai là so sánh trung bình của 2 hay nhiều nhóm dựa trêncác giá trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm địnhgiả thiết để kết luận về sự bằng nhau của các trung bình tổng thể này
▪ Phương pháp phân tích phương sai 1 yếu tố
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trịtrung bình của hai hay nhiều mẫu được lấy từ các phân số Đây có thể được xem nhưphần mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình).Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng củamột yếu tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k)
Trang 32Tổng số bình phương
Bình phương trung
bình
Giá trị thống kê
H 0 : “Các giá trị trung bình bằng nhau”
H 1 : “Ít nhất có hai giá trị trung bình bằng nhau”
Giá trị thống kê:
Biện luận: Nếu → Chấp nhận giả thuyết H0
Điều kiện để áp dụng bài toán phân tích phương sai 1 yếu tố:
– Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên
– Các nhóm so sánh phải có phân phối chuẩn hoặc cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn
– Phương sai của các nhóm so sánh phải đồng nhất
Dạng bài: Kiểm định trung bình (Bài toán nhiều mẫu)
Phương pháp giải: Phân tích phương sai 1 yếu tố.
27
Trang 33Công cụ giải: Anova: Single Factor
Giải quyết bài toán trên Excel:
Giả thuyết: H0:a1 = a2 = a3 “Các giá trị trung bình bằng nhau” (chọn k = 3)
H1: ai = aj “Tồn tại ít nhất hai giá trị trung bình khác nhau” ; i, j € {1,2,3}
Nhịp tim tối đa
Trang 34Bước 3: Trong hộp thoại Anova:Single Factor lần lượt chọn:
+ Input Range (Phạm vi đầu vào): Nhấp chuột và kéo vùng dữ liệu muốn tính toán.+ Columns/Rows: Sắp xếp dữ liệu theo cột hay hàng
+ Labels in Fisrt Row/Column: Nhãn dữ liệu
+ Alpha: Mức ý nghĩa
+ Output Options: Tùy chọn đầu ra
Xuất kết quả ra Excel:
29
Trang 35Bước 4: Biện luận:
Giá trị quan sát: F = 465,021 > Giá trị ngưỡng F crit = 3,016
→ Bác bỏ giả thuyết H0 , Chấp nhận H1
Kết luận: Vậy trung bình các tổng thể là khác nhau.
Trang 36Câu 7: Chọn dữ liệu cho 2 biến để lập bài toán kiểm định so sánh về sự phân tán Trình bày các bước thực hiện và nhận xét kết quả.
Khảo sát huyết áp lúc nghỉ ngơi của nam và nữ từ 40 – 50 tuổi, người ta có bảng số liệusau:
Với mức ý nghĩa là 5% hãy so sánh mức độ phân tán về huyết áp khi nghỉ ngơi của nam
và nữ Giả thiết hàm lượng này phân bố theo quy luật chuẩn
Bài làm
Cơ sở lý thuyết:
Lý thuyết kiểm định phương sai hai tổng thể
Khi cần kiểm định hai tổng thể có mức độ đồng đều như nhau hay không chúng ta dùngphương pháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng Fnhư sau:
Trong đó: là phương sai của mẫu thứ nhất, mẫu này có cỡ n1
là phương sai của mẫu thứ hai, mẫu này có cỡ n2 Thông thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai ta làm nhưsau: trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt ở tử số, và nhưvậy mẫu tương ứng với phương sai đó là mẫu thứ nhất
Giả thiết đặt ra là kiểm định hai bên:
H0: 𝜎1 2 = 𝜎2 2
H1: 𝜎1 2 ≠ 𝜎2 2
31
Trang 37Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó màbằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng hộ giả thuyết H0.Như vậy tỉ lệ F lớn đến đâu thì xem như là đủ bằng chứng bác bỏ H0 và ngược lại.
Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có phân phối xácsuất gọi tên là phân phối Fisher Các giá trị tới hạn của phân phối F phụ thuộc và hai giátrị bậc tự do, bậc tự do tử số (d𝑓1 = 𝑛1 − 1) gắn liền với mậu thứ nhất và bậc tự do mẫu sốgắn liền với mẫu thứ hai ( d𝑓2 = 𝑛2 − 1)
Quy tắc thực sự để bác bỏ 𝐻0 với kiểm định hai bên khi d𝑓1 = 𝑛1 – 1 và d𝑓2 = 𝑛2 − 1mức ý nghĩa α là: giả thiết H0 bị bác bỏ nếu giá trị kiểm định F lớn hơn giá trị tới hạn trên
FU = F 𝑑𝑓1; 𝑑𝑓2; 𝛼 /2 của phân phối F hoặc bé hơn giá trị tới hạn dưới FL = 𝑑𝑓1; F𝑑𝑓2; −𝛼/ 2 tức
là F𝑡𝑡< F𝑑𝑓1; 𝑑𝑓2;− 𝛼 /2 hoặc F𝑡𝑡 > F𝑑𝑓1; 𝑑𝑓2; 𝛼/ 2
Nếu chúng ta kiểm định bên phải:
H0: 𝜎1 2 = 𝜎2 2
H1: 𝜎 12 > 𝜎22
Quy tắc bác bỏ 𝐻0 là khi F𝑡𝑡 > FU(𝑛1−1; 𝑛2−1; 𝛼).
Phương pháp kiểm định phương sai tổng thể
Giả thiết kiểm định H0 và giả thiết đối H1
Tiêu chuẩn kiểm định
Xác định miền bác bỏ với tùy thuộc vào giá trị F tra bảng
Dựa vào Tiêu chuẩn Kiểm định và Miền Wa đưa ra kết luận
Dạng bài: Kiểm định giả thuyết cho phương sai hai tổng thể
Công cụ: F-Test Two-Sample for Variances
Các bước thực hiện: