ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG BỘ MÔN TOÁN ỨNG DỤNG o0o BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD Nguyễn Kiều Dung Nhóm 9 L08 1 Lê Quang Đức L08 A 15107[.]
Trang 1ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG
BỘ MÔN: TOÁN ỨNG DỤNG -o0o -
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
3 Nguyễn Kinh Khoa L08-A 1411833
4 Nguyễn Trung Hiếu L08-A 1511027
5 Hoàng Thanh Huỳnh L08-B 1511330
6 Nguyễn Hoài Nam (NT) L08-B 1512083
7 Phan Thế Nam L08-B 1512100
8 Phan Phạm Quốc Thái L08-C 1513029 9.Phạm Minh Tuấn L08-C 1513862
Trang 3MỤC LỤC:
Bài 1: 3
Bài 2: 15
Bài 3: 18
Bài 4: 23
Bài 5: 29
TÀI LIỆU THAM KHẢO: 34
Trang 4Bài 1:
Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A)
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A)
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với
độ tin cậy 96% (A)
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không
Dạng bài: thống kê mô tả.
Dữ liệu A : Khảo sát thời gian hoàn thành một sản phẩm mạch điện của 36 sinh viên
khi học thực tập Điện điện tử ta có bảng số liệu: Thời gian (phút)
Trang 5+ Xác định số tổ cần chia: k = (2 xn)13
.
Chọn ô A6 nhập vào biểu thức =(2*COUNT(A2:I5))^(1/3)
Kết quả: 4.160167646
Chọn k = 4
+ Xác định trị số khoảng cách h theo công thức: h = (Xmax−Xmin) k
.
Chọn ô A7 nhập vào biểu thức =(MAX(A2:I5)-MIN(A2:I5))/4
Nhập vào các ô từ A8 đến A11 lần lượt các giá trị:
Chọn chức năng Data/ Data Analysis/Histogram
+ Input Range: địa chỉ tuyệt đối chứa dư liệu
+ Bin Range: địa chỉ chứa bảng phân nhóm
+ Output options: vị trí xuất kết quả
+ Confidence Level for Mean: độ tin cậy cho trung bình
+ Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ
tính tần số
Trang 6Ta được kết quả: ( đã chỉnh sửa khung Khoảng thời gian ( Bin)).
2 Vẽ đồ thị phân phối tần số và đa giác tần số (A):
_ Vẽ đồ thị phân phối tần số:
+ Quét chọn bảng tần số
+ Dùng chức năng Insert Column Chart trên menu Insert
Trang 7_ Vẽ đa giác tần số:
+ Sử dụng bảng phân phối tần số của dữ liệu (A):
+ Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:
+ Quét chọn B12:B18, dùng chức năng Insert Line Chart trên menu Insert
Trang 8Ta được kết quả
+ Quét chọn B12:B18, dùng chức năng Insert 2D – column trên menu Insert
Trang 93.Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 96% (A).
_ Nhập dữ liệu vào bảng tính:
Chọn chức năng Data/Data Analysis/Descriptive Statistics
+ Input Range: địa chỉ tuyệt đối chứa dư liệu
+ Output options: vị trí xuất kết quả
+ Confidence Level for Mean: độ tin cậy cho trung bình
Trang 10Ta được kết quả:
Trang 114) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
a Dữ liệu định tính: Kết quả khảo sát ngẫu nhiên 60 sinh viên
có thành thạo một ngôn ngữ lập trình nào đó hay không (1: thành thạo, 0: không thành thạo)
Trang 13đó hay không.
Kiểm định A: Với mức ý nghĩa 4%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không? (độ tin cậy 96%)
Giả thuyết kiểm định H0: Mẫu phù hợp với phân phối chuẩn
Giả thuyết đối kiểm định H1: Mẫu không phù hợp với phân phối chuẩn
Tính các đặc trưng mẫu: n = 36
= 19.4167
= 4.2582=(STDEVP(A1:A36))
+ là ước lượng hợp lý cực đại cho a => a=19.4167
+ s^2 là ước lượng hợp lý cực đại cho => σ = 4.2582
(16;20) 11 =NORM.S.DIST((20-D5)/D6,TRUE)- NORM.S.DIST((16-D5)/D6,TRUE)
(20;24) 10 =NORM.S.DIST((24-D5)/D6,TRUE) - NORM.S.DIST((20-D5)/D6,TRUE)
(24;+∞) 4 =1 - NORM.S.DIST((24-D5)/D6,TRUE)
Trang 14= ==(1/36)*(SUM(G9:G12))-36
= = 1.0980112 => Chấp nhận H0
Vậy dữ liệu A phù hợp với phân phối chuẩn
Trang 15Dạng bài: Kiểm định giảthuyết cho phương sai hai tổng thể.
Công cụ: F-Test Two-Sample for Variances.
Khi cần kiểm định hai tổng thểcó mức độ đồng đều nhưnhau hay không chúng ta dùng phương pháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F như sau:
Trong đó: S1 là phương sai của mẫu thứ nhất, mẫu này có cỡ n1
S2 là phương sai của mẫu thứ hai, mẫu này có cỡ n2
Thông thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai
ta làm như sau, trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được
đặt ở tử số,và như vậy mẫu tương ứng với phương sai đó là mẫu thứnhất
- Giả thiết đặt ra là kiểm định hai bên:
H
0: vàH1:
Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng h ộ gi ả thuyết HoNếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có phân phối xác suất gọi tên là phân phối Fisher Các giá trị tới hạn của phân phối F phụ thuộc và hai giá trị bậc tự do, bậc tự do tử số (d𝑓1=n1-1 gắn liền với mậu thứ nhất và bậc tự do mẫu số gắn liền với mẫu thứ hai (d𝑓2=n2-1)
Trang 16Quy tắc thực sự để bác bỏ 𝐻o với kiểm định hai bên khi d𝑓1=n1-1 và d𝑓2=n2-1 mức ý nghĩa α là: giả thiết 𝐻0 bị bác bỏ nếu giá trị kiểm định F lớn hơn giá trị tới hạn trên FU=Fdf1;df2;α/2 của phân phối F hoặc bé hơn giá trị tới hạn dưới FL=Fdf1;df2;α/2 tức là
+ Input: địa chỉ tuyệt đối chứa dư liệu tương ứng của mẫu 1 và 2
+ Output options: vị trí xuất kết quả
+ Apha: mức ý nghĩa α (chọn tại ô alpha)
Trang 17Kết quả:
Trang 18Biện luận.
Giả thiết:
Ho: σ12 = σ22 “Độ chính xác chi tiết của 2 máy là giống nhau”
H1: σ12≠ σ22 “Độ chính xác chi tiết của 2 máy là khác nhau”
Theo giới thiệu của nhà phân phối, mức tiêu thụ nhiên liệu trung bình của 4 loại
xe ô tô là như nhau Sau một thời gian chạy xe, người ta đo lại trên các quãng đường như nhau thì được kết quả sau:
Dạng bài: Kiểm định giá trị trung bình một nhân tố
Phương pháp giải: Phân tích phương sai một nhân tố
Công cụ giải: Anova single factor
Cơ sở lý thuyết:
Giả sử nhân tố A có k mức X1, X2, …, Xk với Xj có phân phối chuẩn N(a,σ2) có mẫu điều tra:
Trang 19v ớiTổng bình phương độ lệch do nhân tố Sum of Squares for Factor:
Tổng bình phương độ lệch do sai số Sum of Squares for Error
Tổng bình phương độ lệch chung Total Sum of Squares:
Trang 20hay SST=SSF+SSETrung bình bình phương của nhân tố Mean Square for Error:
Trong đó, k-1 là bậc tự do của nhân tố
Trung bình bình phương của sai số Mean Square for Error:
So sánh F ở trên với F lý thuyết tra từ bảng phân phối F với k-1 bậc tự do ở tử
số và n-k bậc tự do ở mẫu số với mức ý nghĩa α, ta kết luận:
- Nếu F > F lý thuyết, ta bác bỏ Ho
- Nếu F < F lý thuyết, Ho đúng
Hệ số xác định R2 chính là tỷ lệ hay số phần trăm chiếm trong tổng số 100% của toàn bộ sự sai lệch của Xij so với giá trị trung bình của chúng
Thực hiện bài toán:
o Vào Data/ Data Analysis/Anova: Single Factor
Trang 21o Chọn các thư mục như hình:
o Input Range: địa chỉ tuyệt đối chứa dữ liệu
o Output options: vị trí xuất kết quả
o Alpha: mức ý nghĩa α
Kết quả:
Trang 22 Biện luận:
Giả thiết:
H0: Mức tiêu thụ nhiện liệu 4 loại xe là giống nhau
H1: Mức tiêu thụ nhiên liệu 4 loại xe là khác nhau
Vì F = 1.284075 < F critical = 3.234466 nên ta giả thiết H0 đúng
Vậy mức tiêu thụ nhiên liệu của 4 loại xe là giống nhau
Tính hệ số xác định R2:
Từ bảng “Anova: Single Factor” ta tính được hệ số tương quan R2theo công thức:
Thực hiện trên Excel:
o Chọn ô đưa ra kết quả của R2
o Nhập công thức: =B20/B23
Ta thu được kết quả sau:
Vậy hệ số xác định R2 = 0.138309371 Điều đó có nghĩa là nhân tố nơi lấy mẫu
để đo chỉ ảnh hưởng 13.8% đến mức tiêu thụ nhiên liệu của các loại xe
Trang 23Bài 4 :
Một cuộc điều tra xã hội học được tiến hành ở 5 thành phố A,B,C,D,E Người
ta yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố
mà họ đang sống Kết quả được cho như sau:
Rất thỏa
ABCDE
22013084156122
1212075495164
6375244373Với mức ý nghĩa = 3% Hãy kiểm định xem mức độ thỏa mãn có phân bốgiống nhau ở 5 thành phố trên hay không?
Bài làm:
Dạng bài: kiểm định giả thiết về tỷ lệ
Phương pháp giải: Áp dụng kiểm định chi bình phương χ2
Công cụ giải: hàm CHITEST trên EXCEL
Cơ sở lý thuyết:
Theo thống kê, kiểm định chi bình phương hay kiểm tra χ2 (“đôi khi đọc là khi bình
phương”) là một họ các phương pháp kiểm định giả thuyết thống kê trong đó thống kê kiểm định tuân theo phân bố χ2 nếu giả thuyết là không đúng.Chúng gồm:
Kiểm định chi bình phương Pearsom
Kiểm định chi bình phương Yates
Kiểm định chi bình phương Mantel-Haenszel
…
-Dạng thống kê kiểm định thông dụng nhất là:
-Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác
-Xét một bộ A gồm r tính trạng, A= (𝐴1, 𝐴2 , 𝐴r), trong đó mỗi cá thể của tập
Trang 24hợp chính H có và chỉ có một trong các tính trạng (hay phạm trù )𝐴i.
-Gọi pi (i=1, 2, …r) là tỉ lệ cá thể tính trạng 𝐴Itrong tập hợp chính H Khi đó vecto π= (𝑞1, 𝑞2, …𝑞r) được gọi là phân bố của A trong tập hợp chính H
-Giả sử (p1, p2, … pr) là phân bố của (𝐴1, 𝐴2, 𝐴r) trong tập hợp chính H và (q1,
q2, …qr) là phân bố của A= (𝐴1, 𝐴2, 𝐴r) trong tập hợp chính Y Ta nói (𝐴1, 𝐴2, 𝐴r) cóphân bố như nhau trong X và Y nếu (p1, p2 ,…pr)= (q1 ,q2,…qr)p1 =q1,…pr =qr
-Chúng ta muốn kiểm định xem A= (𝐴1, 𝐴2, ., 𝐴r) có cùng phân số trong X
và
Y hay không dựa trên các mẫu ngẫu nhiên rút từ X và Y
-Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2, Hk gọi πi = p1i , p2i
,…pri là phân bố của A =(𝐴1, 𝐴2, 𝐴r) trong tập hợp chính 𝐻i
-Ta muốn kiểm định giả thuyết sau:
Ho: π 1 = π 2 = … = π k
(Các phân bố này là như nhau trên các tập hợp chính 𝐻i)
-Chú ý rằng tương đương với hệ đẳng thức sau:
Trang 25𝑛ri cá thể có tính trạng 𝐴r.
-Như vậy 𝑛0j là kích thước của mẫu thứ j, còn 𝑛j0 là tổng số cá thể có tính trạng
𝐴I trong toàn bộ k mẫu đang xét:
là tổng số tất cả các cá thế của k mẫu đang xét
- Nếu giả thuyết 𝐻o là đúng nghĩa là:
-Thì các tỷ lệ chung p1 ,p2,…pr được ước lượng bởi
-Đo ước lượng cho xác suất để một cá thể có mang tính trang 𝐴j.Khi đó số cá thể có tính trạng 𝐴j trong mẫu thứ j sẽ xấp xỉ bằng:
-Các số được gọi là các tần số lý thuyết(TSLT), cácsố
𝑛ijđược gọi là các tần số quan sát (TSQS)
-Ta quyết định bác bỏ 𝐻o khi các TSLT cách xa TSQS một cách bất thường Khoảng cách giữa TSLT và TSQS được đo bằng test thống kê sau đây:
.-Người ta chứng minh được rằng nếu 𝐻ođúng và các TSLT không nhỏ hơn 5 thì T sẽ có phân bố xấp xỉ với (k-1).(r-1) bậc tự do Thành thử miền bác bỏ có dạng {T>c} ở đó c được tìm từ điêu kiện P{T>c} = 𝛼 Vậy c là phân vị mức 𝛼 của phân
Trang 26nij: tần số thực nghiệm: 𝑛𝑞ij: tần số lý thuyết của ô (i, j): r: số hàng; c: số cột
Dùng hầm CHITEST (actual_range, expected_range)
Tính giá trị: P(X >𝛾2) = CHITEST
Nếu: P(X >𝛾2) >𝛼 thì chấp nhân 𝐻ovà ngược lại
Nhận xét: Đây là bài toán kiểm định giả thuyết về tỷ lệ
Giải thuyết Ho: Tỷ lệ mức độ thỏa mãn của 5 thành phố là giống nhau
Trang 27Tính các tần số lý thuyết: (tổng hàng*tổng cột)/tổng cộng.
1: Chọn B13: nhập =E3*$B$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17.2: Chọn C13: nhập =E3*$C$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17.3: Chọn D13: nhập =E3*$D$8/$E$8, Enter, dùng con trỏ kéo xuống dòng 17
o Áp dụng hàm số CHITEST tính giá trị 𝑃(𝑋>𝜒2)
o Chọn A20, nhập =CHITEST(B3:D7,B13:D17), rồi Enter
Trang 28Biện luận: 𝑃(𝑋>𝜒2) 3.5299E-13 < 0.03.
Bác bỏ giả thuyết Ho.
Kết luận: mức độ thỏa mãn ở 5 thành phố trên là không giống nhau
Trang 29Bài 5:
Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng môhình hồi quy tuyến tính đơn Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X, Y
2) Quan hệ giữa X, Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X
3) Tìm sai số chuẩn của ước lượng
Trang 30 Nếu R > 0 thì X, Y tương quan thuận.
Nếu R < 0 thì X, Y tương quan nghịch
Nếu R = 0 thì X, Y không tương quan
Nếu | R |= 1 thì X, Y có quan hệ hàm bậc nhất
Nếu | R |→ 1 thì X, Y có tương quan chặt (tương quan mạnh)
Nếu | R |→ 0 thì X, Y có tương quan không chặt (tương quan yếu)
Trang 312) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X.
Tính c: chọn ô F5 và nhập biểu thức =TINV(0.05,12) (c là phân vị mức
α/2=0.025 của phân bố Student với n-2=12 bậc tự do).
Vì |T| > c nên bác bỏ giả thiết H
0.
Vậy: X và Y có tương quan tuyến tính.
Ước lượng đường hồi quy tuyến tính Y theo X.
+ Giả thiết H0: Hệ số hồi quy không có ý nghĩa (=0).
+ H1: Hệ số hồi quy có ý nghĩa (≠0).
+ Trắc nghiệm t < t
,n-2: chấp nhận H
0. Kiểm định phương trình hồi quy:
+ Giả thiết H
0: “Phương trình hồi quy tuyến tính không thích hợp”.
Trang 32H1: “Phương trình hồi quy tuyến tính thích hợp”.
+ Trắc nghiệm F < F
,1 ,n-2: chấp nhận H
0. Thực hiện trên Excel:
Nhập số liệu vào bảng tính:
Trang 33Kết quả:
Biện luận:
Phương trình hồi quy: Y = −133,786 + 17.84676x
Hệ số hồi quy: 1,49E-05=1,49.10
-5< 0.05 Hệ số tự do không có ý nghĩa 4,6E-12 = 4,6.10
-12< 0.05 Hệ số của x không có ý nghĩa.
Phương trình hồi quy tuyến tính này không thích hợp vì
4,6E-12=4,6.10
-12< 0.05.
3) Tìm sai số chuẩn của ước lượng:
Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được sai số.
chuẩn của ước lượng:
- Đối với biến tự do: SE = 19,1892.
- Đối với biến X: SE = 0,6675.
Trang 34TÀI LIỆU THAM KHẢO:
[1] Bài giảng xác suất thống kê – cô Nguyễn Kiều Dung.
[2] Giáo trình xác suất và thống kê.
[3]
XỬ LÝ THỐNG KÊ BẰNG EXCEL nguồn:http://www2.hcmuaf.edu.vn/data/dtdanh/XSTK_EXCEL.pdf