31 TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH KHOA KHOA HỌC ỨNG DỤNG BỘ MÔN TOÁN ỨNG DỤNG oOo BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Đề tài 9 GVHD NGUYỄN KIỀU DUNG Nhóm 9 1 Nguyễn Đức Duy 1410579 L06 2 Bù[.]
Trang 2Tp.HCM, Ngày 05 tháng 05 năm 2016
M c l c ụ ụ 2
Bài 1 3
1 Thực hiện phương pháp phân tổ dữ liệu (A) 3
2 Vẽ đồ thị phân phối tần số và đa giác tần số (A) 5
3 Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát vớiđộtin cậy 95% (A) 7
4 Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồthị 9
Bài 2 12
Bài 3 16
Bài 4 21
Bài 5 26
1 Tìm hệ số tương quan giữa X,Y 27
2 Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X 28
3 Tìm hệ số xác định .31
Trang 31) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A)
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với
độ tin cậy 96% (A)
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
Bài làm:
_ Dạng bài: Thống kê mô tả
_ Dữ liệu (A): Khảo sát số testcase(testcase: các trường hợp để kiểm tra code của sinh viên trong bài tập) đúng của 40 sinh viên khoa máy tính khi học Kĩ thuật lập trình ta có bảng số liệu:
_ Dữ liệu (B): Phân ngành sinh viên khoa Máy tinh K14 trường Đại học Bách Khoa thành phố Hồ Chí Minh
1) Thực hiện phương pháp phân tổ dữ liệu A:
_ Nhập dữ liệu (A) vào Excel:
Trang 4+ Xác định trị số khoảng cách h theo công thức: h = (Xmax−Xmin) k
Chọn ô A7 nhập vào biểu thức =(Max(A1:J4)-Min(A1:J4))/4Kết quả 20
Nhập vào các ô từ A9 đến A13 lần lượt các giá trị:
Chọn chức năng Data/ Data Analysis/Histogram
+ Input Range: địa chỉ tuyệt đối chứa dư liệu
+ Bin Range: địa chỉ chứa bảng phân nhóm
Trang 5+ Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉtính tần số.
Kết quả(đã chỉnh lại các tên miền):
2) Vẽ đồ thị phân phối tần số và đa giác tần số (A):
_ Vẽ đồ thị phân phối tần số:
+ Quét chọn bảng tần số B2:B5
Trang 66+ Dùng chức năng Insert Column Chart trên menu Insert.
Kết quả sau khi chỉnh sửa:
_ Vẽ đa giác tần số:
+ Sử dụng bảng phân phối tần số của dữ liệu (A):
+ Thêm giá trị 0 vào đầu và cuối bảng phân phối tần số:
Trang 7+ Quét chọn B2:B7, dùng chức năng Insert Line Chart trên menu Insert
Kết quả sau chỉnh sửa
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 95% (A).
_ Nhập dữ liệu vào bảng tính:
Trang 8_ Chọn chức năng Data/Data Analysis/Descriptive Statistics
+ Input Range: địa chỉ tuyệt đối chứa dư liệu
+ Output options: vị trí xuất kết quả
+ Confidence Level for Mean: độ tin cậy cho trung bình
Trang 9 Kết quả nhận được:
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
_ Nhập dữ liệu vào bảng tính:
Trang 10_ Tính tỉ lệ sinh viên cho các ngành:
Nhập vào C3: =B3/$B$10, copy cho các ô còn lại
_ Vẽ biểu đồ đứng thể hiện số lượng sinh viên ở các chuyên ngành
+ Quét chọn cột Số sinh viên (B3:B9)
+ Dùng chức năng Insert /Insert Column Chart/2-D Column trên menu Insert
Trang 11 Kết quả thu được:
_ Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành.+ Quét chọn cột Số sinh viên (C3:C9)
+ Dùng chức năng Insert/Insert Pie/2-D Pie trên menu Insert
Kết quả thu được:
Trang 12Bài 2:
Hai máy cùng gia công m t lo i chi ti t Đ ki m tra xem 2 máy này có c ng đ chính xácộ ạ ế ể ể ủ ộ
nh nhau hay không, ng i ta l y ng u nhiên t m i máy 7 chi ti t, đem đo và thu đ c k tư ườ ấ ẫ ừ ỗ ế ượ ế
qu sau (đ n v mm):ả ơ ị
Có th cho r ng 2 máy có ể ằ đ chính xác ộ nh nhau hay không, v i m c ý nghĩa 2%? Gi thi tư ớ ứ ả ế
r ng kích th c chi ti t có phân ph i chu n.ằ ướ ế ố ẩ
Bài làm:
D ng bài ạ : Ki m đ nh gi thuy t cho ph ng sai hai t ng th ể ị ả ế ươ ổ ể
Công cụ: F-Test Two-Sample for Variances
C s lý thuy t ơ ở ế : Khi c n ki m đ nh hai t ng th có m c đ đ ng đ uầ ể ị ổ ể ứ ộ ồ ề
nh nhau hay không chúng ta dùng ph ng pháp ki m đ nh ph ng sai c aư ươ ể ị ươ ủhai t ng th đ c l p d a trên m t đ i l ng F nh sau: ổ ể ộ ậ ự ộ ạ ượ ư
Trong đó: S1 l à ph ng sai c a m u th nh t, m u này có c nươ ủ ẫ ứ ấ ẫ ỡ 1
S2 là ph ng sai c a m u th hai, m u này có c nươ ủ ẫ ứ ẫ ỡ 2
- Thông th ng đ xác đ nh m u nào là m u th nh t và m u nào là m u th hai ta ườ ể ị ẫ ẫ ứ ấ ẫ ẫ ứlàm nh sau, trong khi tính đ i l ng F thì giá tr ph ng sai l n h n sẽ đ cư ạ ượ ị ươ ớ ơ ượ
Trang 130: vàH1:
- N u t s F r t l n ho c r t nh ta có th suy di n b ng hai ph ng sai t ng th ế ỉ ố ấ ớ ặ ấ ỏ ể ễ ằ ươ ổ ểkhó mà b ng nhau, ng c l i n u t s này g n đ n 1 ta sẽ có b ng ch ng ng h gi ằ ượ ạ ế ỉ ố ầ ế ằ ứ ủ ộ ảthuy t Hế oN u t ng th l y m u đ c gi đ nh có phân ph i bình th ng thì t l F có phân ế ổ ể ấ ẫ ượ ả ị ố ườ ỉ ệ
ph i xác su t g i tên là phân ph i Fisher Các giá tr t i h n c a phân ph i F ph thu c và ố ấ ọ ố ị ớ ạ ủ ố ụ ộhai giá tr b c t do, b c t do t s (dị ậ ự ậ ự ử ố 𝑓1=n1-1 g n li n v i m u th nh t và b c t do m u ắ ề ớ ậ ứ ấ ậ ự ẫ
Trang 14 Nh p d li u vào b ng tính:ậ ữ ệ ả
Vào Data/ Data Analysis/ F-Test Two-Sample for Variances
Trang 15+ Input: đ a ch tuy t đ i ch a d li u t ng ng c a m u 1 và 2.ị ỉ ệ ố ứ ư ệ ươ ứ ủ ẫ + Output options: v trí xu t k t qu ị ấ ế ả
+ Apha:m c ý nghĩa ứ α (ch n t i ô alpha)ọ ạ
K t qu ế ả
Trang 16Bài 3: Theo gi i thi u c a nhà phân ph i, m c tiêu th nhiên li u trung bình c a 4 lo iớ ệ ủ ố ứ ụ ệ ủ ạ
xe ô tô là nh nhau Sau m t th i gian ch y xe, ng i ta đo l i trên các quãng đ ngư ộ ờ ạ ườ ạ ườ
nh nhau thì đ c k t qu sau:ư ượ ế ả
Có th coi m c tiêu th nhiên li u c a 4 lo i xe này còn gi ng nhau hay không, v i m cể ứ ụ ệ ủ ạ ố ớ ứ
ý nghĩa 4%? Tìm h s xác đ nh Rệ ố ị 2 c a bài toán và gi i thích ý nghĩa c a nó.ủ ả ủ
Bài làm:
D ng bài: Ki m đ nh giá tr trung bình m t nhân t ạ ể ị ị ộ ố
Ph ng pháp gi i: Phân tích ph ng sai m t nhân t ươ ả ươ ộ ố
Công c gi i: Anova single factor ụ ả
C s lý thuy t: ơ ở ế
Gi s nhân t A có k m c Xả ử ố ứ 1, X2, …,Xk v i Xj có phân ph i chu n N(a,ớ ố ẩ σ2) có m uẫ
đi u tra:ề
Trang 17- T ng bình ph ng đ l ch do nhân t Sum of Squares for Factor:ổ ươ ộ ệ ố
- T ng bình ph ng đ l ch do sai s Sum of Squares for Errorổ ươ ộ ệ ố
- T ng bình ph ng đ l ch chung Total Sum of Squares:ổ ươ ộ ệ
Trang 19 K t qu :ế ả
Trang 20 Bi n lu n: ệ ậ
Gi thi t: ả ế
H0: M c tiêu th nhi n li u 4 lo i xe là gi ng nhau ứ ụ ệ ệ ạ ố
H1: M c tiêu th nhiên li u 4 lo i xe là khác nhau.ứ ụ ệ ạ
Vì F = 1.284075 < F critical = 3.234466 nên ta gi thi t Hả ế 0 đúng
V y m c tiêu th nhiên li u c a 4 lo i xe là gi ng nhau.ậ ứ ụ ệ ủ ạ ố
Trang 21V y h s xác đ nh Rậ ệ ố ị 2 = 0.138309371 Đi u đó có nghĩa là ề nhân t n i l y m u ố ơ ấ ẫ
đ đo ch nh h ng 13.8% đ n m c tiêu th nhiên li u c a các lo i xe.ể ỉ ả ưở ế ứ ụ ệ ủ ạ
Bài 4: M t cu c đi u tra xã h i h c đ c ti n hành 5 thành ph A,B,C,D,E Ng i taộ ộ ề ộ ọ ượ ế ở ố ườyêu c u nh ng ng i đ c h i di n t m c đ th a mãn c a mình đ i v i thành phầ ữ ườ ượ ỏ ễ ả ứ ộ ỏ ủ ố ớ ố
mà h đang s ng K t qu đ c cho nh sau:ọ ố ế ả ượ ư
Thành phố M c đ th a mãnứ ộ ỏ
R t th aấ ỏmãn T ng đ iươ ố Không A
BCDE
22013084156122
1212075495164
6375244373
V i m c ý nghĩaớ ứ = 3%, Hãy ki m đ nh xem m c đ th a mãn có phân b gi ng nhau 5ể ị ứ ộ ỏ ố ố ởthành ph trên hay không?ố
Bài làm :
D ng bài : ki m đ nh gi thi t v t l ạ ể ị ả ế ề ỷ ệ
Ph ng pháp gi i : Áp d ng ki m đ nh chi bình ph ng ươ ả ụ ể ị ươ χ2
Công c gi i : hàm CHITEST trên EXCEL.ụ ả
C s lý thuy t:ơ ở ế
Theo th ng kê,ki m đ nh chi bình ph ng hay ki m tra ố ể ị ươ ể χ2 (“đôi khi đ c là khi bình ọ
Trang 22ph ng”) là m t h các ph ng pháp ki m đ nh gi thuy t th ng kê trong đó th ng kê ươ ộ ọ ươ ể ị ả ế ố ố
ki m đ nh tuân theo phân b ể ị ố χ2 n u gi thuy t là không đúng.Chúng g m:ế ả ế ồ
Ki m đ nh chi bình ph ng Pearsomể ị ươ
Ki m đ nh chi bình ph ng Yatesể ị ươ
Ki m đ nh chi bình ph ng Mantel-Haenszelể ị ươ
G i pọ i(i=1,2,…r) là t l cá th tính tr ng ỉ ệ ể ạ 𝐴Itrong t p h p chính H Khi đó ậ ợ
vecto =(π 𝑞1 ,𝑞2 ,…𝑞r) đ c g i là phân b c a A trong t p h p chính H.ượ ọ ố ủ ậ ợ
Gi s (pả ử 1 ,p2,…pr) là phân b c a (ố ủ 𝐴1, 𝐴2, 𝐴r) trong t p h p chính H và (qậ ợ 1 ,q2,…qr) là phân b c a A=(ố ủ 𝐴1, 𝐴2, 𝐴r)trong t p h p chính Y Ta nói (ậ ợ 𝐴1, 𝐴2, 𝐴r) có phân b ố
nh nhau trong X và Y n u (pư ế 1 ,p2,…pr)= (q1 ,q2,…qr)p1 =q1,…pr =qr
Chúng ta mu n ki m đ nh xem A=(ố ể ị 𝐴1, 𝐴2, 𝐴r) có cùng phân s trong X và ố
Y hay không d a trên các m u ng u nhiên rút t X và Y.ự ẫ ẫ ừ
T ng quát h n, gi s ta có k t p h p chính Hổ ơ ả ử ậ ợ 1, H2, Hk g i ọ πi = p1i , p2i
,…pri là phân b c a A =(ố ủ 𝐴1, 𝐴2, 𝐴r) trong t p h p chính ậ ợ 𝐻i
Ta mu n ki m đ nh gi thuy t sau:ố ể ị ả ế
Ho: π 1 = π 2 = … = π k (Các phân b này là nh nhau trên các t p h p chính ố ư ậ ợ 𝐻i)
Chú ý r ng ằ ot ng đ ng v i h đ ng th c sau:ươ ươ ớ ệ ẳ ứ
Trang 23Thì các t l chung ỷ ệ p1 ,p2,…pr đ c c l ng b i ượ ướ ượ ở
Đo c l ng cho xác su t đ m t cá th có mang tính trang ướ ượ ấ ể ộ ể 𝐴j.Khi đó s cá th có tínhố ể
tr ng ạ 𝐴j trong m u th j sẽ x p x b ng:ẫ ứ ấ ỉ ằ
Trang 24Các s ố đ c g i là các t n s lý thuy t(TSLT), cács ượ ọ ầ ố ế ố 𝑛ijđ c ượ
g i là các t n s quan sát (TSQS).ọ ầ ố
Ta quy t đ nh bác b ế ị ỏ 𝐻o khi các TSLT cách xa TSQS m t cách b t th ng ộ ấ ườ
Kho ng cách gi a TSLT và TSQS đ c đo b ng test th ng kê sau đây:ả ữ ượ ằ ố
Ng i ta ch ng minh đ c r ng n u ườ ứ ượ ằ ế 𝐻ođúng và các TSLT không nh h n 5 ỏ ơ
thì T sẽ có phân b x p x v i (k-1)(r-1) b c t do Thành th mi n bác b có d ng ố ấ ỉ ớ ậ ự ử ề ỏ ạ{T>c} đó c đ c tìm t điêu ki n P{T>c} = ở ượ ừ ệ 𝛼 V y c là phân v m c ậ ị ứ 𝛼 c a phân ủ
nij : t n s th c nghi m ; ầ ố ự ệ 𝑛𝑞ij: t n s lý thuy t c a ô (i,j) ; r: s hàng ; c: s c t ầ ố ế ủ ố ố ộ
Dùng h m CHITEST (actual_range ,expected_range).ầ
Trang 25 Tính t ng các s :ổ ố
+ T ng hàng: Ch n H78, nh p =SUM(E78:G78), r i Enter, dùng con tr kéo ổ ọ ậ ồ ỏnút t đi u khi n t đi n t H78 đ n H82.ự ề ể ừ ề ừ ế
+ T ng c t: Ch n E83, nh p =SUM(E78:E82), r i Enter, dùng con tr kéo nút ổ ộ ọ ậ ồ ỏ
t đi u khi n t E83 đ n G83.ự ề ể ừ ế
+ T ng c ng: ch n H83 và nh p =SUM(H78:H82).ổ ộ ọ ậ
Tính các t n s lý thuy t: (t ng hàng*t ng c t)/t ng c ngầ ố ế ổ ổ ộ ổ ộ
+ 1: Ch n E90: nh p =H78*$E$83/$H$83, rùi Enter, dùng con tr kéo nút tọ ậ ỏ ự
đi u khi n t E90 đ n E94.ề ể ừ ế
+ 2: Ch n ọ F90: nh p =H78*$F$83/$H$83, r i Enter, dùng con tr kéo nút tậ ồ ỏ ự
đi u khi n t Fề ể ừ 90 đ n F9ế 4
Trang 2626+ 3: Ch n Gọ 90: nh p =H78*$G$83/$H$83, r i Enter, dùng con tr kéo nút tậ ồ ỏ ự
1) Tìm hệ số tương quan giữa X,Y
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Nếu có, hãy ước lượng đường hồi quy tuyến tính Y theo X
Trang 27Bảng số liệu về thời gian chạy chương trình của sinh viên khoa Máy tính khi học môn
Hệ điều hành tương ứng với lượng dữ liệu là các câu lệnh(dòng code)
1) Tìm hệ số tương quan giữa X và Y:
_ Cơ sở lý thuyết:
Hệ số tương quan:
R = ∑xiyi−∑xi∑ yi
√[n∑xi2−(∑xi)2¿¿][n∑ yi2−(∑ yi)2¿¿] + Nếu R > 0 thì X,Y tương quan thuận
+ Nếu R < 0 thì X,Y tương quan nghịch
+ Nếu R = 0 thì X,Y không tương quan
+ Nếu |R|=1 thì X,Y có quan hệ hàm bậc nhất
+ Nếu |R|→1 thì X, Y có tương quan chặt (tương quan mạnh)
+ Nếu |R|→0 thì X, Y có tương quan không chặt (tương quan yếu)
_ Thực hiện trên Excel:
+ Nhập số liệu vào bảng tính:
Chọn chức năng Data/Data Analysis/Correlation
Trang 29Vì |T| > c nên bác bỏ giả thiết H0.
Vậy: X và Y có tương quan tuyến tính
*Ước lượng đường hồi quy tuyến tính Y theo X.
_ Cơ sở lý thuyết:
Phương trình hồi quy tuyến tính
yx = a + bx , a = rSy Sx , b = y - axKiểm định hệ số a, b:
+ Giả thiết H0: Hệ số hồi quy không có ý nghĩa (=0).+ H1: Hệ số hồi quy có ý nghĩa (≠0)
+ Trắc nghiệm t < t α,n-2: chấp nhận H0Kiểm định phương trình hồi quy:
+ Giả thiết H0: “Phương trình hồi quy tuyến tính không thích hợp”
H1: “Phương trình hồi quy tuyến tính thích hợp”
+ Trắc nghiệm F < F α,1,n-2: chấp nhận H0
_ Thực hiện trên Excel:
+ Nhập số liệu vào bảng tính:
Trang 30+ Dùng chức năng Data/Data Analysis/Regression
Kết quả:
Trang 31Biện luận:
_ Phương trình hồi quy: yx = −196.6187 + 10.7616
_ Hệ số hồi quy: 0.0710 > 0.05 => Hệ số tự do có ý nghĩa
1.105xE-09< 0.05 => Hệ số của x không có ý nghĩa
=> Phương trình hồi quy tuyến tính này không thích hợp vì 0.002198 < 0.05
3) Tìm sai số chuẩn của ước lượng:
Dùng kết quả từ bảng SUMMARY OUTPUT từ câu trên ta xác định được sai sốchuẩn của ước lượng:
Trang 32- Đối với biến tự do: SE = 97.3596
- Đối với biến X: SE = 0.5028