Cơ sở lý thuyết: Dạng: So sánh các phân số... Liệu âm nhạc có ảnh hưởng đến lượng sữa của các con bò hay không?. Bảng ANOVA Nguồn sai số Bậc tự do Tổng số bình phương Bình phư
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
KHOA KHOA HỌC ỨNG DỤNG
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ GVHD: PGS.TS Nguyễn Bá Thi
Trang 2
Báo cáo Xác xuất thống kê
Đề 3
Giáo viên hướng dẫn: PGS.TS Nguyễn Bá Thi
Danh sách các thành viên:
Lê Đức Lộc MSSV: 41101939 (Nhóm Trưởng)
Lâm Phương MSSV: 41102653
Hà Vĩnh Phú MSSV: 41102570
Tài liệu tham khảo:
Giáo trình Xác xuất thống kê 2012 (PGS.TS Nguyễn Đình Huy)
Bài Tập Xác xuất thống kê 2012 (PGS.TS Nguyễn Đình Huy)
Trang 3
Bài 1: Một xí nghiệp may sản xuất áo khoác với 4 màu: đỏ, xanh, vàng, và tím than Số
khách hàng nam và nữ mua áo khoác với các màu được ghi trong bảng sau.
Với mức ý nghĩa 1% hãy so sánh tỷ lệ khách hàng nam và nữ ưa chuộng các màu sắc nói trên.
1 Cơ sở lý thuyết:
Dạng: So sánh các phân số
Giả thuyết H0: Sự chọn lựa của nam nữ không phụ thuôc vào màu sắc
Ta tính giá trị thống kê theo công thức:
X0=
Trong đó :
Oij –tần số thực nghiệm của ô thuộc hàng i và cột j Eij – tần số lý thuyết của ô thuộc hàng i và cột j
Kết quả ta được: Xo=37.3839
Bậc tự do : 20,05 (3-1)(5-1)=8 => 2 0,05=15.51
Kết luận : - Vì X0 > 20,05 nên bác bỏ giả thiết H0
- Độ dày lớp mạ phụ thuôc vào loại bể được dùng
Trang 42 Giải toán bằng MS-EXCEL:
Nhập dữ liệu vào bảng:
Nhập thêm các dòng tổng hàng, tổng cột:
Tính tổng hàng ,tổng cột:
Chọn ô để nhập giá trị tổng sau đó dùng cú pháp sau:
=SUM(trị bảng ) > enter
Tiếp theo tính các tần số lí thuyết
Sử dụng công thức: Tần số lý thuyết = (tổng hàng * tổng cột) / tổng cộng
Trang 5 Gọi hàm CHITEST tính giá trị P
Nhấp vào Formulas chọn Insert Fuction chọn Chitest nhấn OK
Xuất hiện hộp thoại Fuction Agruments:
-Nhập các giá trị tần số quan sát vào mục Actual_range -Nhập các giá trị tần số lí thuyết vào mục Expected_range.Nhấp OK
Kết luận:
P(X > 20,05) = 1.71514 x 10 -18 < α = 0.05 bác bỏ giả thuyết H0
Vậy ta có thể kết luận sự lựa chọn của nam nữ phụ thuộc vào màu sắc
Trang 6Bài 2:Lượng sữa vắt được bởi 16 con bò cái khi cho nghe các loại nhạc khác nhau (nhạc nhẹ, nhạc rốc, nhạc cổ điển, không có nhạc) được thống kê trong bảng sau đây:
Với mức ý nghĩa 5%, nhận định xem lượng sữa trung bình của mỗi nhóm trên như nhau hay khác nhau Liệu âm nhạc có ảnh hưởng đến lượng sữa của các con bò hay không?
Dạng bài: phân tích phương sai một yếu tố
Giả thuyết H0: Ảnh hưởng của âm nhạc đến lượng sữa
1 Cơ sở lý thuyết:
Khái niệm thống kê:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Yij (I
= 1 2.… r: yếu tố A; j = 1 2.… c: yếu tố B)
Mô hình
cộng
Trung bình
1 2
…
r
Y11 Y21
… Yr1
Y12 Y22
… Yr2
…
…
…
…
Y1c Y2c
… Yrc
Y1
Y2
… Yr
1
Y
2
Y
…
r
Y
Tổng cộng
Trung bình
T.1
1
Y
T.2
2
Tc
c
Y YT
Bảng ANOVA
Nguồn
sai số
Bậc tự do Tổng số bình phương Bình phương
trung bình
Giá trị thống kê
Trang 7Yếu tố A
(Hàng)
(r-1)
r i
i
rc
T c
T SSB
1
2
2
) 1 r (
SSB MSB
MSE
MSB
FR
Yếu tố B
(Cột)
Sai số
(c-1)
(r-1)(c-1)
c 1 j
2
2 j
rc
T r
T SSB
SSE = SST – (SSF +
SSB)
) 1 c (
SSF MSF
) 1 r (
SSB MSB
MSE
MSF
FC
Tổng
cộng
(rc-1)
r 1 i
c 1 j
2
2
ij r
T Y SST
Trắc nghiệm
* Giả thuyết:
H0: 1 2 k “Các giá trị trung bình bằng nhau”Các giá trị trung bình bằng nhau”
H1: i j “Các giá trị trung bình bằng nhau”Ít nhất có hai giá trị trung bình khác nhau”
* Giá trị thống kê: MSE
MSB
MSF
FC
* Biện luận:
Nếu FR Fa[ b 1 , ( k 1 )( b 1 } Chấp nhận H0 (yếu tố A)
Nếu FC Fa[ k 1 , ( k 1 )( b 1 } Chấp nhận H0 (yếu tố B)
2 Áp dụng MS-EXCEL:
Nhập số liệu vào bảng tính:
Áp dụng “Anova: single-Factor”
Nhấp lần lượt đơn lệnh Tools và lệnh Data analysis:
Trang 8 Chọn chương trình Anova: single-Factor trong hộp thoại Data analysis rồi nhấp nút OK
Trong hộp thoại Anova: single-Factor, lần lượt ấn định các chi tiết
Phạm vi đầu vào (input range)
Cách sắp xếp theo hàng hay cột (Group by) “Các giá trị trung bình bằng nhau”chúng ta làm theo hàng (chọn Rows)”
Nhãn dữ liệu (label in First Row/Column)
Trang 9 So sánh kết quả và biện luận:
Kết quả và biện luận:
P-value =0.30335303 > α = 0.05 và F=1.354679803 < FCrit= 3.40294819=> chấp nhận giả thuyết H0
Vậy âm nhạc có ảnh hưởng đến lượng sữa của các con bò
Trang 10Bài 3:Từ 12 cặp quan sát (xi,yi) sau đây của cặp hai biến (X,Y), tính tỷ số tương quan, hệ số tương quan và hệ số xác định của Y đối với X Với mức ý nghĩa α=5%, có kết luận gì về mối tương quan giữa X và Y ( Có phi tuyến không? Có tuyến tính không?) Tìm đường hồi quy của Y đối với X
X 123 356 111 118 123 356 111 118 123 356 111 118
Y 4.2 4.1 3.7 3.9 4.5 4.1 3 3.8 2 3.1 3.4 3
1 Cơ sở lý thuyết
Đây là một bài toán hồi quy tuyến tính đa tham số, trong đó, Y (hiệu suất) liên quan đến hai biến
số X1(thời gian), X2 ( nhiệt độ)
Phương pháp: HỒI QUY TUYẾN TÍNH ĐA THAM SỐ
Trong phương trình hồi quy tuyến tính đa tham số, biến số phụ thuộc Y có liên quan đến k biến
số độc lập Xi (i=1,2, ,k) thay vì chỉ có một như trong hồi quy tuyến tính đơn giản
Phương trình tổng quát
Ŷx0,x1, ,xk = B0 + B1X1 + + BkXk
Bảng ANOVA
Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình Giá trị thống kê
k
SSR
F=
MSE MSR
k N SSE
Giá trị thống kê
Giá trị R-bình phương:
kF k
N
kF SST
SSR R
) 1 (
2
(R2 0 81 là khá tốt)
Trang 11Độ lệch chuẩn:
) 1 (
k N
SSE
S (S 0 30 là khá tốt)
Sau khi tìm các giá trị thống kê, ta sẽ có hai phần trắc nghiệm hồi quy gồm :
- Trắc nghiệm t: so sánh giá trị t với giá trị t0,05, bậc tự do là γ = N-k-1 (k là số biến) (tra bảng Student)
Kiểm định các giả thuyết: H0: “Các giá trị trung bình bằng nhau” Các hệ số hồi quy không có ý nghĩa”
H1: “Các giá trị trung bình bằng nhau”Có ít nhất vài hệ số hồi quy có ý nghĩa”
- Trắc nghiệm F: so sánh giá trị F với giá trị F0,05, bậc tự do là n1=1, n2= N-k-1
(tra bảng Fisher)
Kiểm định các giả thuyết: H0: “Các giá trị trung bình bằng nhau”Phương trình hồi quy không thích hợp”
H1: “Các giá trị trung bình bằng nhau”Phương trình hồi quy thích hợp”
2 Giải toán bằng MS-EXCEL:
Nh p dữ li u vào bảng tinh: ập dữ liệu vào bảng tinh: ệu vào bảng tinh:
Sử dụng lệnh Tools và lệnh Data Analysis:
Trang 12 Chọn chương trình Regression trong hộp thoại Data Analysis:
Ta chọn lần lượt các thuộc tính:
Phạm vi biến số Y
Phạm vi biến số X
Trang 13 Nhãn dữ liệu
Mức tin cậy 95%
Tọa độ đầu ra (Output Range):
Trang 14 Kết quả và biện luận:
Phương trình đường hồi quy:
Y X1 = f(X 1 ) = 3.3634 + 0.001145X 1 với R2 = 0.0313636 và S = 0.720995747 t0 = 8.154706311 > t0.05 = 2.365 (tra bảng VII với n = 7, α = 0.025)
hay 9.95241E-06< α = 0.05
Trang 15
Bài 4: Với mức ý nghĩa 0.05% hãy phân tích sự biến đ ng của thu nh p ($/thang/người) trên ộng của thu nhập ($/thang/người) trên ập dữ liệu vào bảng tinh:
cơ sở số li u điều tra về thu nh p trung bình của 4 loại ngành nghề ở 4 khu vực khác nhau sau ệu vào bảng tinh: ập dữ liệu vào bảng tinh: đây:
Loại ngành
nghề
Nơi làm việc
1 Cơ sở lý thuyết:
Phân tích phương sai hai nhân tố (không lặp)
Khái niệm thống kê:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Yij (i=1.2…r: yếu tố A; j=1.2…c: yếu tố B)
Mô hình
Yếu tố A
cộng
Trung bình
Tổng
Trung
Trang 16Bảng Anova:
Nguồn sai
số Bậc tự do Tổng số bình phươg
Bình phương trung
bình Giá trị thống kê Yếu tố A
r i
i
rc
T
1
2
2
MSB=
1
r
SSB
FR=
MSE MSB
Yếu tố B
(cột)
Sai số
r-1
(r-1)(c-1)
SSB=
c
j
j
rc
r T
T
1
2
2
SSE=SST – (SSF +
SSB)
MSF=
1
c SSF
MSB=
1
r SSB
FC=
MSE MSF
Tổng
cộng
r
i
c
j Yij T r
1 1
2
2
Trắc nghiệm:
Giả thiết: H0: μ1 = μ2= …=μk “Các giá trị trung bình bằng nhau”Các giá trị trung bình bằng nhau”
H1: μi ≠ μj “Các giá trị trung bình bằng nhau”Có ít nhất 2 giá trị trung bình khác nhau”
Giá trị thống kê: FR=
MSE
MSB
và FC=
MSE MSF
Biện luận: Nếu FR < Fa[b-1,(k-1)(b-1)] => chấp nhận H0 (yếu tố A)
Nếu FC < Fa[k-1,(k-1)(b-1)] => chấp nhận H0 (yếu tố B)
Trang 172 Giải dùng MS-EXCEL:
Nhập dữ liệu vào máy tính:
Nhấp lần lượt đơn lệnh Tools và lệnh Data analysis:
Chọn chương trình Anova: two-Factor without replication trong hộp thoại Data analysis
rối nhấp nút OK
Trang 18 Trong hộp thoại Anova: two-Factor without replication, lần lượt ấn định các chi tiết.
Phạm vi đầu vào (input Range)
Nhãn dữ liệu (label in First Row/Column)
Ngưỡng tin cậy ( hoặc mức ý nghĩa): alpha
Phạm vi đầu ra (output range)
Trang 19 Sau đó so sánh kệt quả và biện luận
Kết luận:
- F(rows) = 8.7831 > F crit =3.862548 => Bác bỏ giả thiết H0
Các loại ngành nghề tạo ra thu nhập trung bình không như nhau
- F(columns) = 1.232806 < F crit = 3.862548 => chấp nhận giả thiết H0
Các nơi làm việc tạo ra thu nhập trung bình như nhau
Vậy thu nhập khác nhau nếu xét các loại ngành nghề, còn thu nhập như nhau nếu xét về nơi làm việc