Để đánh giá xem thị phần mà công ty có thể chiếm lĩnh được tại ba thị trường đó so với các đối thủ cạnh tranh có khác nhau hay không người ta đã thủ nghiệm thị trường bằng cách bán thử s
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BÁO CÁO MÔN XÁC SUẤT THỐNG KÊ
GVHD: PGS.TS NGUYỄN ĐÌNH HUY
NHÓM : 8
THÁNG 8/2012
Trang 2BÀI TẬP LỚN MÔN XÁC SUẤT THỐNG KÊ Người viết Bùi Công Huy Cường
Mã số sinh viên 41100438
Giảng viên hướng dẫn PGS.TS Nguyễn Đình Huy
DANH SÁCH THÀNH VIÊN NHÓM 8 STT Họ và tên Mã số sinh viên
4 Bùi Công Huy Cường ( nhóm trưởng ) 41100438
Trang 3a) Tìm đường hồi quy của Y đối với X
b) Tính sai số tiêu chuẩn của đường hồi quy
c) Tính tỷ số F để kiểm định giả thiết có hồi quy tuyến tính giữa Y với X
3 Một công ty muốn mở rộng việc bán sản phẩm sang 3 thị trường nước ngoài Để đánh giá xem thị phần mà công ty có thể chiếm lĩnh được tại ba thị trường đó so với các đối thủ cạnh tranh có khác nhau hay không người ta đã thủ nghiệm thị trường bằng cách bán thử sản phẩm cho 150 khách hàng tiềm năng tại mỗi thị trường và thu được kết quả sau:
Thị trường
Đối thủ cạnh tranh 1 28 30 21 Đối thủ cạnh tranh 2 20 18 31 Các đối thủ khác 47 64 74 Hãy tìm P-value để kiểm định xem cơ cấu của ba thị trường trên có khác nhau hay không
Trang 44.Người ta tiến hành đo mực nước sông tại một số địa điểm thuộc tỉnh X trong cùng một
ngày (số lần đo không giống nhau) và thu được bảng số liệu sau đây:
Thời điểm đo Địa điểm đo
4,9 5,1 6,5 5,4 6,1
4,6 4,8 5,8 5,1 6,2 7,1
4,5 6,2 4,8 4,8 6,5 6,8
Với mức ý nghĩa = 2%.Mực nước sông trung bình/ngày của các điểm nói trên có thực sự khác nhau không?
5 Với mức ý nghĩa = 5% So sánh chi phí cho ba loại dịch vụ ở ba thành phố khác nhau bằng phương phương phân tích phương sai trên cơ sở bảng số liệu sau đây:
Thành phố Loại dịch vụ
I
II III
Trang 5BÀI 1: Trình bày lại ví dụ 3.4 trang 207 và ví dụ 4.2 trang 216 Giáo Trình XSTK
216
Ví dụ 3.4: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu theo
3 yếu tố pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng sau:
Phân tích phương sai ba yếu tố:
- Sự phân tích này được dùng để đánh giá về sự ảnh hưởng của 3 yếu tố trên các giá trị quan sát G (yếu tố A:i=1 r, yếu tố B: j=1 r, yếu tố C: k=1 r)
- Mô hình: khi nghiên cứu ảnh hưởng của 2 yếu tố, mỗi yếu tố có n mức thì người
ta dùng mô hình hình vuông la tinh nn Ví dụ:
A
Yếu tố B
A1 C1 Y111 C2 Y122 C3 Y133 C4 Y144 T1 A2 C2 Y212 C3 Y223 C4 Y234 C1 Y241 T2 A3 C3 Y313 C4 Y324 C1 Y331 C2 Y342 T3 A4 C4 Y414 C1 Y421 C2 Y412 C3 Y443 T4
Trang 6- Bảng Anova
Trắc nghiệm:
Giả thiết H0: μ1 =μ2= …μk “Các giá trị trung bình bằng nhau”
H1: μi ≠μj “Có ít nhất 2 giá trị trung bình khác nhau”
2/ Áp dụng Excel:
Nhập dữ liệu vào bảng :
Thiết lập các biểu thức và tính các giá trị thống kê
Tính Ti: Chọn ô B7 và nhập biểu thức = SUM(B2:E2)
Chọn ô C7 và nhập biểu thức = SUM(B3:E3)
Chọn ô D7 và nhập biểu thức = SUM(B4:E4)
Chọn ô E7 và nhập biểu thức = SUM(B5:E5)
Tính Tj: Chọn ô b8 và nhập biểu thức =SUM(B2:B5)
Dùng con trỏ kéo kí hiệu từ điền từ ô B8 đến ô E8
Tính Tk: Chọn ô B9 và nhập biểu thức = SUM(B2, C5,D4,E3)
Chọn ô C9 và nhập biểu thức = SUM(B3, C2,D5,E4)
Chọn ô D9 và nhập biểu thức = SUM(B4, C3,D2,E5)
Chọn ô E9 và nhập biểu thức = SUM(B5, C4,D3,E2)
Tính T: Chọn ô B10 và nhập biểu thức =SUM(B2:E5)
Tính các giá trị của ô G: Chọn ô G và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo kí hiệu tự điền từ ô G7 đến ô G9
r
1
2
2
2
2
r
1
2
2
2
2
Trang 7Chọn ô G10 và nhập biểu thức =POWER(B10,2) Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5) Tính các giá trị SSR, SSC,SST, SSE
Dùng con trỏ kéo kí hiệu tự điền từ ô M7 đến M9
Kết quả và biện luận: FR=3.106< F0.05(3.6)= 4.76, nên chấp nhận H0 (pH)
FC=11.95> F0.05(3.6)= 4.76 ,nên bác bỏ H0 (nhiệt độ) F=30.05> F0.05(3.6)= 4.76, nên bác bỏ H0 (chất xúc tác)
Vậy chỉ có nhiệt độ và chất xúc tác gây ảnh hưởng tới hiệu suất
Trang 8Ví dụ 4.2: Người ta dùng ba mức nhiệt độ gồm 105, 120, 135 o C kết hợp với ba
khoảng thời gian là 15, 30, 60 phút để thực hiện một phản ứng tổng hợp Các hiệu suất của các phản ứng (%) được trình bày trong bảng sau :
Thời gian (phút)
Nhiệt độ ( o C) Hiệu suất (%)
Hãy cho biết yếu tố nhiệt độ và/hoặc yếu tố thời gian có liên quan tuyến tính với hiệu
phút, hiệu suất phản ứng sẽ là bao nhiêu?
BÀI LÀM
1/ Cơ sở lý thuyết:
Đây là một bài toán hồi quy tuyến tính đa tham số, trong đó, Y (hiệu suất) liên quan đến hai biến số X1 (thời gian), X2 ( nhiệt độ)
Sau khi tìm các giá trị thống kê, ta sẽ có hai phần trắc nghiệm hồi quy gồm :
- Trắc nghiệm t: so sánh giá trị t với giá trị t0,05, bậc tự do là γ = N-k-1 (k là số biến) (tra bảng Student)
Kiểm định các giả thuyết: H0: “ Các hệ số hồi quy không có ý nghĩa”
H1:”Có ít nhất vài hệ số hồi quy có ý nghĩa”
- Trắc nghiệm F: so sánh giá trị F với giá trị F0,05, bậc tự do là n1=1, n2=N-k-1 (tra bảng Fisher)
Kiểm định các giả thuyết: H0: “Phương trình hồi quy không thích hợp”
H1: “Phương trình hồi quy thích hợp”
2/ Áp dụng Excel:
Nhập bảng dữ liệu:
Dữ liệu bắt buộc phải được nhập theo cột
Trang 9
Sử dụng công cụ Regression:
Vào Data > Data Analysis Chọn mục Regression
Trong cửa sổ Regression, nhập vào các dữ liệu sau: Input Y range (phạm vi biến số Y) Input X range (phạm vi biến số X) Labels (nhãn dữ liệu)
Confidence Level (mức tin cậy) Ouput Range (tọa độ đầu ra)
Một vài tùy chọn khác: Line Fit Plots ( đường hồi quy), Residual Plots ( biểu thức sai số)
1 Phương trình hồi quy của Y theo X1
Phương trình hồi quy : Y = 2.7367 +0.04454X1 (R2=0.2139, S=1.8112); N=9; k=1;
t0=t Stat(Intercept)=2.129 < t0,05(7)=2.365 (hay P value=0.0708 > α=0.05)
Trang 10Kết luận: Yếu tố thời gian không có liên quan tuyến tính với hiệu suất phản ứng tổng hợp
2 Phương trình hồi quy của Y theo X2
Trang 11Phương trình hồi quy: Y = -11.1411 +0.12856X2 (R2=0.7638; S=0.9929);N=9; k=1;
t0= t Stat(Intercept) =3.4178 > t0,05(7)=2.365 (hay P value=0.0112 < α=0.05)
Vậy các hệ số của phương trình hồi quy Y = -11.1411 +0.12856X2 đều có ý nghĩa thống
kê Nói cách khác, phương trình hồi quy này thích hợp
Kết luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất phản ứng tổng hợp
3 Phương trình hồi quy của Y theo X1 và X2
Trang 12Phương trình hồi quy : Y = -12.7 + 0.0445X1 + 0.1286X2 (R2=0.9777; S=0.3297); N=9; k=2;
t0= t Stat(Intercept) =1.1016 > t0,05(6)=2.447 (hay P value=0.000026 < α=0.05)
Để dự đoán hiệu suất của phản ứng bằng phương pháp hồi quy
Y = -12.7 + 0.0445X1 + 0.1286X2 , ta thay các giá trị X1, X2, thì sẽ được kết quả
X1=50, X2=115 :
Vậy với X1=50, X2=115, Y= 4.310873016
Trang 13Bài 2
Đo đường kính X và chiều cao Y của 20 cây ta thu được số liệu:
X 4,1 4,2 4,4 4,7 5,1 5,5 5,8 6,2 6,9 6,9
a) Tìm đường hồi quy của Y đối với X
b) Tính sai số tiêu chuẩn của đường hồi quy
c) Tính tỷ số F để kiểm định giả thiết có hồi quy tuyến tính giữa Y với X
Giả thiết Ho : X và Y hồi quy tuyến tính
Trắc nghiệm F
Giả thiết: H0: B i=0 “Phương trình hồi quy không thích hợp”
H0: Bi ≠ 0 “Phương trình hồi quy thích hợp”
X 2,3 2,5 2,6 3,1 3,4 3,7 7,3 3,9 4 4,1
Trang 14- Sau đó vào Data /Data analysis, chọn Regression
- Trong hộp thoại Regression lần lượt ấn định:
Phạm vi đầu vào: Input Y Range, quét vùng (C3:C23)
Input X Range, quét vùng (B3:B23)
Chọn Labels (nhãn dữ liệu)
Phạm vi đầu ra: Output Range (chọn ô E3)
Chọn Line Fit Plots trong Residuals để vẽ đường hồi quy
Trang 15- Sau đó nhấn OK ta có kết quả :
Kết luận :
- Đường hồi quy của Y đối với X l : Y=1.67689X+1.045276
- Sai số tiêu chuẩn của đường hồi quy : 2,22
- Ta thấy: F = 24,3 > c = 4,41
(tra bảng phân bố Fischer với bậc tự do (cột 1, hàng 18) ở mức 0,05)
Trang 16Vậy: có hồi quy tuyến tính giữa Y với X
Bài 3
Một công ty muốn mở rộng việc bán sản phẩm sang 3 thị trường nước ngoài Để đánh giá xem thị phần mà công ty có thể chiếm lĩnh được tại ba thị trường đó so với các đối thủ cạnh tranh có khác nhau hay không người ta đã thủ nghiệm thị trường bằng cách bán thử sản phẩm cho 150 khách hàng tiềm năng tại mỗi thị trường và thu được kết quả sau:
Thị trường
Đối thủ cạnh tranh 1 28 30 21 Đối thủ cạnh tranh 2 20 18 31 Các đối thủ khác 47 64 74 Hãy tìm P-value để kiểm định xem cơ cấu của ba thị trường trên có khác nhau hay không
Bài làm
Nhận xét: Đây là bài toán phân tích phương sai hai yếu tố không lặp
Trang 17Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát
Yij(i=1, 2…r:yếu tố A;j= 1 ,2…c:yếu tố B)
Giả thiết:
- H0: µ1= µ2=…µk <=> “Các giá trị trung bình bằng nhau”
- H1: µ1≠ µ2 <=> “Ít nhất có hai giá trị trung bình khác nhau”
Nhập giá trị vào bảng tính
Áp dụng “Anova: Two-Factor Without Replication”
a) Vào mục Data chọn Data Analysis
b) Chọn chương trình Anova: Two-Factor Without Replication trong hộp thoại Data
- Ngưỡng tin cậy(Alpha)
- Phạm vi đầu ra(Output Range) (chọn A7)
Chọn Anova: Two_Anova: Two-Factor Without Replication
Trang 18Quét Input Range, Ouput Range và chọn Labels
Ta thu được kết quả sau
Trang 19Biện luận:
P-value=1> 0,05 => Chấp nhận H0. Cơ cấu ba thị trường trên không khác nhau
Bài 4
Trang 20Người ta tiến hành đo mực nước sông tại một số địa điểm thuộc
tỉnh X trong cùng một ngày (số lần đo không giống nhau) và thu
được bảng số liệu sau đây:
Thời điểm đo
Địa điểm đo
4,9 5,1 6,5 5,4 6,1
4,6 4,8 5,8 5,1 6,2 7,1
4,5 6,2 4,8 4,8 6,5 6,8
Với mức ý nghĩa = 2% Mực nước sông trung bình/ngày của các điểm nói trên có thực sự khác nhau không?
Giải
Nhận xét: phân tích phương sai một yếu tố
Khái niệm thống kê:
+Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy từ các phân số.Đây cĩ thể được xem như phần mở rộng của trắc nghiệm t hay z (so sánh hai giá trị trung bình)
+Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu
tố nào đĩ đến các giá trị quan sát,Yi,(i=1,2,… ,k)
Trang 21Sai số
k-1 N-k
2 2
1
k i i
T T SSF
N N SSE SST SSF
+Giả thiết: H0:1 2 k ”Các giá trị trung bình bằng nhau”
H1:i j ”Ít nhất có hai giá trị trung bình khác nhau”
Trang 22Áp dụng “Annova: Single Factor”
- Vào mục Data chọn Data Analysis
- Chọn chương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút ok
- Trong hộp thoại Anova: Single Factor, lần lượt ấn định các chi tiết
- Phạm vi đầu vào (Input Range) (quét A2:E9)
- Chọn Labelsin first row
- Ngưỡng tin cậy (Alpha) là 0.02 (2%)
- Phạm vi đầu ra (Output Range) chọn H2
Chọn Anova: Single Factor
Chọn Phạm vi đầu vào, Nhãn, Alpha và Phạm vi đầu ra
Ta được kết quả:
Trang 23Biện luận:
F = 2.7613 < F0.02 = 3.5224 Chấp nhận giả thiết H0
Vậy mực nước sông trung bình/ngày của các điểm nói trên giống nhau
Bài 5
Trang 24Với mức ý nghĩa = 5% So sánh chi phí cho ba loại dịch vụ ở ba thành phố khác nhau bằng phương phương phân tích phương sai trên cơ sở bảng số liệu sau
Bài làm
Nhận xét:đây là bài tốn phân tích phương sai hai yếu tố khơng lặp
1/ Cơ sở lý thuyết:
Khái niệm thống kê
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát Yij (i=1.2…r: yếu tố A; j=1.2…c: yếu tố B)
Yếu tố A
Yếu tố B
Tổng cộng Trung bình
Trang 25T T
1
2
T T
1
2
MSB=
1
r SSB
FC=
MSE MSF
j ij
r
T Y
1 1
2
2
Trắc nghiệm:
Giả thiết: H0: μ1 = μ2= …=μk “Các giá trị trung bình bằng nhau”
H1: μi ≠ μj “Có ít nhất 2 giá trị trung bình khác nhau”
Biện luận: Nếu FR < Fa[b-1,(k-1)(b-1)] => chấp nhận H0 (yếu tố A)
Nếu FC < Fa[k-1,(k-1)(b-1)] => chấp nhận H0 (yếu tố B)
Giả thiết - H01: yếu tố thành phố khác nhau không ảnh hưởng đến chi phí
- H02: yếu tố dịch vụ khác nhau không ảnh hưởng đến chi phí
Nhập giá trị vào bảng tính
Áp dụng “Anova: Two-Factor Without Replication”
Trang 26a) Vào mục Data chọn Data Analysis
b) Chọn chương trình Anova: Two-Factor Without Replication trong hộp thoại Data
- Ngưỡng tin cậy (Alpha)
- Phạm vi đầu ra (Output Range) (chọn A7)
Chọn Anova: Two_ Anova: Two-Factor Without Replication
Quét Input Range, Ouput Range và chọn Labels
Ta thu được kết quả sau
Trang 27Kết luận
- FR =24.91589 > F0.05= 6.944272 nên bác bỏ giả thiết 1
- FC =24.74766 > F0.05= 6.944272 nên bác bỏ giả thiết 2
Vậy yếu tố thành phố và dịch vụ ảnh hưởng đến chi phí