BÀI LÀM - Dạng bài: Kiểm định giả thuyết cho phương sai 2 tổng thể - Công cụ: F-Test Two-Sample for Variances - Cơ sở lý thuyết: + Khi cần kiểm định 2 tổng thể có biến động như nhau hay
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
TPHCM Khoa Kỹ Thuật Xây Dựng
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
HK 182
Giáo viên hướng dẫn: Nguyễn Kiều Dung
Nhóm 05
Đề tài 05
Trang 2Danh sách các thành viên trong nhóm 5, đề tài 05
Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng
các dữ liệu đó cho các yêu cầu sau:
Trang 31) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ biểu đồ histogram (biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu
đồ mật độ với dữ liệu (A)
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sátvới độ tin cậy 95% với dữ liệu (A)
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không (lưu ý phải sử dụng các hàm thống kê trong excel)
Tài liệu tham khảo chính cho các yêu cầu từ 1) - 4) là sách Thống kê ứng dụng, Chương số 3 Số các khoảng chia theo hướng dẫn của sách là một công thức để tham khảo Khái niệm biểu đồ mật độ không được trình bày trong sách này.
Bài làm
Dạng bài: Thống kê mô tả.
Dữ liệu (A): Khảo sát thời gian tự học của 36 sinh viên trong một ngày ta có bảng số
liệu: Thời gian (phút)
Trang 4KSTN Kỹ thuật công trình xây dựng
Kỹ thuật công trình xây dựngXây dựng công trình giao thông
Kỹ thuật công trình biển
Kỹ thuật cơ sở hạ tầng
Kỹ thuật công trình thủy
1 Thực hiện phương pháp phân tổ dữ liệu (A)
- Nhập dữ liệu (A) vào Excel:
Chọn ô A9 nhập vào biểu thức =(Max(A1:F6)-Min(A1:F6))/4Kết quả 105
Chọn h =105
- Ta xác định được các cận trên và cận dưới các tổ lần lượt là: Tổ 1: 60 – 165
Tổ 2: 165 – 270
Tổ 3: 270 – 375
Trang 5Tổ 4: 375 – 480
- Nhập vào các ô từ A12 đến A16 lần lượt các giá trị
- Chọn chức năng Data/ Data Analysis/Histogram Trong đó:
+ Input Range: Địa chỉ tuyệt đối chứa dư liệu
+ Bin Range: Địa chỉ chứa bảng phân nhóm
+ Output options: Vị trí xuất kết quả
+ Confidence Level for Mean: Độ tin cậy cho trung bình
+ Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tính tần số
- Ta được kết quả:
Trang 6- Có thể chỉnh lại như sau:
2 Vẽ biểu đồ histogram (biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu đồ mật độ với dữ liệu (A)
a Biểu đồ Histogram - Nhập dữ liệu
- Quét chọn vùng vừa nhập
- Dùng chức năng Insert Histogram trên menu Insert
Trang 9- Chọn chức năng Data/Data Analysis/Descriptive Statistics Trong đó:+ Input Range: địa chỉ tuyệt đối chứa dư liệu.
+ Output options: vị trí xuất kết quả
+ Confidence Level for Mean: độ tin cậy cho trung bình
Trang 104 Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị - Nhập dữ liệu
vào bảng tính
- Tính tỉ lệ sinh viên từng ngành Nhập vào C2: =B2/sum(B2:B7) làm tương tự với các ô khác bằng cách thay giá trị B2 lần lượt thành B3, B4, B5, B6, B7 Ta được:
Trang 13Bài 2:
Theo dõi doanh số bán hàng trong mỗi ngày của 2 cửa hàng, người ta thu được kết quảsau:
Cửa 8.8 8.3 5.4 6.2 5.6 6.3 7.4 8.4 7.9 7.2 6.5 6.2 7.4 7.5hàng 1
Cửa 8.8 9.0 5.1 4.2 4.1 5.8 6.3 6.7 5.6 6.7 8.7 7.6
hàng 2
Với mức ý nghĩa 3%, có thể cho rằng doanh số bán hàng của 2 cửa hàng có sự phân
tán như nhau hay không? Giả thiết doanh số bán hàng mỗi ngày của các cửa hàng tuân
theo quy luật chuẩn
BÀI LÀM
- Dạng bài: Kiểm định giả thuyết cho phương sai 2 tổng thể
- Công cụ: F-Test Two-Sample for Variances
- Cơ sở lý thuyết:
+ Khi cần kiểm định 2 tổng thể có biến động như nhau hay không ta dùngphương pháp kiểm định định phương sai của hai tổng thể độc lập dựa trên một đại lượng Fnhư sau:
1
s22
Với: s21là phương sai của mẫu thứ nhất, mẫu này có cỡ
n1 s22 là phương sai của mẫu thứ hai, mẫu này có cỡ n2
+ Để xác định mẫu thứ nhất, mẫu thứ hai ta làm như sau: Khi tính F, giá trị
phương sai lớn hơn sẽ được đặt ở tử số, như vậy mẫu tương ứng với phương sai đó là mẫu thứ nhất
Trang 14+ Giả thiết đặt ra là kiểm định hai bên:
H 0:σ21=σ22
H 1: σ21≠ σ 22
+ Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng
thể khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng hộ giả
thuyết H0 Như vậy tỉ lệ F lớn đến đâu thì xem như là đủ bằng chứng bác bỏ H0 và ngượclại
+ Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có
phân phối xác suất gọi tên là phân phối Fisher Các giá trị tới hạn của phân phối F phụ
thuộc và hai giá trị bậc tự do, bậc tự do tử số (df 1 =n1−1) gắn liền với mậu thứ nhất và
bậctuự do mẫu số gắn liền với mẫu thứ hai (df 2 =n2−1)
+ Quy tắc thực sự để bác bỏ H0 với kiểm định hai bên khi df 1 =n1−1 và df 2
=n2−1, mức ý nghĩa là: giả thiết H0 bị bác bỏ nếu giá trị kiểm định F lớn
hơn giá trị tới hạn trên của phân phối F hoặc bé hơn giá trị tới
Trang 15THỰC HIỆN BÀI TOÁN BẰNG EXCEL
Trang 16Kết quả:
Biện luận:
Giả thiết H0 : σ21=σ22 “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”
H 1: σ21 >σ22: “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Doanh số bán hàng của 2 cửa hàng không phân tán như nhau”
F = 0.3605 ¿ F 0.03 = 0.32844 → Bác bỏ giả thuyết H0
Vậy: Doanh số bán hàng của 2 cửa hàng không phân tán như nhau.
Trang 17BÀI 3: Doanh số bán hàng (triệu đồng) của 4 cửa hàng trong 6 tuần đầu của mùa
hè được cho trong bảng số liệu sau:
**Dạng bài toán: Kiểm định về giá trị trung bình (Kiểm định giả thuyết có tham số)
**Phương pháp: PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
+Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm (tổng thể)
dựa trên các số trung bình của các mẫu quan sát từ các nhóm này và thông qua kiểmđịnh giả thuyết để kết luận về sự bằng nhau của các số trung bình này
+Phân tích phương sai một yếu tố là phân tích ảnh hưởng của một yếu tố nguyên
nhân (dạng biến dữ liệu định tính) đến một yếu tố kết quả (dạng biến dữ liệu địnhlượng) đang nghiên cứu
***Mô hình
Trang 18⁂ Trắc nghiệm: · Giả thiết:
- H0: “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Các giá trị trung bình bằng nhau”
- H1: “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Ít nhất có hai giá trị trung bình khác nhau”
· Giá trị thống kê:
F=MSFMSE
Trang 19· Biện luận: Nếu F < Fα(k-1;N-k) => chấp nhận giả thiết H0
⁂ Bài làm:
***Giả thiết:
*H0: Doanh thu của các cửa hàng là như nhau
*H1: Ít nhất có hai giá trị trung bình doanh thu khác nhau
⁂ Thực hiện bài toán trên excel
***Nhập bảng dữ liệu:
***Áp dụng “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Anova: Single Factor”
+++Vào Data/ Data Analysis/Anova: Single Factor
+++ Trong hộp thoại Anova: Single Factor lần lượt ấn định các chi tiết:
Trang 20***Chọn các mục như hình:
*Input Range: địa chỉ tuyệt đối chứa dư liệu
*Output options: vị trí xuất kết quả
*Apha: mức ý nghĩa
***Kết quả:
Trang 21Từ giá trị trong bảng Anova:
Trang 22Khi đã nhập ta được kết quả như sau:
Bài 4:
Đặt và giải một bài toán kiểm định tính độc lập ( so sánh các tỷ lệ)
Trang 23Bảng số liệu cho biết chỉ tiêu tuyển sinh của đại học Bách Khoa TPHCM qua các năm.
Số liệu được lấy từ trang chủ của trường đại học Bách Khoa TPHCM
Với mức ý nghĩa = 1%, hãy so sánh phân bố tỉ lệ tuyển sinh của trường đại học Bách Khoa TPHCM qua các năm
BÀI LÀM:
Trang 24- Dạng thống kê kiểm định thông dụng nhất là:
γ 2 = (o−e )2 e
Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác
Xét một bộ A gồm r tính trạng, A = (A1, A2, Ar), trong đó mỗi cá thể của tập hợpchính H có và chỉ có một trong các tính trạng (hay phạm trù) Ai
Gọi pi (i = 1, 2, r) là tỷ lệ cá thể tính trạng Ai trong tập hợp chính H Khi đó véctơ
=(p1, p2, pr) được gọi là phân bố của A trong tập hợp chính H
Giả sử (p1, p2, pr) là phân bố của (A1, A2, Ar) trong tập hợp chính H và (q1,
q2, qr) là phân bố của A = (A1, A2, Ar) trong tập hợp chính Y Ta nói (A1, A2 Ar) cóphân bố như nhau trong X và Y nếu (p1, p2, pr) = (q1, q2, qr) p1 = q1, pr = qr
Chúng ta muốn kiểm định xem A = (A1, A2, Ar) có cùng phân số trong X và Y haykhông dựa trên các mẫu ngẫu nhiên rút từ X và Y
Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2, Hk Gọi i p
1i , p
2i , pi
là phân
bố của A = (A1, A2, Ar) trong tập hợp chính Hi
Ta muốn kiểm định giả thuyết sau:
H
o
:
1 2 k
(Các phân bố này là như nhau trên các tập hợp chính Hi).
Chú ý rằng H0 tương đương với hệ đẳng thức sau:
Trang 25Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên Mẫu ngẫu nhiên chọn
từ tập hợp chính Hi được gọi là mẫu ngẫu nhiên thứ i (i = 1, 2, k)
Giả sử trong mẫu ngẫu nhiên thứ i:
Như vậy n0j là kích thước của mẫu thứ j, còn nio là tổng số cá thể có tính trạng Ai trong
toàn bộ k mẫu đang xét:
Trang 26thì các tỷ lệ chung p1, p2, pr được ước lượng bởi: pi
n
Đó ước lượng cho xác suất để một cá thể có mang tính trạng Ai khi đó số cá thể có
tính trạng Ai trong mẫu thứ j sẽ xấp xỉ bằng:
Trang 27Ta quyết định bác bỏ Ho khi các TSLT cách xa TSQS một cách bất thường.
Khoảng cách giữa TSQS và TSLT được đo bằng test thống kê sau đây:
Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó,
nij: tần số thực nghiệm; npij: tần số lý thuyết của ô (i,j); r: số hàng; c: số cột
Dùng hàm CHITEST (actual_range, expected_range)
Tính giá trị: P (X > γ2 )=CHITEST
Nếu: P (X > γ2 )>α thì chấp nhận H0 và ngược lại
Trang 28Nhập dữ liệu vào bảng tính:
Tính tổng các hàng và các cột
Tính các tần số lý thuyết: tần số lý thuyết = (Tổng hàng ×Tổng cột)/(Tổngcộng):
Trang 29Sử dụng hàm CHITEST tính xác suất P(X> 2 ):
Kết quả và biện luận:
Giả thiết :H0: Chỉ tiêu tuyển sinh của trường độc lập với năm tuyển sinh
H1:Chỉ tiêu tuyển sinh của trường không độc lập với năm tuyển sinh
Ta có: P(X> 2 ) = 6,72279E-13 < α
Bác bỏ giả thiết H0, chấp nhận giả thiết H1
Vậy: Chỉ tiêu tuyển sinh của trường không độc lập với năm tuyển sinh.
Bài 5:
a)Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô
Trang 30hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X,Y
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ
3) Tìm sai số chuẩn của ước lượng
b) Tìm một dữ liệu ngẫu nhiên k chiều (k >2) để sử dụng mô hình hồi quy tuyến tính
đa biến Tìm các hệ số hồi quy tuyến tính mẫu và kết luận về sự thích hợp
Bài làm
I. Cơ sở lý thuyết:
1.Tìm hệ số tương quan giữa X và Y
Hệ số tương quan mẫu là một số đo về sự hiệp biến tuyến tính của các biến số,
nghĩa số đo về mức độ kết hợp tuyến tính giữa các biến số Được xác định bởi:
Hệ số tương quan R=∑
x i y j + ∑ x i ∑ y i
√¿¿¿¿
Nếu R>0 thì X ,Y tương quan thuận
Nếu R<0 thì X ,Y tương quan nghịch
Nếu R=0 thì X ,Y không tương quan
Nếu |R|=1 thì X ,Y có quan hệ hàm số bậc nhất
Nếu ¿ R∨→ 1 thì X ,Y có tương quan chặt (tương quan mạnh)
Nếu |R|→ 0 thì X ,Y có tương quan không chặt (tương quan
yếu) |R|> 0.8: tương quan tuyến tính rất mạnh |R|=0.6−0.8:
tương quan tuyến tính mạnh
|R|=0.4−0.6: có tương quan tuyến tính
Trang 31|R|=0.2−0.4: tương quan tuyến tính yếu
|R|< 0.2: tương quan tuyến tính rất yếu hoặc không có tương quan tuyến tính
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không ? Giả thiết H0: R=0 (X và Y không có tương quan tuyến tính)
H1: R≠0 (X và Y có tương quan tuyến tính)
Ta thấy: |t|>2.228 nên ta quyết định bác bỏ H0
3) Ước lượng đường hồi quy tuyến tính của Y theo X Hồi quy đơn tuyến tính:
Kiểm định phương trình hồi quy
- Giả thiết H0: “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Phương trình hồi quy tuyến tính không thích hợp”
H1: “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Phương trình hồi quy tuyến tính thích hợp”
Trang 32- Trắc nghiệm F< F α ,1 , n− 2
II Giải bài toán trên excel:
a) Thống kê nhiệt độ và lượng mưa năm 2016 được thể hiện trong bảng dưới đây:
Lượng mưa năm
Trang 33Chọn chức năng Data/Data Analysis/Correlation
Trong hộp thoại Correlation:
Trang 34Phần “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Input” (phạm vi đầu vào) có mục “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Input Range” là địa chỉ tuyệt đối chứa dữ liệu tương ứng của mẫu: quét khối dữ liệu để chọn hoặc nhập $A$1:$B$16Phần “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Grouped By” chọn “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Columns”
Chọn mục Labels in first row (nhãn dữ liệu) để hiển thị nhãn
Phần “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Output options” (Phạm vi đầu ra) chọn mục “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $D$1
Nhấn chọn OK và phần mềm Excel sẽ cho ta kết quả:
=> Ta có hệ số tương quan là R = 0.8126 chứng tỏ giữa lượng mưa năm 2016
và độ ẩm năm 2016 thu được có quan hệ khá chặt chẽ và có tương quan thuận.2) Kiểm định quan hệ tuyến tính và ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ
Kiểm định quan hệ tuyến tính
Trang 35+ Công cụ thực hiện: Tính trực tiếp bằng hàm
Tính T : chọn ô E4 và nhập biểu thức =E3*SQRT(16-2)/SQRT(1-E3^2)Tính c: chọn ô B6 và nhập biểu thức =TINV(0.05,14) (c là phân vị mứcα/2=0.025 của phân bố Student với n-2=14 bậc tự do)
Ta được kết quả:
Vì |t| > c nên bác bỏ giả thiết H0
Vậy: X và Y có tương quan tuyến tính
Ước lượng đường hồi quy tuyến tính y theo x và biểu thị bằng hình
vẽ Công cụ thực hiện: áp dụng “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.regression”
Chọn chức năng Data/Data Analysis/ Regression
Phần “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Input” (phạm vi đầu vào) gồm hai mục:
Trang 36- Input Y Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của : quét khối chọn dữliệu hoặc nhập $B$1:$B$16
- Input X Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của Nhiệt độ: quét khốichọn dữ liệu hoặc nhập $A$1:$A$16
Confidence Level: độ tin cậy ( để ở dạng phần trăm, ở bài này nhập độ tin cậybằng 95%)
Chọn mục Labels (nhãn dữ liệu) để hiển thị tiêu đề
Phần “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Output options” (Phạm vi đầu ra) chọn mục “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $D$8
Line Fit Plots: Xuất ra đồ thị
Nhấn chọn OK và phần mềm Excel sẽ cho ta kết quả:
Trang 38+ Xử lí đồ thị: vào Chart Tools/Quick Layout/Layout 3:
Predicted Lượng mưa năm 2016
Linear (Predicted Lượng mưa năm 2016)
+ Biện luận:
Trang 39Phương trình hồi quy:y x = -1528.1791 + 23.4612x y´ x=−1898347+17.3974 x
Hệ số hồi quy: 0.0029<0.05 Hệ số tự do có ý nghĩa
0.0013 < 0.05 Hệ số của x có ý nghĩa
3) Tìm sai số chuẩn của ước lượng:
- Đối với biến tự do: SE = 391.5688
- Đối với biến X: SE = 5.3207
b) Khảo sát đường dài 10m ta thấy được mối quan hệ giữa tốc độ pha với tần số của sóng và độ thẩm điện của môi trường Khảo sát với các mốc tần số 5, 10, 15, 20MHz và trong các môi trường không khí ( r =1), dầu hỏa ( r =2.1), ebonite ( r
=2.7), thạch anh ( r =4.5)
Trang 40Độ thẩm điện Tần số sóng(MHz) Tốc độ pha (rad/s)
Dạng bài: Hồi quy tuyến tính đa tham số
Công cụ: Sử dụng “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Regression”
Thực hiện bài tập trên excel
Nhập dữ liệu vào trang tính:
Trang 41Vào Data/Data Analysis/Regression.
Trang 42Phần “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Input” (phạm vi đầu vào) gồm hai mục:
-Input Y Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của : quét khối chọn dữliệu hoặc nhập $C$1:$C$17
-Input X Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của Nhiệt độ: quét khối chọn
dữ liệu hoặc nhập $A$1:$B$17
Confidence Level: độ tin cậy ( để ở dạng phần trăm, ở bài này nhập độ tin cậybằng 95%)
Chọn mục Labels (nhãn dữ liệu) để hiển thị tiêu đề
Phần “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Output options” (Phạm vi đầu ra) chọn mục “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”.Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $E$1
Line Fit Plots: Xuất ra đồ thị
Nhấn chọn OK ta được kết quả: