2 Vẽ biểu đồ histogram biểu đồ phân bố tần số, biểu đồ tích lũy tần số, biểu đồ mật độ với dữ liệu A.. 3 Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sátvới đ
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA TPHCM
Khoa Kỹ Thuật Xây Dựng
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
HK 182
Giáo viên hướng dẫn: Nguyễn Kiều Dung
Nhóm 05
Đề tài 05
Trang 2Danh sách các thành viên trong nhóm 5, đề tài 05
Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng
các dữ liệu đó cho các yêu cầu sau:
Trang 31) Thực hiện phương pháp phân tổ dữ liệu (A)
2) Vẽ biểu đồ histogram (biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu
đồ mật độ với dữ liệu (A)
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sátvới độ tin cậy 95% với dữ liệu (A)
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào đó hay không (lưu ý phải sử dụng các hàm thống kê trong excel)
Tài liệu tham khảo chính cho các yêu cầu từ 1) - 4) là sách Thống kê ứng dụng, Chương số 3 Số các khoảng chia theo hướng dẫn của sách là một công thức để tham khảo Khái niệm biểu đồ mật độ không được trình bày trong sách này.
Bài làm
Dạng bài: Thống kê mô tả.
Dữ liệu (A): Khảo sát thời gian tự học của 36 sinh viên trong một ngày ta có bảng số
liệu: Thời gian (phút)
Trang 4KSTN Kỹ thuật công trình xây dựng 43
Xây dựng công trình giao thông 110
1 Thực hiện phương pháp phân tổ dữ liệu (A)
- Nhập dữ liệu (A) vào Excel:
Trang 5 Tổ 4: 375 – 480
- Nhập vào các ô từ A12 đến A16 lần lượt các giá trị
- Chọn chức năng Data/ Data Analysis/Histogram Trong đó:
+ Input Range: Địa chỉ tuyệt đối chứa dư liệu
+ Bin Range: Địa chỉ chứa bảng phân nhóm
+ Output options: Vị trí xuất kết quả
+ Confidence Level for Mean: Độ tin cậy cho trung bình
+ Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉtính tần số
- Ta được kết quả:
Trang 6- Có thể chỉnh lại như sau:
2 Vẽ biểu đồ histogram (biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu đồ mật độ với dữ liệu (A)
Trang 9- Chọn chức năng Data/Data Analysis/Descriptive Statistics Trong đó:
+ Input Range: địa chỉ tuyệt đối chứa dư liệu
+ Output options: vị trí xuất kết quả
+ Confidence Level for Mean: độ tin cậy cho trung bình
- Kết quả:
Trang 104 Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
- Nhập dữ liệu vào bảng tính
- Tính tỉ lệ sinh viên từng ngành Nhập vào C2: =B2/sum(B2:B7) làm tương tự
với các ô khác bằng cách thay giá trị B2 lần lượt thành B3, B4, B5, B6, B7 Ta được:
Trang 13Với mức ý nghĩa 3%, có thể cho rằng doanh số bán hàng của 2 cửa hàng có sự phân
tán như nhau hay không? Giả thiết doanh số bán hàng mỗi ngày của các cửa hàng tuân
theo quy luật chuẩn
BÀI LÀM
- Dạng bài: Kiểm định giả thuyết cho phương sai 2 tổng thể
- Công cụ: F-Test Two-Sample for Variances
- Cơ sở lý thuyết:
+ Khi cần kiểm định 2 tổng thể có biến động như nhau hay không ta dùngphương pháp kiểm định định phương sai của hai tổng thể độc lập dựa trên một đạilượng F như sau:
F= s1
2
s22
Với: s12là phương sai của mẫu thứ nhất, mẫu này có cỡ n1
s22 là phương sai của mẫu thứ hai, mẫu này có cỡ n2
+ Để xác định mẫu thứ nhất, mẫu thứ hai ta làm như sau: Khi tính F, giá trị phương sai lớn hơn sẽ được đặt ở tử số, như vậy mẫu tương ứng với phương sai
đó là mẫu thứ nhất
Trang 14+ Giả thiết đặt ra là kiểm định hai bên:
H0:σ12=σ22
H1: σ12≠ σ22
+ Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổngthể khó mà bằng nhau, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứngủng hộ giả thuyết H0 Như vậy tỉ lệ F lớn đến đâu thì xem như là đủ bằng chứngbác bỏ H0 và ngược lại
+ Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F cóphân phối xác suất gọi tên là phân phối Fisher Các giá trị tới hạn của phân phối
F phụ thuộc và hai giá trị bậc tự do, bậc tự do tử số (df1=n1−1) gắn liền vớimậu thứ nhất và bậctuự do mẫu số gắn liền với mẫu thứ hai (df2=n2−1)
+ Quy tắc thực sự để bác bỏ H0 với kiểm định hai bên khi df1=n1−1 và
df2=n2−1, mức ý nghĩa là: giả thiết H0 bị bác bỏ nếu giá trị kiểm định F lớnhơn giá trị tới hạn trên F U=F df 1; df 2; α/2 của phân phối F hoặc bé hơn giá trị tớihạn dưới F L=F df 1; df 2;1−α /2 tức là F tt<F df 1 ;df 2 ;1−α /2 hoặc F tt>F df 1 ;df 2 ;α /2
+ Nếu chúng ta kiểm định bên phải:
Trang 15THỰC HIỆN BÀI TOÁN BẰNG EXCEL
Trang 16Kết quả:
Biện luận:
Giả thiết H0:σ12
=σ22 “Doanh số bán hàng của 2 cửa hàng có sự phân tán như nhau”
H1: σ12>σ22: “Doanh số bán hàng của 2 cửa hàng không phân tán như nhau”
F = 0.3605 ¿ F 0.03 = 0.32844 → Bác bỏ giả thuyết H0
Vậy: Doanh số bán hàng của 2 cửa hàng không phân tán như nhau.
Trang 17BÀI 3: Doanh số bán hàng (triệu đồng) của 4 cửa hàng trong 6 tuần đầu của mùa hè
được cho trong bảng số liệu sau:
Tuần Tuần Tuần Tuần Tuần
**Dạng bài toán: Kiểm định về giá trị trung bình (Kiểm định giả thuyết có tham số)
**Phương pháp: PHÂN TÍCH PHƯƠNG SAI MỘT YẾU TỐ
+Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm (tổng thể)
dựa trên các số trung bình của các mẫu quan sát từ các nhóm này và thông qua kiểmđịnh giả thuyết để kết luận về sự bằng nhau của các số trung bình này
+Phân tích phương sai một yếu tố là phân tích ảnh hưởng của một yếu tố nguyên
nhân (dạng biến dữ liệu định tính) đến một yếu tố kết quả (dạng biến dữ liệu địnhlượng) đang nghiên cứu
***Mô hình
Trang 18- H0: “Các giá trị trung bình bằng nhau”.
- H1: “Ít nhất có hai giá trị trung bình khác nhau”
· Giá trị thống kê: F=
MSF MSE
Trang 19· Biện luận: Nếu F < Fα(k-1;N-k) => chấp nhận giả thiết H0
⁂ Bài làm:
***Giả thiết:
*H0: Doanh thu của các cửa hàng là như nhau
*H1: Ít nhất có hai giá trị trung bình doanh thu khác nhau
⁂ Thực hiện bài toán trên excel
***Nhập bảng dữ liệu:
***Áp dụng “Anova: Single Factor”
+++Vào Data/ Data Analysis/Anova: Single Factor
+++ Trong hộp thoại Anova: Single Factor lần lượt ấn định các chi tiết:
Trang 21Từ giá trị trong bảng Anova:
Trang 22Khi đã nhập ta được kết quả như sau:
Bài 4:
Đặt và giải một bài toán kiểm định tính độc lập ( so sánh các tỷ lệ)
Trang 23Bảng số liệu cho biết chỉ tiêu tuyển sinh của đại học Bách Khoa TPHCM qua các năm.
Số liệu được lấy từ trang chủ của trường đại học Bách Khoa TPHCM
Với mức ý nghĩa = 1%, hãy so sánh phân bố tỉ lệ tuyển sinh của trường đại họcBách Khoa TPHCM qua các năm
BÀI LÀM:
Dạng bài: Kiểm định giả thiết về tỉ lệ.
Phương pháp giải: Áp dụng Kiểm định chi bình phương 2
Công cụ giải: hàm CHITEST trên Excel.
Cơ sở lý thuyết:
- Trong thống kê, kiểm định chi bình phương hay kiểm tra 2 (đôi khi đọc là "khibình phương") là một họ các phương pháp kiểm định giả thiết thống kê trong đóthống kê kiểm định tuân theo phân bố 2 nếu giả thuyết không là đúng Chúnggồm:
Kiểm định chi bình phương Pearson
Kiểm định chi bình phương Yates
Kiểm định chi bình phương Mantel-Haenszel
Trang 24- Dạng thống kê kiểm định thông dụng nhất là:
γ2=(o−e )2
e
Với o là dữ liệu đo đạc, e là giá trị dự đoán chính xác
Xét một bộ A gồm r tính trạng, A = (A1, A2, Ar), trong đó mỗi cá thể của tập hợpchính H có và chỉ có một trong các tính trạng (hay phạm trù) Ai
Gọi pi (i = 1, 2, r) là tỷ lệ cá thể tính trạng Ai trong tập hợp chính H Khi đó véctơ
=(p1, p2, pr) được gọi là phân bố của A trong tập hợp chính H
Giả sử (p1, p2, pr) là phân bố của (A1, A2, Ar) trong tập hợp chính H và (q1,q2, qr) là phân bố của A = (A1, A2, Ar) trong tập hợp chính Y Ta nói (A1, A2 Ar) cóphân bố như nhau trong X và Y nếu (p1, p2, pr) = (q1, q2, qr) p1 = q1, pr = qr.Chúng ta muốn kiểm định xem A = (A1, A2, Ar) có cùng phân số trong X và Y haykhông dựa trên các mẫu ngẫu nhiên rút từ X và Y
Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2, Hk Gọi i p , p , p1i i2 ir
làphân bố của A = (A1, A2, Ar) trong tập hợp chính Hi
Ta muốn kiểm định giả thuyết sau:
Trang 25Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên Mẫu ngẫu nhiên chọn
từ tập hợp chính Hi được gọi là mẫu ngẫu nhiên thứ i (i = 1, 2, k)
Giả sử trong mẫu ngẫu nhiên thứ i:
là tổng số tất cả các cá thể của k mẫu đang xét.
Nếu giả thiết H0 là đúng nghĩa là:
Đó ước lượng cho xác suất để một cá thể có mang tính trạng Ai khi đó số cá thể cótính trạng Ai trong mẫu thứ j sẽ xấp xỉ bằng:
Trang 26Người ta chứng minh được rằng nếu H0 đúng và các TSLT không nhỏ hơn 5 thì T sẽ cóphân bố xấp xỉ phân bố với (k-1)(r-1) bậc tự do Thành thử miền bác bỏ có dạng {T >c} ở đó c được tìm từ điều kiện P{T > c} = Vậy c là phân vị mức của phân bố 2với (k-1)(r-1) bậc tự do.
Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó, ta dùng kiểm định 2 (chi-quared):
Nếu: P(X > γ2)>α thì chấp nhận H0 và ngược lại
Thực hiện bài toán bằng excel:
Trang 27 Nhập dữ liệu vào bảng tính:
Tính tổng các hàng và các cột
Tính các tần số lý thuyết: tần số lý thuyết = (Tổng hàng ×Tổng cột)/(Tổng cộng):
Trang 28 Sử dụng hàm CHITEST tính xác suất P(X> 2):
Kết quả và biện luận:
Giả thiết :
H0: Chỉ tiêu tuyển sinh của trường độc lập với năm tuyển sinh
H1:Chỉ tiêu tuyển sinh của trường không độc lập với năm tuyển sinh
Ta có: P(X> 2) = 6,72279E-13 < α
Bác bỏ giả thiết H0, chấp nhận giả thiết H1
Vậy: Chỉ tiêu tuyển sinh của trường không độc lập với năm tuyển sinh.
Bài 5:
a)Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô
Trang 29hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X,Y
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ướclượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ
3) Tìm sai số chuẩn của ước lượng
b) Tìm một dữ liệu ngẫu nhiên k chiều (k >2) để sử dụng mô hình hồi quy tuyến tính
đa biến Tìm các hệ số hồi quy tuyến tính mẫu và kết luận về sự thích hợp
Bài làm
I. Cơ sở lý thuyết:
1.Tìm hệ số tương quan giữa X và Y
Hệ số tương quan mẫu là một số đo về sự hiệp biến tuyến tính của các biến số, nghĩa
số đo về mức độ kết hợp tuyến tính giữa các biến số Được xác định bởi:
Hệ số tương quan R=∑x i y j+∑x i∑ y i
√¿ ¿ ¿ ¿
Nếu R>0 thì X , Y tương quan thuận
Nếu R<0 thì X , Y tương quan nghịch
Nếu R=0 thì X , Y không tương quan
Nếu |R|=1 thì X , Y có quan hệ hàm số bậc nhất
Nếu ¿R∨→ 1 thì X , Y có tương quan chặt (tương quan mạnh)
Nếu |R|→ 0 thì X , Y có tương quan không chặt (tương quan yếu)
|R|>0.8: tương quan tuyến tính rất mạnh
|R|=0.6−0.8: tương quan tuyến tính mạnh
|R|=0.4−0.6: có tương quan tuyến tính
Trang 30|R|=0.2−0.4: tương quan tuyến tính yếu
|R|<0.2: tương quan tuyến tính rất yếu hoặc không có tương quan tuyến tính
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không ?
Giả thiết H0: R=0 (X và Y không có tương quan tuyến tính)
H1: R≠0 (X và Y có tương quan tuyến tính)
Ta thấy: |t|>2.228 nên ta quyết định bác bỏ H0
3) Ước lượng đường hồi quy tuyến tính của Y theo X
Hồi quy đơn tuyến tính:
Phương trình hồi quay tuyến tính: y´i=a+bx ,a=r S´y
´
S x , b= ´y−a ´x
Kiểm định hệ số a, b
- Giả thiết H0: Hệ số hồi quy không có ý nghĩa (=0)
H1: Hệ số hồi quy có ý nghĩa (≠ 0)
- Trắc nghiệm t <t α , n−2: Chấp nhận H0
Kiểm định phương trình hồi quy
- Giả thiết H0: “Phương trình hồi quy tuyến tính không thích hợp”
H1: “Phương trình hồi quy tuyến tính thích hợp”
Trang 31- Trắc nghiệm F< F α ,1 , n−2
a) Thống kê nhiệt độ và lượng mưa năm 2016 được thể hiện trong bảng dưới đây:
Lượng mưa năm
1)Tìm hệ số tương quan giữa X,Y
Công cụ thực hiện: Áp dụng “Correlation”
Nhập dữ liệu vào trang tính:
Trang 32 Chọn chức năng Data/Data Analysis/Correlation
Trong hộp thoại Correlation:
Trang 33 Phần “Input” (phạm vi đầu vào) có mục “Input Range” là địa chỉ tuyệt đối chứa
dữ liệu tương ứng của mẫu: quét khối dữ liệu để chọn hoặc nhập $A$1:$B$16
Phần “Grouped By” chọn “Columns”
Chọn mục Labels in first row (nhãn dữ liệu) để hiển thị nhãn
Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $D$1
Nhấn chọn OK và phần mềm Excel sẽ cho ta kết quả:
=> Ta có hệ số tương quan là R = 0.8126 chứng tỏ giữa lượng mưa năm 2016
và độ ẩm năm 2016 thu được có quan hệ khá chặt chẽ và có tương quan thuận.2) Kiểm định quan hệ tuyến tính và ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ
Kiểm định quan hệ tuyến tính
Trang 34+ Công cụ thực hiện: Tính trực tiếp bằng hàm
Tính T : chọn ô E4 và nhập biểu thức =E3*SQRT(16-2)/SQRT(1-E3^2)
Tính c: chọn ô B6 và nhập biểu thức =TINV(0.05,14) (c là phân vị mức α/2=0.025 của phân bố Student với n-2=14 bậc tự do)
Ta được kết quả:
Vì |t| > c nên bác bỏ giả thiết H0
Vậy: X và Y có tương quan tuyến tính
Ước lượng đường hồi quy tuyến tính y theo x và biểu thị bằng hình vẽ
Công cụ thực hiện: áp dụng “regression”
Chọn chức năng Data/Data Analysis/ Regression
Phần “Input” (phạm vi đầu vào) gồm hai mục:
Trang 35- Input Y Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của : quét khối chọn
Chọn mục Labels (nhãn dữ liệu) để hiển thị tiêu đề
Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $D$8
Line Fit Plots: Xuất ra đồ thị
Nhấn chọn OK và phần mềm Excel sẽ cho ta kết quả:
Trang 37+ Xử lí đồ thị: vào Chart Tools/Quick Layout/Layout 3:
Predicted Lượng mưa năm 2016
Linear (Predicted Lượng mưa năm 2016)
Trang 38 Phương trình hồi quy: y x = -1528.1791 + 23.4612xy´x=−1898347+17.3974 x
Hệ số hồi quy: 0.0029<0.05 Hệ số tự do có ý nghĩa
0.0013 < 0.05 Hệ số của x có ý nghĩa
3) Tìm sai số chuẩn của ước lượng:
- Đối với biến tự do: SE = 391.5688
- Đối với biến X: SE = 5.3207
b) Khảo sát đường dài 10m ta thấy được mối quan hệ giữa tốc độ pha với tần số
của sóng và độ thẩm điện của môi trường Khảo sát với các mốc tần số 5, 10, 15, 20MHz và trong các môi trường không khí (r =1), dầu hỏa (r =2.1), ebonite (r
=2.7), thạch anh (r =4.5)
Trang 39Độ thẩm điện Tần số sóng(MHz) Tốc độ pha (rad/s)
Thực hiện bài tập trên excel
Nhập dữ liệu vào trang tính:
Trang 40 Vào Data/Data Analysis/Regression.
Trang 41 Phần “Input” (phạm vi đầu vào) gồm hai mục:
-Input Y Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của : quét khối chọn dữ liệu hoặc nhập $C$1:$C$17
-Input X Range: địa chỉ tuyệt đối chứa dữ liệu tương ứng của Nhiệt độ: quét khối chọn
dữ liệu hoặc nhập $A$1:$B$17
Confidence Level: độ tin cậy ( để ở dạng phần trăm, ở bài này nhập độ tin cậy bằng 95%)
Chọn mục Labels (nhãn dữ liệu) để hiển thị tiêu đề
Phần “Output options” (Phạm vi đầu ra) chọn mục “Output Range” và nhập địa chỉ tuyệt đối của ô tính mà bạn muốn xuất bảng ra: $E$1
Line Fit Plots: Xuất ra đồ thị
Nhấn chọn OK ta được kết quả:
Trang 43 Tìm các hệ số hồi quy tuyến tính mẫu:
Phương trình hồi quy tuyến tính mẫu:
Trang 44Bài 6 : Phân tích phương sai
A Phân tích phương sai 1 yếu tố
KN: Dùng trong so sánh các giá trị trung bình của hai hay nhiều mẫu được lấy ra từ các phân số Đây có thể xem như phần mở rộng của trắc nghiệm t hay z (so sánh 2 giá trị trung bình) Tuy nhiên khi so sánh nhiều thì tổng quát hơn nên sử dụng phân tích phương sai
Mục đích: Là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo hay tự nhiên) lên các giá trị quan sát Xi
Mô hình:
Yếu tố thí nghiệm
Trang 45Bảng ANOVA
Nguồn sai
số
Tổng bình phương SS
Bậc tự do df
Bình phương trung bình MS
Giá trị thống kê F
MSF MSE
n−k
Trắc nghiệm
Giả thiết:
H0: a1=a2=… a k “Các giá trị trung bình bằng nhau”
H0: a1≠ a k “Ít nhất có hai giá trị trung bình khác nhau”
Giá trị thống kê: F= MSF
MSE
Biện luận:
Nếu F α (k −1; N −1)=¿ Chấp nhận giả thiết H0
Ví dụ phân tích phương sai một yếu tố
Bảng thống kê dưới đây so sánh độ galactose trong 3 nhóm bệnh nhân:
Nhóm 1: gồm 9 bệnh nhân bệnh Crohn