Câu 1: Chọn 1 biến định lượng nào đó và thực hiện:- Tìm các đặc trưng từ mẫu dữ liệu - Tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể.. Lập bài toán * Chọn biến
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
Giảng viên hướng dẫn: ThS Nguyễn Kiều Dung
Nhóm sinh viên thực hiện: 7
Nhó m /Tổ
L04 L04 L04 L04 L04 L04 L04 L04 L04
Điện-Điện tử Điện-Điện tử Điện-Điện tử Điện-Điện tử Điện-Điện tử Điện-Điện tử Xây dựng Điện-Điện tử Điện-Điện tử
Trang 2Phụ lục
Bài 1 -4
A Lập bài toán -4
B Cơ sở lý thuyết -4
C Tính toán bằng tay -5
D Tính bằng excel -7
Bài 2 -10
A Lập bài toán -10
B Cơ sở lý thuyết -11
C Tính toán bằng tay -12
D Tính bằng excel -13
Bài 3 -16
A Lập bài toán -16
B Cơ sở lý thuyết -18
C Tính toán bằng tay -19
D Tính bằng excel -20
Bài 4 -23
A Lập bài toán -23
B Cơ sở lý thuyết -25
C Tính toán bằng tay -26
D Tính bằng excel -27
Bài 5 -29
A Lập bài toán -29
B Cơ sở lý thuyết -29
C Tính toán bằng tay -32
Trang 3D Tính bằng excel -33
Bài 6 -35
A Lập bài toán -35
B Cơ sở lý thuyết -36
C Tính toán bằng tay -37
D Tính bằng excel -38
Trang 4Câu 1: Chọn 1 biến định lượng nào đó và thực hiện:
- Tìm các đặc trưng từ mẫu dữ liệu
- Tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể
A Lập bài toán
* Chọn biến định lượng: Chi phí trung bình cho các hoạt động giải trí của sinh viên.
Bài toán: Dựa và số liệu thu thập được từ khảo sát, hãy tìm các đặc trưng mẫu của dữ liệu “Chi phí trung bình cho các hoạt động giải trí của sinh viên “ Với độ tin cậy 99%, tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể
B Cơ sở lý thuyết
Mẫu dữ liệu bao gồm một số đặc trưng như: Giá trị trung bình, phương sai, độ lệch chuẩn, Tính toán các giá trị đặc trưng của mẫu là công việc cần thiết nhất trong phân tích số liệu ở thốngkê
Tìm khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể với độ tin cậy 99%:
Khoảng tin cậy cho giá trị trung bình:
Bài toán thuộc trường hợp n>30 , (n=123)
Trang 5ε= Z α S
Khoảng tin cậy cho phương sai tổng thể:
Trang 7*Phương pháp: Tại phần mềm Excel, chức năng Descriptive Statistics hổ trợ trong việc tính toán
các giá trị đặc trưng của mẫu Để mở chức năng này trong Excel, thực hiện các bước: Data → Data Analysis → Hộp option xuất hiện, chọn Descriptive Statistics rồi nhấn OK.
Hộp Data Analysis
Trang 8Hộp Descriptive StatisticsTại hộp Descriptive Statistics ta nhập các dữ liệu sau
Input range: Nhập đầu vào dữ liệu
Grouped by: Dữ liệu được sắp xếp theo cột (Columns) hay hàng (Rows)
Output Range: Tích chọn để chọn vị trí xuất dữ liệu đầu ra
Summary statistics: Thống kê tóm tắt
Confidence Level for Mean: Độ tin cậy cho giá trị trung bình
(Lưu ý: Dữ liệu đầu vào phải ở định dạng Number thì Excel mới có thể xử lý.)
Sau khi nhập dữ liệu ta nhấn OK, kết quả nhận được như sau:
Trang 9Các giá trị nhận được được liệt kê dưới bảng sau:
thực tế)
Standard
Deviation
Độ lệch chuẩn
Confidence Level Khoảng tin cậy cho giá trị trung bình
Nhận xét: Giá trị Confidence Level nhận được chính là ε=13,142.22 (đồng)
Để tìm khoảng tin cậy cho phương sai của dữ liệu:
Trong Excel để tìm khoảng tin cậy cho phương sai của dữ liệu ta sử dụng hàm CHISQ.INV.RT
(n−1).
Trang 10Dựa vào hai hết quả vừa có được ta có thể tính ra được khoảng tin cậy của phương sai:
Ta có được khoảng tin cậy của phương sai:
Câu 2: Chọn dữ liệu 2 biến định lượng (hoặc xử lý số liệu theo nhóm cho phù hợp)
để lập bài toán kiểm định so sánh 2 trung bình tổng thể.
A Lập bài toán:
* Chọn 2 biến định lượng: Chỉ số đánh giá mức độ ưu tiên của sinh viên với hoạt động chơi thể thao và chơi game (thể thao điện tử )
Trang 11Bài toán: Dựa vào số liệu đã được xử lý sau khi thu thập từ khảo sát của các sinh viên đại học, hãy so sánh trunh bình tổng thể của hai dữ liệu: “Mức độ ưu tiên cho các hoạt động thể thao và chơi game của sinh viên” Với mức độ tin cậy là 95% hãy kết luận xem mức độ ưu tiên cảu sinh viên với hai hoạt động này là giống nhau hay không.
Trang 12B Cơ sở lý thuyết:
Dạng bài: Kiểm định giả thuyết trung bình (bài toán hai mẫu).
n1, trung bình mẫu ´X1, phương sai mẫu hiệu chỉnh S12 Từ tổng thể II có mẫu kích thước n2, trung bình mẫu ´X2, phương sai mẫu hiệu chỉnh S22 Vì mẫu lớn (n>30) nên phương sai mẫu S12, S22 được
xem là phương sai của tổng thể σ12, σ22
Khi ấy, ta áp dùng trắc nghiệm z để so sánh giá trị trung bình của hai mẫu với phương sai biết trước
Phương pháp giải: So sánh trung bình 2 tổng thể với phương sai biết trước (n>30).
Giả thuyết:
Kích thước mẫu lớn (n>30) Nên ta xem chỉ số đánh giá mức độ ưu tiên hoạt động chơi thể thao
và chơi game là phân phối chuẩn
Trang 13Đặt a 1, a2 lần lượt là trung bình mức độ ưu tiên của sinh viên với hoạt động thể thao và hoạt động
chơi game
Đặt giả thuyết kiểm định:
Với bảng dữ liệu thu thập được ta tìm được các đặt điểm của hai dữ liệu như sau:
Mức độ ưu tiên hoạt độngchơi thể thao
Mức độ ưu tiên hoạt động
=2.7536
chơi thể thao và chơi game (thể thao điện tử) là khác nhau
D Tính toán bằng Excel:
Công cụ giải: Descriptive Statistics và z-Test: Two Sample for Means
Quy trình thực hiện Excel:
Bước 1: Đầu tiên, ta sử dụng công cụ Descriptive Statistics trong Data/Data Analysis lần lượt tìmcác đặc trưng cho 2 mẫu
Trang 14Bước 2: Chọn các mục như trong ảnh:
+ Input: Phạm vi đầu vào
+ Group By: Cách sắp xếp dữ liệu theo hàng hay cột
+ Output Range: Phạm vi đầu ra
+ Labels in first row: Nhãn dữ liệu
+ Summary statistics: Kết quả tóm tắt
+ Confidence Level for Mean: Mức tin cậy 95%
Ta được kết quả:
Trang 15Xác định phương sai mẫu của việc đánh giá mức độ ưu tiên hoạt động chơi thể thao và chơi game là:
σ12=0.5567
σ22=0.6119
Bước 3: Tiếp theo, ta sử dụng công cụ “z-Test: Two Sample for Means” trong Data/ Data
Analysis để so sánh trung bình hai tổng thể
Bước 4: Chọn các mục như trong ảnh:
+ Input: Phạm vi đầu vào
+ Output Range: Phạm vi đầu ra
Trang 16+ Variable 1 Variance (known): 0.5567
+ Variable 2 Variance (known): 0.6119
Tiêu chuẩn kiểm định: Zqs = 2.7525 ∈ Wα.
và chơi game (thể thao điện tử) là khác nhau
Câu 3: Chọn dữ liệu cho k biến (k ≥ 3) (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập bài toán so sánh về trung bình k tổng thể.
A Lập bài toán cụ thể:
Từ mẫu dữ liệu đã thu thập và xử lý được, chọn ra ba thông số về mức độ ưu tiên tham gia cáchoạt động giải trí của sinh viên để kiểm định so sánh trung bình tổng thể với mức ý nghĩa 5%, từ
đó kết luận về mức độ ưu tiên với các hoạt động giải trí này là khác hay giống nhau:
Hoạt động thứ nhất: Tán gẫu, ăn uống với bạn bè
Hoạt động thứ hai: Chơi các môn thể thao, vận động
Hoạt động thứ ba: Nghe nhạc, đọc sách
Chú thích:
Trang 18B Cơ sở lý thuyết:
Lý thuyết phân tích phương sai
Phép phân tích phương sai là so sánh trung bình của hai hay nhiều nhóm dựa trên các giátrị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thiết đểkết luận và sự bằng nhau của các trung bình tổng thể này
Phương pháp phân tích phương sai 1 yếu tố
Phép phân tích phương sai được dùng trong các trắc nghiệm để so sánh các giá trị trungbình của hai hay nhiều biến mẫu được lấy từ các phân số Đây có thể được xem như phần
mở rộng các trắc nghiệm t hay z (so sánh hai giá trị trung bình)
Mục đích của sự phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu
tố (nhân tạo hay tự nhiên) nào đó trên các giá trị quan sát, Yi(i=0,1,2,…,k)
Mô hình
Trang 192 2
TY
…
…
k k
TY
TY
i 1 j 1
TSST Y
N
Các bước thực hiện:
Bước 1: Đặt giả thuyết :
H 0 : 1 2 k “Các giá trị trung bình bằng nhau”
H 1 : 1 k “Ít nhất có hai giá trị trung bình bằng nhau”
Bước 2: Tính toán giá trị kiểm định:
MSF F
Trang 20gẫu, ăn uống; thể thao; nghe nhạc, đọc sách.
Giả thuyết:
H0: a1 = a2 = a3; “Các giá trị trung bình bằng nhau” (chọn k = 3)
H1: ai = aj “Tồn tại ít nhất hai giá trị trung bình khác nhau”; i, j ∈{1 ;2 ;3}
Tính toán các giá trị kiểm định:
Ta thấy: F> F α=3.0204 → Bác bỏ giả thuyết H0
Vậy mức độ ưu tiên của sinh viên với các hoạt động giải trí này là khác nhau
D Tính toán bằng Excel:
Dạng bài: Kiểm định trung bình (Bài toán nhiều mẫu)
Phương pháp giải: Phân tích phương sai 1 yếu tố.
Công cụ giải: Anova: Single Factor
Bước 1: Nhập k dữ liệu đã được xử lý từ dữ liệu khảo sát (k = 3) vào Excel
Trang 21Bước 2: Chọn công cụ Data Analysis trên thanh công cụ, sau đó chọn “Anova:Single Factor” đểtiến hành lấy kết quả kiểm định, sau đó cài đặt dữ liệu như Bước 3
Bước 3: Trong hộp thoại Anova: Single Factor lần lượt chọn:
Input Range (Phạm vi đầu vào): Nhấp chuột và kéo vùng dữ liệu muốn tính toán
Columns/Rows: Sắp xếp dữ liệu theo cột hay hàng
Labels in Fisrt Row/Column: Nhãn dữ liệu
Alpha: Mức ý nghĩa
Trang 22 Output Options: Tùy chọn đầu ra.
Xuất kết quả ra Excel:
Bước 4: Biện luận
Giá trị quan sát: F= 6.1865 > Giá trị ngưỡng F crit= 3.0204
Trang 23⟹ Bác bỏ giả thuyết H0, chấp nhận gải thuyết H1.
Kết luận: vậy mức độ ưu tiên của các bạn sinh viên với các hoạt động giải trí là khác nhau Câu 4: Chọn dữ liệu cho 2 biến (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập bài toán kiểm định so sánh về sự phân tán Trình bày các bước thực hiện và nhận xét kết quả.
A Lập bài toán cụ thể:
Khảo sát số lần tham gia vào các hoạt động giải trí trong tuần và thời gian tham gia các hoạtđộng giải trí trong ngày của các bạn sinh viên Với mức ý nghĩa là 5% hãy so sánh mức độ phântán về số lần tham gia và thời gian tham gia của các bạn sinh viên Giả thiết các biến này phân bốtheo quy luật chuẩn
Với các đặt trưng mẫu cho trong bảng sau:
Trang 25B Cơ sở lý thuyết:
Lý thuyết kiểm định phương sai hai tổng thể
Khi cần kiểm định hai tổng thể có mức độ đồng đều như nhau hay không chúng ta dùng phươngpháp kiểm định phương sai của hai tổng thể độc lập dựa trên một đại lượng F như sau:
Trang 26Thông thường để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai ta làm như sau:trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt ở tử số, và như vậy mẫutương ứng với phương sai đó là mẫu thứ nhất
Giả thiết đặt ra là kiểm định hai bên:
H0: 𝜎1 = 𝜎2
H1: 𝜎1 ≠ 𝜎2
Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng
Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ F có phân phối xác suấtgọi tên là phân phối Fisher Các giá trị tới hạn của phân phối F phụ thuộc và hai giá trị bậc tự do,
hai (d f2=n2−1)
nghĩa α là: giả thiết H0 bị bác bỏ nếu giá trị kiểm định F lớn hơn giá trị tới hạn trên
F U=F d f1; d f2;α /2 của phân phối F hoặc bé hơn giá trị tới hạn dưới F U=F d f1; d f2;1−α /2 tức là
Phương pháp kiểm định phương sai tổng thể
Bài toán kiểm định phương sai tổng thể đưcọ thực hiện qua các bước sau:
Bước 1: Đặt giả thiết kiểm định H0 và giả thiết đối H1.
Bước 2: Xác định tiêu chuẩn kiểm định F S / S 12 22.
Trang 27Bước 3: Xác định miền bác bỏ bằng giá trị tra bảng Fisher.
C Tính toán bằng tay:
Gọi 𝜎1 2 ,𝜎2 là phương sai mức độ phân tán của hai biến khảo sát
Giả thiết:
H0: 𝜎1 2 = 𝜎2 ,”Mức độ phân tán của hai biến này là như nhau”
độ phân tán thời gian trung bình trong một ngày dành cho giải trí”
Miền bác bỏ W α=(f α(n1−1; n2−1);+∞)=(f0.05(122 ;122);+∞)=(1.3485 ;+∞) (tra bảng Fisher)
Kết luận: Mức độ phân tán của số lần tham gia hoạt động giải trí trong tuần cao hơn mức độ
phân tán thời gian trung bình trong một ngày dành cho giải trí
D Tính toán bằng Excel:
Dạng bài: Kiểm định giả thuyết cho phương sai hai tổng thể
Công cụ: F-Test Two-Sample for Variances
Bước 1: Nhập dữ liệu vào bảng tính
Trang 28Bước 2: Vào Data/ Data Analysis/ F-Test Two-Sample for Variances
Trang 29Xuất kết quả ra Excel:
Bước 4: Biện luận
Kết luận: Mức độ phân tán của số lần tham gia hoạt động giải trí trong tuần cao hơn mức độ
phân tán thời gian trung bình trong một ngày dành cho giải trí
Câu 5: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ (hay là bài toán kiểm định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả.
A: Lập bài toán.
Từ số liệu thu thập được nhóm chọn 2 thông số để lập bài toán kiểm định tính độc lập đượcthống kê bằng bảng tần số thực nghiệm sau:
Trang 30Chú thích:
Dữ liệu 1: Nơi ở hiện tại của sinh viên
Dữ liệu 2: Mức độ ưu tiên của sinh viên cho hoạt động chơi thể thao
Với mức ý nghĩa α=5 %, hãy so sánh phân bố tỉ lệ mức ưu tiên với các nơi ở cảu sinh viên
B Cơ sở lý thuyết:
Trong thống kê, kiểm định chi bình phương hay kiểm tra χ2 (đôi khi đọc là "khi bình
phương") là một họ các phương pháp kiểm định giả thiết thống kê trong đó thống kê
Dạng thống kê kiểm định thông dụng nhất là:
γ2
=(o−e)2
e V i ớ o làdữ li u ệ đo đ c ạ , e là giá trị dự đoán chính xác.
Xét một bộ A gồm r tính trạng, A = (A1, A2, ,Ar), trong đó mỗi cá thể của tập hợp chính
Gọi pi (i = 1, 2, r) là tỷ lệ cá thể tính trạng Ai trong tập hợp chính H Khi đó véctơ
=(p1, p2, ,pr) được gọi là phân bố của A trong tập hợp chính H
Giả sử (p1, p2, pr) là phân bố của (A1, A2, ,Ar) trong tập hợp chính H và (q1, q2, ,qr) là
phân bố của A = (A1, A2, ,Ar) trong tập hợp chính Y Ta nói (A1, A2, ,Ar) có phân bố nhưnhau trong X và Y nếu (p1, p2, ,pr) = (q1, q2, ,qr) p1 = q1, ,pr = qr
không dựa trên các mẫu ngẫu nhiên rút từ X và Y
Tổng quát hơn, giả sử ta có k tập hợp chính H1, H2, Hk Gọi π i=(p1i , p2i , … , p r i) là phân bố của
A = (A1, A2, ,Ar) trong tập hợp chính Hi
Trang 31Ta muốn kiểm định giả thuyết sau:
Chú ý rằng H0 tương đương với hệ đẳng thức sau:
Từ mỗi tập hợp chính chúng ta chọn ra một mẫu ngẫu nhiên Mẫu ngẫu nhiên chọn từ
tập hợp chính Hi được gọi là mẫu ngẫu nhiên thứ i (i = 1, 2, k)
Giả sử trong mẫu ngẫu nhiên thứ i:
Trang 32Ta quyết định bác bỏ H0 khi các TSLT cách xa TSQS một cách bất thường Khoảng cách
giữa TSQS và TSLT được đo bằng test thống kê sau đây:
T =∑(TSQS−TSLT )
2
TSLT
bố xấp xỉ phân bố với (k-1)(r-1) bậc tự do Thành thử miền bác bỏ có dạng {T > c} ở đó c được tìm từ điều kiện P{T > c} = Vậy c là phân vị mức của phân bố 2 với (k-1)(r-1) bậc tự do.Đối với thí nghiệm có các kết quả, để so sánh các tỉ số của các kết quả đó, ta
Bước 1: Đặt giả thuyết bài toán kiểm định
α (số hàng -1)*(số cột -1) ; +∞)Bước 3: Do giả thiết X, Y độc lập nên xác suất tính theo lý thuyết là:
j i
mn
Trang 33hoặc:
2 ij 2
Bước 4: Kết luận bài toán dựa vào tiêu chuẩn kiểm định và miền bác bỏ
Lưu ý: Kiểm định Chi-Bình-Phương được coi là chính xác hơn khi tất cả giá trị trong bảng tần
số lý thuyết lớn hơn hay bằng 5 Vì vậy khi trong bảng tần số lý thuyết xuất hiện số nhỏ hơn 5 thìta
nên sắp xếp lại dữ liệu ban đầu cho thích hợp rồi thực hiện lại bài toán
C Tính toán bằng tay:
Gọi X là mức ưu tiên của sinh viên với hoạt động thể thao, Y là nơi ở hiện tại của sinh viên.Giả thuyết kiểm định
Tìm miền bác bỏ:
W α=(χ α2×( số hàng−1) ×( số c t ộ −1) ;+∞)=(χ20,01×2 ×2 ;+∞)=(9,49 ;+∞)
Từ đó ta tính được bản tần số lý thuyết Eij:
Trang 36⟹ Chấp nhận H0 Vậy mức độ ưu tiên cho hoạt động chơi thể thao của sinh viên không phụ thuộc vào nơi ở hiện tại của các bạn.
Câu 6: Khảo sát hệ số tương quan giữa 2 biến định lượng cụ thể, dự đoán phương
trình đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa) và nhận
xét về mối tương quan tuyến tính giữa 2 biến.
A: Lập bài toán.
Khảo sát hệ số tương quan giữa 2 biến Số lần tham gia hoạt động trong một tuần và Thời gian trung bình 1 ngày cho các hoạt động giải trí Dự đoán phương trình đường hồi quy tuyến tính giữa chúng và nhận xét về mối tương quan
tham gia hoạt động trong một tuần
Thời gian trung bình
1 ngày chocác hoạt động giải trí