Đầy đủ cơ sở lý thuyết về ước lượng và kiểm định giả thuyết thống kê, áp dụng vào thực tế việc ước lượng thời gian trung bình của sinh viên tới trường và tỷ lệ sinh viên đi bus tới trường. Ngoài ra còn có phương pháp nghiên cứu và phương pháp làm bài để tăng tính thuyết phục cho bài thảo luận.
Trang 1BÀI THẢO LUẬN MÔN: XÁC SUẤT THỐNG KÊ
Đề tài:
ƯỚC LƯỢNG THỜI GIAN TRUNG BÌNH SINH VIÊN THƯƠNG MẠI TỚI TRƯỜNG VÀ KIỂM ĐỊNH TỶ LỆ SINH VIÊN SỬ DỤNG XE BUÝT ĐẾN TRƯỜNG
Trang 2MỤC LỤC
MỤC LỤC 1
Lời mở đầu 2
1 Tính cấp thiết và mục đích của đề tài nghiên cứu 2
2 Đối tượng và phạm vi nghiên cứu 3
A Cơ sở lý thuyết 4
I Ước lượng 4
1 Ước lượng điểm 4
2 Ước lượng bằng khoảng tin cậy 4
3 Ước lượng kì vọng toán của ĐLNN 4
3.3 Chưa biết quy luật phân phối xác suất của X nhưng kích thước mẫu n > 30 6
4 Ước lượng tỉ lệ 6
II Kiểm định giả thuyết thống kê 8
1 Khái niệm: 8
2 Phương pháp kiểm định 8
2.1 Tiêu chuẩn kiểm định 8
2.2 Miền bác bỏ, quy tắc kiểm định 8
2.3 Thủ tục kiểm định 8
3 Các trường hợp kiểm định 9
3.1 Kiểm định tham số muy của biến ngẫu nhiên phân phối Chuẩn 9
3.2 Kiểm định tham số của biến ngẫu nhiên phân phối Chuẩn 9
3.3 Kiểm định tham số p của biến ngẫu nhiên phân phối A(p) 9
B Quá trình nghiên cứu của nhóm 10
1 Thống nhất chọn đề tài: 10
2 Phương pháp nghiên cứu được sử dụng trong bài: 10
3 Mục tiêu khi lấy mẫu của nhóm 10
4 Cách thức lấy mẫu của nhóm 10
5 Kết quả mẫu thu được 11
6 Khó khăn trong quá trình lấy mẫu 11
7 Chọn n phù hợp 11
8 Thời gian làm nghiên cứu: 3 tuần 11
C Kết quả nghiên cứu của nhóm 12
1 Ước lượng thời gian trung bình đến trường của sinh viên Đại học Thương Mại 12
2 Kiểm định số SVTM đi xe buýt đến trường 13
D Kết luận 15
Trang 3Lời mở đầu
Thống kê học có thể được định nghĩa một cách khái quát như là khoa học, kỹ thuật hay nghệ thuật của việc rút ra thông tin từ dữ liệu quan sát, nhằm giải quyết các bài toán từ thực tế cuộc sống Việc rút ra thông tin đó có thể là kiểm định một giả thiết khoa học, ước lượng một đại lượng chưa biết hay dự đoán một sự kiện trong tương lai
Phương pháp ước lượng bằng sẽ giúp chúng ta ước lượng một tham số θ của một đại lượng ngẫu nhiên gốc X trên một đám đông nào đó, với sai số ε và chỉ ra khả năng mắc sai lầm khi ước lượng là bao nhiêu
Cùng với lý thuyết ước lượng, lý thuyết kiểm định các giả thuyết thống kê là một bộ phận quan trọng của thống kê toán Nó là phương tiện giúp ta giải quyết những bài toán nhìn từ góc độ khác liên quan đến dấu hiệu cần nghiên cứu trong tổng thể Tiến hành công việc theo quy tắc hay thủ tục để từ một mẫu cụ thể cho phép ta đi đến quyết định: chấp nhận hay bác bỏ một giả thuyết thống kê
Thống kê toán nói chung hay bài toán ước lượng và kiểm định nói riêng có ứng dụng rất rộng rãi trong thực tế và đời sống Nó có vai trò quan trọng trong hầu hết các lĩnh vực khoa học, kinh tế, kĩ thuật,…Vì vậy mà Lý thuyết xác suất và thống kê toán đã trở thành một môn học cơ sở của tất cả các trường đại học kinh tế trong đó
có trường chúng ta- Đại học Thương Mại
Để áp dụng lý thuyết vào thực tiễn, nhóm chúng tôi quyết định thực hiện đề tài nghiên cứu về ước lượng thời gian đến trường của sinh viên Đại học Thương Mại
và kiểm định giả thuyết về tỷ lệ sinh viên sử dụng xe buýt tới trường
1 Tính cấp thiết và mục đích của đề tài nghiên cứu
Đại học Thương Mại có tổng số trên 10.000 sinh viên, đa số là các sinh viên ngoại tỉnh và phải trọ ở gần trường nhưng cũng có những sinh viên nhà ở nội thành nên không phải thuê nhà Do đó thời gian đến trường của mỗi sinh viên là khác nhau, có bạn chỉ mất 5 phút để đến trường nhưng cũng có bạn mất tới cả tiếng đồng
hồ vậy thời gian trung bình mà sinh viên TM đến trường là bao nhiêu?
Mặt khác, với tình hình ô nhiễm môi trường và việc hay ùn tắc giao thông trong giờ cao điểm như hiện nay đặc biệt ở khu Cầu Giấy, thì vấn đề sử dụng các phương tiện công cộng như xe buýt được rất nhiều người quan tâm Mà theo một khảo sát
Trang 4nhỏ cho rằng tỉ lệ sinh viên trường ta đi xe bus tới trường là 32.5%, vậy điều đó có đúng hay không?
Để trả lời cho những câu hỏi trên nhóm quyết định tiến hành bài nghiên cứu này
2 Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Sinh viên Đại học Thương Mại
- Phạm vi nghiên cứu: 180 sinh viên
Trang 5A Cơ sở lý thuyết
1 Ước lượng điểm
Định nghĩa: Giả sử cần ước lượng tham số θ Từ đám đông lấy mẫu W=( X1,
X2,…., Xn) từ mẫu này ta xây dựng một thống kê θ* = f ( X1, X2,…., Xn) thích hợp Để
có ước lượng điểm, ta chỉ việc điều ta một mẫu cụ thể w = ( x1, x2,…,xn) với kích thước n đủ lớn, rồi lấy θ≈ θ*= f(x1, x2,…,xn)
2 Ước lượng bằng khoảng tin cậy
Để ước lượng tham số θ của ĐLNN X trước hết từ đám đông ta lấy mẫu ngẫu nhiên W= ( X1, X2,…., Xn)
Tiếp đến ta xây dựng thống kê G= f ( X1, X2,…., Xn, θ), sao cho quy luật phân phối xác suất G hoàn toàn xác định Với xác suất γ = 1- α cho trước ta xác định cặp giá trị α1, α2 thỏa mãn với điều kiện α1 ≥ 0, α2 ≥ 0 và α1 + α2= α Vì quy luật phân phối xác suất của G đã biết, ta tìm được phân vị g1-α1 và gα2 sao cho:
P(G > g1-α1 ) = 1- α1 và P( G > gα2 )= α2
Khi đó: P(g1-α1 < G < gα2 ) = 1 - α1 - α2=1 –α= γ
Trong đó: • γ = 1- α được gọi là độ tin cậy
• (θ1*, θ2*) được gọi là khoảng tin cậy
• I=(θ2*-θ1*) được gọi là độ dài khoảng tin cậy
3 Ước lượng kì vọng toán của ĐLNN
Để ước lượng kì vọng toán E(X) = µ của ĐLNN X, từ đám đông ta lấy ra mẫu ngẫu nhiên W = ( X1, X2,…., Xn) Từ mẫu này ta tìm được trung bình mẫu X´ và phương sai mẫu điều chỉnh S '2 Ta sẽ ước lượng µ thông qua X´ Xét các trường hợp sau:
3.1 ĐLNN phân phối theo quy luật chuẩn với σ2 đã biết
Vì X ~ N ( µ, σ2 ) nên X ~ N (µ, σ2 )
U =
X−µ σ
√n
~ N ( 0, 1) (3.1)
a, Khoảng tin cậy đối xứng ( lấy α1 = α2 =α2 )
Với độ tin cậy γ = 1- α cho trước, ta tìm được phân vị chuẩn u α
2, sao cho:
Trang 6P (| U | < u α
2 ) = 1 –α= γ Thay biểu thức của U từ (3.1) vào công thức trên, ta có:
P (| X´ - µ| < σ
√n
u α
2 = 1 –α= γ ⇔ P ( X´- € < µ < X´- €) =1 –α= γ
Trong đó: €= σ
√n
u α
2 là sai số ước lượng
1 –α= γ độ tin cậy
(X´- €; X´+€) là khoảng tin cậy ngẫu nhiên của µ
b, Khoảng tin cậy phải ( lấy α1 = 0, α2 = α, dùng để ước lượng giá trị tối thiểu µ)
Ta vẫn dùng thống kê (3.1) với độ tin cậy γ = 1- α cho trước ta tìm được phân vị chuẩn u α sao cho:
P(U < u α ) =1 –α= γ
c, Khoảng tin cậy trái ( lấy α2= 0, α1 = α, dùng để ước lượng giá trị tối đa của µ)
Ta cũng dùng thống kê (3.1) Với độ tin cậy γ = 1- α cho trước ta tìm được phân vị chuẩn u α sao cho:
P ( - u α< U ) = 1 –α= γ
Sau đó chúng ta thau U vào và làm tương tự như trường hợp khoảng tin cậy đx
3.2 ĐLNN X phân phối theo quy luật chuẩn với σ2 chưa biết
Vì X có phân phối chuẩn nên: T =
´
X−µ
S '
√n
~ T(n−1) (3.2)
a, Khoảng tin cậy đối xứng ( lấy α1 = α2 =α2 )
Với độ tin cậy γ = 1- α cho trước ta tìm được phân vị t α
2
(n−1) sao cho:
P (| T | < t α
2
(n−1) ) =1 –α= γ Thay biểu thức của T vào công thức trên ta có:
P (|X −µ| < ´ S '
√n t α2
(n−1) ) = 1 –α= γ ⇔ P ( X −€ <µ<´ ¿ X +€´ ¿ = 1 –α= γ
Trong đó: € = S '
√n t α2 (n−1)
là sai số của ước lượng và γ = 1- α là độ tin cậy
Trang 7( X −€ <µ<´ ¿ X +€´ ¿ là khoảng tin cậy ngẫu nhiên của µ
b, Khoảng tin cậy phải ( lấy α1 = 0, α2 = α, dùng để ước lượng giá trị tối thiểu µ) Vẫn dùng thống kê (3.2) Với độ tin cậy γ = 1- α cho trước ta tìm được phân vị tα
(n−1)
sao cho: P ( T < tα
(n−1) ) = 1 –α= γ
c Khoảng tin cậy trái ( lấy α2= 0, α1 = α, dùng để ước lượng giá trị tối đa của µ) Vẫn dùng thống kê (3.2) với độ tin cậy γ = 1- α cho trước ta tìm được phân vị tα
(n−1)
sao cho: P ( - tα
(n−1)
<T¿ = 1 –α= γ Sau đó chúng ta thay T vào và làm tương như khoảng tin cậy đối xứng
3.3 Chưa biết quy luật phân phối xác suất của X nhưng kích thước mẫu n > 30
Khi n > 30 thì X´ ~– N ( µ , σ2
n ) Do đó ta sử dụng thống kê: U =
´
X−μ σ n
≅ N(0, 1)
Các phần còn lại tương tự như mục 3.1
4 Ước lượng tỉ lệ
Xét một đám đông kích thước N, trong đó có M phần tử mang dấu hiệu A Kí hiệu tỉ lệ phần tử mang dấu hiệu A trên đám đông là p = M N
Để ước lượng p là từ đám đông ta lấy ra mẫu kích thước n Kí hiệu n A là số phần
tử mang dấu hiệu A trên mẫu Ta sẽ dùng f để ước lượng p Khi n đủ lớn thì f ≅N (p, pq n ¿, ở đây ta kí hiệu q = 1-p Vì vậy, ta có:
U =
f −p
√pq n
≅ N (0,1) (4.1)
a, Khoảng tin cậy đối xứng ( lấy α1 = α2 =α2 )
Với độ tin cậy γ = 1- α cho trước, ta tìm được phân vị chuẩn u α
2, sao cho:
P (| U | < u α
2 ) ≈ 1 –α= γ Thay U vào: P (|f − p| < √pq n
u α
2 ) ≈ 1 –α= γ
⇔ ( f - € < p < f + € ) ≈ 1 –α= γ
Trang 8Trong đó: €= √pq n
u α
2 là sai số ước lượng Nếu p chưa biết, n khá lớn để tính € ta
lấy p ≈ f và q ≈ 1−f, khi đó: € = √pq n
u α
2 ≈√f (1−f )
n Khoảng tin cậy đối xứng của p là ( f - €; f + € )
Độ tin cậy của ước lượng là γ = 1- α
b, Khoảng tin cậy phải ( lấy α1= 0, α2 = α dùng để ước lượng gt tối thiểu của p)
Ta vẫn dùng thống kê (4.1) Với độ tin cậy γ = 1- α cho trước ta tìm được μ α sao cho: P ( U < μ α¿≈ 1 –α= γ
c, Khoảng tin cậy trái (lấy α2= 0, α1 = 0 dùng để ước lượng giá trị tối đa của p)
Ta vẫn dùng thống kê (4.1) Với độ tin cậy γ = 1- α cho trước ta tìm được μ α sao cho: P ( -μ α<U¿ ≈ 1 –α= γ
Sau đó chúng ta thay U vào và làm tương tự như phần trên
5 Ước lượng phương sai của ĐLNN phân phối chuẩn
Giả sử ta cần nghiên cứu một dấu hiệu X có phân phối chuẩn với Var (X) = σ2
chưa biết Để ước lượng σ2, từ đám đông ta lấy ra mẫu W = ( X1, X2,…., Xn) Từ mẫu này ta tìm được S '2 Ta có:
χ 2 = (n−1) S '
2
σ2 ~ χ2(n-1) (5.1)
a, Khoảng tin cậy của σ2 (lấy α1 = α2 =α2 )
Vì χ 2 ~ χ 2(n-1), với độ tin cậy γ = 1- α cho trước, ta có thể tìm được phân vị χ1−α
2
2 (n−1)
và χ α
2
2 (n−1)
sao cho: P (χ1−α2
2 (n−1)
<¿ χ 2 < χ α
2
2 (n−1)
¿ = 1 –α= γ Thay biểu thức của χ 2 vào công thức trên và biến đổi, ta có:
P ( (n−1) S '
2
χ α
2
2 (n −1) <σ2<(n−1) S '
2
χ 1− α
2
2(n−1) = 1 –α= γ
Ở đây γ = 1- α là độ tin cậy và Khoảng tin cậy của σ2 là ( (n−1) S '
2
χ α
2
2 (n −1) ; (n−1) S '
2
χ 1− α
2
2 (n −1) ¿
b, Khoảng tin cậy phải của σ2 (lấy α1= 0, α2 = α dùng để ước lượng giá trị tối thiểu của σ2)
Trang 9Ta vẫn dùng thống kê (5.1) Với độ tin cậy γ = 1- α cho trước ta tìm được phân vị
χ α 2 (n−1) sao cho: P (χ 2 < χ α 2 (n−1)¿ = 1 –α= γ
c, Khoảng tin cậy trái của σ2(lấy α2= 0, α1 = α dùng để ước lượng giá trị tối đa của
σ2)
Ta vẫn dùng thống kê (5.1) Với độ tin cậy γ = 1- α cho trước ta tìm được phân vị
χ 1−α 2 (n−1) sao cho: P (χ 1−α 2 (n−1)<¿χ 2) = 1 –α= γ
Sau đó chúng ta thay χ 2 Vào và làm tương tự
1 Khái niệm :
Giả thuyết về quy luật phân phối xác suất của ĐLNN, vì giá trị của tham số của ĐLNN, hoặc vì tính độc lập của các ĐLNN được gọi là giả thuyết thống kê
2 Phương pháp kiểm định
• Nguyên lý xác suất nhỏ: “ Một biến cố có xác suất khá bé thì trong thực hành ta
có thể coi nó không xảy ra trong một lần thực hiện phép thử.”
2.1 Tiêu chuẩn kiểm định
• Giả sử ta có cặp GTTK H0: θ=θ0 / H1
• Với mẫu W=(X1,X2,…Xn) XDTK: G = f(X1,X2,…Xn ,θ0 )
Sao cho nếu H0 đúng thì G có quy luật phân phối hoàn toàn xác định G được gọi là Tiêu chuẩn kiểm định
2.2 Miền bác bỏ, quy tắc kiểm định
• Giả sử H0 đúng, khi đó G có quy luật phân phối xác suất xác định, với xác suất α khá bé cho trước ta có thể tìm được miền Wα : P( G thuộc Wα / H0)= α
Wα : miền bác bỏ với α : mức ý nghĩa
Thật vậy: Theo nguyên lý xác suất nhỏ ta có thể coi biến cố không xảy ra trong một lần thực hiện phép thử
Do đó với mẫu cụ thể w = (x1,x2,…xn) ta tìm được:
gtn = f(x1,x2,…xn,θ0) mà gtn ∈Wα thì giả thuyết H0 tỏ ra không đúng, ta có cơ sở bác bỏ H0
+Quy tắc kiểm định:
• Tính toán: gtn = f(x1,x2,…xn,θ0)
• Nếu: gtn ∈ Wα ta có cơ sở bác bỏ H0, chấp nhận H1
Trang 10• Nếu: gtn ∉ Wα ta chấp nhận H0, bác bỏ H1
2.3 Thủ tục kiểm định
• Với mức ý nghĩa α XDBTKĐ: H0/H1
• Với mẫu W=(X1,X2,…Xn ) XDTCKĐ G thích hợp
• Tìm miền bác bỏ Wα
• Tính gtn nếu: gtn ∈ Wα ta bác bỏ H0
gtn ∉ Wα ta chấp nhận H0
3 Các trường hợp kiểm định
3.1 Kiểm định tham số muy của biến ngẫu nhiên phân phối Chuẩn
Tiêu chuẩn Gặp giả thuyết Miền bác bỏ H0
3.2 Kiểm định tham số của biến ngẫu nhiên phân phối Chuẩn
Tiêu chuẩn Gặp giả thuyết Miền bác bỏ H0
3.3 Kiểm định tham số p của biến ngẫu nhiên phân phối A(p)
Tiêu chuẩn Gặp giả thuyết Miền bác bỏ H0
Trang 11B Quá trình nghiên cứu của nhóm
1 Thống nhất chọn đề tài :
Vì nhóm gồm 6 thành viên và trong hạn hẹp về mặt thời gian tài chính nhóm quyết định thực hiện đề tài nghiên cứu trong sinh viên để mang tính khả thi cao
Ước lượng thời gian trung bình sinh viên Thương Mạị tới trường và kiểm định về tỷ lệ sinh viên sử dụng xe buýt tới trường
2 Phương pháp nghiên cứu được sử dụng trong bài :
Phương pháp khảo sát, thống kê
3 Mục tiêu khi lấy mẫu của nhóm
- Rõ ràng, trung thực, số liệu xác thực để có được kết quả ước lượng và kiểm định chính xác nhất có thể
- Lấy đươc thông tin từ các đối tượng ở các khoa khác nhau và các khóa khác nhau
4 Cách thức lấy mẫu của nhóm
- Hình thức để lấy mẫu:
+ Thông qua bảng câu hỏi: gồm 150 phiếu
+ Thông qua google biểu mẫu
Nội dung bảng câu hỏi gồm các thông tin sau: ( sắp xếp theo thứ tự như bên dưới, lấy những thông tin cần thiết trước và các thông tin mang tính logic theo sau) + Thông tin cá nhân: Họ tên, lớp hành chính
+ Thời gian đến trường
+ Phương tiện đến trường
+ Một số thông tín liên quan để có thể xác thực những thông tin trên và để góp phần đưa ra được những kết luận chính xác như: nơi ở cách trường bao xa, có gặp tắc đường không( bao nhiêu lần), thường xuyên gặp đèn đỏ không ( những thông tin đó guips nhóm đánh giá xem thời gian ghi ở phần trên có phù hợp không)
- Địa điểm lấy mẫu của nhóm
+ Thư viện+ Sân thư viện ( số lượng 20 phiếu)
+ Sân thể dục nhà H1 ( số lượng 24 phiếu)
Trang 12+ Đăng trên Facebook thông qua các trang : K52 đại học Thương Mại, K53 Đại học Thương Mại, Ôn thi TMU,……Để có kết quả khách quan nhóm chủ động không tag tên bạn bè do đó kết quả thu được tương đối tốt ( số lượng thu thập được là: 79 phiếu hợp lệ)
+ Các lớp học phần ở nhà V, nhà G có các thành viên nhóm đang theo học: 57 phiếu
Kết quả thu được 180 phiếu hợp lệ
5 Kết quả mẫu thu được
Nhóm có thể tự hào rằng đã cố gắng hết sức trong vòng 9 ngày để thu thập được số phiếu trên một cách khách quan, và thực hiện được mục tiêu lấy mẫu của nhóm với 180 phiếu hợp lệ
+ Có đầy đủ các khóa 50, 51, 52, 53 ( trong đó 52 chiếm tỷ lệ lớn nhất khoảng gần 50%)
+ Có nhiều khoa tham gia trả lời: H, D, F, N, S, P, E, T, B, C, U, BKS, I, NTA,…
6 Khó khăn trong quá trình lấy mẫu
+ Vì thành viên nhóm chủ yếu là K52 nên số lượng SV K52 trên mẫu tương đối lớn
+ Địa điểm chọn chưa quá phong phú đa dạng
Bảng câu hỏi còn có 1 vài câu cần chỉnh sửa để dễ hiểu và logic hơn
Người được hỏi không có sự hợp tác như: từ chối điền, điền thông tín sai lệch, điền thông tin bất hợp lý,…khiến nhóm phải loại bỏ những phiếu đó
Vì sử dụng trang mạng xã hội face book nên nhóm không kiểm soát được đối tượng điền mặc dù nguồn thông tin lấy được rất lớn
7 Chọn n phù hợp
Lúc đầu nhóm chọn sai số khoảng 2.5 và tính ra n= 142
Như vậy lấy mẫu n=180 là phù hợp vì khi đó sai số sẽ càng nhỏ khoảng 2.35
và kết quả ước lượng sẽ chính xác hơn
8 Thời gian làm nghiên cứu: 3 tuần
2 ngày: Thống nhất đề tài và triển khai kế hoạch
9 ngày: Thu thập dữ liệu