Đề tài: Bài toàn ước lượng và kiểm định trong phân tích…(kinh tế, tài chính, đời sống, xã hội, nông nghiệp, sinh học, khoa học trái đất, khoa học vũ trụ,…) Thống kê học có thể được định nghĩa một cách khái quát như khoa học, kỹ thuật hay nghệ thuật của việc rút ra thông tin từ dữ liệu quan sát, nhằm giải quyết các bài toán trong cuộc sống. Việc rút ra thông tin như vậy có thể là kiểm định một giả thiết khoa học, ước lượng một đại lượng chưa biết hay dư đoán một sự kiện tương lai.
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI
BÀI THẢO LUẬN
BỘ MÔN TOÁN ĐẠI CƯƠNG
HÀ NỘI-2020
Trang 2Thảo luận
Lớp học phần: 20106AMAT1011
Giảng viên: Nguyễn Thu Thủy
Đề tài: Bài toàn ước lượng và kiểm định trong phân tích…(kinh tế, tài chính, đời
sống, xã hội, nông nghiệp, sinh học, khoa học trái đất, khoa học vũ trụ,…)
MỤC LỤC
LỜI MỞ ĐẦU 4
Trang 31.Tính cấp thiết của đề tài 4
2.Nội dung bài thảo luận 4
CHƯƠNG I: Khái quát lý thuyết 5
1 Ước lượng 5
1.1.Ước lượng kì vọng toán của ĐLNN 5
1.2.Ước lượng tỷ lệ 7
2.Kiểm định giả thuyết thống kê 8
a, Giả thuyết thống kê: 8
b, Tiêu chuẩn kiểm định 8
c, Miền bác bỏ 8
e, Các sai lầm thường gặp 9
f, Kiểm định giả thuyết về kì vọng toán 9
g, Kiểm định giả thuyết về tỉ lệ 10
CHƯƠNG II: Một số ví dụ về việc ứng dụng ước lượng và kiểm định trong cac bài toán thực tế 12
1.Bài toán 1: 12
2.Bài toán 2 14
3 Bài toán 3 16
4 Bài toán 4 18
KẾT LUẬN 19
Trang 4LỜI MỞ ĐẦU
1.Tính cấp thiết của đề tài
Thống kê học có thể được định nghĩa một cách khái quát như khoa học, kỹ thuật hay nghệ thuật của việc rút ra thông tin từ dữ liệu quan sát, nhằm giải quyết các bài toán trong cuộc sống Việc rút ra thông tin như vậy có thể là kiểm định một giả thiết khoa học, ước lượng một đại lượng chưa biết hay dư đoán một sự kiện tương lai
Phương pháp ước lượng bằng khoảng tin cậy sẽ giúp chúng ta ước lượng được
sai số ɛ và chỉ ra khả năng mắc sai lầm khi ước lượng khoảng tin cậy Kể cả khi nghiên cứu trên mẫu có kích thước nhỏ thì ước lượng khoảng tin cậy cũng sẽ cho kết quả với sai số rất nhỏ Bằng phương pháp ước lượng khoảng tin cậy, ta có thể giải quyết các bài toán thống kê thường gặp như: ước lượng doanh thu trung bình hàng thắng của các đại lý bánh kẹo ở Hà Nội, ước lượng tỉ lệ học sinh có quê ở Thanh Hóa đang học tại trường Đại học Thương Mại, ước lượng tuổi thọ trung bình của bóng đèn dây tóc,…
Thống kê nói chung và các bài toán kiểm định, ước lượng nói riêng đều có ứng dụng rộng rãi trong thực tế về đời sống Nó không chỉ giải quyết các bài toán trong thực tế mà thậm chí cả nhưng bài toán trong nghiên cứu khoa học Các phương pháp ước lượng, kiểm định giúp ta giải quyết nhiều vấn đề xã hội như:
- Vấn đề kinh tế: Ước lượng doanh thu bình quân của cửa hàng, ước lượng tỉ lệ doanh nghiệp có mức lợi nhuận trên 1,5 tỷ đồng; tỉ lệ thất nghiệp,…
- Vấn đề xã hội: Độ tuổi thọ trung bình của người dân ở Hà Nội, tỉ lệ hộ dân cận nghèo ở thành phố Vinh,…
2.Nội dung bài thảo luận
Chương I: Khái quát lý thuyết về ước lượng và kiểm định thống kê.
Chương II: Một số ví dụ minh họa cho ước lượng và kiểm định trong bài toán
thực tế cuộc sống
Trang 5CHƯƠNG I: Khái quát lý thuyết
1 Ước lượng
1.1.Ước lượng kì vọng toán của ĐLNN
- Xét đám đông có µ=E(X) chưa biết cần phải ước lượng
- Chọn ra mẫu W = (X1,X2,….,Xn), từ đó xây dựng được các tham số mẫu: X´,
S2, S’2
- Dựa vào các tham số mẫu đó, ta ước lượng µ trong đó các trường hợp sau:
a, Trường hợp X~N(µ;σ2
n), 𝛔 đã biết
Suy ra: U=
´
X−µ σ
√n
~ N(0;1)
TH1: Khoảng tin cậy đối xứng:
TH2: Khoảng tin cậy phải (ước lượng tối thiểu):
Trang 6TH3: Khoảng tin cậy trái (để ước lượng giá trị tối đa)
b, ĐLNN X phân phối theo quy luật chuẩn, phương sai chưa biết, n<30
Vì X ~N(µ,σ2) => T=
´
X−µ
s '
√n
~ T(n-1)
(*) Khoảng tin cậy đối xứng (α1=α2=α
2)
Với γ=1−α tìm được t α
2
(n−1)
thỏa mãn:
P(¿T ∨¿t α
2
(n−1)
)=γ=1-α
Trang 7Thay T vào công thức trên ta được: P(X´- ε < µ < X´+ε)=γ=1-α
Trong đó: ε=S '
√n t α2
(n−1)
KTC đối xứng của µ: (X´- ε;X´+ε) với ε= S '
√n t α2 (n−1)
(*) Khoảng tin cậy phải (α1 = 0, α2 = α) ước lượng µmin, X´ max
Với α~(0,1) tìm được t(α n−1) thỏa mãn: P(T <t(α n−1)
)=γ=1-α Thay T vào công thức trên ta được: P(X−´ S '
√n t α
(n−1)
<µ) = γ=1-α
µmin=X´-S '
√n t α
(n−1)
´
Xmax=S '
√n t α
(n−1)
+µ (*) Khoảng tin cậy phải (α1=α, α2=0) ước lượng µmax, X´ min
Với α~(0,1) tìm được t(α n−1) thỏa mãn: P(T>t(α n−1) )=γ=1-α
Thay T vào công thức trên ta được: P (µ< ´X + S '
√n t α
(n−1)
) = γ=1-α
µmax=X´+ S '
√n t α
(n−1)
´
Xmin=S '
√n t α
(n−1)
- µ
*Chú ý: Khi tìm ε, nếu U chưa biết nhưng n>30 ta dùng ước lượng điểm là
U≈ s(s ') trong một lần chọn mẫu
1.2.Ước lượng tỷ lệ.
Ước lượng xác suất P khi n đủ lớn, chọn thống kê
U=
f −p
√p q n
≃ N(0,1) với q=1- p
Trang 8Tỉ lệ phần tử có đặc điểm A trong mẫu là f= n A
n
2<U<u α
2)=γ=1-α
(f −u α
2√p q n ;f +u α
2√p q n )
(f −u α√p q n ;1)
(0 ; f +u α√p q n )
*Chú ý: Nếu ko có p thì thay thế: {q=1−f p=f
2.Kiểm định giả thuyết thống kê
a, Giả thuyết thống kê:
Giả thuyết về quy luật phân phối xác suất của ĐLNN, về các tham số đã cho biết độ tập trung của ĐLNN hoặc về tính độc lập của ĐLNN được gọi là giả thuyết thống
kê, kí hiệu là H0
Một giả thuyết trái với giả thuyết H0 được gọi là đối thuyết, kí hiệu H1
Các giả thuyết thống kê có thể đúng hoặc sai nên ta cần kiểm định, tức là tìm ra lí luận về tính thừa nhận hay không thừa nhận được của giả thuyết đó Việc kiểm định này được gọi là kiểm định thống kê
b, Tiêu chuẩn kiểm định
Để kiểm định cặp giả thuyết thống kê H0 và H1, từ đám đông ta chọn mẫu
W = (X1,X2,….,Xn)
Dựa trên mẫu này ta xây dựng thống kê :
G = f¿) Trong đó θ0 là một tham số liên quan đến H0, sao cho nếu H0 đúng thì quy luật phân phối xác xuất của G hoàn toàn xác định
Khi đó thống kê G được gọi là tiêu chuẩn kiểm định
Trang 9c, Miền bác bỏ
Với α khá bé cho trước ta có thể tìm được miền Wα, gọi là miền bác bỏ, sao cho nếu giả thuyết H0 đúng thì xác suất để G nhận giá trị thuộc miền Wα bằng α, tức là: P(G∈Wα/HH0)=α
Nếu trong một lần lấy mẫu ta thấy:
- gtn∈Wα ta có cơ sở bác bỏ giả thuyết H0
- gtn∉Wα thì giả thuyết H0 tỏ ra hợp lí, chưa có cơ sở bác bỏ H0
d, Qui tắc kiểm định
Để kiểm định một cặp giả thuyết thống kê ta tiến hành như sau:
- Xác định bài toán kiểm định
- Xây dựng một tiêu chuẩn kiểm định G thích hợp
- Tìm miền bác bỏ W
- Từ đám đông ta lấy một mẫu cụ thể kích thước n và tính gtn
+ Nếu gtn∈Wα thì bác bỏ giả thuyết H0, chấp nhận H1
+ Nếu gtn∉Wα thì chưa có cơ sở bác bỏ H0
e, Các sai lầm thường gặp
Theo quy tắc kiểm định trên ta có thể mắc hai loại sai lầm nhưu sau:
- Sai lầm loại một: là sai lầm bác bỏ giả thuyết H0 khi H0 đúng Xác suất mắc sai lầm loại một bằng α Giá trị α được gọi là mức ý nghĩa
- Sai lầm loại hai: là sai lầm chấp hận H0 khi chính nó sai Nếu kí hiệu xác suất mắc sai lầm loại hai là β thì ta có:
- P(G∈ ´ Wα/HH0)=β
- Sai lầm loại một và sai lầm loại hai có quan hệ mật thiết với nhau: khi kích thước mẫu xác định, nếu giảm α thì β tăng và ngược lại
f, Kiểm định giả thuyết về kì vọng toán
- Giả sử ta cần nghiên cứu một dấu hiệu X thể hiện trên một đám đông
nghĩa α ta cần kiểm định giả thuyết H0: µ=µ0
- Từ đám đông ta lấy mẫu W = (X1,X2,….,Xn) và tính được các đặc trưng mẫu X , S '´ 2
Ta xét các trường sau:
Trường hợp X~N(µ,𝛔2) với 𝛔2 đã biết
Trang 10Vì X~N(µ,𝛔2) nên X´~N(µ, σ
2
√n) Xây dựng tiêu chuẩn kiểm định U =
´
X−μ0 σ
√n
.
Nếu H0 đúng thì U~N(0,1)
Bài toán 1:
Bài toán 2:
Bài toán 3:
Trang 11g, Kiểm định giả thuyết về tỉ lệ
Khi n đủ lớn, xây dựng tiêu chuẩn kiểm định
U =
f −p
√p q n
Nếu H0 đúng thì U≃N(0,1)
p = p0
p≠p0 P(|U|>u α
2)=γ=1-α Wα= {uutn: |utn|>u α
2}
p > p0 P(U>uα)=γ=1-α Wα= {uutn: utn> uα}
p < p0 P(U<uα)= γ=1-α Wα= {uutn: utn< uα}
Trang 12CHƯƠNG II: Một số ví dụ về việc ứng dụng ước lượng và kiểm định
trong cac bài toán thực tế.
1.Bài toán 1:
Đề bài: Trong quá trình sàng lọc cổ phiếu để đầu tư trong lĩnh vực dịch vụ, điều
tra 43 doanh nghiệp tại thị trường thành phố Hồ Chí Minh, ta có bảng thống kê chỉ
số EPS như sau:
Chỉ số ESP
(đồng/Hcổ phiếu)
a) Với độ tin cậy 95%, hãy ước lượng chỉ số EPS trung bình tối đa để cho các nhà đầu tư có lợi nhất
b) Doanh nghiệp Tu Liem Urban Development JSC có chỉ số EPS là 2420
đồng/Hcổ phiếu, có thể nói doanh nghiệp này có chỉ số EPS thấp hơn so với mức chỉ số EPS trung bình của các doanh nghiệp trong lĩnh vực dịch vụ hay không? Với mức ý nghĩa là 5%
( Số liệu được lấy tại website: Investing.com)
→ Bài Làm
a
Gọi X là chỉ số EPS tại thành phố Hồ Chí Minh (đồng/Hcổ phiếu)
´
X là giá trị trung bình của EPS trên mẫu (đồng/Hcổ phiếu)
µlà giá trị trung bình của EPS trên đám đông (đồng/Hcổ phiếu)
Từ mẫu quan sát, ta tính được các đại lượng sau:
- Trung bình mẫu:
´
phiếu)
- Phương sai mẫu:
s2 =(18×5002 + 19×15002 + 5×75002 +1×150002) × 431 - 2534,88372
Trang 13= 8213899,511
- Độ lệch chuẩn mẫu điều chỉnh
s’ =√8213899,511 ×43
42 = 2899,9084 (đồng/Hcổ phiếu)
Vì n = 43> 30, và chưa biết quy luật phân phối xác suất của X nên ta chọn thống kê như sau:
U=
´
Xưµ
s '
√n
Do chưa biết σ nên ta lấy σ≈ s’
Tìm phân vị uα sao cho
P (- uα < U < +∞) = γ =1-α
↔ P( -∞ < μ < X´ + uα
s '
√n) = γ =1-α
Ta có γ = 0,95 → α = 0,05 → u0,05=1,64
Với độ tin cậy 95%, chỉ số EPS tối đa để cho các nhà đầu tư có lợi nhất là:
2534,8837 + 2899,9084
b,
Vì n= 43> 30, và chưa biết quy luật phân phối xác suất của X nên ta xây dựng tiêu chuẩn kiểm định như sau:
U=
´
Xưu0 σ
√n
Xét cặp giả thuyết: {H0: µ=µ0
H1: µ>µ0
Nếu H0 đúng thì U~N(0,1)
Với mức ý nghĩa α= 0,05, tìm phân vị uα= 1,64 sao cho P(U > uα) = 0,95, ta có miền bác bỏ như sau :
Wα = {u utn : utn > uα }
Trang 14utn =
´
x−µ0
s '
√n = 2534,8837−24202899,9084
√43
≈ 0,26
→ utn ∉Wα
Vậy với mức ý nghĩa 0.05, ta chưa có cơ sở để bác bỏ H0 có nghĩa là, chưa thể xác định được chỉ số EPS của doanh nghiệp trên có thấp hơn chỉ số EPS trung bình của các doanh nghiệp trong lĩnh vực dịch vụ được
2.Bài toán 2
Đề bài: Thời đại Internet, mạng xã hội đang rất phổ biến hiện nay, việc sử dụng
mạng xã hội sao cho hợp lý, khoa học là một vấn đề hết sức quan trọng, do đó đã
có rất nhiều người đã khảo sát thời gian sử dụng mạng xã hội hiện này của người dân Việt Nam trong một ngày Qua quá trình khảo sát thời gian sử dụng mạng xã hội của 100 người dân Việt Nam trong một ngày, ta có bảng thống kê cho thấy kết quả:
Thời gian
a, Với độ tin cậy 95%, ước lượng thời gian tối thiểu người sử dụng mạng xã hội một ngày
b, Với mức ý nghĩa 5%, có thể cho rằng tỉ lệ người dân có thời gian sử dụng mạng
xã hội đúng với thời gian sử dụng đã được khuyên bằng 15% hay không ? Biết rằng thời gian sử dụng được khuyên dùng là 1-3 giờ
Biết thời gian sử dụng mạng xã hội của người dân trong một ngày là đại lượng ngẫu nhiên tuân theo quy luật phân phối chuẩn với độ lệch tiêu chuẩn là 1,5 giờ
(Số liệu được tham khảo tại trang: Yougov.com)
→ Bài làm
a,
Gọi X là thời gian người dân sử dụng mạng xã hội một ngày (giờ)
´
X là thời gian trung bình người dân sử dụng mạng xã hội một ngày ở mẫu (giờ)
μ là thời gian trung bình người dân sử dụng mạng xã hội một ngày ở đám đông
(giờ)
Ta có bảng thống kê:
Trang 15Số người 2 9 27 28 14 19
´
x =1001 ×(0,35 × 2+0,75× 9+2 ×27+4 × 28+6 ×14 +8 ×19)
=4,0945 (giờ)
Do X~ N(µ;σ2
√n) với σ = 1,5 nên chọn thống kê:
U=
´
X−µ σ
√n
~ N(0,1)
Tìm phân vị uα sao cho
P(-∞<¿ U < uα)=γ=1-α
↔ P(X´- uα
σ
√n < μ < +∞) = γ = 1- α
Với γ = 0,95 → α = 0,05 → u0,05=1,64
Vậy với độ tin cậy 95% thì thời gian tối thiểu người dân sử dụng mạng xã hội trong một ngày là: 4,0945-1,64× 1,5
√100 =3,8485 (giờ)
b,
Gọi f là tỉ lệ người dân có thời gian sử dụng mạng xã hội một ngày như được khuyên ở mẫu
p là tỉ lệ người dân có thời gian sử dụng mạng xã hội một ngày như được khuyên ở đám đông
f =n A
n ¿
27
100= 0,27
Với mức ý nghĩa 5%, ta cần kiểm định cặp giả thuyết: {H0: p= p0=0,15
H1: p ≠ p0
Với n đủ lớn, ta xây dựng thống kê:
U =
f − p0
√p0.q0
n
Nếu H0đúng thì U ≃ N (0,1)
Tìm phân vị u α
2 = u0,025=1,96sao cho:
P(|U| >u α
2) = P(|u tn| ¿ 1,96)= 0,05
Miền bác bỏ: W α={u tn: ¿u tn∨ ¿ 1,96}
→ q0=1-p0=0,75
Trang 16Tại mẫu quan sát: u tn=
f − p0
√p0.q0 n
=
0,27−0,15
√0,15.0,75 100
= 3,5778
→ u tn ∈ W α
Vậy với mức ý nghĩa 5% thì ta bác bỏ H0, chấp nhận H1, có nghĩa là tỉ lệ người dân
có thời gian sử dụng mạng xã hội đúng với thời gian sử dụng đã được khuyên
không bằng 15%
3 Bài toán 3
Đề bài: Ta có bảng thống kê số người mắc và tử vong do Covid-19 tại các quốc
gia tại khu vực Đông Nam Á từ khi bùng phát dịch cho đến nay (Đơn vị: người)
Quốc
gia
Bru
nây
Cam pu chia
In đô
Ma lai
xi a
Mi an ma
Phi líp pin
Xinh
ga po
Thái Lan
Đông Timo
Việt Nam
Số ca
Số ca
tử
vong
Bảng thống kê các quốc gia có số lượng người mắc Covid – 19 tại khu vực Đông
Nam Á từ khi bùng phát dịch cho đến nay (Đơn vị: người)
(Số liệu được lấy tại: https://news.google.com/covid19/map)
a, Với độ tin cậy là 80% hãy ước lượng số ca tử vong trung bình của các quốc gia
tại khu vực Đông Nam Á từ khi bùng phát dịch cho đến nay, biết số ca tử vong là
ĐLNN phân phối chuẩn theo quy luật chuẩn
b, Với mức ý nghĩa 0,05 có thể kết luận rằng số ca mắc trung bình của mỗi quốc
gia lớn hơn 80000 không?
→ Bài làm
Gọi X là số ca tử vong của các quốc gia khu vực Đông Nam Á từ khi bùng phát
cho đến nay (người)
Trang 17Gọi X´ là số ca tử vong trung bình của các quốc gia khu vực Đông Nam Á từ khi bùng phát cho đến nay ở mẫu (người)
Gọi μ là số ca tử vong trung bình của các quốc gia khu vực Đông Nam Á từ khi bùng phát cho đến nay ở đám đông (người)
´
X = 111 × ( 500.4 + 5500.2 + 55000.3 + 550000.2 ) = 116181,8182 (người)
s2 = 111 ×( 5002.4 + 55002.2 + 550002.3 + 5500002.2 ) = 5,5831.1010
s '2 = 11−111 s2 = 1110 5,5831.1010 = 6,1414 1010
s’ = √s '2 = √6,1414.1010 = 247817,7758 (người)
a,
Do X N (μ , σ2) , σ chưa biết, n < 30 nên ta chọn thống kê
T =
´
X−μ
s '
√n
T(n-1)
Tìm phân vị t α
2 sao cho :
P ( - t α
2
(n−1)
< T < t α
2
(n−1)
) = γ=1-α
P ( - t α
2
(n−1)
<
´
X−μ
s '
√n
< t α
2
(n−1)
) = γ=1-α
P ( X −t´ α
2
(n−1). s '
√n < μ< X +t´ α
2
(n −1). s '
√n = γ=1-α Với độ tin cậy là 80% => γ = 0,8 => α = 0,2 => α2= 0,1
=> t(11−1)0,1 =t0,1(10)=1,372
=> 116181,8182 - 1,372.247817,7758
√11 <μ< 116181,818 + 1,372.247817,7758
√11
=> 13666,1555 < μ < 218697,4809
Vậy với độ tin cậy Với độ tin cậy là 80%, số ca tử vong trung bình của các quốc gia tại khu vực Đông Nam Á từ khi bùng phát dịch cho đến nay là
(13666,1555;218697,4809) người
b,
n=11; μ0=80000
Kiểm định cặp giả thuyết: {H0: μ=μ0
H1: μ>μ0
ĐLNN gốc X có phân phối chuẩn, σ chưa biết, n<30 → σ≈ s’
Trang 18Vì X~ N(μ,σ2) ta xây dựng tiêu chuẩn kiểm định
T=
´
X−μ0
s '
√n
Nếu H0 đúng thì T~ T(n-1)
Với α=0,05 ta tìm phân vị t(α n−1)=t(10)0,05=1,1812
Sao cho P(T > 1,1812)=0,05
Miền bác bỏ Wα={t tn :t tn>1,1812}
Với mẫu quan sát : t tn=
116181,8182−80000 247817,7758
√11
= 0,4842 ∉W α
Vậy với mức ý nghĩa 0,05 ta chưa có cơ sở bác bỏ H0, có nghĩa là chưa đủ dữ liệu để kết luật nghĩa là không thể nói số ca mắc trung bình của mỗi quốc gia là lớn hơn 80000
4 Bài toán 4
Đề bài: Điều tra ngẫu nhiên 200 hộ gia đình trong xã thì thấy có 26 hộ gia đình
có hoàn cảnh khó khăn về kinh tế
a) Với độ tin cậy 95% hãy ước lượng tỉ lệ số hộ gia đình có hoàn cảnh khó khăn
về kinh tế trong xã đó
b) Những hộ gia đình có hoàn cảnh khó khăn về kinh tế sẽ được hưởng trợ cấp của nhà nước Theo báo cáo thì tỉ lệ được hưởng trợ cấp là 7% Nghi ngờ tỉ
lệ báo cáo này còn cao hơn so với thực tế , điều tra thêm 300 hộ gia đình thì thấy có 31 hộ được hưởng trợ cấp Với mức ý nghĩa là 1% hãy cho kết luận
về nghi ngờ trên
→Bài làm
Gọi f là tỉ lệ số gia đình có hoàn cảnh khó khăn về kinh tế trong xã ở mẫu
p là tỉ lệ số gia đình có hoàn cảnh khó khăn về kinh tế trong xã ở đám đông a,
Vì n đủ lớn nên ta chọn thống kê:
√eq¿ (pq , n) ≃ N (0,1)
Với f = = = 0,13 và độ tin cậy γ = 1 –α = 0,05 → α2= 0,025 → u α
2= 1,65
Do n khá lớn và p chưa biết nên t lấy f ≈ p=0,13