4.1 SỰ CẦN THIẾT PHẢI LẤY MẪUNhiều bài toán trong thực tế dẫn đến nghiên cứu một hay nhiềudấu hiệu định tínhhoặcđịnh lượngđặc trưng cho các phần tử của một tập hợp nào đó Để xử lý dấu hi
Trang 14.1 SỰ CẦN THIẾT PHẢI LẤY MẪU
Nhiều bài toán trong thực tế dẫn đến nghiên cứu một hay
nhiềudấu hiệu định tínhhoặcđịnh lượngđặc trưng cho
các phần tử của một tập hợp nào đó
Để xử lý dấu hiệu cần nghiên cứu đôi khi người ta sử dụng
phương pháp nghiên cứu toàn bộ
Tuy nhiên trong thực tế việc áp dụng phương pháp này gặp
phải những khó khăn sau:
Qui mô của tập hợp cần nghiên cứu quá lớn
Trong nhiều trường hợp không thể nắm được toàn bộ
Có thể trong quá trình điều tra sẽ phá hủy đối
tượng nghiên cứu
4.2.1 Khái niệm mẫu ngẫu nhiên Tập hợp các phần tử đồng nhất theo một dấu hiệu nghiên cứu định
tính hay định lượng nào đó được gọi là tổng thể
Mỗi phân tử của tổng thể được gọi là cá thể Dấu hiệu nghiên cứu của tổng thể có thể được định tính hoặc định lượng Bằng cách mô hình hóa ta có thể xem dấu hiệu nghiên cứu
là một biến ngẫu nhiên xác định trên tổng thể
Ta nói rằng một mẫu là mẫu ngẫu nhiên nếu trong phép lấy mẫu đó
mỗi cá thể của tổng thể được chọn một cách độc lập và có xác suất được chọn như nhau
4.2 MẪU NGẪU NHIÊN
Việc chọn n cá thể nào đó từ tổng thể được gọi là phép lấy mẫu Ta gọi các cá thể chọn được này là một mẫu, n là kích thước mẫu Nếu cá
thể chọn xong không trả lại tổng thể để chọn tiếp thì mẫu được gọi là
không hoàn lại Nếu chọn xong trả lại tổng thể để chọn tiếp thì mẫu được gọi có hoàn lại
CHƯƠNG 4: LÝ THUYẾT MẪU
4.2.2 Mô hình hóa mẫu ngẫu nhiên
Giả sử các cá thể của tổng thể được nghiên cứu thông qua
dấu hiệu X Với mỗi mẫu ta chỉ cần quan tâm dấu hiệu
nghiên cứuXcủa mỗi cá thể của mẫu
Vì vậy, mỗi cá thể được chọn khi lấy mẫu có thể đồng nhất
với dấu hiệu nghiên cứuXcủa cá thể đó
Bằng cách đồng nhất mẫu ngẫu nhiên với các dấu hiệu
nghiên cứu của mẫu ta có định nghĩa về mẫu ngẫu nhiên
như sau
Chẳng hạn, khi muốn biết chiều cao trung bình của thanh niên
trong một vùng nào đó thì với cá thể A được chọn làm mẫu ta chỉ
quan tâm về chiều cao của A, tức là dấu hiệu chiều caoXA , và
không quan tâm đến các đặc trưng khác của cá thể này.
CHƯƠNG 4: LÝ THUYẾT MẪU
Thực hiện một phép thử đối với mẫu ngẫu nhiên W chính là
thực hiện một phép thử đối với mỗi thành phần của mẫu
Giả sửXinhận giá trịxi(i=1, … ,n), khi đó các giá trịx1,x2,
… ,xntạo thành một giá trị của mẫu ngẫu nhiên, hay còn gọi
là một thể hiện của mẫu ngẫu nhiên, ký hiệu
w=(x1,x2, … ,xn)
Mẫu ngẫu nhiên kích thướcnlà một dãy gồmnbiến ngẫu nhiên:X1,X2, … ,Xnđộc lập cùng phân bố vớiX, ký hiệu
trong đó Xilà dấu hiệu Xcủa phần tử thứ icủa mẫu (i=1, … , n)
W=(X1,X2, … ,Xn)
CHƯƠNG 4: LÝ THUYẾT MẪU
Thực hiện một phép thử đối với mẫu ngẫu nhiên này tức là tung
con xúc xắc 3 lần Giả sử lần thứ nhất được2nốt, lần thứ hai
được5nốt lần ba được3nốt thìw=(2,5,3)là một mẫu cụ thể
của mẫu ngẫu nhiênW
Tung con xúc xắc 3 lần và gọiXilà số nốt xuất hiện trong lần
tung thứi(i=1,2, 3) thì ta có 3 biến ngẫu nhiên độc lập có
cùng quy luật phân bố xác suất vớiX Vây ta có mẫu ngẫu
nhiên kích thước 3:W = (X1,X2,X3)
Ví dụ: GọiXlà số chấm của mặt xuất hiện khi tung con xúc
xắc cân đối,Xlà biến ngẫu nhiên nhận các giá trị1,…,6đồng
khả năng
CHƯƠNG 4: LÝ THUYẾT MẪU
4.2.3 Biểu diễn giá trị cụ thể của mẫu ngẫu nhiên theo bảng và theo biểu đồ
4.2.3.1 Bảng phân bố tần số thực nghiệm
Từ một mẫu cụ thể của mẫu ngẫu nhiên kích thướcncủaX,ta sắp xếp các giá trị của mẫu cụ thể theo thứ tự tăng dần Giả sử giá trịxixuất hiện với tần sốri,i=1,…,k
x x r r n
Bảng phân bố tần số thực nghiệm
Trang 24.2.3.2 Bảng phân bố tần suất thực nghiệm
Ký hiệu i
i
r
f
n
gọi là tần suất của xi
Bảng phân bố tần suất thực nghiệm của X
4.2.3.3 Hàm phân bố thực nghiệm của mẫu
j
x x
Định lý Glivenco chỉ ra rằng hàm phân bố thực nghiệmFn(x)
xấp xỉ với phân bố lý thuyếtFX(x) = P{X x}khinđủ lớn
Ví dụ 4.2:
Lấy một mẫu ngẫu nhiên kích thước 120 ta có bảng phân bố tần số thực nghiệm
Bảng phân bố tần suất thực nghiệm tương ứng
CHƯƠNG 4: LÝ THUYẾT MẪU
4.2.3.4 Bảng phân bố ghép lớp
Trong những trường hợp mẫu điều tra có kích thước lớn,
hoặc khi các giá trị cụ thể của dấu hiệuXlấy giá trị khác
nhau song lại khá gần nhau, người ta thường xác định một
số các khoảngC1,C2, … ,Cksao cho mỗi giá trị của dấu
hiệu điều tra thuộc vào một khoảng nào đó
Việc chọn số khoảng và độ rộng khoảng là tuỳ thuộc vào kinh
nghiệm của người nghiên cứu, nhưng nói chung không nên
chia quá ít khoảng
Các khoảng này lập thành một phân hoạch của miền giá trị
củaX
CHƯƠNG 4: LÝ THUYẾT MẪU
Ví dụ: Một mẫu về chiều cao (cm) của 400 cây con được trình bày trong bảng phân bố ghép lớp sau
Giá trị
i
i i
l
r
y là tần số xuất hiện trong một đơn vị khoảng của khoảng có
độ dài l i
CHƯƠNG 4: LÝ THUYẾT MẪU
4.2.3.5 Biểu diễn bằng biểu đồ
Biểu đồ tần số hình gậy
CHƯƠNG 4: LÝ THUYẾT MẪU
Biểu đồ đa giác tần suất
Trang 34.2.3.6 Tổ chức đồ (histogram)
4.3 THỐNG KÊ VÀ CÁC ĐẶC TRƯNG CỦA MẪU NGẪU NHIÊN
6.3.1 Định nghĩa thống kê
Một thống kê của mẫu là một hàm của các biến ngẫu nhiên thành phần của mẫu
Thống kê của mẫu ngẫu nhiên W=(X1, X2, …, Xn)có dạng
T = T(X1, X2, …, Xn) Như vậy thống kêTcũng là một biến ngẫu nhiên, tuân theo một quy luật phân bố xác suất nhất định và có các tham số đặc trưng như kỳ vọngETphương saiDT …
Với một giá trị cụ thểw=(x1, x2, …, xn)của mẫu thìTcũng nhận một giá trị cụ thể gọi là giá trị quan sát được của thống kê
Tqs= T(x1, x2, …, xn)
CHƯƠNG 4: LÝ THUYẾT MẪU
4.3.2 Trung bình mẫu
Trung bình mẫu của mẫu ngẫu nhiênW=(X1, X2, …, Xn)của
biến ngẫu nhiên gốc X được định nghĩa và ký hiệu
1
1 n i i
X X
n
Giá trị quan sát trung bình mẫu của mẫu ngẫu nhiên cụ thể
w=(x1, x2,…, xn)là
1
1 n i i
x x
n
Kỳ vọng, phương sai của trung bình mẫu biến ngẫu nhiên gốc X
E X EX D X DX
n
CHƯƠNG 4: LÝ THUYẾT MẪU
4.3.3 Phương sai mẫu, Độ lệch chuẩn mẫu
1 Phương sai mẫu 2
S
1
1
n i i
1
n i i
X n
CHƯƠNG 4: LÝ THUYẾT MẪU
2 Phương sai mẫu có hiệu chỉnh S2
n
3 Trường hợp biến ngẫu nhiên gốcXcó kỳ vọng xác địnhEX =
thì phương sai mẫu được chọn là *2
2
2
1
1
*
n i i
Áp dụng công thức tính kỳ vọng ta có
2
ES DX E *S 2DX
CHƯƠNG 4: LÝ THUYẾT MẪU
Độ lệch chuẩn mẫu
2 2
1
1 1
k
i i i
S S r X X
n
4.3.4 Tần suất mẫu Biến ngẫu nhiên gốcXcó phân bố Bernoulli tham sốplà xác suất xuất hiện biến cốA
Lấy mẫu ngẫu nhiênW=(X1, X2, …, Xn) Tần số xuất hiện dấu hiệuAcủa mẫu là
r X X X
n
n
Trang 44.3.5 Cách tính giá trị cụ thể của trung bình mẫu và phương sai mẫu
1 Nếu mẫu chỉ nhận các giá trịx1,x2, … ,xkvới tần số tương
ứngr1,r2, … ,rkthì giá trị trung bình mẫu và phương sai
mẫu cụ thể được tính theo công thức
1 ,
x r x r n
n
k
i
r x
s r x x r x
2 Nếu giá trị của mẫu cụ thể được cho dưới dạng bảng phân
bố ghép lớp với các khoảngC1, … ,Cmthì giá trịxitrong thức
trên là trung điểm của khoảngCi
3 Mẫu thu gọn: Nếu các giá trị của mẫu cụ thểxikhông gọn (quá lớn hoặc quá bé hoặc phân tán) ta có thể thu gọn mẫu bằng cách đổi biến:
i
h
h
x r x r hu a r u a r hu a
n n n n
h
1
1 k
i i i
u ru
n
k
i
r u
s r u u r u
CHƯƠNG 4: LÝ THUYẾT MẪU
177,5
400
x 2
u
CHƯƠNG 4: LÝ THUYẾT MẪU
4.4 PHÂN BỐ XÁC SUẤT CỦA MỘT SỐ THỐNG KÊ MẪU 4.4.1 Trường hợp biến ngẫu nhiên gốc có phân bố chuẩn Giả sử biến ngẫu nhiên gốcXcó phân bố chuẩnN( ; 2).
Các tham số này có thể đã biết hoặc chưa biết
Từ tổng thể rút ra một mẫu ngẫu nhiênW=(X1, X2, …, Xn) Các biến ngẫu nhiên thành phầnX1, X2, …, Xnđộc lập và có cùng phân bố chuẩn như biến ngẫu nhiên gốcX
Từ tính chất: mọi tổ hợp tuyến tính của các biến ngẫu nhiên có phân bố chuẩn là biến ngẫu nhiên có phân bố chuẩn Vì vậy ta
có các kết quả sau
CHƯƠNG 4: LÝ THUYẾT MẪU
4.4.1.1 Phân bố của thống kê trung bình mẫu
X E X , D X 2
n
Trung bình mẫu có phân bố chuẩn với
~ (0;1)
X n
U
Ví dụ 4.4: Chiều cao X của các nam sinh viên đại học là biến ngẫu nhiên
có phân bố chuẩn với trung bình 163cm và độ lệch chuẩn 3cm Lấy 80
mẫu của mẫu ngẫu nhiên 25 sinh viên
a) Tìm kỳ vọng và phương sai của trung bình mẫu
b) Có bao nhiêu mẫu trong số 80 mẫu lấy giá trị trung bình trong khoảng
từ 161,8 cm đến 163,3 cm
c) Có bao nhiêu mẫu trong số 80 mẫu lấy giá trị trung bình nhỏ hơn
161,4 cm
CHƯƠNG 4: LÝ THUYẾT MẪU
Giải: a) E(X)E(X)163cm, D 2 32 0,36
25
X n
b) Áp dụng công thức ta được ( 163)
~ (0;1)
0, 6
X
161,86 163,3 (0,5) ( 1,9) (0,5) (1,9) 1 0,6627
Vậy số mẫu thỏa mãn điều kiện cần tìm là 80.0,6627 hoặc xấp xỉ 53 mẫu
c) P X 161, 4 ( 2,67) 1 (2,67)0,0038
Đây là biến cố có xác suất bé, vì vậy không có mẫu nào trong số 80 mẫu có số đo trung bình nhỏ hơn 161,4 cm
Thật vậy 80.0,0038 0,304 <<1
Trang 5* 4.4.1.2 Phân bố của thống kê phương sai mẫu
2 2
2 1
*
~ ( )
n i i
X nS
n
2
S
4.4.1.3 Phân bố của thống kê phương sai mẫu
2
T
2 2
2 1
( 1)
n i i
X X
n S
n
4.4.2 Trường hợp biến ngẫu nhiên gốc có phân bố Bernoulli Giả sử biến ngẫu nhiên gốc của tổng thể có phân bố Bernoulli tham sốp
Từ tổng thể rút ra một mẫu ngẫu nhiênW=(X1, X2, …, Xn)
f n
là một biến ngẫu nhiên có kỳ vọng
và phương sai E( )f p ; D( ) f pq
n
Áp dụng Định lý Moivre-Laplace ta có
n
f p n
pq
CHƯƠNG 4: LÝ THUYẾT MẪU
Như vậy có thể xấp xỉ thống kê
( f p ) n U
pq
với phân bố chuẩn tắcN(0;1)khi nđủ lớn
Người ta thấy rằng xấp xỉ là tốt khi np > 5và nq > 5hoặc npq > 20
Vậy có thể coi
( )
U
pq
5
np nq
hoặc npq 20
CHƯƠNG 4: LÝ THUYẾT MẪU
Ví dụ 4.6: Gieo 120 lần đồng xu cân đối đồng chất
a) Tính xác suất có khoảng 40% đến 60% lần số mặt sấp xuất hiện
b) Tính xác suất tỷ lệ mặt sấp xuất hiện lớn hơn hoặc bằng 5
8
c) Một nhóm 500 người, mỗi người gieo 120 lần đồng xu cân đối đồng chất Có bao nhiêu người có kết quả mặt sấp xuất hiện trong khoảng
40% đến 60%
Giải: Có thể xem mỗi lần gieo đồng xu là thực hiện phép thử Bernoulli với
sự thành công của phép thử là sự xuất hiện mặt sấp, từ giả thiết ta có xác suất thành công của phép thử là 0,5 Như vậy biến ngẫu nhiên gốc
X có phân bố Bernoulli tham số 0,5 Gieo 120 lần là lấy mẫu ngẫu nhiên với kích thước 120 của biến ngẫu
nhiên gốc, do đó tần suất mẫu 1 120
120
f
npnq npq thỏa mãn điều kiện kích thước đủ lớn
CHƯƠNG 4: LÝ THUYẾT MẪU
a) 40% và 60% của 120 bằng 48 và 72 Áp dụng công thức ta có
48 72 72 0,5 60 48 0,5 60
5, 48 5, 48
P r
(2,28) ( 2, 28) 2 (2,28) 1 0,9774
b) 5
.120 75
8 , vậy xác suất tỷ lệ mặt sấp xuất hiện lớn hơn hoặc bằng
5
8
5, 48
c) Theo ý a) xác suất gieo 120 lần đồng xu (mẫu ngẫu nhiên kích thước 120)
với 40% đến 60% lần mặt sấp xuất hiện là 0,9774 Vậy 500 người thực hiện
120 lần gieo đồng xu (500 quan sát cụ thể của mẫu ngẫu nhiên kích thước
120) thì số người có kết quả gieo với số mặt sấp xuất hiện trong khoảng
40% đến 60% là 500.0,9774488,7489