Khoảng tin cậy cho giá trị trung bình, với độ tin cậy 1 ư α Nếu kích thước mẫu đủ lớn n≥ 30, mặc dù phân bố mẫu có thể không là phân bố chuẩn, tuy nhiên áp dụng luật giới hạn trung tâm t
Trang 1Thống kê toán
Xét một mẫu ngẫu nhiên
(X1, X2, , Xn)tương ứng với đại lượng ngẫu nhiên X
E(X) = m, D(X) = σ2.Gọi ξ là đại lượng ngẫu nhiên:
P (ξ = xi) = 1
n với mọi i = 1, 2, , n
Khi đó E(ξ), D(ξ) được gọi là các đặc trưng mẫu Người ta kí hiệu X = E(ξ) là kì vọng mẫu và S2= D(ξ)
là phương sai mẫu Hiển nhiên
X = X1+ X2+ + Xn
1n
S∗2 được gọi là là phương sai mẫu điều chỉnh
E(X) = m = E(X), E(S∗2) = σ2= D(X),Nhận xét 4
1 X không những hội tụ theo xác suất mà hội tụ hầu chắc chắn tới m = E(X)
2 S2, S∗2hội tụ hầu chắc chắn (suy ra cũng hội tụ theo xác suất) tới σ2 khi n → ∞
Trang 22 Các hàm phân bố thường gặp trong thống kê
Hàm Gamma, Beta và tính chất hàm Gamma, Beta
A Tích phân sau hội tụ với mọi x > 0, y > 0
eưttxư1dt +
+∞
1
eưttxư1dt = I1+ I2
Tích phân I1 hội tụ vì với 0 < x < 1, 0 < t 1, ta có eưttxư1< t1ưx1
Tích phân I2 hội tụ vì limt→+∞eưttx+1= 0, suy ra với t đủ lớn eưttxư1< t12
B Tích phân sau hội tụ với mọi x > 0, y > 0
B(x, y) =
1 0
txư1(1ư t)yư1dt
Tách Γ(x) thành hai tích phân
B(x, y) =
1 0
txư1(1ư t)yư1dt =
c 0
txư1(1ư t)yư1dt +
1 c
6 Ta công nhận kết quả sau đúng với mọi số thực x > 0, y > 0
B(x, y) =Γ(x)Γ(y)
Γ(x + y).Phân bố Gamma, Beta
1 Nếu Xi ∈ N(mi, σ2
i), i = 1, 2, , n độc lập, khi đó trung bình mẫu
X = X1+ X2+ã ã ã + Xn
n ∈ N(m, σ2)trong đó
Trang 32 Phân bố của Y = X với X ∈ N(m, σ ) Hàm mật độ của Y
√yσ2 Nếu m = 0
g(y) = 12σ√2πe
ưy 2σ2yư12 Phân bố của Y = X2 là trường hợp đặc biệt của phân bố Gamma: G(y, α, p) = const ã eưαyypư1
Đặc biệt B(x, 1, 1) = x là hàm mật độ của phân bố đều trên đoạn [0, 1]
Bài tập 1 H1y tính các mô men cấp k của phân bố Beta (B(α+k,β)B(α,β) )
Từ đó suy ra kì vọng và phương sai của nó (m = α
Bài tập 3 Giả sử X ∈ G(α1, 1) và Y ∈ G(α2, 1) độc lập có phân bố Gamma Khi đó u = X+YX có phân bốBeta với các tham số (α1, α2)
p1ư1
(1 + f )p 1 +p 2.Chứng minh Hàm mật độ của (X, Y ) bằng
cã eưαxưαyxp1 ư1yp2 ư1
Đổi biến x = r sin2ϕ, y = r cos2ϕ, 0 < r < +∞, 0 < ϕ < π
2, khi đó Jacobien của (x, y) bằng J(r, ϕ) =
r sin 2ϕ Mật độ của (r, ϕ) bằng
c′ã eưαrrp 1 +p 2 ư1(sin ϕ)2p 1 ư1(cos ϕ)2p 2 ư1, (2)
điều đó chứng tỏ r và ϕ độc lập Suy ra r = X + Y và f = X
Y = tg2ϕ cũng độc lập Từ biểu thức (2) hiểnnhiên r ∈ G(α, p1+ p2)
Để xác định hàm mật độ của f, ta sử dụng phép đổi biến ϕ = arctg√
f , ta thu được kết quả
Γ(p1+ p2)Γ(p1)Γ(p2)ã f
p 1 ư1
(1 + f )p1+p2.Chú ý rằng với phép biến đổi u = 1 , khi đó1
up2ư1(1ư u)p1ư1du =∞ fp1ư1
df
Trang 41 Phân bố χ
Nếu Xi∈ N(0, 1), i = 1, 2, , n độc lập, khi đó phân bố của X2+ X2+ã ã ã + X2
n được gọi là phân
bố χ2 với n bậc tự do Người ta thường kí hiệu χ2(n) là lớp các đại lượng ngẫu nhiên có phân bố χ2 với
n bậc tự do Đây là trường hợp đặc biệt của phân bố Gamma (α = 1
2, p = n
2) với hàm mật độG(x,1
mn
m 2
ã Γ(
m+n
2 )Γ(m2)Γ(n2)ã x
m
2 ư1
(1 +mxn )m+n2
3 Phân bố Student (hay còn gọi là phân bố t)
Nếu X ∈ χ2(n) và Y ∈ N(0, 1) độc lập, khi đó phân bố của
T =√YX
√n
được gọi là phân bố T (hay phân bố Student) với n bậc tự do Phân bố đồng thời của (Y, X) bằng
cã eưy22 eưx2xn2 ư1
Đổi biến y = r sin ϕ, x = r2cos2ϕ, 0 < r < +∞, ưπ
2 < ϕ < π2, khi đó Jacobien của (x, y) bằngJ(r, ϕ) = 2r2cos ϕ Mật độ của (r, ϕ) bằng
√
x =
√ntgϕ hay ϕ = arctg√t
có phân bố Student với n bậc tự do
Kí hiệu S(n) là lớp các đại lượng ngẫu nhiên có phân bố Student với n bậc tự do
Trang 54 Phân bố của trung bình mẫu và phương sai mẫu.
n = X2+ã ã ã + X2
n=(Xiư X)2+ nX2⇔ Y2+ã ã ã + Y2
n = (nư 1)S∗2
(c) Với véc tơ m = (m, m, , m), ta có A(X ư m) = Y ư (m√n, 0, , 0) = (Y1ư m√n, Y2, , Yn).Suy ra
(Y1ư m√n)2+ Y2+ã ã ã + Yn2= (X1ư m)2+ (X2ư m)2+ã ã ã + (Xnư m)2.Biết hàm mật độ của X bằng
cã eư
(xiưm)22σ2 Vậy mật độ của Y bằng
cã eư(y1ưm
√n)2+y2+ããã+y n2
Điều đó chứng tỏ Y1= X√
n∈ N(m√n, σ2), Yi∈ N(0, σ2), i = 2, , n độc lập và(nư 1)S∗2
σ
√
n∈ N(0, 1) và nS 2
σ 2 =(nư1)Sσ2 ∗2 ∈ χ2(nư 1)
Trang 63 Khoảng tin cậy cho giá trị trung bình
(a) Mẫu có phân bố chuẩn với phương sai σ2 đ1 cho Khoảng tin cậy cho giá
trị trung bình, với độ tin cậy 1 ư α
(b) Mẫu có phân bố chuẩn với phương sai chưa biết Khoảng tin cậy cho giá trị
trung bình, với độ tin cậy 1 ư α
Nếu kích thước mẫu đủ lớn (n≥ 30), mặc dù phân bố mẫu có thể không
là phân bố chuẩn, tuy nhiên áp dụng luật giới hạn trung tâm ta có thể
sử dụng công thức sau để tính khoảng tin cậy cho giá trị trung bình, độ
4 Khoảng tin cậy cho xác suất
Cho biến cố ngẫu nhiên với xác suất p cấn phải ước lượng Giả thiết %p = k
n
là tần suất xuất hiện của biến cố đó (Kích thước mẫu đủ lớn - thông thường
n≥ 40) Khi đó với độ tin cậy 1 ư α, khoảng tin cậy cho xác suất
%
pư√uαn
%p(1ư %p) < p <p +% √uα
n
%p(1ư %p),trong đó uα được xác định từ hệ thức P (|u| ≥ uα) = α, u∈ N(0, 1)
5 Khoảng tin cậy cho phương sai của phân bố chuẩn
Mẫu có phân bố chuẩn với phương sai σ2 cấn phải ước lượng Với độ tin cậy
1ư α, khoảng tin cậy cho σ2
nS2
χ2
α 2
< σ2< nS
2
χ2 1ư α 2trong đó χ2
α được xác định từ hệ thức P (χ2> χ2α) = α,(χ2là đại lượng ngẫu nhiên có phân bố χ2
với (n ư 1) bậc tự do)
Trang 76 Khoảng tin cậy cho hiệu các giá trị trung bình của phân bố chuẩn
6.1 Trường hợp phương sai đã biết
Gọi (X1, X2, , Xm) là mẫu ngẫu nhiên tương ứng với đại lượng ngẫu nhiên X ∈ N(m1, σ2), (Y1, Y2, , Yn)
là mẫu ngẫu nhiên tương ứng với đại lượng ngẫu nhiên Y ∈ N(m2, σ2) Các tham số m1, m2 chưa biết và
σ2, σ2là các tham số đ1 biết Giả thiết tiếp các đại lượng ngẫu nhiên
m +
σ2 2
nSuy ra
Nếu n1, n2 đủ lớn (≥ 30), ta xấp xỉ công thức trên cho hiệu các giá trị
trung bìnhm1ưm2cả trong trường hợp các mẫu đM cho không tuân theo
phân bố chuẩn, sử dụng S∗
1 vàS∗
2 thay cho σ1, σ2 tương ứng trong công thức trên.
6.2 Trường hợp các phương sai chưa biết và bằng nhau
Gọi (X1, X2, , Xm) là mẫu ngẫu nhiên tương ứng với đại lượng ngẫu nhiên X ∈ N(m1, σ2), (Y1, Y2, , Yn)
là mẫu ngẫu nhiên tương ứng với đại lượng ngẫu nhiên Y ∈ N(m2, σ2) (Chúng có phương sai bằng nhau).Các tham số m1, m2, σ2 chưa biết và giả thiết rằng các đại lượng ngẫu nhiên
m + nmn
có phân bố chuẩn, thuộc lớp N(0,1) Dễ dàng chứng minh được
mSX2 + nSY2
m + nư 2
Trang 8là ước lượng không chệch của σ Người ta chứng minh được rằng (thay σ trong thống kê trên bằng ước lượngcủa nó)
t = (Xư Y ) ư (m1ư m2)
&
mS 2
X +nS 2 Y
m+nư2
&
m+n mn
=
mn(m + nư 2)
m + n ã(Xư Y ) ư (m 1ư m2)
mS2
X+ nS2 Y
có phân bố Student với m + n ư 2 bậc tự do
Đặc biệt khi hai giá trị trung bình bằng nhau m1= m2
t =
mn(m + nư 2)
m + n ã Xư Y
mS2
X+ nS2 Y
cũng có phân bố Student với m + n ư 2 bậc tự do
Khoảng tin cậy cho hiệu các giá trị trung bình m1ư m2 với độ tin cậy 1 ư α bằng
m + nư 2 và tα được xác định từ hệ thức
P (|t| ≥ tα) = α (t có phân bố Student với m + nư 2 bậc tự do.)
7 Kiểm định giả thiết về giá trị trung bình (trường hợp σ2 đã biết)
Bài toán 1 và quy tắc kiểm định
Mẫu có phân bố chuẩn với phương sai σ2 đ1 cho Kiểm định giả thiết về kì
vọng mẫu, mức ý nghĩa α
(H) : m = m0,với đối thiết
(K) : m= m0.Quy tắc: Bác bỏ (H) nếu
Xư m0
σ
√n
= |uqs| > uα,trong đó uα được xác định từ hệ thức P (|u| ≥ uα) = α, u∈ N(0, 1)
Bài toán 2 và quy tắc kiểm định
Mẫu có phân bố chuẩn với phương sai σ2 đ1 cho Kiểm định giả thiết về kì
vọng mẫu, mức ý nghĩa α
(H) : m = m0,với đối thiết
(K) : m > m0.Quy tắc: Bác bỏ (H) nếu Xư m0
σ
√
n = uqs > uα,trong đó uα được xác định từ hệ thức P ((u ≥ uα) = α, u∈ N(0, 1)
Trang 9Mẫu có phân bố chuẩn với phương sai σ đ1 cho Kiểm định giả thiết về kì
vọng mẫu, mức ý nghĩa α
(H) : m m0,với đối thiết
(K) : m > m0.Quy tắc: Bác bỏ (H) nếu Xư m0
σ
√
n = uqs > uα,trong đó uα được xác định từ hệ thức P ((u ≥ uα) = α, u∈ N(0, 1)
Mẫu có phân bố chuẩn với phương sai σ2 đ1 cho Kiểm định giả thiết về kì
vọng mẫu, mức ý nghĩa α
(H) : m = m0 hoặc (H) : m m0
với đối thiết
(K) : m > m0.Quy tắc: Bác bỏ (H) nếu Xư m0
σ
√
n = uqs > uα,trong đó uα được xác định từ hệ thức P ((u ≥ uα) = α, u∈ N(0, 1)
Hoàn toàn tương tự, chúng ta sẽ xét bài toán kiểm định 1 phía nữa
σ
√
n = uqs<ưuα,trong đó uα được xác định từ hệ thức P ((u ≥ uα) = α, u∈ N(0, 1)
Trang 108 Kiểm định giả thiết về giá trị trung bình (trường hợp σ2 chưa biết)
Mẫu có phân bố chuẩn với phương sai σ2 chưa biết Kiểm định giả thiết về kì
Xư m0
S∗
√n
> tα,trong đó tα được xác định từ hệ thức P (|t| ≥ tα) = α(t có phân bố Student với nư 1 bậc tự do.)
(b) Bài toán 2
(H) : m = m0 hoặc (H) : m m0
với đối thiết
(K) : m > m0.Quy tắc: Bác bỏ (H) nếu tqs= Xư m0
S∗
√
n > tα,trong đó tα được xác định từ hệ thức P (t ≥ tα) = α(t có phân bố Student với nư 1 bậc tự do.)
(c) Bài toán 3
(H) : m = m0 hoặc (H) : m ≥ m0
với đối thiết
(K) : m < m0.Quy tắc: Bác bỏ (H) nếu tqs= Xư m0
S∗
√
n <ưtα,trong đó tα được xác định từ hệ thức P (t ≥ tα) = α(t có phân bố Student với nư 1 bậc tự do.)
Trang 119 Kiểm định giả thiết về sự bằng nhau của các giá trị trung bình
9.1 Trường hợp phương sai đã biết
(b) Bài toán 2
(H) : m1= m2 hoặc (H) : m1m2
với đối thiết
(K) : m1> m2.Quy tắc: Bác bỏ (H) nếu &Xư Y
Nếu mẫu có kích thước đủ lớn (m, n > 30), một cách xấp xỉ khá tốt là
áp dụng quy tắc nêu trên để kiểm định giả thiết không, kể cả trường hợp
phân bố mẫu không có phân bố chuẩn, thay các phương sai σ2, σ2 trong
thống kê ubằng các phương sai mẫu điều chỉnhS∗2
X và S∗2
Y .
Trang 129.2 Trường hợp các phương sai chưa biết và bằng nhau
mn(m + nư 2)
m + n ã Xư Y
mS2
X+ nS2 Y
> tα,trong đó tα được xác định từ hệ thức P (|t| ≥ tα) = α
(t có phân bố Student với m + nư 2 bậc tự do.)(b) Bài toán 2
(H) : m1= m2 hoặc (H) : m1m2
với đối thiết
(K) : m1> m2.Quy tắc: Bác bỏ (H) nếu
mn(m + nư 2)
m + n ã Xư Y
mS2
X+ nS2 Y
> tα,trong đó tα được xác định từ hệ thức P (t ≥ tα) = α
(t có phân bố Student với m + nư 2 bậc tự do.)(c) Bài toán 3
(H) : m1= m2 hoặc (H) : m1≥ m2
với đối thiết
(K) : m1< m2.Quy tắc: Bác bỏ (H) nếu
mn(m + nư 2)
m + n ã Xư Y
mS2
X+ nS2 Y
<ưtα,trong đó tα được xác định từ hệ thức P (t ≥ tα) = α
(t có phân bố Student với m + nư 2 bậc tự do.)
Trang 1310 Kiểm định giả thiết về sự bằng nhau của các phương sai
Giả sử {Xi}m
i=1 ∈ N(m1, σ2
X) {Yi}n
i=1 ∈ N(m2, σ2
Y) là các mẫu hoàn toàn
độc lập, có phân bố chuẩn Kiểm định giả thiết về các phương sai, với mức ý
nghĩa α Ta sắp xếp sao cho S∗
X
2> S∗ Y 2
(a) Bài toán 1
(H) : σX2 = σY2với đối thiết
(K) : σX2 = σ2
Y.Quy tắc: Bác bỏ (H) nếu SX∗
2
S∗ Y
2 > Fα/2,trong đó Fα/2 được xác định từ hệ thức P (F ≥ Fα/2) = α
2(F là đại lượng ngẫu nhiên phân bố F với m ư 1, n ư 1 bậc tự do.)(b) Bài toán 2
(H) : σX2 = σY2 hoặc (H) : σ2
X σY2với đối thiết
(K) : σX2 > σY2.Quy tắc: Bác bỏ (H) nếu SX∗
2
S∗ Y
2 > Fα,trong đó Fα được xác định từ hệ thức P (F ≥ Fα) = α(F là đại lượng ngẫu nhiên phân bố F với m ư 1, n ư 1 bậc tự do.)
11 Kiểm định giả thiết về xác suất của biến cố ngẫu nhiên
Giả sửA là biến cố ngẫu nhiên có xác suất P (A) = p chưa biết Ta sử dụng ước lượng
%
p = X = X1+ X2+ã ã ã + Xn
ntrong đó Xibằng 1 hoặc 0 tùy theo biến cố A xảy ra hoặc không xảy ra ở phép thử ngẫu nhiên thứ i, i = 1, 2, , n.(%p thực chất là tần suất xuất hiện của biến cố A) Khi đó n%p có phân bố nhị thức với
E(np) = np,% D(np) = npq, q = 1% ư pvới mức ý nghĩa α cho trước
Ta đ1 biết, theo định lí giới hạn trung tâm
Trang 14Kiểm định giả thiết về xác suất của biến cố ngẫu nhiên.
Giả thiết kích thước mẫu n đủ lớn (n ≥ 40) Kiểm định giả thiết về xác suất,
n %pư p0
p0(1ư p0) > uα,trong đó uα được xác định từ hệ thức P (u ≥ uα) = α
n p%ư p0
p0(1ư p0) <ưuα,trong đó uα được xác định từ hệ thức P (u ≥ uα) = α
Trang 1512 Kiểm định giả thiết về tính phù hợp của hàm phân bố
Giả thiết mẫu ngẫu nhiên gồm n phần tử mẫu Các phần tử mẫu được phân loại
thành r nhóm: mỗi nhóm chứa ni phần tử mẫu, mỗi phần tử mẫu chỉ thuộc một
(H) : Xác suất để mỗi phần tử mẫu thuộc nhóm thứ i bằng pi
α được xác định từ hệ thức P (χ2> χ2α) = α,(χ2là đại lượng ngẫu nhiên có phân bố χ2
với r ư 1 bậc tự do)
Người ta cũng sử dụng phân bố χ2 để kiểm định các bài toán về tính phù hợp của hàm phân bố Xét bàitoán kiểm định giả thiết:
(H): Một đại lượng ngẫu nhiên X nào đó có phân bố dạng F (x, Θ) với đối thiết ngược lại
Giả sử tham số Θ = (Θ1, Θ2, , Θk) là véc tơ, gồm k tham số tạo thành (chẳng hạn như dạng phân bốchuẩn F (x, Θ) = F (x, m, σ2)∈ N(m, σ2) gồm 2 tham số thành phần)
Để giải bài toán đó, người ta chọn một mẫu ngẫu nhiên
(X1, X2, , Xn)tương ứng với đại lượng ngẫu nhiên X và chia các phần tử mẫu vào r nhóm: mỗi nhóm chứa niphần tử mẫu,mỗi phần tử mẫu chỉ thuộc một nhóm duy nhất
(Giả sử phân bố F (x, Θ) là phân bố chuẩn N (m, σ2), Θ được coi như véc tơ (m, σ2) và số tham số củaphân bố bằng k = 2, trường hợp F (x, λ) là phân bố mũ chẳng hạn số tham số của phân bố là k = 1, )Miền bác bỏ của kiểm định do vậy là
Trang 16trong đó χαđ−ợc xác định từ hệ thức P (χ > χα) = α, (χ là đại l−ợng ngẫu nhiên có phân bố χ với r −k −1bậc tự do) Ta tóm tắt quy tắc trên trong bảng sau
Kiểm định sự phù hợp với hàm phân bố chứa tham số ch−a biết
Giả thiết mẫu ngẫu nhiên gồm n phần tử mẫu Các phần tử mẫu đ−ợc phân loại
thành r nhóm: mỗi nhóm chứa ni phần tử mẫu, mỗi phần tử mẫu chỉ thuộc một
(H) : Mẫu ngẫu nhiên có phân bố dạng F (x, Θ)
xác suất đó đ−ợc tính thông qua hàm phân bố F (x, %Θ) mà %Θ = ( 'Θ1, 'Θ2, , 'Θk)
là các −ớc l−ợng hợp lí cực đại của các tham số Θ1, Θ2, , Θk
Phân vị χ2
α đ−ợc xác định từ hệ thức P (χ2> χ2α) = α,(χ2là đại l−ợng ngẫu nhiên có phân bố χ2
(H): P (AiBj) = P (Ai)P (Bj) với mọi i = 1, 2, , r; j = 1, 2, , s
Xét một mẫu ngẫu nhiên cỡ n (mẫu gồm n phần tử mẫu) Ta đ−a vào các kí hiệu sau:
nij là số lần xảy ra biến cố tích AiBj trong tập hợp các phần tử mẫu
Trang 17Các số nij được xếp vào bảng sau đây:
α được xác định từ hệ thức P (χ2> χ2
α) = α,(χ2là đại lượng ngẫu nhiên có phân bố χ2 với (r ư 1)(s ư 1) bậc tự do)
Chú ý rằng xấp xỉ tương đối tốt nếu n i n j
n 2 ≥ 5 với mọi i, j.
Trang 1814 Hệ số tương quan mẫu
Trong lí thuyết xác suất, chúng ta biết rằng để đo mối quan hệ giữa hai hoặc nhiều đại lượng ngẫu nhiên, người
ta thường tính các hệ số tương quan giữa chúng
̺(X, Y ) =cov(X, Y )
σxσy
=E[(Xư E(X))(Y ư E(Y ))]
D(X)
Nếu X và Y là hai đại lượng ngẫu nhiên độc lập khi đó hệ số tương quan ̺(X, Y ) = 0 Trường hợp
|̺(X, Y )| = 1, giữa X và Y có mối quan hệ phụ thuộc tuyến tính Y = aX + b Trong thống kê, thay vì hai
đại lượng ngẫu nhiên X, Y ta xét mẫu ngẫu nhiên
(X1, Y1), (X2, Y2), , (Xn, Yn)
Có thể coi chúng như các điểm ngẫu nhiên trên mặt phẳng toạ độ Hệ số tương quan mẫu được định nghĩa
r =
1 n
n i=1(xiư x)(Yiư Y )
SxSY
=
1 n
n i=1xiYiư x ã Y
n i=1(xiư x)(Yiư Y )
S∗
xS∗ Y
=
n i=1xiYiư nx ã Y
n i=1X2
1 n
n i=1xi 1nn
i=1yi n1n
i=1(xiư x)2 1
n
n i=1(yiư y)2
658,95833 1272,16667 85, 024252 163, 50712
Trang 19Hệ số tương quan mẫu do vậy bằng
r =
1 n
n i=1(xiư x)(yiư y)
là mẫu ngẫu nhiên tương ứng với hai đại lượng ngẫu nhiên X và Y Chẳng hạn khi xét bài toán dự báo đỉnh
lũ hàng năm trên sông Hồng tại Hà nội đ1 nói trong mục trước Chúng ta cảm nhận được mối liên hệ giữalượng mưa (X) hàng năm và đỉnh lũ tại Hà nội (Y ), tuy nhiên không có thông tin nào hơn về mối liên hệ thựcgiữa X và Y , khi đó ta giả thiết giữa chúng có mối quan hệ tuyến tính (bậc nhất) Mặt khác do chúng taxem lượng mưa và đỉnh lũ là các đại lượng ngẫu nhiên, vì vậy khi dự báo lượng mưa Y với điều kiện lượngmưa X bằng một giá trị x nào đó, ta chỉ có thể khảo sát hàm phân bố có điều kiện của Y (X còn gọi làbiến độc lập và Y được gọi là biến phụ thuộc) Đặc trưng quan trọng của phân bố có điều kiện làkì vọng có
điều kiệnE(Y /X = x) Vì vậy trong chương này chúng ta hạn chế chỉ xét trường hợpkì vọng có điều kiện
E(Y /X = x) là hàm tuyến tính đối vớiX
E(Yi/X = xi) = αxi+ β i = 1, 2, , n
Như vậy sai số giữa Yi và kì vọng có điều kiện E(Yi/X = xi), kí hiệu
εi = Yiư E(Yi/X = xi) = Yiư (αxi+ β)
là đại lượng ngẫu nhiên có kì vọng bằng 0
E(εi) = E(Yi)ư E(E(Yi/X = xi)) = E(Yi)ư E(Yi) = 0
Vậymẫu hồi quy tuyến tínhcủa Y đối với X được tóm tắt như sau:
Đại lượng ngẫu nhiên độc lập X nhận các giá trị xi, khi đó
Yi= αxi+ β + εi i = 1, 2, , n (3)trong đó α, β là các hệ số cần ước lượng, y = αx + β được gọi là đường thẳng hồi quy, εi là đại lượngngẫu nhiên có kì vọng E(εi) = 0
Ta gọi a, b là các ước lượng bất kì của các hệ số α, β tương ứng Khi đó đường thẳng hồi quy được ướclượng là đường thẳng
y = ax + b
Độ lệch (hay tạm gọi là sai số) giữa yi với đường thẳng trên tại điểm xi, kí hiệu ei bằng
e = y ư (ax + b)