Tìm hiểu về lí thuyết xác suất có điều kiện
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
BỘ MÔN: TRUYỀN THÔNG VÀ MẠNG MÁY TÍNH
MÔN: QUÁ TRÌNH NGẪU NHIÊN ỨNG DỤNG
ĐỀ TÀI 01: “Tìm hiểu về lí thuyết xác suất có điều kiện” Giảng viên hướng dẫn : PGS.TS Nguyễn Thị Hoàng Lan
Sinh viên thực hiện : 1) Lê Văn An – SHSV:20090042
2) Nguyễn Thanh Bình - SHSV:20090237
3) Nguyễn Quang Dương – SHSV:20090603 4) Lã Thế Long – SHSV:20091644
5) Nguyễn Thanh Sơn - SHSV:20092259 6) Nguyễn Ngọc Việt – SHSV:20093256
Lớp: : Kỹ thuật máy tính và Truyền thông 2 – K54
Hà Nội , tháng 12 năm 2011
Trang 2MỤC LỤC
Trang
LỜI NÓI ĐẦU……… 2
PHÂN CÔNG CÔNG VIỆC TRONG NHÓM………3
NỘI DUNG I PHÂN PHỐI, MẬT ĐỘ XÁC SUẤT CÓ ĐIỀU KIỆN VÀ ÁP DỤNG…… 4
I.1 Định nghĩa phân phối, mật độ xác suất có điều kiện……….4
I.2 Định lí Bayes với hàm mật độ xác suất……….7
I.3 Phân phối xác suất có điều kiện trong trường hợp rời rạc……….7
I.4 Hệ thống tin cậy……….9
II KỲ VỌNG CÓ ĐIỀU KIỆN VÀ ÁP DỤNG………10
II.1 Kỳ vọng có điềukiện………10
II.2 LuậtGalton……… 11
III BÀI TẬP MINHHỌA……… 15
IV THỰC NGHIỆM VỚI MATLAB……….16
IV.1 Tìm hiểu hộp công cụ Statistics toolbox……….16
IV.2 Đồ thị các hàm mật độ xác suất……… 20
Trang 3LỜI MỞ ĐẦU
Có thể nói, lí thuyết xác suất là một ngành khoa học đang giữ một vị trí
quan trọng trong các lĩnh vực ứng dụng rộng rãi và phong phú của đời sống con người Cùng với sự phát triển mạnh mẽ của khoa học và công nghệ, nhu cầu hiểu biết và sử dụng các công cụ ngẫu nhiên trong phân tích và xử lí thông tin ngày càng trở nên đặc biệt cần thiết Các kiến thức và phương pháp của lí thuyết xác suất đã hỗ trợ hữu hiệu các nhà nghiên cứu trong nhiều lĩnh vực khoa học khác nhau như vật lí, hóa học, sinh học, nông học, kinh tế học, xã hội học… Nhằm mục đích mong muốn hiểu hơn về kiến thức và ứng dụng của lí
thuyết xác suất nhóm đã chọn đề tài: “Tìm hiểu về lí thuyết xác suất có điều kiện” làm đề tài tìm hiểu của mình
Bài báo cáo bao gồm bốn phần chính:
Phần 1: Phân phối, mật độ xác suất có điều kiện và áp dụng
Phần 2: Kỳ vọng có điều kiện và áp dụng
Phần 3: Bài tập minh họa
Phần 4: Thực nghiệm bằng Matlab
Nhìn chung bài báo cáo còn tồn tại những thiếu xót nhất đinh Vì vậy, nhóm
rất mong nhận được những ý kiến đóng góp chân thành để bài báo cáo có thể hoàn thiện hơn
CHÚNG EM XIN CHÂN THÀNH CÁM ƠN!
Trang 4PHÂN CÔNG CÔNG VIỆC TRONG NHÓM
• Nguyễn Thanh Sơn: Phân phối, mật độ xác suất có điều kiện: định nghĩa, định lí Bayes, trường hợp rời rạc
• Nguyễn Quang Dương: Áp dụng của hàm phân phối, mật độ có điều kiện:
Hệ thống tin cậy
• Lê Văn An: Kì vọng có điều kiện
• Nguyễn Thanh Bình: Áp dụng của kì vọng có điều kiện: Luật Galton-Đường hồi quy
• Nguyễn Ngọc Việt: Trình bày các bài tập minh họa
• Lã Thế Long: Trình bày thực nghiệm với Matlab
Trang 5NỘI DUNG
I PHÂN PHỐI, MẬT ĐỘ XÁC SUẤT CÓ ĐIỀU KIỆN VÀ ÁP DỤNG
I.1 Định nghĩa phân phối, mật độ xác suất có điều kiện
Như đã biết về công thức xác suất có điều kiện:
Phân phối có điều kiện có thể hiểu như là xác suất có điều kiện:
Fz(z|M)=P{Z<z|M}=
Fzw(z,w|M)=P{Z<z,W<w|M}=
Hàm mật độ tương ứng thu được bằng việc đạo hàm hàm phân phối Sau đây, ta
sẽ xét các trường hợp cụ thể:
I.1.1 Hàm phân phối có điều kiện F y (y|M) và hàm mật độ có điều kiện f y (y|M), với M={X≤x}
Fy(y|X≤x)=
fy(y|X≤x)=
I.1.2 Hàm phân phối có điều kiện F(x,y|M) và hàm mật độ có điều kiện f(x,y|M), với M={x 1 ≤X≤x 2 }
F(x,y|x1≤X≤x2)=
=
Khi đó ta có:
f(x,y|x1≤X≤x2)=
sẽ không thể áp dụng các công thức đã nêu trên nếu P(X=x)=0, tuy nhiên
ta có thể tính toán nó thông qua tính giới hạn
) (
) , (
M P
M z Z
P
) (
) , ,
(
M P
M w W z Z
) (
) , ( )
(
) , (
x F
y x F x
X P
y Y x X P
x
) (
) , (
x Fx y
y x F
) (
) ,
, (
2 1
2 1
x X x P
x X x y Y x X P
1
2 1
1 2
1
2 1
2
1 2
, 0
, ) ( ) (
) , ( ) , (
, ) ( ) (
) , ( ) , (
x x
x x x x F x F
y x F y x F
x x x F x F
y x F y x F
x x
x x
otherwise
x x x x F x F
y x f y
x
x X x y x F
x x
, 0
, ) ( ) (
) , ( )
| ,
1 2
2 1
2
Trang 6Đầu tiên, giả sử rằng : M={x1≤X≤x2}
Trong trường hợp này, theo kết quả ở trên ta có:
Fy{y|x1≤X≤x2}=
Tiến hành lấy đạo hàm theo y, thu được:
fy(y|x1≤X≤x2)=
Vậy để tính fy(y|X=x) ta chọn x1=x, x2=x+∆x, ∆x>0 bé tùy ý
Do đó
fy(y|X=x)=
Nếu viết fy(y|X=x)=f(y|x), fx(x|Y=y)=f(x|y),
fx(x)=f(x), fy(y)=f(y)
Khi đó: f(y|x)= f(x|y)=
Trong trường hợp X, Y là hai BNN độc lập thì:
f(x,y)=f(x).f(y)
f(y|x)=f(y)
f(x|y)=f(x)
CHÚ Ý:
Với mỗi giá trị x cụ thể, hàm f(x,y) là một trường hợp của f(x,y), nghĩa là
nó bằng giao của các f(x,y) với x là hằng số Hàm mật độ điều kiện f(y|x)
cũng được giải thích tương tự
ra cho xác suất có điều kiện, ta có:
fy(y|x1≤X≤x2)dy=
kết quả được mô tả trong hình vẽ:
) ( ) (
) , ( ) , ( )
(
) ,
(
1 2
1 2
2 1
2 1
x F x F
y x F y x F x
X x P
x X x y Y P
x
x
) ( ) (
) , (
1 2
2
1
x F x
F
dx y x f
y
F
x x
x
x
x x f
x y x f x F x x F
d y f
x x
x
x x
x
)
(
)
, ( ) ( ) (
) ,
) (
) , ( )
| (
lim
y x f x x X x y f
x
y
) (
) , (
x f
y x f
) (
) , (
y f
y x f
Trang 7 Các đặc trưng thống kê của X, Y được xác định bởi hàm mật độ chung f(x,y): f(x,y)=f(y|x).f(x) Từ đó, ta có thể nói các đặc trưng thống kê của
X, Y còn được xác định bởi hàm mật độ biên f(x) và hàm mật độ có điều kiện f(y|x)
I.2 Định lí Bayes với hàm mật độ xác suất
Định lí Bayes là một kết quả của lí thuyết xác suất Nó đề cập đến phân bố xác
suất có điều kiện của biến ngẫu nhiên A, với giả thiết là biết được:
biết A, và
Cũng có một dạng của định lý Bayes cho các phân bố liên tục Đối với chúng, thay cho các xác suất trong định lý Bayes ta dùng mật độ xác suất Như vậy ta
có các công thức tương tự định nghĩa xác suất điều kiện
Thật vậy, theo công thức ở trên ta có:
Mà f(y) có thể biểu diễn qua f(y|x) và f(x):
f(y)=
và f(x,y)=f(y|x).f(x)
Từ (*) và (**), ta thu được công thức Bayes cho hàm mật độ:
f(x|y)=
dx x f x y f
x f x y f
) ( )
| (
) ( )
| (
Trang 8I.3 Phân phối xác suất có điều kiện trong trường hợp rời rạc
Giả sử rằng hai biến ngẫu nhiên (BNN) X và Y là rời rạc, ta có:
P(X=xi)=pi
P(Y=yk)=qk
P(X=xi,Y=yk)=pik
Với i=1÷M, k=1÷N
Theo định nghĩa của hàm phân phối xác suất có điều kiện ta thu được:
P(Y=yk|X=xi)=
trận là bằng 1
Với các ma trận có đặc điểm như trên ta gọi ma trận đó là ma trận
Markoff
Nếu hai BNN X, Y là độc lập thì:
pik=pi.qk
Từ đây ta có:
Qk=
Trang 9Đây chính là phương trình của trường hợp rời rạc
I.4 Hệ thống tin cậy
I.4.1 Định nghĩa
Chúng ta sẽ sử dụng thuật ngữ “hệ thống” để chỉ 1 thiết bị vật lý đơn giản như 1 bóng đèn hoặc 1 cấu trúc phức tạp hơn và qua đó biểu diễn thời gian hoạt động, thời gian xảy ra lỗi thông qua 1 số hàm
Khoảng thời gian xảy ra lỗi là ngẫu nhiên vậy nó xác định 1 biến ngẫu nhiên X>0
Hàm phân phối F(t)=P(X<t ) của BNN này là xác suất để hệ thống có lỗi trước thời gian t , giả định thời gian đưa vào hệ thống t=0 Ta có R(t)=1-F(t)=P(X>t)
là hệ thống tin cậy, nó bằng xác suất để hệ thống hoạt động tại thời điểm t Xác suất để hệ thống hoạt động tại thời điểm t, lỗi vào thời điểm x>t hay là phân phối có điều kiện bằng :
) ( ) ( )
(
) , ( )
| (
t F
t F x F t
X P
t X x X P t X x F
Suy ra hàm mật độ có điều kiện:
) ( 1
) ( )
| (
t F
x f t X x f
Tỉ lệ lỗi có điều kiện
Hàm mật độ có điều kiện f(x|X t) là 1 hàm của x và t Giá trị của nó tại x=t là 1 hàm chỉ phụ thuộc vào t Hàm này được biểu thị bởi (t) và được gọi
là tỉ lệ lỗi có điều kiện hoặc tỉ lệ rủi ro của hệ thống
) ( )
| ( ) (
t F
t f t X x f t
I.4.2 Hệ thống không nhớ
Một hệ thống được gọi là không nhớ nếu sự hoạt động của hệ thống tại
thời điểm hiện tại không phụ thuộc vào những thời điểm trước đó.Giả thiết hệ thống hoạt động tại thời điểm t thì xác suất để nó bị lỗi trong khoảng (t,x) chỉ phụ thuộc vào khoảng này
e c x
e t
e
e c t X x
cx
Với x=t ta có (t) f(t|X t) f(tt) f( 0 ) C
Như vậy 1 hệ thống là không nhớ nếu và chỉ nếu X có hàm mật độ tuân theo cấp
số nhân
Hàm (t) bằng giá trị hàm mật độ có điều kiện f(x|X t) tại x=t, tuy nhiên
)
(t
Trong thực tế giá trị của nó là vô hạn
I.4.3 Kết nối hệ thống
Chúng ta có 2 hệ thống S1và S2 với thời gian lỗi tương ứng là x và y và ta
sẽ kết nối chúng theo kiểu song song, nối tiếp hoặc ở chế độ chờ
+Song song: 2 hệ thống được kết nối song song nếu S lỗi khi cả 2 hệ thống đều lỗi
Trang 10+Nối tiếp: : 2 hệ thống được kết nối nối tiếp nếu S lỗi khi 1 trong 2 hệ thống bị lỗi
+Chế độ chờ: Ta đưa S1 vào hoạt động, giữ S2 trong trạng thái chờ Khi S1 lỗi chúng ta đưa S2 vào hoạt động Hệ thống sẽ lỗi khi S2 lỗi
II KỲ VỌNG CÓ ĐIỀU KIỆN VÀ ÁP DỤNG
II.1 Kỳ vọng có điều kiện
Định nghĩa
Kì vọng có điều kiện là giá trị kì vọng khi có điều kiện nào đó
Đường hồi quy:
Thể hiện sự “hồi quy ” của giá trị kì vọng có điều kiện
Các trường hợp cụ thể:
Biến liên tục :
Kì vọng của biến vector cũng là 1 vector với mỗi thành phần là từng kì vọng có điều kiện của từng biến thành phần trong vector
Tính chất
Sử dụng hàm này chúng ta có thể xây dựng biến ngẫu nhiên
Từ đó trung bình của biến ngẫu nhiên này bằng
Trang 11 Từ kết quả cơ bản này có thể được tổng quát hóa : Trung bình có điều kiện của hàm g(X,Y)
h
II.2 Luật Galton
II.2.1 Luật Galton
Thuật ngữ “hồi quy” được bắt nguồn từ lời nhận xét sau đây của nhà di truyền học Sir Francis Galton (1822 – 1911): “Cực điểm dân số sẽ tiến tới mức trung bình của nó” Nhận xét này được áp dụng cho bậc cha mẹ và những đứa con trưởng thành của họ Có nghĩa là các bậc cha mẹ là cao hơn (hay thấp hơn ) chiều cao trung bình thì chiều cao trung bình của những đứa con của họ sẽ có thấp hơn (hoặc cao hơn) bố mẹ chúng Thống kê này có thể cho ta thấy về kỳ vọng có điều kiện
Giả sử 2 biến ngẫu nhiên X và Y tương ứng mô tả chiều cao của bố mẹ và con cái của họ Hai biến ngẫu nhiên này có trung bình và phương sai như nhau
Hệ số tương quan của chúng là 1 số dương
Luật Galton: Trung bình có điều kiện E(Y|X) của chiều cao của những đứa
con, khi biết chiều cao của bố mẹ là x, là nhỏ hơn (hoặc lớn hơn) x nếu x> (hoặc x<
II.2.2 Đường hồi qui
Từ Luật Galton ta có đường hồi qui của trung bình có điều kiện như hình vẽ :
Đường hồi qui trung bình có điều kiện
Trang 12 Đường hồi quy nằm bên dưới đường y=x với x> và ở trên đường y=x nếu x<
Tuy nhiên thuật ngữ hồi quy vẫn được sử dụng để xác định trung bình có điều kiện bất kỳ của biến ngẫu nhiên
Ví dụ: Nếu 2 biến ngẫu nhiên X và Y tuân theo phân phối chuẩn thì:
f(y|x) Chúng ta có thể kết luận rằng quỹ tích của tất cả các cực đại trong các
trường hợp f(x,y) là 1 đường thẳng
II.2.3 Trung bình có điều kiện của hàm các biến ngẫu nhiên
Ta có công thức:
(1)
mật độ có điều kiện f(x,y|x) bao gồm một loạt các đường nằm phía
trên đường y=x (x=constant) Để tránh việc phải xử lý một loạt các
Như ta đã biết, hàm mật độ có điều kiện
được xác định bởi công thức:
có dạng:
Trang 13Do vậy biểu thức trở thành:
(2)
Ta tiếp tục tính trung bình có điều kiện của hàm g(x,Y) với điều kiện x
Theo công thức tính kì vọng có điều kiện của của 1 hàm:
(3)
(4)
Vì vậy từ (2) và (4) ta có:
Nhận xét: Chúng ta rất dễ bị thừa nhận rằng công thức trên được suy trực tiếp
từ công thức (3) Tuy nhiên điều này không chính xác Hàm g(X,Y) và g(x, Y)
có chung kỳ vọng chỉ khi giả thiết rằng X=x, còn chúng hoàn toàn khác nhau Đầu tiên là hàm g(X, Y) của 2 biến ngẫu nhiên X và Y, với mỗi giá trị cụ thể
nó sẽ có giá trị g[X( ), Y( )] Tiếp theo là hàm g(x, Y) của biến thực x và biến ngẫu nhiên Y, với mỗi cụ thể sẽ nhận được giá trị g[x, Y( )] với x là 1 số bất
kỳ
III BÀI TẬP MINH HỌA
Bài 1: Hai biến X,Y là phân phối đều trong (-1,1) và độc lập Hãy tìm hàm mật
độ có điều kiện f
r (r|M) của biến ngẫu nhiên r= với M={r<=1}
Lời giải: có miền xác định D là hình tròn
F(r) =P(R<r) =P ( <r) =
F’(r)
=
Trang 14>>Vì X, Y phân phối đều trong (-1,1)-> f(x)=f(y)=
v
tới r
Bài 2: Chứng minh rằng nếu 2 biến X,Y là độc lập và z=x+y thì f
z(z|x)=f
y(z-x)
Lời giải:
F
z(z)=
(lấy đạo hàm 2 vế theo z ta thu được:)
f
z(z) =
Vì X, Y độc lập nên ta có:
f
x>
f
z(z|x) =
y(z-x)
=>ĐPCM
Bài 3: Cho 2 biến X,Y tuân theo phân phối chuẩn N(3,4;1,2;0.5) Tìm f(y|x),
f(x|y)
Lời giải:
f(x,y) =
số>
*** Một cách hoàn toàn tương tự ta tính được:
Trang 15+f(y|x)= = <thay
số>
f(y|x) =
IV THỰC NGHIỆM VỚI MATLAB
IV.1 Tìm hiểu hộp công cụ Statistics toolbox
Bộ cộng cụ với hơn 200 hàm hỗ trợ tính toán trong đó:
các hàm phân bố, mật độ, tích lũy, nghịch đảo, bộ tạo số ngẫu nhiên Ngòai ra nó còn cho phép xác định phân bố cho dữ liệu
(ANOVA), analysis of covariance (ANOCOVA), hồi quy (regression)
Statistical Plots: hỗ trợ vẽ các đồ thị thống kê
Probability Distributions
Normal có tham số MU và SIGMA
ngẫu nhiên có phân bố Normal với tham số MU và SIGMA
phân bố Normal tích lũy với tham số MU và SIGMA
MU và SIGMA với độ tin cậy100(1 - alpha) % cho dữ liệu DATA theo phân bố Normal
Ví dụ
n1 =
2.1650 2.3134 3.0250 4.0879 4.8607 6.2827
n2 =
0.0591 1.7971 0.2641 0.8717 -1.4462
n3 = normrnd([1 2 3;4 5 6],0.1,2,3)
n3 =
0.9299 1.9361 2.9640
4.1246 5.0577 5.9864
>> p=binocdf(17,50,0.3)
Trang 16p =
0.7822
Ví dụ:
Tìm tham số μ=1/λ cho dữ liệu có phân bố hàm số mũ với độ tin cậy là 99%
>>data = exprnd(3, 100, 1);
>>[parmhat, parmci] = expfit(data, 0.01)
parmhat =
2.7292
parmci =
2.1384
3.5854
Descriptive Statistics
của X
Ví dụ
>> x=[2 3 4 5];
>> var(x)
ans =
1.6667
Statistical plotting
Ví dụ
x = normrnd(10,1,25,1);
normplot(x)
Trang 17>> boxplot(x)
Linear model
hay nhiều cột dữ liệu trong ma trận mxn X, trong đó các cột chứa mẫu có
m quan sat độc lập Hàm trả lại giá trị p giả thuyết H0
hay nhiều cột và 2 hay nhiều hàng các quan sát trong ma trận X Dữ liệu trong các cột tương ứng với các thay đổi trong yếu tố A, dữ liệu trong hàng tương ứng với thay đổi trong yếu tố B Nếu có hơn một quan sát trong một tổ hợp ta dùng reps
Ví dụ
>>X = meshgrid(1:5);
>>X = X + normrnd(0,1,5,5)
>>X =
-0.0741 2.7782 2.2129 4.0802 5.7902
1.2018 1.9937 3.7520 3.0627 5.1053
1.7629 2.5245 2.8331 4.6357 4.8414
Trang 18-0.2882 3.3643 2.1838 5.6820 5.8709
0.0470 2.4820 5.0941 4.5936 4.8052
>>p = anova1(X)
p =
4.0889e-007
Ví dụ
Có 2 yếu tố A và B A có 3 cấp và B có 2 cấp Dữ liệu A được xếp theo cột và
B theo hàng
>>pop =[ 5.5000 4.5000 3.5000
5.5000 4.5000 4.0000
6.0000 4.0000 3.0000
6.5000 5.0000 4.0000
7.0000 5.5000 5.0000
7.0000 5.0000 4.5000];
>> p = anova2(pop,3)
p =
0.0000 0.0001 0.7462
IV.2 Đồ thị các hàm mật độ xác suất
Vẽ đồ thị hàm mật độ xác suất f(x|y)
f(x|y) =
>> [x,y]=meshgrid(-8:0.5:8);
>> z=sqrt(2)*exp((-2)./3*(x-3-(y-4)./(sqrt(8))).^2)./(sqrt(3*pi));
>> mesh(z)
Vẽ đồ thị hàm mật độ xác suất f(x|y)
f(y|x) =