Mạng Bay-ét là một mô hình đồ thị xác suất Probabilis-tic Graphical Model dùng để biểu diễn mối quan hệ xác suất giữa các biếnngẫu nhiên và các độc lập có điều kiện thông qua một đồ thị
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
ĐỖ THỊ MINH HUYỀN
TÌM HIỂU VỀ MẠNG BAY - ÉT VÀ ỨNG DỤNG
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội - Năm 2019
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
ĐỖ THỊ MINH HUYỀN
TÌM HIỂU VỀ MẠNG BAY-ÉT VÀ ỨNG DỤNG
Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS Trịnh Quốc Anh
Hà Nội - Năm 2019
Trang 3Mục lục
1.1 Lý thuyết đồ thị 6
1.1.1 Định nghĩa đồ thị 6
1.1.2 Đường đi, Vết và Chu trình 7
1.2 Mạng nhân quả 9
1.2.1 Suy luận không chắc chắn 9
1.2.2 Các loại liên kết trong mạng nhân quả 12
1.2.3 d-tách biệt 15
1.2.4 Lớp Markov (Markov blanket) 17
Chương 2 Giới thiệu về mạng Bay-ét 19 2.1 Mạng Bay-ét 19
2.1.1 Định nghĩa mạng Bay-ét 19
2.1.2 Quy tắc chuỗi trong mạng Bay-ét 21
2.1.3 Mối quan hệ của d - tách biệt và độc lập có điều kiện trong mạng Bay-ét 26
2.2 Cập nhật xác suất trong mạng Bay-ét 33
2.2.1 Phương pháp khử biến (Variable elimination) 33
2.2.2 Phương pháp dùng cây junction 39 Chương 3 Thực hiện chạy thuật toán cây junction trên R với số
Trang 43.1 Mô tả dữ liệu 683.2 Phương pháp dùng cây junction 70
Trang 5Lời cảm ơn
Lời đầu tiên, em xin gửi lời cảm ơn chân thành tới thầy hướng dẫn của em,Tiến sĩ Trịnh Quốc Anh Trong suốt quá trình làm luận văn, thầy đã luôn quantâm, giúp đỡ và hỗ trợ em trong việc đọc các tài liệu tham khảo, viết luận văn
và kiểm tra những sai sót trong luận văn Em rất cảm ơn sự tận tình, thấuhiểu và cổ vũ của thầy đã giúp em hoàn thành luận văn của mình
Tiếp theo, em muốn gửi lời cảm ơn tới các thầy cô giáo trong khoa Toán
-Cơ - Tin học của trường Đại học Khoa học Tự nhiên - Đại học Quốc gia HàNội Các thầy cô không những giảng dạy và truyền đạt những kiến thức khoahọc vô cùng quý giá cho chúng em mà còn đưa cho chúng em những lời khuyên,những bài học hữu ích trong cuộc sống Em cũng chân thành cảm ơn sự độngviên, giúp đỡ của các bạn cùng lớp trong suốt hai năm qua
Cuối cùng, em xin cảm ơn gia đình thân thương đã quan tâm, tạo điều kiện
và cổ vũ, động viên em để em hoàn thành luận văn của mình
Hà Nội, ngày 26 tháng 02 năm 2019
Học viên
Đỗ Thị Minh Huyền
Trang 6Lời nói đầu
Từ những năm đầu thập niên 80 của thế kỉ XX, Judea Pearl đã sáng tạo
ra mạng Bay-ét dựa trên quy tắc Bay-ét của nhà toán học người Anh ThomasBay-ét (1702 - 1761) Mạng Bay-ét là một mô hình đồ thị xác suất (Probabilis-tic Graphical Model) dùng để biểu diễn mối quan hệ xác suất giữa các biếnngẫu nhiên và các độc lập có điều kiện thông qua một đồ thị có hướng không
có chu trình (Directed Acyclic Graph) Ta nói mạng Bay-ét có tính xác suất
vì mạng được xây dựng từ các phân bố xác suất và các quy tắc xác suất Bêncạnh đó, ta nói mạng Bay-ét có tính chất đồ thị bởi nó gồm tập đỉnh là cácbiến ngẫu nhiên và tập cạnh có hướng là các mối quan hệ phụ thuộc giữa cácbiến ngẫu nhiên đó dựa trên các xác suất có điều kiện giữa các biến Phân bốxác suất đồng thời của các biến được xác định bởi cấu trúc đồ thị của mạng.Mạng Bay-ét được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau như kinh
tế, xã hội, y học, tin học, với mục đích chính dùng để dự đoán, chẩn đoán,lập luận, dự đoán chuỗi thời gian hay đưa ra những quyết định trong điều kiệnkhông chắc chắn
Trong luận văn này, tôi sẽ trình bày những kiến thức cơ bản về mạng Bay-ét.Luận văn được chia làm ba chương:
Chương 1 Kiến thức chuẩn bị Chương này trình bày những khái niệm cơbản và tính chất của lý thuyết đồ thị, mạng nhân quả Phần kiến thức này dựavào tài liệu tham khảo [1], [2], [3], [4], [6]
Chương 2 Giới thiệu về mạng Bay-ét Chương này tập trung vào trình
Trang 7bày mạng Bay-ét và hai phương pháp cập nhật lại xác suất của một biến ngẫunhiên X là phương pháp khử biến và phương pháp dùng cây junction Trong
đó, tôi sẽ làm rõ định nghĩa của mạng Bay-ét, khái niệm d – tách biệt, và mốiquan hệ giữa d – tách biệt và các độc lập có điều kiện trong mạng Bay-ét Phầnkiến thức này dựa vào các tài liệu tham khảo [4], [5], [6], [9]
Chương 3 Áp dụng: Thực hiện phương pháp cây junction cho bộ dữ liệuthực tế
Mặc dù đã hết sức cố gắng nhưng chắc chắn luận văn vẫn không tránh khỏinhững thiếu sót Tôi rất mong nhận được những nhận xét, góp ý của quý thầy
cô và các bạn để luận văn được hoàn thiện hơn
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 26 tháng 02 năm 2019
Học viên
Đỗ Thị Minh Huyền
Trang 8Aj − Ai Ta kí hiệu Ai j khi ta không quan tâm đến chiều liên kết (vôhướng hay có hướng) của Ai và Aj.
Trong trường hợp hai đỉnh Ai và Aj liên kết với nhau theo kiểu Ai → Aj,
ta nói rằng Ai là cha của Aj và Aj là con của Ai Khi hai đỉnh Ai và Aj liênkết với nhau theo kiểu Ai− Aj, ta nói rằng Ai là một lân cận của Aj và ngượclại Kí hiệu pa(A) là tập hợp các cha của đỉnh A
Trang 9Định nghĩa 1.1.1 (Đồ thị vô hướng) Một đồ thị G được gọi là vô hướngnếu nó bao gồm tập các đỉnh V = {A1, , An} và một tập các cạnh E ={Ai− Aj; i, j ∈ {1, , n}}.
Định nghĩa 1.1.2 (Đồ thị có hướng) Một đồ thị G được gọi là có hướngnếu nó bao gồm một tập các đỉnh V = {A1, , An} và một tập cạnh ~E ={Ai → Aj; i, j ∈ {1, , n}}
1.1.2 Đường đi, Vết và Chu trình
Định nghĩa 1.1.3 (Đường đi) Ta nói rằng một dãy các đỉnh A1, , Ak
lập thành một đường đi trong đồ thị G nếu với mọi i = 1, k − 1, hai đỉnh Ai
và Ai+1 liên kết với nhau theo kiểu Ai → Ai+1 hoặc Ai− Ai+1 Đỉnh A1 gọi làđỉnh đầu, còn đỉnh Ak gọi là đỉnh cuối của đường đi
Một đường đi gọi là có hướng nếu tồn tại một cạnh Ai → Ai+1
Định nghĩa 1.1.4 (Vết) Ta nói rằng một dãy các đỉnh A1, , Ak lập thànhmột vết (trail) trong đồ thị G nếu với mọi i = 1, k − 1, hai đỉnh Ai và Ai+1liên kết với nhau theo kiểu Ai j
Ví dụ 1.1.5 Cho một đồ thị G gồm 9 đỉnh A, B, C, D, E, F, G, H, I và tậpcác cạnh của nó như hình sau
Trong đồ thị G, ta thấy dãy A, C, D, E, I là một đường đi và do đó dãy nàycũng là một vết Trong khi đó, dãy A, C, F, G, D là một vết nhưng không làmột đường đi do không có liên kết từ đỉnh G đến đỉnh D
Trang 10Định nghĩa 1.1.6 (Tổ tiên và Hậu duệ) Đỉnh A được gọi là một tổtiên (ancestor) của đỉnh B trong đồ thị G và đỉnh B được gọi là một hậu duệ(descendant) của đỉnh A nếu tồn tại một đường đi có hướng A1, , Ak với
A = A1 và B = Ak
Trong đồ thị G ở ví dụ 1.1.5, ta thấy F, G, I là hậu duệ của C Tổ tiên của
C là A (thông qua đường đi A, C) và B (thông qua đường đi B, E, D, C).Định nghĩa 1.1.7 (Thứ tự topo) Cho một đồ thị có hướng G = (V, ~E) Mộtthứ tự các đỉnh A1, , An được gọi là một thứ tự topo tương ứng với đồ thị Gnếu mỗi khi ta có Ai → Aj ∈ ~E thì i < j
Ở ví dụ 1.1.5, ta thấy dãy A, B, H, C, D, E, F, G, I là một thứ tự topotương ứng với đồ thị G đó Chú ý rằng trong một đồ thị, tồn tại nhiều thứ tựtopo khác nhau Ví dụ, ngoài thứ tự trên ta có một thứ tự topo khác tươngứng với đồ thị G là A, H, B, E, D, C, F, G, I
Định nghĩa 1.1.8 (Chu trình) Một chu trình là một đường đi A1, , Aktrong đó A1 = Ak
Một đồ thị được gọi là không có chu trình nếu nó không chứa bất kì chu trìnhnào cả
Đồ thị G trong ví dụ 1.1.5 là một đồ thị không có chu trình Tuy nhiên, nếu
ta thêm một cạnh vô hướng A - E vào đồ thị G thì ta có một đường đi A, C,
D, E, A từ A vào chính nó Khi đó, đồ thị G không còn là đồ thị không có chutrình nữa Tương tự, nếu ta thêm một cạnh có hướng E → A thì cũng tạo tamột chu trình
Định nghĩa 1.1.9 (Tập đầy đủ) Một tập các đỉnh được gọi là đầy đủ nếutất cả các đỉnh đều có liên kết đôi một với nhau
Định nghĩa 1.1.10 (Clique) Một tập đầy đủ là một clique nếu nó không làtập con của một tập đầy đủ khác (tập đầy đủ cực đại)
Định nghĩa 1.1.11 (Đỉnh đơn hình) Một đỉnh X được gọi là đỉnh đơn hìnhnếu X thuộc vào một tập các lận cận đầy đủ
Trang 11Định nghĩa 1.1.12 (Cây) Cây là một đồ thị vô hướng liên thông không cóchu trình.
1.2.1 Suy luận không chắc chắn
Ví dụ 1.2.1 (Bài toán khởi động ô tô) Sáng nay, ô tô của tôi không khởiđộng được Tôi có thể nghe tiếng động cơ chạy nhưng không có gì xảy ra Cómột vài nguyên nhân đối với vấn đề này Vì tôi có thể nghe thấy tiếng động
cơ chạy nên vẫn có điện Do đó, nguyên nhân cao nhất có thể xảy ra là do bịtrộm nhiên liệu tối qua hoặc bugi bị bẩn Cũng có thể do bộ chế hòa khí bị bẩnhoặc hệ thống đánh lửa bị hỏng hoặc vấn đề gì đó nghiêm trọng hơn Để tìm ranguyên nhân, đầu tiên tôi nhìn vào đồng hồ nhiên liệu thì thấy còn một nửanhiên liệu Do vậy, tôi quyết định đi làm sạch bugi
Để máy tính thực hiện được kiểu suy luận tương tự vậy, ta cần có nhữngcâu trả lời cho những câu hỏi như là:
- Điều gì khiến tôi kết luận rằng trong những nguyên nhân có thể xảy ra thì
"xăng bị trộm" và "bugi bẩn" là hai nguyên nhân có thể xảy ra nhất?
- Điều gì khiến tôi quyết định nhìn vào đồng hồ đo nhiên liệu và làm thế nào
có thể từ việc quan sát đồng hồ nhiên liệu khiến tôi kết luận về bugi vốn dườngnhư không liên quan?
Cụ thể hơn, ta cần các cách biểu diễn bài toán và các cách thể hiện suy luậntrong biểu diễn ấy sao cho máy tính có thể mô phỏng hoặc bắt chước được kiểusuy luận này và có lẽ nó làm được tốt hơn và nhanh hơn con người
Trong suy luận logic, ta sử dụng bốn kiểu liên kết logic là kết hợp, phântách, kéo theo và phủ định Từ một tập hợp các khẳng định logic, ta có thểsuy ra những khẳng định mới Khi ta phải giải quyết những sự kiện khôngchắc chắn thì sẽ tốt hơn nếu ta có thể sử dụng những liên kết tương đương vớinhững sự kiện chắc chắn hơn là những giá trị thực được gán cho Do đó, ta có
Trang 12thể mở rộng các giá trị thực của các logic mệnh đề thành nhữn sự kiện chắcchắn có giá trị từ 0 đến 1 Một chắc chắn 0 nghĩa là "chắc chắn không đúng"
và giá trị càng cao thì độ chắc chắn càng lớn Chắc chắn 1 nghĩa là "chắc chắnđúng"
Ví du, ta xem xét hai khẳng định logic sau: "Nếu tôi uống một tách cafevào giờ nghỉ giải lao thì tôi sẽ chắc chắn 0,5 tỉnh táo trong giờ học tiếp theo"
và "Nếu tôi đi bộ trong giờ nghỉ giải lao, tôi sẽ chắc chắn 0.8 tỉnh táo tronggiờ học tiếp theo" Câu hỏi đặt ra là tôi vừa đi bộ vừa uống cafe thì tôi sẽ chắcchắn bao nhiêu tỉnh táo Để trả lời câu hỏi này, ta cần một quy tắc làm thếnào để kết hợp hai chắc chắn ấy Nói cách khác, ta cần một hàm nhận hai chắcchắn 0,5 và 0,8 và trả về một giá trị là kết quả của việc kết hợp hai khẳng địnhấy
Tương tự với chuỗi khẳng định, "nếu a thì b với chắc chắn x" và "nếu b thì
c với chắc chắn y" Giả sử ta biết giá trị của a, vậy c là bao nhiêu
Một cách để xây dựng tình huống cho bài toán suy luận không chắc chắn
là sử dụng một đồ thị biểu diễn mối quan hệ nhân quả giữa các sự kiện
Ví dụ 1.2.2 (Bài toán khởi động ô tô rút gọn) Để đơn giản ta giả
sử bài toán khởi động xe ô tô có bốn biến: biến "Nhiên liệu" nhận hai trạngthái {còn, hết}, biến "Bugi" nhận hai trạng thái {sạch, bẩn}, biến "Đồng hồnhiên liệu" nhận ba trạng thái {đầy, một nửa, hết} và biến "Khởi động" nhậnhai trạng thái {có, không} Ta biết rằng trạng thái của biến "Nhiện liệu" và
"Bugi" có ảnh hưởng nhân quả lên trạng thái của biến "Khởi động" Bên cạnh
đó, trạng thái của biến "Nhiên liệu" cũng có ảnh hưởng lên trạng thái của biến
"Đồng hồ nhiên liệu" Do đó, ta có thể biểu diễn bài toán bằng đồ thị sau
Trang 13Hình 1.1: Mối quan hệ nhân quả của các biến trong bài toán khởi động ô tô rút gọn.
Nếu ta thêm chiều từ thấp đến cao của các trạng thái là chiều dương vàomỗi biến thì ta cũng có thể biểu diễn chiều của các ảnh hưởng Với bài toántrên, ta thấy tất cả các ảnh hưởng đều có chiều dương; nghĩa là độ chắc chắncủa các nguyên nhân càng di chuyển theo chiều dương thì độ chắc chắn củacác biến kết quả cũng di chuyển theo chiều dương
Hình 1.2: Chiều ảnh hưởng của các biến trong bài toán khởi động ô tô rút gọn
Định nghĩa 1.2.3 (Mạng nhân quả) Mạng nhân quả là một đồ thị cóhướng không có chu trình G = (V, ~E) trong đó V là tập các biến và ~E là tậpcác cạnh có hướng giữa các biến đó
Trang 14Một biến có thể có một tập các trạng thái đếm được hoặc liên tục, tuy nhiên
ta chỉ xem xét các biến có số trạng thái hữu hạn đếm được Một biến chỉ lấychính xác một trong những trạng thái của nó
Mạng nhân quả được sử dụng để theo dõi sự thay dổi của độ chắc chắn củamột biến ảnh hưởng như thế nào đến độ chắc chắn của các biến khác
1.2.2 Các loại liên kết trong mạng nhân quả
1 Liên kết nối tiếp
Trong trường hợp này, biến A có ảnh hưởng đến biến B và biến B có ảnhhưởng đến biến C Hiển nhiên, bằng chứng về A sẽ ảnh hưởng đến độ chắcchắn của B và khi đó sẽ ảnh hưởng đến độ chắc chắn của C Tương tự,bằng chứng về C sẽ ảnh hưởng đến độ chắc chắn của A thông qua B
Ví dụ 1.2.4 Ta xét một mô hình nhân quả cho ba biến "Lượng mưa"(không, ít, trung bình, nhiều), "Mực nước" (thấp, trung bình, cao) và "Lũlụt" (có, không)
Nếu ta không quan sát được mực nước thì khi biết có một trận lũ lụt sẽlàm tăng niềm tin của ta rằng mực nước cao và từ đó nói cho ta biết vềlượng mưa Mặt khác, nếu ta đã biết mực nước như thế nào thì khi biết
có trận lụt xảy ra sẽ không nói cho ta thông tin gì mới về lượng mưa
Trang 152 Liên kết phân kỳ
Biến A có ảnh hưởng đến tất cả các con của A trừ phi ta biết trạng tháicủa A Nghĩa là, B, C, , E là d- tách biệt khi cho trước A Nếu A đãbiết trạng thái thì nó chặn sự truyền đạt thông tin giữa các con của nó
Ví dụ 1.2.5 Ta xem xét một mô hình nhân quả thể hiện mối quan hệgiữa ba biến "Giới tính" (nam, nữ), "Độ dài tóc" (dài, ngắn) và "Chiềucao" (<168cm, ≤ 168cm)
Nếu ta không biết giới tính của một người thì khi nhìn thấy độ dài tóc sẽnói cho ta biết thêm về giới tính và từ đó sẽ cho ta biết về chiều cao củangười đó Mặt khác, nếu ta biết người đó là nam thì độ dài tóc không cho
ta thông tin gì về chiều cao của anh ấy
3 Liên kết hội tụ
Trang 16Nếu ta không biết gì về biến A ngoài những suy luận từ hiểu biết về cáccha của nó B, C, , E thì B, C, , E độc lập với nhau: bằng chứng vềmột trong các cha của A không ảnh hưởng đến độ chắc chắn của các chakhác thông qua A Kiến thức về một nguyên nhân có thể xảy ra của một
sự kiện không nói cho ta biết điều gì về những nguyên nhân khác Tuynhiên, nếu ta biết được điều gì về các hệ quả thì thông tin về một nguyênnhân có thể xảy ra có thể nói cho ta biết điều gì đó về những nguyênnhân khác Ví dụ trong bài toán khởi động ô tô ở trên: xe không khởiđộng được và nguyên nhân tiềm ẩn bao gồm bugi bẩn và hết xăng Nếu
ta biết rằng ô tô còn xăng thì độ chắc chắn về bugi bẩn sẽ tăng Ngượclại, nếu ta biết rằng ô tô đã hết xăng thì độ chắc chắn về bugi bẩn sẽ giảm
Trong trường hợp ta biết được trạng thái của A hoặc trạng thái của mộthậu duệ của A thì B và C phụ thuộc vào nhau Kí hiệu e là biến đã biếttrạng thái
Trang 17Ví dụ 1.2.6 Ta xét một mô hình nhân quả thể hiện mối quan hệ giữa bốnbiến "Khuẩn Salmonella", "Cúm", "Buồn nôn" và "Xanh xao" KhuẩnSalmonella và cúm có thể gây ra tình trạng buồn nôn và từ đó khiến ngườibệnh trở nên xanh xao.
Nếu ta không biết người bệnh có bị buồn nôn và xanh xao thì khi biếtngười ấy nhiễm khuẩn Salmonella sẽ không nói cho ta biết người ấy có bịcúm hay không Tuy nhiên, nếu ta biết người bệnh bị xanh xao thì khi biếtngười ấy không bị nhiễm khuẩn Salmonella sẽ khiến ta chắc chắn hơn vềviệc người ấy bị cúm
1.2.3 d-tách biệt
Định nghĩa 1.2.7 (d-tách biệt) Trong một mạng nhân quả, hai biến A và
B được gọi là d- tách biệt (d kí hiệu là có hướng - directed) nếu với mọi đường
Trang 18đi giữa A và B, tồn tại một biến trung gian V (khác A và B) sao cho hoặc
- liên kết là nối tiếp hoặc phân kì và V đã biết trạng thái
hoặc
- liên kết là hội tụ và cả V và các hậu duệ của V đều không biết được trạngthái
Nếu A và B không là d - tách biệt thì ta gọi chúng là d - liên thông
Ví dụ 1.2.8 Xét một mạng nhân quả với hai biến B và M đã biết trạng tháicủa chúng
Nếu A đã biết trạng thái thì nó có thể truyền thông tin đến D Vì biến B bịchặn nên bằng chứng không thể đi qua B vào E Tuy nhiên, nó có thể đi vào
H và K Vì biến con M của K đã biết trạng thái nên bằng chứng từ H có thểtruyền đến I và hơn nữa đến E, C, F, J và L Do đó, đường đi A - D - H - K
- I - E - C - F - J - L là một đường đi d - liên thông Vậy, biến A là d - táchbiệt chỉ với biến G
Ví dụ 1.2.9 Ta xét thêm hai ví dụ sau:
Trang 19Trong hình (a), tất cả biến lân cận C, D, G và H của E đều đã biết trạng tháicủa chúng Theo định nghĩa d - tách biệt, do A, C, E là liên kết nối tiếp và C
đã biết trạng thái nên E và A là d tách biệt Tương tự, E là B cũng là d tách biệt Mặt khác, E, H, F tạo thành liên kết hội tụ và H đã biết trạng tháinên E và F là d - liên thông
-Trong hình (b), ba biến lân cận B, C, D của F đã biết trạng thái Ta thấy F là
d - tách biệt với tất cả ba biến chưa biết trạng thái còn lại là A, E, G
Chú ý rằng mặc dù hai biến A và B là d - liên thông nhưng sự thay đổi niềmtin của A không nhất thiết làm thay đổi niềm tin trong B Để nhấn mạnh sựkhác biệt này, đôi khi ta nói rằng A và B là độc lập theo cấu trúc nếu A và B
là d - tách biệt
Tuy nhiên, nếu A và B là d - tách biệt thì sự thay đổi độ chắc chắn của Akhông có ảnh hưởng gì đến độ chắc chắn của B
1.2.4 Lớp Markov (Markov blanket)
Định nghĩa 1.2.10 Lớp Markov của một biến A là tập hợp gồm các cha của
A, các con của A và các biến có chung với A một con
Tính chất 1.2.11 Nếu tất cả các biến trong lớp Markov của biến A đều đãbiết trạng thái thì A là d - tách biệt với tất cả các biến còn lại trong mạng.Chứng minh Do mọi đường đi từ A đến các nút ngoài lớp Markov của nó làliên kết nối tiếp hoặc phân kì và tất cả các nút trong lớp Markov của A đều
Trang 20nhận được bằng chứng, nên theo định nghĩa, A là d - tách biệt với các nútngoài lớp Markov của nó.
Ví dụ 1.2.12 Ta xét một mạng nhân quả sau đây:
Lớp Markov của I là tập các biến {C, E, H, K, L} Giả sử các biến trong lớpMarkov của I đều đã biết trạng thái Ta thấy B, C, I tạo thành liên kết nối tiếp
và C đã biết trạng thái nên B và I là d - tách biệt Bên cạnh đó, biến I và Jliên kết phân kì với nhau thông qua đường đi I-C-H-J và cả C và H đều đã biếttrạng thái nên I và J là d - tách biệt
Trang 211 G = (V, ~E) là một đồ thị có hướng không có chu trình.
- V là tập các biến ngẫu nhiên {A1, , An} Mỗi biến Ai có một tập hữuhạn các trạng thái xung khắc lẫn nhau
- ~E = (eij)i,j= ¯1,n là một ma trận cỡ n × n, trong đó các phần tử eij đượcxác định bởi
eij =
0 nếu Ai và Aj độc lập hoặc Ai là con của Aj
1 nếu i = j hoặc Ai là cha của Aj
Trang 22Khi cho trước một mạng Bay-ét cùng các xác suất có điều kiện P (Ai|pa(Ai))của từng biến Ai, i = 1, n, ta hoàn toàn có thể tính được các xác suất còn lạitrong mạng.
Ví dụ 2.1.2 Xét một mạng Bay-ét đơn giản gồm ba biến ngầu nhiên A, B và
P (A, B, C) = P (A)P (B|A)P (C|B)
Từ đây, ta hoàn toàn có thể tính được các xác suất còn lại của mạng dựa vàoP(A), P(B|A) và P(C|B) Thật vậy, ta có:
Trang 23P (A)P (B|A)P (C|B) =
P (B|A)P (C|B)P
Định nghĩa của mạng Bay-ét không liên quan đến thuyết nhân quả và không
yêu cầu rằng các liên kết giữa các biến biểu diễn mối quan hệ nhân quả Thay
vì vậy, ta yêu cầu các tính chất d - tách biệt phải đúng với cấu trúc của mạng
Cũng có nghĩa là nếu A và B là d - tách biệt cho trước bằng chứng e thì
2.1.2 Quy tắc chuỗi trong mạng Bay-ét
Giả sử V = {A1, , An} là tập n biến ngẫu nhiên Nếu ta truy cập vào
bảng xác suất đồng thời P (V ) = P (A1, , An) thì ta cũng có thể tính được
các xác suất P (Ai) và P (Ai|e) trong đó e là bằng chứng Tuy nhiên, P(V) phát
triển theo cấp số mũ số các biến và V không nhất thiết phải rất lớn trước khi
bảng xác suất trở nên quá lớn Do đó, ta cần tìm một biểu diễn chặt hơn cho
P(V), một cách lưu trữ thông tin mà từ đó P(V) có thể được tính toán nếu
cần thiết
Mạng Bay-ét trên V là một cách biểu diễn như vậy Đặt BN là một mạng
Bay-ét trên V và P(V) là một phân bố xác suất phản ánh các tính chất xác
định trên BN:
(i) P (Ai|pa(Ai)) ∀i = ¯1, n trong P(V) phải được xác định trong BN
Trang 24(ii) Nếu A và B là d - tách biệt trong BN cho trước tập C thì A và B là độclập có điều kiện cho trước C trong P(V).
Mệnh đề 2.1.3 (Quy tắc chuỗi tổng quát) Giả sử V = {A1, , An} làtập các biến ngẫu nhiên Khi đó phân bố xác suất đồng thời của P(V) là
P (V ) = P (An|X1, , An−1)P (An−1|A1, , An−2) P (A2|A1)P (A1) (2.4)Chứng minh Áp dụng công thức xác suất có điều kiên, ta có:
Trang 25iii, Giả sử Ai, Aj ∈ V và Ai∩ Aj = ∅ Khi đó, P (Ai∪ Aj) = P (Ai) + P (Aj).
(2) Ta chứng minh P(V) phản ánh hai tính chất trong mạng Bay-ét BN
i, P(V) phản ánh các xác suất có điều kiện trong BN
Trang 26Do mạng Bay-ét BN là một đồ thị không có chu trình nên tồn tại ít nhất mộtbiến không có con Giả sử rằng An là biến không có con và BN’ là mạng Bay-ét
đã bỏ đi biến An Rõ ràng BN’ là một mạng Bay-ét có các phân bố xác suất cóđiều kiện giống với BN, ngoại trừ P (An|pa(An)), và có các tính chất d - táchbiệt giống với trên {A1, , An−1} như BN
ta cần chứng minh tính d - tách biêt cũng đúng với An Ta xét hai trường hợp:
- Trường hợp 1: An ∈ C, tức là An đã biết trạng thái
Do An chỉ tham gia vào liên kết hội tụ nên nếu A và B là d - tách biệt chotrước C thì chúng cũng là d - tách biệt cho trước C \ {An}
Trang 27đó, ta cần chứng minh P (An|B, C, pa(An)) = P (An|pa(An)) Thật vậy, ta có
tự topo Khi đó, với mỗi biến Ai với các cha pa(Ai) ta thấy Ai là d - tách biệtvới {A1, , Ai−1} \ pa(Ai) cho trước pa(Ai) (theo tính chất của lớp Markov).Điều này có nghĩa là với mọi phân bố P phản ánh đăc trưng của BN ta có
Trang 28Một trong những thuận tiện của quy tắc chuỗi cho mạng Bay-ét là làm giảmtối đa số lượng tham số trong mạng Ví dụ, trong bài toán khởi động ô tô, lúcđầu, mạng có 2.2.2.3 = 24 tham số Tuy nhiên, khi áp dụng quy tắc chuỗi chomạng Bay-ét, mạng còn 1 + 1 + 2 + 4 = 8 tham số.
2.1.3 Mối quan hệ của d - tách biệt và độc lập có điều kiện trong
mạng Bay-ét
Trong chứng minh của quy tắc chuỗi trong mạng Bay-ét, ta sử dụng cáctính chất d - tách biệt suy ra từ mạng nhân quả Trong mạng Bay-ét, ta khẳngđịnh rằng nếu A và B là d - tách biệt cho trước tập C thì P (A|B, C) = P (A|C)
Ta sẽ chứng minh khẳng định này bằng định nghĩa của d - tách biệt
1 Liên kết nối tiếp
Ta sẽ chứng minh nếu ba biến A, B, C tạo thành liên kết nối tiếp và B
đã biết trạng thái thì A và C độc lập có điều kiện cho trước B Thật vậy,
ta có xác suất đồng thời của ba biến trong liên kết nối tiếp là:
P (A, B, C) = P (A)P (B|A)P (C|A)
Trang 29Khi đó
P (B|A, C) = P (A, B, C)
P (A, C) =
P (A)P (B|A)P (C|)
P (A)P (C|A) = P (B|A).
Tổng quát hơn, ta giả sử biến A có n biến con A1, , An Ta sẽ chứngminh các biến A1, , An độc lập có điều kiện khi cho trước A, tức là
P (A1|A, A2, , An) = P (A1|A) Xác suất đồng thời của n+1 biến là:
Trang 30Giả sử A và B là hai cha của C Ta sẽ chứng minh hai biến A và B độclập khi chưa biết trạng thái của C, tức là P(A|B) = P(A) hoặc P(A,B) =P(A)P(B) Xác suất đồng thời của ba biến là:
P (A, B, C) = P (A)P (B)P (C|A, B)
Xác suất đồng thời của bốn biến là:
P (A, B, C, D) = P (A)P (B)(C|A, B)P (D|C)
Trang 31Để thuận tiện, ta kí hiệu NL, ĐN, BG và KĐ lần lượt thay thế cho các biến
"Nhiên liệu", "Đồng hồ nhiên liệu", "Bugi" và "Khởi động" Cho trước cácbảng xác suất có điều kiện P(NL), P(BG), P(ĐN | NL) và P(KĐ | NL, BG)như sau:
P(NL = còn, NL = hết) = (0,98; 0,02)
P(BG = sạch, BG = bẩn) = (0.96; 0,04)
Xác suất đồng thời của mạng này là:
P(NL, ĐN, BG, KĐ) = P(NL) P(BG) P(ĐN | NL) P(KĐ | NL, BG)
Trang 32Ta muốn tính P(BG | KĐ = không) Từ hai bảng xác suất đồng thời, bằngcách cộng tất cả giá trị ở hàng hai ta được
P (BG = sạch, KĐ = không) = X
NL, ĐN
P (NL, ĐN, BG = sạch, KĐ = không)
Trang 34Mệnh đề 2.1.6 (Lớp Markov trong mạng Bay-ét) Giả sử một mạngBay-ét có n biến ngẫu nhiên V = {A1, , An} Kí hiệu ch(Ai) là tập các concủa Ai và m(Ai) là lớp Markov của Ai Khi đó
P (Ai|A1, , Ai−1, Ai+1, , An) = P (Ai|m(Ai))
A i
P (Ai|pa(Ai)) Q
B j ∈ch(A i )
P (Bj|pa(Bj))Mặt khác,
P (Ai|m(Ai)) = P (Ai|pa(Ai), Bj ∈ ch(Ai), pa(Bj))
A i
P (Ai|pa(Ai))Q
B j
P (Bj|pa(Bj))
Trang 35Do vậy,
P (Ai|A1, , Ai−1, Ai+1, , An) = P (Ai|m(Ai))
2.2.1 Phương pháp khử biến (Variable elimination)
Ý tưởng cơ bản
Trong chương 1, ta hoàn toàn có thể cập nhật các xác suất trong mạngBay-ét bằng cách sử dụng quy tắc chuỗi để tính xác suất phân bố đồng thờiP(V) của tất cả các biến Tuy nhiên, khi tập V gồm nhiều biến thì việc tínhtoán trở nên rất khó khăn Ví dụ, một mạng Bay-ét có bảy biến ngẫu nhiên
và mỗi biến có 10 trạng thái thì khi đó bảng xác suất đồng thời của bảy biến
đó có đến 107 phần tử Trong mục này, ta giới thiệu phương pháp khử biến đểcập nhật các xác suất mà không cần sử dụng tất cả các bảng xác suất có điềukiện
Xét một mạng Bay-ét như sau:
Giả sử tất cả các biến đều có 10 trạng thái và ta có một bằng chứng e = {D =
d, F = f } Ta mong muốn cập nhật xác suất P(A|e)
Theo quy tắc chuỗi cho mạng Bay-ét, ta có
P (V, e) = P (A, B, C, d, f, G, H)
= P (A)P (H)P (B|A, H)P (C|A)P (d|B, H)P (f |B, C)P (G|C)
Trang 36Do P (A|e) = P (A,e)P (e) = PP (A,e)
Ta mong muốn cấp nhật P(A | D=y )
Xác suất đồng thời của mạng Bay-ét này là:
P (A, B, C, D) = P (A)P (B|A)P (C|B)P (D|C)
Trang 37(a) P(B|A) A
(b) P(C|B) B
(c) P(D|C) C
Bảng 2.5: Các xác suất có điều kiện của mạng P(A) = (0,2; 0,8)
Ta có: P (A|D = y) = P (A,D=y)P (D=y) = PP (A,D=y)
Trang 38Khi đó P(A| D=y) cũng giống với kết quả trong cách cập nhập trên Vậy thứ
tự khử của các biến không làm thay đổi kết quả của xác suất cần cập nhật.Tuy nhiên, do không phải thứ tự nào cũng dễ dàng thực hiện nên ta cần chọnthứ tự khử như thế nào để việc tính toán trở nên đơn giản nhất
Trang 39Phương pháp khử biến
Để thuận tiện, ta giả sử một bảng xác suất có điều kiện P (A|pa(A)) là một
hàm φ : pa(A) ∪ {A} → [0; 1] và gọi nó là một thế (potential) Kí hiệu hàm thế
thuận tiện hơn do thay vì nhân hai bảng P(A|pa(A))P(B|pa(B)), ta nhân hai
hàm φA(A, pa(A))φB(B, pa(B))
Xét một mạng Bay-ét đơn giản như sau:
Các thế được xác định trong mạng Bay-ét này là φ1 = P (A1), φ2 = P (A2|A1),
φ3 = P (A3|A1), φ4 = P (A4|A2), φ5 = P (A5|A3, A2) và φ6 = P (A6|A3)
Giả sử ta muốn tính P (A4) Từ quy tắc chuỗi cho mạng Bay-ét ta có xác suất
đồng thời của 6 biến V = {A1, A2, , A6} là
φ5(A5, A2, A3)φ06(A3) Tiếp theo nhân φ05(A2, A3) với
φ3(A3, A1) Quá trình tính toán có thể được biểu diễn qua sơ đồ sau:
Trang 40Hình 2.1: Quá trình khử biến theo thứ tự A 6 , A 5 , A 3 , A 2 , A 1