1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tom tat luan an nguyen quynh diep

24 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tổng Tắt Luận Án Nguyễn Quỳnh Điệp
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Sinh Học
Thể loại Luận án
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 24
Dung lượng 578,04 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Do đó, từ dữ liệusinh học, quá trình tái tạo mạng sinh học thông qua các mối quan hệ giữa cácphần tử sẽ cho chúng ta bức tranh tổng thể của sự sống.. Với cách tiếp cậnthực nghiệm, các nh

Trang 1

Chương 1

MỞ ĐẦU1.1 Giới thiệu

Trong khoảng một thập kỷ gần đây, với sự phát triển nhanh chóng của ngànhCông nghệ sinh học, dữ liệu sinh học được sinh ra ngày một nhiều Chẳng hạn,

dữ liệu biểu hiện gien (gene expression data), dữ liệu biểu sinh gien (epigeneticdata), dữ liệu tương tác protein (protein interaction data), dữ liệu phổ khốilượng của mẫu sinh học (metabolomic data) Các loại dữ liệu này gọi chung là

dữ liệu sinh học hệ thống (high-throughput data) và thường được coi là "ảnhchụp" của các tổ chức sinh học Việc phân tích các dữ liệu sinh học hệ thống

để từ đó có thể xây dựng lại các mạng sinh học gọi là tái tạo mạng (networkreconstruction) Bài toán tái tạo mạng sinh học là một loại bài toán ngược Đây

là một bài toán quan trọng và đang là thách thức của ngành sinh học hệ thống.Việc tái tạo mạng sinh học giúp chúng ta làm sáng tỏ bản chất của các quátrình sinh học phức tạp và các cơ chế gây bệnh xảy ra bên trong tổ chức sinhhọc Đặc biệt, giúp chúng ta có thể tiên lượng, chẩn đoán các tác nhân, chỉ dấusinh học gây bệnh Từ đó, giúp con người có thể can thiệp kịp thời và chínhxác vào các quá trình đó như: lựa chọn chế độ dinh dưỡng, đưa ra phác đồ điềutrị bệnh, điều chế thuốc,

Trong một tổ chức sinh học, mọi tiến trình sinh học đều được điều khiểnbởi các phần tử cơ bản như: gen, protein, metabolite Quan hệ giữa các phần tử

cơ bản trong tế bào sẽ quyết định đến chức năng của tế bào Do đó, từ dữ liệusinh học, quá trình tái tạo mạng sinh học thông qua các mối quan hệ giữa cácphần tử sẽ cho chúng ta bức tranh tổng thể của sự sống Cho đến nay, có haicách tiếp cận tái tạo mạng sinh học: cách tiếp cận thực nghiệm trong lĩnh vựcSinh học và cách tiếp cận tính toán trong lĩnh vực Tin-Sinh Với cách tiếp cậnthực nghiệm, các nhà thực nghiệm Sinh học sử dụng các phương tiện của côngnghệ sinh học để đo đạc sự liên kết giữa các phần tử, sau đó kết hợp với tri thứcchuyên gia để tái tạo lại mô hình mạng sinh học Cách tiếp cận này thường chokết quả chính xác, nhưng chi phí thực nghiệm và thời gian tái tạo mạng sinhhọc hoàn chỉnh rất lớn Cách tiếp cận tính toán trong lĩnh vực Tin-Sinh lại sửdụng sức mạnh tính toán của máy tính, các thuật toán, các mô hình để xâydựng cấu trúc mạng phù hợp với dữ liệu quan sát nhất Kết quả là thu được

mô hình mạng, ở đó các nút biểu diễn các phần tử sinh học, các cạnh biểu diễnquan hệ giữa chúng Mặc dù, mạng tái tạo được bằng cách này có thể còn khác

so với mạng được tái tạo bằng thực nghiệm, nhưng quá trình đó có ý nghĩaquan trọng trên con đường tiến tới tái tạo mạng sinh học đầy đủ Quá trình đó

sẽ giúp các nhà Sinh học có định hướng tốt hơn trong các thực nghiệm, giảmthời gian và chi phí thực nghiệm Ngoài ra, tái tạo mạng sinh học bằng cáchtiếp cận tính toán có thể dự đoán được các mối quan hệ giữa các phần tử sinh

1

Trang 2

học, mà có thể, với cách tiếp cận thực nghiệm chưa tìm được Chính vì vậy,trong khuôn khổ luận án này, chúng tôi sử dụng cách tiếp cận tính toán để táitạo mạng sinh học từ dữ liệu.

1.2 Bối cảnh thực hiện luận án

Ý tưởng về mô hình hóa các quá trình sinh học bằng các mạng gồm cácnút và các cạnh là một vẫn đề hấp dẫn Việc tìm ra các cạnh nối các nút trongmạng rất quan trọng, vì từ đó sẽ xác định nhóm các phần tử cùng thực hiệnmột chức năng hoặc cùng tham gia vào một con đường sinh học, đây là một vấn

đề quan trọng trong sinh học hệ thống Cho đến nay, đã có nhiều hướng nghiêncứu giải quyết bài toán tái tạo mạng, mỗi hướng đều có ưu điểm và nhược điểm[He et al., 2009], [Villaverde et al., 2013], [Wang et al., 2014] Một cách tiếpcận sử dụng mô hình toán học trong tái tạo mạng đó là dựa trên phương trình

vi phân, tích phân (differential and integral equations) [Gardner et al., 2003],[Mazur et al.,2009], [Steuer et al., 2003] Trong phương pháp này, tác động củacác phần tử lên một phần tử nào đó được biểu diễn bằng một phương trình viphân tuyến tính Như vậy, đối với tất cả các phần tử, ta sẽ có một hệ phươngtrình Mô hình này có ưu điểm là đơn giản vì đã có cách giải phương trình viphân tuyến tính Tuy nhiên, trong thực tế, dữ liệu biểu hiện của các phần tửtrong tế bào lại thường không tuân theo qui luật đơn giản như vậy Hơn nữa,

do mô hình đòi hỏi nhiều tham số nên chi phí ước lượng lớn

Một cách tiếp cận khác để tái tạo mạng sinh học đó là sử dụng mô hình đồthị (graphical models) Đây là cách tiếp cận được nhiều người sử dụng và đã

có nhiều kết quả nghiên cứu Mạng logic (boolean network ) là một trong những

mô hình mạng sớm nhất được đề xuất năm 1969 bởi Kauffman, được biểu diễnđơn giản bằng một đồ thị có hướng Mạng logic có ưu điểm là một mô hìnhđơn giản nhất để biểu diễn một mạng thực Tuy nhiên, nhược điểm lớn nhấtcủa mô hình này là đòi hỏi thời gian tính toán rất cao để xây dựng cấu trúcmạng đáng tin cậy Do đó, phương pháp này thường chỉ áp dụng trên mạng nhỏ,không áp dụng để xây dựng mạng có qui mô lớn [Trairatphisan et al., 2013].Một sự kết hợp của mô hình đồ thị và mô hình xác suất đó là mô hình đồ thịxác suất (probabilistic graphical models) [Jordan, 1998], [Kauffman et al., 2003],[Wang et al., 2014] Đây là mô hình xác suất sử dụng đồ thị để biểu diễn sựphụ thuộc có điều kiện giữa các biến ngẫu nhiên một cách trực quan Mục đíchcủa cách tiếp cận mô hình đồ thị là tìm ra cấu trúc mạng phù hợp nhất với dữliệu Có rất nhiều mô hình đồ thị khác nhau đã được sử dụng cho bài toán táitạo mạng Trong đó, phải kể đến mô hình đồ thị xác suất thường được sử dụng

là mô hình mạng logic xác suất (probabilistic boolean network ) [Trairatphisan

et al., 2013], mô hình mạng Bayesian (Bayesian network ) và các biến thể củachúng như: mạng Bayesian động (dynamic Bayesian network ), mô hình Markov

ẩn (hidden Markov model ), mạng logic Markov (Markov logic network ), trườngngẫu nhiên Markov (Markov random field ), Tuy nhiên, thời gian tính toán

2

Trang 3

để tìm được mô hình phù hợp nhất với dữ liệu khá cao Ngoài ra, cách tiếp cận

mô hình đồ thị hướng đến xây dựng cấu trúc mạng toàn cục, mạng được xâydựng theo kiểu top-down Chính vì vậy, phương pháp này thường bỏ sót cácquan hệ mang tính địa phương

Một hướng tiếp cận khác để tái tạo mạng là sử dụng mô hình Lý thuyếtthông tin (information theory models) Ý tưởng của phương pháp này là dựatrên các độ đo để tìm ra sự phụ thuộc thống kê giữa các phần tử sinh học Một số

độ đo trong Lý thuyết thông tin, chẳng hạn độ đo Thông tin tương hỗ (mutualinformation), Hệ số thông tin cực đại (maximal information coefficient-MIC )

có thể phát hiện được các quan hệ cặp đôi, tức là phát hiện sự phụ thuộc giữahai phần tử Nhiều nghiên cứu đã sử dụng độ đo Thông tin tương hỗ để tái tạomạng điều hòa gen và mạng tương tác protein [Butte et al 2000], [Cakir et al.,2006], [Margolin et al., 2006] Cách tiếp cận Lý thuyết thông tin thường hướngđến các quan hệ cục bộ, sau đó mở rộng dần dần để xây dựng mạng toàn cục.Nói cách khác, theo cách tiếp cận Lý thuyết thông tin, cấu trúc mạng được xâydựng theo kiểu bottom-up Do đó, phương pháp này thường không bỏ sót cácquan hệ mang tính địa phương

Tóm lại, có nhiều cách tiếp cận để giải quyết bài toán tái tạo mạng sinh học,mỗi cách tiếp cận đều có những ưu điểm và nhược điểm Phần lớn các nghiêncứu trước đây chỉ tập trung vào việc tìm các quan hệ cặp đôi giữa hai phần tử

và cho rằng quan hệ cặp đôi chính là cơ sở để xây dựng mạng quan hệ đa biến.Gần đây, một số nghiên cứu đã xem xét đến mối quan hệ của một phần tử vớinhiều phần tử khác trong mạng sinh học Chẳng hạn, cách tiếp cận mô hình

đồ thị và độ đo Thông tin tương hỗ trong tái tạo mạng điều hòa gen [Kinney

et al., 2014], [Reshef et al., 2011], [Trairatphisan et al., 2013] Tuy nhiên, cácmối quan hệ đa biến đó lại không phải là các quan hệ xảy ra đồng thời Trongkhi, một phản ứng sinh hóa trong mạng trao đổi chất lại thường chứa đựng mốiquan hệ của nhiều chất, đồng thời xảy ra Do đó, các mối quan hệ như vậy cóthể sẽ không được phát hiện bằng các phương pháp đã nêu trên

1.3 Mục tiêu nghiên cứu của luận án

Để tái tạo mạng trao đổi chất, trong luận án này, chúng tôi lựa chọn hướngtiếp cận Lý thuyết thông tin, cụ thể là sử dụng các độ đo Thông tin tương hỗ

Độ đo Thông tin tương hỗ trước đây được áp dụng để phát hiện quan hệ haibiến trong mạng điều hòa gen và mạng tương tác protein do quan hệ trong cácmạng này phần lớn là quan hệ hai biến hoặc các quan hệ nhiều biến nhưng cóthể suy diễn từ các quan hệ hai biến Trong mạng trao đổi chất, một phản ứng

có thể có nhiều chất tham gia Do đó, quan hệ giữa các chất thường là các quan

hệ ba biến, bốn biến, , hay nói cách khác là các quan hệ đa biến và hơn nữachúng xảy ra đồng thời Cho đến nay, một số mở rộng của độ đo Thông tintương hỗ cũng đã xem xét đến mối quan hệ đa biến Tuy nhiên, có những kiểuquan hệ chỉ xuất hiện khi có nhiều biến đồng thời cùng tham gia Chính vì vậy,

3

Trang 4

để tái tạo mạng trao đổi chất, cần phải mở rộng độ đo Thông tin tương hỗ để

có thể phát hiện được các quan hệ đa biến xảy ra đồng thời

Như vậy, mục tiêu nghiên cứu của luận án là mở rộng độ đo Thông tintương hỗ để tái tạo mạng trao đổi chất Để tái tạo mạng trao đổi chất từ

dữ liệu sinh học, chúng tôi sẽ thực hiện hai bước, tương ứng với hai bài toán(Hình 1.1)

Dữ → Tái tạo quan hệ đa biến → Loại bỏ quan hệ dư thừa → Mạng

chất

Hình 1.1:Sơ đồ tóm tắt Mục tiêu nghiên cứu của luận án

• Bài toán 1: Mở rộng độ đo Thông tin tương hỗ (MI) để tái tạo quan hệ

đa biến

• Bài toán 2: Mở rộng độ đo Thông tin tương hỗ có điều kiện (CMI) đểphát hiện quan hệ đa biến gián tiếp và loại bỏ quan hệ dư thừa.1.4 Các đóng góp chính của luận án

Luận án có ba đóng góp chính:

Thứ nhất: Đề xuất một cách diễn giải trực quan mới và công thức mới choThông tin tương hỗ trong trong trường hợp hai biến và ba biến Cách diễn giảinày khắc phục được các nhược điểm của một số cách diễn giải trước đây.Thứ hai: Trên cơ sở đóng góp thứ nhất, đề xuất một công thức tổng quátcho độ đo Thông tin tương hỗ đa biến Từ công thức tổng quát, có nhiều côngthức được suy ra, mỗi công thức phản ánh một loại quan hệ tồn tại giữa cácbiến

Thứ ba: Đề xuất một công thức tổng quát cho độ đo Thông tin tương hỗ đabiến có điều kiện nhằm phát hiện quan hệ đa biến gián tiếp và loại bỏ các quan

hệ dư thừa

1.5 Tổ chức luận án

Luận án gồm 130 trang được chia thành 4 chương

Chương 1: Giới thiệu tổng quan về bài toán tái tạo mạng sinh học, bối cảnhthực hiện luận án, mục tiêu nghiên cứu và những đóng góp chính của luận án.Chương 2: Những kiến thức nền tảng, bao gồm những khái niệm cơ bản trongTin-Sinh học và các kiến thức liên quan đến một số độ đo trong Lý thuyết thôngtin

4

Trang 5

Chương 3: Giới thiệu một số mở rộng độ đo Thông tin tương hỗ của các tácgiả khác Đề xuất một diễn giải trực quan mới và công thức mới cho Thông tintương hỗ trong trường hợp hai biến và ba biến Từ đó, đề xuất một công thứctổng quát cho Thông tin tương hỗ trong trường hợp đa biến Cuối cùng là mộtứng dụng của các độ đo Thông tin tương hỗ đa biến vào bài toán tái tạo mạngtrao đổi chất và đánh giá các độ đo này.

Chương 4: Đề xuất một công thức tổng quát của độ đo Thông tin tương hỗ

đa biến có điều kiện Ứng dụng của các độ đo Thông tin tương hỗ đa biến cóđiều kiện trong việc phát hiện các quan hệ đa biến gián tiếp để loại bỏ các quan

hệ dư thừa trong mạng trao đổi chất

Cuối cùng là phần Kết luận của luận án

Chương 2KIẾN THỨC NỀN TẢNG2.1 Một số khái niệm cơ bản trong Sinh học

Mọi sinh vật đều được tạo thành từ vô số tế bào Tất cả các quá trình sinhhọc trong tế bào đều được điều khiển bới các phần tử cơ bản trong tế bào như:gien, protein, metabolite Các phần tử này không hoạt động riêng rẽ mà chúngthường kết hợp với nhau để tạo thành các phức hợp và thực hiện một chức năngnào đó Tập các phần tử sinh học và các quan hệ giữa chúng tạo thành mộtmạng sinh học (biological network ) Về mặt hình thức, mạng sinh học thườngđược biểu diễn bằng đồ thị gồm các nút và các cạnh Trong đó, nút đại diệncho các phần tử cơ bản trong tế bào, cạnh đại diện cho quan hệ giữa các phần

tử cơ bản đó

Mạng tương tác protein (protein-protein interaction network-PIN ) là mộtmạng sinh học Trong đó, các nút của mạng là các protein, các cạnh là các tươngtác vật lý giữa các protein Tương tác protein-protein xảy ra khi các protein kếthợp với nhau, thường là để thực hiện chức năng sinh học của chúng

Trong mạng điều hòa gien (gene regulatory network-GRN ), mỗi nút là mộtgien, mỗi cạnh là một quan hệ điều khiển của gien này đối với gien kia Mộttrong các nguồn dữ liệu quan trọng là dữ liệu biểu hiện gien (gene expressiondata) Dữ liệu biểu hiện gien thường cho dưới dạng ma trận, trong đó mỗi cộttương ứng với mỗi gien và mỗi dòng tương ứng với một thời điểm lấy mẫu haymột điều kiện thí nghiệm Mỗi ô của ma trận chứa mức độ biểu hiện của gientrong điều kiện tương ứng

Trong mạng trao đổi chất (metabolic network-MN ), mỗi nút là một chấttrao đổi (metabolite), là phân tử nhỏ có trong mẫu sinh học Các chất trao đổinày thường là các chất tham gia phản ứng, các chất xúc tác, các sản phẩm củacác phản ứng hóa sinh trong cơ thể sinh học Mỗi cạnh trong mạng biểu diễncho một quan hệ chuyển hóa từ chất này sang chất kia

5

Trang 6

Dữ liệu chuỗi thời gian (time-series) là tập hợp các dữ liệu thu được tại cácmốc thời gian, cách nhau một khoảng thời gian nhất định Dữ liệu time-seriesđược sử dụng trong thống kê, xử lý tín hiệu, nhận dạng mẫu, tài chính, dựbáo, Dựa vào dữ liệu time-series, ta có thể tìm thấy các qui luật của các sựkiện Vì vậy, mô hình time-series còn được sử dụng để sinh ra các dữ liệu dựatrên các quan sát đã có.

Trong quá trình thu thập dữ liệu thường xuất hiện các dữ liệu nhiễu turbation) Dữ liệu nhiễu thường sinh ra do lỗi chương trình, lỗi thiết bị dùng

(per-để thu thập dữ liệu hoặc do ảnh hưởng của điều kiện thí nghiệm, Chúngthường làm ảnh hưởng xấu đến các kết quả phân tích hoặc khai phá dữ liệu

Dữ liệu In silico là dữ liệu sinh học được sinh ra từ máy tính thông qua các

mô hình mô phỏng, không phải thu được từ các thí nghiệm sinh học Nghiêncứu In silico có khả năng làm tăng tốc độ thực hiện và đồng thời làm giảm chiphí khi tiến hành trong phòng thí nghiệm và trên các thử nghiệm lâm sàng.2.2 Một số khái niệm cơ bản trong Lý thuyết thông tin

Định nghĩa 2.1 Entropy của biến ngẫu nhiên rời rạc X, ký hiệu là H(X), đolượng thông tin không chắc chắn của biến X, được định nghĩa như sau [Shannon,1948]:

H(X) =X

x

p(x) log 1p(x) = −

X

x

p(x) log p(x) (2.1)trong đó, p(x) là hàm phân phối xác suất (probability mass function) của X.Khi các biến là liên tục, phép tính tổng trong các công thức được thay bởiphép tính tích phân

Trang 7

(iii) H(X|Y ) ≤ H(X)

Định nghĩa 2.4 Entropy của n biến ngẫu nhiên rời rạc X1, , Xnvới phân

bố xác suất đồng thời p(x1, , xn) được xác định bởi:

và ngược lại, giá trị của độ đo bé nghĩa là mức độ tương hỗ của hai biến nhỏ.Tính chất

(i) M I(X, Y ) ≥ 0

(ii) M I(X, Y ) = M I(Y, X)

(iii) M I(X, Y ) = H(X) − H(X|Y ) = H(Y ) − H(Y |X)

(iv) M I(X, Y ) ≤ H(X); M I(X, Y ) ≤ H(Y )

Định nghĩa 2.6 Thông tin tương hỗ có điều kiện (conditional mutual mation) của hai biến ngẫu nhiên X và Y trên điều kiện Z đo mức độ tương hỗcủa hai biến X và Y khi có điều kiện Z, được định nghĩa như sau:

Định nghĩa 2.7 Ba biến ngẫu nhiên X, Y, Z được gọi là tạo thành chuỗiMarkov (Markov chain), ký hiệu X → Y → Z, nếu:

p(x, y, z) = p(x).p(y|x).p(z|y) (2.11)

7

Trang 8

Bổ đề 2.1 X → Y → Z khi và chỉ khi X và Z độc lập với nhau trên điều kiện

Trong phân lớp nhị phân hay trong dự đoán, các kết quả được gán nhãnhoặc là dương (positive-P ) hoặc âm (negative-N ) Có bốn khả năng có thể xảyra: Nếu kết quả dự đoán là P và giá trị thực tế cũng là P thì khi đó được gọi

là true positive-TP Nếu kết quả dự đoán là P mà giá trị thực là N , thì đượcgọi là false positive-FP Ngược lại, nếu kết quả dự đoán và giá trị thực đều là

N thì gọi là true negative-TN, và là false negative-FN khi kết quả dự đoán là

N , trong khi giá trị thực tế là P

Quan sát dương (P) Quan sát âm (N)

Có nhiều thước đo độ chính xác của dự đoán như: Precision, Recall, độ chínhxác (Accuracy-ACC ), độ đo F (F-measure), đường cong ROC và diện tích dướiđường cong ROC (area under the curve-AUC ) Trong đó,

8

Trang 9

tập hợp các điểm ứng với các ngưỡng khác nhau Với mỗi ngưỡng sẽ cho ta mộtđiểm Mỗi điểm được xác định bởi 2 tọa độ: 1-Specificity (hay còn gọi là FalsePositive Rate) và Sensitivity (hay còn gọi là True Positive Rate).

Chương 3

MỞ RỘNG ĐỘ ĐO THÔNG TIN TƯƠNG HỖ ĐỂ TÁI TẠO

QUAN HỆ ĐA BIẾN3.1 Một số mở rộng độ đo Thông tin tương hỗ

3.1.1 Mở rộng của Watanabe

Mở rộng đầu tiên của độ đo Thông tin tương hỗ là độ đo Tương quan tổnghợp (total correlation) do Watanabe đưa ra năm 1960 [Watanabe, 1960].Định nghĩa 3.1 Cho n biến ngẫu nhiên X1, , Xn, tương quan tổng hợp của

n biến, ký hiệu là T C(X1, , Xn), được định nghĩa:

9

Trang 10

Định nghĩa 3.2 Tương quan tổng hợp có điều kiện của n biến ngẫu nhiên

X1, , Xn trên điều kiện Y , ký hiệu là T C(X1, , Xn|Y ), được định nghĩa:

T C(X 1 , , X n |Y ) =

n X

i=1 H(X i |Y ) − H(X 1 , , X n |Y ) (3.4)

Trong trường hợp ba biến, công thức (3.4) có dạng:

T C(X, Y, Z|T ) = H(X|T ) + H(Y |T ) + H(Z|T ) − H(X, Y, Z|T ) (3.5)

Độ đo Thông tin tương tác chỉ phản ánh được kiểu quan hệ đồng thời của

n biến, không phản ánh được các kiểu quan hệ khác giữa các biến

3.1.2 Mở rộng của Fano

Mở rộng thứ hai của độ đo Thông tin tương hỗ là độ đo Thông tin tươngtác (interaction information) do Fano đưa ra năm 1961 [Fano, 1961]

Định nghĩa 3.3 Thông tin tương tác của n biến ngẫu nhiên X1, , Xn−1, Xn

(với n > 2), được định nghĩa như sau:

M I(X 1 , , X n ) =

n X i=1 H(X i ) − X1≤i<j≤n H(X i , X j ) + + (−1)n+1H(X 1 , , X n ) (3.6)

Trong trường hợp ba biến, công thức (3.6) được viết:

M I(X, Y, Z) = H(X) + H(Y ) + H(Z) −H(X, Y ) + H(Y, Z) + H(Z, X) + H(X, Y, Z) (3.7)

Thông tin tương hỗ có tính chất là luôn có giá trị không âm, giá trị M I = 0khi và chỉ khi các biến độc lập Trong khi đó, theo công thức (3.6), giá trị MI

có thể nhận cả giá trị âm Như vậy, mở rộng của Fano không phản ánh đúngmối quan hệ giữa các biến

3.1.3 Mở rộng của Cover và Thomas

Mở rộng của Cover và Thomas đưa ra năm 1991 [Cover et al., 1991], trong

đó, các tác giả sử dụng biểu đồ Venn để biểu diễn cho entropy của các biến(Hình 3.2) Phần giao nhau của H(X) và H(Y ) biểu diễn cho lượng thông tinchung của hai biến X, Y , chính là Thông tin tương hỗ của hai biến Khi mởrộng sang trường hợp ba biến, phần giao nhau của H(X), H(Y ) và H(Z) chính

là thông tin tương hỗ của ba biến

Nhìn vào độ lớn phần giao nhau của H(X), H(Y ) và H(Z), chúng ta có thểbiết được mức độ tương hỗ giữa ba biến Tuy nhiên, phương pháp biểu diễntrực quan này không biểu diễn được các kiểu quan hệ khác trong trường hợp

ba biến

3.1.4 Mở rộng của Jakulin và Bratko

Năm 2003, Aleks Jakulin và Ivan Bratko đưa ra một phương pháp trực quankhác [Jakulin et al., 2003] Jakulin và Bratko gọi quan hệ giữa hai biến là tươngtác Trong phương pháp này, mỗi biến được biểu diễn bằng một hình tròn lớn,

10

Trang 11

Hình 3.2:Biểu diễn Thông tin tương hỗ bằng biểu đồ Venn.

tương tác giữa hai biến được biểu diễn bằng một hình tròn nhỏ nằm trên đườngnối giữa hai hình tròn lớn (Hình 3.3) Khi mở rộng sang trường hợp ba biến,Jakulin và Bratko đưa thêm khái niệm tương tác dương và tương tác âm Đểbiểu diễn điều này, các tác giả dùng hình tròn nhỏ màu trắng biểu diễn tươngtác dương và hình tròn nhỏ màu xám biểu diễn tương tác âm

Hình 3.3: Biểu đồ tương tác giữa các biến của Jakulin-Bratko.Trong cách biểu diễn này, Jakulin và Bratko chỉ tập trung mô tả cấu trúctương tác mà không mô tả được mức độ mạnh/yếu của tương tác đó Cách biểudiễn này có tính trực quan thấp Nhìn vào hình vẽ, chúng ta không thể nói gì

về hình tròn nhỏ trong sự tương quan với các hình tròn lớn biểu diễn các biến

X, Y, Z

Tóm lại, trong những mở rộng độ đo Thông tin tương hỗ vừa trình bày, mỗi

mở rộng đều có nhược điểm Mở rộng của Watanabe, Cover và Thomas khôngbiểu diễn được đầy đủ các kiểu quan hệ tồn tại trong trường hợp đa biến Côngthức mở rộng của Fano không biểu diễn chính xác mức độ quan hệ giữa cácbiến Mở rộng của Jakulin và Bratko lại chỉ biểu diễn được cấu trúc của tươngtác mà không biểu diễn được mức độ của tương tác đó

3.2 Đề xuất một mở rộng độ đo Thông tin tương hỗ

3.2.1 Đề xuất một diễn giải trực quan và công thức mới cho MI củahai biến

Từ những nhược điểm của các mở rộng trình bày trong phần 3.1, chúngtôi đề xuất một phương pháp trực quan mới để biểu diễn Thông tin tương hỗ

Ở đây, chúng tôi mô tả quan hệ giữa hai biến trong một không gian hai chiều(Hình 3.4) Giả sử, ta có dữ liệu quan sát trên hai biến X, Y Khi đó, entropy

11

Trang 12

của phân bố xác suất của dữ liệu quan sát, ký hiệu là H(pX,Y), được biểu diễnbằng một hình S có dạng bất kỳ (phần diện tích kẻ ca rô).

Khi hai biến X, Y độc lập, entropy của phân bố xác suất của dữ liệu đượcbiểu diễn bằng hình chữ nhật nhỏ nhất chứa S, ký hiệu là H(pX× pY) Doentropy được biểu diễn qua logarit nên H(pX × pY) = H(pX) + H(pY) =H(X) + H(Y )

Hình 3.4: Đề xuất biểu diễn trực quan mới cho MI của hai biến

Do đó, công thức (2.6) của Shannon, tương đương với công thức (3.8)

M I(X, Y ) = H(pX× pY) − H(pX,Y) (3.8)

Ở đây, H(pX,Y) và H(pX× pY) là ký hiệu mới mà chúng tôi đưa ra để sửdụng trong diễn giải của mình Nếu hình kẻ ca rô S biểu diễn cho H(pX,Y) cànglớn gần với hình chữ nhật biểu diễn cho H(pX× pY), khi đó ta kết luận rằnghai biến X và Y độc lập Ngược lại, nếu S càng thu hẹp so với hình chữ nhậtthì điều đó có nghĩa là Thông tin tương hỗ giữa hai biến X, Y càng lớn.Như vậy, từ cách diễn giải trực quan mới cho MI trong trường hợp hai biến,chúng tôi đã đề xuất một công thức biểu diễn mới cho Thông tin tương hỗ (côngthức (3.8)) Theo đó, Thông tin tương hỗ của hai biến chính là phần chênh lệchgiữa entropy của phân bố xác suất đồng thời với entropy của phân bố xác suấttrong trường hợp giả định hai biến độc lập Về mặt trực quan, Thông tin tương

hỗ của hai biến được biểu diễn bằng phần diện tích (kẻ chéo) nằm giữa hìnhchữ nhật và hình kẻ ca rô S Công thức (3.8) sẽ là cơ sở cho việc mở rộng độ

đo Thông tin tương hỗ cho trường hợp ba biến trong phần tiếp theo

3.2.2 Đề xuất một diễn giải trực quan và công thức mới cho MI của

ba biến

Khi mở rộng sang trường hợp ba biến, ngoài các quan hệ cặp đôi giữa cácbiến, ta có thêm các kiểu quan hệ khác như: quan hệ đồng thời giữa ba biến vàquan hệ giữa một biến với cặp hai biến còn lại Chúng tôi sẽ tiếp tục mở rộngcông thức (3.8) đối với hai kiểu quan hệ trên

12

Ngày đăng: 25/06/2023, 12:53

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w