1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại áp dụng trên cây sinh loài nhỏ

73 201 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 1,79 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏLỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi

Trang 1

Đại Học Quốc Gia Thành Phố Hồ Chí Minh

Trường Đại Học Bách Khoa

BÙI VĂN ĐÒNG

PHƯƠNG PHÁP ĐẠI SỐ

CHO BÀI TOÁN ƯỚC LỨỢNG HỢP

SINH LOÀI NHỎ

Chuyên ngành: Khoa học Máy tính

LUẬN VĂN THẠC sĩ

TP HỒ CHÍ MINH, tháng 11 năm 2007

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập - Tự Do - Hạnh Phúc

- - -—ooó—

Tp HCM, ngày 05 tháng 11 năm 2007

NHIỆM VỤ LUẬN VĂN THẠC sĩ

Họ và tên học viên : Bùi Văn Đồng Giới tính : Nam 0/ Nữ □

Ngày, tháng, năm sinh : 10/10/1969 Nơi sinh : Quảng Ngãi

Chuyên ngành : Khoa học Máy tính

Khoá : 2005

1- TÊN ĐÈ TÀI:

PHƯƠNG PHÁP ĐẠI SỐ CHO BÀI TOÁN ƯỚC LƯỢNG HỢP LÝ cực

ĐẠI - ÁP DỤNG TRÊN CÂY SINH LOÀI NHỎ

2- NHIỆM VỤ LUẬN VĂN :

5- HỌ VÀ TÊN CÁN Bộ HƯỚNG DẪN : TS Nguyễn Văn Minh Mần

Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngànhthông qua

CÁN Bộ HƯỚNG DẪN

(Họ tẽn và chữ ký)

CHỦ NHIỆM Bộ MÔN QUẢN LÝ CHUYÊN NGÀNH

Họ tên và chữ ký)

TS Nguyễn Văn Minh Mần TS Đinh Đức Anh Vũ

Trang 3

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐẠI HỌC QUỐC GIẨ TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : TS Nguyễn Văn Minh Mần

Cán bộ chấm nhận xét 1 :

Cán bộ chấm nhận xét 2 :

Luận văn thạc sĩ được bảo vệ tại

HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC sĩ

TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm 2007

Trang 4

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

LỜI CAM ĐOAN

Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như

đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôithực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằngcấp ở trường này hoặc trường khác

Ngày 05 tháng 11 năm 2007

Bùi Văn Đồng

Trang 5

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

LỚI CAM ƠN

Xin gởi lời cảm ơn chân thành và sâu sắc đến TS Nguyễn Văn Minh Man,nguời Thầy đã tận tình huớng dẫn và tạo mọi điều kiện để tôi có thể hoàn thành luậnvăn này

Xin gởi lời cảm ơn đến các Thầy Cô đã dạy cho tôi trong thời gian qua Tôi xincảm ơn các bạn đồng môn và đồng nghiệp đã quan tâm, chia sẻ trong suốt quá trìnhhọc và làm luận văn

Luận văn này như một món quà nhỏ đáp lại tình cảm của gia đình và bạn bèthân thích

Trang 6

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

TÓM TẮT LUẬN VĂN

Cây sinh loài mô tả lịch sử tiến hóa của một nhóm các loài với những đặc tínhkhác nhau nhưng cùng có mối quan hệ họ hàng với nhau và cùng hình thành từ một tổtiên chung trong quá khứ Đặc tính của mỗi loài được chúng ta quan tâm ở đây tươngứng với các bộ gen Gen là các chuỗi DNA được bao gồm từ các kí tự A, G, c và Thợp thành Cây sinh loài là một cây mà các nút lá (taxa) của nó có thể là các vật sốnghiện tại ngày nay, các nút trong của cây đó là các tổ tiẽn của các nút lá Tái cấu trúccây sinh loài chính là tìm những gen phù hợp nhất để đưa vào các nút tổ tiên hoặc làđưa ra một cây sinh loài phù hợp nhất để giải thích quá trình tiến hoá

Tuy nhiên, việc nghiên cứu cây sinh loài cho nhiều hướng tiếp cận Mỗi phươngpháp có những ưu điểm và khuyết điểm của nó Phương pháp ước lượng họp lý cựcđại được chọn ở đây là phương pháp phức tạp nhất nhưng lại là phương pháp cho kếtquả tin cậy nhất Công cụ chính sử dụng trong phương pháp này là Đại số thống kê vàĐại số máy tính Đó là những lãnh vực phát triển mạnh mẽ trong những năm gần đây.Thống kê là ngành khoa học phân tích dữ liệu Đối với các chuỗi DNA thìthống kê sẽ xây dựng những mô hình quá trình phát sinh dữ liệu Đưa ra những kếtluận chung về quá trình phát sinh đó Mô hình thống kê là nguyên tắc cơ bản đối vớicác gen Đại số thống kê làm sáng tỏ cho những ý tưởng trọng tâm về phân tích dữ liệurời rạc nói riêng và phân tích chuỗi sinh học nói riẽng

Ước lượng hợp lý cực đại (Maximum Likelihood Estimation - MLE) đượccông thức hoá trong Xác suất cổ điển, nó có tính chất của một ước lượng tốt Phươngpháp MLE đánh giá những tham số của một mô hình thối lui MLE dẫn đến việc giảiquyết là làm cực đại tích của những đa thức

Đại số máy tính là một lãnh vực mới, nó cung cấp những nền tảng để giải bàitoán MLE trên máy tính

Đe tài này tập trung vào việc nghiên cứu mô hình xác suất thống kê trên câysinh loài từ những dữ liệu là các gen của sinh vật sống Sau đó sử dụng những nền tảngtoán học, đại số máy tính để giải quyết bài toán họp lý cực đại của mô hình xác suấttrên Mục tiêu cuối cùng là tìm một cây sinh loài thích họp nhất để giải thích sự tiếnhoá Những kết quả của luận văn đã làm như sau:

lượng họp lý cực đại cho mô hình hóa bài toán Giải phương trình họp lý bằngphương pháp tính toán đại số để tìm kết quả chính xác

- về tính toán: Viết một chương trình để mô hình hóa ước lượng hợp lý cực đại

trên cây sinh loài và chạy tìm nghiệm phương trình họp lý trên một số cây sinhloài nhỏ 3 và 4 taxa ở một số mô hình

Trang 7

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

DANH MỤC BANG

Bảng 1: Bảng biến thiên của hàm họp lý 27Bảng 2: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình

móng (U68496, U68497, U68498) 55

Bảng 3: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình

lược với trường hợp ((Ui68496,(U68497, U68498)) 55

Bảng 4: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình

lược với trường hợp ((U68498, (U68496, U68497)) 56

Trang 8

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

DANH MỤC HÌNH

Hình 1: Hai trường họp xảy ra khi tung đinh bấm 26

Hình 2: Đồ thị của hàm họp lý 27

Hình 3: Cây sinh loài của sự sống 30

Hình 4: Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA” 32

Hình 5: Cây sinh loài với các nút trong và xác suất chuyển đổi 32

Hình 6: Một trong những cây sinh loài 4 taxa 35

Hình 7: Cây sinh loài với dữ liệu trẽn nút lá và các khả năng xảy ra ở các nút tổ tiên.36 Hình 8: Cây sinh loài có gốc với 3 nút lá 42

Hình 9: Sơ đồ khối chương trình tìm cấu trúc cây sinh loài 53

Hình 10: Hai hình dạng cây 3 taxa có gốc 55

Hình 11: Cây sinh loài 4 taxa hình móng 68

Hình 12: Cây sinh loài 4 taxa hình cần trục 68

Hình 13: Một số cây sinh loài 4 taxa 68

Trang 9

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

TÓM TẮT LUẬN VĂN 3

DANH MỤC BẢNG 4

DANH MỤC HÌNH 5

MỤC LỤC 6

Chương 1 GIỚI THIỆU ĐÈ TÀI 9

1.1 Giói thiệu 9

1.2 Cấu trúc luận văn 10

Chương 2 cơ SỞ LÝ THUYẾT VỀ CÁC CẤUTRÚC ĐẠI SỐ VÀ XÁC SUẤT THỐNG KÊ 12

2.1 Một số cấu trúc đại số cơ bàn 12

2.1.1 Lý thuyết nhóm 12

2.1.2 Lý thuyết vành 13

2.1.3 Trường 14

2.1.4 Vành đa thức 14

2.1.5 Ma trận 15

2.1.6 Định thức 15

2.1.7 Không gian vector 16

2.1.8 Đa tạp đại số 18

2.2 Các khái niệm về xác suất thống kê 18

2.2.1 Định nghĩa về xác suất 18

2.2.2 Xác suất có điều kiện 19

2.2.3 Đại lượng ngẫu nhiên và hàm phân phối 20

2.2.4 Các đặc trưng của đại lượng ngẫu nhiên 20

2.2.5 Lý thuyết mẫu 21

2.2.6 Ước lượng tham số 22

2.2.7 Sơ lược về ước lượng hợp lý cực đại 22

Chương 3 ƯỚC LƯỢNG HỢP LÝ cực ĐẠI TRÊNMẪU QUAN SÁT 25

3.1 Ước lượng hợp lý cực đại là gì? 25

3.1.1 Đặt vấn đề 25

3.1.2 Khái quát về ước lượng họp lý cực đại 25

3.1.3 Ví dụ về ước lượng hợp lý cực đại 26

3.2 Giải bài toán ước lượng hợp lý cực đại 26

3.2.1 Nguyên lý ước lượng hợp lý cực đại 26

3.2.2 Logarit hàm hợp lý 26

3.3 Tổng quát hóa bài toán ước lượng họp lýcựcđại 27

3.3.1 Ước lượng hợp lý cực đại trên mẫu quan sát 27

Trang 10

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

3.3.2 Một số phương pháp giải phương trình hợp lý 28

Chương 4 CÂY SINH LOÀI - MÔ HÌNH XÁC SUẤT THÓNG KÊ TRÊN CÂY SINH LOÀI 30

4.1 Giói thiệu sơ lược về cây sinh loài 30

4.2 Các nghiên cứu phát sinh sinh loài 31

4.3 Mô hình ước lượng họp lý cực đại trên cây sinh loài 32

4.4 Mô hình tiến hóa 33

Chương 5 BẤT BIÉN TRÊN CÂY SINH LOÀI 37

5.1 Dần nhập 37

5.2 Mô hình xác suất trên cây sinh loài 38

5.2.1 Mô hình bài toán cây sinh loài 38

5.2.2 Nhóm Abel và sự liên hệ với các ma trận chuyển đổi 39

5.3 Biến đổi Fourier 40

5.4 Toạ độ Fourier 42

5.5 Áp dụng tìm bất biến trên một cây sinh loài 42

5.5.1 Mô hình bài toán 42

5.5.2 Các khả năng xảy ra trên các nút lá 43

5.5.3 Các lóp xác suất tương đương 43

5.5.4 Chuyển đổi Fourier 44

5.5.5 Ket quả tìm được 45

5.6 Những tính chất của thành phần bất biến 46

Chương 6 GIẢI PHƯONG TRÌNH HỢP LÝ 47

6.1 Quỹ tích họp lý trên một đa tạp 47

6.2 Ma trận Jacobi của các đa thức bất biến 47

6.2.1 Gradient- Vector vận tốc 47

6.2.2 Ma trận Jacobi của các đa thức bất biến 48

6.2.3 Không gian tiếp xúc 49

6.3 Bài toán cực trị điều kiện 49

6.4 Bậc của họp lý cực đại 50

6.5 Các thuật toán 50

6.6 Áp dụng giải phương trình họp lý 51

Chương 7 CHƯƠNG TRÌNH THựC HIỆN 53

7.1 Sơ đồ khối chương trình 53

7.2 Sơ lược về chương trình 54

7.3 Ket quả chương trình 54

Chương 8 TỔNG KẾT - ĐÁNH GIÁ 57

8.1 Tổng kết 57

8.2 Những đóng góp của luận văn 57

8.3 Hướng phát triển 58

TÀI LIỆU THAM KHẢO 59

Trang 11

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Phụ lục 1 Tập các xác suất trình bày ở chương 5 60

Phụ lục 2 Tập các dữ liệu kết quả thực hiện trình bày ở chương 6 62

Phụ lục 3 Trích một số SourceCodes chương trình viết trên Singular 64

Phụ lục 4 Một số kết quả chương trình trên cây sinh loài 4 taxa 68

Phụ lục 5 Bảng đối chiếu Thuật ngữ Anh - Việt 69

Danh mục các tên 70

Trang 12

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Chương 1 GIỚI THIỆU ĐÈ TÀI

Chương này giới thiệu chung về bối cảnh, mục tiêu và kết quả thu được của đềtài Cấu trúc nội dung của quyển thuyết minh được trình bày ở cuối chương

1.1 Giới thiệu

Phát sinh sinh loài đó là tái tạo lịch sử tiến hóa dựa trên các phương pháp toánhọc nhằm suy luận lịch sử tiến hóa sự sống trên hành tinh chúng ta Việc tái cấu trúcnày liên quan đến việc nhận diện chỉ định những đặc tính đồng dạng (homologouscharacters) được chia sẻ giữa các loài sinh vật khác nhau và suy luận cây phát sinhsinh loài từ việc so sánh các đặc tính thông qua việc sử dụng các phương pháp tái cấutrúc có độ tin cậy cao Độ chính xác của quá trình suy luận vì thế phụ thuộc rất lớn vào

độ tin cậy của các mô hình dùng để đánh giá sự tiến hóa của các đặc tính này

Trước đây việc tái tạo cây tiến hóa chủ yếu dựa trên phân tích hình thái và cácđặc tính siêu cấu trúc Trong nửa cuối thập niên 1980 nguồn dữ liệu trình tự DNA giatăng cộng với sự phát triển ngành công nghệ thông tin, từ đó giúp nhà nghiên cứu cóđược những công cụ mạnh mẽ và nhằm giải quyết vài bài toán phát sinh sinh loài đangchưa có lời giải

Trong việc suy luận phát sinh sinh loài có 2 bước cơ bản đó là:

- Chỉ định những đặc tính đồng dạng là những đặc tính chung truyền từ một tổtiên chung cho đến các thế hệ hiện tại

- Tái cấu trúc cây tiến hóa bằng việc sử dụng các phương pháp thích họp

Các dạng đặc tính có thể sử dụng là cấu trúc hình thái, siêu cấu trúc của tế bào,gene, trình tự DNA và protein miễn rằng chúng thỏa điều kiện là Đồng dạng

Có 3 nhóm phương pháp thường được dùng để tái cấu trúc cây phát sinh sinhloài từ một ma trận đặc tính:

- Nhóm các phương pháp khoảng cách (Distance methods): Khoảng cách chính

là khoảng cách tiến hóa giữa các cặp đối tượng đang được so sánh

- Nhóm phương pháp hà tiện đến mức tối đa (Maximum parsimony - MP):phương pháp này sẽ chọn lựa cây tiến hóa thỏa điều kiện là số lượng đặc tính bị biếnđổi phải thấp nhất để giải thích những dữ liệu đã quan sát được

- Nhóm phương pháp họp lý cực đại (Maximum Likelihood methods): nhómphương pháp này dựa trên một hàm toán học tính toán xác suất khả năng một cây tiếnhóa được tạo thành từ dữ liệu đã quan sát Hàm này cho phép việc tích họp các quátrình tiến hóa của đặc tính thành mô hình xác suất Phương pháp họp lý cực đại chọnlựa cây tiến hóa tối đa mà khi quan sát các dữ liệu dưới một mô hình nào đó có xácxuất tối đa

Trong các phương pháp giới thiệu ở trên thì phương pháp họp lý cực đại làphương pháp là phức tạp nhất và cho kết quả đáng tin cậy nhất Vì những lý do trên,

Trang 13

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

trong dự án nghiên cứu này chúng tôi hướng vào kỹ thuật đại số tính toán cho vấn đềước lượng khả năng cực đại và áp dụng để tái cấu trúc cây sinh loài

Xuất phát từ những thực tế trên, đề tài này đặt ra một số mục tiêu sau:

> Tìm hiểu mô hình xác suất thống kê trên cây sinh loài Tìm hiểu phương pháp

họp lý cực đại và áp dụng trên cây sinh loài

> Tìm những phương pháp toán học thích họp để giải bài toán ước lượng họp lýcực đại

> Giải quyết cho trường họp cây sinh loài 3 và 4 taxa.

> Tim kiếm kết quả tương tự cho trường họp 5 taxa.

> Hoàn thành một chương trình để kiểm nghiệm

Sau đây là một số kết quả thu được của đề tài:

> Xây dựng được mô hình xác suất thống kê tổng quát trên cây sinh loài

> Chỉ ra sự tương đồng của mô hình bài toán với một số cấu trúc đại số cơ bản, từ

đó tìm được thành phần bất biến trên cây sinh loài và giải bài toán

> Xây dựng được một chương trình kiểm nghiệm

> Chương trình đã giải quyết được bài toán MLE để tái cấu trúc cây sinh loài trênmột số cây sinh loài nhỏ 3 taxa và trường họp đặc biệt với cây 4 và 5 taxa

1.2 Cấu trúc luận văn

Nội dung luận văn được trình bày trong các chương sau:

CHƯƠNG 1: GIỚI THIỆU ĐÈ TÀI

Chương này giới thiệu chung về bối cảnh, mục tiêu và kết quả thu được của đềtài Cấu trúc nội dung của quyển thuyết minh được trình bày ở cuối chương

CHƯƠNG 2: CÁC CẤU TRÚC ĐẠI SỐ cơ BẢN - cơ SỞ LÝ THUYẾT VỀ XÁC SUẤT THỐNG KÊ

Chuông này giới thiệu các khái niệm cơ bản của toán học đại số và xác suấtthống kê được sử dụng vào các chương sau của đề tài Các khái niệm về các cấu trúcđại số như: nhóm, vành, trường, vành đa thức, ma trận, vectơ, Các khái niệm vềxác suất thống kê như: xác suất, đại lượng ngẫu nhiên và hàm phân phối, các đặc trưngcủa các đại lượng ngẫu nhiên, lý thuyết mẫu, và ước lượng họp lý cực đại

Chương này chúng ta tìm hiểu kỹ hơn về MLE trên mô hình thống kê Dần ramột vài ví dụ về ước lượng họp lý cực đại trên một số mẫu dữ liệu quan sát và giải bàitoán

CHƯƠNG 4: CÂY SINH LOÀI - MÔ HÌNH XÁC SUẤT THỐNG KÊ TRÊN CÂY SINH LOÀI

Chương này giới thiệu cây sinh loài, mô hình xác suất thống kê trên cây sinhloài Ngoài ra cũng giới thiệu một số mô hình thường sử dụng hiện nay trên cây sinhloài như mô hình Neyman 2 trạng thái, Jukes - Cantor, Kimura với 2 và 3 tham số

Trang 14

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

CHƯƠNG 5: BẤT BIỂN TRÊN CÂY SINH LOÀI

Trong chưong này, giới thiệu tổng quát hóa mô hình xác suất thống kê trên sinhloài Chỉ ra cấu trúc nhóm Aben đối với các mô hình sử dụng để từ đó tìm thành phầnbất biến trên cây sinh loài

CHƯƠNG 6: GIẢI PHƯƠNG TRÌNH HỢP LÝ

Chương này đưa ra phương pháp giải phương trình hợp lý dựa vào tính bất biếncủa cây sinh loài và mẫu dữ liệu quan sát

CHƯƠNG 7: CHƯƠNG TRÌNH THựC HIỆN

Chương này trình bày chi tiết hiện thực của chương trình

CHƯƠNG 8: TỔNG KẾT - ĐÁNH GIÁ

Chương này tổng kết lại những công việc đã làm được, sau đó nêu ra nhữngđóng góp và hướng phát triển của luận văn

Trang 15

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Chương 2 cơ SỜ LÝ THUYẾT VÈ CÁC CẤU TRÚC ĐẠI

SỐ VÀ XÁC SUẤT THỐNG KÊ

Các khái niệm cơ bản của đại số được trình bày ở phần đầu của chương này.Tiếp theo đó là phần giới thiệu về những khái niệm về xác suất thống kê trong đó cóphần khái quát về ước lượng hợp lý cực đại

2.1 Một số cấu trúc đại số cơ bàn

2.1.1 Lý thuyết nhóm

Đinh nghĩa 1: Một nhóm là một cặp (ơ,o) trong đó ơlà một tập họp không

rỗng và o là một luật họp thành trên G thỏa mãn 3 điều kiện sau:

(i) Luật họp thành là kết hợp, tức là:

( x ° y ) ° z = x ° ( y ° z )

với mọi x,y,z e G.

(ii) Có một phần tử e e G, được gọi là phần tử trung lập, có tính chất

xo e = e° x = X

với mọi xeG Phần tử e còn được gọi là phần tử đơn vị của G.

(iii) Với mọi xeG, có một phần tử X’ G G , được gọi là nghịch đảo của X sao

Neu luật họp thành o đã rõ và không nhầm lẫn gì, người ta cũng nói G là một

nhóm.

Đinh nghĩa 2: Nhóm (ơ,°)được gọi 1 à giao hoán (hay Abet) nếu:

x° y = y°x

với mọi X, y E G.

Đỉnh nghĩa 3: Giả sử G và G là các nhóm (với luật họp thành viết theo lối

nhân) Một ánh xạ <p:G—>G được gọi là một đồng cấu nhóm nếu:

ọ(xy) = ọ{x)<p(y)

với mọi X, y E G.

Đinh nghĩa 4: Một đồng cấu nhóm đồng thời là một song ánh được gọi là một

đẳng cấu nhóm.

Đinh nghĩa 5: Hạt nhân và ảnh của đồng cấu nhóm (p\G —» ơ được định

nghĩa như sau:

Trang 16

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Ker(p\={xeG\ (p{x) = e'} = (p *(e’)

Im (p\={ (p{x) :JÍGƠ} = (p{G)

trong đó e là đon vị trong G

Đinh nghĩa 6: Giả sử G là một nhóm Một tập con không rỗng scG được

gọi là một nhóm con của G nếu s khép kín đối với luật họp thành trong G (tức là

và phép nhân

• : R x R ^ > R (x,y)\-^xy

thỏa mãn ba điều kiện sau đây:

(i) R là một nhóm Abel đối với phép cộng

(ii) Phép nhân có tính kết họp

(iii) Phép nhân phân phối về hai phía đối với phép cộng:

(x + y)z = xz + yz, z(x + y) = zx + zy

với mọi x,y,z eR.

Khi hai phép toán đều đã rõ, ta sẽ nói đơn giản: R là một vành.

Đinh nghĩa 8: Vành R được gọi là vành giao hoán nếu phép nhân của nó giao

hoán

Đinh nghĩa 9: Giả sử R là một vành Tập con scz R được gọi là một vành con

của R nếu slà một nhóm con của nhóm cộng R và khép kín đối với phép nhân, tức là

X, yeR kéo theo xyeS.

Đinh nghĩa 10:

(i) Một iđêan trái của vành R là một vành con Ả <z R có tính hấp thụ đối với

phép nhân từ bên trái, tức là

ra E Ẩ , V r e R,\/a e A

(ii) Một iđêan phải của vành R là một vành con Ả <z R có tính hấp thụ đối với

phép nhân từ bên phải, tức là

ar G Ả, Vr G R, \/a G A

(iii) Neu vành con AczR vừa là một iđêan trái, vừa là một iđêan phải thì nó

được gọi là một iđêan (hai phía) của R.

Trang 17

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Định lí: Giả sử A là một iđêan của vành R, thì:

(i) Lớp xy + A chỉ phụ thuộc vào các lóp X + A và y + A mà không phụ thuộc

vào sự lựa chọn của các phần tử X, y từ các lóp đó.

(x + A, y + Á) I—ỳ X + y + A

(x

+ A, y + Á) I—> xy + A

là một vành gọi là vành thương của R trên A.

Đinh nghĩa 11: Giả sử R là một vành (giao hoán và có đơn vị) Iđêan A của R

được gọi là nguyên tố nếu A^ R và với mọi x,y eR, từ chỗ xy e A suy ra hoặc

xe A hoặc y e A.

2.1.3 Trường

Đinh nghĩa 12:

(i) Vành có đơn vị R được gọi là một thể nếu 1 ^ 0 và mọi phần tử khác 0 trong

R đều khả nghịch, nói cách khác, nếu R \ {0} là một nhóm đối với phép

nhân

(ii) Mỗi thể giao hoán được gọi là một trường

Chúng ta đã biết một số trường số quen thuộc như: Q, R, c

các dị, ỉ = 0, 1, , n gọi là các hệ tử của đa thức Các ữịX 1 được gọi là các hạng tử

của đa thức Đa thức có tất cả hệ tử bằng 0 gọi là đa thức 0

Định nghĩa 14: Giả sử A là một vành giao hoán có đơn vị Ta đặt

A = 4,-1 IX ]

vành A n =A n _ ì [x J ] } kí hiệu là A[x ỉ ,x 2 , ,x fì ] và gọi là vành đa thức của n ẩn

x 1 ,x 2 , ,x w lấy hệ tử trong vành A Một phần tử của A n gọi là một đa thức của n ẩn

x 1 ,x 2 , ,x w lấy hệ tử trong vành A, người ta kí hiệu bằng /(x1 ,x 2 , ,x w ) hay g(x 1 ,x 2 , ,xj

Đinh nghĩa 15: Giả sử /(Xj,x 2 , ,x w ) G A[x x ,x 2 , ,x n ] là một đa thức khác 0

f(xĩ,x2,-,x„) = c1xỉu xl'" + + cmxi‘ml ~C"n

Trang 18

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

với các Cị* 0, 1=1, ,m ^ (dj ì , ,dj n ) khi j Ta gọi bậc của

hạng tô CịX^' 1 là tổng các số mũ đối với ẩn Xịsố mũ a n + + d ịn của các ẩn

hạng tử của nó Đa thức 0 là đa thức không có bậc

Nếu các hạng tử của f (x ỉ ,x 2 , ,x n ) có cùng bậc k thì f(x ỉ ,x 2 , ,x n ) gọi là

một đa thức thuần nhất cấp bậc k hay một dạng bậc k Đặc biệt một dạng bậc nhất gọi

là dạng tuyến tỉnh, một dạng bậc 2 gọi là dạng toàn phưong, một dạng bậc 3 gọi là

Định thức của ma trận A là gọi là det(A) hay I AI được định nghĩa như sau theo

cách triển khai theo dòng /:

Trang 19

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

det(^l) = aìtAu + a a A a +

trong đó Aịị = (~\y +J Mịj với Mịj là định thức cấp n -1 suy ra từ A bằng cách bỏ dòng

thứ ỉ và cột thứ j Aịj được gọi là phần bù đại số của dịj ta đi đến tính n định thức cấp

n-ì Ma trận có một phần tử thì định thức bằng chính phần tử đó.

2.1.7 Không gian vector

K là một trường, chủ yếu là Q, R, c, mà các phần tử kí hiệu là: X, //, V, ,

E là một tập họp mà các phần tử là X, y, z,

Giả sử cho 2 phép toán:

- Phép cộng:

ExE E (x,y)\-^x + y

- Phép nhân: Một phần tử của K với một phần tử E:

KxE->E (X,x) h-> Ẫx

thỏa mãn các tính chất sau với mọi X, y eEvầ mọi X, jU eK:

(ii) Phép nhân phân phối đối với phép cộng của trường K:

Lúc đó ta bảo E cùng với hai phép toán: Cộng trong E và nhân đối với một phần

tử trong trường K, thỏa tính chất (i), (ii), (iii), (iv) và (v) là một không gian vector trẽn

trường K hay K - không gian vector (cũng gọi tắt là không gian vector khi không cần

chỉ rõ K) Các phần tử của E gọi là các vector; các phần tử của K gọi là vô hướng Phép toán + gọi là phép cộng vector, phép toán nhân với một phần tử của trường K

được gọi là phép nhân vector với vô hướng

Độc lập tuyến tính và phụ thuộc tuyến tính

Giả sử jCj, x 2 , ., x n (n > 1) là n vectơ của K - không gian vector E và

X = Ẫ ị x ỉ + ?c 1 x 2 + + Ẳ n x n

Trang 20

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

còn được viết là: X = V ẰịXị e E và gọi là tồ hợp tuyến tính của các vectơ

i=l

Xj, x 2 , ., x n với các hệ tử Ẳ ì , Ẫ 2 , ., Ẳ n Trong trường hợp K là một trường số, các

Ằị

sẽ gọi là hệ số thay cho hệ tử.

Hệ n vectơ Xj, x2, x n (n> 1) trong K không gian vecto E gọi là độc lập

thường, qua hệ vectơ đó Vậy hệ Xj, x 2 , , x n (n > ì)độc lập tuyến tính khi và chỉ

Hạng của một hệ hữu hạn vectơ

Giả sử I là một tập hữu hạn và 0 ^ J cz / Giả sử cho hệ vectơ (x.) ieI trong không gian vector E Hệ con (Xj)j G j gọi là một hệ con độc lập tuyến tinh tối đại của

K-hệ đã cho nếu nó là một K-hệ độc lập tuyến tính và nếu thêm bất cứ vector Xị(iel — J)

nào vào hệ con đó thì ta đều được một hệ phụ thuộc tuyến tính

Cho hệ hữu hạn vector (xỉ)/e/ trong K- không gian vector E Người ta chứng

minh được rằng số phần tử của mọi hệ con độc lập tuyến tính tối đại của nó bằng nhau

và gọi là hạng của hệ vector đã cho Hạng của vecto (0) được coi bằng 0.

Hạng của ma trận

Ma trận A có m dòng và n cột với dụ E K Hạng của A là hạng của hệ vector

cột và người ta chứng minh nó cũng bằng hạng của vectơ dòng và bằng cấp cao nhất

của các định thức con khác 0 của nó

Neu A chứa một ma trận vuông cấp p có định thức khác 0, sao cho mọi ma trận vuông cấp p+1 chứa nó có định thức bằng 0, thì ma trận có hạng là p.

Cơ sở và số chiều của một K - không gian vector

Ở đây chúng ta chỉ đề cập tới các không gian vector có hữu hạn chiều

Giả sử E là một K - không gian vector Giả sử tồn tại trong E một hệ vector độc

lập tuyến tính (e ỉ ,e 2 , ,e n ) sao cho mọi vector của E đều biểu thị tuyến tính qua hệ

đó Lúc đó ta có thể nói hệ (e ỉ ,e 2 , ,e ) là độc lập tuyến tính tối đại trong E.

Và ta nói (e ỉ ,e 2 , ,e n ) là một cơ sở của K- không gian vector E và số chiều

(hay vắn tắt là chiều) của E, kí hiệu là dim E, là số vectơ của cơ sở Ta viết dim E = n;

và gọi E là K - không gian vector n chiều.

Trang 21

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

2.1.8 Đa tạp đại số

Tập họp tất cả các điểm (Zj, z 2 , , z n ) trong không gian phức n chiều thỏa

mãn hệ phuơng trình dạng F i (z ỉ , z 2 , ., z n ) = 0 (ỉ = 1,2, , 5) trong đó Fị là các đa

thức của các biến số Z j (j = 1

Neu các Fị đều là bậc nhất đối với tất cả các Z j thì ta có đa tạp tuyến tính Neu

các hệ số của Fị là số hữu tỉ (thực, phức) thì ta có đa tạp đại số hữu tỉ (thực, phức).

2.2 Các khái niệm về xác suất thống kê

2.2.1 Định nghĩa về xác suất

1) Một số khái niệm

Trong xác suất thống kê, thực hiện một phép thử nghĩa là làm một thí nghiệm,thực hiện một quan sát, thực hiện một công việc, một hành động nào đó

- Phép thử mà ta không khẳng định đuợc một cách chắc chắn kết quả của nó

truớc khi thực hiện phép thử gọi là phép thử ngẫu nhiên.

- Các phép thử có thể xảy ra của phép thử gọi là các biến co.

- Các biến cố không thể phân tích đuợc nữa gọi là biến co sơ cấp.

- Biến co chắc chắn là biến cố nhất định xảy ra khi phép thử đuợc thực hiện Ta

kí hiệu biến cố chắc chắn là Q

- Biến co không thể là biến cố không thể xảy ra khi phép thử đuợc thực hiện Ta

kí hiệu là ®

- Biến cổ ngẫu nhiên là biến cố mà nó có thể xảy ra và cũng có thể không xảy ra

khi phép thử đuợc thực hiện, ta thuờng kí hiệu biến cố ngẫu nhiẽn bởi các chữ

cái in hoa: A,B,C,

2) Quan hệ giữa các biến cố

- Tống của 2 biển co: Tổng của 2 biến cố A và B là một biến cố đuợc kí hiệu là duB, sao cho biến cố tổng duBxảy ra khi và chỉ khi hoặc A xảy ra hoặc B

xảy ra

- Tích của 2 biến co: Tích của 2 biến cố A và B là một biến cố đuợc kí hiệu là

AnB hoặc AB, sao cho biến cố tích AB xảy ra khi và chỉ khi A xảy ra và B

xảy ra

Định nghĩa xác suất dạng cổ điển

Xác suất của biến cố A là một số không âm, kí hiệu P(A) Biểu thị khả năng xảy

ra biến cố A và nó đuợc xác định nhu sau:

Sô" trường hợp thuận lợi cho A

Số trường hợp có thể xảy ra phép thử được thực hiện

Định nghĩa xác suất dạng thống kê

Làm đi làm lại một phép thử nào đó n lần, thấy có m lần biến cố A xuất hiện thì , m ,

tỷ sô — gọi là tân suât của biên cô A.

n

Trang 22

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

2.2.2 Xác suất có điều kiện

1) Đinh nghĩa: Xác suất có điều kiện của biến cố A với điều kiện biến cố B đã xảy

ra là một con số không âm, được kí hiệu p(A/ B), nó biểu thị khả năng xảy ra biến cố

A trong tình huống biến cố B đã xảy ra.

2) Tính đôc lâp của các biến cố

Hai biến cốAvầB gọi là độc lập với nhau nếu:

p(A/B) = P(A) hoặc p(B/A) = P(B) hoặc p(AB) = P(A)P(B)

3) Công thức nhân xác suất :

Từ định nghĩa xác suất có điều kiện, với n biến cốA 1 ,A 2 , ,A n ta có:

P(Ả 1 Ắ 2 A„) = P(A,)P(A 2 /A l )P(A 2 /A l Ắ 2 ) P(Ả n /A l Ắ 2 A n _ 1 )

4) Công thức xác suất đầy đủ và công thức Bayes

Giả sử B Ị ,B 2 , -,B n là một nhóm đầy đủ các biến cố Xét biến cố A sao cho A

xảy ra chỉ khi một trong các biến cố Bị ,B2,• • • ,B n xảy ra Khi đó

Công thức này được gọi là công thức Bayes

Trang 23

2.2.3 Các đặc trưng của đại lượng ngẫu nhiên

1) Kỳ vọng: Kỳ vọng của đại lượng ngẫu nhiên ệ là một con số, được kí hiệu

là EẸ và được xác định như sau:

r ệ = Ỵlxipí

i

trong đó P(ệ = X.) = Pị,\/i = 1,2,

Ỷ nghĩa: Kỳ vọng của biến ngẫu nhiên là giá trị trung bình mà biến ngẫu nhiên

nhận hay là trọng tâm của phân phối xác suất

2) Phương sai: Phương sai của đại lượng ngẫu nhiên Ẹ là một con số không

âm, được kí hiệu là D<Ẹ và được xác định như sau:

Dệ =

E{ệ-Ỷ nghĩa: Phương sai của biến ngẫu nhiên là một số không âm dùng để đo mức

độ phân tán (mức độ tản mát) của các giá trị của biến ngẫu nhiên ệ xung quanh tâm

EẸ của nó DẸ nhỏ thì độ phân tán nhỏ, độ tập trung lớn Dệ càng lớn thì độ phân

tán càng cao

Trang 24

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

2.2.4 Lý thuyết mẫu

1) Mầu ngẫu nhiên

Tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó Ta gọi X là việc quan sát lần thứ i về biến ngẫu nhiênX Khi đó (X Ị ,X 2 , ,X n ) đuợc gọi là mẫu ngẫu

nhiên, n gọi là cỡ mẫu (số lần quan sát) Nhu vậy mẫu ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, cùng phân phối nhu biến ngẫu nhiên X.

Ta gọi Xị là kết quả quan sát đuợc ở lần thứ ỉ Khi đó (x ỉ ,x 2 , ,x n ) lần giá trị

cụ thể ta quan sát được Đó là giá trị cụ thể mà mẫu ngẫu nhiên (X ỉ ,X 2 , ,X n ) nhận.

2) Các đăc trưng mẫu

Giả sử ta cần nghiên cứu biến ngẫu nhiên X với EX, DX mà ta chưa biết và đang phải đi tìm chúng Ký hiệu JU = EX, cr2 = DX.

Giả sử (X l ,X 2 , ,X n )\ầ mẫu ngẫu nhiên đuợc rút ra từ X Ta xây dựng biến

ngẫu nhiên rời rạcX nhận n giá trị mẫu với xác suất đều —

Do (X lĩ X 2 , ĩ X n )ìầ các biến ngẫu nhiên độc lập cùng phân phối nhưXnẽn

kỳ vọng mẫu là một biến ngẫu nhiên Do đó ta lại tìm kỳ vọng và phưong sai của X

Trang 25

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

2.2.5 ước lượng tham số

Giả sử ta nghiên cứu biến ngẫu nhiên X và biết đuợc phân phối X thuộc một họ phân phối nào đó Khi đó để xác định hoàn toàn phân phối của Xta phải xác định đuợc

các giá trị tham ẩn mà phân phối đó nhận

Trong truờng họp ta chua biết đuợc gì về phân phối của X, khi đó việc biết đuợc các số đặc trung của X cũng cho ta nhiều thông tin giá trị.

Do đó bài toán đi tìm các uớc luợng cho các tham ẩn của phân phối hoặc uớcluợng cho các số đặc trung của biến ngẫu nhiên là bài toán rất cần thiết

1) Ước lượng điểm

Giả sử 6 là tham ẩn cần uớc luợng Với mẫu ngẫu nhiên (X l ,X 2 , ,X n ), ta

không thể uớc luợng cho 6 dựa vào mẫu ngẫu nhiên trên.

Ta sẽ dùng một hàm nào đó của mẫu, tức là một hàm nào đó của n biến

6*(X x ,X 2 , ,X n ) là một biến ngẫu nhiên vì X x ,X 2f ,X n là các biến ngẫu nhiên độc

lập, cùng phân phối, ỡ* (X x ,X 2 , ,X n ) là uớc luợng điểm vì với giá trị cụ thể của mẫu

thì ỡ*(X x ,X 2 , ,X n ) nhận một giá trị cụ thể (một điểm) 6*(Xj,x 2 , ,xn)

2) Ước lương không chêch

Vì ỡ*(x x ,x 2 , ,x n ) là một biến ngẫu nhiên nên ta không thể đòi hỏi

E0\x x ,x 2 , ,x n ) = 0

Ước luợng 0*(x x ,x 2 , ,xn)thỏa mãn hệ thức trên gọi là uớc luợng không

chệch của 6.

Ta dùng X là uớc luợng điểm cho EX, s 2 là uớc luợng điểm cho DX.

2.2.6 Sơ lược về ước lượng hợp lý cực đại

Phần trên chúng ta đã đua ra các uớc luợng điểm cho kỳ vọng, phuơng sai.Cách đua ra nhu vậy có vẻ không đuợc tụ nhiên Bây giờ chúng ta tìm hiểu một trongcác phuơng pháp tìm đuợc kết quả đã đua ra Đó là phuơng pháp họp lý cực đại Nộidung phuong pháp nhu sau:

Ta xét biến ngẫu nhiên Ẹ và đối với nó ta xác định:

f(x,ỡ) = P(ệ = x,ỡ)

6 là tham ẩn của phân phối của biến ngẫu nhiên Ẹ Truớc hết ta xét truờng họp 6 là

tham ẩn một chiều

Trang 26

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Giả sử (X ỉ ,X 2 , ,X n ) là mẫu ngẫu nhiên cỡ n được rút ra tò ệ Để cho gọn ta

kí hiệu mẫu ngẫu nhiên là vectơX Đối với mẫuXđã cho ta xác định hàm L X (G) (hàm

của tham ẩn ớ) như sau:

lý cực đại Ước lượng họp lý cực đại có các tính chất của một ước lượng tốt

Nếu G là tham số ẩn vectơ, chẳng hạn G = (G ỉ ,G 2 , ,G r )khi đó phương trình

giảm nhẹ khâu tính toán: Lấy đạo hàm và giải phương trình

[ 1 với xác suấtp [o với xác suất q-ì-p Hãy chỉ ra họp lý cực đại chop (ở đây e = p)

Trang 27

tổng số lần biến cố Ả, với p = P(A) , xuất hiện.

Fi' dụ 2: Giả sử X = (Xị,X2, ,Xw)là mẫu ngẫu nhiên rút ra từ phân phối

chuẩn N(p,ơ 2 ) Hãy chỉ ra ước lượng họp lý cực đại cho p và ơ2, ở đây

Chúng ta sẽ phân tích kỹ về ước lượng họp lý cực đại với mẫu quan sát ở chương sau

Trang 28

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

QUAN SÁT

Chương này chúng ta tìm hiểu kỹ hơn về MLE trên mô hình thống kê Dần ramột vài ví dụ về ước lượng hợp lý cực đại trên một số mẫu dữ liệu quan sát và giải bàitoán

3.1 Ước lượng hợp lý cực đại là gì?

MLE có thể được công thức hóa trong xác suất cổ điển với tẽn là Lý thuyết của

ước lượng Khả năng cực đại là một phương pháp đánh giá những tham số một mô

hình thoái lui, từ đó giải quyết tốt cho những mẫu lớn Từ chương trước cho thấy,MLE dẫn đến việc giải quyết làm cực đại tích của những đa thức

MLE được ứng dụng rộng rãi trong cuộc sống hiện nay, không chỉ trong ngànhsinh học nói riêng mà còn nhiều ngành khác như: xử lý ngôn ngữ tự nhiên, điện tửviễn thông, tài chính ngân hàng,

Vậy MLE là gì? Chúng ta lần lượt tìm hiểu những khái niệm và những mô hìnhcho bài toán

3.1.1 Đặt vấn đề

Chúng ta có một mô hình xác suất M của hiện tượng nào đó Chúng ta biết

chính xác cấu trúc của M, nhưng không biết là những giá trị của những tham số xác

suất 6 của nó Mỗi sự hiện diện của M cho một sự quan sát x[ij, tương ứng với phân phối của M.

Mục tiêu của chúng ta là với các mẫu x [ l x [ N J , ước lượng những tham số xác suất 6 từ quá trình phát sinh quan sát dữ liệu trên.

3.1.2 Khái quát về ước lượng hợp lý cực đại

Hàm khả năng (Likelihood Function) tương ứng với các mẫu x [ l x [ N J được cho bởi mô hình những tham số 6 với mô hình xác xuất có điều kiện M, được

định nghĩa như sau:

L{0) = P{x[X\, ,x[N]\e,M)

Điều kiện đặt ra cho những mô hình chúng ta sẽ xem xét cho những mẫu x[ỈJ,

x[2], ,x[NJ là:

- Tập giá trị x[ij (i =1, , N) được xác định.

- Sự phân bố của mỗi mẫu có khả năng xảy ra là như nhau

- Mỗi mẫu được lấy độc lập với những mẫu trước đó

Trong MLE chúng ta tìm kiếm tham số mẫu 6 làm cho hàm trên đạt giá trị cực đại Hay là phải tìm một vectơ của những tham số 6 mà được phát sinh từ bộ dữ liệu

đã cho

Trang 29

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

3.1.3 Ví dụ về ước lượng hợp lý cực đại

Chúng ta sẽ bắt đầu với từ một ví dụ đơn giản nhất là đánh giá sự thiên lệch khitung một cây đinh bấm, sau đó đến những mô hình phức tạp hơn từ đó áp dụng MLEtới phỏng đoán cây sinh loài

£

V777)

Hình 1: Hai trường họp xảy ra khi tung đinh bấm

Đối với cây đinh, khi được tung lên khi rơi xuống nó có thể ở một trong hai

trường họp sau {hình 1): Đầu (H) hoặc Đuôi (T), Chúng ta biểu thị bởi 0 (chưa biết) là xác suất P(H).

Cho một sự nối tiếp những mẫu quan sát D: x[l], x[2], ., x[NJ mà chúng ta muốn ước lượng P(H) = 0 và P{T) = 1 -0

Từ bộ mẫu dữ liệu quan sát trên ta có hàm khả năng là:

i=l

Với ví dụ trên, giả sử dãy mẫu quan sát là H, T, T, H, H ta có hàm họp lý:

3.2 Giải bài toán ước lượng hợp lý cực đại

3.2.1 Nguyên lý ước lượng hợp lý cực đại

Chọn những tham số mà làm cực đại hàm khả năng.

Nguyên lý này được sử dụng rộng rãi trong việc ước lượng trong thống kê, cảtrong việc nhìn nhận của trực giác

3.2.2 Logarit hàm hợp lý

Kỹ thuật khác để làm cho việc tính toán dễ hơn khi làm việc trên logarít hàm

likelihood hơn chính hàm likelihood Lý do chính cho điều này bởi tính toán hơn là lý

thuyết Neu chúng ta nhân lên nhiều số rất nhở cùng nhau (ví dụ nhỏ hơn 0.0001) thìchúng ta sẽ khó có thể biểu hiện số trên với một máy tính thông thường nào đó hiệnnay vì nó quá gần với 0 Tình trạng này thường xuất hiện trong việc tính toán xác suất,khi chúng ta đang nhân những xác suất nhiều sự kiện hiếm có nhưng độc lập để tính

toán xác suất chung Log của hàm likelihood thường đơn giản nhiều cho tính toán, và chúng ta thấy nghiệm thỏa giá trị lớn nhất của hàm log likelihood cũng là nghiệm giá trị lớn nhất của chính hàm likelihood Với ví dụ ở 3.1.3, log likelihood là:

l D («0) = lnLd00) hayl D (0) = N H \nO + N T ln(l - 0)

Trang 30

D ’ e \-e Ớ.(I-Ớ) Ớ.(I-Ớ)

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Công thức này thoạt nhìn không có vẻ đơn giản, nhưng thật ra nó rất dễ dàngkhi tính đạo hàm cho log likelihood trong trường hợp này cũng như nhiều trường họpkhác

Lấy đạo hàm và cho chúng bằng 0, chúng ta được:

09 = —^—

N H + N T

Bảng 1: Bảng biến thiên của hàm họp ỉý

với 6 là nghiệm chúng ta cần tìm, phù họp với những gì chúng ta mong muốn Theo

với o x ,0 2ì .,O K là K tham số cần phải ước lượng, với dãy N mẫu độc lập là x[l],

x[2], , x[NJ Thì hàm likelihood được cho bởi tích sau:

Trang 31

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

và hàm In likelihood như sau:

Mớ) = ln LD(ỡ) = ỵìnfx [Ặỡ1A, -A)

2-1

MLE của O x ,ỡ 2 , ,0 K đạt được khiL D {6) hay £ D (ỡ)ìầ lớn nhất, chúng ta đã

biết xác định giá trị lớn nhất với i D {ơ) dễ hơn với L D (0), vậy MLE của 6 X ,6 2 , ,0 K

là giải hệ K phương trình sau:

m ÕOj = 0,7 = 1,2,

số G X ,Ỡ 2 , ,6 K là xác suất của mặt có nút tương ứng 1,2, , Knhận được khi tung xúc sắc Từ quan sát ta có N X ,N 2 , ,N K là số lượng tương ứng của từng mặt khi quan sát

Theo công thức hàm khả năng sẽ:

3.3.2 Một số phương pháp giải phương trình hợp lý

Theo trên, giải phương trình họp lý làm cực đại phương trình:

Hiện nay có hai hướng tiếp cận khác nhau để giải quyết bài toán này, trong mỗiphương pháp có những ưu và khuyết điểm riêng của nó:

cục bộ, heuristics, Ưu điểm của phương pháp này là nhanh chóng, có thể giải quyết

Trang 32

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

trên những bài toán lớn Nhược điểm lớn nhất của phưong pháp này là tính tin cậykhông cao

Phương pháp tính toán đại số: Ngược lại với phương pháp gần đúng trên,

phương pháp tính toán đại số hiện nay chỉ giải quyết được với những bài toán nhỏ,nhưng cho kết quả chính xác Với sự tiến bộ của khoa học kỹ thuật nói chung và ngànhmáy tính cũng như lãnh vực đại số máy tính nói riêng, đã mở ra con đường cho hướngtiếp cận này Vì lý do trên phương pháp này được chọn sử dụng để giải quyết bài toánước lượng họp lý cực đại - áp dụng trên cây sinh loài nhỏ

Để hiểu rõ cây sinh loài, ước lượng họp lý cực đại trên cây sinh loài chúng tatìm hiểu sơ qua cây sinh loài và mô hình xác suất thống kê trên cây sinh loài ở chươngsau

Trang 33

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Chương 4 CÂY SINH LOÀI - MÔ HÌNH XÁC SUÁT

THỐNG KÊ TRÊN CÂY SINH LOÀI

Chương này giới thiệu cây sinh loài cũng mô hình xác suất thống kê trên câysinh loài Ngoài ra cũng giới thiệu một số mô hình thường sử dụng hiện nay trẽn câysinh loài như mô hình Neyman 2 trạng thái, Jukes - Cantor, Kimura với 2 và 3 thamsố

4.1 Giới thiệu sơ lược về cây sinh loài

Cây sinh loài (còn gọi là cây tiến hóa hay là cây chủng loài) mô tả lịch sử tiếnhóa của một nhóm các loài (species) với những đặc tính khác nhau nhưng cùng có mốiquan hệ họ hàng với nhau và cùng hình thành từ một tổ tiên chung trong quá khứ Cónhiều hướng nghiên cứu khác nhau để chứng minh đặc điểm phát sinh sinh loài này.Trước hết, người ta có thể so sánh trình tự các đoạn DNA (thuộc sinh học phân

tử hay hệ gene học (genomics); hoặc so sánh các hóa thạch (íòssil) hoặc các di chỉ(record) của sinh vật cổ (thuộc khảo cổ học - paleontology)

Các nhà sinh học tổ chức và phân tích các mối quan hệ tiến hóa thông qua cácphương pháp khác nhau, bao gồm phân loại học (phylogenetics), ngoại hình học(phenetics) và cladistics Các sự kiện chính xảy ra trong quá trình tiến hóa của sự sốngđược xây dựng thành biểu đồ thời gian của tiến hóa (evolutionary timeline) dựa trên

các hiểu biết hiện nay của khoa học Hình 3 cho ta thấy hình dạng của cây sinh loài sự

sống trên hành tinh chúng ta

Green

Trang 34

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

4.2 Các nghiên cứu phát sinh sinh loài

Trong ngành sinh học, người ta nghiên cứu mối quan hệ giữa các loài sinh vậtthông qua các bằng chứng phân tử, cụ thể là trình tự DNA và protein Như vậy sự khácbiệt giữa các trình tự (DNA) chỉ định sự phân kỳ di truyền như là kết quả của tiến hóaphân tử theo tiến trình thời gian

Các phưong pháp dùng để nghiên cứu phát sinh sinh loài chủ yếu dựa trên một

sự giả định về các tiến trình tiến hóa ở mức phân tử thông qua việc quan sát phân tíchtrình tự DNA hoặc protein Bằng cách sử dụng công cụ máy tính, các chuỗi dữ liệu sẽđược mô phỏng tiến trình tiến hóa và phân tích tiến trình phát sinh sinh loài Giả sử làchúng ta có một “cây tiến hóa đúng”, chúng ta có thể dùng nó để kiểm tra lại độ chínhxác, tính nhất quán khả năng tin cậy của những mô hình tiến hóa Tuy nhiên khi sửdụng các dữ liệu sinh học, cái gọi là cây tiến hóa có thể không bao giờ có, hoặc ít racũng có thể nói là KHÔNG BIÊT Do vậy người ta chấp nhận một cây tiến hóa đượcdựng nên mà người ta tin là nó GIÔNG NHÂT với cây tiến hóa đúng

Trong các bước trình tự cơ bản để cho một nghiên cứu phát sinh sinh loài thìđánh giá sự phát sinh sinh loài cũng là một bước không thể bỏ qua Sau đây là một sốphương pháp được sử dụng hiện nay:

Phương pháp Hà tiện tối đa (Maximum parsimony), một sự giả định cho rằng

cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các loài

ít thay đổi nhất tức là có ít đột biến nhất, cây vì thế có điểm thấp nhất (hà tiện) theomột tiêu chuẩn định sẵn

Phương pháp Khoảng cách (Distance method)' Khác với phương pháp

parsimony có mô hình tiến hóa là một hàm ẩn, thì phương pháp khoảng cách lại có môhình tiến hóa là một hàm hiện Trong phương pháp này từng cặp trình tự một sẽ được

so sánh thẳng hàng cặp đôi và ứng với từng cặp, khoảng cách di truyền sẽ được tínhtoán Do mô hình tiến hóa là một hàm hiện nên một trong số mô hình tiến hóa có thểđược chọn để tính toán khoảng cách di truyền giữa từng cặp taxa từ đó cho ra một matrận khoảng cách giữa tất cả các taxa Và để có được cây tiến hóa, phương pháp phân

rã hình ngôi sao thường được sử dụng ví dụ phương pháp neighbor-joining(liên kết

cận kề) Do phương pháp neighbor-joining mà một trong những phương pháp nhanh

nhất để dò tìm cây tiến hóa nên nó thường được sử dụng để phân tích khối dữ liệu lớnvới nhiều taxa

Phương pháp Hợp lý cực đại (.Maximum Likelihood) là phương pháp tiêu tốn

nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất Mô hình tiến hóa dùngtrong phương pháp này cũng là một hàm hiện, ứng với mỗi mô hình tiến hóa đượcchọn, phương pháp này sẽ tính toán khả năng xác suất mà một cây tiến hóa có thể có

từ chuỗi trình tự phân tích Cây tiến hóa có xác suất cao nhất là cây cuối cùng đượcchọn

Chúng ta tập trung vào phương pháp ML, để hiểu được điều này chúng ta bắtđầu với những ví dụ cụ thể để mô hình hóa bài toán trên cây sinh loài

Trang 35

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

4.3 Mô hình ước lượng hợp lý cực đại trên cây sinh loài

Cho Sỉ, S2, S N là một dãy mẫu DNA mà chúng ta có Đe đon giản, giả thiếtrằng mọi chuỗi trên có cùng chiều dài Chúng ta muốn xác định những tham số củamột cây sinh loài thông qua dãy mẫu trên và làm cực đại khả năng có thể xảy ra

Để giải bài toán này ta cần chỉ rõ một mô hình xác suất Cho đon giản, giả thiết

“DNA” của chúng ta chỉ có hai trạng thái X và Y Cạnh e đuợc gán xác suất pe, có

nghĩa là xác suất những thay thế (X OY) ngang qua e là p e {Hình 4).

xxyxy -yxyxx

Pe

Hình 4: Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA”

Phải chăng cạnh e được gán xác suất pe, có nghĩa xác suất của những mẫu liên

quan thay thế ngang qua e, ví dụ XXYXY<Y> YXYXX được xác định rõ, và dễ dàng tính toán hàm Likelihood cho mẫu này: pl( 1 - pe)3

Qua bài toán trên có câu hỏi đặt ra như sau: Cái gì “hợp lý” mẫu trên? Có nghĩa

là tìm kiếm p e mà nó làm cực đại xác suất của các mẫu trên

Mở rộng mô hình bài toán trên, mô hình mới của chúng ta sẽ gồm có một câythông thường, nhưng ngoài ra các cạnh được gán những xác suất thay thế

Ví dụ ở đây, cây có 4 taxa Những taxa này là sinh vật hoặc là gen, mỗi mộttaxa được mô tả bởi chuỗi DNA:

Trang 36

Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Bây giờ chúng ta không biết trạng thái ở tại nút trong, đồng thời cũng không

biết những tham số cạnh p ei ,p e2 , p ei ,p et , p e P H 5)

Hai hướng được đưa ra:

1 Cực đại qua những trạng thái của những nút bên trong.

2 Trung bình qua những trạng thái của những nút bên trong.

Trong cả hai trường hợp, chúng ta đều làm cực đại những tham số qua cạnh

Trong hưởng đầu tiên (trung bình, hoặc tồng những trạng thái những nút

trong) chúng ta đang tìm kiếm “thích hợp nhất” đặt trên những cạnh của cây Hướng này được gọi là cực đại khả năng cây sinh loài.

Trong hướng này ML có lẽ là phưong pháp suy diễn rộng rãi nhất được sử dụnghiện nay

Trong hưởng thứ hai (làm cực đại qua những trạng thái của nhũng nút trong) Chúng ta đang tìm kiếm “thích hợp nhất” những trạng thái to tiên Hướng này được cực đại khả năng xảy ra ở tổ tiên (ancestral maximum lỉkelihood -AML).

Hướng thứ hai cũng phải sử dụng phưong pháp ML bởi vì mục tiêu cuối cùngcũng phải là cực đại khả năng

4.4 Mô hình tiến hóa

Trong sinh vật học, quá trinh tiến hóa là một quá trình phức tạp Trong quátrình đó, các chuỗi gen phân kỳ từ cùng một tổ tiên Nhưng vì sự đột biến và chia rẽcủa sự đột biến đó làm tiến hóa cộng đồng bởi sự chọn lọc Kết quả là sự thay đổitrạng thái của một nucleotide này thành một nucleotide khác ở những vị trí khác nhau.Trong việc tái cấu trúc cây sinh loài, chúng ta cần phải chấp nhận mô hình với một sốgiả định về quá trình cũng như trạng thái thay thế sau:

- Mô hình đon giản nhất là mô hình mà trong đó khả năng của bất kỳ nucleotidenào thay đổi thành bất kỳ nucleotide khác là bằng nhau

- Dự đoán khả năng rằng một nucleotide cụ thể ở một vị trí cụ thể sẽ thay đổithành một nucleotide xác định khác trong một khoảng thời gian, cái chúng ta cần biết

ở đây là tỷ lệ tức thời của sự thay đổi

Ma trận tỷ lệ (hoặc ma trận Q) là ma trận vuông Q = (cỊịj), với chỉ mục hàng và cột cho bởi X = {A,C,G,T} Chúng ta cũng có thể sử dụng ký tự nhị phân hoặc 20 kí

tự của amino axit cho tập z Ma trận tỷ lệ phải thỏa những yêu cầu sau:

Ngày đăng: 05/01/2016, 17:19

HÌNH ẢNH LIÊN QUAN

Bảng 1: Bảng biến thiên của hàm họp ỉý - Phương pháp đại số cho hài toán ước lượng hợp lý cực đại   áp dụng trên cây sinh loài nhỏ
Bảng 1 Bảng biến thiên của hàm họp ỉý (Trang 28)
Hình 4: Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA” - Phương pháp đại số cho hài toán ước lượng hợp lý cực đại   áp dụng trên cây sinh loài nhỏ
Hình 4 Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA” (Trang 33)
Hình 6: Một trong những cây sinh loài 4 taxa - Phương pháp đại số cho hài toán ước lượng hợp lý cực đại   áp dụng trên cây sinh loài nhỏ
Hình 6 Một trong những cây sinh loài 4 taxa (Trang 35)
Hình 7: Cây sinh loài vói dữ liệu trên nút lá và các khả năng xảy ra ở các nút tổ - Phương pháp đại số cho hài toán ước lượng hợp lý cực đại   áp dụng trên cây sinh loài nhỏ
Hình 7 Cây sinh loài vói dữ liệu trên nút lá và các khả năng xảy ra ở các nút tổ (Trang 36)
7.1. Sơ đồ khối chương trình - Phương pháp đại số cho hài toán ước lượng hợp lý cực đại   áp dụng trên cây sinh loài nhỏ
7.1. Sơ đồ khối chương trình (Trang 50)
Hình 10: Hai hình dạng cây 3 taxa có  gốc - Phương pháp đại số cho hài toán ước lượng hợp lý cực đại   áp dụng trên cây sinh loài nhỏ
Hình 10 Hai hình dạng cây 3 taxa có gốc (Trang 51)
Hình 11: Cây sinh loài 4 taxa hình móng - Phương pháp đại số cho hài toán ước lượng hợp lý cực đại   áp dụng trên cây sinh loài nhỏ
Hình 11 Cây sinh loài 4 taxa hình móng (Trang 63)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w