1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dự đoán chức năng GENE sử dụng kỹ thuật phân loại phân cấp

25 546 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự đoán chức năng gene sử dụng kỹ thuật phân loại phân cấp
Tác giả Trần Xuân Thanh
Người hướng dẫn PGS.TS Từ Minh Phương
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2012
Thành phố Hà Nội
Định dạng
Số trang 25
Dung lượng 621,88 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

2 MỞ ĐẦU Hiện nay, kỹ thuật phân loại dữ liệu được sử dụng rông rãi trong hầu hết các lĩnh vực khác nhau của trí tuệ nhân tạo như phân loại văn bản, phân loại chữ viết tay, phân loại h

Trang 1

1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

Trần Xuân Thanh

DỰ ĐOÁN CHỨC NĂNG GENE SỬ DỤNG KỸ

THUẬT PHÂN LOẠI PHÂN CẤP

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01 Người hướng dẫn khoa học: PGS.TS Từ Minh Phương

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2012

Trang 2

2

MỞ ĐẦU

Hiện nay, kỹ thuật phân loại dữ liệu được sử dụng rông rãi trong hầu hết các lĩnh vực khác nhau của trí tuệ nhân tạo như phân loại văn bản, phân loại chữ viết tay, phân loại hình ảnh, phân loại chức năng của gene,…

Trong thực tế có rất nhiều phương pháp phân loại dữ liệu, mỗi phương pháp lại có những đặc điểm riêng phù hợp với từng đối tượng dữ liệu cần phân loại Luận văn này sẽ

trình bày về phương pháp phân loại phân cấp đa nhãn

(hierarchical multi-label classification - HMC) để giải quyết bài toán dự đoán chức năng của gene Việc xác định chức năng của một gene mới có ý nghĩa rất quan trọng trong các nghiên cứu sinh học và y học

Bài toán dự đoán chức năng của gene thực chất là bài toán phân loại Chức năng của gene được thể hiện dưới dạng cây phân cấp Mỗi gene đảm nhận một chức năng nào đó và

có mối liên hệ với các gene khác Xác định được chức năng của gene chính là xác định vị trí tương đối của chúng với các gene khác Do đó, việc giải quyết vấn đề xác định chức chức năng của gene cũng chính là phân loại gene dựa vào chức năng của chúng Bài toán xác định chức năng của gene lúc này quy về bài toán phân loại gene dưới dạng cây phân cấp

Trang 3

3

Do tổ chức phân cấp của các GO term, khi xác định chức năng của gene thuật toán phân loại cần tính tới phân cấp này Đã có một số nghiên cứu tập trung vào việc phát triển kỹ thuật phân loại có tính tới đặc thù phân cấp của Gene Ontology (GO) Mục tiêu và nội dung luận văn sẽ tập trung vào việc nghiên cứu áp dụng phân loại phân cấp cho bài toán xác định chức năng gene và đánh giá kết quả bằng thực nghiệm

Đối tương nghiên cứu của đề tài là bộ dữ liệu mô tả chức năng của gene người đã có sẵn để xây dựng tập huấn luyện Phạm vi nghiên cứu của luận văn tập trung vào dự đoán, xác định chức năng của một gene mới sử dụng phương pháp phân loại phân cấp dựa trên bộ dữ liệu đã cho

Bố cục của luận văn gồm:

Chương 1: Trình bày về các khái niệm cơ bản về gene,

chức năng của gene Tiếp đến là khái niệm về gene ontology (GO)

Chương 2: Trình bày phần chính của luận văn Trước

tiên là giới thiệu sơ bộ và phân loại các phương pháp phân loại dữ liệu sử dụng trong bài toán dự đoán chức năng của gene Tiếp theo trình bày về khái niệm cây quyết định và các phương pháp phân loại dựa vào cây quyết định Quan trọng

Trang 4

4

nhất trong phần này, đi sâu trình bày phương pháp phân cấp phân loại dữ liệu

Chương 3: Mô tả quá trình kiểm thử và chạy hệ thống

CLUS Đầu tiên giới thiệu sơ bộ về hệ thống CLUS, sau đó tìm hiều về các định dạng dữ liệu đầu vào và đầu ra của hệ thống CLUS Cuối cùng là đánh giá kết quả khi tiến hành chạy hệ thống với bộ dữ liệu gene nấm men

Trang 5

5

Chương 1: TỔNG QUAN VỀ GENE VÀ DỰ ĐOÁN CHỨC NĂNG GENE

1.1.1 Chức năng của gene và phân loại chức năng gene

1.1.2 Một số khái niệm cơ bản về gene

Nhiễm sắc thể chứa DNA (deoxyribonucleic acid) mang gene Gen được truyền từ bố mẹ sang con cái và được xem là đơn vị cơ bản của sự di truyền, ảnh hưởng lên mọi cấu trúc và chức năng của cơ thể Ở người có khoảng từ 30.000-40.000 gene cấu trúc (gene mã hóa cho RNA hoặc các protein)

1.1.3 Chức năng của gene

Thông thường, mỗi gene mã hóa một protein tương ứng Các protein này đảm nhiệm những vai trò hay chức năng khác nhau trong cơ thể các sinh vật Các chức năng của gene/protein rất đa dạng, từ đóng vai trò trong các phản ứng sinh hóa của tế bào, tới tương tác và điều hòa sự hoạt động của các gen khác Việc xác định chức năng của gene cũng như sản phẩm của gene là nhiệm vụ quan trọng của sinh học phân

tử và tin sinh học

1.1.4 Gene ontology (GO)

Các nghiên cứu về gene cho thấy cấu trúc gene rất phức tạp đặc biệt là gene người Để sử dụng dữ liệu về chức năng

Trang 6

6

của gene cho hệ thống phân loại phân cấp thì dữ liệu về gene phải được trừu tượng hóa, định dạng lại theo chuẩn đầu vào của hệ thống phân loại

Phương pháp phân loại được sử dụng trong đề tài này là phân loại phân cấp đa nhãn dựa trên cây quyết định được cài đặt cho hệ thống CLUS sử dụng bộ dữ liệu theo chuẩn chung

Bộ dữ liệu về gene của các sinh vật đã được hoàn thiện dần qua các nghiên cứu gần đây, tạo nên một chuẩn biểu diễn Các phương pháp học máy để dự đoán chức năng của gene nói chung đều dựa trên cơ sở của bộ dữ liệu chức năng gene co sẵn, chẳng hạn các chức năng trong gene ontology (GO) hay trong FunCat

Mỗi gene được thể hiện như là một Gene ontology (GO), các gene có các chức năng gần nhau được gom thành các nhóm (GO term) Các GO term được tổ chức dưới dạng cây phân cấp

Chức năng của gene được thể hiện dưới dạng cây phân cấp, mỗi gene đơn lẻ có thể có nhiều chức năng, và các chức năng được tổ chức trong hệ thống cấp bậc một: một gen có liên quan đến chức năng một số chức năng của “gene tổ tiên” của mình (gọi là hạn chế phân cấp)

Trang 7

7

Khi ta xác định chức năng của một gene mới (X) tức là ta

đi ta đi xác định xem X có những GO term nào bằng cách đưa

nó vào bộ phân loại với tập huấn luyện đã xác định ta sẽ được

GO term của gene đó Do tổ chức phân cấp của các GO term, khi xác định chức năng của gen thuật toán phân loại cần tính tới phân cấp này

1.2 Bài toán xác định chức năng gene

Từ góc độ khoa học máy tính, bài toán xác định chức năng gene có thể phát biểu như bài toán phân loại trong học máy Theo đó, mỗi gene là một đối tượng, có thể nhận một hoặc một số nhãn phân loại Mỗi nhãn phân loại ở đây tương ứng với một GO term Mỗi gene được biểu diễn bởi một số đặc trưng nhất định, được trích rút từ những dữ liệu sinh học

và di truyền khác nhau Tập dữ liệu huấn luyện cho thuật toán phân loại được tạo thành từ những gene đã biết nhãn phân loại, tức là đã được xác định chức năng từ trước bằng các phương pháp sinh học

Để phân loại các GO term theo phân cấp ta đi xây dựng các tập huấn luyện từ tập các gene (Xi | i = 1,2,3, …n) đã biết chức năng, mỗi Gene đó được biểu diễn như một vector Khi ta xác định chức năng của một gene mới (X) tức là ta

đi ta đi xác định xem X có những GO term nào bằng cách đưa

Trang 8

8

nó vào bộ phân loại với tập huấn luyện đã xác định ta sẽ được

GO term của gene đó

Do tổ chức phân cấp của các GO term, khi xác định chức năng của gen thuật toán phân loại cần tính tới phân cấp này

Đã có một số nghiên cứu tập trung vào việc phát triển kỹ thuật phân loại có tính tới đặc thù phân cấp của GO

1.3 Kết luận chương

Bộ dữ liệu gene đặc biệt là chức năng của gene rất phương tạp, chức năng của gene có ý nghĩa quan trong trong các nghiên cứu sinh học cũng như y học Các nghiên cứu và thực nghiện đã chứng minh phương pháp phân loại phân cấp

đã nhãn phù hợp với bài toán phân loại và dự đoán chức năng của gene

Chương 2: PHÂN LOẠI PHÂN CẤP SỬ DỤNG CÂY QUYẾT ĐỊNH

2.1 Giới thiệu chương

Chương 2 tập trung trình bày về phân loại dữ liệu sử

dụng cây quyết định Phương pháp sử dụng cây quyết định để phân loại dữ liệu tỏ ra hiệu quả và sử dụng rông rãi trong thực

tế Dựa trên nền tảng cây quyết định kết hợp với đặc tính phân

Trang 9

9

cấp chức năng của gene để hình thành lên cây phân loại phân cấp

2.2 Một số phương pháp phân loại dữ liệu

a Phân loại dữ liệu (classification)

Phân loại dữ liệu là một bài toán hết sức cơ bản và quan trọng trong lĩnh vực công nghệ thông tin nói chung và trí tuệ nhân tạo nói riêng Phân loại dữ liệu (classification), là việc phân tích dữ liệu nhằm trích rút các mô hình mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu

b Phân loại các phương pháp phân loại dữ liệu

Có rất nhiều phương pháp phân loại dữ liệu khác nhau

Sự khác nhau của các phương pháp phân loại xuất phát từ cơ

sở lý toán học khác nhau cũng như đặc điểm riêng của từng bộ

dữ liệu Chẳng hạn, dựa vào lý thuyết thống kê có phương pháp phân loại Bayes; với các dữ liệu dạng số và cơ sở toán học về khoảng các Eclide có phương pháp phân loại K-mean; với cấu trúc cây có phương pháp phân loại dựa vào cây quyết định… Dựa vào tính đơn nhãn hay đa nhãn của dữ liệu có các phương pháp phân loại đơn nhãn và đa nhãn; dựa vào sự phân cấp dữ diệu có phương phấp phân cấp phân loại Từ các

Trang 10

10

phương pháp phân loại trên một loát các thuật toán ra đời như

C4.5, J48, CART, R8, CLUS…

2.3 Cây quyết định

2.3.1 Khái niệm cây quyết định

Cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó

2.3.2 Một số thuật toán học cây quyết định tiêu biểu

Có rất nhiều thuật toán phân lớp như ID3, J48, C4.5, CART (Classification and Regression Tree),… Việc chọn thuật toán nào để có hiệu quả phân lớp cao tuy thuộc vào rất nhiều yếu tố, trong đó cấu trúc dữ liệu ảnh hưởng rất lớn đến kết quả của các thuật toán Chẳn hạn như thuật toán ID3 và CART cho hiệu quả phân lớp rất cao đối với các trường dữ liệu số (quantitative value) trong khi đó các thuật toán như

Trang 11

Các phương phân loại thông thường thường dựa trên một

số thuộc tính tương đồng để phân loại, sự phân loại theo phương pháp này không tính đến tính phân cấp của chức năng gene Phương pháp phân loại phân cấp dựa trên đặc tính phân cấp chức năng của gene

Phương pháp phân loại phân cấp là một trường hợp của phương pháp phân loại gom cụm Phương pháp gom cụm là gom các đối tượng dữ liệu với các đối tượng khác trong cụm

và không tương tự với các đối tượng trong các cụm khác Có thể chia các thuật toán gom cụm thành các thuật toán cơ bản sau: phương pháp phân cấp, phương pháp dựa trên mật độ, phương pháp dựa trên lưới và các phương pháp dựa trên mô hình

Phân loại phân cấp là tạo phân cấp cụm, chứ không phải

là phân hoạch đơn thuần các đối tượng, không quan tâm đến

số cụm khi gom cụm Việc phân cấp cụm thường tạo ra cây các cụm, các lá của cây biểu diễn các đối tượng riêng lẻ, các nút trong cây biểu diễn các cụm

Trang 12

nhất thành các cụm nhỏ hơn và xử lý cho đến khi co n cụm

hay thỏa điều kiện kết thúc

- Phương pháp phân cụm từ dưới lên: Đưa từng đối tượng vào cụm (cluster) riêng của nó Trộn ở mỗi bước hai cụm tương tự nhất cho đến khi chỉ còn một cụm hay thỏa điều kiện kết thúc

2.5 Kỹ thuật sử dụng cây quyết định cho bài toán phân loại phân cấp

2.5.1 Khảo sát một số phương pháp phân loại phân cấp

a Giới thiệu chung

Phân loại phân cấp là gì ?

Xác định một lớp phân loại như một cấu trúc cây Cấu trúc cây được hiểu như là một hệ thống phân cấp xác định trên một tập có thứ tự (C, ≺) Trong đó C là tập hữu hạn liệt kê tất

cả các thuộc tính trong lĩnh vực ứng dụng, ≺ đại diện cho mối quan hệ “is – a”

Trang 13

Phân loại phân cấp có tiếp cận cả các cấu trúc cây cơ bản cũng như cấu trúc đồ thị có hướng không chu trình (DAG) Sự khác biệt giữa cấu trúc cây cơ bản và DAG thể hiện ở mối quan hệ dữ liệu

b Biểu diễn bài toán

Bài toán xác định chức năng của gene thực chất là bài toán phân loại Chức năng của gene được thể hiện dưới dạng cây phân cấp Mỗi Gene đảm nhận một chức năng nào đó và

có mối liên hệ với các gene khác Xác định được chức năng của gene chính là xác định vị trí tương đối của chúng với các gene khác Do đó, việc giải quyết vấn đề xác định chức chức năng của gene cũng chính là phân loại gene dựa vào chức

Trang 14

14

năng của chúng Bài toán xác định chức năng của gene lúc này quy về bài toán phân loại gene dưới dạng cây phân cấp Kết quả của quá trình dự đoán có độ tin cạy cao sẽ được kiểm tra lại trong phòng thí nghiệm

2.5.2 Thuật toán phân loại phân cấp đã nhãn (HMC)

a Giới thiệu cây quyết định phân loại phân cấp đa nhãn Phương pháp phân loại phân cấp đa nhãn (HMC) được xây dựng dựa trên cấu trúc cây quyết định và được thiết lập trong phạm vi cụm cây dự đoán (PCT) Chúng ta có thể coi hệ thống cây quyết định HCM như một hệ thống cụm phân cấp: nút trên cùng tương ứng với một phân cụm có chứa tất cả các mẫu huấn luyện, sử dụng phương pháp đệ quy để chia thành các phân cụm nhỏ hơn từ trên xuống dưới của cây Các PCT có thể được sử dụng cho cả việc phân cụm và

dự đoán các chức năng của gene Hệ thống PCT được thực hiện trong chương trình CLUS

b Sử dụng tập hợp cây dự đoán cho HMC

Trước khi giải thích những phương pháp cụ thể, chúng ta

đi xét ví dụ một phân cụm cây dự đoán để dự đoán các chức năng gene của chủng S.cerevisiae dựa trên các dữ liệu tương đồng nhau Các chức năng tương đồng được xác định tương tự

Trang 15

15

như quá trình tìm kiếm gene mấm men đối với tất cả các gene trong SwissProte Các chức năng lấy từ chương trình FunCat Mỗi nút của cây có chứa một mẫu thử nghiệm trong dữ liệu nguồn Ở đây các thuộc tính được nhị phân hóa, sử dụng sau khi đã tiền xử lý các quan hệ dữ liệu tương đồng

Tập hợp các PCT

Phương pháp tập hợp (ensemble) là phương pháp học bằng cách xây dựng một tập phân loại cho 1 nhiệm vụ dự đoán đã đưa ra và phân loại mẫu mới bằng cách kết hợp những dự đoán của mỗi phân loại Kỹ thuật học được sử dụng dựa trên cây quyết định Các thuật toán đóng gói các PCT có

đầu vào là tham số k, là số cây trong tập hợp Để dự đoán, với mức trung bình của tất cả các lớp vector đã dự đoán bằng k

cây trong tập hợp được tính toán, và sau đó áp dụng ngưỡng như trước Điều này đảm bảo rằng các giới hạn phân cấp

c Thuật toán Clus-HMC

Thủ tục CLUS_HMC(T) trả về một cây

1: (t*, h* , P*) = (none,

2: Duyệt với từng mẫu t có thể

3: P= Phân vùng tạo ra bởi t trên T

Trang 16

ra một cây duy nhất cho việc dự đoán chức năng của gene

Trang 17

17

Chương 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.1 Giới thiệu chương

Chương 3 tác giả tiến hành cài đặt và chạy thử nghiệm với

hệ thông CLUS với bộ dữ liệu đầu vào là bộ gene đã biết chức năng Kết quả sau khi thực hiện hệ thống là đưa ra dự đoán gấn đúng về chức năng của gen mới Thông qua quá trình cài đặt thử nghiệm này tác giả tiến hành đánh giả hiểu quả của việc dự đoán cũng như độ phức tạp của giải thuật đã đề ra

Trong bảng dữ liệu dạng ARFF, mỗi hàng đại diện cho thực thể, và mỗi cột tượng trưng cho một thuộc tính hay một trường Mỗi thuộc tính có tên và miền giá trị (miền giá trị là tập hợp các giá trị mà thuộc tính đó có thể lấy) Trong các định dạng ARFF, tên, miền giá trị của các thuộc tính được khai báo trước khi các dữ liệu được đưa vào

Ngày đăng: 13/02/2014, 12:43

HÌNH ẢNH LIÊN QUAN

Hình 3.1: Tệp tin vào ra của hệ thống CLUS - Dự đoán chức năng GENE sử dụng kỹ thuật phân loại phân cấp
Hình 3.1 Tệp tin vào ra của hệ thống CLUS (Trang 22)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w