Đỗ Đức Đông Năm bảo vệ: 2014 Keywords: Hệ thống thông tin; Thuật toán; Phương pháp tối ưu đàn kiến; Bài toán tương tác gen Content Tin sinh học là một lĩnh vực khoa học liên ngành, t
Trang 11
Khám phá tương tác trội nhờ phương pháp tối ưu đàn kiến Detecting epistatic interactions using ant colony optimization method
NXB H : ĐHCN, 2014 Số trang 64 tr +
Nguyễn Thị Chi Đại học Công nghệ Luận văn ThS ngành: Hệ thống thông tin;Mã số: 60 48 05
Người hướng dẫn: TS Đỗ Đức Đông
Năm bảo vệ: 2014
Keywords: Hệ thống thông tin; Thuật toán; Phương pháp tối ưu đàn kiến; Bài toán tương
tác gen
Content
Tin sinh học là một lĩnh vực khoa học liên ngành, trong đó sinh học phân tử và tin học đóng vai trò chủ đạo Sinh học làm môi trường dữ liệu cơ sở, trên đó xây dựng và hoàn thiện các chương trình xử lý dữ liệu ứng dụng làm công cụ hỗ trợ hiệu quả cho việc nghiên cứu, thu nhận
và sản xuất ra các sản phẩm sinh học mong muốn khác nhau phục vụ đời sống con người…Về cơ bản, tin sinh học tập trung vào nghiên cứu và áp dụng các phương pháp cũng như các kĩ thuật trong tin học để giải quyết các bài toán trong sinh học phân tử Tin sinh học có tính ứng dụng cao trong cuộc sống, đặc biệt trong lĩnh vực nông nghiệp và lĩnh vực y-dược
Vấn đề về sức khỏe và bệnh tật của con người là những vấn đề rất được quan tâm và chú ý Hiện nay có rất nhiều các căn bệnh như: Bệnh ung thư, bệnh thoái hóa điểm vàng, bệnh tim mạch… Tất cả đều là những căn bệnh di truyền Có nhiều các tác nhân liên quan đến bệnh như: Tác nhân vật lý, chế độ ăn uống, tác nhân hóa học,…, nhưng yếu tố di truyền vẫn là tác nhân chính
Gen di truyền được công nhận rộng khắp rằng nhiều căn bệnh có thể là nguyên nhân bởi những tác động của nhiều loại gen biến đổi, trong mỗi gen của các cá thể, những gen đó chiếm số
ít nhưng lại có tác động mạnh Vấn đề đang được quan tâm hiện nay là tiến hành nghiên cứu về các gen di truyền: Xác định vị trí gen trên một bệnh chứng, gen xác định là nguyên nhân chính để dẫn đến các căn bệnh Phần lớn trong số những biến thể di truyền là hàng triệu các điểm tại những
vị trí nucleotide nhất định đã làm thay đổi mã di truyền do sự biến đổi của đơn nucleotide trong
bộ gen Khi xảy ra đột biến điểm làm cho một đơn nucleotide bị biến đổi hoặc ngược lại tạo ra một “single nucleotide polymorphism (SNP)” còn gọi là đa hình đơn nucleotide Khi SNPs xảy ra trong gen hoặc trong một khu vực gần một gen quy định, nó có thể có vai trò trực tiếp đến sự xuất hiện bệnh bằng cách ảnh hưởng đến chức năng của gen SNPs hiện đang được Dự án quốc tế HapMap tiến hành một cách hệ thống Các nhà khoa học tin rằng SNP bản đồ sẽ giúp họ có nhiều gen liên quan tới các bệnh phức tạp
Đã có nhiều thuật toán được nghiên cứu và công bố giải quyết bài toán tương tác gen để đưa
ra tập các vị trí nucleotide biến đổi (hay còn gọi là SNP) tương tác với nhau trội được dự đoán là
có khả năng cao liên quan đến căn bệnh Dựa trên đó, các nhà nghiên cứu có thể tìm kiếm ra vị trí các gen liên quan đến các căn bệnh cụ thể mà họ quan tâm
Trang 22
Trong luận văn này, tôi sẽ trình bày khảo cứu lại của tác giả bài báo[22] về cách giải quyết bài toán tương tác gen sử dụng thuật toán Ant Colony Optimization (ACO) để giải quyết Mục đích để chỉ ra thuật toán AntEpiSeeker có thể giải quyết bài toán với những bộ dữ liệu lớn và đưa
ra được kết quả tối ưu hơn so với các thuật toán trước đó Ngoài ra, trong luận văn tôi thực hiện
xử lý song song hóa các tác vụ trong tính toán của Chi-square giúp đẩy nhanh trong quá trình việc cập nhật mùi của kiến mà vẫn đảm bảo tính đúng đắn của thuật toán, cài đặt thực nghiệm với quy tắc cập nhật mùi mới Max-Min trơn (Smoothed Max Min Ant System – SMMAS) được Đỗ Đức Đông đề xuất năm 2012[1]
Ngoài phần kết luận, cấu trúc nội dung của luận văn bao gồm 4 chương:
Chương 1: Trình bày sơ lược các khái niệm về sinh học, phát biểu bài toán tương tác gen,
hệ quả của tương tác gen và mục đích của việc phát hiện tương tác gen
Chương 2: Trình bày tổng quan về ACO và một vài thuật toán cập nhật mùi khác nhau trong ACO Ví dụ về bài toán người chào hàng giải quyết bằng thuật toán ACO
Chương 3: Giới thiệu một vài thuật toán giải quyết bài toán tương tác gen với những ưu, nhược điểm Trình bày lại thuật toán AntEpiSeeker và trình bày về hàm kiểm định thống kê Chi-square
Chương 4: Đưa ra kết quả mà bài báo công bố, giải thích ý nghĩa của các tham số và ý nghĩa đánh giá các thuật toán với nhau khi nào là tốt khi nào là xấu Chạy thực nghiệm lại với một bộ
dữ liệu mô phỏng để so sánh tốc độ của thuật toán ban đầu với tốc độ sau khi xử lý song song hóa các tác vụ của kiến và kiểm tra khả năng tìm ra tập các vị trí nucleotide biến đổi ở phương pháp cập nhật mùi mới
References
Tiếng Việt
[1] Đỗ Đức Đông (2012), Phương pháp tối ưu đàn kiến và ứng dụng, Đại học Công nghệ- Đại học Quốc gia Hà Nội, luận án Tiến sĩ
[2] Hoàng Trọng Phán, Trương Thị Bích Phượng, Trần Quốc Dung (2005), Giáo trình di truyền học, Dự án Giáo dục Đại học- Đại học Huế
Tiếng Anh
[3] W.Bateson (1909), “Mendel’s Principles of Heredity”, Cambridge University Press, Cambridge
[4] YM Cho, MD Ritchie, JH Moore, JY Park, KU Lee, HD Shin, HK Lee, KS Park (2004), “Multifactor-dimensionality reduction shows a two-locus interaction associated with
type 2 diabetes mellitus”, Diabetologia, 47:549-554
[5] HJ Cordell (2002), “ Epistasis: what it means, what it doesn't mean, and statistical methods
to detect it in humans”, Hum Mol Genet, 11:2463-2468
[6] D Corne, M Dorigo, F Glover (1999), New Ideas in Optimization, McGraw-Hill
[7] M Dorigo, G Di Caro, LM Gambardella (1999), “Ant Algorithms for Discrete
Optimization”, Artificial Life, 5:137-172
[8] M Dorigo, T.Stützle (2004), Ant Colony Optimization, The MIT Press, Cambridge,
Masachusetts, 2004
[9] M Dorigo, L.M Gambardella (1997), “Ant colony system: A cooperative learning approach to the traveling salesman problem”, IEEE Transon evolutionary computation, vol.1,
no.1, 1997, pp 53-66
[10] M Dorigo, L.M Gambardella (1997), “Ant colonies for the travelling salesman problem”, Biosystems, 43:73-81
Trang 33
[11] M Dorigo, V Maniezzo, A Colorni (1991), “The Ant System: An autocatalytic optimizing process”, Technical Report 91-016 Revised, Dipartimento di Elettronica, Politecnico di Milano, Milano, Italy
[12] RA Fisher (1922), On the interpretation of χ2 from contingency tables, and the calculation of P, Journal of the Royal Statistical Society 1922; 85(1):87-94
[13] S Goss, S Aron, J.L Deneubourg, J.M Pasteels (1989), “Self-organized shortcuts in the
Argentine ant”, Naturwissenschaften, 76, 579–581
[14] RJ Klein, C Zeiss, EY Chew, JY Tsai, RS Sackler, C Haynes, AK Henning, JP SanGiovanni, SM Mane, ST Mayne ST (2005), “Complement factor H polymorphism in
age-related macular degeneration”, Science, 308:385-389
[15] V Maniezzo, A Carbonaro (2000), “An ANTS heuristic for the frequency assignment
problem”, Future Generation Computer Systems, 16:927-935
[16] J Marchini, P Donnelly, LR Cardon (2005), “Genome-wide strategies for detecting
multiple loci that influence complex diseases”, Nat Genet, 37:413-417
[17] MD Ritchie, LW Hahn, N Roodi N, LR Bailey,WD Dupont, FF Parl, JH Moore (2001),
“Multifactor-dimensionality reduction reveals high-order interactions among estrogen
metabolism genes in sporadic breast cancer”, Am J Hum Genet, 69:138-147
[18] KR Robbins, W Zhang, JK Bertrand, R Rekaya (2007), “The ant colony algorithm for
feature selection in high-dimension gene expression data for disease classification”, Math Med Bio, 24:413-26
[19] T Stützle, H H Hoos (2000), “Max-Min ant system”, Future Gene Comput Syst, vol
26, no.8, 2000, pp 889-914
[20] EG Talbi, O Roux, C Fonlupt, D Robillard (2001), “Parallel Ant Colonies for the
quadratic assignment problem”, Future Generation Computer System, 17:441-449
[21] CT Tsai, LP Lai, JL Lin, FT Chiang, JJ Hwang, MD Ritchie, JH Moore, KL Hsu, CD.Tseng,CS Liau, YZ.Tseng (2004), “Renin-angiotensin system gene polymorphisms and
atrial fibrillation”, Circulation, 109:1640-1646
[22] Y Wang, X Liu, K Robbins, R Rekaya (2010), “AntEpiSeeker: detecting epistatic interactions for case-control studies using a two-stage ant cology optimization algorithm”,
BMC Research Notes, 3:117
[23] C Yang, Z He, X Wan, Q Yang, H Xue, W Yu (2009), “SNPHarvester: a filtering-based approach for detecting epistatic interactions in genome-wide association studies”,
Bioinformatics, 25:504-511
[24] Y Zhang, JS Liu (2007), “Bayesian inference of epistatic interactions in case-control
studies”, Nat Genet, 39:1167-1173
Một số trang web
[25] http://hoiyhoctphcm.org.vn/Data/pdf/1212Dunstan.pdf
[26] http://vietsciences.free.fr/timhieu/khoahoc/ykhoa/ynghiacuatrisoP.htm
[27] http://www.zsinhhoc.blogspot.com/2013/01/tuong-tac-at-che.html
[28] http://math.hws.edu/javamath/ryan/ChiSquare.html
[29] http://xacsuatthongkea.wikispaces.com/file/view/Chuong+6.pdf
[30] http://timmachhoc.vn/y-hoc-thuc-chung/297-y-hc-thc-chng-sanofi.html
[31] http://tudu.com.vn/vn/y-hoc-thuong-thuc/diem-bao/tac-dong-gen-de-tri-benh-huong-di-moi-trong-tuong-lai/