Ngoài ra, một số vi khuẩn có thể chuyển c c đ c tính kháng thuốc của chúngsang các vi khuẩn kh c điều này làm gia tăng số l ợng chủng loại vi khuẩn kháng thuốckháng sinh ngày càng nhiều
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
──────── * ───────
NGUYỄN HUY TÌNH
DỰ ĐOÁN KHÁNG KHÁNG SINH SỬ DỤNG HƯỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY
LUẬN VĂN THẠC SĨ
HÀ NỘI 12 – 2020
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ──────── *
───────
NGUYỄN HUY TÌNH
DỰ ĐOÁN KHÁNG KHÁNG SINH SỬ DỤNG HƯỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI
HÀ NỘI 12 – 2020
Trang 3LỜI CAM ĐOAN
Với mục đích học tập, nghiên cứu để nâng cao kiến thức và trình độ chuyên môn nên tôi đã làm luận văn này một cách nghiêm túc và hoàn toàn trung thực
Trong luận văn tôi có sử dụng một số tài liệu tham khảo của một số tác giả Tôi
đã chú thích và nêu ra trong phần tài liệu tham khảo ở cuối luận văn
Tôi xin cam đoan và chịu trách nhiệm về nội dung và sự trung thực trong luận văn tốt nghiệp Thạc sĩ của mình
Hà Nội, ngày 22 tháng 12 năm 2020
Nguyễn Huy Tình
3
Trang 4và công nghệ Quốc gia (NAFOSTED).
Cuối cùng tôi xin đ ợc cảm n đến gia đình ạn è đã động viên kiến và
giúp đỡ trong quá trình học tập, nghiên cứu và hoàn thành luận văn
đóng góp ý
Do thời gian, kiến thức và kinh nghiệm của tôi còn hạn chế nên khóa luậnkhông thể tránh khỏi những sai sót Tôi hy vọng sẽ nhận đ ợc những ý kiến nhận xét,góp ý của các thầy cô giáo và các bạn để đồ n đ ợc hoàn hiện h n
Tôi xin chân thành cảm n!
Hà Nội, ngày 22 tháng 12 năm 2020
Nguyễn Huy Tình
Trang 5MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
DANH MỤC HÌNH VẼ
DANH MỤC BẢNG BIỂU
MỞ ĐẦU
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN GEN
1.1.1 Giới thiệu chung
1.1.2 Khái niệm về thuốc kháng sinh
1.1.3 Sự đề kháng kháng sinh của vi khuẩn
1.2 KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU
1.2.1 Định nghĩa về khai phá dữ liệu
1.2.2 Học có giám sát
1.2.3 Khái niệm về thuật toán phân lớp trong học có giám sát
1.2.4 Bài toán phân lớp
1.2.5 Tổng quan về một số thuật toán phân lớp c ản
1.2.6 Đ nh giá mô hình phân lớp
CHƯƠNG 2: DỰ ĐOÁN KHÁNG KHÁNG SINH
2.1 BỘ DỮ LIỆU GEN E.COLI
2.2 XÂY DỰNG BỘ GEN
2.2.1 Dự đo n gen mã hóa protein sử dụng phần mềm Prodigal
2.2.2 Phân cụm các gen mã hóa protein sử dụng phần mềm CD-HIT, eggNOG
2.2.3 Đ nh dấu các gen kháng kháng sinh sử dụng CARD
2.3 LẬP BẢNG DỮ LIỆU
CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT LUẬN 5
Trang 63.1 Mô hình thực nghiệm 45
3.2 Thử nghiệm 45
3.2.1 Cấu hình phần cứng 45
3.2.2 Kết quả thực hiện 45
3.3 Đ nh gi 48
3.3.1 Đ nh gi chung 48
3.3.2 So sánh với một số ph ng ph p kh c 48
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50
4.1 Kết luận 50
4.2 H ớng phát triển trong t ng lai 50
TÀI LIỆU THAM KHẢO 51
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Trang 8DANH MỤC HÌNH VẼ
Hình 1-1: Các c p nhiễm sắc thể ở ng ời 12
Hình 1-2: Một đoạn gen của vi khuẩn E.coli 13
Hình 1-3: Cấu trúc DNA 14
Hình 1-4: Cấu trúc amino acid 15
Hình 1-5: C chế đề kháng của vi khuẩn 20
Hình 1-6: Thuận toán SVM 27
Hình 1-7: Thuật toán Random Forest 28
Hình 1-8: Thuật toán Adaboost 28
Hình 2-1: Web tải dữ liệu gen E.coli 32
Hình 2-2: Đầu vào ứng dụng Prodigal 36
Hình 2-3: Đầu ra ứng dụng Prodigal: c c đoạn gen mã hóa protein 37
Hình 2-4: Đầu ra ứng dụng Prodigal: c c đoạn protein 37
Hình 2-5: Đầu ra phần mềm CD-HIT 38
Hình 2-6: Các gen có khả năng kh ng kh ng sinh 39
Hình 2-7: Các họ gen kháng kháng sinh 39
Hình 2-8: Các thuốc kháng sinh mà vi khuẩn kháng lại 40
Hình 2-9: Kĩ thuật kháng thuốc của vi khuẩn 41
Hình 3-1: Đ nh gi độ chính xác theo giải thuật 47
Hình 3-2: Đ nh gi độ chính xác theo từng loại kháng sinh 47
Trang 9DANH MỤC BẢNG BIỂU
Bảng 1-1: Danh sách amino acid 16
Bảng 1-2: Chức năng c c loại protein c ản 17
Bảng 1-3: Bộ dữ liệu huấn luyện 26
Bảng 1-4: Ma trận nhầm lẫn 29
Bảng 1-5: Ma trận chuẩn hóa 30
Bảng 2-1: Danh sách các dòng E.coli 34
Bảng 2-2: Bảng đ nh dấu hoạt động của E.coli 36
Bảng 2-3: Bộ gen accessory dùng để dự đo n 43
Bảng 2-4: Bảng t ng t c thuốc ampicillin 44
Bảng 3-1: Độ chính xác dự đo n (accuracy) 47
Bảng 3-2: Thời gian huấn luyện và tài nguyên sử dụng 48
Bảng 3-3: So s nh độ chính xác (accuracy) với c c ph ng ph p kh c 49
9
Trang 10MỞ ĐẦU
Kháng sinh là loại thuốc quan trọng giúp ngăn ngừa sự tiến triển của bệnh lýgây ra bởi vi khuẩn (nhiễm trùng), giảm các triệu chứng và biến chứng nghiêm trọngcủa bệnh Tuy nhiên, việc lạm dụng quá mức khiến những loại kh ng sinh đã sử dụng tr
ớc đ y ít hiệu quả ho c không có hiệu quả trong việc điều trị các nhiễm trùng do vikhuẩn về sau Đ y là một trong những vấn đề nhức nhối của các tổ chức y tế trên thếgiới
Kháng thuốc kháng sinh (kháng kháng sinh) là khả năng của vi khuẩn ho c cáctác nhân gây bệnh dạng vi khuẩn kháng lại các hiệu quả của thuốc kh ng sinh Khi đó
vi khuẩn sẽ thay đổi theo một cách mới để làm giảm ho c loại bỏ hiệu quả của thuốc, hóa chất ho c c c t c nh n kh c đ ợc dùng để chữa bệnh
Bất kì vi khuẩn nào sống sót sau khi điều trị kh ng sinh đều có thể nhân lên vàtruyền c c đ c tính của nó cho các thế hệ sau
Ngoài ra, một số vi khuẩn có thể chuyển c c đ c tính kháng thuốc của chúngsang các vi khuẩn kh c điều này làm gia tăng số l ợng chủng loại vi khuẩn kháng thuốckháng sinh ngày càng nhiều h n
Tình trạng kháng kháng sinh ngày càng gia tăng nh ng nh n loại ch a tìm ra
đ ợc loại kháng sinh nào hoàn toàn mới để thay thế những thuốc hiện dùng điều này gây ra nhiều lo ngại trong công cuộc chăm sóc sức khỏe y tế cho cộng đồng
Các hậu quả của nhiễm trùng kháng thuốc có thể bao gồm:
• Bệnh n ng h n thời gian phục hồi l u h n
Bệnh t i đi t i lại th ờng xuyên
• Ph ng ph p và chi phí điều trị cao h n
Tử vong khi không có thuốc hiệu quả điều trị
Theo một nghiên cứu đ ợc công bố năm 2013 chi phí kinh tế do kháng kháng sinh
có thể lên tới 55 tỷ USD và các bệnh nhiễm trùng thông th ờng có thể tăng tỉ lệ tử vong
từ 0% lên 30% Nếu chúng ta không có những hành động kịp thời thì vào năm 2050 số
ng ời chết do các bệnh nhiễm khuẩn có liên quan đến đề kháng kháng sinh có thể tănglên tới 10 triệu ng ời/năm và làm giảm ~3,5% GDP toàn cầu do phát sinh tổng chi phíđiều trị có liên quan đến đề kháng kháng sinh
Cũng vào thời điểm đó với tổng sản l ợng kinh tế toàn cầu chiếm gần 100 nghìn tỷUSD nh ng cứ mỗi 3 giây sẽ có một ng ời tử vong có liên quan đến đề kháng khángsinh và mỗi đầu ng ời hiện nay sẽ gánh thêm một khoản chi phí đến h n 10 nghìn USD
Trang 11Tại Việt Nam, tình trạng đề kháng kháng sinh hiện nay đang ở mức o động Sốchủng vi khuẩn kháng thuốc và đa kh ng thuốc ngày càng nhiều, và mức độ đề kháng
kh ng sinh ngày càng gia tăng một c ch đ ng ngại
Vì vậy, việc khảo s t định kỳ về hiệu quả của kh ng sinh trong điều trị các bệnhnhiễm khuẩn th ờng g p trong cộng đồng, là rất quan trọng đ c biệt là đối với các bệnhnhiễm khuẩn đ ờng hơ hấp Các dữ liệu nghiên cứu này gĩp phần quan trọng trong cácquá trình nghiên cứu để đ a ra c c ph c đồ điều trị mới cĩ hiệu quả h n đồng thời nângcao ý thức của giới y tế và khuyến khích sự tuân thủ tốt h n với các nguyên tắc chỉđịnh/sử dụng kháng sinh hợp lý trong hệ thống chăm sĩc sức khỏe cũng nh trong cộngđồng trên tồn thế giới
Một trong những vấn đề cấp thiết đ t ra là dự đo n đ ợc một chủng loại vi khuẩn
cĩ kháng lại một dịng kh ng sinh nào đĩ hay khơng để chúng ta đ a ra ph c đồ điều trịhợp lý, hiệu quả Và đĩ cũng là lý do tơi quyết định chọn đề tài: “Dự đo n kháng khángsinh sử dụng h ớng tiếp cận dựa trên học m y”
Luận văn cĩ
Chương 1: C
Ch ng này giới thiệu tổng quan về hệ gen, protein cấu trúc hệ gen trong sinh họcđồng thời cũng giới thiệu tổng quan về c c kĩ thuật khai phá dữ liệu (nĩi chung) và kĩthuật phân lớp dữ liệu (nĩi riêng)
Chương 2: Dự đo n kh ng kh ng sinh
Ch ng này đi s u tìm hiểu về xây dựng bộ dữ liệu, biến đổi, trích chọn đ c
tr ng Đồng thời đi s u vào tìm hiểu các thuật tốn phân lớp: SVM, Nạve Bayes,Random Forest, Adaboost
Chương 3: Thực nghiệm và kết luận
Ch ng này sẽ trình bày việc áp dụng các mơ hình phân lớp để dự đo n kh ngkháng sinh với những dịng vi khuẩn E.coli và trên c c dịng kh ng sinh c ản:Ampicillin, Gentamicin, Ciprofloxaxin, Trimethoprin
Cuối cùng là một số kết luận và h ớng phát triển trong t ng lai
11
Trang 12CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN GEN
1.1.1 Giới thiệu chung
C thể của sinh vật bao gồm cả con ng ời đều có cấu tạo từ tế bào (cell) Mỗichúng ta đều có 100 nghìn tỉ tế ào mà ên trong là n i l u trữ các thông tin di truyền.Những thông tin này là chức năng của tế ào và cũng để phân biệt ng ời này với ng ờikhác Có nhiều loại tế bào khác nhau: tế bào não, tế bào da, tế ào c tế bào tủy, [1]
Với con ng ời, mỗi tế bào có 23 c p nhiễm sắc thể Mỗi nhiễm sắc thể đ ợc cấuthành từ một phân tử DNA (gọi là một trình tự DNA) Và gen là một đoạn đ c biệt củaphân tử DNA có chức năng điều khiển cấu trúc và hoạt động của tế bào
Hình 1-1: Các cặp nhiễm sắc thể ở người
Những DNA này cấu tạo bởi các base A, C, G và T Những base này kết hợpvới nhau theo kiểu xoắn và có trình tự đ c tr ng để x c định chức năng của từng loại tếbào, cái này gọi là mã di truyền Phần lớn c c gen đều mã hóa protein tuy nhiên số
l ợng gen quá lớn đã tạo ra thách thức không nhỏ cho ngành sinh học phân tử cũng
Trang 13Ngoài ra còn có các cách phân loại gen khác, ví dụ phân loại theo cấu trúc của gen thì chúng ta có thể có gen phân mảnh và gen không phân mảnh.
Gen phân mảnh: là các gen có vùng mã hóa không liên tục
Gen không phân mảnh: là các gen có vùng mã hóa liên tục
Bộ gen hay hệ gen (genome) là tập hợp chứa toàn bộ thông tin di truyền củamột c thể sinh vật đ ợc mã hóa ADN (ở một số virus có thể là ARN) Bộ gen bao gồmnhững vùng chứa gen lẫn những đoạn không phiên mã
Có 4 đại phân tử không thể thiếu để hình thành nên c thể sống đó là:
Nucleic acid: l u trữ chỉ thị di truyền
Protein: biểu hiện của vật chất sống
Polysaccharide: tham gia cấu tạo tế bào, là nguồn dự trữ năng l ợng chính
• Lipid: thành phần của màng tế ào đ ợc cấu tạo từ các acid béo, là nhân tố chính để hình thành các màng sinh học
Hình 1-2: Một đoạn gen của vi khuẩn E.coli
Trang 14 RNA: Rebonucleic Acid
a DNA
Đại phân tử DNA là chuỗi xoắn kép gồm 2 mạch đ
chuỗi nucleotide Chuỗi nucleotide của DNA gồm: phosphate
n
đ
mỗi mạch đ n là mộtờng Desoxyribose vàmột trong 4 base hữu c là :
• Adenin (A)
• Cytosine (C)
• Thymine (T)
Các nucleotide trong một mạch đ n liên kết với nhau bằng liên kết cộng hóa trị
đ ợc hình thành giữa đ ờng của nucleotide này với phosphate của nucleotide kế tiếp
Các mạch đ n liên kết với nhau bằng liên kết hydro từ các base Trong đó G củamạch này liên kết với C của mạch kia, A của mạch này liên kết với T của mạch kia
Hình 1-3: Cấu trúc DNA
Do các Nucleotide chỉ khác nhau thành phần base hữu c nên đại phân tử DNA
nh là một trình tự sinh học gồm c c ase A T G C Và điều này rất hữu ích khi biểu diễn
c c đại phân tử DNA trên máy tính bằng chuỗi ký tự chứa bốn chữ A, T, G, C
Chẳng hạn, một chuỗi có 10 nucleotide thì số loại DNA khác nhau là
410=220=1,048,576
Trang 15b RNA
Đại phân tử RNA t ng tự nh DNA nh ng kh c nhau là:
Là chuỗi xoắn đ n
Đ ờng Pentose là Ribose
Thymine đ ợc thay bởi Uracil (U)
Trong tế bào có 3 loại RNA chính tham gia vào quá trình dịch mã sang protein:
mRNA (messenger RNA): là c c RNA thông tin đ y chính là ản sao của trình
tự trên DNA, nhằm chuyển thông tin mã hóa trên DNA đến bộ máy
từ 3 yếu tố: nhóm amin (-NH2), nhóm carboxyl (-COOH) và nguyên tử cacbon trung
t m đính với 1 nguyên tử hydro và nhóm biến đổi R quyết định tính chất của amino acid
Kích th ớc một protein có thể từ 3 đến 10 nm và tìm ra cấu trúc của chúng là bàitoán khó và tốn kém (cần 50,000$-200 000$ để tìm ra một cấu trúc mới)
Hình 1-4: Cấu trúc amino acid
15Tên
Trang 17b. Chức năng của Protein
Protein có rất nhiều chức năng kh c nhau liên quan đến toàn bộ họa động sống của tế ào quy định các tính trạng và các tính chất của c thể sống
Loại Protein Protein vận động
Bảng 1-2: Chức năng các loại protein cơ bản
1.1.2 Khái niệm về thuốc kháng sinh
1.1.2.1 Định nghĩa
Kháng sinh (hay trụ sinh) là những chất đ ợc chiết xuất từ các vi sinh vật, nấm,
đ ợc tổng hợp ho c bán tổng hợp, có khả năng tiêu diệt vi khuẩn hay kìm hãm sự phát triển của vi khuẩn một c ch đ c hiệu [3]
Kháng sinh có tác dụng lên vi khuẩn ở cấp độ phân tử th ờng là vị trí quan trọngcủa vi khuẩn hay một phản ứng trong quá trình phát triển của vi khuẩn Thời x a, cáccách trị nhiễm trùng chủ yếu dựa trên c c ph ng ph p y học dân gian Loại kh ng sinhđầu tiên là Penicillin đ ợc Alexander Flemming phát hiện vào năm 1928 đã mở ra cuộccách mạng trong việc nghiên cứu và chế tạo kháng sinh
17
Trang 181.1.2.2 Phân loại kháng sinh
a. Theo phổ t c dụng
Do c chế đ c hiệu của từng loại kháng sinh mà mỗi nhóm chỉ tác dụng lên một
số chủng vi khuẩn nhất định, giới hạn này gọi là phổ kháng khuẩn của kháng sinh
Kháng sinh phổ hẹp: là loại kháng sinh chỉ tác dụng lên 1 ho c 1 số loài visinh vật nhất định Ví dụ, isoniazid chỉ tác dụng lên Mycobacteriumtuberculois
Kháng sinh phổ rộng: là loại kháng sinh có tác dụng lên nhiều loại vi khuẩn,
cả vi khuẩn gram âm và vi khuẩn gram d ng ví dụ nh nhóm quinolone macrolide, carbapenem
b. Theo cấu trúc hóa học
Nhóm Beta lactam: gồm các kháng sinh có cấu trúc hóa học chứa vòng Betalactam, chia làm bốn nhóm:
Trang 19o Teicoplanin
Và một số nhóm khác: Tetracylin, Trimethoprine, Polymyxin…
1.1.2.3 Cơ chế tác dụng của kháng sinh
a Ức chế sinh tổng hợp v ch tế ào vi khuẩn
Với vi khuẩn gram m: nhóm eta lactam đi vào tế bào thông qua kênh porin ởmàng ngoài của tế bào vi khuẩn và gắn với PBP(Penicillin Binding Protein)
là một enyme tham gia vào quá trình nối peptidoglycan để tạo vách vikhuẩn
Với vi khuẩn gram d ng: vi khuẩn này không có màng ngoài của tế bàonên eta lactam t c động trực tiếp lên PBP Nhóm Glycopeptide gắn với D-alanyl, từ đó ảnh h ởng lên quá trình tổng hợp peptidoglycan
b Ức chế màng ào t ng
Màng ào t ng có chức năng chính là thẩm thấu chọn lọc các chất Khi khángsinh gắn đ ợc lên màng làm thay đổi tính thẩm thấu chọn lọc của màng khiến cho cácthành phần ion bên trong bị tho t ra ngoài và n ớc từ ên ngoài đi vào g y chết tế bào
c. Ức chế sinh tổng hợp Protein
Tetracyline: gắn lên tiểu đ n vị 30s ngăn cản tRNA gắn với
mRNA-ribosome, là kháng sinh kiềm khuẩn
Aminoglycoside: gắn lên tiểu đ n vị 30s ngăn cản quá trình phiên mã mRNAđồng thời làm mRNA phiên mã sai, là kháng sinh diệt khuẩn
Macroline, lincosamide: gắn lên tiểu đ n vị 50s, kết thúc quá trình phát triển của chuỗi protein, là kháng sinh kiềm khuẩn
Clorpheniramin: gắn lên tiểu đ n vị 50s và ngăn cản quá trình gắn các acid amin tạo chuỗi protein, là kháng sinh kiềm khuẩn
Linezolid: gắn với 23S ribosomal RNA của tiểu đ n vị 50s ngăn cản quá trình tạo phức hợp 70s cần cho tổng hợp protein, là kháng sinh kiềm khuẩn
d. Ức chế sinh tổng hợp Acid Nucleic
Quinolone: t c động lên enzyme DNA gyrase và topoisomerase IV ảnh h ởnglên qu trình nh n đôi DNA
Rifampicin: gắn vào DNA-dependent RNA polymerase, ức chế tổng hợp RNA của tế bào vi khuẩn
e. Ức chế sinh tổng hợp folate
Sulfonamide: có cấu trúc gần giống với PABA (para-aminobenzoic), nêncành tranh với PABA là chất tham gia vào quá trình chuyển hóa acid folic(là tiền chất để tổng hợp acid nucleic), tác dụng kiềm khuẩn
19
Trang 20 Trimethoprime: ức chế enzyme dihydrofolate reductase, ảnh h ởng lên quá trình tổng hợp acid folic, tác dụng kiềm khuẩn.
Nh vậy, mỗi kh ng sinh có c chế khác nhau, tác động lên quá trình sinh tr ởng
và phát triển của vi khuẩn Phối hợp kh ng sinh cũng đ ợc dựa vào vị trí tác động nhằmgia tăng hiệu quả của các loại kháng sinh Khi lựa chọn kh ng sinh điều trị cho ng ời bệnh, cần lựa chọn kháng sinh dựa trên tình trạng nhiễm khuẩn nguy c nhiễm vi khuẩn
đa kh ng vị trí nguồn nhiễm khuẩn, phổ kháng khuẩn của kháng sinh và tính thấm của kháng sinh vào mô nhiễm khuẩn
1.1.3 Sự đề kháng kháng sinh của vi khuẩn
Đề kh ng kh ng sinh không có nghĩa là c thể chống lại tác dụng của kháng sinh.Hiện t ợng kháng kháng sinh xảy ra khi mầm bệnh hay vi khuẩn có khả năng tạo racách chống lại thuốc kháng sinh làm cho kháng sinh không thể tiêu diệt ho c ngăn ch n
đ ợc sự phát triển của chúng
Vi khuẩn có thể kháng thuốc kháng sinh một cách tự nhiên ho c kháng thuốc thu
đ ợc nhờ đột biến gen ho c tiếp nhận gen kháng thuốc từ một loài vi khuẩn khác
1.1.3.1 Các loại hình đề kháng kháng sinh
Khả năng kh ng lại kháng sinh của vi khuẩn có nguồn gốc từ gene Các genekháng thuốc nằm trong các nhiễm sắc thể, ho c trong một yếu tố di động nh c cplasmide, các yếu tố có thể chuyển vị trí ho c integron (đề kháng ngoài nhiễm sắc thể)
Sự đề kháng này th ờng có thể là đề kháng tự nhiên ho c đề kháng mắc phải
Hình 1-5: Cơ chế đề kháng của vi khuẩn
Trang 21a. Đề kh ng tự nhiên
Các gene có khả năng đề kháng nằm trong thông tin di truyền và có ở tất cảcác chủng của cùng một loài Sự đề kháng này đ ợc biết ngay từ lúc đầu khinghiên cứu x c định hoạt tính của kháng sinh và x c định phổ tác dụng củathuốc kháng sinh
Nguyên nhân do kháng sinh không thể tiếp cận đ ợc đích ho c có ái lực yếuvới đích Ví dụ: các Pseudomonas kháng kháng sinh nhóm macrolides, ho c
vi khuẩn gram m kh ng Vancomycine đều là tự nhiên Đ y là sự đề kháng thờng xuyên và có nguồn gốc nhiễm sắc thể, ổn định và di truyền lại cho cácthế hệ con cháu (truyền dọc) khi phân chia tế ào nh ng không truyền từ vikhuẩn này sang vi khuẩn khác
b. Đề kh ng mắc phải
Vi khuẩn có thể phát triển đề kháng với kháng sinh mà tr ớc đó nhạy cảm dothay đổi ở gene
Sự đề kháng này là một trong hai loại sau: đột biến nhất thời ho c mắc phải c
c gene đề kháng từ một vi khuẩn khác thông qua quá trình tiếp xúc
c Đột iến nhiễm sắc thể nhất thời (diễn tiến dọc)
Đột biến nhiễm sắc thể nhất thời là c chế đề kháng kháng sinh của khoảng 20% các vi khuẩn Khi đó c c gene đề kháng có trong nhiễm sắc thể của vi khuẩn Sựđột biến chỉ ảnh h ởng đến một đ c tính và sự đề kháng nói chung chỉ liên quan đếnmột kháng sinh ho c một họ kháng sinh có cùng c chế tác dụng Để xử lý tr ờng hợpnày có thể xử dụng kết hợp nhiều loại kháng sinh với nhau
10-d. Mắc phải c c gene kh ng thuốc từ một vi khuẩn kh c (diễn tiến ngang)
- Tính đề kháng của vi khuẩn do mắc phải các yếu tố di truyền ngoại lai tiêubiểu cho đa số c c tr ờng hợp riêng biệt ở l m sàng và đ ợc thấy ở cả vi khuẩn gram
d ng và gram m Việc mắc phải yếu tố di truyền mới có thể do trao đổi trực tiếp chấtliệu nhiễm sắc thể ho c do trao đổi các yếu tố di động Tr ờng hợp thứ hai này, c c gene
đề kháng có ở trong một đoạn DNA vi khuẩn nằm ở bên ngoài và trên một số
yếu tố di động của nhiễm sắc thể nh c c plasmids Dạng đề kháng này có thể chuyển từ
vi khuẩn này sang vi khuẩn khác và thậm chí ở các vi khuẩn thuộc các loài khác nhau
Sự chuyển giao của một plasmide đ n độc cũng làm tăng nguy c đề kháng với nhiềuthuốc Ví dụ: vi khuẩn Shigella, gây bệnh tiêu chảy, có thể chuyển một plasmide đềkháng với 4-5 kháng sinh khác nhau
- Các gene ho c nhóm gene đề kháng có thể lây truyền bằng nhiều cách: chuyểnthể (transformation), chuyển nạp (transduction), chuyển vị (transposition) ho c giaophối (conjugation) Sự chuyển thể cho phép sự mắc phải và sát nhập DNA tự do vào
21
Trang 22môi tr ờng sau khi vi khuẩn mẹ chết (ví dụ: lậu cầu kháng penicillin) Sự chuyển nạp là
c chế chuyển tải gene, mà vật mang là virus vi khuẩn hay còn gọi là bacteriophage.Bằng cách này thông tin di truyền đ ợc chuyển giữa các vi khuẩn thuộc cùng một loài
C c plasmid th ờng đ ợc chuyển bằng cách giao phối Giao phối là một tiến trình trong
đó DNA đ ợc chuyển từ một vi khuẩn cho sang một vi khuẩn nhận theo một c chế phứchợp cần sự tiếp xúc ch t của tế bào và là cách thức chính gây sự phát tán tính
kháng thuốc của các vi khuẩn gây bệnh T ng tự nh thế tính đề kh ng đ ợc truyền chocác vi khuẩn con Các vi khuẩn đã có yếu tố di động này có thể đ ợc phục hồi trở lạitính nhạy cảm với kháng sinh nếu chúng không còn tiếp xúc với kháng sinh nữa
1.1.3.2 Cơ chế đề kháng
a. Ức chế ằng enzyme
Vi khuẩn sản xuất ra enzyme gây phân hủy ho c làm bất hoạt kháng sinh Sựsản xuất enzyme có thể đ ợc cảm ứng bới một yếu tố bên ngoài (một kháng sinh khác)
ho c bất biến (không bị ảnh h ởng bởi kích thích bên ngoài)
b Giảm tính thấm của tế ào vi khuẩn
• Các vi khuẩn là các vi sinh vật đ n ào: màng tế bào chất phân cách tế bàochất với môi tr ờng bên ngoài Các vi khuẩn gram m còn đ ợc trang bị thêmmột vỏ bên ngoài, gọi là thành ngoài, có tác dụng nh một hàng rào che chởcho các PBP nằm ở bên trong Chất dinh d ỡng và kháng sinh phải đi ngangqua lớp vỏ này để thấm vào bên trong vi khuẩn, theo cách thức khuyến tánthụ động ngang qua các kênh (lỗ nhỏ) Sự giảm tính thấm của tế bào làmgiảm l ợng kh ng sinh đi vào ên trong đến đích t c dụng, nguyên nhân dobiến đổi tính thấm lớp màng bên trong ho c bên ngoài vi khuẩn Sự biến đổicác lỗ của lớp thành tế bào vi khuẩn gram âm có thể làm giảm ho c ngăn cản
sự khuyếch tán của kháng sinh vào vị trí tác dụng
C c đột biến của các lỗ đóng vai trò quan trọng trong việc ph t t n đề kh ng đ
c biệt tiếp theo sự giảm kích th ớc lỗ ho c giảm số l ợng các lỗ Tính thấmliên quan đến các lỗ th ờng phối hợp với việc tổng hợp các beta-lactamases
và tạo nên sự đề kháng cho vi khuẩn
c. Biến đổi vị trí gắn kết
Hiện t ợng này là do nguồn gốc từ nhiễm sắc thể ho c plasmide theo c chế làm giảm độ ái lực của kháng sinh tại vị trí tác dụng Gồm các kiểu biến đổi sau:
Biến đổi các protein liên kết với penicillin (PBP)
Biến đổi vị trí gắn kết ở ribosom
Biến đổi men DNA-gyrase và men topoisomerase
Biến đổi các tiền chất đích ở thành tế bào VK
22
Trang 23• Biến đổi c c enzyme đích
d. B m đẩy
Kháng sinh không thể đạt đến vị trí tác dụng do m đẩy chủ động đẩy kháng sinh
ra khỏi tế bào vi khuẩn (efflux) Các chất vận chuyển đẩy thuốc ra là các thành phầnình th ờng của tế bào vi khuẩn và góp phần lớn cho tính đề kháng nội sinh của vikhuẩn chống lại nhiều thuốc kh ng sinh C c m này cần năng l ợng Việc tiếp xúc vớithuốc kháng sinh làm thuận lợi cho việc tăng số l ợng m do đột biến các chất mang làmtăng mạnh tính đề kháng của vi khuẩn Đ y cũng có thể là nguyên nh n g y đề khángchéo
1.1.3.3 Một số thống kê về kháng kháng sinh
Tổ chức Y tế Thế giới (WHO) xếp Việt Nam vào nhóm c c n ớc có tỉ lệ khángkháng sinh cao nhất thế giới Từ năm 2009 đến nay, số l ợng thuốc kháng sinh ở ViệtNam bán ra ngoài cộng đồng đã tăng gấp 2 lần Nguyên nhân chính là do lạm dụngkháng sinh, có tới 88% kháng sinh tại thành thị đ ợc bán ra mà không cần kê đ n ởnông thôn tỉ lệ lên đến 91%.[4]
Tình trạng kh ng kh ng sinh g y t c động lớn lên nền kinh tế không chỉ trong
n ớc mà trên toàn thế giới Tình trạng này ngày càng gia tăng khi ở Việt Nam đã xuất hiện những vi khuẩn kháng lại tất cả các loại kháng sinh
Trong phòng và điều trị lao theo đ nh gi của WHO, ở Việt Nam, dịch tễ lao còndiễn biến phức tạp Việt Nam vẫn đứng thứ 12 trong 22 n ớc có số ng ời bệnh lao cao
và đứng thứ 14 trong số 27 n ớc có gánh n ng bệnh lao kh ng đa thuốc Tỷ lệ lao kh ng
đa thuốc là 2,7% trong số bệnh nhân lao mới (khoảng 4800 bệnh nhân) và chiếm 19%trong số bệnh nh n lao điều trị lại (khoảng 3400 bệnh nhân)
Tại các khoa hồi sức tích cực, vấn đề này còn nan giải h n do n i đ y tập trungnhững bệnh nhân n ng nhất, qua nhiều khoa điều trị Tại các tỉnh phía Nam, tỉ lệ E.colikháng kháng sinh lên tới 74,6%; tỉ lệ kháng của vi khuẩn gây nhiễm trùngK.pneumoniae lên tới gần 60%; vi khuẩn A.baumannii (gây nhiễm khuẩn bệnh viện)
có tỉ lệ kháng với hầu hết các loại kháng sinh ở mức trên 90%… Với nhóm kháng sinhcarbapenem, nhóm kháng sinh mạnh nhất hiện nay cũng có tỉ lệ lên tới 50% đ c biệt làcác vi khuẩn gram âm mang gen kháng thuốc nh Beta lactamase
Với thực trạng đ ng o động nh vậy thì việc nghiên cứu để phòng tránh khángkháng sinh là rất cấp thiết, mang tính thời sự cao
23
Trang 241.2 KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU
1.2.1 Định nghĩa về khai phá dữ liệu
Khai phá dữ liệu (KPDL) là một lĩnh vực đa ngành dựa trên kết quả từ trí thôngminh nhân tạo, xác suất và thống kê, lý thuyết tính toán phức tạp, lý thuyết kiểm soát,
lý thuyết thông tin, triết học, tâm lý, thần kinh học và c c lĩnh vực khác KPDL chophép ch ng trình “học tập” và tự động cải thiện năng lực từ kinh nghiệm tích lũy Ví dụ
nh trong đề tài này ch ng trình có thể dự đo n xem một mối quan hệ giữa chủng
loại vi khuẩn và kháng sinh có phải là kháng hay không kháng Các thuật toán khaiphá dữ liệu th ờng đ ợc chia thành hai loại tùy theo cách sử dụng chúng: Thuật toánhọc máy – có giám sát (phân lớp), và thuật toán học máy – không giám sát (phân cụm)
1.2.2 Học có giám sát
Học có gi m s t th ờng đ ợc thực hiện trong bối cảnh phân loại, khi chúng tamuốn ánh xạ đầu vào đến nhãn đầu ra, ho c hồi quy, khi chúng ta muốn ánh xạ đầu vàothành đầu ra liên tục Các thuật toán phổ biến trong học tập có giám sát bao gồm hồiquy logistic ayes ng y th m y vect hỗ trợ, mạng n -ron nhân tạo và rừng ngẫu
nhiên Trong cả hồi quy và phân loại, mục tiêu là tìm ra các mối quan hệ ho c cấu trúc
cụ thể trong dữ liệu đầu vào cho phép chúng ta tạo ra dữ liệu đầu ra chính xác mộtcách hiệu quả L u ý rằng đầu ra "đúng" đ ợc x c định hoàn toàn từ dữ liệu huấn luyện,
vì vậy m c dù chúng ta có sự thật c ản rằng mô hình của chúng ta sẽ giả định là đúng
nh ng không có nghĩa là nhãn dữ liệu luôn đúng trong c c tình huống thực tế
Các dữ liệu có nhiễu ho c không chính xác rõ ràng sẽ làm giảm hiệu quả của mô hìnhcủa bạn
Khi tiến hành học có giám sát, những cân nhắc chính là độ phức tạp của môhình và sự cân bằng giữa ph ng sai L u ý rằng cả hai điều này đều có liên quan vớinhau độ phức tạp của mô hình chính là độ phức tạp của hàm mà ta đang cố gắng học -
t ng tự nh ậc của một đa thức Độ phức tạp t ng ứng của mô hình th ờng đ ợc
x c định bởi bản chất của dữ liệu đào tạo của bạn Nếu bạn có một l ợng nhỏ dữ liệu
ho c nếu dữ liệu của bạn không đ ợc trải đều trong c c tr ờng hợp có thể xảy ra khácnhau, bạn nên chọn mô hình có độ phức tạp thấp Điều này là do một mô hình có độphức tạp cao sẽ không phù hợp nếu đ ợc sử dụng trên một số l ợng nhỏ c c điểm dữliệu
Overfitting đề cập đến việc học một chức năng rất phù hợp với dữ liệu đào tạo
nh ng không tổng qu t hóa cho c c điểm dữ liệu khác - nói c ch kh c ta đang học một c
ch nghiêm túc để tạo ra dữ liệu đào tạo của mình mà không tìm hiểu xu h ớng ho c cấutrúc thực tế trong dữ liệu dẫn đến điều này đầu ra
Trang 25Biểu diễn theo mô hình toán học, giả thiết chúng ta có một dữ liệu đầu vào là tập = { 1 , 2 … n }, đã iết kết quả phân lớp là = { 1 ,
2 … n } Học có giám sát là từ tập dữ liệu đầu vào X, dùng huấn luyện tạo ra một hàm ánh xạ mỗi phần
tử từ tập X sang phần tử t ng ứng của tập Y:
i ≈ f(x i ), ∀ = 1 2 …
Hàm ánh xạ này đóng vai trò là một mô hình dùng trong tr ờng hợp có dữ liệu
đầu vào mới qua mô hình sẽ tính đ ợc kết quả phân lớp t
vào Ví dụ trong đề tài này ta có tập dữ liệu đầu vào là các bộ gen – kh ng sinh đã g n
nhãn kết quả đầu ra là có kháng ho c không kháng Sau khi thuật toán tạo ra một mô
hình, tức là một hàm số mà đầu vào là một dữ liệu quan hệ gen – kháng sinh và đầu ra
là một nhãn kháng, ho c không kháng, khi nhận đ
sinh mới mà mô hình ch
kháng hay không kháng Bảng dữ liệu minh họa nh
Card Gens
E.coli 1E.coli 2E.coli 3E.coli 4E.coli 5E.coli 6E.coli 7E.coli 8
E.coli 40E.coli 41E.coli 42E.coli 43E.coli 44E.coli 45E.coli 46E.coli 47
Trang 26E.coli 48E.coli 49