Ngoài ra, một số vi khuẩn có thể chuyển c c đ c tính kháng thuốc của chúng sang các vi khuẩn kh c điều này làm gia tăng số l ợng chủng loại vi khuẩn kháng thuốc kháng sinh ngày càng nhiề
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
──────── * ───────
NGUYỄN HUY TÌNH
DỰ ĐOÁN KHÁNG KHÁNG SINH SỬ DỤNG HƯỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY
LUẬN VĂN THẠC SĨ
HÀ NỘI 12 – 2020
Trang 22
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
──────── * ───────
NGUYỄN HUY TÌNH
DỰ ĐOÁN KHÁNG KHÁNG SINH SỬ DỤNG HƯỚNG TIẾP CẬN DỰA TRÊN HỌC MÁY
NGÀNH : CÔNG NGHỆ THÔNG TIN CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ : 8480104.01
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS ĐẶNG THANH HẢI
HÀ NỘI 12 – 2020
Trang 3LỜI CAM ĐOAN
Với mục đích học tập, nghiên cứu để nâng cao kiến thức và trình độ chuyên môn nên tôi đã làm luận văn này một cách nghiêm túc và hoàn toàn trung thực
Trong luận văn tôi có sử dụng một số tài liệu tham khảo của một số tác giả Tôi
đã chú thích và nêu ra trong phần tài liệu tham khảo ở cuối luận văn
Tôi xin cam đoan và chịu trách nhiệm về nội dung và sự trung thực trong luận văn tốt nghiệp Thạc sĩ của mình
Hà Nội, ngày 22 tháng 12 năm 2020
Nguyễn Huy Tình
Trang 44
LỜI CẢM ƠN
Lời đầu tiên tôi xin ch n thành cảm n c c thầy cô gi o trong tr ờng Đại Học Công Nghệ - Đại học Quốc Gia Hà Nội đ c iệt là c c thầy cô của khoa Công Nghệ Thông Tin đã truyền đạt cho tôi những kiến thức, kinh nghiệm vô cùng quý báu trong suốt thời gian qua
Tôi xin gửi lời cảm n đến TS Đ ng Thanh Hải – giảng viên khoa Công Nghệ Thông tin – Tr ờng Đại học Công Nghệ đã tận tình giúp đỡ, trực tiếp chỉ bảo và
h ớng dẫn tận tình trong suốt quá trình làm luận văn Luận văn này đ ợc thực hiện trong khuôn khổ đề tài mã số 102.05-2016.14 đ ợc tài trợ bởi Quỹ Phát triển khoa học
và công nghệ Quốc gia (NAFOSTED)
Cuối cùng tôi xin đ ợc cảm n đến gia đình ạn è đã động viên đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cứu và hoàn thành luận văn
Do thời gian, kiến thức và kinh nghiệm của tôi còn hạn chế nên khóa luận không thể tránh khỏi những sai sót Tôi hy vọng sẽ nhận đ ợc những ý kiến nhận xét, góp ý của các thầy cô giáo và các bạn để đồ n đ ợc hoàn hiện h n
Tôi xin chân thành cảm n!
Hà Nội, ngày 22 tháng 12 năm 2020
Nguyễn Huy Tình
Trang 5MỤC LỤC
LỜI CAM ĐOAN 3
LỜI CẢM ƠN 4
MỤC LỤC 5
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 7
DANH MỤC HÌNH VẼ 8
DANH MỤC BẢNG BIỂU 9
MỞ ĐẦU 10
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 12
1.1 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN GEN 12
1.1.1 Giới thiệu chung 12
1.1.2 Khái niệm về thuốc kháng sinh 17
1.1.3 Sự đề kháng kháng sinh của vi khuẩn 20
1.2 KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU 24
1.2.1 Định nghĩa về khai phá dữ liệu 24
1.2.2 Học có giám sát 24
1.2.3 Khái niệm về thuật toán phân lớp trong học có giám sát 26
1.2.4 Bài toán phân lớp 26
1.2.5 Tổng quan về một số thuật toán phân lớp c ản 27
1.2.6 Đ nh giá mô hình phân lớp 29
CHƯƠNG 2: DỰ ĐOÁN KHÁNG KHÁNG SINH 32
2.1 BỘ DỮ LIỆU GEN E.COLI 32
2.2 XÂY DỰNG BỘ GEN 36
2.2.1 Dự đo n gen mã hóa protein sử dụng phần mềm Prodigal 36
2.2.2 Phân cụm các gen mã hóa protein sử dụng phần mềm CD-HIT, eggNOG 37
2.2.3 Đ nh dấu các gen kháng kháng sinh sử dụng CARD 38
2.3 LẬP BẢNG DỮ LIỆU 41
CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT LUẬN 45
Trang 66
3.1 Mô hình thực nghiệm 45
3.2 Thử nghiệm 45
3.2.1 Cấu hình phần cứng 45
3.2.2 Kết quả thực hiện 45
3.3 Đ nh gi 48
3.3.1 Đ nh gi chung 48
3.3.2 So sánh với một số ph ng ph p kh c 48
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 50
4.1 Kết luận 50
4.2 H ớng phát triển trong t ng lai 50
TÀI LIỆU THAM KHẢO 51
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Ký hiệu viết tắt Thuật ngữ đầy đủ Giải thích
trợ
nhiên
Proteins
Protein gắn penicillin
Trang 88
DANH MỤC HÌNH VẼ
Hình 1-1: Các c p nhiễm sắc thể ở ng ời 12
Hình 1-2: Một đoạn gen của vi khuẩn E.coli 13
Hình 1-3: Cấu trúc DNA 14
Hình 1-4: Cấu trúc amino acid 15
Hình 1-5: C chế đề kháng của vi khuẩn 20
Hình 1-6: Thuận toán SVM 27
Hình 1-7: Thuật toán Random Forest 28
Hình 1-8: Thuật toán Adaboost 28
Hình 2-1: Web tải dữ liệu gen E.coli 32
Hình 2-2: Đầu vào ứng dụng Prodigal 36
Hình 2-3: Đầu ra ứng dụng Prodigal: c c đoạn gen mã hóa protein 37
Hình 2-4: Đầu ra ứng dụng Prodigal: c c đoạn protein 37
Hình 2-5: Đầu ra phần mềm CD-HIT 38
Hình 2-6: Các gen có khả năng kh ng kh ng sinh 39
Hình 2-7: Các họ gen kháng kháng sinh 39
Hình 2-8: Các thuốc kháng sinh mà vi khuẩn kháng lại 40
Hình 2-9: Kĩ thuật kháng thuốc của vi khuẩn 41
Hình 3-1: Đ nh gi độ chính xác theo giải thuật 47
Hình 3-2: Đ nh gi độ chính xác theo từng loại kháng sinh 47
Trang 9DANH MỤC BẢNG BIỂU
Bảng 1-1: Danh sách amino acid 16
Bảng 1-2: Chức năng c c loại protein c ản 17
Bảng 1-3: Bộ dữ liệu huấn luyện 26
Bảng 1-4: Ma trận nhầm lẫn 29
Bảng 1-5: Ma trận chuẩn hóa 30
Bảng 2-1: Danh sách các dòng E.coli 34
Bảng 2-2: Bảng đ nh dấu hoạt động của E.coli 36
Bảng 2-3: Bộ gen accessory dùng để dự đo n 43
Bảng 2-4: Bảng t ng t c thuốc ampicillin 44
Bảng 3-1: Độ chính xác dự đo n (accuracy) 47
Bảng 3-2: Thời gian huấn luyện và tài nguyên sử dụng 48
Bảng 3-3: So s nh độ chính xác (accuracy) với c c ph ng ph p kh c 49
Trang 1010
MỞ ĐẦU
Kháng sinh là loại thuốc quan trọng giúp ngăn ngừa sự tiến triển của bệnh lý gây ra bởi vi khuẩn (nhiễm trùng), giảm các triệu chứng và biến chứng nghiêm trọng của bệnh Tuy nhiên, việc lạm dụng quá mức khiến những loại kh ng sinh đã sử dụng
tr ớc đ y ít hiệu quả ho c không có hiệu quả trong việc điều trị các nhiễm trùng do vi khuẩn về sau Đ y là một trong những vấn đề nhức nhối của các tổ chức y tế trên thế giới
Kháng thuốc kháng sinh (kháng kháng sinh) là khả năng của vi khuẩn ho c các tác nhân gây bệnh dạng vi khuẩn kháng lại các hiệu quả của thuốc kh ng sinh Khi đó
vi khuẩn sẽ thay đổi theo một cách mới để làm giảm ho c loại bỏ hiệu quả của thuốc, hóa chất ho c c c t c nh n kh c đ ợc dùng để chữa bệnh
Bất kì vi khuẩn nào sống sót sau khi điều trị kh ng sinh đều có thể nhân lên và truyền c c đ c tính của nó cho các thế hệ sau
Ngoài ra, một số vi khuẩn có thể chuyển c c đ c tính kháng thuốc của chúng sang các vi khuẩn kh c điều này làm gia tăng số l ợng chủng loại vi khuẩn kháng thuốc kháng sinh ngày càng nhiều h n
Tình trạng kháng kháng sinh ngày càng gia tăng nh ng nh n loại ch a tìm ra
đ ợc loại kháng sinh nào hoàn toàn mới để thay thế những thuốc hiện dùng điều này gây ra nhiều lo ngại trong công cuộc chăm sóc sức khỏe y tế cho cộng đồng
Các hậu quả của nhiễm trùng kháng thuốc có thể bao gồm:
Bệnh n ng h n thời gian phục hồi l u h n
Bệnh t i đi t i lại th ờng xuyên
Ph ng ph p và chi phí điều trị cao h n
Tử vong khi không có thuốc hiệu quả điều trị
Theo một nghiên cứu đ ợc công bố năm 2013 chi phí kinh tế do kháng kháng sinh
có thể lên tới 55 tỷ USD và các bệnh nhiễm trùng thông th ờng có thể tăng tỉ lệ tử vong từ 0% lên 30% Nếu chúng ta không có những hành động kịp thời thì vào năm
2050 số ng ời chết do các bệnh nhiễm khuẩn có liên quan đến đề kháng kháng sinh có thể tăng lên tới 10 triệu ng ời/năm và làm giảm ~3,5% GDP toàn cầu do phát sinh tổng chi phí điều trị có liên quan đến đề kháng kháng sinh
Cũng vào thời điểm đó với tổng sản l ợng kinh tế toàn cầu chiếm gần 100 nghìn tỷ USD nh ng cứ mỗi 3 giây sẽ có một ng ời tử vong có liên quan đến đề kháng kháng sinh và mỗi đầu ng ời hiện nay sẽ gánh thêm một khoản chi phí đến h n 10 nghìn USD
Trang 11Tại Việt Nam, tình trạng đề kháng kháng sinh hiện nay đang ở mức o động Số
chủng vi khuẩn kháng thuốc và đa kh ng thuốc ngày càng nhiều, và mức độ đề kháng
kh ng sinh ngày càng gia tăng một c ch đ ng ngại
Vì vậy, việc khảo s t định kỳ về hiệu quả của kh ng sinh trong điều trị các bệnh
nhiễm khuẩn th ờng g p trong cộng đồng, là rất quan trọng đ c biệt là đối với các
bệnh nhiễm khuẩn đ ờng hơ hấp Các dữ liệu nghiên cứu này gĩp phần quan trọng
trong các quá trình nghiên cứu để đ a ra c c ph c đồ điều trị mới cĩ hiệu quả h n
đồng thời nâng cao ý thức của giới y tế và khuyến khích sự tuân thủ tốt h n với các
nguyên tắc chỉ định/sử dụng kháng sinh hợp lý trong hệ thống chăm sĩc sức khỏe cũng
nh trong cộng đồng trên tồn thế giới
Một trong những vấn đề cấp thiết đ t ra là dự đo n đ ợc một chủng loại vi
khuẩn cĩ kháng lại một dịng kh ng sinh nào đĩ hay khơng để chúng ta đ a ra ph c đồ
điều trị hợp lý, hiệu quả Và đĩ cũng là lý do tơi quyết định chọn đề tài: “Dự đo n
kháng kháng sinh sử dụng h ớng tiếp cận dựa trên học m y”
Luận văn cĩ ố cục gồm 3 ch ng chính:
Chương 1: C sở lý thuyết
Ch ng này giới thiệu tổng quan về hệ gen, protein cấu trúc hệ gen trong sinh
học đồng thời cũng giới thiệu tổng quan về c c kĩ thuật khai phá dữ liệu (nĩi chung)
và kĩ thuật phân lớp dữ liệu (nĩi riêng)
Chương 2: Dự đo n kh ng kh ng sinh
Ch ng này đi s u tìm hiểu về xây dựng bộ dữ liệu, biến đổi, trích chọn đ c
tr ng Đồng thời đi s u vào tìm hiểu các thuật tốn phân lớp: SVM, Nạve Bayes,
Random Forest, Adaboost
Chương 3: Thực nghiệm và kết luận
Ch ng này sẽ trình bày việc áp dụng các mơ hình phân lớp để dự đo n kh ng
kháng sinh với những dịng vi khuẩn E.coli và trên c c dịng kh ng sinh c ản:
Ampicillin, Gentamicin, Ciprofloxaxin, Trimethoprin
Cuối cùng là một số kết luận và h ớng phát triển trong t ng lai
Trang 1212
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN GEN
1.1.1 Giới thiệu chung
C thể của sinh vật bao gồm cả con ng ời đều có cấu tạo từ tế bào (cell) Mỗi chúng ta đều có 100 nghìn tỉ tế ào mà ên trong là n i l u trữ các thông tin di truyền Những thông tin này là chức năng của tế ào và cũng để phân biệt ng ời này với
ng ời khác Có nhiều loại tế bào khác nhau: tế bào não, tế bào da, tế ào c tế bào tủy, [1]
Với con ng ời, mỗi tế bào có 23 c p nhiễm sắc thể Mỗi nhiễm sắc thể đ ợc cấu thành từ một phân tử DNA (gọi là một trình tự DNA) Và gen là một đoạn đ c biệt của phân tử DNA có chức năng điều khiển cấu trúc và hoạt động của tế bào
Hình 1-1: Các cặp nhiễm sắc thể ở người
Những DNA này cấu tạo bởi các base A, C, G và T Những base này kết hợp với nhau theo kiểu xoắn và có trình tự đ c tr ng để x c định chức năng của từng loại
tế bào, cái này gọi là mã di truyền Phần lớn c c gen đều mã hóa protein tuy nhiên số
l ợng gen quá lớn đã tạo ra thách thức không nhỏ cho ngành sinh học phân tử cũng
nh c c nhà khoa học máy tính
Chẳng hạn, chúng ta cần những tri thức cần thiết để hiểu đ ợc những căn ệnh
di truyền hay những bệnh sinh ra do đột biến gen
Trang 13Ngoài ra còn có các cách phân loại gen khác, ví dụ phân loại theo cấu trúc của gen thì chúng ta có thể có gen phân mảnh và gen không phân mảnh
Gen phân mảnh: là các gen có vùng mã hóa không liên tục
Gen không phân mảnh: là các gen có vùng mã hóa liên tục
Bộ gen hay hệ gen (genome) là tập hợp chứa toàn bộ thông tin di truyền của một c thể sinh vật đ ợc mã hóa ADN (ở một số virus có thể là ARN) Bộ gen bao gồm những vùng chứa gen lẫn những đoạn không phiên mã
Có 4 đại phân tử không thể thiếu để hình thành nên c thể sống đó là:
Nucleic acid: l u trữ chỉ thị di truyền
Protein: biểu hiện của vật chất sống
Polysaccharide: tham gia cấu tạo tế bào, là nguồn dự trữ năng l ợng chính
Lipid: thành phần của màng tế ào đ ợc cấu tạo từ các acid béo, là nhân tố chính để hình thành các màng sinh học
Hình 1-2: Một đoạn gen của vi khuẩn E.coli
Trang 14 Adenin (A)
Cytosine (C)
Guanine (G)
Thymine (T)
Các nucleotide trong một mạch đ n liên kết với nhau bằng liên kết cộng hóa trị
đ ợc hình thành giữa đ ờng của nucleotide này với phosphate của nucleotide kế tiếp
Các mạch đ n liên kết với nhau bằng liên kết hydro từ các base Trong đó G của mạch này liên kết với C của mạch kia, A của mạch này liên kết với T của mạch kia
Hình 1-3: Cấu trúc DNA
Do các Nucleotide chỉ khác nhau thành phần base hữu c nên đại phân tử DNA
nh là một trình tự sinh học gồm c c ase A T G C Và điều này rất hữu ích khi biểu diễn c c đại phân tử DNA trên máy tính bằng chuỗi ký tự chứa bốn chữ A, T, G, C Chẳng hạn, một chuỗi có 10 nucleotide thì số loại DNA khác nhau là
410=220=1,048,576
Trang 15b RNA
Đại phân tử RNA t ng tự nh DNA nh ng kh c nhau là:
Là chuỗi xoắn đ n
Đ ờng Pentose là Ribose
Thymine đ ợc thay bởi Uracil (U)
Trong tế bào có 3 loại RNA chính tham gia vào quá trình dịch mã sang protein:
mRNA (messenger RNA): là c c RNA thông tin đ y chính là ản sao của trình tự trên DNA, nhằm chuyển thông tin mã hóa trên DNA đến bộ máy giải mã protein t ng ứng
tRNA (transfer RNA): là các RNA vận chuyển đóng vai trò vận chuyển các amino acid đến bộ máy dịch mã để tổng hợp ra protein từ mRNA t ng ứng
rRNA (ribosomal RNA): là các RNA của ribosome, rRNA chiếm phần lớn tổng số RNA của tế bào Ribosome là thành phần trong bộ máy dịch mã của
tế ào đ ợc tạo thành bằng cách kết hợp rRNA với protein
từ 3 yếu tố: nhóm amin (-NH2), nhóm carboxyl (-COOH) và nguyên tử cacbon trung
t m đính với 1 nguyên tử hydro và nhóm biến đổi R quyết định tính chất của amino acid
Kích th ớc một protein có thể từ 3 đến 10 nm và tìm ra cấu trúc của chúng là bài toán khó và tốn kém (cần 50,000$-200 000$ để tìm ra một cấu trúc mới)
Hình 1-4: Cấu trúc amino acid
Trang 17b Chức năng của Protein
Protein có rất nhiều chức năng kh c nhau liên quan đến toàn bộ họa động sống của tế ào quy định các tính trạng và các tính chất của c thể sống
Loại Protein Chức năng Protein vận động Chịu trách nhiệm cho sự co c và
chuyển động Protein cấu trúc Có tính chất x và ền nên có ý nghĩa
cung cấp sự hỗ trợ cho các bộ phận khác nhau của c thể
Protein Enzyme Chất xúc tác cho các phản ứng sinh
Bảng 1-2: Chức năng các loại protein cơ bản
1.1.2 Khái niệm về thuốc kháng sinh
Định nghĩa
1.1.2.1
Kháng sinh (hay trụ sinh) là những chất đ ợc chiết xuất từ các vi sinh vật, nấm,
đ ợc tổng hợp ho c bán tổng hợp, có khả năng tiêu diệt vi khuẩn hay kìm hãm sự phát triển của vi khuẩn một c ch đ c hiệu [3]
Kháng sinh có tác dụng lên vi khuẩn ở cấp độ phân tử th ờng là vị trí quan trọng của vi khuẩn hay một phản ứng trong quá trình phát triển của vi khuẩn Thời
x a, các cách trị nhiễm trùng chủ yếu dựa trên c c ph ng ph p y học dân gian Loại
kh ng sinh đầu tiên là Penicillin đ ợc Alexander Flemming phát hiện vào năm 1928
đã mở ra cuộc cách mạng trong việc nghiên cứu và chế tạo kháng sinh
Trang 1818
Phân loại kháng sinh
1.1.2.2
a Theo phổ t c dụng
Do c chế đ c hiệu của từng loại kháng sinh mà mỗi nhóm chỉ tác dụng lên một
số chủng vi khuẩn nhất định, giới hạn này gọi là phổ kháng khuẩn của kháng sinh
Kháng sinh phổ hẹp: là loại kháng sinh chỉ tác dụng lên 1 ho c 1 số loài vi sinh vật nhất định Ví dụ, isoniazid chỉ tác dụng lên Mycobacterium tuberculois
Kháng sinh phổ rộng: là loại kháng sinh có tác dụng lên nhiều loại vi khuẩn,
cả vi khuẩn gram âm và vi khuẩn gram d ng ví dụ nh nhóm quinolone macrolide, carbapenem
b Theo cấu trúc hóa học
Nhóm Beta lactam: gồm các kháng sinh có cấu trúc hóa học chứa vòng Beta lactam, chia làm bốn nhóm:
Trang 19o Teicoplanin
Và một số nhóm khác: Tetracylin, Trimethoprine, Polymyxin…
Cơ chế tác dụng của kháng sinh
1.1.2.3
a Ức chế sinh tổng hợp v ch tế ào vi khuẩn
Với vi khuẩn gram m: nhóm eta lactam đi vào tế bào thông qua kênh porin ở màng ngoài của tế bào vi khuẩn và gắn với PBP(Penicillin Binding Protein) là một enyme tham gia vào quá trình nối peptidoglycan để tạo vách
vi khuẩn
Với vi khuẩn gram d ng: vi khuẩn này không có màng ngoài của tế bào nên eta lactam t c động trực tiếp lên PBP Nhóm Glycopeptide gắn với D-alanyl, từ đó ảnh h ởng lên quá trình tổng hợp peptidoglycan
b Ức chế màng ào t ng
Màng ào t ng có chức năng chính là thẩm thấu chọn lọc các chất Khi kháng sinh gắn đ ợc lên màng làm thay đổi tính thẩm thấu chọn lọc của màng khiến cho các thành phần ion bên trong bị tho t ra ngoài và n ớc từ ên ngoài đi vào g y chết tế bào
d Ức chế sinh tổng hợp Acid Nucleic
Quinolone: t c động lên enzyme DNA gyrase và topoisomerase IV ảnh
h ởng lên qu trình nh n đôi DNA
Rifampicin: gắn vào DNA-dependent RNA polymerase, ức chế tổng hợp RNA của tế bào vi khuẩn
e Ức chế sinh tổng hợp folate
Sulfonamide: có cấu trúc gần giống với PABA (para-aminobenzoic), nên cành tranh với PABA là chất tham gia vào quá trình chuyển hóa acid folic (là tiền chất để tổng hợp acid nucleic), tác dụng kiềm khuẩn
Trang 2020
Trimethoprime: ức chế enzyme dihydrofolate reductase, ảnh h ởng lên quá trình tổng hợp acid folic, tác dụng kiềm khuẩn
Nh vậy, mỗi kh ng sinh có c chế khác nhau, tác động lên quá trình sinh
tr ởng và phát triển của vi khuẩn Phối hợp kh ng sinh cũng đ ợc dựa vào vị trí tác động nhằm gia tăng hiệu quả của các loại kháng sinh Khi lựa chọn kh ng sinh điều trị cho ng ời bệnh, cần lựa chọn kháng sinh dựa trên tình trạng nhiễm khuẩn nguy c nhiễm vi khuẩn đa kh ng vị trí nguồn nhiễm khuẩn, phổ kháng khuẩn của kháng sinh
và tính thấm của kháng sinh vào mô nhiễm khuẩn
1.1.3 Sự đề kháng kháng sinh của vi khuẩn
Đề kh ng kh ng sinh không có nghĩa là c thể chống lại tác dụng của kháng sinh Hiện t ợng kháng kháng sinh xảy ra khi mầm bệnh hay vi khuẩn có khả năng tạo
ra cách chống lại thuốc kháng sinh làm cho kháng sinh không thể tiêu diệt ho c ngăn
Sự đề kháng này th ờng có thể là đề kháng tự nhiên ho c đề kháng mắc phải
Hình 1-5: Cơ chế đề kháng của vi khuẩn
Trang 21a Đề kh ng tự nhiên
Các gene có khả năng đề kháng nằm trong thông tin di truyền và có ở tất cả các chủng của cùng một loài Sự đề kháng này đ ợc biết ngay từ lúc đầu khi nghiên cứu x c định hoạt tính của kháng sinh và x c định phổ tác dụng của thuốc kháng sinh
Nguyên nhân do kháng sinh không thể tiếp cận đ ợc đích ho c có ái lực yếu với đích Ví dụ: các Pseudomonas kháng kháng sinh nhóm macrolides, ho c
vi khuẩn gram m kh ng Vancomycine đều là tự nhiên Đ y là sự đề kháng
th ờng xuyên và có nguồn gốc nhiễm sắc thể, ổn định và di truyền lại cho các thế hệ con cháu (truyền dọc) khi phân chia tế ào nh ng không truyền
từ vi khuẩn này sang vi khuẩn khác
b Đề kh ng mắc phải
Vi khuẩn có thể phát triển đề kháng với kháng sinh mà tr ớc đó nhạy cảm
do thay đổi ở gene
Sự đề kháng này là một trong hai loại sau: đột biến nhất thời ho c mắc phải
c c gene đề kháng từ một vi khuẩn khác thông qua quá trình tiếp xúc
c Đột iến nhiễm sắc thể nhất thời (diễn tiến dọc)
Đột biến nhiễm sắc thể nhất thời là c chế đề kháng kháng sinh của khoảng 20% các vi khuẩn Khi đó c c gene đề kháng có trong nhiễm sắc thể của vi khuẩn Sự đột biến chỉ ảnh h ởng đến một đ c tính và sự đề kháng nói chung chỉ liên quan đến một kháng sinh ho c một họ kháng sinh có cùng c chế tác dụng Để xử lý tr ờng hợp này có thể xử dụng kết hợp nhiều loại kháng sinh với nhau
10-d Mắc phải c c gene kh ng thuốc từ một vi khuẩn kh c (diễn tiến ngang)
- Tính đề kháng của vi khuẩn do mắc phải các yếu tố di truyền ngoại lai tiêu biểu cho đa số c c tr ờng hợp riêng biệt ở l m sàng và đ ợc thấy ở cả vi khuẩn gram
d ng và gram m Việc mắc phải yếu tố di truyền mới có thể do trao đổi trực tiếp chất liệu nhiễm sắc thể ho c do trao đổi các yếu tố di động Tr ờng hợp thứ hai này,
c c gene đề kháng có ở trong một đoạn DNA vi khuẩn nằm ở bên ngoài và trên một số yếu tố di động của nhiễm sắc thể nh c c plasmids Dạng đề kháng này có thể chuyển
từ vi khuẩn này sang vi khuẩn khác và thậm chí ở các vi khuẩn thuộc các loài khác nhau Sự chuyển giao của một plasmide đ n độc cũng làm tăng nguy c đề kháng với nhiều thuốc Ví dụ: vi khuẩn Shigella, gây bệnh tiêu chảy, có thể chuyển một plasmide
đề kháng với 4-5 kháng sinh khác nhau
- Các gene ho c nhóm gene đề kháng có thể lây truyền bằng nhiều cách: chuyển thể (transformation), chuyển nạp (transduction), chuyển vị (transposition) ho c giao phối (conjugation) Sự chuyển thể cho phép sự mắc phải và sát nhập DNA tự do vào
Trang 2222
môi tr ờng sau khi vi khuẩn mẹ chết (ví dụ: lậu cầu kháng penicillin) Sự chuyển nạp
là c chế chuyển tải gene, mà vật mang là virus vi khuẩn hay còn gọi là bacteriophage Bằng cách này thông tin di truyền đ ợc chuyển giữa các vi khuẩn thuộc cùng một loài
C c plasmid th ờng đ ợc chuyển bằng cách giao phối Giao phối là một tiến trình trong đó DNA đ ợc chuyển từ một vi khuẩn cho sang một vi khuẩn nhận theo một c chế phức hợp cần sự tiếp xúc ch t của tế bào và là cách thức chính gây sự phát tán tính kháng thuốc của các vi khuẩn gây bệnh T ng tự nh thế tính đề kh ng đ ợc truyền cho các vi khuẩn con Các vi khuẩn đã có yếu tố di động này có thể đ ợc phục hồi trở lại tính nhạy cảm với kháng sinh nếu chúng không còn tiếp xúc với kháng sinh nữa
ho c bất biến (không bị ảnh h ởng bởi kích thích bên ngoài)
b Giảm tính thấm của tế ào vi khuẩn
Các vi khuẩn là các vi sinh vật đ n ào: màng tế bào chất phân cách tế bào chất với môi tr ờng bên ngoài Các vi khuẩn gram m còn đ ợc trang bị thêm một vỏ bên ngoài, gọi là thành ngoài, có tác dụng nh một hàng rào che chở cho các PBP nằm ở bên trong Chất dinh d ỡng và kháng sinh phải
đi ngang qua lớp vỏ này để thấm vào bên trong vi khuẩn, theo cách thức khuyến tán thụ động ngang qua các kênh (lỗ nhỏ) Sự giảm tính thấm của tế bào làm giảm l ợng kh ng sinh đi vào ên trong đến đích t c dụng, nguyên nhân do biến đổi tính thấm lớp màng bên trong ho c bên ngoài vi khuẩn Sự biến đổi các lỗ của lớp thành tế bào vi khuẩn gram âm có thể làm giảm ho c ngăn cản sự khuyếch tán của kháng sinh vào vị trí tác dụng
C c đột biến của các lỗ đóng vai trò quan trọng trong việc ph t t n đề
kh ng đ c biệt tiếp theo sự giảm kích th ớc lỗ ho c giảm số l ợng các lỗ Tính thấm liên quan đến các lỗ th ờng phối hợp với việc tổng hợp các beta-lactamases và tạo nên sự đề kháng cho vi khuẩn
c Biến đổi vị trí gắn kết
Hiện t ợng này là do nguồn gốc từ nhiễm sắc thể ho c plasmide theo c chế làm giảm độ ái lực của kháng sinh tại vị trí tác dụng Gồm các kiểu biến đổi sau:
Biến đổi các protein liên kết với penicillin (PBP)
Biến đổi vị trí gắn kết ở ribosom
Biến đổi men DNA-gyrase và men topoisomerase
Biến đổi các tiền chất đích ở thành tế bào VK
Trang 23 Biến đổi c c enzyme đích
d B m đẩy
Kháng sinh không thể đạt đến vị trí tác dụng do m đẩy chủ động đẩy kháng sinh ra khỏi tế bào vi khuẩn (efflux) Các chất vận chuyển đẩy thuốc ra là các thành phần ình th ờng của tế bào vi khuẩn và góp phần lớn cho tính đề kháng nội sinh của
vi khuẩn chống lại nhiều thuốc kh ng sinh C c m này cần năng l ợng Việc tiếp xúc với thuốc kháng sinh làm thuận lợi cho việc tăng số l ợng m do đột biến các chất mang làm tăng mạnh tính đề kháng của vi khuẩn Đ y cũng có thể là nguyên
Tình trạng kh ng kh ng sinh g y t c động lớn lên nền kinh tế không chỉ trong
n ớc mà trên toàn thế giới Tình trạng này ngày càng gia tăng khi ở Việt Nam đã xuất hiện những vi khuẩn kháng lại tất cả các loại kháng sinh
Trong phòng và điều trị lao theo đ nh gi của WHO, ở Việt Nam, dịch tễ lao còn diễn biến phức tạp Việt Nam vẫn đứng thứ 12 trong 22 n ớc có số ng ời bệnh lao cao và đứng thứ 14 trong số 27 n ớc có gánh n ng bệnh lao kh ng đa thuốc Tỷ lệ lao
kh ng đa thuốc là 2,7% trong số bệnh nhân lao mới (khoảng 4800 bệnh nhân) và chiếm 19% trong số bệnh nh n lao điều trị lại (khoảng 3400 bệnh nhân)
Tại các khoa hồi sức tích cực, vấn đề này còn nan giải h n do n i đ y tập trung những bệnh nhân n ng nhất, qua nhiều khoa điều trị Tại các tỉnh phía Nam, tỉ lệ E.coli kháng kháng sinh lên tới 74,6%; tỉ lệ kháng của vi khuẩn gây nhiễm trùng K.pneumoniae lên tới gần 60%; vi khuẩn A.baumannii (gây nhiễm khuẩn bệnh viện)
có tỉ lệ kháng với hầu hết các loại kháng sinh ở mức trên 90%… Với nhóm kháng sinh carbapenem, nhóm kháng sinh mạnh nhất hiện nay cũng có tỉ lệ lên tới 50% đ c biệt
là các vi khuẩn gram âm mang gen kháng thuốc nh Beta lactamase
Với thực trạng đ ng o động nh vậy thì việc nghiên cứu để phòng tránh kháng kháng sinh là rất cấp thiết, mang tính thời sự cao
Trang 2424
1.2 KHÁI NIỆM CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU
1.2.1 Định nghĩa về khai phá dữ liệu
Khai phá dữ liệu (KPDL) là một lĩnh vực đa ngành dựa trên kết quả từ trí thông minh nhân tạo, xác suất và thống kê, lý thuyết tính toán phức tạp, lý thuyết kiểm soát,
lý thuyết thông tin, triết học, tâm lý, thần kinh học và c c lĩnh vực khác KPDL cho phép ch ng trình “học tập” và tự động cải thiện năng lực từ kinh nghiệm tích lũy Ví
dụ nh trong đề tài này ch ng trình có thể dự đo n xem một mối quan hệ giữa chủng loại vi khuẩn và kháng sinh có phải là kháng hay không kháng Các thuật toán khai phá dữ liệu th ờng đ ợc chia thành hai loại tùy theo cách sử dụng chúng: Thuật toán học máy – có giám sát (phân lớp), và thuật toán học máy – không giám sát (phân cụm)
1.2.2 Học có giám sát
Học có gi m s t th ờng đ ợc thực hiện trong bối cảnh phân loại, khi chúng ta muốn ánh xạ đầu vào đến nhãn đầu ra, ho c hồi quy, khi chúng ta muốn ánh xạ đầu vào thành đầu ra liên tục Các thuật toán phổ biến trong học tập có giám sát bao gồm hồi quy logistic ayes ng y th m y vect hỗ trợ, mạng n -ron nhân tạo và rừng ngẫu nhiên Trong cả hồi quy và phân loại, mục tiêu là tìm ra các mối quan hệ ho c cấu trúc
cụ thể trong dữ liệu đầu vào cho phép chúng ta tạo ra dữ liệu đầu ra chính xác một cách hiệu quả L u ý rằng đầu ra "đúng" đ ợc x c định hoàn toàn từ dữ liệu huấn luyện, vì vậy m c dù chúng ta có sự thật c ản rằng mô hình của chúng ta sẽ giả định
là đúng nh ng không có nghĩa là nhãn dữ liệu luôn đúng trong c c tình huống thực tế Các dữ liệu có nhiễu ho c không chính xác rõ ràng sẽ làm giảm hiệu quả của mô hình của bạn
Khi tiến hành học có giám sát, những cân nhắc chính là độ phức tạp của mô hình và sự cân bằng giữa ph ng sai L u ý rằng cả hai điều này đều có liên quan với nhau độ phức tạp của mô hình chính là độ phức tạp của hàm mà ta đang cố gắng học -
t ng tự nh ậc của một đa thức Độ phức tạp t ng ứng của mô hình th ờng đ ợc
x c định bởi bản chất của dữ liệu đào tạo của bạn Nếu bạn có một l ợng nhỏ dữ liệu
ho c nếu dữ liệu của bạn không đ ợc trải đều trong c c tr ờng hợp có thể xảy ra khác nhau, bạn nên chọn mô hình có độ phức tạp thấp Điều này là do một mô hình có độ phức tạp cao sẽ không phù hợp nếu đ ợc sử dụng trên một số l ợng nhỏ c c điểm dữ liệu
Overfitting đề cập đến việc học một chức năng rất phù hợp với dữ liệu đào tạo
nh ng không tổng qu t hóa cho c c điểm dữ liệu khác - nói c ch kh c ta đang học một c ch nghiêm túc để tạo ra dữ liệu đào tạo của mình mà không tìm hiểu xu h ớng
ho c cấu trúc thực tế trong dữ liệu dẫn đến điều này đầu ra
Trang 25Biểu diễn theo mô hình toán học, giả thiết chúng ta có một dữ liệu đầu vào là tập 𝑋 = {𝑥1, 𝑥2 … 𝑥n }, đã iết kết quả phân lớp là 𝑌 = {𝑦1 , 𝑦2 … 𝑦n } Học có giám sát là từ tập dữ liệu đầu vào X, dùng huấn luyện tạo ra một hàm ánh xạ mỗi phần
tử từ tập X sang phần tử t ng ứng của tập Y:
𝑦i ≈ f(xi ), ∀𝑖 = 1 2 … 𝑛 (1.1) Hàm ánh xạ này đóng vai trò là một mô hình dùng trong tr ờng hợp có dữ liệu đầu vào mới qua mô hình sẽ tính đ ợc kết quả phân lớp t ng ứng với dữ liệu đầu vào Ví dụ trong đề tài này ta có tập dữ liệu đầu vào là các bộ gen – kh ng sinh đã g n nhãn kết quả đầu ra là có kháng ho c không kháng Sau khi thuật toán tạo ra một mô hình, tức là một hàm số mà đầu vào là một dữ liệu quan hệ gen – kháng sinh và đầu ra
là một nhãn kháng, ho c không kháng, khi nhận đ ợc một quan hệ tập gen – kháng sinh mới mà mô hình ch a nhìn thấy bao giờ, nó sẽ dự đo n đ ợc quan hệ đó là có kháng hay không kháng Bảng dữ liệu minh họa nh d ới đ y
Card Gens Gen1 Gen2 Gen3 Gen4 … Gen_m Label