Đề tài nghiên cứu và giải quyết các vấn đề sau: • Tìm hiểu các khái niệm lý thuyết về y văn và cơ chế gây nên tác dụng phụ của thuốc • Tìm hiểu về mạng nơron dựa trên cơ chế tập trung • Cài đặt và thử nghiệm mô hình dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơron dựa trên cơ chế tập trung.
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
──────── * ───────
NGUYỄN THỊ QUYỀN
NGHIÊN CỨU DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC
TỪ Y VĂN SỬ DỤNG MẠNG NƠ-RON DỰA TRÊN CƠ CHẾ TẬP TRUNG
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
HÀ NỘI 06 – 2021
Trang 22
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
──────── * ───────
NGUYỄN THỊ QUYỀN
NGHIÊN CỨU DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC
TỪ Y VĂN SỬ DỤNG MẠNG NƠ-RON DỰA TRÊN CƠ CHẾ TẬP TRUNG
Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin
Mã số : 8480104.01
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Đặng Thanh Hải
HÀ NỘI 06 – 2021
Trang 33
LỜI CAM ĐOAN
Tác giả xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Dự đoán tác dụng phụ của thuốc từ y văn sử dụng mạng nơ ron dựa trên cơ chế tập trung”
là công trình nghiên cứu của riêng tác giả, không sao chép lại của người khác Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc là của chính cá nhân tác giả hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp
Tác giả xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan này
Hà Nội, ngày 30 tháng 06 năm 2021
Nguyễn Thị Quyền
Trang 44
LỜI CẢM ƠN
Trước tiên em xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, TS Đặng Thanh Hải – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho em những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành công việc của mình
Em xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp cho em những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho em trong suốt quá trình học tập, nghiên cứu tại trường
Đồng thời em xin cảm ơn tất cả những người thân yêu trong gia đình cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên những khi vấp phải những khó khăn, bế tắc và giúp đỡ em hoàn thành luận văn này
Hà Nội, ngày 30 tháng 06 năm 2021
Nguyễn Thị Quyền
Trang 55
MỤC LỤC
LỜI CAM ĐOAN 3
LỜI CẢM ƠN 4
MỤC LỤC 5
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 7
DANH MỤC HÌNH VẼ 8
DANH MỤC BẢNG BIỂU 9
MỞ ĐẦU 10
CHƯƠNG 1: TỔNG QUAN VỀ TÁC DỤNG PHỤ CỦA THUỐC 12
1.1 Khái niệm 12
1.2 Hiện trạng 12
1.3 Hướng tiếp cận 13
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 16
2.1 Mạng nơ-ron nhân tạo 16
2.1.1 Mạng nơ-ron tích chập (CNN) 17
2.1.2 Mạng nơ-ron hồi quy (RNN) 19
2.1.3 Mạng bộ nhớ dài – ngắn LSTM 21
2.1.4 Mạng GRU 22
2.2 Word Embedding 24
2.3 Position Embedding 25
2.4 Kỹ thuật attention 25
CHƯƠNG 3: THỰC NGHIỆM DỰ ĐOÁN TÁC DỤNG PHỤ CỦA THUỐC TỪ Y VĂN SỬ DỤNG MẠNG NƠ-RON DỰA TRÊN CƠ CHẾ TẬP TRUNG 27
3.1 Mô tả bài toán 27
3.2 Mô tả dữ liệu và các bước thực hiện 30
3.3 Cấu hình phần cứng 38
3.4 Tham số cài đặt mô hình 38
3.5 Phương pháp đánh giá 38
3.6 Kết quả thử nghiệm 39
Trang 66
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42
Kết luận 42
Hướng phát triển tương lai 42
TÀI LIỆU THAM KHẢO 43
Trang 77
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
ADRs Drug side-effects/ adverse
Relations
Mối quan hệ giữa hóa chất
và bệnh CID Chemical-induced Disease Mối quan hệ của bệnh và
hóa chất gây ra.
DNN Deep neural networks
(DNNs)
Mạng nơ-ron sâu
FFNN Feed forward neural
network
Mạng nơ ron truyền thẳng
GloVe Global vector Mô hình vector toàn cục LSTM Long short term memory Mạng bộ nhớ dài ngắn NER Named entity recognition Nhận diện tên thực thể NLP Natural language
processing
Xử lý ngôn ngữ tự nhiên
RNN Recurrent neural network Mạng nơ ron hồi quy
Trang 88
DANH MỤC HÌNH VẼ
Hình 2.1: Mô hình kiến trúc mạng nơ-ron [12] 16
Hình 2.2: Cấu trúc điển hình của CNN giữa các lớp đầu vào và đầu ra [6] 18
Hình 2.3: Mô hình CNN cho trích xuất quan hệ [23] 19
Hình 2.4: Mô hình RNN tổng quát [2] 20
Hình 2.5: Minh họa khối bộ nhớ với một ô nhớ của LSTM [2] 22
Hình 2.6: Minh họa GRU 23
Hình 2.7: Cơ chế tập trung dựa trên mạng RNN cho trích xuất quan hệ [16] 26
Hình 3.1: Minh họa bài toán trích xuất mối quan hệ giữa thuốc và bệnh 28
Hình 3.2: Tổng quan kiến trúc chương trình 29
Hình 3.3: Cách tạo các thể hiện quan hệ từ các câu 29
Trang 99
DANH MỤC BẢNG BIỂU
Bảng 3.1: Thống kê tập dữ liệu 31
Bảng 3.2: Bảng cấu hình phần cứng 38
Bảng 3.3: Các tham số được sử dụng 38
Bảng 3.4: Kết quả trung bình các thực nghiệm 40
Bảng 3.5: Thống kê kết quả thực hiện luận văn với một số thuật toán khác 40
Trang 1010
MỞ ĐẦU
Trong y học, một tác dụng phụ là một tác dụng mà cho dù là hữu ích hay là bất lợi thì đều là thứ yếu so với dự định (ngoài ý muốn khi sử dụng thuốc) Phát triển thuốc là một quá trình phức tạp và khó để tạo ra một loại thuốc nhằm vào một bộ phận của cơ thể nhưng lại không ảnh hưởng đến các bộ phận khác Tác dụng phụ bất lợi của thuốc là một vấn đề nghiêm trọng cấp bách về sức khỏe của con người cũng là trở ngại cho sự phát triển các loại thuốc có hiệu quả điều trị Mặc dù có nhiều nỗ lực liên tục để xác định tác dụng phụ của thuốc trước đó, nhưng đây vẫn là một nhiệm vụ đầy thách thức Hầu hết các tác dụng của thuốc đều được phát hiện nhờ sử dụng nguồn dữ liệu từ các báo cáo tự phát trong giai đoạn trước và sau bán hàng Đây là một hạn chế rất lớn Các công ty dược phẩm mặc dù họ có khả năng xác định và giải quyết các tác dụng phổ biến nhưng nhìn chung không khả thi để xác định hoặc dự đoán các tác dụng phụ nghiêm trọng hiếm gặp Sự bùng nổ của tài liệu y sinh đã tạo nên một nguồn tri thức phong phú giúp con người khai thác được nhiều thông tin hữu ích chẳng hạn như dự đoán mối quan hệ trong y sinh bao gồm việc dự đoán tác dụng phụ của thuốc từ y văn Nhờ đó khắc phục được rất nhiều hạn chế trong quá trình tìm ra tác dụng phụ của thuốc như trên
Các nghiên cứu truyền thống sử dụng dữ liệu từ y văn chủ yếu sử dụng các phương pháp học máy như support vector machine (SVM) đã hoạt động tương đối tốt trong thập kỷ qua Tuy nhiên không tránh khỏi một số lỗi không mong muốn đặc biệt khi phải xử lý các câu dài và khả năng khái quát hóa từ vựng hạn chế cho những từ chưa được nhìn thấy Ngược lại, các phương pháp dựa trên mạng nơ-ron (NN) là các phương pháp học biểu diễn tự động với nhiều cấp độ biểu diễn, có được bằng cách kết hợp các mô-đun đơn giản nhưng phi tuyến tính Gần đây, các phương pháp tiếp cận học sâu (Deep learning) đã được nghiên cứu rộng rãi và đạt được hiệu suất tiên tiến trong các nhiệm vụ NLP khác nhau như nhận diện thực thể (NER) và trích xuất quan hệ (Relation extraction) Trong các bài toán về trích xuất quan hệ y sinh, các từ “trigger word” là những từ xuất hiện trong ngữ cảnh trực tiếp chỉ ra sự tồn tại của các quan hệ ngữ nghĩa, được sử dụng rộng rãi như là các đặc điểm đầu vào của các phương pháp khai thác văn bản khác nhau Cơ chế tập trung được đề xuất từ trực giác của sự chú ý trực quan của con người để nhấn mạnh phần tương đối quan trọng của dữ liệu đầu vào và đã được chứng minh là cải thiện hiệu suất mô hình và nâng cao khả năng diễn giải mô hình thông qua việc kết hợp thông tin chú ý vào học sâu
Trang 1111
Trong phạm vi khóa luận sẽ trình bày về mô hình mạng nơ-ron dựa trên cơ
chế tập trung (attention-based neural networks) áp dụng vào việc dự đoán tác dụng
phụ của thuốc sử dụng dữ liệu từ y văn Kết quả thử nghiệm của khóa luận chỉ ra
rằng mô hình ATT-RNN, ATT-GRU, ATT-LSTM hoạt động tốt hơn mô hình
CNN khi không sử dụng các kỹ thuật attention và ATT-GRU đạt được điểm F1
trung bình tốt nhất là 0,6037 trên bộ thử nghiệm trong số các DNN được thử
nghiệm Quan sát kết quả cũng cho thấy cơ chế tập trung áp dụng hiệu quả hơn
khi kết hợp với GRU và LSTM hơn so với khi áp dụng với RNN truyền thống
Luận văn có bố cục gồm 3 chương chính:
Chương 1: Tổng quan về tác dụng phụ của thuốc
Chương này giới thiệu tổng quan về tác dụng phụ của thuốc và hướng tiếp
cận sử dụng phương pháp học máy
Chương 2: Cơ sở lý thuyết
Chương này đi sâu tìm hiểu về mô hình mạng nơ ron nhân tạo và mô hình
mạng nơ-ron dựa trên cơ chế tập trung sẽ áp dụng trong khóa luận
Chương 3: Thực nghiệm Dự đoán tác dụng phụ của thuốc từ y văn sử dụng
mạng nơ ron dựa trên cơ chế tập trung
Chương này sẽ trình bày việc áp dụng mô hình mạng nơ-ron dựa trên cơ
chế tập trung áp dụng trong bài toán dự đoán tác dụng phụ của thuốc và các kết
quả thực nghiệm
Cuối cùng là một số kết luận và hướng phát triển trong tương lai
Trang 12- Phản ứng có hại của thuốc (Adverse Drug Reaction - ADR) là phản ứng không mong muốn hoặc có hại xảy ra sau khi sử dụng thuốc hoặc kết hợp thuốc trong điều kiện sử dụng bình thường và được nghi ngờ có liên quan đến thuốc ADR thường sẽ yêu cầu ngừng thuốc hoặc giảm liều
- Tác dụng phụ (side-effect) là bất kỳ tác dụng nào gây ra bởi một loại thuốc khác với tác dụng điều trị dự kiến, cho dù có lợi, trung tính hay có hại
Kể từ năm 2012, định nghĩa về ADR đã bao gồm các phản ứng xảy ra do lỗi, sử dụng sai hoặc lạm dụng và các phản ứng nghi ngờ đối với các loại thuốc không có giấy phép hoặc được sử dụng ngoài nhãn ngoài việc sử dụng thuốc được phép với liều lượng bình thường [8]
Thông thường, ADR được phân thành hai loại [8]:
- Phản ứng loại A - đôi khi được gọi là phản ứng tăng cường - 'phụ thuộc vào liều lượng' và có thể dự đoán được dựa trên dược lý của thuốc
- Phản ứng loại B - phản ứng kỳ lạ - mang tính đặc trưng và không thể dự đoán được trên cơ sở dược lý học
hệ thống báo cáo tự phát thụ động, chẳng hạn như Hệ thống báo cáo sự kiện có hại của Cơ quan Quản lý Dược phẩm Liên bang (FAERS) của Mỹ [13], các hệ thống báo cáo tự phát như Chương trình Thẻ Vàng (Yellow Card Scheme) ở Anh được vận hành bởi Cơ quan Quản lý Thuốc và Sản phẩm Chăm sóc sức khỏe (MHRA) và Ủy ban Thuốc cho Người (CHM) [8] Thông qua các báo cáo này, chương trình thu thập dữ liệu về các ADR nghi ngờ liên quan đến tất cả các loại
Trang 1313
thuốc và vắc xin được cấp phép và không được cấp phép, bao gồm cả những loại thuốc được cấp theo đơn hoặc mua không cần kê đơn Để một báo cáo có hiệu lực, chỉ cần có bốn mục thông tin: bệnh nhân, phản ứng, sản phẩm thuốc bị nghi ngờ và người báo cáo Tuy nhiên, các báo cáo viên được khuyến khích cung cấp càng nhiều thông tin càng tốt, tức là cung cấp thêm dữ liệu và bối cảnh lâm sàng cho người đánh giá Hệ thống như vậy có thể chậm và không hiệu quả Nghiên cứu cho thấy 94% ADR được báo cáo thiếu ở các hệ thống chính thức [20] Các loại thuốc đặc biệt liên quan đến ADR bao gồm thuốc chống kết tập tiểu cầu, thuốc chống đông máu, thuốc độc tế bào, thuốc ức chế miễn dịch, thuốc lợi tiểu, thuốc chống đái tháo đường và thuốc kháng sinh ADRs gây tử vong thường là do xuất huyết, nguyên nhân phổ biến nhất được nghi ngờ là do thuốc chống đông máu được sử dụng đồng thời với thuốc chống viêm không steroid (NSAID) [8]
Dự đoán ADRs hiệu quả là điều cần thiết để cải thiện chăm sóc sức khỏe bệnh nhân và thúc đẩy quá trình phát triển thuốc Các kỹ thuật tính toán khác nhau đã được sử dụng trong thời gian gần đây để tìm hiểu cơ chế phản ứng của thuốc
Khi lĩnh vực tin sinh học đang phát triển nhanh chóng, người ta có thể thực hiện nhiều khám phá mới về thuốc mới Dự đoán tác dụng phụ của thuốc là một bước tiến quan trọng, nhiều thú vị Một số nghiên cứu gần đây [5], [21] tập trung vào ADR đề cập đến việc trích xuất trên văn bản y sinh Nghiên cứu của tác giả được thực hiện trên kho ngữ liệu văn bản y sinh PubMed
1.3 Hướng tiếp cận
Tóm lược tri thức (Abstract Knowledge) là một hình thức để hiểu thế giới, cung cấp nhận thức và trí thông minh ở cấp độ con người cho trí thông minh nhân tạo trong thế hệ tiếp theo Một trong những thể hiện của tri thức là quan hệ ngữ nghĩa giữa các thực thể Một cách hiệu quả để tự động thu nhận tri thức quan trọng này, được gọi là trích xuất quan hệ (Relation Extraction - RE), một nhiệm vụ của trích xuất thông tin, đóng một vai trò quan trọng trong Xử lý ngôn ngữ tự nhiên (NLP) Mục đích của nó là xác định các quan hệ ngữ nghĩa giữa các thực thể từ văn bản ngôn ngữ tự nhiên [7]
Luận văn này tập trung vào bài toán trích xuất quan hệ trong lĩnh vực y sinh với đầu vào là dữ liệu từ các văn bản y sinh, đầu ra cần xác định được liệu một cặp thực thể ứng viên trong một văn bản hoặc trong một câu có mối quan hệ ngữ nghĩa hay không?
Một số mô hình trích xuất quan hệ truyền thống sử dụng các phương pháp thống kê như máy vectơ hỗ trợ (Support Vector Machine - SVM) [1] và trường
Trang 1414
ngẫu nhiên có điều kiện (Conditional Random Field - CRF) [18] Với sự phát triển mạnh mẽ của công nghệ học sâu, các mô hình mạng nơ-ron đã đạt được hiệu suất hiện đại trên nhiều tác vụ gắn nhãn theo trình tự như nhận dạng tên thực thể (NER) [17] và gắn thẻ từ loại (Part-Of-Speech - POS) [3] Các mô hình học sâu hiện tại thường sử dụng word embeddings, cho phép chúng học các cách biểu diễn tương
tự cho các từ tương tự về mặt ngữ nghĩa Mặc dù đây là một cải tiến lớn so với các mô hình truyền thống, nhưng vẫn còn một số lỗi cần được giải quyết Vấn đề khó khăn nhất là làm thế nào để đối phó với các từ “không nằm trong tập từ vựng
có sẵn” (Out-Of-Vocabulary - OOV) Trong các văn bản y sinh như các tóm tắt Pubmeds, cách viết không chính thức hoặc mô tả kỹ thuật quá mức có thể khiến một số lượng lớn các từ OOV xuất hiện Bởi vì những từ này không có từ tương ứng, chúng sẽ được khởi tạo ngẫu nhiên cho một số giá trị cụ thể Điều này sẽ gây
ra nhiều phân loại sai của các từ OOV đó trong tập dữ liệu
Luận văn này đã tận dụng lợi thế của việc biểu diễn cấp độ từ và ký tự của một token, do đó các từ OOV đó có thể được gắn nhãn tốt hơn do bổ sung các biểu diễn ký tự chi tiết Ngoài ra, luận văn cũng áp dụng cơ chế tập trung cho phép
mô hình tự động và linh hoạt để học đặc trưng nào quan trọng hơn Luận văn cũng
sử dụng đầu ra trung gian của mô hình như một bộ phân loại phụ trợ để cải thiện hiệu suất dự đoán của mô hình Để xác thực tính hiệu quả của mô hình, luận văn thực hiện thử nghiệm trên tập dữ liệu của PubMed Cơ chế tập trung [28], được
đề xuất từ trực giác về sự chú ý trực quan của con người để nhấn mạnh phần tương đối quan trọng của dữ liệu đầu vào, đã được chứng minh là cải thiện hiệu suất mô hình và tăng cường khả năng diễn giải mô hình thông qua việc kết hợp thông tin tâp trung vào việc học sâu [16] Ở đây, luận văn trình bày cách tiếp cận bằng cách
sử dụng các mạng nơ ron dựa trên cơ chế tập trung (ATT-) và chứng minh sức mạnh của các mô hình ATT về hiệu suất bằng cách so sánh với các phương pháp học sâu khác và khả năng hiểu của chúng bằng cách phân tích trọng số tập trung
ở cấp độ từ
Nhìn chung, mạng nơ ron sâu (DNN) đã được sử dụng rộng rãi trong các nhiệm vụ dự đoán, gán nhãn, trích xuất quan hệ với nhiều mô hình khác nhau Ví dụ: Đề xuất mạng nơ-ron tích chập (CNN) sử dụng position embedding để trích xuất quan hệ [32], sử dụng mô hình bộ nhớ dài - ngắn (LSTM) cùng tính phụ thuộc và position embedding [29] đã cho thấy chiến lược học tập vượt trội hơn đáng kể so với các phương pháp mạng nơ-ron hồi quy (RNN) sử dụng các tính năng mở rộng bao gồm POS, NER và WordNet
Trang 1515
Trong lĩnh vực y sinh, các nhiệm vụ trích xuất quan hệ khác nhau như tương tác protein- protein, tương tác thuốc - thuốc và tương tác bệnh - hóa học đã được nghiên cứu Các phương pháp dựa trên học máy khác nhau bao gồm các phương pháp học máy có giám sát, phân cụm mẫu và mô hình khai phá chủ đề đã được sử dụng trước khi các mô hình học sâu trở nên chiếm ưu thế trong những tiến bộ gần đây Bên cạnh các mô hình DNN thông thường, sự phụ thuộc và thông tin cấp độ
ký tự đã được sử dụng để cải thiện, nâng cao hiệu quả của các mô hình Gần đây,
cơ chế tập trung trên các mô hình DNN đã cho thấy sự hứa hẹn trong các nhiệm
vụ NLP khác nhau, chẳng hạn như dịch máy [16], trả lời câu hỏi [26], phân loại tài liệu [30] cũng như trích xuất quan hệ
Luận văn này trình bày nghiên cứu mạng nơ ron với cơ chế tập trung cho nhiệm vụ trích xuất tác dụng phụ của thuốc và chứng minh tính hiệu quả của cơ chế tập trung trong việc lựa chọn thông tin mức độ quan trọng
Trang 16Mạng nơ ron nhân tạo (ANN) bao gồm một lớp nút, chứa một lớp đầu vào (Input layer), một hoặc nhiều lớp ẩn (Hidden layer) và một lớp đầu ra (Output layer) Mỗi nút, hoặc mỗi nơron nhân tạo, kết nối với một nút khác và có trọng số
và ngưỡng liên quan Những trọng số này có được bằng cách học hỏi hoặc điều chỉnh từ một tập hợp các mẫu đào tạo [12] Nếu đầu ra của bất kỳ nút riêng lẻ nào vượt quá giá trị ngưỡng được chỉ định, nút đó sẽ được kích hoạt, gửi dữ liệu đến lớp tiếp theo của mạng Nếu không, không có dữ liệu nào được chuyển đến lớp tiếp theo của mạng Từ “ẩn” có nghĩa là chúng ta có thể quan sát đầu vào và đầu
ra trong khi cấu trúc kết nối chúng vẫn bị ẩn Kiến trúc của mạng nơ ron nhân tạo được minh họa như Hình 2.1: Mô hình kiến trúc mạng nơ-ron [12] Trong đó:
- x1…xn là các đầu vào của nơ-ron
- W0…Wn là các trọng số
Hình 2.1: Mô hình kiến trúc mạng nơ-ron [12]
Mạng nơ-ron dựa trên dữ liệu đào tạo để tìm hiểu và cải thiện độ chính xác của chúng theo thời gian
Hầu hết các mạng nơ-ron sâu đều truyền thẳng, có nghĩa là chúng chỉ chạy theo một hướng, từ đầu vào đến đầu ra Tuy nhiên, chúng ta cũng có thể đào tạo
Trang 1717
mô hình của mình thông qua lan truyền ngược (backpropagation); nghĩa là di chuyển theo hướng ngược lại từ đầu ra đến đầu vào Backpropagation cho phép chúng ta tính toán và quy lỗi liên quan đến mỗi nơ-ron, cho phép chúng ta điều chỉnh các tham số của các mô hình một cách thích hợp
Mạng nơron có thể được phân thành nhiều loại khác nhau, được sử dụng cho các mục đích khác nhau Mặc dù đây không phải là danh sách đầy đủ các loại, nhưng bên dưới sẽ đại diện cho các loại mạng nơ-ron phổ biến nhất mà chúng ta
sẽ gặp trong các trường hợp sử dụng phổ biến:
Perceptron là mạng nơ-ron lâu đời nhất, được tạo ra bởi Frank Rosenblatt vào năm 1958 [14] Nó là dạng đơn giản nhất của mạng nơ-ron, có thể có nhiều đầu vào và duy nhất một đầu ra
Các mạng nơ-ron truyền thẳng hoặc các perceptron nhiều lớp (MLP): Bao gồm một lớp đầu vào, một hoặc nhiều lớp ẩn và một lớp đầu ra Dữ liệu thường được đưa vào các mô hình này để đào tạo chúng và chúng là nền tảng cho thị giác máy tính, xử lý ngôn ngữ tự nhiên và các mạng nơ-ron khác
Mạng nơ-ron tích chập (CNN) tương tự như mạng truyền thẳng, nhưng chúng thường được sử dụng để nhận dạng hình ảnh, nhận dạng mẫu và thị giác máy tính Các mạng này khai thác các nguyên tắc từ đại số tuyến tính, đặc biệt là phép nhân ma trận, để xác định các mẫu trong một hình ảnh Mạng nơ-ron hồi quy (RNN) được xác định bởi các vòng lặp phản hồi của chúng Các thuật toán học tập này chủ yếu được tận dụng khi sử dụng dữ liệu chuỗi thời gian để đưa ra
dự đoán về kết quả trong tương lai, chẳng hạn như dự đoán thị trường chứng khoán hoặc dự báo bán hàng
2.1.1 Mạng nơ-ron tích chập (CNN)
Giống như các mạng nơ-ron khác, CNN bao gồm một lớp đầu vào, một lớp đầu ra và nhiều lớp ẩn ở giữa Các lớp ẩn thực hiện các thao tác làm thay đổi dữ liệu với mục đích học các đặc trưng cụ thể của dữ liệu Ba trong số các lớp phổ biến nhất là: lớp tích chập (convolution), lớp kích hoạt (activation) hoặc lớp kích hoạt phi tuyến ReLU (Rectified Linear Unit) và lớp tổng hợp (pooling) ngoài ra còn có lớp kết nối đầy đủ (fully-connected) Mô hình CNN bao gồm một tập hợp hữu hạn các lớp xử lý có thể học các dữ liệu đầu vào có các đặc trưng khác nhau (ví dụ: hình ảnh) với nhiều cấp độ trừu tượng Các lớp bắt đầu học và phân tích các đặc trưng cấp cao (với độ trừu tượng thấp hơn), và các lớp sâu hơn học và cắt
Trang 18để trích xuất các đặc điểm có ý nghĩa
Lớp lấy mẫu (Pooling Layer): Các lớp lấy mẫu được sử dụng để lấy mẫu phụ bản đồ các đặc trưng (được tạo ra sau các hoạt động tích chập), tức là nó lấy bản đồ đặc trưng có kích thước lớn hơn và thu nhỏ chúng thành bản đồ đặc trưng
có kích thước thấp hơn (hoặc thông tin) trong mỗi bước lấy mẫu Hoạt động lấy mẫu được thực hiện bằng cách xác định kích thước vùng được lấy mẫu và bước của hoạt động, tương tự như hoạt động tích chập Có nhiều loại kỹ thuật lấy mẫu khác nhau được sử dụng trong các lớp lấy mẫu khác nhau như lấy mẫu tối đa, lấy mẫu tối thiểu, lấy mẫu trung bình, v.v Hạn chế chính của lớp lấy mẫu là nó đôi khi làm giảm hiệu suất tổng thể của CNN Lý do đằng sau điều này là lớp lấy mấu giúp CNN tìm xem một đặc trưng cụ thể có xuất hiện trong hình ảnh đầu vào đã cho hay không mà không cần quan tâm đến vị trí chính xác của đặc trưng đó
Lớp kết nối đầy đủ (Fully Connected (FC) Layer): Thông thường, lớp cuối cùng của mọi kiến trúc CNN (được sử dụng để phân lớp) bao gồm các lớp được kết nối chặt chẽ với nhau, trong đó mỗi nơ-ron bên trong một lớp được kết nối với mỗi nơ-ron từ lớp trước đó Lớp cuối cùng của các lớp FC được sử dụng làm lớp đầu ra (bộ phân lớp) của kiến trúc CNN Các lớp FC là loại mạng nơ-ron nhân tạo chuyển tiếp (feed-forward artificial neural network) và nó tuân theo nguyên tắc của mạng nơ-ron perceptron nhiều lớp truyền thống (MLP) Đầu vào lớp FC từ lớp lấy mẫu hoặc lớp tích chập cuối cùng, ở dạng một tập hợp các chỉ số (bản đồ
Hình 2.2: Cấu trúc điển hình của CNN giữa các lớp đầu vào và đầu ra [6].
Trang 1919
đặc trưng) và các chỉ số đó được làm phẳng để tạo ra một véc tơ và véc tơ này sau
đó được đưa vào lớp FC để tạo ra đầu ra cuối cùng của CNN
Để chứng minh tính hiệu quả của mô hình ATT do luận văn đề xuất, trước tiên tác giả đã phát triển một mô hình trích xuất quan hệ sử dụng CNN làm đường
cơ sở, đây là một trong những mô hình DNN được sử dụng rộng rãi nhất Mô hình CNN để trích xuất quan hệ được xây dựng theo Zeng và các cộng sự [32] Kiến trúc mô hình được thể hiện trong Hình 2.3: Mô hình CNN cho trích xuất quan hệ [23] Lớp tích chập có thể nắm bắt thông tin ngữ cảnh của các bộ lọc có độ dài bộ lọc được xác định trước Các bộ lọc tích chập được mong đợi sẽ tạo ra các đặc trưng cục bộ cấp cao từ các biểu diễn vectơ đầu vào Đầu ra của lớp tích chập sau
đó được chuyển tiếp đến lớp Global Max-pooling, nơi các giá trị lớn nhất của mỗi đầu ra bộ lọc được tổng hợp và nối để phân loại quan hệ
Hình 2.3: Mô hình CNN cho trích xuất quan hệ [23]
2.1.2 Mạng nơ-ron hồi quy (RNN)
Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) là một loại mạng
nơ-ron nhân tạo sử dụng dữ liệu tuần tự hoặc dữ liệu chuỗi thời gian (Time-series
Data) Các thuật toán học sâu này thường được sử dụng cho các vấn đề thứ tự
hoặc thời gian, chẳng hạn như dịch máy, xử lý ngôn ngữ tự nhiên (NLP), nhận dạng giọng nói và chú thích hình ảnh; chúng được tích hợp vào các ứng dụng phổ
Trang 2020
biến như tìm kiếm bằng giọng nói và Google Dịch Giống như mạng nơ-ron truyền thẳng và tích chập (CNN), mạng nơ-ron hồi quy sử dụng dữ liệu huấn luyện để học Hình 2.4: Minh họa mô hình mạng nơ-ron hồi quy [2] Chúng khác mạng nơ-ron khác bởi “bộ nhớ” khi chúng lấy thông tin từ các đầu vào trước đó để tác động đến đầu vào và đầu ra hiện tại Trong khi các mạng nơron sâu truyền thống giả định rằng đầu vào và đầu ra là độc lập với nhau, đầu ra của mạng nơron hồi quy phụ thuộc vào các phần tử trước đó trong chuỗi Một đặc điểm khác của mạng hồi quy là chúng chia sẻ các tham số trên mỗi lớp của mạng Trong khi các mạng truyền thẳng có trọng số khác nhau trên mỗi nút, các mạng nơ-ron hồi quy chia sẻ cùng một trọng số trong mỗi lớp của mạng Điều đó nói rằng, các trọng số này vẫn được điều chỉnh thông qua các quá trình nhân lan truyền ngược (backpropagation) và giảm độ dốc (gradient descent) để tạo điều kiện cho việc học củng cố Mạng thần kinh hồi quy tận dụng thuật toán lan truyền ngược qua thời gian (Backpropagation through time - BPTT) để xác định độ dốc, hơi khác
so với lan truyền ngược truyền thống vì nó dành riêng cho dữ liệu chuỗi Các nguyên tắc của BPTT cũng giống như lan truyền ngược truyền thống, trong đó
mô hình tự đào tạo bằng cách tính toán các lỗi từ lớp đầu ra đến lớp đầu vào của
nó Các tính toán này cho phép chúng ta điều chỉnh và lắp các thông số của mô hình một cách hợp lý BPTT khác với cách tiếp cận truyền thống ở chỗ BPTT tính tổng các lỗi tại mỗi bước thời gian trong khi các mạng chuyển tiếp cấp dữ liệu không cần tính tổng các lỗi vì chúng không chia sẻ các tham số trên mỗi lớp
Hình 2.4: Mô hình RNN tổng quát [2]
Trang 2121
Các loại mạng nơ-ron hồi quy: Đối với RNN đầu vào và đầu ra của chúng
có thể khác nhau về độ dài và các loại RNN khác nhau được sử dụng cho các trường hợp sử dụng khác nhau, chẳng hạn như tạo nhạc, phân loại ý kiến và dịch
máy Có các loại RNN như sau: One to one, One to many, Many to one, Many
to many;
Các hàm kích hoạt được sử dụng phổ biến nhất gồm: Sigmoid, Tanh, Relu
Một số kiến trúc biến thể của RNN như LSTM, GRU sẽ được trình bày cụ thể bên dưới
2.1.3 Mạng bộ nhớ dài – ngắn LSTM
Đây là một kiến trúc RNN phổ biến, được giới thiệu bởi Sepp Hochreiter
và Juergen Schmidhuber [22] như một giải pháp để làm biến mất vấn đề gradient,
và sau đó đã được cải tiến và phổ biến bởi rất nhiều người trong ngành Chúng hoạt động cực kì hiệu quả trên nhiều bài toán khác nhau nên dần đã trở nên phổ biến như hiện nay Trong bài báo của họ, họ nghiên cứu để giải quyết vấn đề phụ thuộc xa (long-term dependency) Có nghĩa là, nếu trạng thái trước đó đang ảnh hưởng đến dự đoán hiện tại không phải là trong quá khứ gần đây, thì mô hình RNN có thể không thể dự đoán chính xác trạng thái hiện tại Ví dụ: giả sử muốn
dự đoán các từ in nghiêng sau đây, “Alice bị dị ứng với các loại hạt Cô ấy không
thể ăn bơ đậu phộng." Bối cảnh của dị ứng hạt có thể giúp chúng ta biết trước
rằng thực phẩm không thể ăn được có chứa các loại hạt Tuy nhiên, nếu bối cảnh
đó là một vài câu trước đó, thì RNN sẽ khó hoặc thậm chí không thể kết nối thông tin Để khắc phục điều này, các LSTM có "ô" trong các lớp ẩn của mạng nơ-ron,
có ba cổng - một cổng đầu vào (Input gate), một cổng đầu ra (Output gate) và một cổng quên (Forget gate) Các cổng này kiểm soát luồng thông tin cần thiết để dự đoán đầu ra trong mạng Ví dụ: nếu đại từ giới tính, chẳng hạn như “she”, được lặp lại nhiều lần trong các câu trước, chúng ta có thể loại trừ đại từ đó khỏi ô trạng thái Kiến trúc LSTM [2] bao gồm một tập hợp các mạng con được kết nối lặp lại, được gọi là các khối bộ nhớ Các khối này có thể được coi là một phiên bản có thể phân biệt được của các chip nhớ trong máy tính kỹ thuật số Mỗi khối chứa một hoặc nhiều ô nhớ tự kết nối và ba cổng trên cung cấp các thao tác ghi, đọc và đặt lại tương tự liên tục cho các ô
Trang 22Ba cổng thu thập các kích hoạt từ bên trong và bên ngoài khối để kiểm soát, điều khiển ô nhớ Các chức năng kích hoạt đầu vào và đầu ra của ô (g và h) được áp dụng ở những vị trí được chỉ định
2.1.4 Mạng GRU
GRU (Gated recurrent units) là biến thể của RNN tương tự như LSTM vì
nó cũng hoạt động để giải quyết vấn đề bộ nhớ ngắn hạn của các mô hình RNN Thay vì sử dụng "ô trạng thái" đề điều chỉnh thông tin, nó sử dụng các trạng thái
ẩn và thay vì có ba cổng, nó có hai cổng: một cổng đặt lại (reset gate) và một cổng cập nhật (update gate) Tương tự như các cổng trong LSTM, các cổng đặt lại và cổng cập nhật kiểm soát số lượng và thông tin nào cần giữ lại Trong khi CNN có thể chụp được các mẫu cục bộ trong không gian tích chập dưới dạng cấu trúc lớn
Hình 2.5: Minh họa khối bộ nhớ với một ô nhớ của LSTM [2]
Trang 23Tác giả tuân theo công thức của GRU được sử dụng bởi Chung và các cộng sự [1] Một GRU có thể được minh họa như Hình 2.6: Minh họa GRU [1] Sử dụng
x t để biểu thị vectơ đầu vào, W để biểu thị ma trận biến đổi của các đầu vào, U để biểu thị ma trận biến đổi của các trạng thái ẩn và b là độ lệch, đầu ra của GRU h t
có thể được tính như sau:
z t = 𝛿(W z x t +U z h t-1 +b z ),
r t = 𝛿(W r x t +U r h t-1 +b r ),
ℎ̃𝑡=tanh(W h x t +U h (r t *h t-1 )+b h ) ,
h t= r t *h t-1 + (1-z t ) * ℎ̃𝑡,
trong đó 𝛿( ) biểu thị hàm sigmoid và * biểu thị phép nhân ma trận ‘Reset gate’
r t thể hiện mức độ ảnh hưởng của trạng thái hiện tại bởi lần kích hoạt trước đó ℎ̃𝑡 là "ứng cử viên trạng thái" ẩn của đầu ra ‘Update gate’ z t nhằm mục đích quyết định quy mô của thiết bị dựa trên lần kích hoạt trước đó và nó kiểm soát mức độ
ảnh hưởng của đầu ra h t bởi ℎ̃𝑡
Hình 2.6: Minh họa GRU
Trang 2424
2.2 Word Embedding
Word embedding là một kiểu biểu diễn từ cho phép các từ có nghĩa tương
tự có thể biểu diễn tương tự Đây là cách tiếp cận để biểu diễn các từ trong văn bản có thể được coi là một trong những bước đột phá quan trọng của học sâu trong các vấn đề xử lý ngôn ngữ tự nhiên đầy thách thức Word embedding thực chất là một lớp kỹ thuật trong đó các từ riêng lẻ được biểu diễn dưới dạng vectơ có giá trị thực trong không gian vectơ được xác định trước Mỗi từ được ánh xạ tới một vectơ và các giá trị vectơ được học theo cách tương tự như mạng nơ-ron, và do
đó kỹ thuật này thường được gộp chung vào lĩnh vực học sâu
Word embedding đã được sử dụng phổ biến trong các ứng dụng xử lý ngôn ngữ tự nhiên đặc biệt là trong văn bản y sinh học do khả năng biểu diễn vectơ có thể nắm bắt các thuộc tính ngữ nghĩa hữu ích và mối quan hệ ngôn ngữ giữa các
từ Word embedding thường được sử dụng làm các đặc trưng đầu vào cho các mô
hình học máy, cho phép các kỹ thuật học máy ngữ cảnh hóa dữ liệu văn bản thô Word embedding đã trở thành nền tảng thiết yếu cho các phương pháp tiếp cận dựa trên mạng nơ-ron trong NLP và học từ kho ngữ liệu lớn không được gắn nhãn
để nắm bắt ngữ nghĩa tiềm ẩn của từ [31]
GloVe (Global Vectors for Word Representation) là một phương pháp để tạo word embedding mà luận văn này sẽ sử dụng Nó dựa trên kỹ thuật phân tích nhân ma trận trên ma trận ngữ cảnh từ [9] Một ma trận lớn về thông tin đồng xuất hiện được xây dựng và đếm từng “từ” (các hàng) và tần suất chúng ta thấy từ này trong một số “ngữ cảnh” (các cột) trong một kho ngữ liệu lớn Thông thường, chúng ta quét kho ngữ liệu của mình theo cách sau: đối với mỗi thuật ngữ, chúng
ta tìm kiếm các thuật ngữ ngữ cảnh trong một số khu vực được xác định bởi window-size trước thuật ngữ và window-size sau thuật ngữ Ngoài ra, chúng ta cho trọng số thấp hơn cho những từ xa nghĩa hơn Tất nhiên, số lượng “ngữ cảnh”
là rất lớn, vì nó về cơ bản có kích thước tổ hợp Vì vậy, sau đó cần phân tích nhân
tử của ma trận này để tạo ra ma trận có chiều thấp hơn, trong đó mỗi hàng biểu diễn vectơ cho mỗi từ
Trong luận văn sử dụng mô hình 300 chiều được đào tạo trước Glove-6B (https://nlp.stanford.edu/projects/glove/) Các thí nghiệm sơ bộ cho thấy rằng mô hình 300 chiều Glove-6B hoạt động tốt hơn các mô hình nhúng từ đã đào tạo bằng túi từ liên tục (CBOW) từ PubMed [23] Nếu không tìm thấy từ nào từ mô hình nhúng từ, thì quá trình nhúng sẽ được tạo ngẫu nhiên và phần nhúng đã tạo sẽ được thêm vào mô hình
Trang 25Luận văn làm theo phương pháp của Zeng và các cộng sự [32] để tạo ra vị trí nhúng của các thực thể trong mỗi câu tường thuật Trong nghiên cứu này, tác giả sử dụng hai phương pháp: nhúng vị trí 50 chiều và nhúng từ 300 chiều, tạo ra vectơ đặc trưng 400 chiều cho mỗi từ
2.4 Kỹ thuật attention
Sự ra đời của kỹ thuật attention trong học sâu đã cải thiện sự thành công của nhiều mô hình khác nhau trong những năm gần đây và tiếp tục là một thành phần có mặt khắp nơi trong các mô hình hiện đại Do đó, điều quan trọng là chúng
ta phải chú ý đến “attention” và làm thế nào để nó đạt được hiệu quả Khi nghĩ
về từ tiếng Anh “Attention”, chúng ta biết rằng nó có nghĩa là hướng sự tập trung của mình vào một điều gì đó và chú ý nhiều hơn Cơ chế tập trung trong Học sâu dựa trên khái niệm hướng sự tập trung của mình và chú ý nhiều hơn đến các yếu
tố nhất định khi xử lý dữ liệu Nói một cách rộng rãi, “attention” là một thành phần của kiến trúc mạng và chịu trách nhiệm quản lý và định lượng sự phụ thuộc lẫn nhau
Trong luận văn này tác giả sử dụng kỹ thuật attention được đề xuất bởi Thang Luong và các cộng sự [16] áp dụng cho mô hình RNN và các biến thể LSTM, GRU Cơ chế tập trung được đề xuất để nhấn mạnh sự đóng góp của các đơn vị nơ-ron trong mô hình Thay vì trực tiếp nhận các kích hoạt hoặc kết quả đầu ra từ các đơn vị RNN liên tiếp, lớp attention (lớp tập trung) bổ sung sẽ bỏ qua tất cả các đơn vị RNN của chuỗi đầu vào và gán các trọng số khác nhau cho mỗi đơn vị theo mức độ quan trọng của chúng Trực giác để áp dụng mô hình ATT trong nhiệm vụ trích xuất quan hệ là cố gắng gán trọng số cao hơn cho các từ là chỉ số hoặc từ kích hoạt của các quan hệ ngữ nghĩa cụ thể Tác giả sử dụng các phương trình lấy từ Luong và các cộng sự [16] để tính toán trọng số attention cho mỗi từ trong câu ATT-RNN để trích xuất quan hệ được minh họa trong Hình 2.7:
Cơ chế tập trung dựa trên mạng RNN cho trích xuất quan hệ [16] Kích hoạt của
Trang 26trong đó Ww và bw là ma trận trọng số và độ lệch của lớp attention, tương
tự như ký hiệu của lớp GRU
Hình 2.7: Cơ chế tập trung dựa trên mạng RNN
cho trích xuất quan hệ [16]