1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Các mô hình học sâu tiên tiến và ứng dụng trong phân tích chuỗi thời gian lâm sàng​

84 47 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 1,24 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một trong những lý do chính cho điều này là tác động to lớn của việc áp dụng các kĩ thuật học sâu để sử dụng dữ liệu lớn trong các trường hợp phân tích hồ sơ chăm sóc sức khỏe phức tạp.L

Trang 1

HÀ NỘI - 2019

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Cán bộ hướng dẫn: PGS.TS Hà Quang Thuỵ

TS Trần Mai Vũ

HÀ NỘI - 2019

Trang 3

Trong thập kỉ qua, lượng dữ liệu được lưu trữ trong hồ sơ sức khỏe điện tử (Electronic Heath Records) tăng lên nhanh chóng, việc sử dụng các hệ thống EHR đã tăng lên rất nhiều

ở cả bệnh viện và cơ sở chăm sóc Các hệ thống EHR lưu trữ dữ liệu liên quan đến mỗi lần gặp bệnh nhân, bao gồm thông tin nhân khẩu học, chẩn đoán, xét nghiệm và kết quả trong phòng thí nghiệm, đơn thuốc, hình ảnh X quang, ghi chú lâm sàng Mặc dù được thiết kế chủ yếu để cải thiện hiệu quả chăm sóc sức khỏe từ quan điểm vận hành, nhiều nghiên cứu

đã tìm thấy việc sử dụng cho các ứng dụng tin học lâm sàng.

Trong những năm gần đây, cộng đồng nghiên cứu về chăm sóc sức khỏe ứng dụng các công nghệ trí tuệ nhân tạo ngày càng tăng để cung cấp các phương pháp phân tích dữ liệu lớn và hỗ trợ ra quyết định trong chẩn đoán lâm sàng Một trong những

lý do chính cho điều này là tác động to lớn của việc áp dụng các kĩ thuật học sâu để sử dụng dữ liệu lớn trong các trường hợp phân tích hồ sơ chăm sóc sức khỏe phức tạp.Luận văn sẽ xây dựng một mô hình học sâu áp dụng cơ chế Attention kếthợp với mạng BiLSTM dự đoán sự kiện lâm sàng cho 3 sự kiện mục tiêu đó làNhiễm trùng máu (SEPSIS), Nhồi máu cơ tim (MI), và nồng độ Vancomycintrong huyết thanh sau 24 giờ dùng thuốc Vancomycin

Đồng thời, luận văn trích xuất các đặc trưng tương ứng với 3 sự kiện mục tiêu từ

cơ sở dữ liệu MIMIC-III và xây dựng mô hình cơ sở sử dụng các mô hình độc lập: LSTM, Attention và BiLSTM để làm nổi bật tính hiệu quả của mô hình kết hợp đề xuất.

Từ khóa: Dự đoán sự kiện lâm sàng, EHR, MIMIC-III, Nhồi máu cơ tim, Nhiễm trùng huyết, Vancomycin, Học sâu trong y tế.

iii

Trang 4

Lời cảm ơn

Đầu tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới PGS.TS HàQuang Thuỵ, người thầy đã mang đến cho em nguồn cảm hứng vô tận trongnghiên cứu khoa học Em thật sự biết ơn những giúp đỡ, lời khuyên và sự tậntình hướng dẫn của thầy trong luận văn cũng như định hướng nghiên cứutrong suốt thời gian học tập và làm việc tại Phòng Thí nghiệm và Công nghệ trithức (DS&KT Lab - Đại học Công nghệ, Đại học quốc gia Hà Nội

Em muốn gửi lời cảm ơn sâu sắc đến TS Trần Mai Vũ, người đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em không chỉ trong quá trình thực hiện đề tài luận văn này mà còn trong suốt quãng thời gian học tập và nghiên cứu tại Phòng Thí nghiệm.

Em xin gửi lời cảm ơn sâu sắc tới quý thầy cô giáo trong Khoa Công nghệ thông tin nói riêng và trường Đại học Công nghệ - Đại học Quốc gia Hà Nội nói chung, đã truyền đạt kiến thức quý báu cho em trong những năm tháng ngồi trên ghế nhà trường.

Em xin gửi lời cảm ơn tới các thầy cô, anh chị và các bạn trong DS&KTLab,đặc biệt là chị Quỳnh, chị Hồng, chị Yến, Trang và Cát đã giúp đỡ em rất nhiềutrong việc hỗ trợ kiến thức chuyên môn để hoàn thành luận văn tốt nghiệp này.Cuối cùng, con xin nói lên lòng biết ơn vô hạn đối với gia đình, những ngườiluôn luôn chăm sóc, là nguồn động viên, khích lệ con, giúp con vượt qua nhữngkhó khăn trong cuộc sống Gửi tới chồng em, cảm ơn anh đã luôn bên cạnh emqua bao thăng trầm trong cuộc sống, luôn là điểm tựa vững chắc để em vượt quamọi khó khăn và cố gắng hoàn thiện bản thân mình từng ngày

Tôi xin chân thành cảm ơn!

iv

Trang 5

Tôi xin cam đoan rằng luận văn thạc sĩ hệ thống thông tin "Các mô hình học sâu tiên tiến

và ứng dụng trong phân tích chuỗi thời gian lâm sàng" là công trình nghiên cứu do tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thuỵ và TS.Trần Mai Vũ.

Tất cả những tài liệu tham khảo từ các nghiên cứu liên quan đều đượctrích dẫn nguồn gốc rõ ràng từ danh mục tài liệu tham khảo của luận văn.Trong luận văn này, không có việc sao chép tài liệu, các công trình nghiên cứucủa người khác mà không trích dẫn nguồn

Nếu phát hiện có bất kì sự gian lận nào, tôi xin hoàn toàn chịu tráchnhiệm trước hội đồng cũng như kết quả luận văn của mình

Học viên cao học

Nguyễn Thị Cẩm Vân

v

Trang 6

Mục lục

Tóm tắt iii

Lời cảm ơn iv

Lời cam đoan v

Mục lục vi

Danh mục thuật ngữ viết tắt và giải nghĩa ix

Danh sách hình vẽ x

Danh sách bảng xi

Mở đầu xii

1 Khái quát bài toán phân tích chuỗi thời gian lâm sàng 1

1.1 Giới thiệu về phân tích chuỗi thời gian lâm sàng 1

1.1.1 Giới thiệu về chuỗi thời gian 1

1.1.2 Giới thiệu về bài toán phân tích chuỗi thời gian lâm sàng 2

1.2 Các phương pháp phân tích chuỗi thời gian lâm sàng 3

1.2.1 Hệ thống chấm điểm trong ICU 3

1.2.2 Điểm chuẩn của các mô hình học sâu trên bộ dữ liệu chăm sóc sức khỏe lớn MIMIC-III 4

1.3 Khó khăn và thách thức trong phân tích chuỗi thời gian lâm sàng 10

1.4 Giới thiệu về ba mục tiêu dự báo: Nhiễm trùng huyết, Nhồi máu cơ tim, và nồng độ Vancomycin 11

1.4.1 Nhiễm trùng huyết 11

1.4.2 Nhồi máu cơ tim 12

1.4.3 Vancomycin 12

1.5 Phát biểu bài toán của luận văn 12

vi

Trang 7

2.3 Học với mạng nơ-ron 17

2.3.1 Hàm lỗi và cực tiểu hóa Gradient Descent 17

2.3.2 Lan truyền ngược 17

2.3.3 Hàm kích hoạt 18

2.4 Bộ nhớ dài ngắn hạn 18

2.4.1 Mạng nơ-ron hồi quy 18

2.4.2 Mạng bộ nhớ dài ngắn hạn 20

2.4.3 Bộ nhớ dài ngắn hạn hai chiều 21

2.5 Cơ chế chú ý 22

2.6 Cơ chế che dấu 23

3 Mô hình dự đoán sự kiện lâm sàng sử dụng cơ chế Attention kết hợp kĩ thuật BiLSTM 26

3.1 Mô hình đề xuất 26

3.1.1 Dữ liệu đầu vào của mô hình 26

3.1.2 Áp dụng cơ chế che dấu 27

3.1.3 Áp dụng cơ chế chú ý 28

3.1.4 Các lớp BiLSTM 28

3.2 Phương pháp đánh giá 29

3.2.1 Ma trận nhầm lẫn 29

3.2.2 Đường cong AUC-ROC 30

4 Thực nghiệm và kết quả 32 4.1 Môi trường thực nghiệm và cài đặt cấu hình 32

4.1.1 Thư viện xây dựng mô hình 32

4.1.2 Môi trường thực nghiệm 33

4.1.3 Cài đặt tham số mô hình 33

4.2 Dữ liệu và phương pháp đánh giá 33

4.2.1 Dữ liệu 33

4.2.2 Xây dựng dữ liệu 37

4.3 Kết quả thực nghiệm 38

4.3.1 Kết quả thực nghiệm 1: Dự đoán trong ngày 38

4.3.2 Kết quả thực nghiệm 2: Dự đoán ngày hôm sau 39

vii

Trang 8

4.3.3 Kết quả thực nghiệm 3: Đánh giá dựa trên mức độ sẵn có của dữ

liệu 40

4.3.4 Nghiên cứu mức độ ảnh hưởng của các đặc trưng lên từng sự kiện mục tiêu 45

4.3.5 Định hướng nghiên cứu tương lai 45

Kết luận 48

Danh sách bài báo 49

Tài liệu tham khảo 50

Phụ lục 53

viii

Trang 9

và giải nghĩa

Attention Mechanism

AUC

Bi-directional Long

Short-term Memory (BiLSTM)

Electronic Heath Record (EHR)

Intensive Care Unit (ICU)

Long short-term memory (LSTM)

Medical Information Mart for

Intensive Care III (MIMIC-III)

Myocardial Infarction (MI)

Natural Language Processing (NLP)

Reccurent Neural Network (RNN)

Receiver Operating Characteristic (ROC) Curve

Cơ chế chú ý

Diện tích phía dưới đường cong

Bộ nhớ dài ngắn hạn hai chiều

Bản ghi sức khỏe điện tửĐơn vị chăm sóc chuyên sâu

Bộ nhớ dài ngắn hạn

Trung tâm thông tin y tế cho chăm sóc chuyên sâu III Nhồimáu cơ tim

Xử lý ngôn ngữ tự nhiên

Mạng nowrron hồi quyĐường cong đặc trưng hoạt động của bộ thu nhận

ix

Trang 10

Danh sách hình vẽ

1 Sự phổ biến của hồ sơ sức khỏe điện tử xii

1.1 Mô hình xây dựng MIMIC-III 5

2.1 Mạng nơ-ron nhân tạo 14

2.2 Cấu trúc mạng nơ-ron truyền thẳng 16

2.3 Các hàm kích hoạt khác nhau trong mạng nơ-ron nhân tạo 19

2.4 Mạng nơ-ron hồi quy 20

2.5 Kiến trúc của một đơn vị bộ nhớ dài ngắn hạn LSTM 21

2.6 Kiến trúc mở ra của BiLSTM với ba bước thời gian liên tiếp 22

2.7 Cơ chế che dấu cho chuỗi thời gian mất mát dữ liệu 24

3.1 Mô hình đề xuất 27

4.1 Các bước trích xuất dữ liệu từ MIMIC-III và tiền xử lý 34

4.2 SEPSIS ROC curves 43

4.3 MI ROC curves 43

4.4 Vancomycin ROC curves 43

4.5 SEPSIS Cross ROC curves 44

4.6 MI Cross ROC curves 44

4.7 Vancomycin Cross ROC curves 44

4.8 Mức độ ảnh hưởng của các đặc trưng lên từng sự kiện mục tiêu theo thứ tự từ trái qua phải bao gồm: SEPSIS, MI và VANCOMYCIN 45

4.9 Mức độ ảnh hưởng của các đặc trưng theo ngày lên từng sự kiện mục tiêu theo thứ tự từ trái qua phải bao gồm: SEPSIS, MI và VANCOMYCIN 46

x

Trang 11

1.1 Một số loại chuỗi thời gian 2

1.2 Mô tả các bảng của CSDL MIMIC-III 6

1.2 Mô tả các bảng của CSDL MIMIC-III 7

1.2 Mô tả các bảng của CSDL MIMIC-III 8

2.1 Một số hàm kích hoạt 18

3.1 Ma trận nhầm lẫn 29

4.1 Tham số mô hình 33

4.3 Kết quả dự báo trong ngày trên các mô hình cho 3 nhiệm vụ dự báo mục tiêu 38

4.4 Kết quả dự báo cho ngày tiếp theo trên các mô hình cho 3 nhiệm vụ dự báo mục tiêu 39

4.5 Kết quả dự đoán của các mô hình trên các nhiệm vụ mục tiêu theo ngày 39

4.6 Kết quả AUC của LSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo 41

4.7 Kết quả AUC của Attention+LSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo 41

4.8 Kết quả AUC của mô hình BiLSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo 42

4.9 Kết quả AUC của Attention+BiLSTM trên các mức độ dữ liệu khác nhau với đánh giá trong ngày và đánh giá cho 1 ngày tiếp theo 42

xi

Trang 12

Mở đầu

Chăm sóc sức khỏe là một trong những ứng dụng nổi bật của khai phá dữ liệu vàhọc máy, nó đã thu hút được sự quan tâm nghiên cứu của cộng đồng nghiên cứutrong thời gian gần đây Điều này có được phải kể đến việc áp dụng rộng rãi hồ

sơ sức khỏe điện tử (EHR – Electronic Heath Records) trong đời sống xã hội, tạo

ra một nguồn dữ liệu lâm sàng kĩ thuật số vô cùng phong phú, ví dụ: các đơn vịchăm sóc tăng cường (ICU – Intensive Care Unit), thường bao gồm các giá trị đabiến được quan sát theo chuỗi thời gian tương ứng với các phép đo cảm biến,kết quả xét nghiệm và các đánh giá chủ quan khác

Hình 1: Sự phổ biến của hồ sơ sức khỏe điện tử

Một thách thức phổ biến trong chăm sóc sức khỏe hiện nay là các bác sĩ có quyền truy cập vào một lượng lớn dữ liệu về bệnh nhân, nhưng có ít thời gian cũng như công

cụ hỗ trợ để đưa ra quyết định điều trị Hỗ trợ ra quyết định dự đoán về kết quả lâm sàng

xii

Trang 13

kiện trong tương lai Trong khi các mô hình dự đoán đã được phát triển để dự đoán nhu cầu, hầu hết các công việc hiện tại đã tập trung vào các mô hình dự đoán chuyên biệt dự đoán một tập hợp kết quả hạn chế Tuy nhiên, thực hành lâm sàng hàng ngày liên quan đến sự pha trộn không theo lịch trình và không đồng nhất của các kịch bản và cần các

mô hình dự đoán khác nhau trong hàng trăm đến hàng ngàn bản ghi Việc phát triển và triển khai các mô hình chuyên ngành từng cái một là không thực tế.

Cùng với sự phát triển của mạng nơ ron học sâu, nhiều mô hình được đềxuất cho bài toán phân tích dữ liệu lâm sàng [23, 28] Phương pháp cổ điển đểphân tích dữ liệu chăm sóc sức khỏe tập trung vào việc trích xuất các đặctrưng được xử lý bằng tay và xây dựng các mô hình dự đoán theo nhiệm vụ

cụ thể Các mô hình học máy thường đối mặt với thách thức là các yếu tố nhưnhu cầu phụ thuộc dài hạn, lấy mẫu không đều và các giá trị bị thiếu

Trong những năm gần đây, mạng nơ ron hồi quy RNN dựa trên bộ nhớ dài ngắn hạn LSTM đã trở thành giải pháp thực tế để xử lý dữ liệu chuỗi thời gian lâm sàng RNN được thiết kế để mô hình hóa dữ liệu có độ dài khác nhau và đã đạt được các kết quả tiên tiến trong mô hình hóa trình tự, chú thích hình ảnh và gần đây trong chẩn đoán lâm sàng Hơn nữa, các LSTM có hiệu quả trong việc khai thác các phụ thuộc tầm xa và xử

lý phi tuyến Các RNN thực hiện tính toán tại mỗi vị trí của chuỗi thời gian bằng cách tạo

ra một chuỗi các trạng thái ẩn dưới dạng hàm của trạng thái ẩn trước đó và đầu vào cho

vị trí hiện tại Bản chất tuần tự vốn có này làm cho việc song song hóa thách thức.

Mặc dù những nỗ lực để cải thiện hiệu quả tính toán mô hình tuần tự đã xuấthiện gần đây, một số hạn chế vẫn còn tồn tại Công trình gần đây của Vaswani vàcộng sự [29] lập luận rằng các cơ chế chú ý, mà không có bất kỳ sự tái phát, có thể

có hiệu quả trong các nhiệm vụ mô hình hóa theo trình tự Các cơ chế chú ý(Attention Mechanism) được sử dụng để mô hình hóa các phụ thuộc theo trình tự màkhông quan tâm đến khoảng cách thực tế của chúng trong chuỗi [1]

Do đó, luận văn quan tâm đến việc áp dụng các mô hình học sâu vào việc phântích dữ liệu lâm sàng, cụ thể là bài toán dự đoán sự kiện lâm sàng hỗ trợ cho việc raquyết định trong chẩn đoán lâm sàng sử dụng dữ liệu hồ sơ sức khỏe điện tử

xiii

Trang 14

Các đóng góp chính của luận văn

Luận văn sẽ xây dựng một mô hình học sâu áp dụng cơ chế chú ý kết hợp với bộ nhớ dài ngắn hạn hai chiều với mục đích dự đoán sự kiện lâmsàng cho 3 sự kiện mục tiêu đó là Nhiễm trùng máu (SEPSIS), Nhồi máu

cơ tim (MI), và nồng độ Vancomycin trong huyết thanh sau 24 giờ dùng thuốc Vancomycin hỗ trợ trong việc ra quyết định chẩn đoán lâm sàng

Đồng thời, luận văn trích xuất các đặc trưng tương ứng với 3 sự kiện mục tiêu

từ cơ sở dữ liệu MIMIC-III và xây dựng mô hình cơ sở sử dụng các mô hình độc lập: Mạng bộ nhớ dài ngắn hạn, Cơ chế chú ý và Mạng bộ nhớ dài ngắn hạn hai chiều để làm nổi bật tính hiệu quả của mô hình kết hợp đề xuất

Luận văn cũng nghiên cứu và đánh giá sự đóng góp của các đặc trưng đối với từng sự kiện mục tiêu nhằm tăng hiệu suất cho mô hình và cung cấp cái nhìn sâu sắc hữu ích về một số khía cạnh của phương pháp mà luận văn đề xuất trong các nghiên cứu tương lai

Ngoài phần Mở đầu và Kết luận, luận văn được cấu trúc bao gồm các Chương

sau:

Chương 1: Khái quát bài toán phân tích chuỗi thời gian lâm sàng: Trong

chương ngày, luận văn giới thiệu sơ lược về bài toán phân tích dữ liệu chuỗi thời gian lâm sàng nói chung và bài toán dự đoán sự kiện lâm sàng nói riêng Bên cạnh đó, luận văn giới thiệu về các phương pháp tiếp cận phổ biến trong phân tích và dự đoán chuỗi thời gian lâm sàng và các nghiên cứu liên quan.Luận văn đồng thời phân tích các khó khăn và thách thức của bài toán và phát biểu bài toán sẽ triển khai trong luận văn này.

Chương 2: Mô hình bộ nhớ dài ngắn hạn hai chiều BiLSTM: Trong

chương này, luận văn giới thiệu về mô hình BiLSTM Đồng thời, luận văn trình

bày các kiến thức nền tảng về trí tuệ nhân tạo, các mô hình học sâu cơ sởnhư mạng nơ-ron hồi quy, bộ nhờ dài ngắn hạn, cơ chế chú ý và các kĩthuật xử lý dữ liệu được sử dụng trong luận văn

Chương 3: Mô hình dự đoán sự kiện lâm sàng sử dụng cơ chế Attention kết hợp kĩ thuật BiLSTM: Trong chương này, luận văn đầu tiên

giới thiệu về các mô hình đề xuất của luận văn.

Chương 4: Thực nghiệm và kết quả: Luận văn trình bày chi tiết về môi trường

thực nghiệm, chi tiết các pha trong quá trình triển khai mô hình, các kịch bản thực nghiệm và tham số của mô hình Luận văn đồng thời trình bày chi tiết kết quả đạt được

xiv

Trang 15

xuất trong tương lai sẽ được trình bày trong chương này.

xv

Trang 16

Chương 1

Khái quát bài toán phân tích

chuỗi thời gian lâm sàng

1.1.1 Giới thiệu về chuỗi thời gian

Một chuỗi thời gian là một tập hợp các quan sát được thực hiện tuần tự theothời gian Thời gian tiến hành quan sát có thể thường xuyên hoặc khoảngcách không đều Hơn nữa, thời gian có thể liên tục hoặc rời rạc [26]

Định nghĩa:

Theo [4], một chuỗi thời gian được định nghĩa như sau:

Với k 2 N; T 2 R, một hàm x : T ! Rk; t ! xt, tương đương với một tập các chỉmục xtjxt 2 R; t 2 T được gọi là một chuỗi thời gian được quan sát Chúng tacũng có thể viết tương đương xt(t 2 T ) hoặc (xt)t2T

Với kN; T R, một không gian xác suất ( ; F; P ), hay một tập các chỉ mụccủa các biến ngẫu nhiên XtjX + t 2 Rk; t 2 T; (Xt)t2T P được gọi là một chuỗi thờigian hay một mô hình chuỗi thời gian Trong đó, = (Rk)T là không gian của hàm

X : T ! Rk, F là đại số trong , P là xác suất trên ( ; F)

Bảng 1.1 mô tả một số loại chuỗi thời gian Xt2 R(t 2 T; T 6= ;)

1

Trang 17

k 2 Chuỗi thời gian đa biến

T đếm được, 8a < b 2 R : T \ [a; b] hữu hạn Thời gian rời rạc

T rời rạc, 9u 2 R+s; t; tj+1 tj = u Thời gian bình đẳng

T = [a; b](a < b 2 R); t = R+ hoặc T = R Thời gian liên tục

1.1.2 Giới thiệu về bài toán phân tích chuỗi thời gian lâm sàng

Thập kỷ qua đã chứng kiến sự bùng nổ về lượng thông tin kỹ thuật số được lưu trữtrong hồ sơ sức khỏe điện tử (EHR).Các hệ thống EHR lưu trữ dữ liệu liên quan đếnmỗi lần gặp bệnh nhân, bao gồm thông tin nhân khẩu học, chẩn đoán, xét nghiệm vàkết quả trong phòng thí nghiệm, đơn thuốc, hình ảnh X quang, ghi chú lâm sàng vànhiều hơn nữa [5] Mặc dù được thiết kế chủ yếu để cải thiện hiệu quả chăm sóc sứckhỏe từ quan điểm vận hành, nhiều nghiên cứu đã tìm thấy việc sử dụng cho cácứng dụng tin học lâm sàng [6, 16] Cụ thể, dữ liệu bệnh nhân có trong các hệ thốngEHR đã được sử dụng cho các nhiệm vụ như trích xuất khái niệm y tế [17, 24], môhình quỹ đạo bệnh nhân [11], suy luận bệnh tật [20] Trong cùng thời gian, cộngđồng học máy đã chứng kiến những tiến bộ rộng rãi trong lĩnh vực học sâu và ứngdụng trong phân tích hồ sơ sức khỏe điện tử

Việc sử dụng các hệ thống EHR đã tăng lên rất nhiều ở cả bệnh viện và cơ sởchăm sóc xe cứu thương [6, 7] Việc sử dụng EHR tại bệnh viện và phòng khám cókhả năng cải thiện chăm sóc bệnh nhân bằng cách giảm thiểu sai sót, tăng hiệu quả

và cải thiện sự phối hợp chăm sóc, đồng thời cung cấp nguồn dữ liệu phong phú chocác nhà nghiên cứu Các hệ thống EHR có thể khác nhau về chức năng, nhưng ngay

cả các hệ thống EHR cơ bản cũng có thể cung cấp nhiều thông tin về tiểu sử bệnh,các biến chứng và lịch sử sử dụng thuốc của bệnh nhân [7]

Cho đến vài năm trước, hầu hết các kỹ thuật phân tích dữ liệu EHR phong phú đều dựa trên các kỹ thuật thống kê và học máy truyền thống như hồi quy logistic, máy vectơ

hỗ trợ (SVM) và rừng ngẫu nhiên [19] Gần đây, các kỹ thuật học sâu đã đạt được thành công lớn trong nhiều lĩnh vực thông qua xây dựng mạng nơ-ron nhân tạo và nắm bắt các phụ thuộc tầm xa trong dữ liệu theo cách hiệu quả [21] Do sự gia tăng phổ biến của các

2

Trang 18

phương pháp học sâu và số lượng dữ liệu bệnh nhân ngày càng lớn, cũng đã có

sự gia tăng số lượng nghiên cứu áp dụng học sâu vào dữ liệu EHR cho cácnhiệm vụ tin học lâm sàng [9, 17, 25], mang lại hiệu suất tốt hơn các phươngpháp truyền thống và yêu cầu kỹ thuật tiền xử lý và tính năng tốn ít thời gian hơn

Hồ sơ y tế điện tử của mỗi bệnh nhân có thể được biểu diễn dưới dạngmột chuỗi thời gian đa biến (multivariate time series) Giả sử chúng ta có rbiến quan sát, bệnh nhân thứ n trong số N bệnh nhân có thể được biểu diễnbằng một chuỗi T (n) với các bộ (t(in); (x(in) 2 R Rr trong đó i = 1; : : : ; T (n) Dấuthời gian t(in) biểu thị lần nhập viện thứ i của bệnh nhân thứ n và T (n) là số lượtkhám của bệnh nhân n Mục tiêu của mô hình dự đoán là để dự đoán nhãn ở mỗibước yi 2 0; 1s hoặc ở cuối dãy yi2 0; 1s Số lượng các nhãn có thể nhiều hơn 1

Ví dụ: Trong mô hình trình tự truy cập (ESM) [8], mỗi lần truy cập hay một lần nhập viện của một bệnh nhân, trình tự truy cập được thể hiện bằng một bộ mã số y tế khác nhau c 1 ; c 2 ; : : : ; c n c j là mã thứ j từ từ vựng C Do đó, trong ESM, số lượng biến

r = jCj và đầu vào xi 2 0; 1jCjlà một vector nhị phân trong đó giá trị của thứ j chỉ ra rằng cj

là dữ liệu của lần truy cập thứ i Đưa ra một chuỗi các lượt truy cập x1; x2; : : : ; xT ,

mục tiêu của ESM là tại mỗi bước thời gian i, cần phải dự đoán mã tương ứngcho lần truy cập x2; x3; : : : ; xT +1 với số lượng nhãn là s = jCj

Trong trường hợp học mã (L2D) hay dự đoán mã cho chuỗi thời gian lâm sàng[22], vector đầu vào x i chứa các giá trị liên tục đo được trong quá trình điều trị Giả sử có r các giá trị đo được khác nhau, thì x i 2 Rr Mục tiêu của L2D là đưa một chuỗi đầu vào x 1 ; x 2 ; : : : ;

x T để dự đoán sự xuất hiện của một bệnh cụ thẻ s = 1 hoặc nhiều bệnh (s > 1) Không mất tính tổng quát, L2D có thể được xem là một trường hợp đặc biệt của

ESM

1.2.1 Hệ thống chấm điểm trong ICU

Thang đo nghiêm trọng là những điều chỉnh quan trọng trong điều trị tại khoa chăm sóc đặc biệt (ICU) để dự đoán kết quả điều trị của bệnh nhân, so sánh chất lượng chăm sóc

và phân tầng cho các thử nghiệm lâm sàng Mặc dù điểm số nghiêm trọng của bệnh không phải là yếu tố chính của điều trị, tuy nhiên, chúng là một phần thiết yếu của sự cải thiện trong các quyết định lâm sàng và trong việc xác định bệnh nhân có kết quả không mong muốn Các mô hình dự đoán phải đối mặt với nhiều thách thức, nhưng, việc áp

3

Trang 19

chọn thang điểm, chỉ số hoặc mô hình điểm nghiêm trọng phải phù hợp chính xác với sự kiện, cài đặt hoặc ứng dụng; khi áp dụng sai, các hệ thống như vậy có thể dẫn đến lãng phí thời gian, tăng chi phí, ngoại suy không chính đáng và khoa học kém Bài viết này cung cấp một cái nhìn tổng quan ngắn gọn về thang đo mức độ nghiêm trọng của ICU (cùng với các tính toán tỷ lệ tử vong / tỷ lệ sống dự đoán của họ) được phát triển trong 3 thập kỷ qua, bao gồm một vài trong số chúng đã được sửa đổi cho phù hợp.

Trong hầu hết các hệ thống tính điểm, điểm số được tính từ dữ liệu thu thập được vào ngày đầu tiên của ICU - sinh lý cấp tính và đánh giá sức khỏe mãn tính (APACHE), điểm sinh lý cấp tính đơn giản (SAPS) và mô hình dự đoán tử vong (MPM) Những người khác lặp đi lặp lại và thu thập dữ liệu mỗi ngày trong suốt thời gian ở ICU hoặc trong 3 ngày đầu tiên - rối loạn chức năng nội tạng và hệ thống nhiễm trùng (ODIN), đánh giá suy cơ quan tuần tự (SOFA), điểm rối loạn chức năng đa cơ quan (MODS), rối loạn chức năng cơ quan hậu cần (LOD) mô hình và kết quả kiểm tra lại ICU trong ba ngày (TRIOS) Điểm số có thể là chủ quan hoặc khách quan [5] Điểm số chủ quan được thiết lập bởi một nhóm các chuyên gia chọn các biến và gán trọng số cho từng biến dựa trên ý kiến cá nhân của họ Ví dụ: APACHE II, ODIN và SOFA Các biến số điểm khách quan được thu thập bằng cách sử dụng các kỹ thuật mô hình hồi quy logistic và phán đoán lâm sàng để xác định phạm vi và để gán trọng số Ví dụ: APACHE III, SAPS II, MPM II, MODS, điểm LOD (LODS) và TRIOS.

1.2.2 Điểm chuẩn của các mô hình học sâu trên bộ dữ liệu chăm sóc

sức khỏe lớn MIMIC-III

1.2.2.1 Giới thiệu về MIMIC-III

Bộ dữ liệu MIMIC-III bao gồm các dữ liệu y tế được thu thập tại Trung tâm y tế Beth Israel Deaconess ở Boston, Massachusetts, Hoa Kỳ Bộ dữ liệu này chứa dữ liệu từ 38.597 bệnh nhân khác nhau, được thu thập từ năm 2001 đến 2012 Đồng thời, nó được kết hợ từ hai cơ

sở dữ liệu riêng biệt đó là cơ sở dữ liệu CareVue và cơ sở dữ liệu Metavision.

Trái với dữ liệu của Bệnh viện Đại học Ghent, MIMIC-III không chỉ chứa các thông

số liên quan đến chẩn đoán cấy máu Một loạt các chẩn đoán được lưu giữ trong cơ sở

dữ liệu Nó nhằm mục đích cung cấp một bộ sưu tập dữ liệu đa dạng cho các loại phân

4

Trang 20

tích y tế khác nhau Mặc dù MIMIC-III là một cơ sở dữ liệu mở, quyền truy cập chỉđược cấp sau khi hoàn thành một quy trình được xác định Việc hoàn thành chươngtrình Sáng kiến Đào tạo Thể chế Hợp tác (CITI) liên quan đến dữ liệu hoặc nghiêncứu mẫu vật cần phải được chứng minh Hơn nữa, danh tính và viện nghiên cứu liênkết của người nộp đơn được xem xét MIMIC-III xây dựng thêm dựa trên cơ sở dữliệu MIMIC-II phổ biến đã được sử dụng trong nhiều nghiên cứu khác nhau.

Trong quá trình hoàn thành luận văn này, tôi đã hoàn thành chương trìnhđào tạo liên quan đến dữ liệu nói trên và được cấp quyền truy cập cơ sở dữliệu MIMIC-III Giấy chứng nhận được đặt tại Phụ lục

Hình 1.1: Mô hình xây dựng MIMIC-III

Các bảng của bộ dữ liệu này được trình bày chi tiết tại Bảng 1.2

5

Trang 21

1 ADMISSIONS (58976, 19) Bảng ADMISSIONS đưa ra các thông tin liên quan đến một bệnh nhân nhập

viện

2 CALLOUT (34499, 24) Bảng CALLOUT cung cấp thông tin về kế hoạch xả thải ICU

3 CAREGIVERS (7567, 4) Bảng này cung cấp các thông tin liên quan đến người chăm sóc Ví dụ, nó sẽ xác

định người chăm sóc là y tá, bác sĩ y khoa

4 CHARTEVENTS (330712483, 15) CHARTEVENT chứa tất cả các dữ liệu biểu đồ có sẵn cho một bệnh nhân

5 CVEVENTS (573146, 12) Bảng CPTEVENT chứa danh sách các mã thuật ngữ của thủ tục hiện tại được

trình nhất định đã được thực hiện chưa

6 D_CPT (134, 9) Bảng này cung cấp một số thông tin cấp cao về mã thuật ngữ thủ tục Tuy nhiên,

thông tin chi tiết cho các mã riêng lẻ là không có sẵn

7 D_ICD_DIAGNOSES (14567, 4) Bảng này xác định mã ICD-9 để chẩn đoán Các mã này được chỉ định ở thời

gian ở lại cuối cùng của bệnh nhân và được bệnh viện sử dụng để lập hóa đơnchăm sóc cung cấp

8 D_ICD_PROCEDURES (3882, 4) Bảng này xác định mã ICD-9 cho các thủ tục Các mã này được chỉ định ở thời

gian ở lại cuối cùng của bệnh nhâ và được bệnh viện sử dụng để lập hóa đơnchăm só.c cung cấp

Trang 22

9 D_ITEMS (12487, 10) Bảng D_ITEMS định nghĩa ITEMID, đại diện cho các phép đo trong cơ sở dữ

liệu

Trang 23

10 D_LABITEMS (753, 6) D_LABITEMS chứa các định nghĩa cho tất cả ITEMID liên quan đến các phép

đo trong phòng thí nghiệm trong cơ sở dữ liệu MIMIC

11 DATETIMEEVENTS (4485937,14) Cơ sở dữ liệu chứa tất cả các phép đo thời gian về một bệnh nhân trong ICU

12 DIAGNOSES_ICD (651047,5) Bảng này xác định mã ICD-9 để chẩn đoán Các Mã ICD được tạo cho mục đích

thanh toán tạic thời gian kết thúc nằm viện

13 DRGCODES (125557,8) Bảng này xác định mã HCFA-DRG và APR-DRG cung cấp thông tin liên quan

đến chẩn đoán được ghi nhận chủ yếu cho mục đích thanh toán và hành chính

7 14 ICUSTAYS (61532, 12) Bảng này cung cấp thông tin liên quan đến thời gian nằm viện của ICU.

15 INPUTEVENTS_CV (17527935, 22) Bảng này chứa dữ liệu của các sự kiện đầu vào chất lỏng (huyết thanh, thuốc

tiêm tĩnh mạch, insulin, ) liên quan đến nguồn cơ sở dữ liệu Carevue trong cácđợt ICU

16 INPUT_EVENTS_MV (3618991,31) Bảng này chứa dữ liệu đầu vào cho bệnh nhân

17 LABEVENTS (27854055, 9) Chứa tất cả các phép đo trong phòng thí nghiệm trong một thời gian nhất định

của bệnh nhân, bao gồm cả dữ liệu bệnh nhân

18 MICROBIOLOGYEVENTS (631726, 16) Chứa thông tin vi sinh, bao gồm các xét nghiệm được thực hiện và độ nhạy cảm

19 NOTEEVENTS (2083180, 9) Bảng này chứa tất cả các ghi chú thủ công cho bệnh nhân bởi người chăm sóc

Trang 24

20 OUTPUTEVENTS (4349218,13) Bảng này chứa dữ liệu đầu ra cho bệnh nhân.

21 PATIENTS (46520, 8) Bảng này chứa dữ liệu nhập viện cho tất cả các bệnh nhân nh: giới tính, ngày

sinh,

Trang 25

22 PRESCRIPTIONS (4156450, 19) Bảng này chứa các mục nhập đơn hàng liên quan đến thuốc, hay đơn thuốc.

23 PROCEDUREEVENTS_MV (258066, 25) Bảng này chứa các quy trình cho bệnh nhân

24 PROCEDURES_ICD (17527935, 22) Chứa các thủ tục ICD cho bệnh nhân, đáng chú ý nhất là các thủ tục ICD-9 Các

mã ICD được tạo cho mục đích thanh toán và được ghi nhận cho tất cả các bệnhnhân nhập viện

25 SERVICES (73343, 6) Bảng SERVICES mô tả dịch vụ kèm theo khi bệnh nhân được nhập viện Các

dịch vụ này có thể tự chọn hoặc phát sinh trong quá trình điều trị

8 26 TRANSFERS (261897, 13) Bảng này chứa các vị trí thực tế cho bệnh nhân trong suốt thời gian nằm viện

Trang 26

1.2.2.2 Điểm chuẩn của các mô hình học sâu trên MIMIC-III

Một yếu tố quan trọng đã thách thức nghiên cứu học máy đối với chẩn đoán lâmsàng là thiếu các tiêu chuẩn được chấp nhận phổ biến để đánh giá chặt chẽ các

kỹ thuật mô hình hóa Do đó, trong [14] các tác giả đã đề xuất điểm chuẩn côngkhai cho bốn nhiệm vụ lâm sàng khác nhau: dự đoán tỷ lệ tử vong, phát hiện mất

bù sinh lý, dự báo thời gian lưu trú và kiểu hình Các điểm chuẩn này được hỗ trợbởi Cơ sở dữ liệu thông tin y tế cho chăm sóc chuyên sâu (Medical InformationMart for Intensive Care MIMIC-III) [18], đây là kho lưu trữ dữ liệu lâm sàng phongphú công khai lớn nhất hiện có Trong [18, 22], các tác giả cho rằng RNNs vớicác tế bào LSTM vượt trội hơn tất cả các mô hình baseline hiện có

Dự đoán tử vong tại bệnh viện: dự đoán tỷ lệ tử vong tại bệnh viện dựa

trên 48 giờ đầu tiên của ICU Đây là một nhiệm vụ phân loại nhị phân với

độ đo đánh giá sử dụng AUC-ROC

Phát hiện mất bù sinh lý: dự đoán liệu sức khỏe của bệnh nhân có bị suy giảm

nhanh chóng trong 24 giờ tới hay không Các mục tiêu của nhiệm vụ này là thay thế điểm cảnh báo sớm hiện đang được sử dụng trong các bệnh viện Do thiếu tiêu chuẩn để đánh giá điểm cảnh báo sớm, [14] theo dõi công việc trước đó và xác định nhiệm vụ của họ là dự đoán tử vong trong 24 giờ ở lại ICU Điều quan trọng cần lưu ý là định nghĩa này đi lệch khỏi ý nghĩa cốt lõi của mất bù, và nhiệm vụ trở nên tương tự như dự đoán tử vong Mặt khác, họ tin rằng đây là nhiệm vụ gần nhất

để dự đoán mất bù mà người ta có thể có được các nhãn chính xác từ cơ sở dữ liệu MIMIC-III Mỗi trường hợp này nhiệm vụ là một ví dụ phân loại nhị phân Tương tự như dự đoán tử vong trong bệnh viện, độ đo chính là AUC-ROC.

Dự đoán thời gian lưu trú: dự đoán thời gian còn lại dành cho ICU vào mỗi

giờ ở lại Dự đoán chính xác thời gian lưu trú còn lại rất quan trọng để lên lịch

và quản lý tài nguyên bệnh viện.Tác giả coi nhiệm vụ này như là một phân loại

đa nhãn với 10 lớp/nhóm (một cho ICU ngắn hơn một ngày, 7 ngày của tuần đầu tiên, ở lại trên một tuần nhưng ít hơn hai tuần và cho ở lại hơn hai tuần)

Độ đo chính cho nhiệm vụ này là điểm số kappa có trọng số tuyến tính Cohen

Phân loại kiểu hình phân loại trong số 25 điều kiện chăm sóc cấp tính có

trong một kiểu bệnh nhân lưu hồ sơ ICU nhất định Vấn đề này là một

vấn đề phân loại đa nhãn với AUC-ROC trung bình vĩ mô là độ đo chính

9

Trang 27

Dữ liệu EHR đang ngày càng được sử dụng rộng rãi tại các trung tâm chămsóc sức khỏe trên toàn thế giới Cùng với sự bùng nổ về dữ liệu là rất nhiềuvấn đề còn tồn tại trong dữ liệu này Có thể kể đến các yếu tố sau đây:

Tính đầy đủ: Các thông tin về bệnh nhân không phải lúc nào cũng được trình

bày hoàn toàn trong cơ sở dữ liệu EHR Ngay cả với một giao diện người dùng

chuẩn thu thập dữ liệu bệnh nhân một cách có hệ thống, EHR vẫn không có đầy đủ thông tin của người bệnh Có nhiều lý do cho việc này, ví dụ: (1) thiếu ghi chép tỉ mỉ thông tin bệnh nhân trong EHRs; (2) bác sĩ không thể xác định các điều kiện cụ thể như tác dụng phụ của thuốc; (3) khi có nhiều bác sĩ cùng tham gia điều trị cho một bệnh nhân và gặp nhiều vấn đề trong việc trao đổi thông tin và cập nhật chúng kịp thời; và (4) khó khăn trong việc tích hợp các hệ thống EHR khác nhau được sử dụng bởi các bệnh viện khác nhau, kết quả là

dữ liệu của bệnh nhân có thể bị mất khi bệnh nhân chuyển bệnh viện

Tính chính xác: Thông tin được cập nhật trong EHR cần phải có tính chính xác

cao Thực tế, thông tin quan trọng thường tồn tại trong hình dạng của thông tin không đủ cụ thể Ví dụ, hồ sơ bệnh nhân có thể chứa chẩn đoán một rối loạn

da nói chung trong khi tình trạng cơ bản thực sự là do thuốc rối loạn da Theo

Ủy ban Y tế Quốc gia Thụy Điển, trong một đánh giá của 4200 hồ sơ sức khỏe, khoảng 20% các mã được gán trong EHRs đã được tìm thấy có lỗi lớn

Độ phức tạp: Điều này chủ yếu đề cập đến độ phức tạp của dữ liệu trong EHRs

Các loại dữ liệu không đồng nhất vẫn còn tồn tại rất nhiều trong EHRs làm nổi bật những khó khăn trong việc phân tích chúng Những khó khăn không chỉ xuất hiện trong việc kết hợp các loại dữ liệu không đồng nhất mà còn xuất hiện trong việc phân tích chúng một cách riêng biệt Để xử lý các ghi chú lâm sàng trong văn bản, phương pháp phổ biến và được sử dụng nhiều đó là xử lý ngôn ngữ tự nhiên Tuy nhiên,việc này trở lên phức tạp bởi chất lượng văn bản thấp chứa số lượng lớn chữ viết tắt trong y tế, lỗi đánh máy và câu không đầy đủ.

Các sự kiện lâm sàng được báo cáo trong EHRs, bao gồm chẩn đoán, thuốc và xét nghiệm, thường là mang tính tạm thời Thường có nhiều hơn một loại sự kiện lâm sàng được báo cáo trong mỗi hồ sơ bệnh nhân, và mỗi sự kiện lâm sàng được báo

10

Trang 28

cáo nhiều lần về tần suất bệnh nhân đến bệnh viện Khoảng cách thời giangiữa hai lần đến bệnh viện của mỗi bệnh nhân thường khác nhau Do đó,mỗi hồ sơ bệnh nhân bao gồm nhiều chuỗi thời gian với độ dài khác nhau vàkhoảng thời gian không đều, làm cho nó đặc biệt khó nắm bắt thông tin thờigian Khi chuẩn bị dữ liệu EHR để phân tích, một số thách thức kỹ thuậtkhác cũng thường gặp phải, bao gồm cả chiều cao do số lượng lớn lâmsàng độc đáo sự kiện; độ thưa thớt cao do mỗi biến lâm sàng chỉ được chia

sẻ bởi một nhóm nhỏ bệnh nhân; dữ liệu bị sai lệch do rất ít hồ sơ sức khỏechứa kết quả mục tiêu quan tâm so với những người không

Nhồi máu cơ tim, và nồng độ Vancomycin

Ba mục tiêu này đã được chọn để làm nổi bật ba kết quả y tế khác nhau được thúc đẩy bởi các phát hiện trong phòng thí nghiệm, các dấu hiệu quan trọng và thuốc tương ứng.

Vì các mục tiêu này được đo và tính toán hàng ngày, một bệnh nhân có thể có các giá trị mục tiêu khác nhau vào các ngày khác nhau tùy thuộc vào từng sự kiện mỗi ngày.

1.4.1 Nhiễm trùng huyết

Nhiễm trùng huyết là một trong những nguyên nhân hàng đầu gây tử vong ở bệnh nhân của đơn vị chăm sóc chuyên sâu Bệnh này là một trong những nguyên nhân hàng đầu gây bệnh và cái chết trong ICU, đồng thời sự xuất hiện của nó vẫn tăng lên hàng năm Nhiễm trùng huyết gây ra bởi một phản ứng quá mức của cơ thể với nhiễm trùng và có thể dẫn đến tổn thương mô, suy nội tạng và dẫn đến tử vong Nhiễm trùng huyết có thể được điều trị và phục hồi hoàn toàn Dự đoán khởi phát nhiễm trùng huyết sớm và chính xác có thể cho phép điều trị tích cực trong khi duy trì quản lý kháng khuẩn Tuy nhiên, điều này đòi hỏi phải dùng thuốc kịp thời Một bệnh nhân xác suất sống sót giảm 7,6% cho mỗi giờ điều trị bị hoãn [2] Xem xét vai trò của nhiễm trùng trong nhiễm trùng huyết, các xét nghiệm thường được thực hiện để xác nhận và xác định chúng Xét nghiệm cấy máu(blood culture test) xác định vi khuẩn hoặc nấm gây ra nhiễm trùng Các xét nghiệm như vậy được thực hiện khi có nghi ngờ nhiễm trùng huyết Thực tế, các phương pháp

dự đoán hiện tại cho hiệu suất thấp và thường đòi hỏi thời gian để thu được kết quả xét nghiệm trong phòng thí nghiệm.

11

Trang 29

tử cơ tim do tắc động mạch vành Ở giai đoạn đầu của bệnh này, bệnh nhân bị nhồi máu

cơ tim thường có triệu chứng chẳng hạn như đau ngực và tức ngực, nhưng một số bệnh

nhân vẫn không có triệu chứng rõ ràng gây khó khăn trong việc điều trị kịp thời, do đó đe

dọa tính mạng Do đó, làm thế nào để đạt được sớm chẩn đoán nhồi máu cơ tim có giá

trị lâm sàng quan trọng, và đã trở thành một chủ đề nghiên cứu về nhiều học giả.

1.4.3 Vancomycin

Nồng độ của Vancomycin trong huyết thanh cần nằm trong một phạm vi nhất định đối

với bệnh nhân tại ICU của bệnh viện Vancomycin được sử dụng rộng rãi cho các

trường hợp nhiễm Staphylococcus aureus (MRSA) kháng methicillin và do đó được

đánh giá cao trong nghiên cứu Đây là một bệnh nhiễm trùng do vi khuẩn Khi nồng độ

của thuốc quá cao sẽ gây hại cho bệnh nhân, nhưng khi quá thấp thì không hiệu quả.

Đầu vào Dự đoán sự kiện lâm sàng cho mỗi bệnh nhân thường sử dụng một

chuỗi các giá trị về xét nghiệm, nhân khẩu học, thuốc với các bước thời

gian lịch sử là dữ liệu đầu vào được biểu thị bằng một vector như sau:

X

T =

xT n xT (n 1) : : : xT 2 xT 1 (1.1)Giả sử ICU bao gồm các P bệnh nhân và chúng ta cần dự đoán sự kiện

xảy ra tương ứng tại thời điểm T sử dụng n khung thời gian lịch sử (các bước),

đầu vào có thể là đặc trưng như một ma trận như sau:

là một vector với m giá trị về kết quả xét nghiệm hay liều lượng thuốc, thông

tin bệnh nhân (đặc trưng được trích xuất tương ứng với từng sự kiện)

Trang 30

12

Trang 31

Kết luận chương 1

Trong chương ngày, luận văn giới thiệu sơ lược về chuỗi thời gian và bài toánphân tích chuỗi thời gian lâm sàng Bên cạnh đó, luận văn giới thiệu về cácphương pháp tiếp cận phổ biến trong phân tích và dự đoán chuỗi thời gianlâm sàng và các nghiên cứu liên quan

Luận văn đồng thời phân tích các khó khăn và thách thức của bài toán vàphát biểu bài toán sẽ triển khai trong luận văn này

Trong chương tiếp theo, luận văn sẽ trình bày về mô hình BiLSTM và các

mô hình học sâu cơ sở khác sử dụng trong luận văn

13

Trang 32

Chương 2

Mô hình bộ nhớ dài ngắn

hạn hai chiều BiLSTM

Mạng nơ-ron nhân tạo (Artificial Intelligent - ANN) lấy cảm hứng từ sinh họcđược thiết kế để mô phỏng theo cách mà bộ não con người xử lý thông tin.ANN thu thập kiến thức của nó bằng cách phát hiện các mẫu và mối quan hệtrong dữ liệu và được huấn luyện thông qua kinh nghiệm

Hình 2.1: Mạng nơ-ron nhân tạo

Một mạng nơ-ron nhân tạo được xây dựng từ những thành phần cơ bản là những nơ-ron nhân tạo chứa lớp đầu vào (input layer), một hoặc nhiều lớp ẩn (hidden layers)

và một lớp đầu ra (output layer) Các đầu vào tiếp nhận kích thích từ đầu ra của những

14

Trang 33

function) Và cuối cùng tín hiệu sẽ được đưa đến đầu ra của nơ-ron để lại trở thànhđầu vào của các nơ-ron khác hoặc trở thành tín hiệu ra của toàn bộ mạng Khi kếthợp các nơ-ron lại với nhau ta có một mạng nơ-ron nhân tạo Tuỳ theo cách thứcliên kết giữa các nơ-ron mà ta có các loại mạng khác nhau như: mạng nơ-ron truyềnthẳng, mạng nơ-ron hồi quy, Hình 2.1 minh họa một mạng nơ-ron nhân tạo cơ bản.Trong ANN, rất nhiều tham số (trọng số và độ lệch) cần được điều chỉnh Thayđổi giá trị của các tham số này có thể dẫn đến một lượng lớn đầu ra khác nhau.Không chỉ có vậy, chúng ta cũng có thể tùy chỉnh số lớp và số nơ-ron cho mỗi lớplớp ANN cung cấp khả năng giải quyết vô số bài toán với mức độ phức tạp cao.

Vì vậy, một khi chúng ta có cấu trúc của mạng lưới thần kinh (số lượng nơ-ron, số lượng lớp, ) chúng ta cần một thuật toán điều chỉnh tập hợp các trọng số để giải quyết bài toán mà chúng ta đang cố gắng thể hiện Thuật toán lan truyền ngược (BackPropagation) thực hiện được điều này Nếu khởi tạo ngẫu nhiên tất cả các tham số và tính toán đầu ra của ANN, sẽ thấy rằng kết quả sẽ khác nhiều so với đầu ra mong muốn Vì vậy, chúng ta có thể tính toán sự khác biệt giữa đầu ra thực tế của ANN và đầu ra mong muốn (được gọi là lỗi) và thông qua Gradient Descent, chúng ta có thể giảm thiểu lỗi này Sử dụng một quy trình lặp để giảm thiểu giá trị lỗi tối ưu cho các trọng số và độ lệch.

Cấu trúc mạng nơ-ron truyền thẳng được mô tả trong Hình 2.2, ví dụ về một cấu trúc cho mạng nơ ron hai lớp Các biến đầu vào, biến ẩn và các biến đầu ra được biểu diễn bằng các nút và các tham số trọng số được biểu diễn bởi các liên kết giữa các nút, trong đó các tham số bias được biểu thị bằng các liên kết đến từ đầu vào bổ sung và các biến ẩn

x 0 và z 0 Mũi tên biểu thị hướng của luồng thông tin qua mạng trong quá trình truyền.Các nơ-ron dựa trên sự kết hợp tuyến tính của các hàm cơ sở phi tuyến

cố định j (x) có công thức như sau:

Trang 34

Hình 2.2: Cấu trúc mạng nơ-ron truyền thẳng

huấn luyện Có nhiều cách để xây dựng các hàm cơ sở phi tuyến Mạng ron sử dụng các hàm cơ sở theo dạng tương tự như Công thức2.1, sao chomỗi hàm cơ sở tự nó là hàm phi tuyến của tổ hợp tuyến tính của các đầu vào,trong đó các hệ số trong tổ hợp tuyến tính là các tham số thích nghi Địnhnghĩa này dẫn đến mô hình mạng thần kinh cơ bản Đầu tiên chúng ta xâydựng tổ hợp tuyến tính M của các biến đầu vào x1; : : : ; xD) ở dạng:

Trang 35

2.3.1 Hàm lỗi và cực tiểu hóa Gradient Descent

Cũng tương tự như các bài toán học máy khác thì quá trình học vẫn là tìm lấy một hàm lỗi để đánh giá và tìm cách tối ưu hàm lỗi đó để được kết quả hợp lý nhất có thể Một cách tiếp cận đơn giản cho vấn đề xác định các tham số mạng là để giảm thiểu tổng bình phương hàm lỗi Cho một tập huấn luyện bao gồm một tập các vectơ đầu vào x n , cho n = 1; : : : ; N , cùng với một tập các vectơ đích tương ứng t n , cực tiểu hóa hàm lỗi:

2.3.2 Lan truyền ngược

Với mỗi điểm dữ liệu trong tập huấn luyện,tổng của hàm lỗi

Trang 36

tương ứng là mục tiêu Đạo hàm của hàm

17

Trang 37

Mỗi nơ-ron có tín hiệu đầu vào và tín hiệu đầu ra Đầu ra của một lớp được sử dụng như

đầu vào cho lớp tiếp theo Do đó, mỗi nơ-ron phải kết hợp tín hiệu đầu vào tín hiệu đầu

ra Điều này được thực hiện bằng cách tính tổng trọng số của các giá trị đầu vào cộng

với độ lệch và áp dụng hàm kích hoạt Điều này được đưa ra theo công thức dưới đây:

X

i

Trong Công thức 2.11, Yk và bk tương ứng là tín hiệu đầu ra và độ lệch của

nơ-ron k , wiklà trọng số của kết nối giữa đầu vào i và nơ-ron k , xilà giá trị của đầu vào i

Hàm kích hoạt đơn giản nhất là hàm tuyến tính: (x) = x Điều này có nghĩa

là không có hàm kích hoạt nào được sử dụng Một phương trình tuyến tính dễ

giải, nhưng nó rất hạn chế trong sự phức tạp Các hàm kích hoạt khác phổ

biến hơn được trình bày trong Bảng 2.1 và Hình 4.9 bên dưới

e

( 2x

+1

e

2.4.1 Mạng nơ-ron hồi quy

Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) là một mạng nơ-ron thần kinh chứa

các vòng lặp bên trong cho phép thông tin có thể lưu lại được Một mạng nơ-ron hồi quy có

Trang 38

thể được coi là nhiều bản sao chép của cùng một mạng, trong đó mỗi đầu ra của mạng này

là đầu vào của một mạng sao chép khác Chuỗi lặp lại các mạng này chính

18

Trang 39

là phân giải của mạng nơ-ron hồi quy, các vòng lặp khiến chúng tạo thành mộtchuỗi danh sách các mạng sao chép nhau.

Các kiến trúc của RNN, cũng là cấu trúc cơ bản của LSTM, được trìnhbày trong Hình 2.4

Tại lớp ẩn của RNN, nó nhận vector đầu vào XPT sinh ra vector đầu ra YT

Cấu trúc mở ra của RNN (Hình 2.4) biểu diễn quá trình tính toán tại mỗi thờiđiểm lặp t, lớp ẩn duy trì trạng thái ẩn (hidden state) ht và cập nhập dựa trênlớp đầu vào xt và trạng thái ẩn ht1 trước đó sử dụng công thức dưới đây:

yt = (Whyht + by)

Trong đó, W h y là ma trận trọng số từ lớp ẩn đến lớp đầu ra, b y là vector bias của lớp đầu

ra và y là hàm kích hoạt của lớp đầu ra.Áp dụng Biểu thức 2.12 và Biểu thức 2.13, các tham số của RNN được huấn luyện và cập nhật lặp đi lặp lại thông qua phương pháp lan

19

Trang 40

truyền ngược (Back-Probagation) Tại mỗi bước thời gian t, lớp ẩn sẽ sinh ramột giá trị yt, và đầu ra cuối cùng yT là giá trị dự đoán mong muốn tại bước thờigian tiếp theo Nóicách khác, x^T +1 = yT

Mặc dù RNN thể hiện khả năng vượt trội của mô hình với chuỗi thời gian phituyến, tuy nhiên, RNN thông thường gặp phải vấn đề bùng nổ và biến mất đạohàm trong quá trình lan truyền ngược Do đó, nó không có khả năng học từ cácchuỗi thời gian có độ trễ lớn [12], hay các chuỗi thời gian có phụ thuộc dài [3]

Thành phần khác nhau duy nhất giữa LSTM và RNN là lớp ẩn [12] Cáclớp ẩn của LSTM còn được gọi là ô hoặc đơn vị (cell) Hình 2.5 minh họa kiếntrúc của một đơn vị bộ nhớ dài ngắn hạn Giống như RNN, tại mỗi lần lặp t,một đơn vị LSTM có lớp đầu vào xt và lớp đầu ra ht Mỗi đơn vị nhận trạng tháiđầu vào cet, trạng thái đầu ra ct và trạng thái đầu ra của đơn vị trước đó ct 1trong quá trình huấn luyện và cập nhật tham số

Với cấu trúc cổng, LSTM có thể giải quyết được các phụ thuộc dài hạn đểcho phép các thông tin hữu ích đi qua cổng Có ba cổng trong một đơn vị LSTM

là cổng đầu vào (input gate) it, cổng quên (forget gate) ft và cổng đầu ra (outputgate) ot tại mỗi bước thời gian t Đặc biệt, cổng quên giúp LSTM trở thành một

mô hình hiệu quả và có thể mở rộng cho một số vấn đề học tập liên quan đến dữliệu tuần tự [13] Tại mỗi thời điểm t, LSTM tính toán trạng thái ẩn như sau:

20

−1

Ngày đăng: 10/02/2021, 13:25

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w