Danh mục các ký hiệu, các chữ viết tắt ANFIS Fuzzy Inference System: Hệ thống suy diễn mờ ANN Artificial Neural Network: Mạng nơ ron nhân tạo CAD Computer Aided Diagnosis: Chẩn đoán có
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
Lê Mạnh Long
TÊN ĐỀ TÀI LUẬN VĂN
HỌC MÁY VÀ PHÂN LOẠI TRONG XỬ LÝ TÍN HIỆU Y SINH VÀ CHẨN
ĐOÁN BỆNH
Chuyên ngành : Kỹ thuật y sinh
LUẬN VĂN THẠC SĨ KỸ THUẬT
KỸ THUẬT Y SINH
NGƯỜI HƯỚNG DẪN KHOA HỌC :
TS PHẠM DOÃN TĨNH
Hà Nội – Năm 2015
Trang 2Lời cam đoan
Hà nội, tháng 03 năm 2015 Tác giả luận văn
Lê Mạnh Long
Trang 3Lời cám ơn
Luận văn được thực hiện dưới sự hướng dẫn của TS Phạm Doãn Tĩnh- Viện Điện
Tử Viễn Thông - Trường Đại học Bách Khoa Hà nội Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy đã hướng dẫn và có ý kiến chỉ dẫn quý báu trong quá trình em làm luận văn
Em xin chân thành cảm ơn các thầy giáo trong bộ môn Kỹ thuật Y sinh và các thầy trong Viện Điện Tử Viễn Thông - Trường Đại học Bách Khoa Hà nội đã hướng dẫn, đào tạo và cho nhiều ý kiến đóng góp quý báu để bản luận văn được hoàn thiện hơn
Em cũng xin cảm ơn các thầy cô giáo trong Khoa, cán bộ thuộc Viện Đào tạo sau Đại học, Trường Đại học Bách Khoa Hà nội đã tạo điều kiện trong quá trình học tập và nghiên cứu tại Trường
Cuối cùng xin bày tỏ lòng cảm ơn tới những người thân trong gia đình, bạn bè đã động viên và giúp đỡ để tôi hoàn thành bản luận văn này
Học viên thực hiện
Lê Mạnh Long
Trang 4MỤC LỤC
Contents
Lời cam đoan 2
Danh mục các ký hiệu, các chữ viết tắt 7
Danh mục các bảng 8
Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu 11
Các luận điểm cơ bản và đóng góp mới của tác giả 11
Phương pháp nghiên cứu 11
1 Chương 1 TỔNG QUAN 13
1 Tổng quan chung 13
2 Mục đích nghiên cứu 15
3 Các chủ đề nghiên cứu 18
4 Đóng góp của nghiên cứu 20
5 Phương pháp luận nghiên cứu 21
2 Chương 2 CÁC PHƯƠNG PHÁP HỌC MÁY VÀ CHUẨN HOÁ DỮ LIỆU 22
2.1 Tổng quan 22
2.2 Kiến thức chung 22
2.3 Sự phân lớp 23
2.3.1 Thuật toán K lân cận gần nhất (K-Nearest Neighbors) 25
2.3.2 Mạng Neuron nhân tạo (Artification Neuron Network) 26
2.3.3 Cây quyết định ( Decision Tree) 28
2.3.4 Phân lớp Naive Bayes 31
2.3.5 Phân lớp ANFIS 33
2.4 Công nghệ lựa chọn chức năng 38
2.4.1 Công nghệ lựa chọn chức năng Wrapper 39
2.4.2 Công nghệ lựa chọn các đặc điểm đặc trưng chọn lọc 41
2.4.3 Công nghệ chọn đặc điểm đặc trưng nhúng 42
2.4.4 Công nghệ lựa chọn đặc điểm đặc trưng tăng tin IG 42
2.5 Các giá trị đặc điểm đặc trưng bị bỏ sót (Missing feature values) 44
2.5.1 Các loại giá trị bị bỏ sót 44
Trang 52.5.2 Xử lý dữ liệu bỏ sót 45
2.6 Thuật toán lan truyền ngược Levenberg-Marquardt 49
2.7 Khai phá dữ liệu 53
2.7.1 Thu thập dữ liệu 54
2.7.2 Lựa chọn dữ liệu 54
2.7.3 Tiền xử lý dữ liệu 55
2.7.4 Áp dụng các phương thức khai phá dữ liệu 55
2.7.5 Đánh giá dữ liệu 56
2.7.6 Công cụ phát triển phần mềm học máy 56
2.7.7 Giám sát các kết quả 57
2.8 Học máy trong chẩn đoán bệnh 57
2.8.1 Điều trị một cách hiệu quả 57
2.8.2 Quản lý sức khoẻ 58
2.8.3 Chẩn đoán có sự trợ giúp của máy tính CAD 58
2.8.4 Các thách thức của khai phá dữ liệu trong chăm sóc sức khoẻ 59
2.8.5 Các bệnh án điện tử (EHR) 60
2.9 Các công trình đã nghiên cứu liên quan tới việc chẩn đoán bệnh ung 61
3 Chương 3 CHẨN ĐOÁN BỆNH UNG THƯ VÚ BẰNG CÁC PHƯƠNG PHÁP HỌC MÁY 62
3.1 Chẩn đoán bệnh ưng thư vú phương pháp tăng tin và hệ thống suy diễn mờ 62
3.1.1 Hệ thống suy diễn mờ 62
3.1.2 Cấu trúc của hệ thống ANFIS 65
3.1.3 Học ANFIS 65
3.1.4 Hệ thống suy diễn mờ 66
3.1.5 Phương pháp IG-ANFIS 67
3.1.6 Kết quả 67
3.2 Chẩn đoán ung thư vú bằng phương pháp cây phân lớp 72
3.2.1 Các giá trị đặc điểm đặc trưng bị bỏ sót 72
3.2.2 Phương pháp xử lý giá trị chức năng bị bỏ sót 74
Trang 63.3 Chẩn đốn bệnh ưng thư vú bằng phương pháp Nạve Bayes 81
3.3.1 Cơng nghệ lựa chọn đặc trưng 81
3.3.2 Các cơng nghệ lựa chọn đặc điểm đặc trưng 82
3.3.3 Phương pháp luận nghiên cứu 82
3.3.4 Các kết quả nghiên cứu 83
3.4 Chẩn đốn bệnh ưng thư vú bằng phương pháp ANN 83
3.4.1 Tổng quan 83
3.4.2 Thuật tốn lan truyền ngược (Back Propagation) 84
3.4.3 Phương pháp thực hiện 85
3.4.4 Triển khai thuật tốn 86
3.4.5 Đánh giá kết quả 88
3.4.6 Kết luận 88
3.5 Đánh giá chung các phương pháp 88
4 KẾT LUẬN VÀ BÀN LUẬN 89
5 TÀI LIỆU THAM KHẢO 91
Trang 7Danh mục các ký hiệu, các chữ viết tắt
ANFIS (Fuzzy Inference System): Hệ thống suy diễn mờ
ANN (Artificial Neural Network): Mạng nơ ron nhân tạo
CAD (Computer Aided Diagnosis): Chẩn đoán có sự trợ giúp của máy tính CART (Classification and Regression Tree): Cây hồi quy và phân lớp
DM (Data Mining): Khai phá dữ liệu
eHealth (Electronic Health): Chăm sóc sức khoẻ điện tử
EHR (Electronic Health Record): Bệnh án điện tử
ERR (Error Rate): Tỉ lễ sai số
FIS (Fuzzy Inference System): Hệ thống suy diễn mờ
IG (Information Gain): Sự tăng tin
IGANFIS (Information Gain and Adaptive Neuro-Fuzzy Inference System):
Hệ thống suy diễn mờ nơ ron thích nghi và tăng tin
k-NN (k Nearest Neighbors): K lân cận gần nhất
LSE (Least Square Estimate): Ước lượng bình phương trung bình
ML (Machine learning) : Học máy
WBC (Wisconsin Breast Cancer Dataset) : Tập dữ liệu ung thư vú của Wisconsin
Trang 8Danh mục các bảng
Bảng 2-1 Ma trận để phân lớp 25
Bảng 2-2 Độ phức tạp trong tính toán 37
Bảng 2-3: Các điểm mạnh và yếu của phương pháp lựa chọn chức năng Wrapper 40
Bảng 2-4 Khái quát các điểm mạnh chính và các thách thức của phương pháp chọn lọc 42 Bảng 2-5 Các điểm mạnh và điểm yếu của việc sử dụng phương pháp EM 42
Bảng 2-6 Các giá trị đặc điểm đặc trưng bị bỏ sót 47
Bảng 2-7 Tối đa hoá kỳ vọng 47
Bảng 2-8 Xây dựng các giá trị đặc điểm đặc trưng bị bỏ sót 49
Bảng 3-1 Xếp hạng các thuộc tính của khối u vú 68
Trang 9Danh mục các hình vẽ, đồ thị
Hình 1-1 Tỉ lệ bác sĩ trên 1000 bệnh nhân tại một số nước 17
Hình 1-2 Sử dụng cơng nghệ hình ảnh cộng hưởng từ (MRI) ở các nước 18
Hình 1-3 Kiến trúc cho một hệ thống sức khoẻ điện tử 20
Hình 2-1 Cách tiếp cận chung để xây dựng một mơ hình phân lớp 24
Hình 2-2 Hệ thống các dây thần kinh của con người 27
Hình 2-3 Nơ ron nhân tạo 27
Hình 2-4 Hoạt động của nơ ron được đơn giản hố 28
Hình 2-5 Kiến trúc ANN 28
Hình 2-6 Cây quyết định đơn giản 29
Hình 2-7 Các đặc tính cây quyết định liên quan tới một số các chức năng học 31
Hình 2-8 Các đặc tính phân lớp Bayesian theo các chức năng học 33
Hình 2-9 Mạng ANFIS 34
Hình 2-10 Thuật tốn lựa chọn chức năng Wrapper 40
Hình 2-11 Quá trình khai phá dữ liệu 54
Hình 3-1 Sơ đồ luật Sugeno [1] 64
Hình 3-2 Mơ hình ANFIS đề xuất trong nghiên cứu 65
Hình 3-3 Cấu trúc hệ IG-ANFIS 67
Hình 3-4 Xếp hạng chức năng 69
Hình 3-5 Hệ thống suy diễn mờ Sugeno cho 4 đầu vào và một đầu ra 70
Hình 3-6 Hàm phụ thuộc đầu vào cho chức năng Uniform of cell shize 71
Hình 3-7 Cấu trúc cho hệ thống IG-ANFIS đề xuất 71
Hình 3-8 Cấu trúc của ANFIS trên MATLAB 72
Hình 3-9 Lưu đồ thuật tốn để xây dựng giá trị bị bỏ sĩt 76
Hình 3-10 Cấu trúc của CART 78
Hình 3-11 Cây phân lớp đề xuất 80
Hình 3-12 Mơ hình phân lớp Nạve Bayes 82
Trang 10MỞ ĐẦU
Lý do chọn đề tài
Hiện tại ở Việt nam, hệ thống y tế đang phải đối mặt với một số thách thức như:
Hệ thống hạ tầng cho công việc chăm sóc và điều trị bệnh nhân đang rất thiếu, số lượng các nhân viên và chuyên gia, bác sĩ chuyên khoa cũng đang rất thiếu Vì vậy chính phủ và
bộ y tế đang nỗ lực tìm kiếm các giải pháp để khắc phục các khó khăn trên
Việc nghiên cứu một giải pháp học máy để trợ giúp cho các bác sĩ ở các tuyến cơ
sở là một hướng nghiên cứu rất nhiều tiềm năng Bằng việc sử dụng các công cụ học máy
và tính toán, khối lượng lớn dữ liệu sẽ được chuyển thành các tri thức, hiểu biết và có thể
hỗ trợ trong việc phát triển các hệ thống chuyên gia trong việc hỗ trợ các quyết định cho các bác sĩ trong việc chẩn đoán và dự đoán một số căn bệnh nan y như bệnh ung thư
Các hệ thống chuyên gia để hỗ trợ cho quá trình đưa ra quyết định có thể giảm chi phí, thời gian và một phần giảm bớt thời gian cho các chuyên gia, để họ có nhiều thời gian hơn cho việc nghiên cứu, cũng như giản được các lỗi và các nhầm lẫn có thể do con người gây nên, do sự căng thẳng trong quá trình làm việc
Các công cụ học máy hiệu quả có thể trợ giúp trong việc phát hiện sớm các căn bệnh như ung thư vú
Công việc chính trong bản luận văn này tập trung trọng tâm vào tìm kiếm các cách tiếp cận mới để chẩn đoán bệnh ung thư vú dựa trên các công cụ học máy
Lịch sử nghiên cứu
Học máy là quá trình ánh xạ các dữ liệu đã có thành các ngữ nghĩa chuyên môn, điều này sẽ làm gia tăng trong việc hiểu biết các thông tin liên quan tới bệnh lý, như dấu hiệu sớm của bệnh lý, và giám sát các giai đoạn khác nhau của bệnh một cách tốt hơn, để nâng cao chất lượng của dịch vụ chăm sóc cho bệnh nhân, và trợ giúp tốt hơn cho các bác
sĩ (trợ giúp điện tử ), và dễ dàng tham khảo chéo các quy trình chẩn đoán các bệnh tiêu chuẩn
Trang 11Đã cĩ một số các cơng trình nghiên cứu về ứng dụng của học máy trong việc hỗ trợ các chuyên gia, bác sĩ trong việc chẩn đốn, phân loại và phân tích bệnh
Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu
Nghiên cứu của bản luận văn này tập trung vào việc sử dụng một số các phương pháp học máy để chẩn đốn bệnh ung thư Bản luận văn này đã đề xuất một số phương pháp để phân lớp các mẫu tế bào ung thư vú là lành tính hay ác tính đĩ là: mạng nơ ron nhân tạo (ANN), hệ tăng thơng tin và hệ thống suy diễn mờ nơ ron thích nghi IG-ANFIS, phương pháp cây phân lớp và phương pháp Nạve Bayes
Phạm vi của nghiên cứu chỉ sử dụng tập dữ liệu ung thư vú được cơng bố bởi WBC
Các luận điểm cơ bản và đĩng gĩp mới của tác giả
Sử dụng tập dữ liệu chuẩn, các phương pháp học máy kinh điển như mạng nơ ron nhân tạo ANN, hệ ANFIS, Nạve Bayes, cây phân lớp CART
Đĩng gĩp lớn nhất của luận văn là đã sử dụng được các phương pháp học máy cùng với chương trình phần mềm được lập trình trên mơi trường Matlab để phân loại tế bào ung thư vú
Các bệnh viện tại Việt nam hồn tồn cĩ thể sử dụng kết quả nghiên cứu này để trợ giúp cho việc chẩn đốn tế bào ung thư vú
Phương pháp nghiên cứu
Sử dụng bộ dữ liệu ung thư vú được lấy từ cơ sở dữ liệu của trường đại học Wicosine, và một số các kết quả nghiên cứu khác để xây dựng nên các mơ hình chẩn đốn bệnh theo các phương pháp học máy và sử dụng phần mềm Matlab để lập trình và đánh giá các phương pháp
Kết luận
Mơ hình dự đốn bằng học máy cĩ thể gia tăng tốc độ chẩn đốn cho bệnh ung thư
Trang 12vú lành tính và ác tính Mô hình này có thể là một gợi ý cho việc thay thế tạm thời thiết bị chụm ảnh X quang vú (Mammogram) trong việc chẩn đoán
Trang 131 Chương 1 TỔNG QUAN
1 Tổng quan chung
Những tiến bộ của công nghệ thông tin, công nghệ phần mềm, và các công nghệ tích hợp hệ thống đã tạo ra một thế hệ mới các hệ thống máy tính với khẳ năng xử lý ngày càng mạnh và linh hoạt Những hệ thống này mang lại các cơ hội cho các nhà nghiên cứu công nghệ thông tin Các cơ hội này bao gồm khẳ năng tương thích giữa các hệ thống phức tạp, các giải pháp bảo mật, cá nhân, quản lý hệ thống, chia sẻ dữ liệu, và sử dụng lại
và lợi ích từ các nguồn lực và dữ liệu hiện có
Một ví dụ của các hệ thống phức hợp là hệ thống chăm sóc sức khoẻ y tế
Gần đây, đang có một sự gia tăng về sự quan tâm tới việc sử dụng các tiến bộ của công nghệ thông tin và các công nghệ khai phá dữ liệu (data mining) trong các hệ thống chăm sóc sức khoẻ Ngoài ra rất nhiều các nước đang thay đổi cách thức triển khai các hệ thống chăm sóc sức khoẻ hướng tới một hệ thống chăm sóc sức khoẻ được tiêu chuẩn hoá trong truyền thông và xây dựng các bệnh án điện tử
Bệnh án điện tử The Electronic Health Record (EHR) là một hệ thống thu thập các
dữ liệu sức khoẻ điện tử đối với từng bệnh nhân nói riêng và toàn bộ các bệnh nhân Nó
có khẳ năng chia sẻ cho các nhà cung cấp chăm sóc sức trong một nước hay trên nhiều nước [12] Các bệnh án điện tử có thể bao gồm các bản ghi dữ liệu kiểm tra y tế, khám sức khoẻ định kỳ, các bản kiểm tra bệnh nhân theo chỉ định của bác sĩ, các phác đồ điều trị cho bệnh nhân, hồ sơ điều trị, các tình trạng dị ứng, miễn dịch, các kết quả ở phòng xét nghiệm, các hình ảnh X quang, cộng hưởng từ và một số các thông tin hữu dụng cho việc kiểm tra Những thông tin hữu ích đó có thể giúp cho các nhà nghiên cứu trong việc kiểm tra và chẩn đoán các bệnh sử dụng các công nghệ máy tính
Sử dụng EHRs có thể giúp cho việc giảm chi phí của các hệ thống truyền thống, nâng cao chất lượng chăm sóc và sử dụng linh hoạt các thiết bị Tuy nhiên giải pháp để
Trang 14nghiên cứu đưa ra các ý tưởng về hệ thống chăm sóc sức khoẻ điện tử ở đó các thiết bị của hệ thống chăm sóc sức khoẻ truyền thống ( Bệnh viện, các viện nghiên cứu, các cơ sở điều trị, các trường học ) làm việc cùng với nhau và chia sẻ và trao đổi các thông tin bệnh nhân điện tử thông qua cơ sở hạ tầng công nghệ truyền thông của quốc gia hay quốc tế
Trên thế giới, đặc biệt là ở những nước phát triển, việc ứng dụng hệ thống thông tin chăm sóc sức khoẻ đang có những tiến triển rất đáng khích lệ
Việt nam hiện cũng đang quan tâm tới hệ thống bệnh án điện tử Khi mà có nhiều nước quan tâm thì tất yếu sẽ tạo ra một khối lượng lớn các dữ liệu y tế cho các nhà cung cấp chăm sóc sức khoẻ, và các thông tin liên quan tới sức khoẻ này và dữ liệu đó có thể là một tài sản có giá trị Vì thế, sự hỗ trợ của công việc nghiên cứu này là để nghiên cứu các ảnh hưởng của việc sử dụng dữ liệu sức khoẻ cho các lợi ích của con người bằng việc sử dụng công nghệ khai phá dữ liệu và học máy
Ý tưởng chính là đề xuất một phương thức tự động để chẩn đoán các căn bệnh dựa trên tín hiệu, thông tin và dữ liệu y sinh đã có Tuy nhiên, để cho việc kết hợp một cách
có hiệu quả các dữ liệu bệnh nhân được thu thập từ trước đó, thì còn có một vài vấn đề cần phải giải quyết đó là dữ liệu bị bỏ sót và có quá nhiều chức năng, những vấn đề đó có thể làm cho bất kể một hệ thống chăm sóc sức khoẻ điện tử trở nên kém hiệu quả Khi giải quyết được vấn đề đó thì chúng ta sẽ lựa chọn được các chức năng có lợi nhất và việc chẩn đoán tăng thêm độ chính xác, và có thể tiên đoán sớm căn bệnh, và giám sát các giai đoạn khác nhau của căn bệnh
Đề tài này sẽ cố gắng tìm hiểu các giải pháp và đề xuất các phương pháp cho việc chẩn đoán bệnh ung thư vú, dựa trên sức mạnh của các kỹ thuật học máy
Do có những khó khăn trong việc thu thập các tín hiệu y sinh nên phạm vi của đề tài là chỉ giới hạn trong một số vấn đề, còn những vấn đề nó vượt ra khỏi phạm vi của đề tài như giải pháp bảo mật và tính riêng tư thì chưa thể nghiên cứu đến
Trong nghiên cứu này, EHRs sẽ được sử dụng như các nguồn dữ liệu để phát triển các công nghệ học máy và khai phá dữ liệu, và để tạo ra các mẫu hữu dụng và logic hỗ trợ quyết định cho các công việc chẩn đoán có trợ giúp của máy tính
Trang 15Để cho việc nghiên cứu có tính thuyết phục, nghiên cứu đã sử dụng bộ cơ sở dữ liệu
đã biết, được công bố cho mục đích nghiên cứu
Các công nghệ và thuật toán đã phát triển và được củng cố trên bộ cơ sở dữ liệu này
có thể được mở rộng để triển khai vào thực tiễn cho ngành y tế, bằng việc tích hợp chúng vào các hệ thống hỗ trợ quyết định và chẩn đoán có sự trợ giúp của máy tính Cơ sở dữ liệu này là một bộ cơ sở dữ liệu thử nghiệm trước khi tích hợp các phương thức được đề xuất vào thực tế các lĩnh vực trong ngành y tế
2 Mục đích nghiên cứu
Ở Việt nam và nhiều nước trên thế giới, người dân đang phải chịu đựng tình cảnh là các bệnh viện thiếu các trang thiết bị và đội ngũ bác sĩ cho nên việc chăm sóc các bệnh nhân không được kịp thời, bệnh nhân phải mất thời gian để chờ đợi để được chăm sóc Dân số đang tăng lên của Việt nam, kiểu sống đang hiện đại hoá, sự thay đổi khí hậu, và các bệnh mới đang đặt ra các thách thức cho các hệ thống chăm sóc sức khoẻ của Việt nam và chính phủ Việt nam trước các thách thức phải xây dựng các chiến lược và kế hoạch để đối phó với các thách thức đó là phải nâng cấp cơ sở hạ tầng, trang bị các trang thiết bị, xây dựng đội ngũ y bác sĩ
Hơn nữa các dịch vụ y tế là yêu cầu thiết yếu đối với người dân và nó là chỉ tiêu để đánh giá năng lực của một đất nước để phát triển và củng cố hệ thống cơ sở hạ tầng trong ngành y tế và các dịch vụ cho người dân
Sự thiếu hụt các nhân viên y tế và các công nghệ, các sai sót không đáng có của việc
kê đơn thuốc đang là các vấn đề chính đang cần có các giải pháp Ví dụ, việc sử dụng thuốc quá liều (ADE) có thể gây lên các vấn đề nghiêm trọng tới sức khoẻ
ADE có thể do một số các nguyên nhân như lỗi kê đơn, lỗi trong định liều, không có
sự trao đổi thông tin giữa các bác sĩ và nhà cung cấp thuốc, nhà phân phối thuốc và nhà quản lý thuốc, và chủng loại thuốc không tương thích Những vấn đề này có thể tránh
Trang 16Để giải quyết vấn đề thiếu hụt về các nguồn lực y tế, các nhà nghiên cứu đang tăng cường nghiên cứu các công nghệ chăm sóc sức khoẻ điện tử, đó chính là hướng nghiên cứu của đề tài này
Các công nghệ tính toán và các công cụ học máy có thể được sử dụng để trợ giúp các bác sĩ trong việc chẩn đoán và dự đoán được căn bệnh vì thế họ có thể cung cấp các phác
đồ điều trị cân thiết và hạn chế được sự ảnh hưởng, mà có thể gây ra sự chết người Số ca ung thư vú chiếm hơn 100 lần nhiều hơn đàn ông, cho dù đàn ông có xu hướng thường chủ quan và chậm trễ trong việc chẩn đoán đối với căn bệnh này [6] Vì thế, việc nghiên cứu theo hướng này sẽ cung cấp hy vọng cho các bệnh nhân
Trang 17Hình 1-1 Tỉ lệ bác sĩ trên 1000 bệnh nhân tại một số nước
Trang 18Hình 1-2 mô tả khẳ năng sử dụng công nghệ hình ảnh cộng hưởng từ (MRI), được các nước lựa chọn trong các nước tổ chức hợp tác và phát triển kinh tế [23]
Vì thế, việc thiếu hụt các nguồn lực y tế đã dẫn các nhà nghiên cứu tới việc phải tìm kiếm nhiều giải pháp hiệu quả hơn để mang lại lợi ích cho xã hội
Các nhà khoa học máy tính có thể sử dụng các công nghệ mới nhất trong học máy để tạo ra các mô hình và các phương thức nó có thể hỗ trợ các bác sĩ trong quá trình kiểm tra
và điều trị cho bệnh nhân
Hình 1-2 Sử dụng công nghệ hình ảnh cộng hưởng từ (MRI) ở các nước
3 Các chủ đề nghiên cứu
Các kỹ thuật tính toán và công cụ học máy có thể hỗ trợ trong việc giải quyết các vấn
đề chăm sóc sức khoẻ bằng việc phát triển các hệ thống chuyên gia nó có thể trợ giúp cho các bác sỹ trong việc chẩn đoán và tiên đoán sớm các căn bệnh trong các giai đoạn sớm Các hệ thống này có thể giảm chi phí, lẵng phí thời gian, và các chuyên gia cho việc nghiên cứu để giảm các sai sót và nhầm lẫn gây ra bởi các nhân viên y tế [8]
Trang 19Chẩn đoán có sự hỗ trợ của máy tính (CAD) và các hệ thống chuyên gia y tế và các công cụ đã trở thành một trong những hướng nghiên cứu hàng đầu trong lĩnh vực chẩn đoán y tế
Sự trợ giúp của CAD để thiết kế một hệ thống chuyên gia nó kết hợp các chuyên gia
về con người và công nghệ thông minh để đạt được việc chẩn đoán chính xác và hiệu quả hơn CAD có thể được sử dụng để trợ giúp các bác sỹ trong việc chẩn đoán và dự đoán các căn bệnh Theo đó, các bác sỹ có thể cung cấp một phác đồ điều trị kịp thời cần thiết
để hạn chế các tổn thất, bao gồm có nguy cơ dẫn đến tử vong
Hiện nay, trên thế giới đã có nhiều nước trong đó có cả Việt nam đang triển khai chương trình bệnh án điện tử Điều đó sẽ tạo ra là một lượng lớn cơ sở dữ liệu về bệnh án điện tử Cơ sở dữ liệu này có thể được sử dụng cho mục đích nghiên cứu sau khi áp dụng các chính sách và tiêu chuẩn về việc sử dụng thông tin và bảo vệ sự riêng tư
Công việc nghiên cứu trong bản luận văn này có thể tạo ra một công cụ cho hệ thống chăm sóc sức khỏe điện tử
Phạm vi của công việc nghiên cứu này là sử dụng các thông tin về sức khoẻ, lịch sử bệnh nhân từ các nguồn dữ liệu để chẩn đoán các căn bệnh, và cung cấp các hỗ trợ ra quyết định cho các bác sĩ Điều này có thể hỗ trợ trong việc phát hiện sớm bệnh và nhận diện các giai đoạn của căn bệnh và các kế hoạc điều trị
Bản luận văn này đã đề xuất phương pháp để xây dựng các giá trị chức năng bị bỏ sót, xây dựng một số mô hình học máy như mạng nơ ron, mạng ANFIS và mạng Naive Bayes, Cây quyết định để cung cấp các công cụ chẩn đoán tự động có sự hỗ trợ của máy tính và
hệ thống hỗ trợ ra quyết định để chẩn đoán bệnh ung thư vú Và hỗ trợ phát triển một hệ thống tích hợp với một quy trình xử lý thông tin ( xử lý các giá trị chức năng bị bỏ sót, lựa chọn chức năng và các thuật toán phân lớp)
Công việc nghiên cứu này muốn chỉ ra rằng kết quả của việc nghiên cứu này nằm trong phạm vi hệ thống chẩn đoán và hỗ trợ ra quyết định có sự trợ giúp của máy tính với
Trang 20đoán các dạng ung thư vú lành tình hay ác tính Điều này sẽ đóng góp vào công tác chẩn đoán bệnh cho hệ thống y tế của Việt nam Hinh 1-3 chỉ ra kiến trúc cho một hệ thống sức khoẻ điện tử với hệ thống thông minh tích hợp có thể là một sự tham khảo khi triển khai chương trình sức khoẻ điện tử [21]
Hình 1-3 Kiến trúc cho một hệ thống sức khoẻ điện tử
4 Đóng góp của nghiên cứu
Nghiên cứu này sẽ hỗ trợ cho hệ thống chăm sóc sức khoẻ điện tử
Việc sử dụng các thuật toán học máy để phân tích một lượng lớn dữ liệu nhận được
từ các hệ thống sức khoẻ điện tử Nghiên cứu các thuật toán như tái tạo các giá trị chức năng bị bỏ sót, nghiên cứu và đề xuất các cách tiếp cận dựa trên học máy để chẩn đoán các thông tin bệnh nhân dựa trên dữ liệu thu được từ các bệnh nhân
Trang 215 Phương pháp luận nghiên cứu
Nghiên cứu sử dụng tập dữ liệu bệnh nhân ung thư vú từ trường đại học Wisconsin
Nĩ cĩ 348 bản nghi mỗi bản ghi bao gồm cĩ 9 chức năng của các mẫu dữ liệu được trích rút ra từ cơ sở dữ liệu
Nghiên cứu đã sử dụng các phương pháp phân lớp như: ANFIS, Cây phân lớp, phân lớp Nạve Bayes, và mơ hình mạng nơ ron để chẩn đốn các khối u là lành tính hay ác tính
Việc xây dụng các mơ hình và đánh giá chất lượng của các phương pháp đều được thực hiện bằng cách phân chia tập dữ liệu một cách ngẫu nhiên thành các tập huấn luyện, tập kiểm tra
Việc triển khai được thực hiện trên phần mềm Matlab
Trang 222 Chương 2 CÁC PHƯƠNG PHÁP HỌC MÁY VÀ CHUẨN HOÁ
DỮ LIỆU
2.1 Tổng quan
Học máy bao gồm một nhóm các chủ đề, nó nhấn mạnh đến việc tạo ra và kiểm tra các thuật toán để giúp cho quá trình phân lớp, dự đoán, và nhận diện mẫu, bằng việc sử dụng các mô hình máy tính và dữ liệu có từ trước [38]
Học máy có thể tạo ra các hệ thống phân lớp để sử dụng cho các nguồn lực sẵn có Thêm nữa học máy không liên quan nhiều tới sự can thiệp của con người, học máy có các phương thức được lập trình trước hoàn toàn tự động có thể giảm được sự ảnh hưởng của người vận hành
Quá trình đề xuất thuật toán và chức năng của nó để phân lớp các đối tượng hay dự đoán các trường hợp mới được dựa trên các dữ liệu chắc chắn và tin cậy trong quá khứ và hiện tại
2.2 Kiến thức chung
Nhìn chung, học máy có thể được định nghĩa như một lĩnh vực khoa học, nó hỗ trợ để thiết kế và phát triển các thuật toán, nó cho phép các máy tính có thể học và tự giải quyết các vấn đề theo thời gian thực dựa trên các dữ liệu đã có hay dưới các chỉ dẫn và các qui định
Khai phá dữ liệu (data mining) là một ứng dụng của học máy được sử dụng phổ biến nhất [30] Khai phá dữ liệu là một môn khoa học để khai phá các kiến thức từ cơ sở dữ liệu Cơ sở dữ liệu bao gồm một bộ sưu tập các bản ghi
Học máy và các thuật toán khai phá dữ liệu sử dụng từng bản ghi có một bộ các
trường giống nhau (các chức năng, các thuộc tính, các đầu vào, hay các biến) Khi các bản ghi có trường đầu ra đã biết trước thuộc nhãn lớp nào thì quá trình học được gọi học có giám sát Còn quá trình học máy mà các bản ghi không có trường đầu ra biết trước (thuộc nhãn lớp nào) thì được gọi là học không giám sát Sự phân chùm là một phương thức học không giám sát ( chỉ một số mô hình phân chùm vừa là học có giám sát và không giám
Trang 23sát) Mục tiêu của phân chùm là để mơ tả dữ liệu Tuy nhiên, phân lớp và hồi quy là các phương thức tiên đốn Trong nghiên cứu này, chỉ tập trung vào phương pháp học máy cĩ giám sát [30]
2.3 Sự phân lớp
Sự phân lớp và hồi quy là các mơ hình chung trong học cĩ giám sát
Nghiên cứu hiện tại chỉ tập trung vào sự phân lớp Tuy nhiên, sẽ là tồn diện nếu nghiên cứu đồng thời cả hai Các thuật tốn hồi quy sẽ ánh xạ đầu vào thành giá trị các miền ( cĩ thể là giá trị thực) Ví dụ, một bộ hồi quy cĩ thể dự báo một sản phẩm cĩ thể bán tốt hay khơng trên thị trường, nhờ vào việc xem sét các chức năng của hàng hố Trong khi đĩ, các bộ phân lớp cĩ thể ánh xạ khơng gian đầu vào thành các lớp đã được định nghĩa Ví dụ, một bộ phân lớp cĩ thể dự đốn một bệnh nhân mới là lành tính hay ác tính [31]
Sự phân lớp là quá trình học chức năng mục tiêu, nĩ ánh xạ giữa một tập các chức năng đầu vào và định nghĩa trước các nhãn đầu ra Dữ liệu đầu vào để phân lớp là một tập các bản ghi Mỗi bản ghi cĩ dạng (x,y) trong đĩ x là một tập các chức năng và y là biến mục tiêu ( nhãn lớp) Mơ hình phân lớp được sử dụng để mơ tả dữ liệu ( mơ hình mơ tả), hay một cơng cụ để tiên đốn biến mục tiêu cho các bản ghi mới ( mơ hình tiên đốn) Các ví dụ của các mơ hình phân lớp là cây quyết định, mạng nơ ron nhân tạo (ANN), Nạve Bayes và hệ thống suy diễn mờ nơ ron thích nghi (ANFIS) [37]
Cách tiếp cận chung để giải quyết vấn đề phân lớp như chi ra trong hình 4
Trang 24Hình 2-1 Cách tiếp cận chung để xây dựng một mô hình phân lớp
Tập huấn luyện bao gồm các bản ghi mà nhãn lớp đầu ra của nó đã biết Mô hình phân lớp có thể được xây dựng dựa trên dữ liệu huấn luyện Mô hình sau đó có thể được đánh giá và kiểm tra bằng việc sử dụng các dữ liệu kiểm tra nó là các bản ghi mà nhãn lớp đầu ra bị thiếu Chất lượng của mô hình đánh giá dựa vào số các bản ghi kiểm tra nó được
dự báo một cách chính xác [37] Kết quả của chỉ tiêu chất lượng sẽ là một ma trận hỗn tạp các điểm
Giả thử ta cần phân lớp một số các đối tượng i = 1, n thành k lớp đã được định nghĩa
Trong đó k là chỉ số lớp Ví dụ, nếu sự trợ giúp của sự phân lớp là để chẩn đoán một bệnh nhân có bị ung thư vú hay không thì giá trị của k sẽ thuộc về là lành tính hay ác tính Cơ
sở dữ liệu ( dữ liệu đã có) có thể được tổ chức ở dạng ma trận X có kích thước n x p,
trong đó xij biểu diễn giá trị chức năng j trong bản ghi i
Trang 25Từng hàng trong ma trận X được biểu diễn bằng một vector xivới chức năng p và
một nhãn lớp
i
y Bộ phân lớp có thể được biểu thị bằng c(x) Một phương pháp để đánh
giá bộ phân lớp là tính toán ước lượng sai lệch dựa trên ma trận Để giải thích cho ước lượng sai lệch, chúng ta hãy xem xét một ví dụ Giả thử sự hỗ trợ của một bộ phân lớp
c(x) là để huấn luyện và kiểm tra các vector đầu vào x thành thành 2 lớp có thể là lành
2.3.1 Thuật toán K lân cận gần nhất (K-Nearest Neighbors)
Thuật toán K lân cận là một thuật toán phân lớp đối tượng dựa trên các trường hợp huấn luyện gần nhất trong không gian chức năng k-NN tìm ra k các thể hiện gần nhất để
dự đoán thể hiện và quyết định nhãn lớp nào cho thể hiện đó bằng việc nhận diện các nhãn lớp có tần suất nhiều nhất trong số các tập huấn luyện, nó có khoảng cách gần nhất giữa thể hiện cần dự đoán và các thể hiện huấn luyện Khoảng cách được xác định bằng một số phương pháp như Euclidean, Minkowski
Trang 262.3.2 Mạng Neuron nhân tạo (Artification Neuron Network)
Các mạng nơ ron nhân tạo từ thế kỉ thứ 19 khi William James và Alexander Bain
đã tổng hợp khẳ năng của việc xây dựng một hệ thống dựa trên các mô hình mạng nơ ron [22] Giữa thế kỷ thứ 20 McCulloch and Pitt đã tìm ra khẳ năng của học một nhóm các nơ ron, và Donald Hebb đã phát triển các phương pháp hiệu chỉnh, nó đã chỉ ra sử dụng các
nơ ron như thế nào để gia tăng các kết nối từ đầu vào quan trọng Vào những năm 1950, dựa trên phương pháp luận Hebb, Farley and Clark đã thiết lập các mạng nơ ron nhân tạo đầu tiên trong đó các nơ ron được kết nối một cách ngẫu nhiên, sau đó Frank Rosenblatt
đã phát triển mạng perceptron để phân lớp mẫu Thật không may là hệ thống không thể phân lớp được các bài toán phức tạp và nghiên cứu bị dừng vào những năm 1960 [22]
Trong quãng thời gian đó hệ tuyến tính thích (ADALINE) đã được phát triển bởi Widrow and Hoff nó được sử dụng để loại bỏ các tiếng vang trong các hệ thống điện thoại dựa trên việc xử lý tín hiệu thích nghi [43] Mặc dù nghiên cứu về các mạng nơ ron
ít đi trong những năm 1970, một số các nhà nghiên cứu đã phát triển mô hình nơ ron tự tổ chức dựa trên các nghiên cứu sinh lý về các hệ thống thần kinh được gọi là lý thuyết cộng hưởng thích nghi (ART) [10] Trong năm 1974, Paul Werbos đã phát triển một luật học dựa trên cách tiếp cận tối thiểu hoá sai lệch trong đó sai lệch được lan truyền theo chiều ngược lại bằng việc điều chỉnh các trọng số sử dụng mô hình Gradient descent
Kỹ thuật của Paul là thuật toán lan truyên ngược nó là mô hình mạng nơ ron nhân tạo được sử dụng phổ biến nhất vào giữa những năm 1980 bởi một nhóm các nhà nghiên cứu [22]
Trong những năm 1980 và 1990, có rất nhiều các nghiên cứu tập trung vào các ứng dụng tiềm năng của ANN để đưa ra các quyết định chăm sóc y tế [15] Cho tới nay, sự tiến hoá chính trong các mạng nơ ron tập trung nghiên cứu thêm trong các lĩnh vực, như các mạng nơ ron lai và làm thế nào để kết hợp nó với các công nghệ khác
Nơ ron nhân tạo là một mô hình được mô phỏng trên máy tính từ các nở ron tự nhiên Các nơ ron tự nhiên nhận các tín hiệu từ các khớp được đặt trên bề mặt của nơ ron Nơ ron sẽ bắt đầu làm việc và gửi một tín hiệu thông qua sợi trục thần kinh mỗi khi tín hiệu
Trang 27đạt tới một ngưỡng nào đó Tín hiệu này sau đó truyền qua các nơ ron khác và có thể được đưa tới bộ phận điều khiển ( bộ não) để điều khiển các cơ quan của cơ thể
Hình 2-2 dưới chỉ ra nơ ron của con người [7]
Hình 2-2 Hệ thống các dây thần kinh của con người
Nơ ron nhân tạo kích thích kích thích chức năng của nơ ron thực Mạng nhân tạo có một tập các đầu vào được kết hợp với các trọng số Các đầu vào và các trọng số được tính toán bởi một công thức toán học để điều khiển khi ANN được kích hoạt ANN là một tổ hợp của các nơ ron nó xử lý thông tin Hình 2-3 chỉ ra một nơ ron đơn giản
Hình 2-3 Nơ ron nhân tạo
Nhìn chung, hoạt động của nơ ron nhân tạo được mô hình hoá bởi lưu đồ sau:
Trang 28Hình 2-4 Hoạt động của nơ ron được đơn giản hoá
ANN là một tập hợp các nơ ron nhân tạo được kết nối với nhau Mô hình ANN được
sử dụng nhiều nhất là các mạng truyền thẳng Hình 2-5 chỉ ra công nghệ mạng truyền thẳng 3 lớp Đầu ra của ANN là hàm đại số của các đầu vào và các trọng số
Hình 2-5 Kiến trúc ANN
2.3.3 Cây quyết định ( Decision Tree)
Cây quyết định là một phương thức phân lớp nó chứa các nút, các nhánh, và các lá Nút đầu tiên trên cây hay nút trên đỉnh được gọi là nút gốc Từng nút trên cây được kết nối với một hay nhiều nút bằng các nhánh, nút cuối cùng trên cây nó không chứa các nhánh ra được gọi là nút lá Nút lá đầu ra hay giá trị ra [27] Hình 2-6 chỉ ra một ví dụ của một cây quyết định đơn giản
Trang 29Hình 2-6 Cây quyết định đơn giản
Hình 2-6 chỉ ra làm thế nào để giải một vấn đề thời tiết dựa trên việc đặt ra các câu hỏi
và trả lời có thể tạo ra một cây quyết định với một bộ các nút Cây có thể chứa 3 loại nút Nút gốc nó có không có hay có nhiều nút đầu ra và không có nút đầu vào, nó chứa đựng điều kiện kiểm tra và các bản nghi riêng rẽ Nút chuẩn, nó là các nút bên trong và mỗi nút
có một và chỉ một nút đầu vào và hai hay nhiều hướng đầu ra Ngoài ra, nó còn chứa đựng điều kiện kiểm tra và các bản ghi riêng rẽ Nút lá, các nút này nắm giữ các nhãn lớp, không có chỉ hướng ra và chỉ có một hướng vào
2.3.3.1 Xây dựng cây quyết định
Xây dựng cây quyết định là một nhiệm vụ khó khăn bởi vì có rất nhiều cây quyết định nó có thể được xây dựng từ một tập các thuộc tính Hơn nữa, việc xây dựng một cây quyết định tối ưu thì cần chi phí rất lớn Nói chung, các phương pháp xây dựng các cây quyết định có thể được nhóm thành hai loại: Từ trên xuống dưới và từ duới lên trong đó phương thức từ trên xuống được ưa chuộc hơn [32] Có 3 loại cây quyết định từ trên xuống ví dụ CART, C4.5 và ID3
Trang 302.3.3.2 ID3
ID3 là cây quyết định từ trên xuống thuật toán được đề xuất bởi Quinlan vào năm
1986 Phương pháp ID3 là đơn giản nhất trong các phương pháp phân lớp khác, nó sử dụng thuật toán làm giầu thông tin để phân tách các bản ghi và xây dựng lên cây quyết định Việc thực hiện ID3 là rất đơn giản Tuy nhiên, nó không xử lý các giá trị bị bỏ sót
2.3.3.3 Cây quyết định C4.5
C4.5 là một phiên bản của ID3 được tìm ra cũng chính bởi người đã tìm ra thuật toán ID3 Nhìn chung C4.5 đã khắc phục được các điểm yếu của ID3 Quá trình phân tách các bản ghi được được thực hiện bởi tỉ lệ làm giầu thông tin hay việc làm giầu thông tin Không giống như ID3, các phiên bản mới có khẳ năng xử lý các giá trị bị bỏ sót và có thể
xử lý các thuộc tính số [31]
2.3.3.4 CART
CART được đề xuất bởi Breiman năm 1984, nó là từ viết tắt của cụm từ
Classification and Regression Tree CART trở thành một phương thức chung cho việc mô hình cây quyết định có khẳ năng xử lý với các loại dữ liệu khác nhau, xử lý các dữ liệu bị
bỏ sót, và khẳ năng để tạo ra các luật nó có thể được hiểu bởi con người CART có thể gọi
là cây nhị phân bởi vì cây được xây dựng bởi việc phân tách một nút thành hai nút con với hai hướng ra chính xác từ các nút bên trong Việc phân tách được lựa chọn bằng cách
sử dụng các tiêu chuẩn ( biểu diễn số lượng kết nối giữa một nút quyết định cha và các nút quyết định con [31]
Trang 31Hình 2-7 chỉ ra các đặc tính cây quyết định liên quan tới một số các chức năng học
Hình 2-7 Các đặc tính cây quyết định liên quan tới một số các chức năng học
2.3.4 Phân lớp Naive Bayes
Phân lớp Nạve Bayes trong khai phá dữ liệu là một phương pháp phân lớp tốn học dựa trên tính độc lập và xác xuất ( lý thuyết Bayes ) Phân lớp Nạve Bayes dựa trên
ý tưởng là sự tồn tại của một chức năng tất yếu của một đối tượng khơng liên quan tới sự tồn tại của bất kỳ chức khác mà biến lớp nhận được Ví dụ, một con vật cĩ thể là mèo nếu
nĩ là động vật ăn thịt, chơi với trẻ con, cĩ 4 chân, cĩ đầu, và nặng khoảng 3 kg
Thuật tốn Nạve Bayes xử lý tất cả các chức năng một cách độc lập và họ cĩ thể tiên đốn con vật này là mèo, thuật tốn này rất dễ để xây dựng, khơng yêu cầu ước lượng tham số, dễ giải thích Vì thế, Nạve Bayes cĩ thể được thực hiện bởi chuyên gia và cả những người khơng phải là chuyên gia trong lĩnh vực khai phá dữ liệu
Cĩ thể nĩi chung lại là Nạve Bayes được triển khai tốt so với các phương thức khai phá dữ liệu khác [2]
Các tài liệu chỉ ra 2 loại Nạve Bayes, mơ hình đa thức (Multinomial) và mơ hình
Trang 32Trong những mơ hình này, việc phân lớp đƣợc thực hiện theo luật Nạve sau [44] :
Trong đĩ cj là nhãn lớp thể hiện, xi là thuộc tính kiểm tra, P c xj| i là sắc xuất của nhãn lớp cj khi đã biết thuộc tính xi,P cj là xác xuất của nhãn lớp cj,
Hình 2-8 chỉ ra các chức năng của học cho phân lớp Bayesian
(2-1)
Trang 33Hình 2-8 Các đặc tính phân lớp Bayesian theo các chức năng học
2.3.5 Phân lớp ANFIS
Hệ thống suy diễn mờ thích nghi, được đề xuất bởi Jang năm 1993, nó là sự kết hợp của hai cách tiếp cận phương pháp học máy là mạng nơ ron (NN) và hệ thống suy diễn mờ (FIS) [13]
Suy diễn mờ là quá trình công thức hóa việc ánh xạ từ một đầu vào nhận được tới một đầu ra sử dụng logic mờ Ánh xạ sau đó cung cấp một phép toán cơ bản để từ đó các quyết định được thực hiện hay các mẫu được nhận ra
Quá trình suy diễn mờ liên quan đến nhiều quá trình như các hàm thuộc, các luật hợp thành, các phép toán logic
Trang 34Hệ thống suy diễn mờ hiện đang được áp dụng thành công trong các lĩnh vực như điều khiển tự động, phân lớp dữ liệu, phân tích các quyết định, các hệ chuyên gia
Có một số tên gọi cho các hệ thống suy diễn mờ như các hệ thống dựa trên luật
mờ, các hệ thống chuyên gia mờ, mô hình hóa mờ, bộ nhớ kết hợp mờ, các bộ điều khiển logic mờ và các hệ thống mờ đơn giản
Mạng ANFIS được mô tả như sau:
Hình 2-9 Mạng ANFIS
Cấu trúc hệ thống suy diễn mờ nơ ron thích nghi (ANFIS)
ANFIS dựa trên thuật toán được định nghĩa bởi J.S Roger Jang vào năm 1992 Trong thuật toán đó, nó tạo ra cây quyết định mờ để phân tách dữ liệu thành một trong 2n
(hay pn) mô hình hồi quy tuyến tính để tối thiểu hoá tổng sai số bình phương trung bình (SSE)
2 1
n
j j
p
Trang 35Trong đó: ej là sai số giữu đầu ra mong đợi và đầu ra thực tế, p là số các phân hoạch mờ của từng biến và n là số biến đầu vào
Để cho đơn giản , giả thiết hệ thống mờ gồm hai luật Sugeno:
Hệ suy diễn mờ Sugeno với hai luật trên bao gồm có 6 lớp:
Lớp L0: Hay còn gọi là lớp đầu vào, bao gồm các biến trạng thái là
Lớp L1: Tập các mệnh đề cho từng biến là các nút trong lớp giá trị, tính toán các giá trị liên thuộc
Lớp L2: Mỗi luật trong FC là một nút trong lớp các luật ANFIS sử dụng soft-min hay tích để tính toán hệ số i
L3: Từng hệ số i đƣợc chuẩn hoá thành i trong lớp chuẩn hoá
L4: Từng i nhân với hàm hồi quy tuyến tính
i
f của các biến vào để tạo
Trang 36Tính toán các giá trị hàm liên thuộc
Đầu ra O1,i cho nút i=1,2: 1, ( 1)
1( )
11
b
A
i i
x
x c a
Tỉ số của cường độ kích thích của luật với tất cả cường độ kích thích của các luật
3,
1 2
w w
w w
i
i i
O (i=1,2) (2-8)
Trang 37i i i
i i
i
f f
Trang 38ANFIS sử dụng 2 chu kỳ học để tính toán các tham số, chu kỳ học thuận ( Forword pass): S1 cố định, và S2 được tính toán sử dụng thuật toán sai số bình phương tối thiểu LSE ( học off-line), chu kỳ học ngược (Backward pass) S2 cố định và S1 được tính toán
sử dụng thuật toán lan truyền ngược
2.4 Công nghệ lựa chọn chức năng
Khẳ năng thu thập và tạo ra dữ liệu nhiểu ngày càng tốt hơn Đó là nhờ vào tiến bộ trong công nghệ phần cứng máy tính để lưu trữ dữ liệu và công nghệ phần mềm quản lý
dữ liệu
Khai phá dữ liệu đã có một sức hấp dẫn lớn đổi với các nhà nghiên cứu hệ thống thông tin trong những năm gần đây, khẳ năng xử lý một khối lượng lớn dữ liệu để biến các dữ liệu đó thành kiến thức và các sáng chế có tính hữu dụng
Chất lượng của dữ liệu, khối lượng dữ liệu lớn, dữ liệu kém chất lượng, không tin cậy, dư thừa, các tạp chất nhiễu; tất cả các hệ số đã ảnh hưởng đến quá trình rút trích kiến thức và huấn luyện sẽ khó khăn hơn
Các chuyên gia trong lĩnh vực học máy và khai phá dữ liệu đã chỉ ra rằng chất lượng phân lớp ( như độ chính xác) giảm khi tập dữ liệu chứa nhiều chức năng không liên quan tới quá trình tiên đoán Ví dụ, chất lượng của cây quyết định C4.5 tạo ra sai lệch lên tới 24.3 % bởi 3 chức năng không liên quan Tuy nhiên, sai số giảm tới 11.1% nếu ta bỏ qua các chức năng không liên quan [39] Thuật toán k lân cận gần nhất ( k-NN) làm giảm các thuộc tính không liên quan và kích thước tập huấn luyện nên chính xác sẽ tăng theo hàm mũ của các thuộc tính không liên quan [28]
Vì thế, các nhà nghiên cứu đã nhận thấy sự cần thiết phải tạo ra dữ liệu chính xác hơn
từ một khối lượng lớn các bản ghi dữ liệu bằng việc sử dụng các phương thức lựa chọn chức năng Lựa chọn chức năng hay tổ hợp các tập con thuộc tính là một quá trình nhận diện và sử dụng các thuộc tính liên quan nhất và loại ra các thuộc tính không liên qua và trùng lặp có thể [3]
Trang 39Các biến, các chức năng, các đầu vào, hay việc lựa chọn các thuộc tính đã trở thành tâm điểm của sự chú ý của các nhà nghiên cứu trong rất nhiều các lĩnh vực ở đó số lượng các trường hợp và thuộc tính là rất lớn
Mục đích của lựa chọn chức năng là để nhận được số lượng các chức năng ít hơn số lượng các chức năng nguyên gốc trong tập dữ liệu để nâng cao độ chính xác về việc tiên đoán, và tăng nhanh tốc độ phân lớp, và lờ đi các chức năng không liên quan hay ít quan trọng, nâng cao chất lượng dữ liệu, tránh việc đòi hỏi quá trùng kít dữ liệu ( over fitting),
và hỗ trợ để giải quyết vấn đề của việc gia tăng một khối lượng lớn dữ liệu có thể và làm thế nào để sử dụng nó một cách có hiệu quả
Các bài báo nghiên cứu đã chỉ ra rằng các công nghệ lựa chọn chức năng có thể được phân chia dựa theo thuật toán suy diễn và nó hoạt động thế nào với công cụ lựa chọn chức năng Theo đó, các công nghệ lựa chọn chức năng có thể được chia thành 3 loại: Các phương pháp lọc, các phương pháp nhúng, các phương pháp Wrapper [34]
2.4.1 Công nghệ lựa chọn chức năng Wrapper
Các tiếp cận Wrapper được đề xuất bởi Kohavi và Paeger vào năm 1994 ở phòng nghiên cứu trí tuệ nhân tạo (AI) thuộc trường đại học Stanford [17] Các phương pháp Wrapper, thuật toán lựa chọn chức năng được đặt bọc quanh thuật toán học Quá trình bắt đầu với một việc tìm kiếm tập con có liên quan của các thuộc tính bằng việc sử dụng thuật toán học Thuật toán học tự nó được sử dụng để đánh giá các tập con chức năng nhận được bởi việc tìm kiếm
Trang 40Hình 2-10 chỉ ra thuật toán lựa chọn chức năng Wrapper
Hình 2-10 Thuật toán lựa chọn chức năng Wrapper
Thuật toán học được coi như là một hộp đen mà ta không cần chỉnh sửa Thuật toán học đánh giá các tập con chức năng nhận được bởi phương pháp tìm kiếm Thuật toán chọc nhận được một giả thuyết về chất lượng và sự liên quan của một tập con chức năng
cụ thể Tập con chức năng với giá trị ước lượng cao nhất được lựa chọn để trở thành tập cuối cùng để dựa vào đó nó sẽ chạy thuật toán học Bước cuối cùng là để đánh giá mô hình dựa trên tập dữ liệu mới ( chưa được sử dụng bởi quá trình tìm kiếm) để bảo đảm sự độc lập giữa quá trình học và quá trình kiểm tra Kết quả là độ chính xác ước lượng bằng việc sử dụng tập con chức năng liên quan cao nhất trên thuật toán học mong muốn [18] Bảng 2-3 chỉ ra các điểm mạnh và yếu của việc sử dụng phương pháp lựa chọn chức năng Wrapper cũng như các ví dụ về các phương pháp đang sử dụng cách tiếp cận wrapper
Bảng 2-3: Các điểm mạnh và yếu của phương pháp lựa chọn chức năng Wrapper
Dễ dàng sử dụng và
triển khai Rủi do của việc do yêu cầu quá trùng kít ( over fitting)
Lựa chọn tuần tự thuận
Tương tác với bộ phân
lớp học Chuyên sâu về sử dụng máy điện toán ước lượng tuần tự ngược
Phụ thuộc vào chức
năng của các mô hình