Và gần đây, một thuật ngữ “machine learning” rất được nhiều người quan tâm.Thay vì phải code phần mềm với cách thức thủ công theo một bộ hướng dẫn cụ thể nhằm hoàn thành một nhiệm vụ đề
Trang 1KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO CHUYÊN ĐỀ NHẬP MÔN HỌC MÁY
ĐỀ TÀI:
SỬ DỤNG PHÂN LỚP NHỊ PHÂN ĐỂ CHUẨN ĐOÁN BỆNH NHÂN BỊ BỆNH TIỂU ĐƯỜNG
Sinh viên thực hiện : PHAN ĐỨC THẮNG
Giảng viên hướng dẫn : VŨ VĂN ĐỊNH
Trang 2PHIẾU CHẤM ĐIỂM
Sinh viên thực hiện:
Phan Đức Thắng
19810310672
Giảng viên chấm:
Giảng viên chấm 1 :
Giảng viên chấm 2 :
Trang 3MỤC LỤC
LỜI MỞ ĐẦU 1
CHƯƠNG 1 : TỔNG QUAN VỀ HỌC MÁY 2
Hình 1.1 Tổng quan về học máy 2
1.1 Khái niệm về học máy 2
Hình 1.2 : Machine learning được sử dụng mỗi lần ta chụp ảnh 4
1.2 Các phương pháp học máy 4
1.2.1 Học có giám sát 4
Hình 1.3: Học máy có giám sát 5
1.2.2 Học không giám sát 6
Hình 1.4: Học không giám sát 8
1.2.3 Học bán giám sát 8
Hình 1.5: Học bán giám sát 9
1.3 Ứng dụng của học máy 11
Hình 1.7: Cảnh báo giao thông (trên ứng dụng Google Maps) 11
Hình 1.8: Đề xuất gắn thẻ , nhận dạng của ML 13
CHƯƠNG 2 :Cài đặt code thi 14
Trang 42.1.4 Câu 3 14
2.1.5 Câu 4 15
2.1.6 Câu 5 15
2.1.7 Câu 6 15
Trang 5LỜI MỞ ĐẦU
Công nghệ ngày càng phổ biến và không ai có thể phủ nhận được tầm quan trọng và những hiệu quả mà nó đem lại cho cuộc sống chúng ta Bất kỳ trong lĩnh vực nào, sự góp mặt của trí tuệ nhân tạo sẽ giúp con người làm việc và hoàn thành tốt công việc hơn Và gần đây, một thuật ngữ “machine learning” rất được nhiều người quan tâm.Thay vì phải code phần mềm với cách thức thủ công theo một bộ hướng dẫn cụ thể nhằm hoàn thành một nhiệm vụ đề ra thì máy sẽ tự “học hỏi” bằng cách sử dụng một lượng lớn dữ liệu cùng những thuật toán cho phép nó thực hiện các tác vụ
Đây là một lĩnh vực khoa học tuy không mới, nhưng cho thấy lĩnh vực trí tuệ nhân tạo đang ngày càng phát triển và có thể tiến xa hơn trong tương lai
Đồng thời, thời điểm này nó được xem là một lĩnh vực “nóng” và dành rất nhiều mối quan tâm để phát triển nó một cách mạnh mẽ, bùng nổ hơn
Hiện nay, việc quan tâm machine learning càng ngày càng tăng lên là vì nhờ có machine learning giúp gia tăng dung lượng lưu trữ các loại dữ liệu sẵn, việc xử lý tính toán có chi phí thấp và hiệu quả hơn rất nhiều
Những điều trên được hiểu là nó có thể thực hiện tự động, nhanh chóng để tạo ra những
mô hình cho phép phân tích các dữ liệu có quy mô lớn hơn và phức tạp hơn đồng thời đưa ra những kết quả một cách nhanh và chính xác hơn
Chính sự hiệu quả trong công việc và các lợi ích vượt bậc mà nó đem lại cho chúng ta khiến machine learning ngày càng được chú trọng và quan tâm nhiều hơn.Vì vậy chúng
em chọn đề tài:” sử dụng phân lớp nhị phân để chẩn đoán bệnh nhân bị bệnh viêm gan
và bệnh tiểu đường”
Trang 6CHƯƠNG 1 : TỔNG QUAN VỀ HỌC MÁY
Hình 1.1 Tổng quan về học máy
1.1 Khái niệm về học máy
Học máy hay máy học trong tiếng Anh là Machine learning, viết tắt: ML
Học máy (ML) là một công nghệ phát triển từ lĩnh vực trí tuệ nhân tạo Các thuật toán
ML là các chương trình máy tính có khả năng học hỏi về cách hoàn thành các nhiệm vụ
và cách cải thiện hiệu suất theo thời gian
2
Trang 7ML vẫn đòi hỏi sự đánh giá của con người trong việc tìm hiểu dữ liệu cơ sở và lựa chọn các kĩ thuật phù hợp để phân tích dữ liệu Đồng thời, trước khi sử dụng, dữ liệu phải sạch, không có sai lệch và không có dữ liệu giả
Hầu hết chúng ta đều không biết rằng chúng ta đã và đang tương tác với Machine Learning mỗi ngày Mỗi khi ta Google một cái gì đó, nghe một bài hát hoặc thậm chí chụp ảnh là ta đang sử dụng machine learning Nó giúp cho các hệ thống học hỏi và cải thiện từ các tương tác của người dùng Nó cũng có mặt trong những ứng dụng “xịn xò” hơn như các hệ thống phát hiện ung thư, điều chế thuốc và xe tự lái
Trang 8Hình 1.2 : Machine learning được sử dụng mỗi lần ta chụp ảnh.
Các mô hình ML yêu cầu lượng dữ liệu đủ lớn để "huấn luyện" và đánh giá mô hình Trước đây, các thuật toán ML thiếu quyền truy cập vào một lượng lớn dữ liệu cần thiết
để mô hình hóa các mối quan hệ giữa các dữ liệu Sự tăng trưởng trong dữ liệu lớn (big data) đã cung cấp các thuật toán ML với đủ dữ liệu để cải thiện độ chính xác của mô hình và dự đoán
1.2 Các phương pháp học máy
1.2.1 Học có giám sát
4
Trang 9Hình 1.3: Học máy có giám sát
Trang 10Học có giám sát là một hướng tiếp cận của Máy học để làm cho máy tính có khả
năng "học" Trong hướng tiếp cận này, người ta "huấn luyện" máy tính dựa trên những quan sát có dán nhãn Học có giám sát mô phỏng việc con người học bằng cách đưa ra
dự đoán của mình cho một câu hỏi, sau đó đối chiếu với đáp án Sau đó con người rút ra phương pháp để trả lời đúng không chỉ câu hỏi đó, mà cho những câu hỏi có dạng tương tự
Trong học có giám sát, các quan sát bắt buộc phải được dán nhãn trước Đây chính
là một trong những nhược điểm của phương pháp này, bởi vì không phải lúc nào việc dán nhãn chính xác cho quan sát cũng dễ dàng Tuy nhiên, việc quan sát được dán nhãn cũng lại chính là ưu điểm của học có giám sát bởi vì một khi đã thu thập được một bộ
dữ liệu lớn được dán nhãn chuẩn xác, thì việc huấn luyện trở nên dễ dàng hơn rất nhiều
so với khi dữ liệu không được dán nhãn
Ví dụ với cách học của con người khi còn nhỏ Ta đưa bảng chữ cái cho một đứa trẻ
và chỉ cho chúng đây là chữ A, đây là chữ B Sau một vài lần được dạy thì trẻ có thể nhận biết được đâu là chữ A, đâu là chữ B trong một cuốn sách mà chúng chưa nhìn thấy bao giờ
1.2.2 Học không giám sát
Trong thuật toán này chúng ta không biết được dữ liệu đầu
ra hay nhãn mà chỉ có dữ liệu đầu vào Thuật toán Học không giám sát dựa vào cấu trúc
của dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm hoặc giảm số chiều của dữ liệu để thuận tiện trong việc lưu trữ và tính toán
Một cách toán học, Học không giám sát là khi chúng ta chỉ có dữ liệu vào X mà
không biết nhãn Y tương ứng.
6
Trang 11Những thuật toán loại này được gọi là Học không giám sát vì không giống như Học có giám sát, chúng ta không biết câu trả lời chính xác cho mỗi dữ liệu đầu vào Giống như khi ta học, không có thầy cô giáo nào chỉ cho ta biết đó là chữ A hay chữ B
Cụm không giám sát được đặt tên theo nghĩa này.
Trang 12Hình 1.4: Học không giám sát
Ứng dụng phổ biến nhất của Học không giám sát là bài toán về phân cụm
1.2.3 Học bán giám sát
Nằm ở đâu đó giữa học tập được giám sát và không giám sát, vì chúng sử dụng
cả dữ liệu được gắn nhãn và không dán nhãn để đào tạo - thường là một lượng nhỏ dữ liệu có nhãn và một lượng lớn dữ liệu không được dán nhãn Các hệ thống sử dụng phương pháp này có thể cải thiện đáng kể độ chính xác của việc học Thông thường, việc học bán giám sát được chọn khi dữ liệu được dán nhãn được yêu cầu đòi hỏi tài nguyên có kỹ năng và có liên quan để đào tạo/học hỏi từ nó Nếu không, dữ liệu được gắn nhãn thường không yêu cầu tài nguyên bổ sung
8
Trang 13Hình 1.5: Học bán giám sát
1.2.4 Học củng cố
Reinforcement learning là các bài toán giúp cho một hệ thống tự động xác định
hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất (maximizing the performance) Hiện tại, Reinforcement learning chủ yếu được áp dụng vào Lý Thuyết Trò Chơi (Game Theory), các thuật toán cần xác định nước đi tiếp theo để đạt được điểm số cao nhất
Trang 141.3 Ứng dụng của học máy
Cảnh báo giao thông (trên ứng dụng Google Maps)
Hình 1.7: Cảnh báo giao thông (trên ứng dụng Google Maps) Giờ đây, Google Maps có lẽ là ứng dụng được sử dụng với tần suất nhiều nhất mỗi khi bạn tham gia giao thông Đặc biệt khi các ứng dụng khác về di chuyển như Grab, Bee được áp dụng rộng rãi, đồng nghĩa Google Maps được sử dụng liên tục để chỉ đường cho nhà cung cấp dịch vụ hay người sử dụng dịch vụ Những thông tin về quãng đường tối ưu, thời gian di chuyển nhanh nhất cũng được phân tích cùng lúc trên Google Maps
Thực tế, dữ liệu lịch sử của tuyến đường đó đã được thu thập theo thời gian và một số dữ liệu có từ các nguồn khác Mọi người sử dụng bản đồ đều cung cấp vị trí, tốc
độ trung bình, tuyến đường Những thông tin này Google thu thập và tổng hợp thành
Dữ liệu lớn về lưu lượng truy cập, thông qua các thuật toán phân tích phức tap trên Machine Learning, những thông tin này trở nên có nghĩa, chúng giúp Google dự đoán lưu lượng sắp tới và điều chỉnh tuyến đường của bạn theo cách tối ưu nhất Một trong những ứng dụng phổ biến nhất của Machine Learning là Đề xuất gắn thẻ bạn bè tự động trên Facebook hoặc bất kỳ nền tảng truyền thông xã hội nào khác Facebook sử dụng tính năng nhận diện khuôn mặt và nhận dạng hình ảnh để tự động tìm thấy khuôn mặt
10
Trang 15của người phù hợp với Cơ sở dữ liệu của họ và do đó đề nghị người dùng gắn thẻ người
đó dựa trên DeepFace
Dự án DeepFace của Facebook thực hiện nhiệm vụ nhận diện khuôn mặt và xác định đối tượng cụ thể trong ảnh Nó cũng cung cấp Thẻ Alt (Thẻ thay thế) cho hình ảnh
đã được tải lên trên facebook
Trang 16Hình 1.8: Đề xuất gắn thẻ , nhận dạng của ML Trợ lý cá nhân ảo hỗ trợ tìm kiếm thông tin hữu ích, khi được yêu cầu qua văn bản hoặc giọng nói Một số ứng dụng chính của Machine Learning ở đây là:
- Nhận dạng giọng nói
- Chuyển đổi lời nói thành văn bản
- Xử lý ngôn ngữ tự nhiên
- Chuyển đổi văn bản thành giọng nói
Tất cả những gì bạn cần làm là hỏi một câu hỏi đơn giản như Lịch trình của tôi vào ngày mai là gì? hoặc các chuyến bay có sẵn sắp tới cho chuyến công tác của tôi Để trả lời, trợ lý cá nhân của bạn tìm kiếm thông tin hoặc nhớ lại các truy vấn liên quan của bạn để thu thập thông tin
12
Downloaded by hây hay (vuchinhhp3@gmail.com)
Trang 17CHƯƠNG 2 :Cài đặt code thi
2.1 Code thi
2.1.1 Thư Viện
2.1.2 Câu 1
2.1.3 Câu 2
2.1.4 Câu 3
Trang 182.1.5 Câu 4
2.1.6 Câu 5
2.1.7 Câu 6
14
Downloaded by hây hay (vuchinhhp3@gmail.com)