1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(TIỂU LUẬN) ỨNG DỤNG học máy để PHÂN LOẠI UNG THƯ vú

64 49 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng Học máy để Phân loại Ung thư vú
Tác giả Vũ Huy Hoàng
Người hướng dẫn PGS TS. Lê Đức Hậu
Trường học Trường Đại Học Thủy Lợi
Chuyên ngành Công nghệ Thông tin
Thể loại Đồ án tốt nghiệp
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 64
Dung lượng 458,41 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • CHƯƠNG 1 GIỚI THIỆU (16)
    • 1.1 Đặt vấn đề (16)
    • 1.2 Nội dung (17)
  • CHƯƠNG 2 CƠ SỞ LÝ THUYẾT (17)
    • 2.1 Học máy (19)
      • 2.1.1 Giới thiệu (19)
      • 2.1.2 Vai trò của học máy (19)
      • 2.1.3 Phân loại và ứng dụng học máy (20)
      • 2.1.4 Ứng dụng của học máy (22)
      • 2.1.5 Thuật tốn Nạve Bayes (24)
      • 2.1.6 Thuật toán SVM (Support Vector Machine) (27)
      • 2.1.7 Chuẩn hóa dữ liệu (31)
      • 2.1.8 Phương pháp đánh giá (34)
    • 2.2 Python với học máy (41)
      • 2.2.1 Giới thiệu về ngôn ngữ lập trình Python (41)
      • 2.2.2 Python với học máy (42)
  • CHƯƠNG 3 PHÂN TÍCH VÀ GIẢI QUYẾT BÀI TOÁN (17)
    • 3.1 Bối cảnh bài toán (44)
    • 3.2 Thu thập và xử lý dữ liệu (45)
      • 3.2.1 Tổng quan về dữ liệu (45)
      • 3.2.1 Tiền xử lý dữ liệu (49)
      • 3.2.2 Chia dữ liệu (50)
      • 3.2.3 Huấn luyện (0)
  • CHƯƠNG 4 Kết quả thực nghiệm (17)
  • KẾT LUẬN (60)

Nội dung

+ Giới thiệu các phương pháp đánh giá sử dụng trong đồ án + Python trong học máy CHƯƠNG 3 PHÂN TÍCH VÀ GIẢI QUYẾT BÀI TỐN + Giới thiệu về bối cảnh bài tốn + Giới thiệu về bộ dữ liệu được

GIỚI THIỆU

Đặt vấn đề

Trong những năm gần đây, ung thư đang dần trở thành gánh nặng cho nhiều quốc gia trên thế giới, trong đó có Việt Nam Trong các loại ung thư, ung thư vú là căn bệnh phổ biến nhất ở phụ nữ Việt Nam cũng như trên toàn cầu, chiếm khoảng một phần ba các ca ung thư mới được chẩn đoán Tỷ lệ mắc ung thư vú trên thế giới và tại Việt Nam có xu hướng tăng, nhưng tỷ lệ tử vong nhờ những tiến bộ trong chẩn đoán, phát hiện sớm và đặc biệt là điều trị nội khoa ung thư đang dần giảm Phát hiện sớm giúp bác sĩ xác định và áp dụng các phương pháp điều trị phù hợp nhằm giảm thiểu nguy cơ tử vong cho người bệnh Ung thư vú là một trong những bệnh ung thư được chẩn đoán nhiều nhất.

Ung thư vú là loại ung thư phổ biến nhất ở phụ nữ và là nguyên nhân gây tử vong do ung thư đứng thứ hai ở nữ giới Ung thư vú hiếm gặp ở nam giới.

Ung thư vú bắt đầu từ sự hình thành các khối u ác tính trong tế bào vú và thường gặp ở phụ nữ từ 40 tuổi trở lên Quá trình này bắt nguồn từ sự bất thường của tế bào trong thùy – các tuyến sản xuất sữa – nơi tế bào phân chia với tốc độ bất thường Cần có một hệ thống phát hiện hỗ trợ máy tính (CAD) dựa trên học máy nhằm cung cấp chẩn đoán ung thư vú chính xác hơn và có thể phát hiện ở giai đoạn sớm Việc phát hiện sớm ung thư vú giúp tăng tỷ lệ sống sót nhờ khả năng điều trị hiệu quả hơn.

Xuất phát từ những vấn đề thực tiễn được nêu trên, em nhận thấy cần có những giải pháp cụ thể để giải quyết chúng Bằng những kiến thức vốn có, em thúc đẩy bản thân tìm hiểu và nghiên cứu các phương án nhằm đề xuất các giải pháp thiết thực cho các vấn đề đã nêu Vì vậy, em chọn đề tài “Ứng dụng của học máy để phân loại ung thư vú” làm đề tài cho ĐATN của mình, với mục tiêu khám phá cách ứng dụng học máy trong phân loại ung thư vú và đánh giá hiệu quả của các mô hình trên các bộ dữ liệu y khoa.

Nội dung

Các nội dung chính được trình bày trong báo cáo này:

Tìm hiểu các kiến thức liên quan về học máy, các công cụ xử lý dữ liệu và xây dựng ứng dụng.

Nghiên cứu các thuật tốn: Thuật tốn Nạve Bayes, Thuật tốn SVM (Support Vector Machine) Đánh giá và xác định thuật toán tốt nhất.

Cấu trúc của báo cáo:

CƠ SỞ LÝ THUYẾT

Học máy

Trong những năm gần đây, trí tuệ nhân tạo (AI) nổi lên như bằng chứng của cuộc cách mạng công nghiệp lần thứ tư Theo đà phát triển của công nghệ, ứng dụng AI ngày càng được coi là xu hướng công nghệ tương lai và các doanh nghiệp trên toàn thế giới đang cạnh tranh mạnh mẽ về đầu tư, nghiên cứu và triển khai Phần này đề cập đến học máy, một lĩnh vực cốt lõi của AI, cùng với một số thuật toán sẽ được nghiên cứu và áp dụng trong ĐATN nhằm tối ưu hoá quy trình, cải thiện hiệu suất và đưa ra quyết định dựa trên dữ liệu.

Máy học là một nhánh của trí tuệ nhân tạo liên quan đến nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống tự động học từ dữ liệu để giải quyết các bài toán cụ thể Quá trình này gồm phân tích dữ liệu và áp dụng các thuật toán giúp máy móc học hỏi từ dữ liệu, được huấn luyện bởi một khối lượng lớn dữ liệu Máy học sẽ phân tích và rút ra các quy luật từ dữ liệu để cải thiện hiệu suất của hệ thống Nhờ đó, máy có thể tự động phán đoán hoặc dự đoán dựa trên những gì đã học được.

2.1.2 Vai trò của học máy

Machine learning rất quan trọng vì nó cung cấp cho doanh nghiệp cái nhìn về xu hướng trong hành vi của khách hàng và các mô hình hoạt động kinh doanh, cũng như hỗ trợ sự phát triển của các sản phẩm mới Nhiều công ty hàng đầu hiện nay, chẳng hạn như Facebook, Google và Uber, biến học máy trở thành một phần trọng tâm trong hoạt động của họ Machine learning đã trở thành một yếu tố cạnh tranh khác biệt đáng kể đối với nhiều công ty.

Hình 2.1 Các phương pháp học máy phổ biến hiện nay 2.1.3 Phân loại và ứng dụng học máy

Máy học cổ điển thường được phân loại theo cách một thuật toán học để trở nên chính xác hơn trong các dự đoán của nó Có bốn cách tiếp cận cơ bản: học có giám sát, học không giám sát, học bán giám sát và học tăng cường Loại dữ liệu thuật toán mà các nhà khoa học chọn sử dụng phụ thuộc vào loại dữ liệu mà họ muốn dự đoán.

Học có giám sát (supervised learning)

Trong học máy có giám sát, máy tính học cách mô hình hóa các mối quan hệ dựa trên dữ liệu gắn nhãn Quá trình tìm ra cách mô hình hóa tối ưu cho dữ liệu gắn nhãn giúp các thuật toán được huấn luyện có thể áp dụng cho các bộ dữ liệu mới Các thuật toán học có giám sát phù hợp với các tác vụ phổ biến như phân loại và hồi quy, đồng thời được sử dụng để nhận diện mẫu, dự báo và hỗ trợ quyết định dựa trên dữ liệu có gắn nhãn.

+) Phân loại nhị phân: Chia dữ liệu thành hai loại

+) Phân loại nhiều lớp: Lựa chọn giữa nhiều hơn hai loại câu trả lời.

+) Mô hình hồi quy: Dự đoán các giá trị liên tục

+) Kết hợp: Kết hợp các dự đoán của nhiều mô hình học máy để tạo ra dự đoán chính xác.

Học không giám sát (unsupervised learning).

Trong học máy không giám sát, máy tính không được cung cấp dữ liệu có nhãn mà chỉ nhận dữ liệu thô để tự mô tả và khám phá cấu trúc bên trong Các thuật toán học máy không giám sát phù hợp với các tác vụ như phân cụm dữ liệu, giảm chiều và phát hiện bất thường, cũng như khám phá các mẫu ẩn trong tập dữ liệu.

+) Phân cụm: Tách tập dữ liệu thành các nhóm dựa trên sự giống nhau.

+) Phát hiện bất thường: Xác định các điểm dữ liệu bất thường trong tập dữ liệu

+) Khai thác liên kết: Xác định các tập hợp các mục trong tập dữ liệu thường xuyên xảy ra cùng nhau.

+) Giảm kích thước: Giảm số lượng biến trong tập dữ liệu

Học bán giám sát (Semi-supervised learning)

Phương pháp học bán giám sát kết hợp dữ liệu có nhãn với dữ liệu vô nhãn, cho phép mô hình vừa được huấn luyện dựa trên tập dữ liệu có nhãn vừa tự khám phá cấu trúc và thông tin ẩn trong dữ liệu để cải thiện hiệu suất Điều này giúp tận dụng nguồn dữ liệu rộng lớn mà không cần gán nhãn cho mọi ví dụ, từ đó giảm chi phí và tăng tính linh hoạt của quá trình học máy Một số lĩnh vực ứng dụng có thể bao gồm nhận diện hình ảnh và video, xử lý ngôn ngữ tự nhiên, phân tích âm thanh và dữ liệu y tế, nơi dữ liệu vô nhãn phổ biến nhưng gán nhãn lại tốn thời gian và nguồn lực.

+) Dịch máy: Dạy thuật toán dịch ngôn ngữ dựa trên ít hơn một từ điển từ đầy đủ.

+) Phát hiện gian lận: Xác định các trường hợp gian lận khi bạn chỉ có một vài ví dụ tích cực.

Trong lĩnh vực học máy, dán nhãn dữ liệu là bước cốt lõi để huấn luyện mô hình Các thuật toán được huấn luyện trên tập dữ liệu nhỏ có thể học cách áp dụng nhãn cho các tập dữ liệu lớn hơn một cách tự động Nhờ cơ chế này, dữ liệu chưa được gán nhãn có thể được gắn nhãn hiệu quả mà không cần nhiều công sức thủ công Kỹ thuật này giúp mở rộng quy mô dữ liệu và cải thiện chất lượng huấn luyện, đồng thời giảm chi phí và thời gian gắn nhãn.

Học tăng cường (Reinforcement learning)

Trong lĩnh vực khoa học dữ liệu, học tăng cường được dùng để dạy máy hoàn thành một quy trình gồm nhiều bước với các quy tắc được xác định rõ Các nhà khoa học dữ liệu lập trình một thuật toán để hoàn thành một nhiệm vụ và cung cấp cho nó tín hiệu tích cực hoặc tiêu cực khi nó tìm ra cách thực hiện nhiệm vụ Tuy nhiên, phần lớn quá trình học tăng cường cho phép thuật toán tự quyết định các bước cần thực hiện trong quá trình thực thi để tối ưu hóa kết quả Học tăng cường được áp dụng rộng rãi trong các lĩnh vực như robotics và tự động hóa, tối ưu hóa chuỗi cung ứng, trò chơi điện tử và các hệ thống điều khiển, nơi môi trường liên tục thay đổi và hiệu suất được đánh giá dựa trên các tín hiệu tích cực hoặc tiêu cực.

+) Robot: Robot có thể học cách thực hiện các nhiệm vụ trong thế giới vật chất bằng cách sử dụng kỹ thuật này.

+) Trò chơi video: Học tập củng cố đã được sử dụng để dạy bot chơi một số trò chơi điện tử.

Quản lý nguồn lực hiệu quả bắt đầu từ nhận diện nguồn lực hữu hạn và mục tiêu rõ ràng của doanh nghiệp Việc ứng dụng học củng cố (reinforcement learning) cho quản trị nguồn lực cho phép mô hình hóa các kịch bản phân bổ và thử nghiệm các chiến lược khác nhau để tìm ra cách tối ưu hóa phân bổ nguồn lực như thời gian làm việc, vốn và vật tư Nhờ liên tục học từ kết quả thực tế và điều chỉnh hành động, hệ thống có thể dự báo nhu cầu, giảm lãng phí và nâng cao hiệu quả chi phí, đồng thời đáp ứng mục tiêu kinh doanh một cách linh hoạt Đây là cách chuyển từ các quyết định mang tính cảm tính sang quyết định dựa trên dữ liệu, giúp doanh nghiệp lập kế hoạch phân bổ nguồn lực có cấu trúc và thích ứng với thay đổi thị trường.

2.1.4 Ứng dụng của học máy

Học máy có rất nhiều ứng dụng thực tế khác nhau Hai lĩnh vực ứng dụng lớn nhất của học máy là khai phá dữ liệu (data mining) và nhận dạng mẫu (pattern recognition), nơi khai phá dữ liệu giúp biến đổi dữ liệu lớn thành thông tin có giá trị và nhận dạng mẫu cho phép phân loại, nhận diện và dự báo các đối tượng hoặc hiện tượng một cách tự động.

Khai phá dữ liệu (data mining) là quá trình ứng dụng các kỹ thuật máy học vào cơ sở dữ liệu hoặc tập dữ liệu lớn nhằm phát hiện các quy luật, mẫu và tri thức ẩn chứa trong dữ liệu Quá trình này cũng cho phép dự đoán các thông tin quan tâm trong tương lai dựa trên các mẫu dữ liệu đã quan sát được, từ đó hỗ trợ quyết định và chiến lược kinh doanh Nói ngắn gọn, khai phá dữ liệu biến dữ liệu thành thông tin có giá trị bằng cách kết hợp thống kê, học máy và phân tích dữ liệu để hiểu rõ hiện tượng và dự báo xu hướng.

Nhận dạng mẫu là quá trình ứng dụng các kỹ thuật học máy để phát hiện và khai thác các mẫu có tính quy luật trong dữ liệu, thường là dữ liệu hình ảnh và âm thanh Bài toán nhận dạng mẫu thường tập trung vào xác định nhãn cho một đầu vào cụ thể, ví dụ nhận diện danh tính từ ảnh khuôn mặt hoặc phân loại đặc trưng trong tín hiệu âm thanh Quá trình này giúp hệ thống gán nhãn cho dữ liệu và hỗ trợ các ứng dụng như nhận diện khuôn mặt, phân loại âm thanh và nhiều nhiệm vụ nhận dạng khác.

Có nhiều điểm trùng lặp giữa khai phá dữ liệu và nhận dạng mẫu ở cả phạm vi nghiên cứu và ứng dụng, cho thấy sự liên hệ giữa hai lĩnh vực này Tuy vậy, điểm khác biệt chủ yếu nằm ở lĩnh vực ứng dụng và kỹ thuật được sử dụng: khai phá dữ liệu liên quan chủ yếu tới dữ liệu thương mại nhằm khai thác giá trị từ tập dữ liệu lớn, trong khi nhận dạng mẫu tập trung nhiều vào dữ liệu âm thanh và hình ảnh và được ứng dụng rộng rãi trong công nghệ xử lý tín hiệu và thị giác máy tính.

Sau đây là một số ví dụ ứng dụng cụ thể của học máy:

+) Nhận dạng ký tự: phân loại hình chụp ký tự thành các loại, mỗi loại ứng với một ký tự tương ứng

Phát hiện và nhận diện khuôn mặt là quá trình phát hiện vùng chứa khuôn mặt trong ảnh và xác định khuôn mặt đó thuộc về ai trong số những người đã có ảnh trước đó; từ đó hệ thống phân loại ảnh thành các nhóm tương ứng với từng người khác nhau.

+) Lọc thư rác, phân loại văn bản: dựa trên nội dung thư điện tử, chia thư thành loại

“thư rác” hay “thư bình thường”; hoặc phân chia tin tức thành các thể loại khác nhau như “xã hội”, “kinh tế”, “thể thao” …

PHÂN TÍCH VÀ GIẢI QUYẾT BÀI TOÁN

Bối cảnh bài toán

Theo WHO, năm 2008 toàn cầu có 12,6 triệu người mắc ung thư và 7,5 triệu người tử vong vì ung thư Đến năm 2015, có khoảng 90,5 triệu người sống chung với ung thư Mỗi năm ghi nhận 14,1 triệu ca ung thư mới, với 8,8 triệu người tử vong, chiếm khoảng 15,7% tổng số ca tử vong toàn cầu Ở Mỹ và các nước phát triển, tử vong do ung thư chiếm khoảng 25% và mỗi năm có khoảng 0,5% dân số được chẩn đoán ung thư.

Hiện nay, toàn cầu có 23 triệu người đang mắc ung thư Mỗi năm có hơn 14 triệu người mắc mới và 8,2 triệu người tử vong.

Trong danh sách các loại ung thư, ung thư phổi chiếm tỉ lệ cao nhất với 12,4%, tiếp theo là ung thư dạ dày, ung thư vú, ung thư đại trực tràng, ung thư gan, ung thư tiền liệt tuyến và ung thư cổ tử cung Riêng ung thư phổi ở nam giới có tỉ lệ mắc cao nhất ở Đông Âu (53,5/100.000) và Đông Nam Á (50,5/100.000).

Nữ giới, tỉ lệ mắc cao nhất ở Bắc Mỹ (33,8/100.000) và bắc Âu (23,7/100.000)

Việt nam cũng là một trong số nước có tỷ lệ mắc ung thư cao trên thế giới (thuộc nhóm 2)

Việc tìm hiểu tình hình ung thư ở Việt Nam đòi hỏi phân tích thực trạng chẩn đoán và điều trị, từ đó nhận diện những thách thức và cơ hội cải thiện hệ thống y tế Đồng thời, nhận diện các nguyên nhân gây ung thư—bao gồm lối sống, yếu tố môi trường và di truyền—giúp xác định các can thiệp dự phòng phù hợp Bài viết nhấn mạnh tầm quan trọng của dữ liệu quốc gia, sàng lọc sớm và điều trị theo chuẩn để nâng cao tỷ lệ sống sót và chất lượng chăm sóc bệnh nhân Trên cơ sở phân tích này, chúng ta đề xuất các giải pháp nhằm hạn chế ung thư ở Việt Nam, như tăng cường tuyên truyền giáo dục sức khỏe, nâng cao năng lực chẩn đoán và điều trị, cải thiện tiếp cận dịch vụ y tế và hỗ trợ nghiên cứu khoa học liên quan.

Ung thư vú là loại ung thư phổ biến nhất và là nguyên nhân gây tử vong do ung thư ở phụ nữ đứng thứ hai Ung thư vú hiếm gặp ở nam giới Để hiểu bệnh ung thư vú, cần tìm hiểu cấu trúc giải phẫu của vú Vú chủ yếu gồm mô mỡ, đi kèm dây chằng, mô liên kết, hệ mạch bạch huyết, các hạch và mạch máu Ở phụ nữ, vú được chia thành 12–20 thùy bên trong, mỗi thùy hình thành các tiểu thùy sản xuất sữa Các thùy và tiểu thùy được nối với nhau bằng các ống dẫn, mang sữa tới núm vú.

Loại phổ biến nhất của ung thư vú là ung thư biểu mô ống dẫn xâm lấn, còn được gọi là ung thư vú dạng ống, chiếm hơn 80% tổng số ca ung thư vú Ung thư biểu mô tiểu thùy xâm lấn là loại phổ biến thứ hai và thường bắt nguồn từ tiểu thùy, hoặc có nguồn gốc không rõ.

Từ thực tế lâm sàng và các thí nghiệm gần đây, việc ứng dụng các thuật toán học máy vào chẩn đoán ung thư ngày càng trở nên thiết yếu, đặc biệt trong chẩn đoán ung thư vú - căn bệnh ung thư phổ biến hàng đầu hiện nay Việc dự đoán sớm khối u là ác tính hay lành tính đóng vai trò quan trọng trong quá trình điều trị và cải thiện kết quả cho bệnh nhân Trên cơ sở những vấn đề thực tiễn đó, em đã bắt tay tìm hiểu và giải quyết các thách thức của bài toán này, nhằm nâng cao độ chính xác của chẩn đoán và hỗ trợ quyết định điều trị sớm cho ung thư vú.

Kết quả thực nghiệm

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Trong những năm gần đây, AI đã nổi lên như bằng chứng sống động cho cuộc cách mạng công nghiệp lần thứ tư, khi công nghệ phát triển nhanh và mở ra nhiều ứng dụng đột phá Nhờ đà tiến của công nghệ, trí tuệ nhân tạo ngày càng được xem là xu hướng công nghệ của tương lai, thôi thúc các doanh nghiệp trên toàn cầu đầu tư, đổi mới và mở rộng hoạt động Bài viết này tập trung vào học máy – một nhánh then chốt của trí tuệ nhân tạo – và giới thiệu một số thuật toán sẽ được nghiên cứu và ứng dụng trong ĐATN.

Học máy là một nhánh của trí tuệ nhân tạo tập trung nghiên cứu và xây dựng các kỹ thuật cho phép các hệ thống học tự động từ dữ liệu để giải quyết các vấn đề cụ thể Đây là quá trình phân tích dữ liệu và là phương pháp cho máy móc tự động học từ dữ liệu thông qua các thuật toán Máy được huấn luyện trên một lượng lớn dữ liệu, từ đó phân tích và rút ra các quy tắc nhằm cải thiện hiệu suất Nhờ quá trình này, máy có khả năng tự động phán đoán và dự đoán dựa trên dữ liệu đầu vào.

2.1.2 Vai trò của học máy

Machine learning (học máy) đóng vai trò then chốt cho doanh nghiệp bằng cách cung cấp cái nhìn về xu hướng hành vi khách hàng và các mô hình hoạt động kinh doanh, đồng thời hỗ trợ sự phát triển của các sản phẩm mới Các công ty hàng đầu như Facebook, Google và Uber đã biến học máy thành một phần trọng tâm trong hoạt động và chiến lược của họ Do đó, machine learning trở thành một yếu tố cạnh tranh khác biệt đáng kể cho nhiều doanh nghiệp, giúp tối ưu hóa quyết định và thúc đẩy tăng trưởng.

Hình 2.1 Các phương pháp học máy phổ biến hiện nay 2.1.3 Phân loại và ứng dụng học máy

Máy học cổ điển được phân loại theo cách các thuật toán học để cải thiện độ chính xác trong dự đoán Có bốn cách tiếp cận cơ bản: học có giám sát, học không giám sát, học bán giám sát và học tăng cường Việc chọn loại dữ liệu phù hợp cho thuật toán phụ thuộc vào loại kết quả mà các nhà khoa học muốn dự đoán.

Học có giám sát (supervised learning)

Trong học có giám sát, máy tính học cách mô hình hóa các mối quan hệ dựa trên dữ liệu được gán nhãn (labeled data) Sau khi tìm hiểu và xác định cách tối ưu để mô hình hóa các mối quan hệ từ dữ liệu gắn nhãn, các thuật toán được huấn luyện sẽ được áp dụng cho các bộ dữ liệu mới để dự đoán hoặc phân loại thông tin Các thuật toán học tập có giám sát phù hợp với các tác vụ như hồi quy và phân loại.

+) Phân loại nhị phân: Chia dữ liệu thành hai loại

+) Phân loại nhiều lớp: Lựa chọn giữa nhiều hơn hai loại câu trả lời.

+) Mô hình hồi quy: Dự đoán các giá trị liên tục

+) Kết hợp: Kết hợp các dự đoán của nhiều mô hình học máy để tạo ra dự đoán chính xác.

Học không giám sát (unsupervised learning).

Trong học máy không giám sát, máy tính làm việc với dữ liệu chưa được gắn nhãn; thay vì nhận dữ liệu đã dán nhãn, nó được cung cấp dữ liệu thô và các thuật toán tìm cách mô tả đặc tính cũng như cấu trúc tiềm ẩn của dữ liệu Các thuật toán này hướng tới việc nhận diện mẫu, khám phá mối quan hệ giữa các yếu tố và giảm chiều dữ liệu để làm nổi bật các đặc trưng thiết yếu Vì vậy, học máy không giám sát phù hợp cho các tác vụ như phân cụm (clustering), giảm chiều (dimensionality reduction), phát hiện bất thường và khai phá dữ liệu, nhất là ở các tập dữ liệu lớn khi việc gắn nhãn thủ công trở nên không khả thi hoặc quá tốn kém.

+) Phân cụm: Tách tập dữ liệu thành các nhóm dựa trên sự giống nhau.

+) Phát hiện bất thường: Xác định các điểm dữ liệu bất thường trong tập dữ liệu

+) Khai thác liên kết: Xác định các tập hợp các mục trong tập dữ liệu thường xuyên xảy ra cùng nhau.

+) Giảm kích thước: Giảm số lượng biến trong tập dữ liệu

Học bán giám sát (Semi-supervised learning)

Cách tiếp cận này trong học máy là sự kết hợp giữa hai loại dữ liệu trước đó: dữ liệu có nhãn và dữ liệu chưa được gắn nhãn Các nhà khoa học dữ liệu có thể cung cấp một thuật toán chủ yếu dựa trên dữ liệu đào tạo có nhãn, nhưng mô hình được phép tự do khám phá dữ liệu và phát triển hiểu biết riêng của mình về tập dữ liệu Học bán giám sát giúp tận dụng lượng dữ liệu unlabeled phong phú để cải thiện hiệu suất và khái quát hóa của mô hình Một số lĩnh vực ứng dụng của phương pháp này bao gồm nhận diện hình ảnh, xử lý ngôn ngữ tự nhiên, phân loại văn bản, y tế và tài chính, nơi có một khối lượng lớn dữ liệu không gắn nhãn nhưng nhãn hạn chế.

+) Dịch máy: Dạy thuật toán dịch ngôn ngữ dựa trên ít hơn một từ điển từ đầy đủ.

+) Phát hiện gian lận: Xác định các trường hợp gian lận khi bạn chỉ có một vài ví dụ tích cực.

Trong học máy, dán nhãn dữ liệu là quá trình gắn nhãn cho tập dữ liệu để mô hình có thể học từ đó Các thuật toán được huấn luyện trên tập dữ liệu nhỏ có thể học cách áp dụng nhãn cho các tập dữ liệu lớn hơn một cách tự động, giúp mở rộng quy mô dán nhãn mà vẫn duy trì độ chính xác Nhờ đó, quy trình gắn nhãn dữ liệu trở nên hiệu quả hơn, tiết kiệm thời gian và nguồn lực bằng cách tự động hóa việc gắn nhãn cho tập dữ liệu lớn.

Học tăng cường (Reinforcement learning)

Các nhà khoa học dữ liệu thường sử dụng học tăng cường để huấn luyện máy móc hoàn thành một quy trình gồm nhiều bước với các quy tắc được xác định rõ Họ lập trình một thuật toán để thực hiện một nhiệm vụ và cung cấp cho nó tín hiệu tích cực hoặc tiêu cực khi nó tìm ra cách đạt được mục tiêu, nhưng phần lớn thời gian thuật toán sẽ tự quyết định các bước cần thực hiện trong suốt quá trình học Học tăng cường cho phép máy học từ tương tác với môi trường và tối ưu hóa hành vi dựa trên phản hồi nhận được, nên nó được ứng dụng rộng rãi trong các lĩnh vực như robot tự động, điều khiển hệ thống, tối ưu hóa chuỗi cung ứng và các tác vụ phức tạp khác.

+) Robot: Robot có thể học cách thực hiện các nhiệm vụ trong thế giới vật chất bằng cách sử dụng kỹ thuật này.

+) Trò chơi video: Học tập củng cố đã được sử dụng để dạy bot chơi một số trò chơi điện tử.

Quản lý nguồn lực hiệu quả bắt đầu từ nhận thức rằng nguồn lực hữu hạn và mục tiêu kinh doanh được xác định rõ Việc áp dụng học củng cố cho quản trị nguồn lực cho phép doanh nghiệp tối ưu hóa quyết định phân bổ nguồn lực theo thời gian, từ đó nâng cao hiệu suất và giảm lãng phí Nhờ dữ liệu và phản hồi liên tục, công cụ này giúp lên kế hoạch phân bổ nguồn lực một cách linh hoạt, có căn cứ và dễ thích ứng với biến động thị trường để đạt được mục tiêu mong muốn.

2.1.4 Ứng dụng của học máy

Học máy có rất nhiều ứng dụng thực tế khác nhau, mang lại hiệu quả và đổi mới cho nhiều lĩnh vực Hai lĩnh vực ứng dụng lớn nhất của học máy là khai phá dữ liệu (data mining) và nhận dạng mẫu (pattern recognition), nơi các thuật toán xử lý lượng dữ liệu khổng lồ để phát hiện xu hướng, quan hệ và mẫu hình, từ đó hỗ trợ ra quyết định tự động, nhận diện và phân tích hành vi người dùng, cũng như cải thiện quy trình vận hành và hiệu suất hệ thống.

Khai phá dữ liệu (data mining) là quá trình ứng dụng các kỹ thuật học máy vào cơ sở dữ liệu và các tập dữ liệu lớn nhằm khai thác quy luật, mẫu dữ liệu và tri thức ẩn, từ đó hỗ trợ con người đưa ra quyết định Quá trình này cho phép nhận diện mối quan hệ, đặc trưng và xu hướng trong dữ liệu, giúp tối ưu hóa hoạt động kinh doanh và vận hành Ngoài phát hiện quy luật, khai phá dữ liệu còn nhắm tới dự đoán các thông tin quan trọng trong tương lai dựa trên dữ liệu lịch sử Kỹ thuật học máy làm việc trên dữ liệu có cấu trúc và phi cấu trúc để trích xuất thông tin giá trị Trong bối cảnh dữ liệu ngày càng lớn và phức tạp, khai phá dữ liệu trở thành công cụ chủ chốt cho các tổ chức nhằm khám phá tri thức mới và nâng cao hiệu suất.

Nhận dạng mẫu là ứng dụng của các kỹ thuật học máy nhằm phát hiện và nhận diện các mẫu có tính quy luật trong dữ liệu, thường là dữ liệu hình ảnh và âm thanh Các bài toán nhận dạng mẫu điển hình tập trung vào việc gán nhãn cho đầu vào cụ thể, ví dụ nhận diện khuôn mặt trong ảnh để xác định danh tính của người đó hoặc phân loại đặc trưng của tín hiệu âm thanh thành các nhãn tương ứng.

Cần lưu ý rằng khai phá dữ liệu và nhận dạng mẫu có nhiều điểm trùng nhau về phạm vi nghiên cứu và ứng dụng, nhưng khác biệt chủ yếu nằm ở lĩnh vực ứng dụng và kỹ thuật được sử dụng Khai phá dữ liệu chủ yếu liên quan đến dữ liệu thương mại, trong khi nhận dạng mẫu tập trung nhiều vào dữ liệu âm thanh và hình ảnh và được ứng dụng phổ biến trong lĩnh vực kỹ thuật.

Sau đây là một số ví dụ ứng dụng cụ thể của học máy:

+) Nhận dạng ký tự: phân loại hình chụp ký tự thành các loại, mỗi loại ứng với một ký tự tương ứng

+) Phát hiện và nhận dạng mặt người: phát hiện vùng có chứa mặt người trong ảnh, xác định đó là mặt người nào trong số những người đã có ảnh trước đó, tức là phân chia ảnh thành những loại tương ứng với những người khác nhau.

+) Lọc thư rác, phân loại văn bản: dựa trên nội dung thư điện tử, chia thư thành loại

“thư rác” hay “thư bình thường”; hoặc phân chia tin tức thành các thể loại khác nhau như “xã hội”, “kinh tế”, “thể thao” …

Ngày đăng: 17/12/2022, 05:02

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] "Wikipedia", [Online], Available: https://vi.wikipedia.org/wiki/H%E1%BB %8Dc_m%C3%A1y Sách, tạp chí
Tiêu đề: Học máy
Nhà XB: Wikipedia
[3] N.T.HOP, [Online], Available : https://viblo.asia/p/thuat-toan-phan-lop-naive-bayes-924lJWPm5PM Sách, tạp chí
Tiêu đề: Thuật toán phân loại Naive Bayes
Tác giả: N.T.HOP
Nhà XB: Viblo
[9] "Openplanning.net", [Online], Available : https://openplanning.net/11385/gioi-thieu-ve-python Sách, tạp chí
Tiêu đề: Giới thiệu về Python
Tác giả: Openplanning.net
[11] Benhvien103, [Online], Available : http://www.benhvien103.vn/thuc-trang-va-cap-nhat-ung-thu-tai-viet-nam/ Sách, tạp chí
Tiêu đề: Thực trạng và cập nhật ung thư tại Việt Nam
Tác giả: Benhvien103
[13] "tek4.vn", [Online], Available : https://tek4.vn/khoa-hoc/machine-learning-co-ban/training-set-va-testing-set Sách, tạp chí
Tiêu đề: Training set và testing set
Nhà XB: tek4.vn
[14] D. Graffox, "IEEE Citation Reference," Sep. 2009. [Online]. Available: http://www.ieee.org/documents/ieeecitationref.pdf Sách, tạp chí
Tiêu đề: IEEE Citation Reference
Tác giả: D. Graffox
Năm: 2009
[16] [Online]. Available: http://www.ijssst.info/info/IEEE-Citation-StyleGuide.pdf. [Accessed 2 5 2011] Sách, tạp chí
Tiêu đề: IEEE Citation Style Guide
[17] J. Barzun and H. Graff, The Modern Researcher, 5th ed. ed., New York: Harcourt Brace Jovanovich Inc., 1992 Sách, tạp chí
Tiêu đề: The Modern Researcher
Tác giả: J. Barzun, H. Graff
Nhà XB: Harcourt Brace Jovanovich Inc.
Năm: 1992
[19] P. J. Denning, "Editorial: Plagiarism in the Web," Communications of the ACM, vol. 98, no. 12, p. 29, Dec. 1995 Sách, tạp chí
Tiêu đề: Editorial: Plagiarism in the Web
Tác giả: P. J. Denning
Nhà XB: Communications of the ACM
Năm: 1995
[20] B. Martin, "Plagiarism: a misplaced emphasis," Journal of Information Ethics, vol. 3, no. 2, pp. 36-47, 1994 Sách, tạp chí
Tiêu đề: Plagiarism: a misplaced emphasis
Tác giả: B. Martin
Nhà XB: Journal of Information Ethics
Năm: 1994
[21] B. Belkhouche et al, "Plagiarism detection in software designs," in Proc. of the 42nd Ann. Southeast Regional Conf., 2004 Sách, tạp chí
Tiêu đề: Plagiarism detection in software designs
Tác giả: B. Belkhouche et al
Nhà XB: Proc. of the 42nd Ann. Southeast Regional Conf.
Năm: 2004
[2] "m2tech", [Online], Available : https://m2tech.buyit.vn/hoc-may-machine-learning-la-gi-ung-dung-cua-hoc-may/ Link
[4] "Wordpress", [Online], Available : https://neralnetwork.wordpress.com/2018/05/11/thuat-toan-support-vector-machine-svm/ Link
[5] "Viblo", [Online], Available : https://viblo.asia/p/support-vector-machine-trong-hoc-may-mot-cai-nhin-don-gian-hon-XQZkxoQmewA Link
[6] "vimentor.com", [Online], Available : https://www.vimentor.com/vi/lesson/tien-xu-ly-du-lieu-trong-linh-vuc-hoc-may-phan-3 Link
[7] "Viblo", [Online], Available : https://viblo.asia/p/confusion-matrix-ma-tran-nham-lan-ma-tran-loi-V3m5WQB7ZO7 Link
[8] "hoctructuyen123", [Online], Available : http://hoctructuyen123.net/cac-phuong-phap-danh-gia-mot-mo-hinh-phan-lop-du-lieu Link
[10] tecktrending.com, [Online], Available : https://tecktrending.com/thu-vien-python-cho-khoa-hoc-du-lieu/ Link
[12] "ichi.pro", [Online], Available : https://ichi.pro/vi/tien-xu-ly-du-lieu-voi-python-62761617448240 Link
[15] Apr. 2011. [Online]. Available: http://libinfo.uark.edu/reference/citingyoursources.asp Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w