Mục tiêu đề tài Đề tài được nhóm chọn là “Dự báo và phân tích cơ sở dữ liệu về bệnh ung thư phổi dựa trên tỷ lệ giới tính” với mục tiêu từ bảng dữ liệu về nguyên nhân dẫn đến ung thư ph
Trang 1BỘ GIÁO DỤC & ĐÀO TẠO
ĐẠI HỌC UEH TRƯỜNG KINH DOANH
BÁO CÁO ĐỒ ÁN HỌC PHẦN MÔN HỌC: KHOA HỌC DỮ LIỆU
ĐỀ TÀI: DỰ BÁO VÀ PHÂN TÍCH CƠ SỞ DỮ LIỆU
VỀ BỆNH UNG THƯ PHỔI DỰA TRÊN TỶ LỆ GIỚI
TÍNH
Giảng viên giảng dạy: Nguyễn Văn Hồ
Mã lớp HP: 22C1INF50905964 Nhóm sinh viên thực hiện: Văn Dương Hoài Anh MSSV: 31211023942
Phạm Thị Quế Phương MSSV: 31211025448 Huỳnh Hoa Thảo MSSV: 31211020721 Lưu Xuân Vũ MSSV: 31211026608 Phan Trần Như Ý MSSV: 31211025489 Tháng 12 năm 2022
Trang 2MỤC LỤC
DANH MỤC HÌNH ẢNH 4
DANH MỤC BẢNG 5
DANH MỤC BIỂU ĐỒ 5
CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI 7
1.1 Lý do chọn đề tài 7
1.1.1 Khái quát về ung thư phổi 7
1.1.2 Tình trạng ung thư phổi hiện nay 7
1.2 Mục tiêu đề tài 7
1.3 Đối tượng và phạm vi nghiên cứu đề tài 7
1.3.1 Đối tượng nghiên cứu 7
1.3.2 Phạm vi nghiên cứu đề tài 8
1.3.2.1 Phạm vi không gian 8
1.3.2.2 Phạm vi nội dung 8
1.4 Công cụ sử dụng 8
1.5 Ý nghĩa nghiên cứu 8
1.6 Cấu trúc đề tài 8
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 10
2.1 Tổng quan về khoa học dữ liệu: 10
2.2 Lợi ích của Khoa học dữ liệu trong kinh doanh quản lý: 10
2.3 Quy trình thực hiện dự án Khoa học dữ liệu 11
2.4 Lý thuyết về các phương pháp trong phân tích dữ liệu 14
2.4.1 Lý thuyết về phần mềm Orange 14
2.4.1.1 Khái niệm 14
2.4.1.2 Chức năng 14
Trang 32.4.2 Tổng quan về các phương pháp 15
2.4.2.1 Tiền xử lí dữ liệu 15
2.4.2.2 Tích hợp dữ liệu 15
2.4.2.3 Chuyển đổi dữ liệu 16
2.4.2.4 Rút gọn dữ liệu 16
2.4.3 Tổng quan về bài toán phân lớp dữ liệu 17
2.4.3.1 Định nghĩa 17
2.4.3.2 Các mô hình phân lớp dữ liệu 17
CHƯƠNG 3 PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MÔ TẢ DỮ LIỆU 23
3.1 Xác định và phân tích yêu cầu người dùng 23
3.2 Tổng quan về cơ sở dữ liệu nguồn 23
3.2.1 Tiền xử lý dữ liệu 23
3.2.2 Mô tả dữ liệu nguồn 24
CHƯƠNG 4 PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ 32
4.1 Giới thiệu giải pháp và quy trình thực hiện 32
4.1.1 Phân lớp dữ liệu 32
4.1.2 Quy trình thực hiện 35
4.1.3 Dự báo 42
4.2 Thảo luận và đánh giá về kết quả phân tích và các đề xuất hỗ trợ ra quyết định 44
CHƯƠNG 5 KẾT LUẬN 45
5.1 Kết quả đạt được 45
5.2 Hạn chế 45
5.3 Hướng phát triển đề tài 45
TÀI LIỆU THAM KHẢO 47
Trang 4DANH MỤC HÌNH Ả
Hình 2.1 Ví dụ minh họa về mô hình Logistic Regression 18
Hình 2.2 Ví dụ minh họa về Decision Tree 18
Hình 2.3 Ví dụ về một mô hình SVM 19
Hình 2.4 Ví dụ về cấu trúc của mô hình Neural Network 20
Hình 2.5 Ví dụ minh họa về ROC 21
Hình 2.6 Ví dụ minh họa về AUC 21Y Hình 3.1 Các bước tiến hành xử lý dữ liệu 23
Hình 3.2 Nạp dữ liệu Lung cancer vào file 24
Hình 3.3 Quan sát d li u đã x lý trên table ữ ệ ử 2 Hình 4.1 Quá trình phân lớp dữ liệu 32
Hình 4.2 Lấy mẫu từ dữ liệu 1 33
Hình 4.3 Mẫu dữ liệu thử nghiệm 30% 33
Hình 4.4 Lấy mẫu từ dữ liệu 2 34
Hình 4.5 Mẫu dữ liệu thử nghiệm 70% 34
Hình 4.6 Mô hình lấy mẫu dữ liệu 35
Hình 4.7 Chọn tập dữ liệu huấn luyện 35
Hình 4.8 Mô hình các thuật toán 36
Hình 4.9 Kết quả chia mẫu dữ liệu thành 5 phần 36
Hình 4.10 Kết quả chia dữ liệu thành 10 phần 37
Hình 4.11 Kết quả khi chia mẫu dữ liệu thành 50 - 90% 37
Hình 4.12 Kết quả khi chia mẫu dữ liệu thành 20 - 70% 38
Hình 4.13 Kết quả khi chia dữ liệu thành 50 - 66% 38
Hình 4.14 Kết quả ma trận nhầm lẫn bằng phương pháp hồi quy Logistic 39
Hình 4.15 Kết quả ma trận nhầm lẫn bằng phương pháp SVM 39
Hình 4.16 Kết quả ma trận nhầm lẫn bằng phương pháp cây quyết định (%) 40
Trang 5Hình 4.17 Kết quả ma trận nhầm lẫn bằng phương pháp cây quyết định 40
Hình 4.18 Kết quả phân tích ROC ở biến 1 (“Nam”) 41
Hình 4.19 Kết quả phân tích ROC ở biến 2 “Nữ” 41
Hình 4.20 Đánh giá mô hình phân lớp dữ liệu 42
Hình 4.21 Dữ liệu thử nghiệm Data.xlsx 43
Hình 4.22 Kết quả dự báo trên table 43
DANH MỤC BẢNG Bảng 3.1 Nguyên nhân dự toán khác dẫn đến bệnh ung thư phổi 31
DANH MỤC BIỂU ĐỒ Biểu đồ 3.1 Biểu đồ thống kê độ tuổi 26
Biểu đồ 3.2 Biểu đồ thống kê giới tính 27
Biểu đồ 3.3 Biểu đồ thể hiện mức độ ô nhiễm không khí 27
Biểu đồ 3.4 Biểu đồ thể hiện mức độ sử dụng rượu của bệnh nhân 28
Biểu đồ 3.5 Biểu đồ thể hiện mức độ dị ứng bụi của bệnh nhân 28
Biểu đồ 3.6 Biểu đồ thể hiện mức độ rủi ro nghề nghiệp của bệnh nhân 29
Biểu đồ 3.7 Biểu đồ thể hiện mức độ hút thuốc của bệnh nhân 29
Biểu đồ 3.8 Biểu đồ thể hiện mức độ hút thuốc lá tự động của bệnh nhân 30
Trang 6Bảng phân công các thành viên
Trang 7CHƯƠNG 1 TỔNG QUAN ĐỀ TÀI
1.1 Lý do chọn đề tài
1.1.1 Khái quát về ung thư phổi
Ung thư phổi là các khối u hình thành từ các mô tế bào của phổi, các khối ung thư trong phổi chèn ép các ống khí và các dây thần kinh gây cản trở sự lưu thông của các luồng không khí Căn bệnh này là nguyên nhân gây tử vong hàng đầu trong các loại bệnh ung thư ở cả nam và nữ Tuy nhiên đây là căn bệnh có thể phòng ngừa nếu thay đổi lối sống, phát hiện sớm sẽ tiến hành điều trị và thu được kết quả khả quan
1.1.2 Tình trạng ung thư phổi hiện nay
Cùng với sự phát triển vượt bậc của khoa học công nghệ hiện đại đặc biệt là trong lĩnh vực sinh học phân tử làm cho y học cũng trải qua quá trình phát triển tiến bộ, nhiều căn bệnh được kiểm soát dễ dàng hơn nhờ sự hỗ trợ của máy móc, thiết bị hiện đại Tuy nhiên
tỷ lệ tử vong của người mắc bệnh ung thư vẫn rất cao, dựa trên số liệu từ công trình nghiên cứu do Cơ quan Quốc tế Nghiên cứu ung thư (IARC) thuộc Tổ chức Y Tế Thế giới (WHO) tiến hành trên 185 quốc gia trên thế giới cho biết có 14,1 triệu ca mắc mới và8,2 triệu người tử vong vì ung thư vào năm 2012 trong cuộc khảo sát gần đây nhất Ước tính cứ 5 người thì sẽ có 1 người phát triển bệnh ung thư trong suốt cuộc đời, trung bình
cứ 8 nam giới thì sẽ có một người chết vì căn bệnh này, con số này ở nữ giới là 1 trên 11 Trong một báo cáo khác WHO đã đề cập đến ung thư phổi là 1 trong 3 căn bệnh có tỷ lệ mắc cao (ung thư phổi, ung thư vú, ung thư trực tràng) và thuộc top 5 căn bệnh ung thư dẫn đến tử vong Tỷ lệ tử vong của ung thư phổi chiếm tỷ 18,4% trường hợp tử vong vì ung thư trong năm 2018 Ung Thư phổi là nguyên nhân gây gây tử vong hàng đầu trong các loại ung thư ở cả nam và nữ Qua đó thấy được sự nguy hiểm của ung thư phổi đối với người mắc phải là rất cao, để phòng ngừa và phát hiện sớm căn bệnh này đòi hỏi con người phải được cung cấp đầy đủ các kiến thức về phòng, chống ung thư phổi Mà hiểu được các nguyên nhân dẫn đến bệnh là một phương pháp cơ bản để phòng tránh bệnh
1.2 Mục tiêu đề tài
Đề tài được nhóm chọn là “Dự báo và phân tích cơ sở dữ liệu về bệnh ung thư phổi dựa trên tỷ lệ giới tính” với mục tiêu từ bảng dữ liệu về nguyên nhân dẫn đến ung thư phổi ở
cả nam và nữ, áp dụng các mô hình về phân tích dữ liệu để đưa ra các số liệu khách quan
về các nguyên nhân chủ yếu dẫn đến ung thư phổi ở cả 2 giới Dựa vào kết quả phân tích được để xác định các yếu tố dẫn đến nguy cơ ung thư phổi chủ yếu ở nam, nữ và tỷ lệ mắc bệnh ung thư phổi, từ đó đưa ra các phương pháp phòng tránh hiệu quả nhất cho bệnh nhân ung thư phổi
1.3 Đối tượng và phạm vi nghiên cứu đề tài
1.3.1 Đối tượng nghiên cứu :
Trang 8Đối tượng nghiên cứu là bệnh nhân ung thư phổi được theo dõi giám sát trong khoảng thời gian trung bình sáu năm Những người tham gia được chia thành 2 nhóm: những người sống ở môi trường có mức ô nhiễm không khí cao và những người sống ở môi trường có mức ô nhiễm không khí thấp.
1.3.2 Phạm vi nghiên cứu đề tài
1.3.2.1 Phạm vi không gian
Đề tài tập trung nghiên cứu các yếu tố nguy cơ gây ung thư phổi của các đối tượng sống
ở môi trường có mức ô nhiễm không khí cao và ngược lại tại Trung Quốc
1.5 Ý nghĩa nghiên cứu
Đến nay, ung thư phổi vẫn là một trong số các bệnh ung thư phổ biến nhất, tỷ lệ mắc bệnh và tỷ lệ tử vong vẫn còn khá cao Do đó việc tầm soát các nguy cơ, nguyên nhân dẫn đến ung thư là một vấn đề thiết yếu và quan trọng Biết các nguyên nhân gây ra ung thư phổi có thể giúp mọi người điều chỉnh thói quen và lối sống nhằm giảm thiểu nguy cơmắc bệnh lý về hô hấp Báo động cho những người nằm trong các nhóm đối tượng nguy
cơ trên, hãy khám sức khỏe tổng quát và tầm soát ung thư phổi định kỳ để có thể phát hiện và điều trị kịp thời các bệnh lý về phổi và ung thư phổi Giảm thiểu được các tỷ lệ tửvong do căn bệnh ung thư gây ra Thông qua bài nghiên cứu, nhóm chúng em đưa tới mọingười các thông tin nguyên nhân gây ra ung thư phổi Từ đó sẽ giúp phát hiện ra các vấn
đề về ung thư phổi và phòng tránh một cách tốt nhất
1.6 Cấu trúc đề tài
Bao gồm 5 chương:
Chương 1: Tổng quan về đề tài
Chương 2: Cơ sở lý thuyết
Trang 9Chương 3: Phân tích yêu cầu người dùng và mô tả dữ liệuChương 4: Phân tích dữ liệu và kết quả
Chương 5: Kết luận
Trang 10CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về khoa học dữ liệu:
Khoa học dữ liệu (Data Science) là một lĩnh vực thuộc về khoa học có nhiệm vụ quản trị
và phân tích các dữ liệu để có thể tìm ra những kiến thức, hiểu biết, những tri thức và các quyết định để từ đó đưa ra những hành động một cách hợp lí và hiệu quả nhất Là lĩnh vực nghiên cứu có ý nghĩa quan trọng đối với các lĩnh vực trong cuộc sống đặc biệt là kinh doanh quản lý Việc phân tích khoa học dữ liệu sẽ hỗ trợ bạn trong việc thực hiện khảo sát, đặt ra những câu hỏi, phân tích kết những kết quả thu được và trả lời những câu hỏi được đặt ra ví dụ như điều gì đã xảy ra, nguyên nhân là từ đâu, và điều gì sẽ xảy ra trong tương lai sẽ có những ảnh hưởng như thế nào và phải làm gì, làm thế nào để từ đó đưa ra được những quyết định và hành động phù hợp Đây cũng chính là mục tiêu chính của ngành Khoa học dữ liệu
- Khoa học dữ liệu bao gồm ba phần chính là: tạo ra và quản trị dữ liệu, phân tích dữ liệu
và phân tích thành giá trị hành động Việc phân tích và dùng dữ liệu được dựa trên ba nguồn tri thức gồm: toán học (thống kê toán học), tri thức của lĩnh vực ứng dụng cụ thể
và công nghệ thông tin (máy học)
- Khoa học dữ liệu mang trong nó 2 nhiệm vụ chính:
+ Một là, thu thập những dữ liệu để tìm ra những kết quả thật sự sâu sắc và có giá trị;+ Hai là, giải thích và trình bày những kết quả thật sự có giá trị đó để chuyển hóa những giá trị đó thành những hành động có thể áp dụng trong nhiều lĩnh vực trong cuộc sống
- Khoa học dữ liệu là sự tập hợp đa dạng các lĩnh vực khác nhau hay có thể được nói là một trong những phương thức tiếp cận đa ngành Một số các lĩnh vực của khoa học dữ liệu có thể được nói đến là: Khai thác dữ liệu (Data Mining), thống kê (Statistic), học máy (machine learning), học sâu (deep learning), phân tích (analyze), lập trình
(programming)
2.2 Lợi ích của Khoa học dữ liệu trong kinh doanh quản lý:
- Cuộc cách mạng công nghiệp lần thứ IV với xu hướng của công nghệ số và trí tuệ nhân tạo làm cho cuộc sống của chúng ta càng ngày càng tiến bộ và hiện đại hơn Vì thế, ngành Khoa học dữ liệu có vai trò rất quan trọng và được sử dụng rộng rãi trong hầu hết các lĩnh vực của cuộc sống Chúng ta có thể kể đến một số lĩnh vực tiêu biểu như:
+ Ứng dụng trong ngành y tế: Từ lúc có sự xuất hiện của khoa học dữ liệu, ngành y tế nóichung và chăm sóc sức khỏe nói riêng đều có những bước phát triển quan trọng Và rất nhiều nhà nghiên cứu khoa học tập trung vào lĩnh vực này đặc biệt là trong giai đoạn dịchbệnh Covid-19 phức tạp vừa qua Họ phân tích hình ảnh y khoa dựa trên những hình ảnh, hoạt động của con virus đó để xem cách thức hoạt động của nó như thế nào để có thể xác
Trang 11định được những đặc điểm, đặc trưng và biểu hiện của bệnh đó như thế nào góp phần đưa
ra những chẩn đoán giúp bác sĩ có thể nghiên cứu những loại thuốc hay vắc xin để khống chế và tiêu diệt nó Ngoài ra còn giúp bác sĩ có thể nghiên cứu rõ hơn về di truyền học và trợ lý sức khỏe (uống loại thuốc nào, uống như thế nào, …) Ngoài ra, Khoa học dữ liệu còn kết hợp với trí tuệ nhân tạo (Al) trở thành ứng dụng theo dõi và quản lý sức khỏe.+ Ứng dụng trong kinh doanh, quản lý: tương tự như ngành y tế và các ngành khác kinh doanh, quản lý cũng có những bước phát triển tiến bộ hơn Đây cũng là một lĩnh vực vô cùng quan trọng Dựa trên những dữ liệu đã phân tích và các mô hình như phân tích dự báo, phân tích khuyến cáo và mô tả đưa vào phân tích kinh doanh để dự báo rủi ro, báo lỗi cũng như điều phối các hoạt động của hệ thống và có thể giải quyết được 6 bài toán của doanh nghiệp: tài chính, khách hàng, bán hàng, thị trường, nhân sự và vận hành sản xuất Và có thể kể đến mô hình đã áp dụng Khoa học dữ liệu thành công giúp cho các nhàsản xuất, kinh doanh quản lý hiệu quả hơn doanh nghiệp của mình đó chính là mô hình phân lớp, phân cụm dữ liệu hay nói rõ hơn là phân cụm khách hàng Nhờ những dữ liệu thu thập được và quả quá trình xử lý, phân tích xem doanh nghiệp có đang cung cấp những mặt hàng, dịch vụ mà khách hàng mong muốn hay không; khách hàng có hài lòng
về trải nghiệm khi mua hàng và sử dụng dịch vụ của doanh nghiệp hay không; và đặc biệt
là khách hàng có hài lòng về chất lượng của sản phẩm không nếu có thì mức độ hài lòng
là bao nhiêu nếu không thì vì nguyên nhân nào dẫn đến sự không hài lòng ấy Sau khi phân tích được những điều đó, nhà quản lý doanh nghiệp sẽ có thể xác định được sự hài lòng của khách hàng, khách hàng trung thành, các chiến lược quảng cáo để thu hút khách hàng hay nguyên nhân vì sao doanh nghiệp mất khách, … Từ đó sẽ giúp những nhà kinh doanh, quản lý đưa ra được những hành động, quyết định hợp lý để thúc đẩy quá trình hoạt động và giúp doanh nghiệp phát triển hơn trong tương lai
2.3 Quy trình thực hiện dự án Khoa học dữ liệu
Một dự án Khoa học dữ liệu bao gồm nhiều bước thu thập và phân tích dữ liệu để đánh giá được 1 kết quả tốt nhất Trong được tổng hợp thành 5 giai đoạn chính sau:
Giai đoạn 1: Đặt câu hỏi, đưa ra giả thiết và dự báo về vấn đề cần kiểm tra.
Trước khi đi vào phân tích, cần phải đặt ra giả thiết cho vấn đề đó và dựa vào nó để trích xuất dữ liệu phù hợp Giả thiết thường dựa trên việc đặt ra các câu hỏi cơ bản, phổ biến
và dự báo về trường hợp có thể xảy ra Từ đó, người làm Khoa học dữ liệu cùng các bên liên quan sẽ đi khai phá dữ liệu, tìm hiểu cho ra kết quả đánh giá giả thiết và dự đoán của họ
Giai đoạn 2: Thu thập và hiểu dữ liệu.
Thu thập dữ liệu là Quan sát, đo lường, hoặc thu thập các giá trị đặc trưng (đặc điểm, thuộc tính, giá trị, biến) của sự vật, hiện tượng cần xem xét
Trang 12Hiểu dữ liệu (Data understanding) là Kiểm tra tình trạng dữ liệu để xác định dữ liệu đang
có liệu có phù hợp với mục tiêu khai thác hay không
Giai đoạn 3: Chuẩn bị và phân tích dữ liệu.
Thực hiện các bước tiền xử lý để chuẩn hóa dữ liệu sẵn sàng cho các giai đoạn tiếp theo Giai đoạn này thường chiếm đến 90% thời gian của cả quy trình Quy trình phân tích dữ liệu gồm những bước sau:
1 Data cleaning: làm sạch dữ liệu
2 Data integration and transformation: Tích hợp và chuyển đổi dữ liệu
3 Data reduction (instances and dimensions): rút gọn dữ liệu (trường hợp và kích thước)
4 Data discretization: rời rạc hóa dữ liệu
Giai đoạn 4: Mô hình hóa dữ liệu, thử nghiệm và điều chỉnh các mô hình phân tích khác nhau.
Phân tích dữ liệu đòi hỏi cần sử dụng nhiều thuật toán, công cụ và phương pháp phân tíchkhác nhau để rút ra ý nghĩa Xây dựng mô hình bằng dữ liệu thu thập được và thực hiện
áp dụng các thuật toán, phương pháp cần thiết và phân tích thống kê
1 Mô hình hóa theo phương pháp thống kê
- Phân tích mô tả
§ Hàm, công cụ thống kê
§ Báo cáo tổng hợp nhóm với Subtotal
§ Hợp nhất dữ liệu với Consolidate
§ Tổng hợp dữ liệu đa chiều với PivotTable
- Phân tích dự báo
§ Trung bình trượt (Moving Average)
Trang 13§ San bằng mũ (Exponential Smoothing)
§ Hồi quy (Regression)
- Phân tích tối ưu
§ Lập mô hình tối ưu
§ Sử dụng công cụ SOLVER để giải mô hình tối ưu
2 Mô hình hóa theo phương pháp phân lớp
- Một số phương pháp phân lớp
§ Hồi quy Logistic (Logistic Regression)
§ Cây quyết định (Decision Tree)
§ SVM (Support Vector Machine)
- Các phương pháp đánh giá mô hình phân lớp
§ Ma trận nhầm lẫn (Confusion matrix)
§ Độ chính xác (Accuracy)
§ ROC, AUC, Precision/Recall
§ Cross Validation: Holdout và K-fold cross validation
3 Mô hình hóa theo phương pháp phân cụm
- Một số phương pháp phân cụm
§ Hierarchical clustering: Agnes, Diana
§ Partitioning clustering: K-means, Fuzzy C-means
- Đánh giá mô hình phân cụm
§ Đánh giá ngoài (external validation)
§ Đánh giá nội bộ (internal validation)
§ Đánh giá tương đối (relative validation)
Trang 14Sau nhiều lần thí nghiệm chạy thử các mô hình khác nhau, người làm Khoa học dữ liệu lựa chọn được mô hình phù hợp để chạy phân tích cho ra kết quả
Giai đoạn 5: Diễn giải và đánh giá kết quả.
Kỹ năng diễn giải kết quả là một kỹ năng không kém phần quan trọng trong một dự án Khoa học dữ liệu bởi có thu hút người nghe quan tâm đến kết quả mình hay không dựa vào khả năng trình bày và giải thích
Nhóm thực hành dự án cần chuẩn bị một số phương tiện để diễn giải một cách hiệu quả logic Tạo ra các sơ đồ, đồ thị và biểu đồ để thể hiện những xu hướng và dự đoán đánh giá về kết quả Tóm tắt dữ liệu giúp các bên liên quan hiểu rõ và triển khai kết quả một cách có hiệu quả
2.4 Lý thuyết về các phương pháp trong phân tích dữ liệu
2.4.1 Lý thuyết về phần mềm Orange
2.4.1.1 Khái niệm
Khai phá dữ liệu (Data Mining) và học máy (Machine Learning) là các lĩnh vực khá phứctạp để nghiên cứu và khám phá Vì vậy, đã có nhiều phần mềm ra đời để khắc phục những vấn đề khó khăn và phức tạp này Trong số đó ta có thể kể đến một phần mềm có thể được coi là thông dụng nhất đó chính là Orange
Orange được biết đến là một công cụ được lập trình bằng Python với giao diện trực quan
và rất dễ dàng để tương tác Phần mềm Orange có thể dùng để tích hợp các công cụ khai phá dữ liệu và học máy thông minh, đơn giản
Orange là giải pháp phần mềm Self-Service Business Intelligence Software với chức năng và chi phí phù hợp cho các loại hình doanh nghiệp từ nhỏ và vừa (SMEs) tới các doanh nghiệp lớn Phần mềm Orange được đánh giá cao bởi cả người dùng lẫn chuyên gia trong lĩnh vực Business Intelligence Software
2.4.1.2 Chức năng
Các công cụ (widgets) trong phần mềm Orange cung cấp các nhóm chức năng cơ bản nhưđọc dữ liệu, hiển thị dữ liệu dưới dạng bảng, cho phép lựa chọn các thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để đưa ra dự đoán, qua đó cũng có thể so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu,
Data: Được sử dụng để rút, trích, biến đổi và nạp dữ liệu (ETL process) File được sử dụng để đọc các dữ liệu đầu vào (thông thường là bảng dữ liệu với các trường hợp dữ liệu) và gửi các tập dữ liệu đầu vào đến kênh đầu ra Trên mục File sẽ thể hiện dữ liệu gần nhất được chọn và lịch sử các dữ liệu đã chọn trước đó File đọc được các dữ liệu từ
Trang 15Excel (.xlsx), được phân tách bằng tab đơn giản (.txt), các tệp được phân tách bằng dấu phẩy (.csv) hoặc URL.
Visualize: Dùng để biểu diễn dữ liệu dưới dạng các biểu đồ (chart) giúp cho quá trình quan sát dữ liệu tốt hơn
Model: Bao gồm các hàm máy học (có giám sát) phân lớp dữ liệu với các mô hình Tree, Logistic Regression, SVM,
Evaluate: là các phương pháp dùng để đánh giá các mô hình học có giám sát như: Test & Score, Prediction, Confusion,
Unsupervised: bao gồm các hàm máy học (học không giám sát) được sử dụng để gom nhóm để phân cụm dữ liệu như: Distance, Kmeans,
Add ons: Giúp mở rộng các chức năng nâng cao như xử lý dữ liệu lớn (Big data) với Spark, xử lý hình ảnh với Deep learning, xử lý văn bản, phân tích mạng xã hội, Đây được xem như một điểm cộng nổi bật làm cho Orange vượt trội hơn so với các phần mềmkhai phá dữ liệu khác
2.4.2 Tổng quan về các phương pháp
2.4.2.1 Tiền xử lí dữ liệu
Tiền xử lý dữ liệu là một những trong những bước cực kỳ quan trọng để giải quyết, xử lý bất kỳ vấn đề trong lĩnh vực Học Máy Song với đó cũng giúp việc khai phá dữ liệu hiệu quả và chính xác hơn Những dữ liệu được khai thác trong lĩnh vực Học Máy cần được biến đổi, làm sạch và xử lý trước, như vậy mới có thể bảo đảm được dữ liệu một cách tốt nhất Tiền xử lý dữ liệu gồm có các quá trình sau: làm sạch dữ liệu, tích hợp và biến đổi
dữ liệu, rút gọn dữ liệu Ngoài ra, các kỹ thuật tiền xử lý dữ liệu ngày càng phổ biến hơn, hiện nay gồm có: xử lý dữ liệu bị thiếu, chuẩn hóa dữ liệu, mã hóa các biến nhóm, co giãn dữ liệu, …
2.4.2.2 Tích hợp dữ liệu
Tích hợp dữ liệu nhằm mục đích kết hợp dữ liệu không đồng nhất từ nhiều nguồn khác nhau vào một kho dữ liệu và có thể truy vấn, cung cấp cho người dùng một cái nhìn thống nhất về chúng Những nguồn dữ liệu này có thể bao gồm các cơ sở dữ liệu
(database), khối dữ liệu (data cube) hoặc file
Các vấn đề thường gặp:
+ Nhận dạng thực thể
+ Vấn đề dư thừa dữ liệu
Trang 16+ Vấn đề mâu thuẫn giá trị dữ liệu
2.4.2.3 Chuyển đổi dữ liệu
Là quá trình sửa đổi, tính toán, phân tách và kết hợp dữ liệu thô thành các mô hình dữ liệu sẵn sàng phân tích Mô hình dữ liệu là những đại diện của thực tế có thể dễ dàng chuyển thành chỉ số, báo cáo và trang tổng quan để giúp người dùng hoàn thành các mục tiêu cụ thể
Các bước trong chuyển đổi dữ liệu:
+ Làm trơn dữ liệu (Smoothing): là phương thức xử lý dữ liệu để loại bỏ nhiễu ra khỏi bộ
dữ liệu Điều này cho phép các mẫu và xu hướng quan trọng trở nên nổi bật Ví dụ: Số lượng khách hàng ở từng chi nhánh khác nhau Thay vì kiểm tra từng khách hàng, các con số tổng của khách hàng ở từng chi nhánh sẽ được hiển thị trên hệ thống
+ Khái quát hóa dữ liệu (Generalization): chuyển đổi dữ liệu thô thành các khái niệm cấp cao hơn nhờ phân cấp ý niệm
+ Chuẩn hóa dữ liệu (Normalization): là phương pháp phân tách bảng có cấu trúc phức tạp thành những bảng có cấu trúc đơn giản hơn mà không làm mất thông tin dữ liệu Các giá trị được chuyển đổi vào một miền nhất định đã được định nghĩa trước Kết quả là sẽ làm giảm bớt sự dư thừa và loại bỏ những sự cố mâu thuẫn về dữ liệu, tiết kiệm được không gian lưu trữ
+ Xây dựng thuộc tính: thuộc tính mới được thêm hoặc tạo từ tập có sẵn Lợi ích cho kiểm tra tính chính xác và phát hiện ra sự sai sót về mối quan hệ của dữ liệu.
2.4.2.4 Rút gọn dữ liệu
Là làm giảm kích thước dữ liệu bằng việc kết hợp dữ liệu, bỏ đi các đặc điểm dư thừa mà
dữ liệu gốc vẫn giữ được tính nguyên vẹn Việc sử dụng dữ liệu đã rút gọn để khai thác hiệu quả hơn khi dùng dữ liệu gốc
Các giai đoạn chính của quá trình rút gọn:
+ Kết hợp khối dữ liệu (data cube aggregation): các phép toán tổng hợp được áp dụng
Dữ liệu ở các mức trừu tượng khác nhau Mức trừu tượng càng cao - lượng thu giảm dữ liệu càng lớn
+ Chọn tập con các thuộc tính (attribute subset selection): giảm kích thước tập dữ liệu bằng cách loại bỏ các thuộc tính không thích hợp (redundant/irrelevant)
+ Thu giảm chiều (dimensionality reduction) dùng cơ chế mã hóa
Trang 17+ Thu giảm lượng (numerosity reduction): dữ liệu được thay thế bằng dữ liệu khác, giảm
về số lượng bằng các phương pháp có thông số (parametric) hay các phương pháp phi tham số (nonparametric method) như gom cụm (clustering), lấy mẫu (sampling), và sử dụng các lược đồ (histogram)
+ Rời rạc hóa (discretization): nghĩa là những giá trị dữ liệu thô sẽ được thay thế bằng các mức khái niệm cao hơn Được tiến hành bằng 2 cách: dưới lên - bottom up hoặc trên xuống - top down và không có giám sát (unsupervised) hoặc có giám sát (supervised).+ Xây dựng cây phân cấp khái niệm (concept hierarchy generation): hỗ trợ khai thác dữ liệu của khái niệm ở nhiều mức độ khác nhau
2.4.3 Tổng quan về bài toán phân lớp dữ liệu
2.4.3.1 Định nghĩa
Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu
2.4.3.2 Các mô hình phân lớp dữ liệu
Mô hình Logistic Regression (Hồi quy): là một mô hình xác suất dự đoán giá trị đầu ra
rời rạc từ một tập giá trị đầu vào (biểu diễn dưới dạng vectơ), bằng cách dự đoán xác suấthoặc cơ hội xảy ra giúp suy ra mối quan hệ giữa biến phụ thuộc và các biến độc lập Việc này tương đương với chuyện phân loại các đầu vào x vào các nhóm y tương ứng
Có ba dạng hồi quy Logistic:
• Hồi quy nhị phân: biến phụ thuộc chỉ có hai kết quả/ lớp có thể xảy ra
• Hồi quy đa thức: biến phụ thuộc chỉ có hai hoặc ba kết quả/ lớp trở lên có thể có mà thứ
tự được xếp ngẫu nhiên
• Hồi quy thông thường: biến phụ thuộc chỉ có hai hoặc nhiều hơn ba kết quả/ lớp có thể
có được xếp theo đúng thứ tự
Trang 18Hình 2.1 Ví dụ minh họa về mô hình Logistic Regression
Mô hình Decision Tree (Cây quyết định)
Là một cây phân cấp có cấu trúc dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary), định danh (Nominal), thứ tự (Ordinal), số lượng (Quantitative) trong khi đó thuộc tính của phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal Trong lý thuyết quảntrị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định
Trong lĩnh vực khai phá dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại vàtổng quát hóa tập dữ liệu cho trước Khi đó, cây quyết định mô tả một cấu trúc cây, trong
đó, các lá đại diện cho phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫnđến phân loại đó Ví dụ: Một người nghĩ đến việc mở một cửa hàng bán lẻ (mà thành công của nó phụ thuộc vào chi tiêu của người tiêu dùng và bởi vậy phụ thuộc vào thực trạng của nền kinh tế) sẽ có cây quyết định như hình dưới đây
Hình 2.2 Ví dụ minh họa về Decision Tree
Mô hình Support Vector Machine (SVM)
Là một mô hình có giám sát, mô hình này nhận dữ liệu đầu vào và xem chúng như nhữngvector trong không gian, sau đó phân loại chúng vào các lớp khác nhau bằng cách xây dựng 1 siêu phẳng trong không gian đa chiều nhằm làm mặt phân cách các lớp dữ liệu
Trang 19Đây là một phương pháp có thể tìm ra một siêu phẳng có thể chia các điểm trên không gian này thành các lớp riêng biệt nhau Chất lượng của nó phụ thuộc vào khoảng cách biên của một điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này Khoảng cách biên càng lớn thì càng có sự phân chia tốt các điểm ra thành hai lớp, nghĩa là sẽ đạt được kết quả phân loại tốt Như vậy, để tối ưu hoá kết quả, ta xác định một mặt phẳng siêu phẳng
có khoảng cách đến điểm dữ liệu của tất cả các lớp xa nhất có thể
Hình 2.3 Ví dụ về một mô hình SVM
Mô hình Neural Network (Mạng nơ-ron nhân tạo)
Là một chuỗi các thuật toán được đề ra nhằm tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu bằng cách bắt chước cách thức hoạt động của não bộ con người Neural network thích ứng với toàn bộ các điều chỉnh từ đầu vào đồng thời cho ra kết quả đầu ra tốt nhất nên không cần phải thiết lập lại từ đầu các cài đặt ở đầu ra Neural Network bắt nguồn từ trí tuệ nhân tạo và dần phổ biến hơn trong các lĩnh vực giao dịch điện tử
Đặc điểm chính của mô hình:
+ Hỗ trợ các sự phát triển các quy trình như: giao dịch thuật toán, dự báo chuỗi thời gian, phân loại chứng khoán, mô hình rủi ro tín dụng, …
+ Hoạt động như một mạng lưới nơron của con người, mỗi nơron là một hàm toán học thực hiện chức năng thu thập và phân loại các thông tin dựa trên 1 cấu trúc cụ thể
+ Có sự tương đồng khá nhiều với các phương pháp đồ thị đường cong và phương pháp hồi quy
+ Nó bao hàm các nút mạng liên kết với nhau, mỗi nút là một tập hợp tri giác được sắp xếp theo các lớp liên kết với nhau Các lớp này sẽ thu thập thông tin, sau đó phân loại và phát tín hiệu đầu ra tương ứng
Trang 20Hình 2.4 Ví dụ về cấu trúc của mô hình Neural Network
c) Quy trình thực hiện phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm 2 bước chính:
Bước 1: Xây dựng mô hình (còn được gọi là giai đoạn “học” hay “huấn luyện”) Trong
đó, dữ liệu đầu vào là dữ liệu mẫu đã được gán nhãn dán và tiền xử lý và kết quả của bước này gọi mà mô hình phân lớp đã được huấn luyện
Bước 2: Sử dụng mô hình chia làm 2 bước nhỏ:
1 Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
Để kiểm tra sự hiệu quả khi áp dụng mô hình với dữ liệu cụ thể, nhằm đi đến quyết định
“sử dụng” hay “không sử dụng” mô hình này
a) Confusion Matrix - Ma trận nhầm lẫn: ma trận nêu ra số điểm dữ liệu thực sự thuộc vào một lớp cụ thể, thêm vào đó là dự đoán là rơi vào lớp nào
b) Precision - độ chính xác: tính toán khi m mẫu phân vào lớp i thì tỷ lệ đúng là bao nhiêu
→ Sau khi đánh giá, rút ra được kết luận trong 3 trường hợp sau đây: underfitting,
overfitting, good fitting Thì trong những mô hình đúng, cái đơn giản nhất là cái tốt nhất c) ROC (Receiver Operating Characteristic): đồ thị ứng dụng khá phổ biến để đánh giá các mô hình phân loại nhị phân
Trang 21
Hình 2.5 Ví dụ minh họa về ROC
d) AUC (Area Under the Curve): phần diện tích nằm dưới đường cong ROC Có giá trịdương <=1 Giá trị này càng lớn chứng tỏ mô hình càng tốt
Hình 2.6 Ví dụ minh họa về AUC
2 Phân lớp dữ liệu mới
Dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1
e) Tính hiệu quả của mô hình phân lớp
- Một vài ứng dụng tiêu biểu của mô hình phân lớp: Marketing, chẩn đoán Y học, tín dụng, tiếp thị, giáo dục, phân tích đồ thị hiệu quả, …
Trang 22- Phương pháp phân lớp dữ liệu đặt ra nhu cầu là từ một cơ sở dữ liệu với nhiều thông tin
ẩn con người có thể trích ra các quyết định nghiệp vụ thông minh Phân lớp và dự đoán nhằm đưa ra một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hướng dữ liệutương lai Phân lớp dự đoán giá trị của những nhãn xác định (categorical label) hay những giá trị rời rạc (discrete value), có nghĩa là phân lớp thao tác với những đối tượng
dữ liệu mà có bộ giá trị là biết trước Trong khi đó, dự đoán xây dựng mô hình với các hàm nhận giá trị liên tục Có thể thấy trong thực tế có rất nhiều ứng dụng của bài toán phân lớp dữ liệu: mô hình dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ, … của ngày hôm nay và các ngày trước đó Hay nhờ vào việc phân tích dữ liệu của các luật xu hướng mua hàng của khách hàng trong siêu thị, các nhân viên kinh doanh để đưa ra những quyết sách đúng đắn về lượng mặt hàng, chủng loại bày bán… Ngoài ra, một mô hình dự đoán có thể dự đoán được lượng tiền tiêu dùng của các khách hàng tiềm năng dựa trên những thông tin
về thu nhập và nghề nghiệp của khách hàng
Trang 23CHƯƠNG 3 PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MÔ TẢ
DỮ LIỆU
3.1 Xác định và phân tích yêu cầu người dùng
Ung thư phổi là một trong số những loại bệnh rất nguy hiểm và có mức độ dẫn đến tử vong cao Nó được xem là nguyên nhân hàng đầu gây tử vong do ung thư trên thế giới
Đã có rất nhiều các nhà nghiên cứu phát hiện ra được những nguyên nhân chủ yếu dẫn đến ung thư phổi nhưng hầu hết là do hút thuốc Nhưng trong một vài nghiên cứu ở TrungQuốc cũng đã cho rằng ô nhiễm không khí cũng là một trong những nguyên nhân gây nênbệnh ung thư phổi Các nhà nghiên cứu phát hiện ra những người sống trong môi trường
ô nhiễm cao có khả năng mắc bệnh nhiều hơn những người ở trong môi trường ô nhiễm thấp Vì thế, để có thể hiểu rõ, dự đoán khả năng bệnh nhân mắc bệnh, tỉ lệ mắc bệnh giữa nam và nữ, xác định được đâu là nguyên nhân chủ yếu có thể có nguy cơ cao dẫn đến ung thư phổi dựa chúng em đã dựa vào các thông tin từ bộ dữ liệu ở Trung Quốc về các bệnh nhân ung thư phổi, gồm những thông tin về tuổi, giới tính, mức độ tiếp xúc với
ô nhiễm không khí, sử dụng rượu, dị ứng bụi, nguy cơ nghề nghiệp, nguy cơ di truyền, bệnh phổi mãn tính, chế độ ăn uống cân bằng, béo phì, tình trạng hút thuốc, và cả tình trạng hút thuốc thụ động để từ đó có thể đưa ra được những cách chăm sóc sức khỏe cũngnhư biện pháp hợp lý để làm giảm thiểu khả năng mắc bệnh xuống mức thấp nhất Và quan trọng hơn là bên cạnh đó có thể xác định được những phương pháp điều trị hiệu quảcho những người mắc bệnh này
3.2 Tổng quan về cơ sở dữ liệu nguồn
3.2.1 Tiền xử lý dữ liệu
Trước hết ta tiến hành xử lý dữ liệu bằng các bước có trong phần mềm orange:
Hình 3.1 Các bước tiến hành xử lý dữ liệu
Nạp dữ liệu: mở tệp Lung cancer.xlsx