1. Trang chủ
  2. » Giáo Dục - Đào Tạo

DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS

14 62 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân lớp và dự báo bộ dữ liệu IRIS
Tác giả Nguyễn Thị Thùy Linh, Nguyễn Thị Thảo Ly, Nguyễn Công Minh, Nguyễn Nữ Phương Nhiên, Bùi Phạm Dĩm Trinh
Người hướng dẫn Thầy Võ Thành Đức
Trường học Trường đại học UEH
Chuyên ngành Khoa học dữ liệu
Thể loại Dự án cuối kỳ
Năm xuất bản 2022
Thành phố TP HCM
Định dạng
Số trang 14
Dung lượng 1,97 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ứng dụng kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu nhằm xây dựng hệ thống đánh giá là một trong những hướng nghiên cứu chính của dự án... Logistic Regression Hồi quy logistic là m

Trang 1

BỘ GIÁO DỤC & ĐÀO TẠO TRƯỜNG ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC

DỰ ÁN CUỐI KÌ

ĐỀ TÀI: PHÂN LỚP VÀ DỰ BÁO BỘ DỮ LIỆU IRIS

Môn học: Khoa học dữ liệu GVHD: Thầy VÕ THÀNH ĐỨC LHP: 22D1INF50905909

Nhóm sinh viên thực hiện:

 NGUYỄN THỊ THÙY LINH

 NGUYỄN THỊ THẢO LY

 NGUYỄN CÔNG MINH

 NGUYỄN NỮ PHƯƠNG NHIÊN

 BÙI PHẠM DIỄM TRINH

TP HCM, ngày 27 tháng 03 năm 2022

Trang 2

MỤC LỤC

LỜI CẢM ƠN 1

I GIỚI THIỆU: 1

1.1 Lý do chọn đề tài 2

1.1.1 Mục tiêu nghiên cứu: 2

1.1.2 Đối tượng nghiên cứu: 2

1.1.3 Câu hỏi nghiên cứu: 2

1.2 Một số phương pháp phân lớp 2

II THU THẬP VÀ LÀM SẠCH DỮ LIỆU 3

Mô tả tổng quát dữ liệu 3

Sơ lược về các thuộc tính và xác định biến mục tiêu 3

Các bước và giải pháp làm sạch dữ liệu 4

III KIỂM ĐỊNH MÔ HÌNH 5

 Test and Score 6

 Ma trận nhầm lẫn 7

+ Hồi quy Logistic Regression 7

+ Tree 7

+ SVM 8

IV ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH 8

Dự báo 9

V TRIỂN KHAI MÔ HÌNH 10

5.1 Mục tiêu của việc triển khai mô hình: 10

5.1.1 Ứng dụng trong y khoa: 10

5.1.2: Ứng dụng trong kinh tế: 11

5.2 Hiệu quả kinh tế của mô hình: 11

VI ĐÁNH GIÁ 12

Trang 3

LỜI CẢM ƠN

Nhóm em xin gửi lời cảm ơn chân thành và sâu sắc đến thầy VÕ THÀNH ĐỨC, giảng viên bộ môn Khoa học dữ liệu của trường Đại học Kinh Tế TP HCM Trong quá trình tìm hiểu và học tập, nhóm em đã nhận được sự giảng dạy và hướng dẫn rất tận tình, tâm huyết của thầy Thầy đã giúp nhóm em tích lũy thêm nhiều kiến thức hay và bổ ích Tuy nhiên, kiến thức về bộ môn của nhóm em còn những hạn chế nhất định Trong quá trình làm đề tài dự án khó tránh khỏi sai sót, rất mong thầy bỏ qua Đồng thời do trình

độ lý luận cũng như kinh nghiệm thực tiễn còn hạn chế nên bài báo cáo không thể tránh khỏi những thiếu sót, nhóm em rất mong nhận được ý kiến đóng góp của thầy để bài dự

án của nhóm em được hoàn thiện hơn

Một lần nữa, nhóm em xin trân trọng cảm ơn sự quan tâm giúp đỡ của thầy trong quá trình làm bài dự án này Kính chúc thầy luôn dồi dào sức khỏe, niềm tin để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau

Nhóm em xin chân thành cảm ơn!

I GIỚI THIỆU:

Ứng dụng công nghệ thông tin vào việc lưu trữ và xử lý thông tin ngày nay được áp dụng hầu hết trong mọi lĩnh vực, điều này đã tạo ra một lượng lớn dữ liệu được lưu trữ với kích thước tăng lên không ngừng Đây chính là điều kiện tốt cho việc khai thác kho dữ liệu để đem lại tri thức có ích với các công cụ truy vấn, lập bảng biểu

và khai phá dữ liệu

Khai phá dữ liệu là một kỹ thuật dựa trên nền tảng của nhiều lý thuyết như xác xuất, thống kê, máy học nhằm tìm kiếm các tri thức tiềm ẩn trong các kho dữ liệu có kích thước lớn mà người dùng khó có thể nhận biết bằng những kỹ thuật thông thường Bộ dữ liệu Iris dataset chứa đựng ý nghĩa về y khoa và kinh tế rất lớn, nếu áp dụng khai phá dữ liệu trong hai lĩnh vực này sẽ mang lại nhiều ý nghĩa Nó sẽ cung cấp những thông tin quý giá nhằm hỗ trợ trong việc dự báo để chế tạo thuốc hay ứng dụng trong kinh tế

Để minh chứng cho những lợi ích mà việc dự báo mang lại, nhóm em quyết

định thực hiện dự án “Phân lớp và dự báo bộ dữ liệu Iris” để thử nghiệm và đánh

giá Ứng dụng kỹ thuật phân lớp dữ liệu trong khai phá dữ liệu nhằm xây dựng hệ thống đánh giá là một trong những hướng nghiên cứu chính của dự án

Trang 4

Hình 1: Quá trình khai phá dữ liệu

1.1 Lý do chọn đề tài

1.1.1 Mục tiêu nghiên cứu:

Dùng dự báo phân lớp để phân loại các loài hoa nhằm mục đích ứng dụng trong sản suất y khoa và tối đa hóa năng suất, lợi nhuận kinh tế

1.1.2 Đối tượng nghiên cứu:

Sử dụng bộ dữ liệu Iris dataset trên phần mềm Orange rồi tiến hành dự án

1.1.3 Câu hỏi nghiên cứu :

 Với 1 bông hoa diên vĩ (iris), liệu có thể phân loại nó thành setosa, versicolor hay virginica dựa trên những phép đo không?

 Nếu việc phân loại các loài chỉ mang tính chất tương đối thì tỉ lệ dự báo nhầm lẫn giữa các loài có cao không và nó có ảnh hưởng nhiều không?

 Ứng dụng vào thực tiễn sau khi phân loại hoa Iris là gì?

1.2 Một số phương pháp phân lớp.

Logistic Regression

Hồi quy logistic là một phương pháp phân tích thống kê để dự đoán một kết quả nhị phân, chẳng hạn như có hoặc không, dựa trên các quan sát trước đó của một tập dữ liệu Mô hình hồi quy logistic dự đoán một biến dữ liệu phụ thuộc bằng cách phân tích mối quan

hệ giữa một hoặc nhiều biến độc lập hiện có

Decision Tree

Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ

đi kèm nhằm hỗ trợ quá trình ra quyết định

Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước

Trang 5

SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu

SVM (Support Vector Machine)

Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể

SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau

II THU THẬP VÀ LÀM SẠCH DỮ LIỆU

Mô tả tổng quát dữ liệu

Tập dữ liệu hoa Iris hoặc tập dữ liệu Iris của Fisher là tập dữ liệu đa biến được giới thiệu bởi nhà thống kê và nhà sinh vật học người Anh Ronald Fisher trong bài báo năm 1936 Việc sử dụng nhiều phép đo trong các vấn đề phân loại như một ví dụ về phân tích phân biệt tuyến tính Đôi khi nó được gọi là tập dữ liệu Iris của Anderson vì Edgar Anderson

đã thu thập dữ liệu để định lượng sự biến đổi hình thái của hoa Iris của ba loài liên quan Hai trong số ba loài được thu thập ở Bán đảo Gaspé "tất cả từ cùng một đồng cỏ, và được chọn vào cùng một ngày và được đo cùng lúc bởi cùng một người với cùng một bộ máy"

Bộ dữ liệu bao gồm 3 loài Iris (Iris setosa, Iris virginica và Iris Verscolor), trong đó mỗi loài có 50 mẫu

Sơ lược về các thuộc tính và xác định biến mục tiêu

Bộ dữ liệu bao gồm 150 quan sát và 5 thuộc tính với 4 thuộc tính kiểu số:

Độ dài đài hoa (sepal length)

Độ rộng đài hoa (sepal width)

Độ dài cánh hoa (petal length)

Trang 6

Độ rộng cánh hoa (petal width)

Và 1 thuộc tính còn lại là tên của loài hoa Iris (có 3 loài tất cả: Iris Setosa, Iris Versicolor, Iris Virginica) được dùng làm biến mục tiêu để xác định nó thuộc loài nào trong 3 loại trên

Các bước và giải pháp làm sạch dữ liệu

Role” của các thuộc tính:

Từ bộ dữ liệu “Iris” ban đầu, ta có được “Type” và “Role” của 5 thuộc tính như sau:

Đến đây, ta thực hiện quá trình xử lý bằng cách điều chỉnh các thuộc tính sang“Type” và

“Role” sao cho hợp lý Cụ thể:

Vì ở đây ta thực hiện xử lý dữ liệu nhằm mục đích dự báo cho biến đầu ra, cho nên ta sẽ chuyển “Role” của thuộc tính iris từ Feature => Target

Các thuộc tính của bộ dữ liệu đều được đưa vào mô hình nên “Role” của chúng vẫn giữ nguyên “ feature”

“Missing Value” trong bộ dữ liệu:

Trang 7

Để xử lý các mẫu có “Missing Value”, ta tiến hành thực hiện Preprocess, chọn Impute Missing Values, sau đó chọn Average/Most frequent nhằm mục đích điền những mẫu này bằng các giá trị trung bình hoặc các giá trị có tần số xuất hiện thường xuyên Sau khi thực hiện, ta có kết quả như sau:

Kết quả thu được ta tiến hành lưu giữ ở định dạng Excel, để từ đó ta tiếp tục lấy dữ liệu kết quả này tiến hành phân lớp

III KIỂM ĐỊNH MÔ HÌNH

- Đầu tiên, ta sẽ tiến hành nghiên cứu dữ liệu để tìm hiểu tất cả các loài thuộc tính khác nhau bằng cách sử dụng widget là Data table

Trang 8

- Ngoài ra, còn có thể sử dụng widget Distributions – dữ liệu các thuộc tính ở đây đã được phân phối theo biến mục tiêu một cách rất rõ ràng và dễ nhìn qua biểu đồ cột

Ví dụ: Đối với thuộc tính độ dài đài hoa, loài sentosa phân bổ từ 4-6 ( phần lớn là 5cm), loài

versicolor phân bổ từ 5-7 và loài virginica phân bổ từ 5-8

 Test and Score

Trang 9

Nhận xét kết quả:

Mô hình Tree có chỉ số AUC là 0.957 và Precision là 0.940

Mô hình SVM có chỉ số AUC là 0.998 và Precision là 0.966

Mô hình Logistic Regression có chỉ số AUC là 0.997 và Precision là 0.965

→ Vậy mô hình tốt nhất ở đây là SVM vì có chỉ số AUC và Precision cao nhất trong 3

mô hình

Tuy nhiên, để có thêm căn cứ về kiểm định mô hình nào là phù hợp nhất ta dùng ma trận nhầm lẫn (Confusion Matrix)

 Ma trận nhầm lẫn

+ Hồi quy Logistic Regression

→ Ta thấy được tỉ lệ dự đoán đúng giữa hai loài versicolor và virginica lần lượt là 96% và 93.5% Mặt khác, ta thấy tỉ lệ nhầm lẫn khi dự đoán loài versicolor thành virginica là 6.5% và ngược lại là 4.0%

+ Tree

Trang 10

→ Ta thấy được tỉ lệ dự đoán đúng giữa hai loài versicolor và virginica lần lượt là 90.5%

và 91.4% Mặt khác, ta thấy tỉ lệ nhầm lẫn khi dự đoán loài versicolor thành virginica là 8.6% và ngược lại là 8.7%

+ SVM

→ Ta thấy được tỉ lệ dự đoán đúng giữa hai loài versicolor và virginica lần lượt là 94.7%

và 95.1% Mặt khác, ta thấy tỉ lệ nhầm lẫn khi dự đoán loài versicolor thành virginica là 4.9% và ngược lại là 5.3%

֍ Vì loài virsicolor là loài có độc nên sự nhầm lẫn khi thực tế là loài virsicolor nhưng

được dự đoán là virginica sẽ đưa ra kết luận sai có hại Từ bảng ma trận nhầm lẫn ta thấy

mô hình SVM có tỉ lệ nhầm lẫn khi dự đoán loài versicolor thành virginica là thấp nhất (4.9%) → Mô hình SVM là tốt nhất

IV ĐÁNH GIÁ VÀ LỰA CHỌN MÔ HÌNH

* Qua các ma trận nhầm lẫn của các phương pháp phân lớp ta thấy được phương SVM tốt nhất trong bộ dữ liệu này vì có tỉ lệ dự đoán sai lệch thấp nhất và ta sẽ dùng phương pháp SVM để phân lớp dữ liệu

* Bên cạnh đó, chúng ta quan tâm đến AUC và Precision trong Test and Score Từ bảng kết quả => mô hình SVM là tốt nhất trong 3 mô hình vì có chỉ số AUC lớn nhất (0.998)

và có độ chính xác Precision cao nhất (0.966)

Trang 11

Dự báo

Trang 12

Với mô hình SVM ta có: AUC = 1 chứng tỏ mô hình rất tốt.

Ta lưu lại bảng dự báo dưới tên “Iris(pre)_end”

V TRIỂN KHAI MÔ HÌNH

5.1 Mục tiêu của việc triển khai mô hình:

5.1.1 Ứng dụng trong y khoa :

Để dựa trên những thuộc tính của 3 loài hoa đã phân lớp từ đó ứng dụng vào trong sản xuất y khoa Xét ma trận nhầm lẫn của mô hình SVM:

Trên thực tế, công dụng của loài hoa Iris là dùng để làm thuốc chữa bệnh ngoài da, đau lưng, cảm mạo, khó thở,…(trừ loài Versicolor vì nó có độc)

Dựa vào ma trận nhầm lẫn ta thấy dự báo nhầm lẫn là loài verginica => dự báo có hại Ngược lại là dự báo không có hại

Trang 13

2 : Ứng dụng trong kinh tế :

 Để dựa trên những thuộc tính của 3 loài hoa đã phân lớp từ đó ứng dụng vào trong sản xuất kinh tế Do có mùi thơm như hoa violet nên được thêm vào làm nước hoa và rượu thơm Đồng thời, hoa diên vĩ còn mang lại giá trị kinh tế cao

 Để một loài hoa đem lại hiệu quả kinh tế cao nhất trước tiên cần phải đáp ứng điều kiện sống của chúng với nhiều nhu cầu, chức năng cơ bản của loài thực vật Nhu cầu

cơ bản của loài thực vật đóng vai trò quan trọng đối với sự sống còn của nó (ví dụ, nhu cầu cần oxy, nước, chất dinh dưỡng, ánh sáng, nhiệt độ, )

Ví dụ: Loài Setosa

 Điều kiện sống của Setosa là thích nơi ẩm ướt, có bóng râm, ít ánh nắng mặt trời

Độ pH của đất <6.8, giàu chất dinh dưỡng

5.2 Hiệu quả kinh tế của mô hình:

Phân lớp các loài hoa dựa trên thuộc tính của mỗi loài đã giúp cho người nông dân trồng hoa và các nhà nghiên cứu sinh học, sản xuất có thể nhận biết ra môi trường sống thích hợp của từng loài Từ đó giúp tăng năng suất và chất lượng cây trồng Bên cạnh đó, việc phân lớp các loài hoa Iris cũng giúp cho người trồng tiết kiệm chi phí chăm sóc và tối đa hóa lợi nhuận

Trang 14

VI ĐÁNH GIÁ

ĐÁNH GIÁ ĐÓNG GÓP CỦA CÁC THÀNH VIÊN THAM GIA DỰ ÁN

Ngày đăng: 11/10/2022, 04:57

HÌNH ẢNH LIÊN QUAN

Hình 1: Quá trình khai phá dữ liệu - DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS
Hình 1 Quá trình khai phá dữ liệu (Trang 4)
Các thuộc tính của bộ dữ liệu đều được đưa vào mơ hình nên “Role” của chúng vẫn giữ nguyên “ feature” - DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS
c thuộc tính của bộ dữ liệu đều được đưa vào mơ hình nên “Role” của chúng vẫn giữ nguyên “ feature” (Trang 6)
III. KIỂM ĐỊNH MƠ HÌNH - DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS
III. KIỂM ĐỊNH MƠ HÌNH (Trang 7)
Mơ hình Logistic Regression có chỉ số AUC là 0.997 và Precision là 0.965 - DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS
h ình Logistic Regression có chỉ số AUC là 0.997 và Precision là 0.965 (Trang 9)
Mơ hình Tree có chỉ số AUC là 0.957 và Precision là 0.940 Mơ hình SVM có chỉ số AUC là 0.998 và Precision là 0.966 - DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS
h ình Tree có chỉ số AUC là 0.957 và Precision là 0.940 Mơ hình SVM có chỉ số AUC là 0.998 và Precision là 0.966 (Trang 9)
IV. ĐÁNH GIÁ VÀ LỰA CHỌN MƠ HÌNH - DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS
IV. ĐÁNH GIÁ VÀ LỰA CHỌN MƠ HÌNH (Trang 10)
được dự đoán là virginica sẽ đưa ra kết luận sai có hại. Từ bảng ma trận nhầm lẫn ta thấy mơ hình SVM có tỉ lệ nhầm lẫn khi dự đốn lồi versicolor thành virginica là thấp nhất (4.9%) → Mơ hình SVM là tốt nhất. - DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS
c dự đoán là virginica sẽ đưa ra kết luận sai có hại. Từ bảng ma trận nhầm lẫn ta thấy mơ hình SVM có tỉ lệ nhầm lẫn khi dự đốn lồi versicolor thành virginica là thấp nhất (4.9%) → Mơ hình SVM là tốt nhất (Trang 10)
Với mơ hình SVM ta có: AUC =1 chứng tỏ mơ hình rất tốt. Ta lưu lại bảng dự báo dưới tên “Iris(pre)_end”  - DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS
i mơ hình SVM ta có: AUC =1 chứng tỏ mơ hình rất tốt. Ta lưu lại bảng dự báo dưới tên “Iris(pre)_end” (Trang 12)
V. TRIỂN KHAI MÔ HÌNH - DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS
V. TRIỂN KHAI MÔ HÌNH (Trang 12)
5.2. Hiệu quả kinh tế của mơ hình: - DỰ án CUỐI kì đề tài PHÂN lớp và dự báo bộ dữ LIỆU IRIS
5.2. Hiệu quả kinh tế của mơ hình: (Trang 13)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w