Untitled ĐẠI HÞC UEH TR¯âNG KINH DOANH KHOA CÔNG NGHà THÔNG TIN KINH DOANH Bà MÔN CÔNG NGHà THÔNG TIN BÁO CÁO Đà ÁN HÞC PHÀN KHOA HÞC DỮ LIàU Đß tài PHÂN LàP BÞ DỮ LIàU EMPLOYEE ATTRITION DþA TRÊN þNG[.]
Trang 1ĐẠI HÞC UEH TR¯âNG KINH DOANH KHOA CÔNG NGHà THÔNG TIN KINH DOANH
Bà MÔN CÔNG NGHà THÔNG TIN
TP Há Chí Minh, Tháng 10 / 2022
Trang 2MþC LþC
DANH M þC HÌNH ¾NH 3
DANH M þC B¾NG BIàU 4
DANH M þC TĀ VIẾT TẮT 5
L ãi mở đÁu 6
B ¾NG PHÂN CÔNG CÁC THÀNH VIÊN 7
Ch°¢ng 1: GIàI THIàU VÞ KHOA HÞC DỮ LIàU VÀ GIàI THIàU ĐÞ TÀI 8 Ch°¢ng 2: TâNG QUAN VÞ CH¯¡NG TRÌNH SỬ DþNG VÀ CÁC PH¯¡NG PHÁP SỬ DþNG 10
Ch°¢ng 3: þNG DþNG PH¯¡NG PHÁP VÀO BÀI TOÁN THþC TẾ 11
Ch°¢ng 4: ĐÁNH GIÁ KẾT QU¾ CĀA MÔ HÌNH 23
K ẾT LUÀN VÀ H¯àNG PHÁT TRIàN 24
TÀI LIàU THAM KH¾O 25
Trang 3DANH M þC HÌNH ¾NH
Hình 1.1 Logo công ty ARON 01
Trang 4DANH M þC B¾NG BIàU
Trang 5DANH M þC TĀ VIẾT TẮT
Trang 6L ãi mở đÁu
Trang 7B ¾NG PHÂN CÔNG CÁC THÀNH VIÊN
1 Nguyßn Hß Xuân
Quỳnh
(Trưởng nhóm)
Ch°¢ng 3: ĀNG DĀNG PH¯¡NG PHÁP VÀO BÀI TOÁN THĄC TÀ 3.1 Phân tích dă liáu Employee attrition
Chạy dă liáu trên Orange
để khai thác dă liáu Làm Powerpoint
100%
3
Trần Thạch Thảo
Ch°¢ng 3: ĀNG DĀNG PH¯¡NG PHÁP VÀO BÀI TOÁN THĄC TÀ 3.2 Phân lãp dă liáu
KÁt luận và h°ãng phát triển Chạy dă liáu trên Orange
100%
4
Phan Thùy Trang
Ch°¢ng 2: TàNG QUAN V CH¯¡NG TRÌNH SĀ DĀNG VÀ CÁC PH¯¡NG PHÁP SĀ DĀNG 2.2 Phần mÃm Orange
Chỉnh sāa hình thāc Word
100%
5
Trần Thß Ái Vy
Lời mở đầu, Ch°¢ng 1: GIâI THIàU
VÂ KHOA HàC DĂ LIàU VÀ GIâI THIàU ĐÂ TÀI
Làm Powerpoint
100%
Trang 8Ch°¢ng 1: GIàI THIàU VÞ KHOA HÞC DỮ LIàU VÀ GIàI THIàU ĐÞ TÀI
Nôi dung ch°¢ng này, mô tả và các kiÁn thāc táng quan và khoa hác dă liáu và đà tài cÿa nhóm bao gßm:&
1.1 GIàI THIàU VÞ KHOA HÞC DỮ LIàU
< Bá sung nái dung>
1.1.1 Mÿc lán c¿p 2
< Bá sung nái dung>
1.1.1.1 Mục lớn cấp 3
< Bá sung nái dung>
Hình Error! Bookmark not defined 1 Logo công ty ARON Bảng 1.3 Bảng liệt kê sự kiện phát sinh các quy trình nghiệp vụ
1 Cần tạo bảng giá Khi cần tạo bảng giá mãi Khi cần
2 Cần khai báo giá cho
mặt hàng mãi tạo
Khi cần thêm mát mặt hàng mãi vào
há thống vào các bảng giá đang đ°ÿc
3 Cần tạo đ¢n bán hàng Khi cần tạo đ¢n bán hàng Khi cần
Trang 9Ch°¢ng 2: TâNG QUAN VÞ CH¯¡NG TRÌNH SỬ DþNG VÀ CÁC PH¯¡NG
PHÁP SỬ DþNG
Nôi dung ch°¢ng này, trình bày và táng quan và ch°¢ng trình sā dāng và các ph°¢ng pháp sā dāng đÁn đà tài bao gßm:&
Trang 102.2 PHÀN MÞM ORANGE
2.2.1 Tổng quan về phần mềm Orange
<Orange là há điÃu hành nhân bản cÿa Linux (Dòng Minimal X cÿa
OpenSUSE) Há điÃu hành này dąa trên kiÁn thāc x86 (32bit) cÿa Intel và chạy đ°ÿc d°ãi bá vix86 cÿa Intel hay AMD Orange là mát nÃn tảng đ°¢c xây dąng để tạo các đ°ờng ống hác máy trên quy trình làm viác giao dián đß háa ng°ời dùng (GUI)
Orange là mát công cā khá trąc quan để nghiên cāu và các thuật toán machine learning
và thąc hành data mining Nhăng ng°ời không có kĩ năng mã hóa có thể vận hành Orange mát cách dß dàng Ng°ời ta có thể thąc hián mái nhiám vā ngay tÿ khi chuẩn
bß dă liáu đÁn đánh giá mô hình mà không cần viÁt mát dßch mã nào Orange là mát giải pháp khai thác dă liáu giúp các doanh nghiáp tÿ nhỏ đÁn lãn tạo quy trình công viác phân tích và trąc quan hóa dă liáu để tạo các phép chiÁu tuyÁn tính bản đß nhiát, ,MDS, Cây quyÁt đßnh, trên nÃn tảng tập trung.=
Orange cung cấp cho ng°ời dùng bao gßm các tián ích đ°ÿc tích hÿp gán nhất
để ng°ời sā dāng có thể phân tích dă liáu mát cách dß dàng
Data chāa các chāc năng để trích rút, nạp và biÁn đái dă liáu
Visualize chāa các biểu đß giúp quan sát dă liáu đ°ÿc tốt h¢n
Model phân lãn dă liáu
Evaluate: các ph°¢ng pháp đánh giá mô hình máy hác (phân lãp)
Unsupervised: phân cām dă liáu
2.2.1 Phương pháp phân cụm dữ liệu
Ph°¢ng pháp phân cām đ°ÿc thąc hián khi dă liáu ch°a có cấu trúc đßnh dạng rõ ràng và bảng dă liáu
Không có biÁn phā thuác Target y, chỉ có biÁn phā thuác feature X
2.2.2.1 Định nghĩa
Phân cām dă liáu là quá trình dă liáu/đối t°ÿng có nhăng đặc điÁm, tính chất t°¢ng đßng vãi nhau theo mát tiêu chí nào đó đ°ÿc gom thành nhóm hoặc cām (cluster) t°¢ng āng
L°u ý: Dă liáu cÿa bài toán phân cām là nhăng dă liáu ch°a đ°ÿc gán nhãn (tên cÿa tÿng đối t°ÿng mà ta phân tích ch°a đ°ÿc biÁt rõ), đây chính là nhăng dă liáu tą nhiên th°ờng thấy trong thąc tÁ
Hình 2.2 Minh họa phương pháp phân cụm
Trang 11Mô hình phân cām dă liáu:
Dă liáu thąc Trích chán đặc trung (nhận biÁt nhăng đặc trung cÿa dă liáu để gom thành các cām khác nhau) Thuật toán gom cām Đánh giá kÁt quả gom cām Biểu dißn kÁt quả gom cām
2.2.2.2 Đặc điểm của phân cụm dữ liệu
Nhiám vā quan tráng là tìm ra và đo đạc đ°ÿc są khác biát cÿa các đối t°ÿng dă liáu Thuác nhóm hác không giám sát, vì số cām dă liáu không đ°ÿc biÁt tr°ãc (đây là điÃu khác vãi ph°ong pháp phân lóp)
Mát ph°¢ng pháp phân cām tốt là ph°¢ng pháp cần tạo ra các cām có chất l°ÿng cao:
Đá t°¢ng đßng bên trong cām cao
Đá t°¢ng tą giăa các cām thấp (các cām có khác biát cao)
2.2.2.3 Các ứng dụng của phương pháp phân cụm
- Āng dāng điển hình
Công cā phân cām dă liáu đác lập
Là giai đoạn tiÃn xā lý cho các thuật toán khác
Đánh giá kÁt quả hoạt đáng kinh doanh
Phân tích hành vi ng°ời dùng mạng xã hái=
2.2.2.4 Các phương pháp phân cụm
2.2.2.4.1 Phân cụm dựa trên phân cấp (Hierarchical approach)
- Đßnh nghĩa: Là quá trình xây dąng mát cây phân cấp các dă liáu cần gom cām, dąa theo 2 tiêu chí:
• Tạo ra đ°ÿc mát ma trận khoảng cách giăa các phần tā (ma trận t°¢ng đßng hoặc ma trận khác biát)
• Đá đo khoảng cách giăa các cām (single link, complete link, )
- Đặc điểm: Phân cấp các đối t°ÿng dąa trên mát số tiêu chí
Đối vãi phân cām dąa trên phân cấp thì không cần xác đßnh tr°ãc số cām, tuy nhiên cần xác đßnh điÃu kián dÿng
Mát số ph°¢ng pháp điển hình hay dùng: Diana, Agnes,
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 122.2.2.4.2 Phân cụm dựa trên phân hoạch ( Partitioning Clustering)
- Đßnh nghĩa: Là quá trình phân tập dă liáu có n phần tā cho tr°ãc thành k tập con (vãi k <= n), mßi tập con s¿ biểu dißn mát cām
Các cām đ°ÿc hình thành dąa trên c¢ sở tối °u hóa giá trß hàm đá đo t°¢ng tą, sao cho:
Mßi đối t°ÿng thuác duy nhất 1 cām và các phần tā trong cām có są t°¢ng
tą vãi nhau
Mßi cām có ít nhất 1 phần tā
- Đặc điểm: Xây dąng các phân hoạch khác nhau và đánh giá chúng Sau đó tìm các tối thiểu hóa táng bình ph°¢ng đá lßi
- <Thuật toán K-means thuác nhóm thuật toán phân cām dąa trên phân hoạch
Ta xem mßi đối t°ÿng trong tập dă liáu là mát điểm trong không gian d chiÃu (vãi d là
số l°ÿng thuác tính cÿa đối t°ÿng) Sau đó tiÁn hành các b°ãc:
B°ãc 1: Chán k điểm bất kỳ làm các trung tâm ban đầu cÿa k cām B°ãc 2: Phân mßi
điểm dă liáu và cām có trung tâm gần nó nhất Neu các điểm dă liáu ở tÿng cām đ°ÿc phân chia có kÁt quả không thay đái so vãi kÁt quả cÿa lần phân chia tr°ãc, thì ta có thể dÿng thuật toán
B°ãc 3: Cập nhật lại trung tâm cho tÿng cām bằng cách lấy trung bình cáng cÿa tất cả các điểm dă liáu đã đ°ÿc gán vào cām đó sau khi phân chia ở b°ãc 2=
2.2.2.4.3 Các phương pháp đánh giá phân cụm dữ liệu
Viác đánh giá phân cām dă liáu là vấn đà nan giải nhất trong bài toán phân cām
Dąa theo các tiêu chí sau để đánh giá chất l°ÿng phân cām:
Đá nén: Các phần tā cÿa cām phải <gần nhau=
Đá phân cách: Khoảng cách giăa các cām nên <xa nhau", phân tách rõ ràng
Để đánh giá phân cām dă liáu, có các ph°¢ng pháp nh° sau:
Đánh giá ngoài (External validation): Là đánh giá kÁt quả phân cām dąa vào
cấu trúc / xu h°ãng phân cām đ°ÿc chỉ đßnh tr°ãc cho tập dă liáu
Đánh giá nội bộ (Internal validation): Là đánh giá kÁt quả phân cām mà không
có thông tin tÿ bên ngoài, chÿ yÁu dąa trên các vector chính cÿa dă liáu thông qua ma trận xấp xỉ
Đánh giá tương đối (Relative validation): Ph°¢ng pháp này đánh giá kÁt quả
gom cām bằng viác so sánh vãi:
KÁt quả gom cām āng vãi các bá trß thông số khác nhau
KÁt quả gom cām cÿa ph°¢ng pháp khác
2.2.3 Phương pháp phân lớp dữ liệu
Ph°¢ng pháp phân lãp đ°ÿc thąc hián để dą đoán nhăng nhãn phân lãp cho các bá
dă liáu, mẫu mãi
Khác vãi ph°¢ng pháp phân cām, ph°¢ng pháp phân lãp có biÁn target y và phân dă liáu vào các biÁn phā thuác y phù hÿp
2.2.3.1 Định nghĩa
Đây là quá trình phân mát đối t°ÿng hay dă liáu vào mát hay nhiÃu lóp (loại) đã cho tr°ãc nhờ mát mô hình phân lãp Mô hình này này đ°ÿc xây dąng dąa trên mát tập dă liáu đã đ°ÿc gán nhãn tr°ãc đó (dă liáu đã có chuẩn bß sẵn)
Quá trình gán nhãn cho dă liáu hoặc đối t°ÿng chính là quá trình phân lãp dă liáu
2.2.3.2 Quá trình phân lớp dữ liệu
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 13Nhìn chung, quá trình phân lãp dă liáu gßm 2 b°ãc chính, bao gßm:
B°ãc 1 : Xây dąng mô hình
Quá trình này sā dāng dă liáu đầu vào là dă liáu mẫu đã đ°ÿc gán nhãn và tiÃn xā lý
để dă liáu không bß nhißu hay có bất cā sai sót nào Sau khi chạy các thuật toán phân lãp nh° cây quyÁt đßnh, công thāc logic, ta thu đ°ÿc kÁt quả là mô hình phân lãp đã đ°ÿc huấn luyán (trình phân lãp)
Hình 7.2 Quá trình phân lớp dữ liệu 4 Xây dựng mô hình phân lớp
B°ãc 2: Sā dāng mô hình chia làm 2 b°ãc nhỏ:
• Đánh giá mô hình (kiểm tra tính đúng đắn cÿa mô hình)
Dă liáu đầu vào ở b°ãc này là mát tập dă liáu mẫu khác, đ°ÿc gán nhãn và tiÃn xā lý Tuy nhiên lúc đ°a vào mô hình phân lãp, ta s¿ <lờ= đi thuác tính đã đ°ÿc gán nhãn So sánh thuác tính gán nhãn cÿa dă liáu đầu vào và kÁt quả phân lãp cÿa mô hình để xác đßnh tính đúng đắn Neu đá chính xác cÿa mô hình là chấp nhận đ°ÿc, thì mô hình đ°ÿc sā dāng để phân lãp nhăng dă liáu t°¢ng lai, hoặc nhăng dă liáu mà giá trß cÿa thuác tính phân lãp là ch°a biÁt
Hình 8.2 Quá trình phân lớp dữ liệu - Đánh giá
• Phân lãp dă liáu mãi
Khi dă liáu đầu vào bß <khuyÁt= thuác tính cần dą đoán lãp (nhãn) Thông qua nhăng
gì đ°ÿc huấn luyán ở b°ãc 1, mô hình phân lãp s¿ tą đáng phân lãp (gán nhãn) cho các đối t°ÿng dă liáu này
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 142.2.3.3 Một số phương pháp phân lớp
2.2.3.3.1 Phương pháp Hồi quy logistic (Logistic Regression)
Đßnh nghĩa: Hßi quy Logistic là mát mô hình xác suất dą đoán giá trß đầu ra rời rạc
tÿ mát tập giá trß đầu vào mà các giá trß này đ°ÿc biểu dißn d°ãi dạng vector
Ket quả cÿa hßi quy logistic là bất kỳ giá trß nhß phân nào nh° Nam hoặc Nă, Có hoặc Không, 1 hoặc 0, Th° rác hoặc Không phải là Th° rác Ngày nay nó đ°ÿc sā dāng ráng rãi để phân loại mái thā
Hình 10.2 Minh họa về phương pháp Hồi quy logistic
2.2.3.2.2 Phương pháp cây quyết định (Decision Tree)
Đßnh nghĩa: Cây quyÁt đßnh là đß thß các quyÁt đßnh cùng các kÁt quả khả dĩ đi kèm nhằm hß trÿ quá trình ra quyÁt đßnh
Trong lĩnh vąc khai thác, cây quyÁt đßnh cung cấp kÁt quả tốt cho các nhiám vā phân loại hoặc táng quát hóa tập dă liáu cho tr°ãc
Hình 11.2 Minh họa một mô hình cây quyết định đơn giản
Hình 9.2 Quá trình phân lớp dữ liệu 4 Phân lớp dữ liệu mới
LOGISTIC REGRESSION
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 15¯u điểm:
Dß hiểu, dß dißn giải và hình dung
Không đòi hỏi viác chuẩn hóa dă liáu
Có thể xā lý đ°ÿc các kiểu dă liáu khác nhau, cả dă liáu số & dă liáu phân loại
Xā lý tốt mát luÿng dă liáu lãn trong mát thời gian ngắn
Số l°ÿng các cấp đá ra quyÁt đßnh là không giãi hạn
Khó giải quyÁt trong tình huống dă liáu phā thuác thời gian
Chi phí xây dąng mô hình và thời gian đào tạo cao
2.2.3.3.3 Phương pháp SVM (Support Vector Machine)
Đßnh nghĩa: SVM là mát thuật toán có giám sát, SVM nhận dă liáu vào, xem chúng nh° nhăng vector không gian và phân loại chúng vào các lãp khác nhau bằng cách siêu phẳng trong không gian nhiÃu chiÃu làm mặt phân cách các dă liáu
Để tối °u hóa kÁt quả phân lãp thì phải xác đßnh siêu phẳng (hyperplane) có khoảng cách đÁn các điểm dă liáu (margin) cÿa tất cả các lãp xa nhất có thể
SVM có nhiÃu biÁn thể phù hÿp vãi các bài toán phân loại khác nhau
Hình 12.2 Minh họa phương pháp SVM
Trang 16Nh°ÿc điểm:
Trong truờng hÿp số chiÃu dă liáu lãn h¢n số dòng dă liáu thì SVM cho ra kÁt quả không tốt
Ch°a thể hián tính xác suất trong phân lãp
2.2.3.4 Các phương pháp đánh giá mô hình phân lớp
Sā dāng các phu¢ng pháp đánh giá mô hình phân lãp nhằm kiÁm tra tính hiáu quả cÿa mô hình dąa trên dă liáu đặc thù cā thể, tÿ đó có thể đua ra quyÁt đßnh liáu có nên dùng phu¢ng pháp đó hay không
Mát mô hình phân lãp lý tuởng hoàn hảo là mô hình không quá đ¢n giản cũng không quá phāc tạp và không quá nhạy cảm vãi các dă liáu bß nhißu Tránh truờng hÿp tßn tại nhiÃu điểm dă liáu mà mô hình không phân loại đ°ÿc dẫn đÁn tính chính xác thấp ch°a khãp (underfitting) cũng nh° là mô hình quá khãp vãi dă liáu huấn luyán gây ra viác dą đoán cả nhißu nên mô hình không còn tốt khi phân lãp trên dă liáu mãi (overfitting)
Hình 13.2 Minh họa phương pháp đánh giá mô hình phân lớp
2.2.3.4.1 Ma trận nhầm lẫn (Confusion Matrix)
Ma trận chỉ ra có bao nhiêu điểm dă liáu thąc są thuác vào mát lãp cā thể và đ°ÿc dą
đoán là r¢i vào lãp nào Có kích th°ãc k x k, vãi k là số l°ÿng lãp cÿa dă liáu
Để hiểu h¢n và ma trận nhầm lẫn, ta đặt giả sā bài toán chẩn đoán ung th°, có 2 lãp Lãp bß ung th° đ°ÿc chẩn đoán Positive, lãp không bß ung th° đ°ÿc chẩn đoán
Negative
Hình 14.2 Minh họa ma trận nhầm lẫn
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 17Trong bảng trên, có 4 thuật ngă ta cần để ý đÁn:
True Positive (TP): Số l°ÿng dą đoán chính xác Nhăng bánh nhân ta đoán là
- F1-score là trung bình điÃu hòa cÿa hai đá đo Precision và Recall
ROC và AUC (Understanding AUC - ROC Curve - Sarang Nakhede - Jun 2018)
ROC (Receiver operating Characteristic): là mát đß thß đ°ÿc sā dāng khá phá biÁn trong đánh giá các mô hình phân loại аờng cong ROC đ°ÿc tạo ra dąa trên tỷ lá TPR (True Positive Rate) và FPR (False Positive Rate), vãi TPR nằm trên trāc y và FPR nằm trên trāc x Mát mô hình hiáu quả là khi có FPR thấp và TPR cao hoặc ROC càng tiám cận vãi điểm (0,1) trong đß thß
Hình 15.2 Minh họa đường cong ROC
Downloaded by vu ga (vuchinhhp2@gmail.com)
Trang 18 AUC (Area Under the Curve): Là dián tích nằm d°ãi đ°ờng ROC AUC đại dián cho māc đá hoặc th°ãc đo khả năng phân tách Nó cho biÁt mô hình có khả năng phân biát giăa các lãp nh° thÁ nào Giá trß này là mát số d°¢ng nhỏ h¢n hoặc bằng 1 Giá trß AUC càng lãn thì mô hình càng tốt
Hình 16.2 Minh họa AUC
2.2.3.4.2 Phương pháp phân chia dữ liệu Hold-out
Ph°¢ng pháp phân chia dă liáu ban đầu thành 2 tập đác lập theo mát tỷ lá nhất đßnh Ph°¢ng pháp này thích hÿp cho các tập dă liáu nhỏ, các mẫu có thể không đại dián cho
toàn bá dă liáu
Ví dā, tập huấn luyán (training set) chiÁm 70%, tập thā nghiám (testing set) chiÁm 30%
2.2.3.4.3 K-cross validation
Ph°¢ng pháp này phân chia dă liáu thành k tập con có cùng kích th°ãc (đ°ÿc gái là các fold) Và mát trong các fold này đ°ÿc dùng làm tập dă liáu đánh giá, trong khi số
còn lại đ°ÿc sā dāng để làm tập huấn luyán
Quá trình này s¿ đ°ÿc lặp đi lặp lại cho đÁn khi tất cả các fold đÃu đã đ°ÿc sā dāng
làm tập dă liáu đánh giá
2.2 3.5 Các ứng dụng phân lớp dữ liệu trong kinh tế
Phân lãp dă liáu đ°ÿc sā dāng phá biÁn trong các ngành nh°:
- Tài chính ngân hàng:
+ Dą báo giá chāng khoán
+ XÁp hạng tín dāng cá nhân và tá chāc
+ Đánh giá rÿi ro tài chính
- Sale & Marketing:
+ Dą báo khách hàng trung thành
+ Dą báo doanh thu
- Kinh tÁ hác:
+ Dą báo khÿng hoảng kinh tÁ
+ Dą báo cung cầu
Downloaded by vu ga (vuchinhhp2@gmail.com)