Với lượng thông tin của kh ch hàng mà m nh đang c rất đa dạng về đ a chỉ, chi phí ti u dùng cho d ch vụ mà doanh nghiệp cung cấp,… Nếu c thể thu thập, phân tích và tổng hợp c c số liệu n
Trang 1LỜI CAM ĐOAN
Tôi xin cam đoan đây là đề tài nghiên cứu của ri ng tôi, thực hiện dưới sự
hướng dẫn của TS Trần Quang Diệu
Các kết quả nêu trong luận v n là trung thực và chưa được ai công bố
trong bất cứ công trình nào khác
Thanh Hóa, tháng 10 năm 2019
Họ và tên
Trịnh Minh
Trang 2LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới TS Trần Quang Diệu, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tôi trong suốt quá trình tìm hiểu, nghiên cứu Thầy là người đ nh hướng và đưa ra nhiều g p qu
u trong qu tr nh em thực hiện luận v n
Tôi xin chân thành cảm ơn c c thầy, cô ở khoa Công nghệ thông tin – Trường Đại học Hồng Đức đã cung cấp cho tôi những kiến thức và tạo cho tôi những điều kiện thuận lợi trong suốt quá trình tôi học tập tại trường
Tôi cũng ày tỏ lòng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp tại VNPT Thanh Hóa đã cung cấp dữ liệu, tài liệu và cho tôi những lời khuyên quý báu Tôi xin cảm ơn gia đ nh, người thân, bạn bè và các thành viên trong nhóm nghiên cứu luôn động viên và tạo mọi điều kiện tốt nhất cho tôi
Thanh Hóa, tháng 10 năm 2019
Sinh viên
Trịnh Minh
Trang 3MỤC LỤC
MỞ ĐẦU 1
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 3
1.1 Tổng quan về khai phá dữ liệu 3
1.1.1 Tổng quan 3
1.1.2 Quy trình khai phá dữ liệu 10
1.1.3 Các ứng dụng của khai phá dữ liệu 12
1.2 Ra quyết đ nh trong quản lý 13
1.2.1 Vai trò của quá trình ra quyết đ nh 13
1.2.2 C c phương ph p ra quyết đ nh trong quản lý 14
1.2.3 C c ước của quá trình ra quyết đ nh 14
1.2.4 Bài toán ra quyết đ nh 15
1.3 Hệ trợ giúp ra quyết đ nh thông minh 15
1.3.1 Tổng quan về trí tuệ nhân tạo 15
1.3.2 Trí tuệ nhân tạo trong thời điểm hiện nay 16
1.4 Cây quyết đ nh 17
1.4.1 Phân lớp dữ liệu dựa trên các kiểu cây quyết đ nh 17
1.4.2 Giải thuật cơ ản xây dựng cây quyết đ nh 17
1.5 Thuật toán C4.5 24
1.5.1 Giới thiệu 24
1.5.2 Giải thuật C4.5 xây dựng cây quyết đ nh từ trên xuống 26
1.5.3 Đ nh gi mức độ hiệu quả 27
CHƯƠNG 2: PHÂN TÍCH THỰC TRẠNG TÌNH HÌNH SẢN XUẤT KINH DOANH TẠI VNPT THANH HÓA 29
2.1 Giới thiệu về VNPT Thanh Hóa 29
2.2 Đ nh hướng hoạt động phát triển khách hàng 30
2.2.1 Tổng quan 30
2.2.2 Mục tiêu của hoạt động 32
2.2.3 Các vấn đề nảy sinh và yêu cầu cần được giải quyết 33
2.2.4 Giải pháp xây dựng hệ thống trợ giúp cây quyết đ nh 34
Trang 42.2.5 Lựa chọn thuật toán thử nghiệm 35
CHƯƠNG 3: XÂY DỰNG GIẢI PHÁP DỰ ĐOÁN TÌNH HÌNH THUÊ BAO VINAPHONE CHUYỂN SANG MẠNG DI ĐỘNG KHÁC 37
3.1 Giải pháp chung 37
3.2 Đề xuất giải pháp cho bài toán dự đo n thu ao Vinaphone thực hiện MNP (chuyển mạng giữ số) qua nhà mạng khác 38
3.2.1 Thực trạng chung 38
3.2.2 Giải pháp sử dụng kỹ thuật khai phá dữ liệu 39
3.2.3 Đề xuất mô hình áp dụng thực tế 40
3.3 Thực nghiệm giải pháp 41
3.3.1 Chuẩn b dữ liệu 41
3.3.2 Sử dụng phần mềm Weka tiến hành thực nghiệm 43
3.3.3 Đ nh gi kết quả thực nghiệm 47
KẾT LUẬN VÀ KIẾN NGHỊ……… 49
TÀI LIỆU THAM KHẢO… ……… 50
Trang 5DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Ví dụ mô hình cây quyết đ nh 10
Hình 1.2: Quy trình khai phá tri thức từ cơ sở dữ liệu 11
Hình 1.4.1: Bảng dữ liệu mô tả mối quan hệ thời tiết và t nh h nh chơi ng của 1 đội bóng 20
Hình 1.4.2: Minh hoạ Multinomial Naive Bayes 11
Hình 3.1: Mô hình dự đo n chung 37
Hình 3.2: Mô hình dự sử dụng KPDL 39
H nh 3.3: Mô h nh đề xuất áp dụng thực tế 40
Hình 4.1 : Giao diện khởi động Weka 43
Hình 4.2 : Giao diện Weka 44
Hình 4.3: Giao diện Weka sau khi nhập dữ liệu từ file arff 45
Hình 4.4: Sử dụng thuật to n C4.5 để thực nghiệm 46
Hình 4.5 : Kết quả thực nghiệm 46
Trang 6MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong thời đại kinh tế th trường, c c doanh nghiệp đang trải qua những cuộc cạnh tranh vô cùng gay gắt, và VNPT Thanh H a cũng không ngoại lệ Là một trong những nhà cung cấp d ch vụ Viễn thông – Công nghệ thông tin hàng đầu của Việt Nam cũng đang không ngừng thay đổi, ph t triển theo xu thế chung của nền kinh tế Sự tiến ộ của khoa học kỹ thuật đang diễn ra với tốc độ vô cùng nhanh ch ng, c c công nghệ mới đi vào thực tiễn đã mang đến sự thay đổi trong cuộc sống hàng ngày Từ kinh tế của người dân được nâng cao dẫn đến nhu cầu về c c d ch vụ sử dụng cũng không còn như trước Nắm ắt được vấn
đề này, c c nhà cung cấp d ch vụ phải li n tục thay đổi, đa dạng c c sản phẩm cung cấp cho kh ch hàng, đ p ứng được c c y u cầu kh c nhau của người dùng
Việc c được c c sản phẩm, d ch vụ mới cung cấp cho kh ch hàng một
c ch phù hợp luôn là yếu tố ti n quyết trong việc đ nh hướng ph t triển của doanh nghiệp Với c c g i cước phù hợp, nhà cung cấp sẽ c được lượng lớn
kh ch hàng sử dụng và ngược lại, nếu 1 nhà cung cấp không c được c c g i
d ch vụ hợp l sẽ không thu thút được người dùng, không đảm ảo được doanh thu, thất ại trong cuộc cạnh tranh với c c đối thủ kh c
Vậy thế nào là sản phẩm phù hợp để cung cấp cho kh ch hàng? Đây là 1 câu hỏi mà đ p n thay đổi li n tục theo thời gian, đ a điểm và theo những nh m
kh ch hàng ri ng iệt Tại c c khoảng thời gian kh c nhau, ở những nơi kh c nhau (vùng này vùng kia, huyện này huyện kh c,…) và với c c nh m đối tượng
c thu nhập kh c nhau sẽ c những nhu cầu kh c nhau trong việc sử dụng cùng
1 loại d ch vụ Gi cả của d ch vụ cũng là 1 vấn đề không nhỏ, gi qu cao th không thu htú người dùng, gi qu thấp th doanh nghiệp lại hạn chế về doanh thu hoặc không c lãi Để đ p ứng được một c c tốt nhất ta cần nắm được nhu cầu, đặc điểm của từng khu vực và đưa ra c c g i d ch vụ phù hợp đảm ảo đ p ứng được y u cầu theo c c nh m kh ch hàng mà vẫn đảm ảo được vấn đề doanh thu của doanh nghiệp
Trang 7Với lợi thế là 1 doanh nghiệp đi đầu, VNPT Thanh H a đang cung cấp tới rất nhiều kh ch hàng tr n đ a àn tỉnh Thanh H a c c d ch vụ Viễn thông – Công nghệ thông tin Với lượng thông tin của kh ch hàng mà m nh đang c rất
đa dạng về đ a chỉ, chi phí ti u dùng cho d ch vụ mà doanh nghiệp cung cấp,… Nếu c thể thu thập, phân tích và tổng hợp c c số liệu này sẽ hỗ trợ rất nhiều cho Ban lãnh đạo và đội ngũ quản tr trong việc đ nh hướng ph t triển doanh nghiệp
trong tương lai V những l do tr n tôi đã chọn đề tài “Nghiên cứu ứng dụng phương pháp phân tích dữ liệu lớn trong bài toán quản trị doanh nghiệp tại VNPT Thanh Hóa” nhằm hỗ trợ cho doanh nghiệp c những ước ph t triển
nhanh ch ng, mạnh mẽ nhất trong cuộc c ch mạng khoa học công nghệ 4.0 hiện nay
2 Mục đích và nhiệm vụ nghiên cứu
Mục đích của đề tài là phân tích số liệu đã c để hỗ trợ Ban lãnh đạo trong công tác quản tr , đưa ra c c đ nh hướng phát triển của doanh nghiệp phù hợp với sự thay đổi của th trường Để thực hiện được mục đích này cần nghiên cứu
và triển khai các nội dung sau:
- Nghiên cứu các tài liệu về phân tích dữ liệu lớn dựa tr n cơ sở dữ liệu đã
có
- Áp dụng vào phân tích cơ sở dữ liệu của doanh nghiệp và đưa ra c c kết quả phân tích/ dự đo n theo y u cầu của bài toán quản tr
3 Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý thuyết: Tìm hiểu, nghiên cứu các tài liệu về
khai phá dữ liệu, c c phương ph p phân tích dữ liệu lớn, các hệ hỗ trợ ra quyết
đ nh Tìm hiểu về hệ quản tr cơ sở dữ liệu đang được sử dụng tại VNPT Thanh Hóa
- Phương pháp nghiên cứu thực nghiệm:Ứng dụng c c phương ph p phân
tích dữ liệu lớn, các hệ hỗ trợ ra quyết đ nh đã t m hiều để phân tích cơ sở dữ liệu và đưa ra các gợi ý theo các yêu cầu từ bài toán quản tr doanh nghiệp
Trang 8CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Tổng quan về khai phá dữ liệu
1.1.1 Tổng quan
* Khai phá dữ liệu (Data mining) là gì ? [1]
- Để phân tích, ta tách Data mining thành 2 phần : Data và mining Data có thể d ch là Dữ liệu, là nguồn dữ liệu của c c công ty, cơ quan, doanh nghiệp sở
hữu bằng cách thu thập trong suốt quá trình hoạt động, sản xuất kinh doanh
Mining có thể d ch là đào đất,khai thác mỏ, đây là qu tr nh t m kiếm, khai thác
sản vật Ở đây ta có thể thấy, vật liệu được khai thác là nguồn dữ liệu mà chúng
ta sở hữu Data miningđi sâu vào nguồn dữ liệu, tìm kiếm các chi tiết, giá tr
được ẩn sâu bên trong
- Khai phá dữ liệu (Data mining) là quá trình khám phá, phân tích cácthông
tin từ trong cơ sở dữ liệu lớn và phức tạp để tìm ra các mẫu thông tin mang tính tổng quát, các quy luật tiềm ẩn hay các thông tin có giá tr qua đ đưa ra c c dự báo, hỗ trợ việc ra quyết đ nh trong tương lai
- C c giai đoạn của quá trình khai phá dữ liệu [6]:
+ Xác đ nh vấn đề và không gian dữ liệu để xử lý vấn đề : Giai đoạn này ta cần x c đ nh vấn đề cần giải quyết, tìm hiểu kiến thức về ài to n đang thực hiện bao gồm các tri thức của c c chuy n gia trong lĩnh vực cần nghiên cứu từ
đ x c đ nh chính xác nguồn dữ liệu để thu thập đồng thời phải hiểu được cấu trúc dữ liệu, nghĩa và tầm quan trọng của n để từ đ ta đưa ra ài to n cụ thể
để giải quyết vấn đề
+ Chuẩn b dữ liệu: bao gồm c c ước
Làm sạch dữ liệu: Các giá tr b thiếu hoặc mất sẽ được thay thế bằng các giá tr thích hợp hơn hoặc xóa những dữ liệu sai miền giá tr và giải quyết sự không nhất quán.Loại bỏ những dữ liệu b trùng
Giảm nhiễu dữ liệu: Các dữ liệu b nhiễu sẽ được điều chỉnh hoặc loại
ra khỏi cơ sở dữ liệu
Trang 9 Rời rạc hóa dữ liệu: Các dữ liệu số sẽ được rời rạc hóa ra dạng phù hợp cho khai phá dữ liệu
Giảm chiều: Loại bớt các thuộc tính chứa ít thông tin để tiết kiệm thời gian và tài nguyên của máy tính
+ Mô hình hóa dữ liệu : Dùng các thuật toán khai phá dữ liệu để tìm ra các qui luật của dữ liệu, quan trọng nhất trong giai đoạn này là t m được giải thuật phù hợp để giải quyết vấn đề đã đặt ra
+ Đ nh gi : Dựa vào nhận xét và hỗ trợ của các chuyên gia, đưa ra c c ti u chí đ nh gi , khi đ sẽ điều chỉnh k p thời các mô hình của c c giai đoạn trước
C c mô h nh đạt yêu cầu với các chuyên gia sẽ được sử dụng
+ Triển khai : C c mô h nh đạt yêu cầu sẽ được xây dựng thành chương tr nh ứng dụng thực tế nhằm hỗ trợ đưa ra quyết đ nh theo yêu cầu của người dùng Quá trình khai phá dữ liệu không chỉ đơn giản là một quá trình thực hiện tuần
tự từ ước đầu ti n đến ước cuối cùng mà là 1 quá trình lặp có quay lại các ước đã qua
* Một số phương ph p khai ph dữ liệu phổ biến:
- Phân lớp: Phân lớp dự đo n gi tr của những nhãn x c đ nh (categorical label) hay những giá tr rời rạc (discrete value), c nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giá tr là biết trước Ví dụ mô hình phân lớp
dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa, hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ,… của ngày hôm nay và các ngày trước đ … Quá trình phân lớp dữ liệu gồm 2 ước:
Học tập (Learning) : Quá trình học nhằm xây dựng một mô hình mô tả
một tập các lớp dữ liệu hay các khái niệm đ nh trước Đầu vào của quá trình này
là một tập dữ liệu có cấu trúc được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá tr của các thuộc tính đ , đầu ra thường là các quy tắc phân lớp dưới dạng luật dạng if-then, cây quyết đ nh, công thức logic, hay mạng nơron
Phân lớp (Classification) : Sử dụng mô h nh đã xây dựng ở ước 1 để
thực hiện phân lớp dữ liệu
Trang 10Một số kỹ thuật phân lớp: Phân lớp cây quyết đ nh (Decision tree classification), bộ phân lớp Bayesian (Bayesian classifier), mạng nơron,
- Hồi qui : là một hàm học ánh xạ một mục dữ liệu thành một biến dự đo n
có giá tr thực, thường dùng để dự đo n c c gi tr mang tính liên tục Mô hình
hồi qui (regression model) là mô hình mô tả mối liên kết (relationship) giữa một tập các biến dự báo (predictor variables/independent variables) và một hay
Hồi qui tuyến tính (linear) và phi tuyến tính (nonlinear) :
Linear : kết hợp tuyến tính các thông số tạo nên Y
Nonlinear : kết hợp phi tuyến các thông số tạo nên Y
Hồi qui đơn iến (single) và đa iến (multiple)
Single : X = ( )
Multiple : X = ( , , , )
Hồi qui có thông số (parametric), phi thông số (nonparametric), và thông số kết hợp (semiparametric)
Parametric: mô hình hồi qui với hữu hạn thông số
‡ Nonparametric: mô hình hồi qui với vô hạn thông số
‡ Semiparametric: mô hình hồi qui với hữu hạn thông số được quan
tâm
Hồi qui đối xứng (symmetric) và bất đối xứng (asymmetric)
Symmetric : mô hình hồi qui có tính mô tả
Asymmetric : mô hình hồi qui có tính dự báo
Trang 11- Phân cụm : Là quá trình phân chia một tập dữ liệu an đầu thành các cụm
dữ liệu sao cho các phần tử trong cùng một cụm tương tự nhau và các phần tử trong các cụm khác nhau sẽ không tương tự nhau Số các cụm dữ liệu có thể xác
đ nh bằng kinh nghiệm hoặc x c đ nh bằng phương ph p phân cụm
C c ước của quá trình phân cụm:
Xây dựng hàm tính độ tương tự
Xây dựng các tiêu chuẩn phân cụm
Xây dựng mô hình cho cấu trúc cụm dữ liệu
Xây dựng thuật toán phân cụm và các xác lập điều kiện khởi tạo
Xây dựng các thủ tục biểu diễn và đ nh gi kết quả phân cụm
+ Các thuật toán phân cụm thường sử dụng một trong hai cấu trúc dữ liệu sau đây:
Ma trận dữ liệu: Là một mảng dữ liệu có n hàng và m cột Trong đ m
là số thuộc tính của đối tượng, các phần tử trong hàng miêu tả giá tr thuộc tính tương ứng của đối tượng đ
Ma trận phi tương tự : La một ma trận n hàng và n cột, phần tử d(i,j) miêu tả khoảng cách giữa hai đối tượng i,j Giá tr của d(i,j) luôn không âm, d(i,j) càng bé thì i và j càng gần nhau và ngược lại i và j càng xa nhau khi d(i,j) càng lớn
- Khai phá luật kết hợp : phát hiện và đưa ra c c mối liên hệ giữa các giá tr trong cơ sở dữ liệu Mẫu đầu ra của khai phá dữ liệu là luật kết hợp t m được Nội dung cơ ản của luật kết hợp được tóm tắt như sau :
+ Giả sử ta c 1 cơ sở dữ liệu giao d ch T = { , , , }
+ Mỗi bao gồm tập c c đối tượng I = { , , , }
+ Luật kết hợp chính là mối tương quan hay kết hợp giữa các item có dạng:
X →Y, với X I, Y I và X Y =
+ X (hoặc Y) là một nh m c c item và được gọi là itemset
+ Một itemset gồm k items gọi là k-itemset
Trang 12+ Độ hỗ trợ (Support) của luật kết hợp X =>Y là tần suất của giao d ch chứa tất cả các items trong cả hai tập X và Y Ví dụ, support của luật X =>Y là 5% có nghĩa là 5% c c giao d ch X và Y được mua cùng nhau
+ Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: minimum
support (min_sup) và minimum confidence (min_conf)
Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng)
cả Minimum support và Minimum confidence gọi là các luật mạnh Minimum
support và Minimum confidence gọi là các giá tr ngưỡng (threshold) và phải
x c đ nh trước khi sinh các luật kết hợp
- Về cốt lõi, khai phá dữ liệu là mô hình thống kê có thể phát hiện ra các xu hướng, sự bất thường hay các vấn đề mà trước đây c c tổ chức, doanh nghiệp không nhận thấy Đây là một hỗ trợ đắc lực cho việc ra quyết đ nh của các nhà quản lý
* Khái niệm về ra quyết đ nh trong quản lý
- Ra quyết đ nh là việc lựa chọn phương n từ 2 hay nhiều phương n kh c nhau Mỗi phương n c thể tạo ra các kết quả khác nhau dựa theo c c điều kiện rằng buộc của mỗi phương n
- Ra quyết đ nh trong quản lý là việc rất quan trọng vì nó ảnh hưởng trực tiếp tới sự tồn tại, phát triển, thành công hay thất bại của tổ chức Trong quá trình hoạt động của các tổ chức, việc ra quyết đ nh thường xuyên diễn ra từ những việc đơn giản đến phức tạp, quy mô nhỏ bé hay to lớn Tất cả các quyết đ nh này
Trang 13đều ảnh hưởng tới kết quả hoạt động của tổ chức Vì vậy, để tổ chức có thể tồn tại và phát triển, các nhà quản tr phải được nâng cao kỹ n ng ra quyết đ nh
- Để đưa ra được quyết đ nh đúng đắn và chính xác, các nhà quản lý cần có được các dự báo từ dữ liệu đã c , để từ đ c thể x c đ nh được phương hướng, kết quả của các lựa chọn khi ra quyết đ nh Một trong nhưng kỹ thuật khai phá
dữ liệu có thể đưa ra c c dự báo hỗ trợ quá trình ra quyết đ nh là Cây quyết đ nh
(decision tree)
* Giới thiệu chung về cây quyết đ nh
- Theo Wikipedia,trong lĩnh vực máy học, cây quyết đ nh là một kiểu mô hình dự o (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá tr mục tiêu của sự vật/hiện tượng Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá tr cụ thể cho biến đ Mỗi nút l đại diện cho giá tr
dự đo n của biến mục ti u, cho trước các giá tr của các biến được biểu diễn bởi đường đi từ nút gốc tới nút l đ Kỹ thuật học máy dùng trong cây quyết đ nh được gọi là học bằng cây quyết đ nh, hay chỉ gọi với cái tên ngắn gọn là cây quyết đ nh [2]
- Decision tree là một mô hình học có giám sát, có thể được áp dụng vào cả hai bài toán phân lớp và hồi qui Việc xây dựng một cây quyết đ nh trên dữ liệu huấn luyện cho trước là việc đi x c đ nh các câu hỏi và thứ tự của chúng
- Cây quyết đ nh là nó có thể làm việc với kiểu dữ liệu rời rạc và không có thứ tự Ví dụ, mưa, nắng hay xanh, đỏ, v.v Hoặc cũng có thể làm việc với dữ liệu số và dữ liệu phân loại Một điểm đ ng lưu nữa là cây quyết đ nh ít yêu cầu việc chuẩn hoá dữ liệu
- Cây quyết đ nh là một cây phân cấp dùng để phân lớp c c đối tượng dựa vào dãy các luật Một cây quyết đ nh gồm có:
+ Nút gốc (root node) : Thể hiện câu hỏi đầu tiên của cây quyết đ nh
Trang 14+ Nút con (child node) : bao gồm 2 loại nút lá (leaf node) và nút không lá (non-leaf node) Nút không lá thể hiện các câu hỏi, nút lá lại thể hiện các giá tr
đầu ra
+ Các nhánh (branches) : Thể hiện các kết hợp của các thuộc tính dẫn đến
phân loại tại các nút
Trong đ nút gốc và nút lá chứa các câu hỏi hoặc tiêu chí để trả lời các câu hỏi, các nhánh biểu diễn các kết quả có khả n ng xảy ra ở các nút
* Ví dụ minh họa cây quyết đ nh
- Tại 1 câu lạc bộ đ nh golf Sau thời gian vận hành, người chủ câu lạc bộ đã thu thập được một số dữ liệu bao gồm các thông tin về thời tiết, sức gi , độ ẩm không khí và lượng người chơi Nhằm nâng cao hiệu quả của câu lạc bộ, từ thông tin thời tiết được công bố, người quản lý muốn bố trí nhân viên phục vụ một cách tối ưu nhất Ta có dữ liệu được thu thập tại 1 câu lạc bộ đ nh golf gồm các dữ liệu:
+ Thời tiết: Nắng, Mưa, C mây
+ Gió: Có, Không
+ Độ ẩm không khí
+ Có người đến chơi golf không: Có, Không
Trang 15- Mục tiêu dự đo n được ở thời tiết nào sẽ c người đến chơi golf và thời tiết nào thì không để bố trí nhân viên phục vụ
- Ta có mô hình cây quyết đ nh như sau:
Hình 1.1: Ví dụ mô hình cây quyết định
- Từ mô hình cây quyết đ nh ta có kết luận:
+ Trời mưa không c ai chơi golf
+ Trời nắng chỉ chơi golf khi c gi
+ Trời có mây khách hàng chỉ chơi khi độ ẩm dưới 75%
1.1.2 Quy trình khai phá dữ liệu
- Quá trình khai phá tri thức từ cơ sở dữ liệu được thể hiện tóm tắt như h nh 1.2:
Trang 16Hình 1.2: Quy trình khai phá tri thức từ cơ sở dữ liệu
+ Làm sạch dữ liệu: loại bỏ các dữ liệu nhiễu hoặc các dữ liệu không thích hợp
+ Tích hợp dữ liệu: Tích hợp dữ liệu từ các nguồn khác nhau
+ Chọn dữ liệu: Chọn những dữ liệu li n quan đến yêu cầu đặt ra của bài toán
+ Chuyển đổi dữ liệu: Chuyển dữ liệu về những dạng phù hợp cho việc tiến hành các thuật toán khai phá dữ liệu
+ Khai phá dữ liệu : Sử dụng các kỹ thuật nhằm phát hiện ra các tri thức tiềm
ẩn trong dữ liệu Một số kỹ thuật được sử dụng đ là: phân lớp, gom cụm, luật kết hợp,…
+ Đ nh gi mẫu: Các mẫu dữ liệu được chiết xuất bởi các phần mềm khai phá dữ liệu Không phải bất cứ mẫu nào cũng đều có ích, thậm chí còn b sai lệch Chính vì vậy, cần phải x c đ nh và lựa chọn những tiêu chuẩn đ nh gi sao cho sẽ chiết xuất ra các tri thức cần thiết
+ Trình diễn dữ liệu: Biểu diễn tri thức vừa thu thập được dưới dạng ngôn ngữ tự nhiên và hình thức sao cho người dùng có thể hiểu được những tri thức
đ
Trang 171.1.3 Các ứng dụng của khai phá dữ liệu
- Trong thời đại 4.0, công nghệ đang ngày càng phổ biến trong đời sống con người Các thiết b điện tử, các d ch vụ số, d ch vụ y tế hiện đại, giáo dục thông minh, đang là nhu cầu không thể thiếu và được phát triển với tốc độ vô cùng nhanh chóng Trong công cuộc sản xuất kinh doanh, các doanh nghiệp ngày càng có nhiều dữ liệu về khách hàng, trong y tế có các dữ liệu về bệnh nhân, trong giáo dục lại có dữ liệu học sinh,
- Lượng dữ liệu được thu thập đang t ng nhanh đồng thời với tốc độ phát triển của công nghệ thông tin và ứng dụng của n trong đời sống Trong tình hình hiện nay, thông tin đang trở thành yếu tố then chốt trong công cuộc kinh doanh của các doanh nghiệp Từ dữ liệu đã c , doanh nghiệp nào khai th c được càng nhiều thông tin có ích và áp dụng vào trong sản xuất kinh doanh, đưa ra các chiến lược phù hợp với th trường thì sẽ c ưu thế hơn trong cuộc cạnh tranh
- Khai phá dữ liệu đang được áp dụng rộng rãi tại nhiều lĩnh vực trong cuộc sống như:
+ Ngân hàng: C c ngân hàng hàng đầu đã và đang sử dụng các công cụ khai phá dữ liệu (Data Mining) cho việc phân khúc khách hàng và lợi nhuận,chấm điểm tín dụng và phê duyệt, quảng bá và bán sản phẩm, phát hiện các giao d ch gian lận, v.v
Tại Việt Nam, n m 2016, ngân hàng Vietin ank đã thực hiện dự án EDW sử dụng các công cụ khai phá dữ liệu nhằm tối ưu h a sự phát triển của đơn v
Trong dự án EDW, Vietinbank sử dụng 1 số giải ph p như: SAP Business Object Lumira sẽ giúp cho các nhà quyết đ nh có thể dự đo n được xu hướng kết quả của thông tin, giải pháp DB Lytix on Sybase IQ áp dụng thuật toán xây dựng cây
quyết đ nh giúp các nhà quản tr sẽ dễ dàng ra được quyết đ nh kinh doanh hoặc giúp giảm thiểu thời gian, chi phí khi thu nhỏ phạm vi để phục vụ công tác thanh tra kiểm tra… [11]
Trang 18+ Kinh doanh: Các doanh nghiệp lớn cung cấp sản phẩm hàng hóa hay d ch
vụ đều có một lượng lớn dữ liệu về khách hàng Việc phân tích dữ liệu sẽ đưa ra các quy luật chung, là ch a kh a để nhà quản tr đ nh hướng phát triển của doanh nghiệp 1 cách chính xác nhất.Số liệu bán hàng, khách hàng, doanh thu, là chìa
kh a để doanh nghiệp đưa ra chiến lược để c ưu thế trên th trường
+ Thi n v n học: Hệ thống SKICAT do JPL/Caltech phát triển được sử dụng cho c c nhà thi n v n để tự động x c đ nh các vì sao và các dải thiên hà trong một bản khảo sát lớn để có thể phân tích và phân loại (Fayyad, Djorgovski, & Weir)
+ Y học: Hệ thống tìm kiếm các mẫu trong cấu trúc phân tử (Conklin, Fortier, và Glasgow 1993) và trong các dữ liệu gen (Holder, Cook, và Djoko 1994),
+ Tài chính: Phân tích tình hình tài chính, đầu tư, phân tích cổ phiếu, chứng khoán,
+ Web: Các công cụ tìm kiếm,
+
1.2 Ra quyết định trong quản lý
1.2.1 Vai trò của quá trình ra quyết định
Ra quyết đ nh về quản tr có vai trò cực kỳ quan trọng trong các hoạt động về quản tr là bởi :
- Các quyết đ nh luôn luôn là sản phẩm chủ yếu và là trung tâm của mọi hoạt động về quản tr Không thể n i đến hoạt động về quản tr mà thiếu việc ra các quyết đ nh, cũng như không thể n i đến việc kinh doanh mà thiếu d ch vụ và hàng hoá
- Sự thành công hay thất bại trong các tổ chức phụ thuộc rất nhiều vào việc ra quyết đ nh của nhà quản tr
Trang 19- Xét về mặt tổng thể thì không thể thay thế các quyết đ nh về quản tr bằng tiền bạc, vốn liếng, sự tự phát, sự tự điều chỉnh hoặc bất cứ thứ tự động hoá bằng máy móc tinh xảo nào
- Mỗi quyết đ nh về quản tr là một mắt xích trong toàn bộ hệ thống các quyết
đ nh của một tổ chức nên mức độ tương t c ảnh hưởng giữa chúng với nhau là cực kỳ phức tạp và hết sức quan trọng Không thận trọng trong việc ra quyết
đ nh, thường có thể dẫn tới những hậu quả nghiêm trọng
1.2.2 Các phương pháp ra quyết định trong quản lý [3]
- Phương ph p độc đo n: Nhà quản tr sẽ ra quyết đ nh và thông báo cho nhân viên nội dụng của quyết đ nh
- Phương ph p ph n quyết cuối cùng: Trong cuộc họp cho phép mọi người đưa ra c c kiến để thảo luận, tới cuối buổi họp nhà quản tr sẽ đưa ra quyết
đ nh cuối cùng
- Phương ph p nh m tinh hoa: Nhà quản tr và ít nhất 1 người khác sẽ tham gia vào quá trình ra quyết đ nh mà không cần tham khảo ý kiến những người khác
- Phương ph p cố vấn: Nhà quản tr trình bày 1 quyết đ nh an đầu để th m
dò và lắng nghe các ý kiến phản hồi về quyết đ nh này Dựa theo các ý kiến phản hồi thu được mà người quản tr có thể thay đổi quyết đ nh an đầu đưa ra
- Phương pháp luật đa số: Phương ph p c sự tham gia của tất cả thành viên trong nhóm Các thành viên bỏ phiếu nh đẳng và quyết đ nh được đưa ra theo
ý kiến của số đông thành vi n
- Phương ph p đồng thuận: Phương ph p c sự tham gia của tất cả thành viên, quyết đ nh chỉ được chấp nhận khi tất cả mọi thành vi n đều chấp nhận
1.2.3 Các bước của quá trình ra quyết định
- X c đ nh vấn đề: X c đ nh được nội dung của vấn đề, cách giải quyết và mục ti u đạt được khi giải quyết vấn đề
- Thu thập thông tin: Tìm kiếm l do để xảy ra vấn đề và diễn biến của vấn
đề
Trang 20- Phát triển và đ nh gi c c lựa chọn: Đưa ra c c lựa chọn bao gồm thông tin chi tiết về các lựa chọn như: Chi phí thực hiện, khả n ng thành công, hiệu quả đạt được,
- Lựa chọn quyết đ nh đúng nhất: Dựa vào c c phương n được đưa ra để lựa chọn quyết đ nh đ p ứng tốt nhất các mục ti u đã đặt ra
- Triển khai và theo dõi quyết đ nh: Xây dựng kế hoạch thực hiện, theo dõi việc triển khai theo từng giai đoạn để có sự điều chỉnh phù hợp theo từng thời điểm
1.2.4 Bài toán ra quyết định
- Trong thực tế, việc ra quyết đ nh trong công tác quản l luôn t c động đến
sự phát triển của tổ chức, doanh nghiệp Một quyết đ nh đúng c thể thúc đẩy sự phát triển của tổ chức nhưng 1 quyết đ nh sai lại có thể kìm hãm sự phát triển này lại
- Để có những quyết đ nh đúng đắn và chính x c, người quản tr phải c đủ thông tin về vấn đề, các thông tin cung cấp càng đầy đủ, chính x c th người quản tr càng có thể đưa ra quyết đ nh đúng
- Trong khai phá dữ liệu, cây quyết đ nh là một mô hình dự báo hỗ trợ người quản tr dự đo n được kết quả của các quyết đ nh, qua đ c thể lựa chọn được quyết đ nh chính xác nhất, thúc đẩy sự phát triển của tổ chức, doanh nghiệp
1.3 Hệ trợ giúp ra quyết định thông minh
1.3.1 Tổng quan về trí tuệ nhân tạo [5]
* Đ nh nghĩa:
- Trong nghành Khoa học máy tính, trí tuệ nhân tạo hay trí thông minh nhân tạo (AI), là sự mô phỏng của máy tính dựa theo các hoạt động của trí tuệ con người
- Bellman (1978) đ nh nghĩa : Trí tuệ nhân tạo là sự tự động hóa các hoạt động phù hợp với con người: hoạt động ra quyết đ nh, giải bài toán,
Trang 21- Rich và Knight (1991) cho rằng : Trí tuệ nhân tạo nghiên cứu làm sao cho máy tính có thể thực hiện những công việc mà con người có thể làm tốt hơn m y tính
-
* Quá trình hình thành và phát triển của AI:
- Xuất phát từ tưởng của Alan Turing khi xem xét vấn đề “m y tính c khả
n ng suy nghĩ hay không ?”
- Mùa hè n m 1956, t n gọi “Artificial intelligence - AI” chính thức được công nhận tại hội ngh do Marvin Minsky và John McCarthy tổ chức với sự tham dự của vài chục nhà khoa học tại trường Dartmouth
- Từ thập niên 1960, các nghiên cứu AI chủ yếu tập trung vào biểu diễn tri thức và phương thức giao tiếp giữa người và máy tính bằng ngôn ngữ tự nhiên Tuy nhiên các nghiên cứu dần thất bại do tr nh độ khoa học kỹ thuật, tin học chưa đạt được điều kiện để thực hiện
- N m 1997: Sự kiện l ch sử khi si u m y tính Deep Blue đ nh ại đại kiện tướng cờ vua Garry Kasparov, tạo động lực thúc đẩy các nghiên cứu AI trên thế giới
- N m 2015: Với sự phát triển của điện to n đ m mây với chi phí không quá cao, cùng với số lượng dữ liệu khổng lồ, các công cụ phát triển phần mềm miễn phí hoặc giá rẻ đã hỗ trợ cho việc nghiên cứu của các nhà khoa học
- C c điều kiện về kinh phí đầu tư, hạ tầng khoa học kỹ thuật tiên tiến, tiềm
n ng ph t triển rộng lớn đã giúp cho việc nghiên cứu AI thu hút được nhiều ông lớn tham gia như Face ook, Google, Microsoft,
1.3.2 Trí tuệ nhân tạo trong thời điểm hiện nay
Hiện nay, việc ứng dụng trí tuệ nhân tạo đã đi sâu vào cuộc sống của con người Từ việc phục vụ đời sống hàng ngày tới các hệ thống giáo dục, kinh tế, khoa học và xã hội, Ứng dụng trí tuệ nhân tạo có thể nâng cao n ng suất lao động, nâng cao chất lượng cuộc sống, thúc đẩy sự phát triển kinh tế và khoa học
kỹ thuật
Trang 22* Một vài ví dụ về việc áp dụng trí tuệ nhân tạo trong thực tế hiện nay:
- Đời sống hằng ngày: Các thiết b công nghệ như điện thoại, tivi, camera, tới các vật dụng hàng ngày như ấm đun nước, quạt, điều hòa, đều đã được tích hợp AI, nhằm xây dựng smart home hoàn chỉnh, nâng cao chất lượng cuộc sống
- Y tế: Từ lâu nghành y tế đã p dụng trí tuệ nhân tạo vào trong việc khám chữa bệnh C c c sĩ có thể giảm thời gian phân tích các mẫu sinh thiết, xây dựng c c ph c đồ chữa tr nhanh hơn
- Kinh tế: C c AI được đưa vào nhằm mục đích phân tích số liệu kinh doanh,
từ đ đưa ra c c gợi ý, viễn cảnh xảy ra trong tương lai, hỗ trợ các nhà quản tr đưa ra quyết đ nh đúng đắn trong qu tr nh điều hành doanh nghiệp Các phân tích chứng kho n cũng được đưa ra nhờ việc xử lý dữ liệu của hệ thống trí tuệ nhân tạo
- Giáo dục: Các giáo án của chương tr nh học online được gợi ý nhờ hệ thống
đã phân tích dữ liệu học tập của người dùng trong thời gian trước đ
1.4 Cây quyết định
1.4.1 Phân lớp dữ liệu dựa trên các kiểu cây quyết định
- Cây hồi qui (Regression tree) : dùng để ước lượng các hàm có giá tr là số
thực thay v được sử dụng cho các nhiệm vụ về phân loại Ví dụ: ước tính giá tr của 1 chiếc xe, 1 ngôi nhà,
- Cây phân loại (Classification tree) : đối với dữ liệu là 1 biến phân loại như:
giới tính (nam/ nữ), màu sắc (đen/ trắng),
1.4.2 Giải thuật cơ bản xây dựng cây quyết định
* Xây dựng cây quyết đ nh gồm 2 ước:
- Bước 1: Phát triển cây quyết đ nh: đi từ gốc đến các nhánh, phát triển quy nạp theo hướng chia để tr
Trang 23+ B4: Các giá tr được phân lớp rõ ràng thì dừng, ngược lại tiếp tục lặp lại cho từng node con
- Bước 2: Cắt tỉa cây: nhằm đơn giản h a, kh i qu t h a, t ng độ chính xác cho cây
* Mô tả phương ph p quy nạp Hunt [7]
- S={S1,S2,…,Sn} là tập dữ liệu đào tạo, C={C1,C2,…,Cm} là tập c c lớp
- Trường hợp 1: Si (i=1…n) thuộc về Cj => Cây quyết đ nh là 1 l ứng Cj
- Trường hợp 2: S thuộc về nhiều lớp trong C
+ Chọn mẫu test tr n 1 thuộc tính c nhiều gi tr O={O1, Ok} (k thường ằng 2)
+ Test từ gốc của cây, mỗi Oi tạo thành 1 nh nh, chia S thành c c tập con c
gi tr thuộc tính = Oi Đệ quy cho từng tập con ta có cây quyết đ nh gồm nhiều
nh nh, mỗi nh nh tương ứng với Oi
* C c thuật to n xây dựng cây quyết đ nh:
- Hiện nay c 1 số thuật to n xây dựng cây quyết đ nh như: ID3(Quinlan, 1979), C4.5(Quinlan, 1993), phân lớp Naive Bayes, SPRINT (Shafer và các tác giả khác, 1996),
* Thuật to n ID3: [10][4]
- Thuật to n ID3 t m kiếm theo mô h nh “tham lam”, sao cho c c thuộc tính
đạt được tối đa lượng thông tin cho việc x c đ nh nhãn lớp của c c mẫu trong tập huấn luyện Kết quả là ta thu được một Cây quyết đ nh mà g n nhãn đúng cho mỗi mẫu trong tập huấn luyện
- Thuật to n xây dựng cây ID3 sử dụng sử dụng Entropy và Information Gain
để xây dựng một cây quyết đ nh
- Xét một ài to n như sau: Giả sử, tại một nút non-leaf c tập dữ liệu S gồm
N phần tử : |S| = N Trong số N phần tử thuộc tập S, c c điểm thuộc lớp C X c suất mỗi điểm dữ liệu tại nút này thuộc lớp C là
+ Công thức tính Entropy tại nút:
Trang 24H(S) = - ∑ + Giả sử thuộc tính được chọn là x Tập dữ liệu S được chia theo x thành k
child node , , , , với số điểm trong mỗi child node là , , , , Ta có:
H(x,S) = ∑ + Chỉ số Information Gain được tính :
Với mỗi gi tr Vi của A:
- Bổ sung một nh nh cây mới nằm phía dưới node gốc, tương ứng với
trường hợp A = Vi
- X c đ nh Examples(Vi) sao cho tập con của Examples c gi tr Vi cho
A
Trang 25- Nếu Examples(Vi) rỗng: Tạo một nút l đƣợc gắn nhãn = gi tr đích
phổ iến nhất trong Examples Sau đ gắn nút l này vào nh nh cây mới vừa tạo
- Nếu Examples(Vi) rỗng: gắn vào nh nh cây mới vừa tạo một cây con sinh ra ởi ID3 (Examples(Vi), Target_Attribute, Attributes – {A})
id outlook temperature humidity wind play
Hình 1.4.1: Bảng dữ liệu mô tả mối quan hệ thời tiết và tình hình chơi bóng
của 1 đội bóng
Trang 26C 4 thuộc tính thời tiết :
+ outlook c c c gi tr : sunny, overcast, rainy
+ temperature c c c gi tr : hot, mild, cool
+ humidity c c c gi tr : high, normal
+ wind c c c gi tr : weak, trong
Thuộc tính play c 2 gi tr : yes, no
Theo ảng tr n ta nhận thấy play c 5 gi tr no và 9 gi tr yes Ta có
Entropy tại nút gốc:
H(S) = -
log(
) - log(
Trang 27H(humidity,S) 0.547
H(wind,S) 0.618
So s nh c c kết quả đạt được, ta nhận thấy thuộc tính cần chọn ở ước đầu
tiên là outlook vì H(outlook,S) đạt gi tr nhỏ nhất
* Phân lớp Naive Bayes
- Là một thuật to n phân loại dựa tr n tính to n x c suất p dụng đ nh l Bayes để tính x c suất xảy ra của một sự kiện ngẫu nhi n x khi iết sự kiện li n quan c đã xảy ra P(x|c)
- Theo đ nh lí Bayes, x c suất xảy ra x khi iết c (P(x|c)) sẽ phụ thuộc vào 3
yếu tố:
+ P(x) : X c suất xảy ra của x, không quan tâm đến c
+ P(c) : X c suất xảy ra của c, không quan tâm đến x
+ P(c|x) : X c suất xảy ra của c khi iết x xảy ra
P(x|c) =
+ Khi c n giả thuyết:
P( |c)= ∑
- C c phân phối thường dùng cho P( |c)
+ Gaussian Naive Bayes : Mô h nh này được sử dụng chủ yếu trong loại dữ
liệu mà c c thành phần là c c iến li n tục
+ Multinomial Naive Bayes : Mô h nh này chủ yếu được sử dụng trong phân
loại v n ản Lúc này, mỗi v n ản được iểu diễn ởi một vector c độ dài d chính là số từ trong từ điển Gi tr của thành phần thứ i trong mỗi vector chính
là số lần từ thứ i xuất hiện trong v n ản đ
+ Bernoulli Naive Bayes : Mô h nh này được p dụng cho c c loại dữ liệu
mà mỗi thành phần là một gi tr inary - ẳng 0 hoặc 1 Ví dụ: cũng với loại
v n ản nhưng thay v đếm tổng số lần xuất hiện của 1 từ trong v n ản, ta chỉ cần quan tâm từ đ c xuất hiện hay không
- Ví dụ: [13]
Trang 28Giả sử trong tập training c c c v n ản d1, d2, d3, d4d1, d2, d3, d4 như
trong ảng dưới đây Mỗi v n ản này thuộc vào 1 trong 2 classes: B (Bắc) hoặc
N (Nam) Hãy x c đ nh class của v n ản d5
Training d1 hanoi pho chaolong hanoi hanoi pho chaolong hanoi B
d4 saigon hutiu banhbo phosaigon hutiu banhbo pho N Test d5 hanoi hanoi buncha hutiuhanoi hanoi buncha hutiu ?
Nhận thấy rằng ở đây c 2 class B và N, ta cần đi t m P(B) và P(N) Dựa tr n tần số xuất hiện mỗi class trong tập training, ta c :
P(B) = , P(N) = ; Tập hợp toàn ộ c c từ trong v n ản, hay còn gọi là từ điển, là:
V = { hanoi, pho, chaolong, buncha, omai, banhgio, saigon, hutiu, banhbo}
Số phần tử trong V: |V| = 9
H nh dưới đây minh hoạ qu tr nh Training và Test cho ài to n này khi sử dụng Multinomial Naive Bayes, trong đ c sử dụng Laplace smoothing với
=1