Từ các yếu tố ảnh hưởng tới thủ tục hành chính thuế và dữ liệu sử dụngdịch vụ thủ tục hành chính thuế, chúng tôi đã tiến hành Dự báo kết quả giải quy ết thủ tục hành chính tại Cục thuế t
Trang 1UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
TRẦN NGUYỄN BẢO KHANH
KHAI PHÁ DỮ LIỆU DỰA TRÊN BÁO CÁO TÌNH HÌNH, KẾT QUẢ GIẢI QUYẾT THỦ TỤC HÀNH CHÍNH THUẾ
TẠI CỤC THUẾ BÌNH DƯƠNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
BÌNH DƯƠNG, NĂM 2020
Trang 2UBND TỈNH BÌNH DƯƠNG
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
TRẦN NGUYỄN BẢO KHANH
KHAI PHÁ DỮ LIỆU DỰA TRÊN BÁO CÁO TÌNH HÌNH, KẾT QUẢ GIẢI QUYẾT THỦ TỤC HÀNH CHÍNH THUẾ
TẠI CỤC THUẾ BÌNH DƯƠNG
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ SỐ: 8480104
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN QUỐC HUY
BÌNH DƯƠNG, NĂM 2020
Trang 3LỜI CAM ĐOAN
Tôi cam đoan luận văn này: “Khai phá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế Bình Dương”
là công trình nghiên cứu của riêng tôi
Các số liệu là thực tế, kết quả thực hiện nêu trong luận văn là trung thực
và chưa từng được ai công bố trong bất kỳ công trình nghiên cứu nào khác
Các tài liệu tham khảo, sản phẩm nghiên cứu sử dụng cho luận văn nàyđược trích dẫn theo đúng quy định
Bình Dương, ngày 01 tháng 09 năm 2020
Học viên thực hiện luận văn
Trần Nguyễn Bảo Khanh
Trang 4LỜI CẢM ƠN
Lời đầu tiên tôi xin bày tỏ lòng biết ơn chân thành TS Nguyễn Quốc Huy,Thầy đã tận tình chỉ dẫn, định hướng và truyền đạt những kiến thức cho tôi suốtthời gian thực hiện luận văn này
Tôi xin bày tỏ lòng biết ơn chân thành đến quí Thầy Cô giáo trong khoa
Kỹ thuật - Công nghệ, Viện Đào tạo Sau đại học – Trường đại học Thủ Dầu Một
đã trang bị cho tôi những kiến thức nền tảng quan trọng và hỗ trợ tận tình trongsuốt quá trình tôi theo học
Tôi xin chân thành cảm ơn Lãnh đạo Cục thuế tỉnh Bình Dương cùng cácanh em đồng nghiệp phòng Cục thuế tỉnh Bình Dương đã tạo điều kiện và cungcấp số liệu cho tôi hoàn thiện luận văn này
Cảm ơn gia đình đã quan tâm, động viên ủng hộ trong suốt thời gian tôitham gia học tập và thực hiện luận văn này
Cảm ơn các anh chị đồng nghiệp, bạn bè lớp Cao học Hệ thống thông tinkhóa 2017-2019 đã giúp đỡ và đồng hành cùng tôi trong suốt thời gian học tập tạiTrường Đại học Thủ Dầu Một
Mặc dù đã cố gắng song luận văn cũng không tránh khỏi những thiếu sót.Tôi rất mong nhận được những ý kiến đóng góp của quý Thầy Cô để tôi có thểhoàn thiện hơn đề tài của mình
Xin trân trọng cảm ơn
Trang 5TÓM TẮT
Ngày nay Ngành thuế Việt Nam nói chung và Cục thuế Bình Dương nóiriêng thực hiện cải cách thủ tục hành chính mang đến sự hài lòng cho người nộpthuế và tăng nguồn thu ngân sách Dự báo thực hiện cải cách thủ tục hành chínhtại Cục thuế Bình Dương từ đó đưa ra giải pháp phù hợp để nâng cao chất lượngdịch vụ hành chính công là nội dung cấp thiết hiện nay Trong nghiên cứu nàychúng tôi đề xuất giải pháp Phân tích dự báo dịch vụ thủ tục hành chính thuế tạiCục thuế tỉnh Bình Dương bằng phương pháp học máy
Dựa trên số liệu các dịch vụ thủ tục hành chính thuế tại Cục thuế tỉnh BìnhDương trong thời gian 3 năm 2016, 2017 và 2018 đề tài đã tiến hành:
Phân tích so sánh và trực quan hóa số liệu các dịch vụ thủ tục hành chínhthuế để thấy được sự tăng trưởng và khác biệt giữa các quy trình thủ tục thuế vàbức tranh tổng quát về các dịch vụ thủ tục hành chính thuế tỉnh Bình Dương
Từ các yếu tố ảnh hưởng tới thủ tục hành chính thuế và dữ liệu sử dụngdịch vụ thủ tục hành chính thuế, chúng tôi đã tiến hành Dự báo kết quả giải quy
ết thủ tục hành chính tại Cục thuế tỉnh Bình Dương bằng 4 phương pháp họcmáy: Random Forest, Linear Regression, K-Nearest Neighbors và Decision Trees.Trên cơ sở thực nghiệm, đánh giá so sánh các kết quả đã đạt được của các môhình, chúng tôi đã lựa chọn mô hình tối ưu để dự báo kết quả giải quyết thủ tụchành chính tại Cục thuế tỉnh Bình Dương Kết quả thực nghiệm đã chứng minhrằng mô hình dự báo sử dụng phương pháp học máy Decision Trees có độ chínhxác cao nhất
Trang 6Chương 3 MÔ HÌNH ĐỀ XUẤT
3.2.1 Phân tích trực quan hóa số liệu giải quyết thủ tục hành chính thuế 14
3.2.2 Phân tích các yếu tố ảnh hưởng tới việc giải quyết thủ tục hành chính thuế 15 3.2.2.1 Các yếu tố về chính sách, chiến lược. 15
Trang 73.2.2.4 Lựa chọn yếu tố ảnh hưởng tới dự báo kết quả giải quyết thủ tục hành chính
Trang 8Hình 3.5 Mô hình Random forest cho vấn đề hồi quy [6], [14] 26
Hình 4.1 Sản lượng EMS nội tỉnh đơn vị Thủ Dầu Một 2018 31Hình 4.2 Doanh thu EMS nội tỉnh đơn vị Thủ Dầu Một 2018 31Hình 4.3 Sản lượng EMS liên tỉnh đơn vị Thủ Dầu Một 2018 31Hình 4.4 Doanh thu EMS liên tỉnh đơn vị Thủ Dầu Một 2018 32Hình 4.5 Sản lượng EMS quốc tế đơn vị Thủ Dầu Một 2018 32Hình 4.6 Doanh thu EMS quốc tế đơn vị Thủ Dầu Một 2018 32Hình 4.7 Tổng sản lượng EMS đơn vị Thủ Dầu Một 2018 33Hình 4.8 Tổng doanh thu EMS đơn vị Thủ Dầu Một 2018 33Hình 4.9 Tổng hợp các dịch vụ của đơn vị Thủ Dầu Một 34Hình 4.10 Tổng hợp các dịch vụ nội tỉnh của đơn vị Thủ Dầu Một 34Hình 4.11 Tổng hợp các dịch vụ liên tỉnh của đơn vị Thủ Dầu Một 35Hình 4.12 Tổng hợp các dịch vụ quốc tế của đơn vị Thủ Dầu Một 35Hình 4.13 Tổng sản lượng EMS Cục thuế tỉnh Bình Dương năm 2018 36Hình 4.14 Tổng doanh thu EMS Cục thuế tỉnh Bình Dương năm 2018 36Hình 4.15 Tổng sản lượng EMS COD Cục thuế tỉnh Bình Dương năm 2018 36Hình 4.16 Tổng doanh thu EMS COD Cục thuế tỉnh Bình Dương năm 2018 37Hình 4.17 Tổng sản lượng BPBK Cục thuế tỉnh Bình Dương năm 2018 37Hình 4.18 Tổng doanh thu BPBK Cục thuế tỉnh Bình Dương năm 2018 38Hình 4.19 Doanh thu các đơn vị Cục thuế tỉnh Bình Dương năm 2018 38
Trang 9Hình 4.20 Độ đo Spearman giữa các yếu tố 39
Trang 10DANH MỤC BẢNG
Bảng 4.1 Độ đo Spearman giữa 6 yếu tố đặc trưng và doanh thu 40Bảng 4.2 Độ đo Pearson giữa 6 yếu tố đặc trưng và doanh thu 41Bảng 4.3 Độ đo Spearman giữa 6 yếu tố đặc trưng và doanh thu 41Bảng 4.4 Tiêu chí đánh giá xếp loại KPI hàng tháng 42Bảng 4.5 Kết quả đánh giá các phương pháp học máy với 36 mẫu dữ liệu 43Bảng 4.6 Kết quả đánh giá các phương pháp học máy bộ dữ liệu 32 mẫu 43Bảng 4.7 Kết quả đánh giá các phương pháp học máy bộ dữ liệu 28 mẫu 44
Trang 11DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT
LR Linear Regression Hồi quy tuyến tínhKNN K-Nearest Neighbors K láng giềng gần
Trang 12Chương 1 GIỚI THIỆU CHUNG 1.1 Lý do thực hiện đề tài
Thế giới đang bước vào một cuộc cách mạng công nghiệp mới 4.0, mộtcuộc cách mạng hứa hẹn những điều trọng đại, ảnh hưởng đến mọi khía cạnh củacuộc sống trên toàn cầu mà hệ thống thuế thế giới nói chung cũng như hệ thốngthuế Việt Nam nói riêng là một trong những trọng tâm của cuộc cách mạng này
sự phát triển và mở rộng thị trường, mở rộng cạnh tranh trong mỗi quốc gia, hộinhập quốc tế với nhiều thuận lợi và cũng không ít khó khăn thách thức nhữngyêu cầu thực tế diễn ra trong hội nhập là rất sôi động đòi hỏi một sự vận động hếtsức mau lẹ trên mọi phương diện, không ngừng đổi mới, không chỉ đổi mới đểthích nghi với những yêu cầu của thị trường hiện tại ngành thuế Việt Nam cònphải vươn trước gợi mở những yêu cầu của thị trường mới có cơ hội tồn tại vàphát triển bền vững, đổi mới để phát triển đã trở thành quy luật tất yếu trong hộinhập
Khai phá dữ liệu giải quyết thủ tục hành chính thuế tại Tổng cục thế Việ
t Nam đã được thực hiện trong những năm gần đây với các công cụ thô, nên tốnnhiều công sức, thời gian và độ chính xác chưa cao Chính vì thế, để đáp ứngđược sự phát triển nhanh của các công tác thuế đòi hỏi cần có một giải pháp hiệnđại, hiệu quả Trong nghiên cứu này chúng tôi đề xuất giải pháp dựa trên Khaiphá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuếtại Cục thuế Bình Dương Kết quả phân tích, trực quan hóa và dự đoán nhanh,chính xác sẽ là tiền đề giúp lãnh đạo hoạch định chính sách, chiến lược phù hợpcho tương lai
Do đó việc nghiên cứu phân tích, trực quan hóa dữ liệu và dự đoán kết qu
ả giải quyết các thủ tục hành chính của Ngành thuế Việt Nam nói chung và củaCục thuế tỉnh Bình Dương nói riêng nhằm trợ giúp Ban lãnh đạo trong công tácquản lý là lý do chúng tôi chọn đề tài nghiên cứu: “Khai phá dữ liệu dựa trên báo
Trang 13cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế BìnhDương”.
1.2 Mục đích nghiên cứu
Mục đích nghiên cứu là phân tích, trực quan hóa dữ liệu và dự đoán kếtquả giải quyết các thủ tục hành chính tại Cục thuế tỉnh Bình Dương dựa trên cácphương pháp Khai phá dữ liệu
1.3 Đối tượng và phạm vi nghiên cứu
Đối tượng, phạm vi nghiên cứu Trên cơ sở dữ liệu thực tế thu thập đượctrong 3 năm 2016, 2017 và 2018 về báo cáo tình hình, kết quả giải quyết thủ tụchành chính thuế tại Cục thuế tỉnh Bình Dương
1.4 Phương pháp nghiên cứu
Đề tài sử dụng Phương pháp nghiên cứu phân tích dữ liệu, Phương pháp
dự báo, Phương pháp so sánh và Phương pháp thực nghiệm để so sánh, đánh giá
và phân tích các kết quả đạt được
1.5 Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học của luận văn: luận văn tập trung phân tích so sách các
số liệu thu thập được trong 3 năm 2016, 2017 và 2018 về báo cáo tình hình, kếtquả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương, từ đó trựcquan hóa dữ liệu, Phân tích các yếu tố ảnh hưởng, áp dụng vào các phươngpháp học máy K-Nearest Neighbors và Decision Trees, Random Forest và Linear
để dự báo kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh BìnhDương bằng Khai phá dữ liệu
Ý nghĩa thực tiễn: chúng tôi đã xây dựng mô hình để phân tích, trực quanhóa và dự báo kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh BìnhDương bằng Khai phá dữ liệu đồng thời xây dựng ứng dụng Web để trực quanhóa kết quả
Trang 14Chúng tôi đã đánh giá hệ thống trên nhiều khía cạnh để từ đó xây dựngđược giải pháp tối ưu khi đưa ứng dụng vào sử dụng trong thực tiễn và tiến hành
áp dụng triển khai thí điểm ứng dụng trong thực tiễn
1.6 Bố cục luận văn
Ngoài phần mở đầu, mục lục và danh mục, tài liệu tham khảo, luận văn có
bố cục được chia thành 5 chương:
Chương 1: Giới thiệu chung: Trình bày lý do thực hiện đề tài, giới thiệuchung, mục tiêu đối tượng phạm vi nghiên cứu ý nghĩa khoa học và ý nghĩa thựctiễn
Chương 2: Cơ sở lý thuyết và các nghiên cứu có liên quan chương nàytrình bày khái niện về công tác thuế, thủ tục hành chính thuế và một số phươngpháp phân tích, trực quan hóa và dự báo và các nghiên cứu có liên quan
Chương 3: Mô hình đề xuất phân tích, trực quan hóa và dự báo kết quả gi
ải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương
Chương 4: Thực nghiệm và đánh giá kết quả chương này trình bày về quátrình phân tích dữ liệu, trực quan hóa và dự báo kết quả bằng khai phá dữ liệu;thực nghiệm và đánh giá kết quả đạt được khi thực nghiệm
Chương 5: Kết luận và hướng phát triển
Trang 15Chương 2
CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU CÓ LIÊN QUAN
Trong chương này, chúng tôi trình bày về Thủ tục hành chính thuế củaNgành thuế Việt Nam nói chung cũng như Cục thuế Bình Dương nói riêng, cácnghiên cứu liên quan đã được công bố về các thủ tục hành chính thuế Chươngnày cũng trình bày một số phương pháp dự báo, phương pháp khai phá dữ liệu vàmột số nghiên cứu liên quan đến mô hình dự báo ngắn hạn, mô hình dự báo dàihạn trên một số nước từ đó lựa chọn phương pháp nghiên cứu thích hợp cho bàitoán đặt ra
2.1 Thủ tục hành chính thuế
Tổng cục thuế (TCT) là tổ chức được thành lập năm 1945 có chi nhánhrộng khắp trên 63 tỉnh thành trên toàn quốc hiện đang hỗ trợ các thủ tục hànhchính thuế như: tài liệu, hoá đơn, chính sách thủ tục thuế từ người nộp thuế
Dịch vụ thủ tục hành chính thuế (DVTTHCT) là loại hàng hoá đặc biệt,
sản phẩm dịch vụ vô hình, phục vụ chức năng công quyền, loại DVTTHCT doCục thuế thực hiện, có đặc điểm sau: Quá trình thực hiện và cung cấp dịch vụhành chính đều bị điều tiết rất chặt chẽ bởi quy định của pháp luật, mỗi người sửdụng dịch vụ đều có quyền ngang nhau trong việc sử dụng dịch vụ
Trang 16Ưu điểm của các thủ tục hành chính:
Thủ tục hành chính “khai báo thuế” nhanh, tiết kiệm thời gian, linh hoạt
có độ tin cậy và uy tín cao
Thủ tục hành chính “nộp thuế” thuận lợi, nhanh, tiết kiệm thời gian, chiphí
Thủ tục hành chính “hoàn thuế” nhanh, hỗ trợ kịp thời
Thủ tục hành chính “kiểm tra” nhanh, chuyên nghiệp,
Thủ tục hành chính “thanh tra” nhanh, chuyên nghiệp, phát hiện hành vigian lận kịp thời, chống thất thoát nguồn ngân sách
Một số nhược điểm của thủ tục hành chính thuế
So với một số thủ tục hành chính khác, việc giải quyết hồ sơ còn chậmhơn
Người nộp thuế phải mang đến tận nơi để giải quyết thủ tục hành chínhthuế
Kết quả giải quyết thủ tục hành chính thuế chưa được công khai minhbạch
Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5 năm.Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tế văn hoá
xã hội… ở tầm vi mô và vĩ mô
Trang 17Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại
dự báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế,văn hoá, xã hộichủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục vụ chocông tác chỉ đạo kịp thời Cách phân loại này chỉ mang tính tương đối tuỳ thuộcvào từng loại hiện tượng để quy định khoảng cách thời gian cho phù hợp với loạihiện tượng đó
Dựa vào đối tượng dự báo, có thể chia dự báo thành: Dự báo khoa học, dựbáo kinh tế, dự báo xã hội, dự báo tự nhiên, thiên văn học…Căn cứ vào phươngpháp dự báo, có thể chia thành 3 nhóm [4], [9]:
Dự báo bằng phương pháp chuyên gia: Loại dự báo này được tiến hànhtrên cơ sở tổng hợp, xử lý ý kiến của các chuyên gia thông thạo với hiện tượngđược nghiên cứu, từ đó có phương pháp xử lý thích hợp đề ra các dự đoán, các
dự đoán này được cân nhắc và đánh giá chủ quan từ các chuyên gia Phươngpháp này có ưu thế trong trường hợp dự đoán những hiện tượng hay quá trìnhbao quát rộng, phức tạp, chịu sự chi phối của khoa học- kỹ thuật, sự thay đổi củamôi trường, thời tiết, chiến tranh trong khoảng thời gian dài Một cải tiến củaphương pháp Delphi - là phương pháp dự báo dựa trên cơ sở sử dụng một tậphợp những đánh giá của một nhóm chuyên gia Mỗi chuyên gia được hỏi ý kiến
và rồi dự báo của họ được trình bày dưới dạng thống kê tóm tắt Việc trình bàynhững ý kiến này được thực hiện một cách gián tiếp (không có sự tiếp xúc trựctiếp) để tránh những sự tương tác trong nhóm nhỏ qua đó tạo nên những sai lệchnhất định trong kết quả dự báo Sau đó người ta yêu cầu các chuyên gia duyệt xétlại những dự báo của họ trên [4], [9]
Dự báo theo phương trình hồi quy: Theo phương pháp này, mức độ cần dựbáo phải được xây dựng trên cơ sở xây dựng mô hình hồi quy, mô hình này đượcxây dựng phù hợp với đặc điểm và xu thế phát triển của hiện tượng nghiên cứu
Để xây dựng mô hình hồi quy, đòi hỏi phải có tài liệu về hiện tượng cần dự báo
và các hiện tượng có liên quan Loại dự báo này thường được sử dụng để dự báotrung hạn và dài hạn ở tầm vĩ mô [4], [9]
Trang 18Dự báo dựa vào dãy số thời gian: Là dựa trên cơ sở dãy số thời gian phảnánh sự biến động của hiện tượng ở những thời gian đã qua để xác định mức độcủa hiện tượng trong tương lai Trong luận án này, tác giả nhóm các phươngpháp dự báo thành 2 nhóm chính là các phương pháp định tính và các phươngpháp định lượng [4], [9].
Phương pháp dự báo định tính: Phương pháp này dựa trên cơ sở nhận xétcủa những yếu tố liên quan, dựa trên những ý kiến về các khả năng có liên hệ củanhững yếu tố liên quan này trong tương lai Phương pháp định tính có liên quanđến mức độ phức tạp khác nhau, từ việc khảo sát ý kiến được tiến hành một cáchkhoa học để nhận biết các sự kiện tương lai hay từ ý kiến phản hồi của một nhómđối tượng hưởng lợi (chịu tác động) nào đó
Phương pháp dự báo định lượng: Các phương pháp dự báo định lượngthường dựa trên số liệu quá khứ, những số liệu này giả sử có liên quan đến tươnglai và có thể tìm thấy được Tất cả các mô hình dự báo theo định lượng có thể sửdụng thông qua chuỗi thời gian và các giá trị này được quan sát đo lường các giaiđoạn theo từng chuỗi Thông thường khi dự báo người ta thường hay kết hợp cảphương pháp định tính và định lượng để nâng cao mức độ chính xác của dự báo.Bên cạnh đó, vấn đề cần dự báo đôi khi không thể thực hiện được thông qua mộtphương pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phương phápnhằm mô tả đúng bản chất sự việc cần dự báo
2.3 Khai phá dữ liệu
2.3.1 Giới thiệu về khai phá dữ liệu
Lượng dữ liệu mà chúng ta tạo ra mỗi ngày ước tính khoảng trên vài tỷ tỷbyte/ngày Chính vì vậy, hiện nay lượng dữ liệu mà con người thu thập và lưu trữđược trong các kho dữ liệu là rất lớn, nhiều khi vượt qua khả năng quản lý Hiệntại, người ta đang đề cập đến khái niệm khủng hoảng phân tích dữ liệu tác nghiệp
để cung cấp thông tin với yêu cầu chất lượng ngày càng cao cho những người raquyết định trong các tổ chức tài chính, thương mại, khoa học, việc làm Nhà
Trang 19nghiên cứu John Naisbett đã cảnh báo về vấn đề này “Chúng ta đang chìm ngậptrong dữ liệu mà vẫn đói tri thức”.
Với khối lượng dữ liệu tăng nhanh và khổng lồ như vậy, chính vì vậy cácphương pháp thủ công truyền thống áp dụng để phân tích dữ liệu sẽ không hiệuquả, tốn kém và dễ dẫn đến những sai lệch
Nếu cho rằng các điện tử và các sóng điện tử chính là bản chất của côngnghệ điện tử truyền thống thì dữ liệu, thông tin và tri thức hiện đang là tiêu điểmcủa một lĩnh vực mới trong nghiên cứu và ứng dụng về phát hiện tri thức(Knowledge Discovery) và khai phá dữ liệu (Data Mining)
Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số vàcác ký hiệu, hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi cho mộtchương trình dưới một dạng nhất định Chúng ta sử dụng các bit để đo lường cácthông tin và xem nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọntới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu Chúng ta có thể xemtri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệgiữa chúng Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện,hoặc có thể được học Nói cách khác, tri thức có thể được coi là dữ liệu có độtrừu tượng và tổ chức cao
Phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết cácmẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và
có thể hiểu được Còn khai thác dữ liệu là một bước trong quy trình phát hiện trithức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định
về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong
dữ liệu Nói một cách khác, mục đích của phát hiện tri thức và khai phá dữ liệuchính là tìm ra các mẫu và/hoặc các mô hình đang tồn tại trong các cơ sở dữ liệunhưng vẫn còn bị che khuất bởi hàng núi dữ liệu
Trang 20Định nghĩa: “KDD (Knowledge Discovery in Databases) là quá trìnhkhông tầm thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểuđược trong dữ liệu”.
Còn các nhà thống kê thì xem Khai phá dữ liệu như là một qui trình phântích được thiết kế để thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện racác mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến vàsau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã pháthiện được cho các tập con mới của dữ liệu Quy trình này bao gồm ba giai đoạn
cơ bản: thăm dò, xây dựng mô hình hoặc định nghĩa mẫu, hợp thức/kiểm chứng
Quy trình phát hiện tri thức được mô tả tóm tắt như sau:
Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán là tìm hiểulĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phảihoàn thành Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích vàcho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứngdụng và bản chất của dữ liệu
Bước thứ hai: Thu thập và tiền xử lý dữ liệu là thu thập và xử lý thô, cònđược gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biếnđổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thờigian nhất trong toàn bộ qui trình phát hiện tri thức
Trang 21Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức là khai phá dữ liệu haynói cách khác là trích ra các mẫu và/hoặc các mô hình ẩn dưới các dữ liệu Giaiđoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ vàmục đích của khai phá dữ liệu, dùng phương pháp khai phá nào.
Bước thứ tư: Sử dụng các tri thức phát hiện được là hiểu tri thức đã tìmđược, đặc biệt là làm sáng tỏ các mô tả và dự đoán Các bước trên có thể lặp đilặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lầnthực hiện
Tóm lại: KDD là một quá trình chiết xuất ra tri thức từ kho dữ liệu màtrong đó khai phá dữ liệu là công đoạn quan trọng nhất
Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiềulĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán songsong và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê,
sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,luật Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến(OLAP) cũng liên quan rất chặt chẽ với phát hiện tri thức và khai phá dữ liệu.Khai phá dữ liệu có nhiều ứng dụng trong thực tế Một số ứng dụng điểnhình như:
- Bảo hiểm, tài chính và thị trường chứng khoán: Phân tích tình hình tàichính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán Danhmục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận,
- Phân tích dữ liệu và hỗ trợ ra quyết định
- Điều trị y học và chăm sóc y tế: Một số thông tin về chuẩn đoán bệnh lưutrong các hệ thống quản lý bệnh viện Phân tích mối liên hệ giữa các triệu chứngbệnh, chẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, )
Trang 22- Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố.
- Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắtvăn bản, …
- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học,tìm kiếm, so sánh các hệ gen và thông tin di truyền, mối liên hệ gen và một sốbệnh di truyền,
- Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sátlỗi, sự cố, chất lượng dịch vụ,
2.3.2 Các phương pháp khai phá dữ liệu
KDD bao gồm hai yếu tố quan trọng không thể thiếu được là Dự đoán(Prediction) và Mô tả (Description)
Dự đoán: Đòi hỏi sử dụng một vài biến hoặc trường để dự đoán thông tintiềm ẩn hoặc một giá trị tương lai của một biến thuộc tính mà ta quan tâm đến
Mô tả: Tập trung là nổi bật lên mô hình kết quả mà con người có thểhiểu sâu về thông tin dữ liệu
Với hai mục đích chính đã nêu ở trên, người ta thường sử dụng cácphương pháp sau cho khai phá dữ liệu:
- Phân lớp, phân loại (Classification): Là việc học một hàm ánh xạ từmột mẫu dữ liệu vào một trong số các lớp đã được xác định trước đó
- Hồi quy (Regression): Là việc học một hàm ánh xạ từ một mẫu dữ liệuthành một biến dự đoán có giá trị thực
- Phân nhóm (Clustering): Là việc mô tả chung để tìm ra các tập hay cácnhóm, loại mô tả dữ liệu Các nhóm có thể tách nhau hoặc phân cấp
- Tổng hợp (Summarization): Là công việc liên quan đến các phươngpháp tìm kiếm một mô tả tập con dữ liệu, thường áp dụng trong việc phân tích
dữ liệu có tính thăm dò và báo cáo tự động
- Mô hình ràng buộc (Dependency modeling): Là việc tìm kiếm một môhình mô tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức: phụ thuộc cục
Trang 23bộ vào cấu trúc của mô hình, phụ thuộc vào thước đo, ước lượng của một địnhlượng nào đó.
- Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Chú ývào những thay đổi quan trọng trong dữ liệu từ các giá trị chuẩn hoặc đã đượcxác định trước đó
- Biểu diễn mô hình (Model Representation): Là việc dùng một ngônngữ L_ Language nào đó để mô tả các mẫu mô hình có thể khai phá được Mô
tả mô hình rõ ràng thì học máy sẽ tạo ra mẫu có mô hình chính xác cho dữ liệu.Tuy nhiên, nếu mô hình quá lớn thì khả năng dự đoán của học máy sẽ bị hạnchế Như thế sẽ làm cho việc tìm kiếm phức tạp hơn cũng như hiểu được môhình là không đơn giản
- Kiểm định mô hình (Model Evaluation): Là việc đánh giá, ước lượngcác mô hình chi tiết, chuẩn trong quá trình xử lý và phát hiện tri thức với sựước lượng có dự báo chính xác hay không và có thoả mãn cơ sở logic haykhông? Ước lượng phải được đánh giá chéo (cross validation) với việc mô tảđặc điểm bao gồm dự báo chính xác, tính mới lạ, tính hữu ích, tính hiểu đượcphù hợp với các mô hình Hai phương pháp logic và thống kê chuẩn có thể sửdụng trong mô hình kiểm định
- Phương pháp tìm kiếm (Search Method): Gồm có hai thành phần: (1) –Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật toán phải tìm kiếmcác tham số trong phạm vi các chuẩn của mô hình kiểm định rồi tối ưu hoá vàđưa ra tiêu chí (quan sát) dữ liệu và biểu diễn mô hình đã định (2) – Mô hìnhtìm kiếm, xuất hiện như một đường vòng trên toàn bộ phương pháp tìm kiếm,biểu diễn mô hình phải thay đổi sao cho các hệ mô hình phải thay đổi sao chocác hệ gia phả mô hình phải được thông qua
2.4 Các nghiên cứu liên quan
Một số Nghiên cứu trình bày về lý thuyết dự báo nói chung như:
“Elements of Forecasting” của tác giả Francis X Diebold (University ofPennsylvania) [11], đây cũng là một tài liệu được tham khảo nhiều khi nghiên
Trang 24cứu về dự báo Ngoài ra còn có Đề tài “Cơ sở khoa học của dự báo nhu cầu nhânlực trình độ cao đẳng, đại học ở Việt Nam” [5]; Hay đề tài “Dự báo và phân tích
dữ liệu trong kinh tế và tài chính” [4] trình bày về các phương pháp dự báo đượcứng dụng các hàm toán học như ngoại suy xu thế theo hàm tuyến tính theo dãy sốthời gian và sơ đồ luồng…
Việc nâng cao chất lượng, làm hài lòng khách hàng đang sử dụng dịch vụ,tìm lại những khách hàng trước đây và thu hút thêm khách hàng mới là vô cùngquan trọng [10] Bởi chất lượng là vấn đề sống còn đối với bất cứ doanh nghiệp(DN) nào khi tham gia cung cấp sản phẩm cho thị trường, là chìa khóa để giảiquyết vấn đề năng suất và hiệu quả sản xuất kinh doanh của các DN nói chung và
DN thuế nói riêng
Các công trình nghiên cứu là những cơ sở quý báu, các công trình nàybước đầu cũng đã áp dụng vào Việt Nam cụ thể là tỉnh Hải Dương, Nghệ An vàcũng đã mang đến những kết quả nhất định về dự báo khu vực kinh tế trọng điểmphía Nam mà cụ thể là tỉnh Bình Dương
Đề tài “Cơ sở khoa học của dự báo nhu cầu nhân lực trình độ cao đẳng,đại học ở Việt Nam” [9], đề tài đã hệ thống hóa và xây dựng cơ sở lý luận của dựbáo nhu cầu nhân lực trình độ cao đẳng, đại học thông qua làm rõ các khái niệm,các nhân tố kinh tế - xã hội tác động đến nhu cầu nhân lực, các phương pháp dựbáo và hệ thống các kiểm định của một phương trình dự báo, các điều kiện đểđảm bảo kết quả dự báo có độ tin cậy… qua đó tiến hành đánh giá thực trạng các
dự báo nhu cầu nhân lực đã thực hiện, thực trạng các điều kiện để thực hiện dựbáo nhu cầu nhân lực trình độ cao đẳng, đại học của nước ta Thử nghiệm ứngdụng mối quan hệ giữa một số yếu tố kinh tế - xã hội như GDP, tỷ trọng laođộng với nhân lực trình độ cao đẳng, đại học vào các phương trình dự báo nhucầu nhân lực trình độ cao đẳng, đại học ở Việt Nam
Trần Hữu Nam với đề tài “Nghiên cứu ứng dụng các phương pháp dự báotrong giáo dục - đào tạo” [8] trình bày về các phương pháp dự báo được ứngdụng các hàm toán học như ngoại suy xu thế theo hàm tuyến tính theo dãy số thời
Trang 25gian và sơ đồ luồng (dựa trên dân số độ tuổi, dòng chảy học sinh theo khối lớp vàcấp học) Đây thực sự là cẩm nang đại cương về các phương pháp dự báo giáodục.
Tác giả Nguyễn Kim Sơn với đề tài “Sử dụng Data Mining dự báo nhucầu lao động cho một số ngành nghề trên địa bàn tỉnh Bình Dương” 2019 [7]trình bày cơ bản về các phương pháp dự báo, khai phá dữ liệu, các kỹ thuật khaiphá dữ liệu và các ứng dụng của khai phá dữ liệu trong thực tế Trong đó tậptrung vào nghiên cứu các kỹ thuật, phương pháp hồi quy trên các thuật toán và ápdụng vào bài toán dự báo thực tế đó là bài toán dự báo nhu cầu lao động cho một
số ngành nghề trên địa bàn tỉnh Bình Dương
Nhìn chung chưa có nghiên cứu nào về khai phá dữ liệu dựa trên báo cáotình hình, kết quả giải quyết thủ tục hành chính thuế tỉnh Bình Dương Tuy nhiênnhững nghiên cứu trên là nền tảng để chúng tôi nghiên cứu và vận dụng một cáchsáng tạo vào việc khai thác dữ liệu dựa vào báo cáo tình hình, kết quả giải quyếtthủ tục hành chính thuế nói chung và thủ tục hành chính thuế tỉnh Bình Dươngnói riêng
2.5 Hướng đề xuất nghiên cứu
Dựa trên các nghiên cứu trước chúng tôi đề xuất hướng nghiên cứu ápdụng Khai phá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hànhchính thuế tỉnh Bình Dương với 3 nội dung chính:
Phân tích so sánh và trực quan hóa số liệu giải quyết thủ tục hành chínhthuế
Phân tích các yếu tố ảnh hưởng đến kết quả giải quyết thủ tục hành chínhthuế
Dự báo kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh BìnhDương bằng các phương pháp học máy
Trang 26Chương 3
MÔ HÌNH ĐỀ XUẤT 3.1 Mô hình đề xuất
Mô hình đề xuất về Khai phá dữ liệu dựa trên báo cáo tình hình, kết quảgiải quyết thủ tục hành chính thuế tỉnh Bình Dương gồm 3 phần được trình bàytrong Hình 3.1 Mô hình này gồm có 3 phần chính:
Phân tích so sánh và trực quan hóa số liệu kết quả giải quyết thủ tục hànhchính thuế tỉnh Bình Dương
Phân tích các yếu tố ảnh hưởng đến kết quả giải quyết thủ tục hành chínhthuế tỉnh Bình Dương bằng các độ đo Pearson và Spearman từ đó xác định đượccác yếu tố then chốt ảnh hưởng tới kết quả giải quyết thủ tục hành chính thuế
Từ các yếu tố ảnh hưởng tới giải quyết thủ tục hành chính thuế, sẽ tiếnhành Dự báo kết quả giải quyết thủ tục hành chính thuế tỉnh Bình Dương bằngcác phương pháp học máy
Hình 3.1 Mô hình đề xuất
Phân tích so sánh và
trực quan hóa số liệu
Dữ liệu về báo cáo tình hình, kết quả giải quyết thủ tụchành chính thuế tại Cục thuế tỉnh Bình Dương
Phân tích các yếu tố ảnhhưởng đến kết quả giảiquyết thủ tục hành chínhthuế :
- Pearson
- Spearman
Dự báo kết quả giải quyếtthủ tục hành chính thuế tạiCục thuế tỉnh Bình Dươngbằng các phương pháp họcmáy:
- Random Forest,
- Linear Regression,
- K-Nearest Neighbors
- Decision Trees
Trang 273.2 Đặc trưng của mô hình đề xuất
3.2.1 Phân tích trực quan hóa số liệu các dịch vụ chuyển phát
Phân tích và trực quan hóa số liệu giải quyết thủ tục hành chính thuế tỉnhBình Dương để thấy được sự tăng trưởng và khác biệt giữa các thủ tục hànhchính thuế và bức tranh tổng quát về kết quả giải quyết thủ tục hành chính thuếtỉnh Bình Dương là một việc rất quan trọng
Từ dữ liệu về báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuếtại Cục thuế tỉnh Bình Dương đã được thu thập, chúng tôi sẽ thống kê và biểudiễn trực quan theo từng thủ tục, từng thời điểm, đồng thời phân tích số liệu đểthấy được mức tăng trưởng nhỏ nhất, thấp nhất trung bình của thủ tục Chúng tôicũng tiến hành phân tích và trực quan hóa tổng quan về kết quả giải quyết thủ tụchành chính thuế tại Cục thuế tỉnh Bình Dương để có được bức tranh tổng quát vềviệc giải quyết thủ tục hành chính thuế theo từng thời điểm, từng thủ tục
3.2.2 Phân tích các yếu tố ảnh hưởng tới kết quả giải quyết thủ tục hành chính thuế
Giải quyết thủ tục hành chính thuế phụ thuộc vào nhiều yếu tố, trong phầnnày chúng tôi sẽ đi sâu phân tích các yếu tố ảnh hưởng tới kết quả giải quyết thủtục hành chính thuế
3.2.2.1 Các yếu tố về chính sách chiến lược bao gồm:
- Xây dựng và phát triển ngành thu ế hiện đại nhằm phục vụ phát triểnkinh tế - xã hội, bảo đảm quốc phòng, an ninh và đời sống của nhân dân
- Xây dựng và hoàn thiện môi trường cạnh tranh theo quy định của phápluật để các thành phần kinh tế tham gia hoạt động thuế
- Khuyến khích ứng dụng tiến bộ khoa học, công nghệ, đào tạo nguồnnhân lực để phát triển ngành thuế
- Tăng cường hội nhập, hợp tác quốc tế và thực hiện cam kết quốc tế tronglĩnh vực thuế
Trang 28- Áp dụng cơ chế ưu đãi đối với việc giải quyết thủ tục hành chính thuếtại vùng có điều kiện kinh tế - xã hội khó khăn và vùng có điều kiện kinh tế - xãhội đặc biệt khó khăn.
3.2.2.2 Các yếu tố về kinh tế - xã hội
Kinh tế-xã hội có ảnh hưởng lớn đến sự phát triển ngành thuế và kết quảgiải quyết các thủ tục thuế, các yếu tố về kinh tế-xã hội có thể kể đến như:
- Dân số: Trong các yếu tố xã hội thì quy mô dân số là yếu tố tác động rấtmạnh đến nhu cầu nhân lực
- GDP: Với các mô hình dự báo nhu cầu nhân lực, thông thường tác độngcủa các yếu tố kinh tế như tốc độ tăng trưởng GDP, thu nhập bình quân đầungười, tỷ lệ ngân sách Nhà nước (NSNN) chi cho GD, cơ cấu kinh tế, tốc độ tăngdân số, có vai trò quyết định Chính sách đối với lao động, việc làm
- Phát triển, chuyển dịch cơ cấu kinh tế: Kinh tế phát triển kéo theo nhucầu phát triển nguồn nhân lực có trình độ cũng như tạo nhiều việc làm hơn trong
xã hội, đây là mối quan hệ tất yếu, chuyến dịch cơ cấu kinh tế đã làm thay đổi cơcấu lao động nước ta theo xu hướng công nghiệp hoá, hiện đại hoá Số lao độngtrong các ngành công nghiệp và dịch vụ ngày càng tăng lên, trong khi số laođộng ngành nông nghiệp ngày càng giảm đi…
- Vấn đề toàn cầu hóa hội nhập quốc tế
- Mức thu nhập, tiền lương, tiền công
3.2.2.3 Các yếu tố khoa học công nghệ
Sự phát triển khoa học có tác động rất lớn đến sự phát triển ngành thuế vàkết quả giải quyết các thủ tục thuế, đặc biệt cuộc cách mạng 4.0 sẽ làm cho vệcgiải quyết các thủ tục thuế phải có sự thay đổi về cơ cấu lao động, cơ cấu nguồnlực, cơ cấu về trình độ lao động, có những yêu cầu về kỹ năng nghiệp vụ khácnhau Bên cạnh đó, lĩnh vực công nghiệp 4.0 cũng là lĩnh vực khởi nghiệp quantrọng bởi nhân lực là nguồn lực rất lớn cho phát triển kinh tế xã hội Việc kết nối,phát triển các nguồn lực đó dựa trên nền tảng công nghiệp 4.0, nền tảng công
Trang 29nghệ kết nối là lĩnh vực mà rất nhiều nhà doanh nghiệp, nhà khởi nghiệp có thểtham gia vào để đưa ra giải pháp kết nối cung cầu lao động, phát triển nguồnnhân lực.
3.2.2.4 Lựa chọn yếu tố ảnh hưởng tới dự báo kết quả giải quyết thủ tục hành chính thuế
Từ việc nghiên cứu các yếu tố tác động đến kết quả giải quyết thủ tục hành chínhthuế như đã trình bày ở trên, để có thể đo lường các yếu tố thông qua các số liệu
đã được thu thập và công bố hàng tháng từ Cục thuế tỉnh Bình Dương, chúng tôi
đã lựa chọn các yếu tố ảnh hưởng tới dự báo kết quả giải quyết thủ tục hànhchính thuế liên quan đến các thủ tục hành chính thuế trong báo cáo gồm:
1 Trả lời vướng mắc của ĐTNT bằng văn bản
2 Hồ sơ đăng ký thuế
3 Hồ sơ hoàn thuế
3.1 Hoàn thuế GTGT
- Hồ sơ hoàn thuế đối với dự án ODA
- Hồ sơ hoàn thuế GTGT hoàn trước kiểm tra sau
- Hồ sơ hoàn thuế GTGT kiểm tra trước, hoàn sau
- Hoàn thuế GTGT tạm
3.2 Hoàn thuế TNCN
3.3 Hồ sơ hoàn thuế khác
4 Hồ sơ miễn giảm thuế
4.1 Hồ sơ miễn giảm thuế TNCN
4.2 Hồ sơ miễn giảm khác
5 Hồ sơ khiếu nại, tố cáo về thuế
6 Hồ sơ mua hoá đơn thuế
7 Hồ sơ đăng ký tự in hoá đơn, sử dụng hoá đơn tự in thuế
Trang 308 Hồ sơ giải quyết nợ thuế (khoanh, xoá)
9 Hồ sơ khác
Để đánh giá sự tác động của các yếu tố trên tới kết quả giải quyết thủ tụchành chính thuế, chúng tôi sử dụng hệ số tương quan Pearson Correlation vàSpearman (đo lường mức độ tương quan tuyến tính giữa hai biến) để tìm mốitương quan giữa các yếu tố ảnh hưởng đến kết quả giải quyết thủ tục hành chínhthuế Các hệ số tương quan được trình bày ở phần dưới đây:
Hệ số tương quan Pearson
Hệ số tương quan Pearson (Pearson correlation coefficient, kí hiệu r) đolường mức độ tương quan tuyến tính giữa hai biến Về nguyên tắc, tương quanPearson sẽ tìm ra một đường thẳng phù hợp nhất với mối quan hệ tuyến tính của
- r=0 cho thấy không có sự tương quan
- r > 0 cho biết một sự tương quan thuận giữa hai biến, nghĩa là nếu giá trịcủa biến này tăng thì sẽ làm tăng giá trị của biến kia
Công thức tính Hệ số tương quan Pearson:
Với các bước cụ thể như sau:
Bước 1: Tính trung bình của x và y
Trang 31Bước 2: Tính độ lệch của mỗi giá trị của x với trung bình của x (lấy cácgiá trị của x trừ đi trung bình của x) và gọi là "a", làm tương tự như vậy với y và
gọi là "b"
Bước 3: Tính:a × b, a 2 vàb 2cho mỗi giá trị
Bước 4: Tính tổnga × b, tổng a 2vả tổngb 2
Bước 5: Chia tổng của a × b cho căn bậc 2 của [(sum a2) × (sum b2)]
Hệ số tương quan Spearman ρ
Hệ số tương quan hạng Pearson chỉ hợp lí nếu biến số x và y tuân theo luậtphân phối chuẩn Nếu x và y không tuân theo luật phân phối chuẩn, chúng ta phải
sử dụng một hệ số tương quan khác tên là Spearman, một phương pháp phân tíchphi tham số Hệ số này được ước tính bằng cách biến đổi hai biến số x và y thànhthứ bậc (rank), và xem độ tương quan giữa hai dãy số bậc Sử dụng tương quanhạng Spearman để kiểm tra mối quan hệ giữa hai biến được xếp hạng hoặc mộtbiến được xếp hạng và một biến đo lường [8]
Test score: Kiểm tra độ chính xác của kết quả dự báo cho từng thuộc tínhCông thức tính Hệ số tương quan Spearman dựa trên xếp hạng như sau:
3.2.3 Dự báo kết quả giải quyết thủ tục hành chính thuế
Trang 32Dựa trên các yếu tố ảnh hưởng tới kết quả giải quyết thủ tục hành chínhthuế như đã xác định ở phần trước, chúng tôi sẽ tiến hành dự báo kết quả giảiquyết thủ tục hành chính thuế Mô hình đề xuất về dự báo , kết quả giải quyết thủtục hành chính thuế tại Cục thuế Bình Dương được biểu diễn như sau:
Hình 3.1: Mô hình dự báo kết quả giải quyết thủ tục hành chính cục Thuế
tỉnh Bình DươngChi tiết về mô hình này được trình bày cụ thể theo các bước sau đây:
Bước 1:
5 Trình bày kết quả dự báo
1 Dữ liệu về thủ tục hành chính tại cục thuế tỉnh Bình
Dương
2 Tiền xử lý dữ liệu
3 Lựa chọn mô hình
4 Thực nghiệm, Đánh giá
Mô hình tối ưu
Mô hìnhchưa tối ưu
6 Theo dõi KQDB
Trang 33- Thu thập dữ liệu về số lượng hồ sơ và nguồn thu ngân sách các dich vụthủ tục hành chính thuế tại các đơn vị trực thuộc Cục thuế tỉnh Bình Dương.
- Thu thập dữ liệu các yếu tố ảnh hưởng tới dịch vụ thủ tục hành chínhthuế
Bước 2:
- Tiền xử lý dữ liệu và cho ra tập dữ liệu chuẩn để dưa vào dự báo, baogồm: việc Làm sạch dữ liệu, loại bỏ nhiễu, hiểu chỉnh những thành phần dữ liệukhông nhất quán, xử lý các dữ liệu của các biến dư thừa hoặc thiếu thông tin,vector hóa dữ liệu đã được làm sạch
Bước 3:
Lựa chọn mô hình: Gồm năm mô hình dự báo Linear Regression, Nearest Neighbors, Decision Trees và Random Forests và Học luật với các tham
K-số trên từng mô hình
Bước 4: Thực nghiệm, đánh giá và lựa chọn mô hình phù hợp
- Thực nghiệm và đánh giá, lựa chọn mô hình phù hợp dựa vào các độ đo:Trong quá trình thực nghiệm, chúng tôi lập lại nhiều lần để thay đổi tỉ lệphân chia giữa tập huấn luyện và tập kiểm tra với các tập dữ liệu được chươngtrình chọn ngẫu nhiên và tiến hành kiểm tra chọn độ chính xác của các model tốtnhất
- Thực nghiệm và đánh giá, lựa chọn mô hình phù hợp dựa vào kết quả sốliệu dự báo:
Chúng tôi tiến hành cài đặt 05 mô hình dự báo của 05 thuật toán trên với
dữ liệu đầu vào, đầu ra như sau:
+ Dữ liệu đầu vào là: Dữ liệu thu thập số lượng các dịch vụ thủ tục hànhchính thuế tại Cục thuế tỉnh Bình Dương, dữ liệu về các yếu tố ảnh hưởng tớidịch vụ thủ tục hành chính thuế theo từng tháng
Trang 34+ Dữ liệu đầu ra: Dự báo kết quả giải quyết thủ tục hành chính thuế Đểkiểm tra độ chính xác của kết quả dự báo với số liệu gốc hiện có, chúng tôi chọn
số dữ liệu làm bộ test đồng thời tiến hành loại bỏ số liệu đó trong bảng dữ liệu vàtiến hành chạy thực nghiệm
Bước 5: Trình bày kết quả dự báo
Kết quả dự báo phải được trình bày rõ ràng sao cho đễ hiểu các con sốđược tính toán như thế nào và chỉ ra sự tin cậy trong kết quả dự báo
Người dự báo phải có khả năng trao đổi các kết quả dự báo theo ngôn ngữ
mà các nhà quản lý hiểu được
Trình bày cả ở dạng viết và dạng nói
Bước 6: Theo dõi kết quả dự báo
Lệch giữa giá trị dự báo và giá trị thực phải được thảo luận một cách tíchcực, khách quan và cởi mở
Mục tiêu của việc thảo luận là để hiểu tại sao có các sai số, để xác định độlớn của sai số
Trao đổi và hợp tác giữa người sử dụng và người làm dự báo có vai trò rấtquan trọng trong việc xây dựng và duy trì quy trình dự báo thành công
Có rất nhiều thuật toán để sử dụng cho bài toán dự báo, tuy nhiên trong đềtài này, chúng tôi chọn bốn thuật toán để áp dụng xây dựng mô hình dự báo nhưsau:
Trang 353.2.3.1 Linear Regression
Hồi quy tuyến tính đã được phát minh khoảng hơn 200 năm và đã đượcnghiên cứu rộng rãi Một số quy tắc tốt khi sử dụng kĩ thuật này là loại bỏ cácbiến tương tự nhau (correlated) và để loại bỏ bớt yếu tố sao lãng từ dữ liệu củabạn, nếu có thể Đây là một kĩ thuật đơn giản và nhanh chóng, và là thuật toán tốtđầu tiên để thử
Mô hình tiên đoán chủ yếu quan tâm đến việc giảm thiểu sai sót của môhình hoặc đưa ra các dự đoán chính xác nhất có thể, với một chi phí giải trình.Chúng tôi sẽ mượn, sử dụng lại và lấy các thuật toán từ nhiều lĩnh vực khác nhau,bao gồm số liệu thống kê và sử dụng chúng cho những mục đích này
Biểu diễn hồi quy tuyến tính là một phương trình mô tả một đường thẳng
mô tả phù hợp nhất mối quan hệ giữa các biến đầu vào (x) và các biến đầu ra (y),bằng cách tìm các trọng số cụ thể cho các biến đầu vào được gọi là các hệ số ():
y = 0 + 1* Xi + ϵiChúng ta sẽ dự đoán y với biến x cho trước và mục tiêu của thuật toán hồiquy tuyến tính là tìm các giá trị cho các hệ số 0+ 1 Hình 3.2 biểu diễn mô hìnhhồi quy tuyến tính
Hình 3.2: Mô hình hồi quy tuyến tínhHạn chế đầu tiên của Linear Regression là nó rất nhạy cảm với nhiễu(sensitive to noise) Vì vậy, trước khi thực hiện Linear Regression, các nhiễu(outlier) cần phải được loại bỏ Bước này được gọi là tiền xử lý (pre-processing);
Trang 36Hạn chế thứ hai của Linear Regression là nó không biễu diễn được các mô hìnhphức tạp [5], [9], [10]
3.2.3.2 K - Nearest Neighbors
K-nearest neighbor là một trong những thuật toán supervised-learning đơngiản nhất (mà hiệu quả trong một vài trường hợp) trong Machine Learning Khitraining, thuật toán này không học một điều gì từ dữ liệu training (đây cũng là lý
do thuật toán này được xếp vào loại lazy learning), mọi tính toán được thực hiệnkhi nó cần dự đoán kết quả của dữ liệu mới K-nearest neighbor có thể áp dụngđược vào cả hai loại của bài toán Supervised learning là Classification vàRegression Hình 3.3 mô tả về KNN
K-Nearest Neighbors algorithm (K-NN) được sử dụng rất phổ biến tronglĩnh vực Data Mining K-NN là phương pháp để phân lớp các đối tượng dựa vàokhoảng cách gần nhất giữa đối tượng cần xếp lớp (Query point) và tất cả các đốitượng trong Training Data
Hình 3.3 KNNMột đối tượng được phân lớp dựa vào K láng giềng của nó K là sốnguyên dương được xác định trước khi thực hiện thuật toán Người ta thườngdùng khoảng cách Euclidean để tính khoảng cách giữa các đối tượng
Trang 37Trong đó x là test data, xi là một điểm trong K-lân cận của x, wi làtrọng số của điểm đó (ứng với điểm dữ liệu đang xét x ), σ là một số dương.Nhận thấy rằng hàm số này cũng thỏa mãn điều kiện: điểm càng gần x thì trọng
số càng cao (cao nhất bằng 1)
Dự đoán được thực hiện cho một điểm dữ liệu mới bằng cách tìm kiếmthông qua toàn bộ tập đào tạo cho hầu hết các ví dụ K giống nhau (hàng xóm) vàtóm tắt biến đầu ra cho các ví dụ K Đối với các vấn đề hồi quy, đây có thể làbiến đầu ra trung bình, đối với các vấn đề phân loại, đây có thể là mode (hoặcphổ biến nhất) của lớp
Bí quyết là làm thế nào để xác định sự giống nhau giữa các trường hợp dữliệu Kĩ thuật đơn giản nhất nếu các thuộc tính của bạn có cùng kích cỡ (ví dụ tất
cả đều là inch) là sử dụng khoảng cách Euclide, một con số bạn có thể tính toántrực tiếp dựa trên sự khác biệt giữa mỗi biến đầu vào
KNN có thể yêu cầu rất nhiều bộ nhớ hoặc không gian để lưu trữ tất cả dữliệu, nhưng chỉ thực hiện tính toán (hoặc học) khi một dự báo là cần thiết, chỉ vừađúng lúc Bạn cũng có thể cập nhật và tổ chức các bài tập đào tạo theo thời gian
để giữ các dự đoán chính xác
Ý tưởng về khoảng cách hoặc độ gần có thể bị phá vỡ với các quy mô rấtcao (rất nhiều biến đầu vào) có thể ảnh hưởng tiêu cực đến hiệu suất của thuậttoán đối với vấn đề của bạn Đây được gọi là lời nguyền của quy mô Nó chothấy bạn chỉ sử dụng những biến đầu vào có liên quan nhất đến dự đoán biến đầura
Thuật toán K-NN được mô tả như sau:
B1 Xác định giá trị tham số K (số láng giềng gần nhất)
B2 Tính khoảng cách giữa đối tượng cần phân lớp (Query Point) với tất
cả các đối tượng trong training data (thường sử dụng khoảng các Euclidean)
B3 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềnggần nhất với Query Point
Trang 38B4 Lấy tất cả các lớp của K láng giềng gần nhất đã xác định
B5 Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp choQuery Point
- Ưu điểm của KNN
+ Độ phức tạp tính toán của quá trình training là bằng 0
+ Việc dự đoán kết quả của dữ liệu mới rất đơn giản
+ Không cần giả sử gì về phân phối của các class
- Nhược điểm của KNN
+ KNN rất nhạy cảm với nhiễu khi K nhỏ
+ Như đã nói, KNN là một thuật toán mà mọi tính toán đều nằm ởkhâu test Trong đó việc tính khoảng cách tới từng điểm dữ liệu trong training set
sẽ tốn rất nhiều thời gian, đặc biệt là với các cơ sở dữ liệu có số chiều lớn và cónhiều điểm dữ liệu Với K càng lớn thì độ phức tạp cũng sẽ tăng lên Ngoài ra,việc lưu toàn bộ dữ liệu trong bộ nhớ cũng ảnh hưởng tới hiệu năng của KNN.[5], [11]
3.2.3.3 Decision trees
Cây quyết định là mô hình máy học tự động sử dụng rất nhiều trong phântích dự báo và khai phá dữ liệu do tính đơn giản và hiệu quả Cây quyết định thuđược bằng cách học từ tập dữ liệu, để dự đoán giá trị biến phụ thuộc y từ biến xchúng ta có thể rút trích luật quyết định tương ứng với nút lá có dạng IF-THENđược tạo ra từ việc thực hiện AND trên các điều kiện theo đường dẫn từ nút gốcđến nút lá Các luật quyết định dễ hiểu với người sử dụng
Giải thuật học từ dữ liệu là quá trình xây dựng cây bắt đầu từ nút gốc đếnnút lá Giải thuật thực hiện phân hoạch đệ quy tập dữ liệu theo các biến độc lậpthành các phân vùng siêu chữ nhật rời nhau mà ở đó các phần tử dữ liệu xi,
xj, …, xk của cùng phân vùng (nút lá) có các yi, yj, …, yk là tương tự nhau trongvấn đề hồi quy Giải thuật học mô hình cây quyết định từ dữ liệu gồm 2 bước
Trang 39lớn: xây dựng cây, cắt nhánh để tránh học vẹt Quá trình xây dựng cây được làmnhư sau:
- Bắt đầu từ nút gốc, tất cả các dữ liệu học ở nút gốc,
- Nếu các phần tử dữ liệu tại 1 nút là tương tự nhau thì nút đang xét đượccho là nút lá, giá trị dự báo của nút lá chính là giá trị trung bình của các{yi, …,yk} của các phần tử trong nút lá
- Nếu dữ liệu ở nút quá hỗn loạn (các giá trị {yi, …,yk} rất khác nhau) thìnút được cho là nút trong, tiến hành phân hoạch dữ liệu một cách đệ quy bằngviệc chọn 1 biến để thực hiện phân hoạch tốt nhất có thể Một biến được cho làtốt được sử dụng để phân hoạch dữ liệu sao cho kết quả thu được cây nhỏ nhất.Việc lựa chọn này dựa vào các heuristics: chọn biến sinh ra các nút lá sớm nhất
Để đánh giá và chọn biến khi phân hoạch dữ liệu, giải thuật CART của [13] ướclượng độ đo hỗn loạn thông tin tại phân vùng D dựa trên độ lệch chuẩn nhưtrong (1) với μ là giá trị trung bình của các giá trị y trong D
Nếu sử dụng biến A phân hoạch D kích thước m thành 2 tập con D1 (kíchthước m1) và D2 (kích thước m2), độ hỗn loạn sau khi phân hoạch được tínhnhư công thức (2):
Biến được chọn phân hoạch dữ liệu là biến cho giá trị độ hỗn loạn sau khiphân hoạch là nhỏ nhất Mô hình cây quyết định sau khi xây dựng thường khôngmạnh với nhiễu và dễ dẫn đến học vẹt Tức là mô hình có tính tổng quát thấp,chỉ cần dữ liệu kiểm tra có thay đổi một ít so với dữ liệu học thì cây quyết định
dự báo sai Để khắc phục khuyết điểm này, Breiman cũng đề nghị các chiến lượccắt nhánh trong giải thuật CART Có 2 lựa chọn hoặc postpruning (cắt nhánhcây sau khi xây dựng cây) hay prepruning (dừng sớm quá trình phân nhánh)
Trang 40Trong thực tế, postpruning được sử dụng nhiều hơn prepruning Tuy nhiên độphức tạp của việc cắt nhánh sau khi xây dựng cây rất phức tạp, sử dụng cácchiến lược để ước lượng lỗi sinh ra bởi mô hình sau khi cắt nhánh Mô hìnhDecision Tree cho vấn đề hồi quy được trình bày trong Hình 3.4.
Hình 3.4: Mô hình Cây quyết định
Trong phân tích thành phần lỗi của giải thuật học, Breiman đã chỉ ra trong[14], lỗi bao gồm 2 thành phần là bias và variance Thành phần lỗi bias là kháiniệm về lỗi của mô hình học (không liên quan đến dữ liệu học) và thành phần lỗivariance là lỗi do tính biến thiên của mô hình so với tính ngẫu nhiên của các mẫu
dữ liệu học Dựa trên cách phân tích hiệu quả của giải thuật học, Breiman đã đềxuất giải thuật học rừng ngẫu nhiên [16], tạo ra một tập hợp các cây quyết địnhkhông cắt nhánh, mỗi cây được xây dựng trên tập mẫu bootstrap (lấy mẫu cóhoàn lại từ tập học), tại mỗi nút phân hoạch tốt nhất được thực hiện từ việc chọnngẫu nhiên một tập con các thuộc tính Lỗi tổng quát của rừng phụ thuộc vào độchính xác của từng cây thành viên trong rừng và sự phụ thuộc lẫn nhau giữa cáccây thành viên Giải thuật rừng ngẫu nhiên xây dựng cây không cắt nhánh nhằmgiữ cho thành phần lỗi bias thấp (thành phần lỗi bias là thành phần lỗi của giảithuật học, nó độc lập với tập dữ liệu học) và dùng tính ngẫu nhiên để điều khiểntính tương quan thấp giữa các cây trong rừng Giải thuật máy học rừng ngẫunhiên (hình 2.4) có thể được trình bày ngắn gọn như sau: