Khai phá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại cục thuế bình dương

Từ các yếu tố ảnh hưởng tới thủ tục hành chính thuế và dữ liệu sử dụngdịch vụ thủ tục hành chính thuế, chúng tôi đã tiến hành Dự báo kết quả giải quy ết thủ tục hành chính tại Cục thuế t

Trang 1

UBND TỈNH BÌNH DƯƠNG

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

TRẦN NGUYỄN BẢO KHANH

KHAI PHÁ DỮ LIỆU DỰA TRÊN BÁO CÁO TÌNH HÌNH, KẾT QUẢ GIẢI QUYẾT THỦ TỤC HÀNH CHÍNH THUẾ

TẠI CỤC THUẾ BÌNH DƯƠNG

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN

MÃ SỐ: 8480104

LUẬN VĂN THẠC SĨ

BÌNH DƯƠNG, NĂM 2020

Trang 2

UBND TỈNH BÌNH DƯƠNG

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

TRẦN NGUYỄN BẢO KHANH

KHAI PHÁ DỮ LIỆU DỰA TRÊN BÁO CÁO TÌNH HÌNH, KẾT QUẢ GIẢI QUYẾT THỦ TỤC HÀNH CHÍNH THUẾ

TẠI CỤC THUẾ BÌNH DƯƠNG

CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN

MÃ SỐ: 8480104

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN QUỐC HUY

BÌNH DƯƠNG, NĂM 2020

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan luận văn này: “Khai phá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế Bình Dương”

là công trình nghiên cứu của riêng tôi

Các số liệu là thực tế, kết quả thực hiện nêu trong luận văn là trung thực

và chưa từng được ai công bố trong bất kỳ công trình nghiên cứu nào khác

Các tài liệu tham khảo, sản phẩm nghiên cứu sử dụng cho luận văn nàyđược trích dẫn theo đúng quy định

Bình Dương, ngày 01 tháng 09 năm 2020

Học viên thực hiện luận văn

Trần Nguyễn Bảo Khanh

Trang 4

LỜI CẢM ƠN

Lời đầu tiên tôi xin bày tỏ lòng biết ơn chân thành TS Nguyễn Quốc Huy,Thầy đã tận tình chỉ dẫn, định hướng và truyền đạt những kiến thức cho tôi suốtthời gian thực hiện luận văn này

Tôi xin bày tỏ lòng biết ơn chân thành đến quí Thầy Cô giáo trong khoa

Kỹ thuật - Công nghệ, Viện Đào tạo Sau đại học – Trường đại học Thủ Dầu Một

đã trang bị cho tôi những kiến thức nền tảng quan trọng và hỗ trợ tận tình trongsuốt quá trình tôi theo học

Tôi xin chân thành cảm ơn Lãnh đạo Cục thuế tỉnh Bình Dương cùng cácanh em đồng nghiệp phòng Cục thuế tỉnh Bình Dương đã tạo điều kiện và cungcấp số liệu cho tôi hoàn thiện luận văn này

Cảm ơn gia đình đã quan tâm, động viên ủng hộ trong suốt thời gian tôitham gia học tập và thực hiện luận văn này

Cảm ơn các anh chị đồng nghiệp, bạn bè lớp Cao học Hệ thống thông tinkhóa 2017-2019 đã giúp đỡ và đồng hành cùng tôi trong suốt thời gian học tập tạiTrường Đại học Thủ Dầu Một

Mặc dù đã cố gắng song luận văn cũng không tránh khỏi những thiếu sót.Tôi rất mong nhận được những ý kiến đóng góp của quý Thầy Cô để tôi có thểhoàn thiện hơn đề tài của mình

Xin trân trọng cảm ơn

Trang 5

TÓM TẮT

Ngày nay Ngành thuế Việt Nam nói chung và Cục thuế Bình Dương nóiriêng thực hiện cải cách thủ tục hành chính mang đến sự hài lòng cho người nộpthuế và tăng nguồn thu ngân sách Dự báo thực hiện cải cách thủ tục hành chínhtại Cục thuế Bình Dương từ đó đưa ra giải pháp phù hợp để nâng cao chất lượngdịch vụ hành chính công là nội dung cấp thiết hiện nay Trong nghiên cứu nàychúng tôi đề xuất giải pháp Phân tích dự báo dịch vụ thủ tục hành chính thuế tạiCục thuế tỉnh Bình Dương bằng phương pháp học máy

Dựa trên số liệu các dịch vụ thủ tục hành chính thuế tại Cục thuế tỉnh BìnhDương trong thời gian 3 năm 2016, 2017 và 2018 đề tài đã tiến hành:

Phân tích so sánh và trực quan hóa số liệu các dịch vụ thủ tục hành chínhthuế để thấy được sự tăng trưởng và khác biệt giữa các quy trình thủ tục thuế vàbức tranh tổng quát về các dịch vụ thủ tục hành chính thuế tỉnh Bình Dương

Từ các yếu tố ảnh hưởng tới thủ tục hành chính thuế và dữ liệu sử dụngdịch vụ thủ tục hành chính thuế, chúng tôi đã tiến hành Dự báo kết quả giải quy

ết thủ tục hành chính tại Cục thuế tỉnh Bình Dương bằng 4 phương pháp họcmáy: Random Forest, Linear Regression, K-Nearest Neighbors và Decision Trees.Trên cơ sở thực nghiệm, đánh giá so sánh các kết quả đã đạt được của các môhình, chúng tôi đã lựa chọn mô hình tối ưu để dự báo kết quả giải quyết thủ tụchành chính tại Cục thuế tỉnh Bình Dương Kết quả thực nghiệm đã chứng minhrằng mô hình dự báo sử dụng phương pháp học máy Decision Trees có độ chínhxác cao nhất

Trang 6

Chương 3 MÔ HÌNH ĐỀ XUẤT

3.2.1 Phân tích trực quan hóa số liệu giải quyết thủ tục hành chính thuế 14

3.2.2 Phân tích các yếu tố ảnh hưởng tới việc giải quyết thủ tục hành chính thuế 15 3.2.2.1 Các yếu tố về chính sách, chiến lược. 15

Trang 7

3.2.2.4 Lựa chọn yếu tố ảnh hưởng tới dự báo kết quả giải quyết thủ tục hành chính

Trang 8

Hình 3.5 Mô hình Random forest cho vấn đề hồi quy [6], [14] 26

Hình 4.1 Sản lượng EMS nội tỉnh đơn vị Thủ Dầu Một 2018 31Hình 4.2 Doanh thu EMS nội tỉnh đơn vị Thủ Dầu Một 2018 31Hình 4.3 Sản lượng EMS liên tỉnh đơn vị Thủ Dầu Một 2018 31Hình 4.4 Doanh thu EMS liên tỉnh đơn vị Thủ Dầu Một 2018 32Hình 4.5 Sản lượng EMS quốc tế đơn vị Thủ Dầu Một 2018 32Hình 4.6 Doanh thu EMS quốc tế đơn vị Thủ Dầu Một 2018 32Hình 4.7 Tổng sản lượng EMS đơn vị Thủ Dầu Một 2018 33Hình 4.8 Tổng doanh thu EMS đơn vị Thủ Dầu Một 2018 33Hình 4.9 Tổng hợp các dịch vụ của đơn vị Thủ Dầu Một 34Hình 4.10 Tổng hợp các dịch vụ nội tỉnh của đơn vị Thủ Dầu Một 34Hình 4.11 Tổng hợp các dịch vụ liên tỉnh của đơn vị Thủ Dầu Một 35Hình 4.12 Tổng hợp các dịch vụ quốc tế của đơn vị Thủ Dầu Một 35Hình 4.13 Tổng sản lượng EMS Cục thuế tỉnh Bình Dương năm 2018 36Hình 4.14 Tổng doanh thu EMS Cục thuế tỉnh Bình Dương năm 2018 36Hình 4.15 Tổng sản lượng EMS COD Cục thuế tỉnh Bình Dương năm 2018 36Hình 4.16 Tổng doanh thu EMS COD Cục thuế tỉnh Bình Dương năm 2018 37Hình 4.17 Tổng sản lượng BPBK Cục thuế tỉnh Bình Dương năm 2018 37Hình 4.18 Tổng doanh thu BPBK Cục thuế tỉnh Bình Dương năm 2018 38Hình 4.19 Doanh thu các đơn vị Cục thuế tỉnh Bình Dương năm 2018 38

Trang 9

Hình 4.20 Độ đo Spearman giữa các yếu tố 39

Trang 10

DANH MỤC BẢNG

Bảng 4.1 Độ đo Spearman giữa 6 yếu tố đặc trưng và doanh thu 40Bảng 4.2 Độ đo Pearson giữa 6 yếu tố đặc trưng và doanh thu 41Bảng 4.3 Độ đo Spearman giữa 6 yếu tố đặc trưng và doanh thu 41Bảng 4.4 Tiêu chí đánh giá xếp loại KPI hàng tháng 42Bảng 4.5 Kết quả đánh giá các phương pháp học máy với 36 mẫu dữ liệu 43Bảng 4.6 Kết quả đánh giá các phương pháp học máy bộ dữ liệu 32 mẫu 43Bảng 4.7 Kết quả đánh giá các phương pháp học máy bộ dữ liệu 28 mẫu 44

Trang 11

DANH MỤC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT

LR Linear Regression Hồi quy tuyến tínhKNN K-Nearest Neighbors K láng giềng gần

Trang 12

Chương 1 GIỚI THIỆU CHUNG 1.1 Lý do thực hiện đề tài

Thế giới đang bước vào một cuộc cách mạng công nghiệp mới 4.0, mộtcuộc cách mạng hứa hẹn những điều trọng đại, ảnh hưởng đến mọi khía cạnh củacuộc sống trên toàn cầu mà hệ thống thuế thế giới nói chung cũng như hệ thốngthuế Việt Nam nói riêng là một trong những trọng tâm của cuộc cách mạng này

sự phát triển và mở rộng thị trường, mở rộng cạnh tranh trong mỗi quốc gia, hộinhập quốc tế với nhiều thuận lợi và cũng không ít khó khăn thách thức nhữngyêu cầu thực tế diễn ra trong hội nhập là rất sôi động đòi hỏi một sự vận động hếtsức mau lẹ trên mọi phương diện, không ngừng đổi mới, không chỉ đổi mới đểthích nghi với những yêu cầu của thị trường hiện tại ngành thuế Việt Nam cònphải vươn trước gợi mở những yêu cầu của thị trường mới có cơ hội tồn tại vàphát triển bền vững, đổi mới để phát triển đã trở thành quy luật tất yếu trong hộinhập

Khai phá dữ liệu giải quyết thủ tục hành chính thuế tại Tổng cục thế Việ

t Nam đã được thực hiện trong những năm gần đây với các công cụ thô, nên tốnnhiều công sức, thời gian và độ chính xác chưa cao Chính vì thế, để đáp ứngđược sự phát triển nhanh của các công tác thuế đòi hỏi cần có một giải pháp hiệnđại, hiệu quả Trong nghiên cứu này chúng tôi đề xuất giải pháp dựa trên Khaiphá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuếtại Cục thuế Bình Dương Kết quả phân tích, trực quan hóa và dự đoán nhanh,chính xác sẽ là tiền đề giúp lãnh đạo hoạch định chính sách, chiến lược phù hợpcho tương lai

Do đó việc nghiên cứu phân tích, trực quan hóa dữ liệu và dự đoán kết qu

ả giải quyết các thủ tục hành chính của Ngành thuế Việt Nam nói chung và củaCục thuế tỉnh Bình Dương nói riêng nhằm trợ giúp Ban lãnh đạo trong công tácquản lý là lý do chúng tôi chọn đề tài nghiên cứu: “Khai phá dữ liệu dựa trên báo

Trang 13

cáo tình hình, kết quả giải quyết thủ tục hành chính thuế tại Cục thuế BìnhDương”.

1.2 Mục đích nghiên cứu

Mục đích nghiên cứu là phân tích, trực quan hóa dữ liệu và dự đoán kếtquả giải quyết các thủ tục hành chính tại Cục thuế tỉnh Bình Dương dựa trên cácphương pháp Khai phá dữ liệu

1.3 Đối tượng và phạm vi nghiên cứu

Đối tượng, phạm vi nghiên cứu Trên cơ sở dữ liệu thực tế thu thập đượctrong 3 năm 2016, 2017 và 2018 về báo cáo tình hình, kết quả giải quyết thủ tụchành chính thuế tại Cục thuế tỉnh Bình Dương

1.4 Phương pháp nghiên cứu

Đề tài sử dụng Phương pháp nghiên cứu phân tích dữ liệu, Phương pháp

dự báo, Phương pháp so sánh và Phương pháp thực nghiệm để so sánh, đánh giá

và phân tích các kết quả đạt được

1.5 Ý nghĩa khoa học và thực tiễn

Ý nghĩa khoa học của luận văn: luận văn tập trung phân tích so sách các

số liệu thu thập được trong 3 năm 2016, 2017 và 2018 về báo cáo tình hình, kếtquả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương, từ đó trựcquan hóa dữ liệu, Phân tích các yếu tố ảnh hưởng, áp dụng vào các phươngpháp học máy K-Nearest Neighbors và Decision Trees, Random Forest và Linear

để dự báo kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh BìnhDương bằng Khai phá dữ liệu

Ý nghĩa thực tiễn: chúng tôi đã xây dựng mô hình để phân tích, trực quanhóa và dự báo kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh BìnhDương bằng Khai phá dữ liệu đồng thời xây dựng ứng dụng Web để trực quanhóa kết quả

Trang 14

Chúng tôi đã đánh giá hệ thống trên nhiều khía cạnh để từ đó xây dựngđược giải pháp tối ưu khi đưa ứng dụng vào sử dụng trong thực tiễn và tiến hành

áp dụng triển khai thí điểm ứng dụng trong thực tiễn

1.6 Bố cục luận văn

Ngoài phần mở đầu, mục lục và danh mục, tài liệu tham khảo, luận văn có

bố cục được chia thành 5 chương:

Chương 1: Giới thiệu chung: Trình bày lý do thực hiện đề tài, giới thiệuchung, mục tiêu đối tượng phạm vi nghiên cứu ý nghĩa khoa học và ý nghĩa thựctiễn

Chương 2: Cơ sở lý thuyết và các nghiên cứu có liên quan chương nàytrình bày khái niện về công tác thuế, thủ tục hành chính thuế và một số phươngpháp phân tích, trực quan hóa và dự báo và các nghiên cứu có liên quan

Chương 3: Mô hình đề xuất phân tích, trực quan hóa và dự báo kết quả gi

ải quyết thủ tục hành chính thuế tại Cục thuế tỉnh Bình Dương

Chương 4: Thực nghiệm và đánh giá kết quả chương này trình bày về quátrình phân tích dữ liệu, trực quan hóa và dự báo kết quả bằng khai phá dữ liệu;thực nghiệm và đánh giá kết quả đạt được khi thực nghiệm

Chương 5: Kết luận và hướng phát triển

Trang 15

Chương 2

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU CÓ LIÊN QUAN

Trong chương này, chúng tôi trình bày về Thủ tục hành chính thuế củaNgành thuế Việt Nam nói chung cũng như Cục thuế Bình Dương nói riêng, cácnghiên cứu liên quan đã được công bố về các thủ tục hành chính thuế Chươngnày cũng trình bày một số phương pháp dự báo, phương pháp khai phá dữ liệu vàmột số nghiên cứu liên quan đến mô hình dự báo ngắn hạn, mô hình dự báo dàihạn trên một số nước từ đó lựa chọn phương pháp nghiên cứu thích hợp cho bàitoán đặt ra

2.1 Thủ tục hành chính thuế

Tổng cục thuế (TCT) là tổ chức được thành lập năm 1945 có chi nhánhrộng khắp trên 63 tỉnh thành trên toàn quốc hiện đang hỗ trợ các thủ tục hànhchính thuế như: tài liệu, hoá đơn, chính sách thủ tục thuế từ người nộp thuế

Dịch vụ thủ tục hành chính thuế (DVTTHCT) là loại hàng hoá đặc biệt,

sản phẩm dịch vụ vô hình, phục vụ chức năng công quyền, loại DVTTHCT doCục thuế thực hiện, có đặc điểm sau: Quá trình thực hiện và cung cấp dịch vụhành chính đều bị điều tiết rất chặt chẽ bởi quy định của pháp luật, mỗi người sửdụng dịch vụ đều có quyền ngang nhau trong việc sử dụng dịch vụ

Trang 16

Ưu điểm của các thủ tục hành chính:

Thủ tục hành chính “khai báo thuế” nhanh, tiết kiệm thời gian, linh hoạt

có độ tin cậy và uy tín cao

Thủ tục hành chính “nộp thuế” thuận lợi, nhanh, tiết kiệm thời gian, chiphí

Thủ tục hành chính “hoàn thuế” nhanh, hỗ trợ kịp thời

Thủ tục hành chính “kiểm tra” nhanh, chuyên nghiệp,

Thủ tục hành chính “thanh tra” nhanh, chuyên nghiệp, phát hiện hành vigian lận kịp thời, chống thất thoát nguồn ngân sách

Một số nhược điểm của thủ tục hành chính thuế

So với một số thủ tục hành chính khác, việc giải quyết hồ sơ còn chậmhơn

Người nộp thuế phải mang đến tận nơi để giải quyết thủ tục hành chínhthuế

Kết quả giải quyết thủ tục hành chính thuế chưa được công khai minhbạch

Dự báo trung hạn: Là những dự báo có thời gian dự báo từ 3 đến 5 năm.Thường phục vụ cho việc xây dựng những kế hoạch trung hạn về kinh tế văn hoá

xã hội… ở tầm vi mô và vĩ mô

Trang 17

Dự báo ngắn hạn: Là những dự báo có thời gian dự báo dưới 3 năm, loại

dự báo này thường dùng để dự báo hoặc lập các kế hoạch kinh tế,văn hoá, xã hộichủ yếu ở tầm vi mô và vĩ mô trong khoảng thời gian ngắn nhằm phục vụ chocông tác chỉ đạo kịp thời Cách phân loại này chỉ mang tính tương đối tuỳ thuộcvào từng loại hiện tượng để quy định khoảng cách thời gian cho phù hợp với loạihiện tượng đó

Dựa vào đối tượng dự báo, có thể chia dự báo thành: Dự báo khoa học, dựbáo kinh tế, dự báo xã hội, dự báo tự nhiên, thiên văn học…Căn cứ vào phươngpháp dự báo, có thể chia thành 3 nhóm [4], [9]:

Dự báo bằng phương pháp chuyên gia: Loại dự báo này được tiến hànhtrên cơ sở tổng hợp, xử lý ý kiến của các chuyên gia thông thạo với hiện tượngđược nghiên cứu, từ đó có phương pháp xử lý thích hợp đề ra các dự đoán, các

dự đoán này được cân nhắc và đánh giá chủ quan từ các chuyên gia Phươngpháp này có ưu thế trong trường hợp dự đoán những hiện tượng hay quá trìnhbao quát rộng, phức tạp, chịu sự chi phối của khoa học- kỹ thuật, sự thay đổi củamôi trường, thời tiết, chiến tranh trong khoảng thời gian dài Một cải tiến củaphương pháp Delphi - là phương pháp dự báo dựa trên cơ sở sử dụng một tậphợp những đánh giá của một nhóm chuyên gia Mỗi chuyên gia được hỏi ý kiến

và rồi dự báo của họ được trình bày dưới dạng thống kê tóm tắt Việc trình bàynhững ý kiến này được thực hiện một cách gián tiếp (không có sự tiếp xúc trựctiếp) để tránh những sự tương tác trong nhóm nhỏ qua đó tạo nên những sai lệchnhất định trong kết quả dự báo Sau đó người ta yêu cầu các chuyên gia duyệt xétlại những dự báo của họ trên [4], [9]

Dự báo theo phương trình hồi quy: Theo phương pháp này, mức độ cần dựbáo phải được xây dựng trên cơ sở xây dựng mô hình hồi quy, mô hình này đượcxây dựng phù hợp với đặc điểm và xu thế phát triển của hiện tượng nghiên cứu

Để xây dựng mô hình hồi quy, đòi hỏi phải có tài liệu về hiện tượng cần dự báo

và các hiện tượng có liên quan Loại dự báo này thường được sử dụng để dự báotrung hạn và dài hạn ở tầm vĩ mô [4], [9]

Trang 18

Dự báo dựa vào dãy số thời gian: Là dựa trên cơ sở dãy số thời gian phảnánh sự biến động của hiện tượng ở những thời gian đã qua để xác định mức độcủa hiện tượng trong tương lai Trong luận án này, tác giả nhóm các phươngpháp dự báo thành 2 nhóm chính là các phương pháp định tính và các phươngpháp định lượng [4], [9].

Phương pháp dự báo định tính: Phương pháp này dựa trên cơ sở nhận xétcủa những yếu tố liên quan, dựa trên những ý kiến về các khả năng có liên hệ củanhững yếu tố liên quan này trong tương lai Phương pháp định tính có liên quanđến mức độ phức tạp khác nhau, từ việc khảo sát ý kiến được tiến hành một cáchkhoa học để nhận biết các sự kiện tương lai hay từ ý kiến phản hồi của một nhómđối tượng hưởng lợi (chịu tác động) nào đó

Phương pháp dự báo định lượng: Các phương pháp dự báo định lượngthường dựa trên số liệu quá khứ, những số liệu này giả sử có liên quan đến tươnglai và có thể tìm thấy được Tất cả các mô hình dự báo theo định lượng có thể sửdụng thông qua chuỗi thời gian và các giá trị này được quan sát đo lường các giaiđoạn theo từng chuỗi Thông thường khi dự báo người ta thường hay kết hợp cảphương pháp định tính và định lượng để nâng cao mức độ chính xác của dự báo.Bên cạnh đó, vấn đề cần dự báo đôi khi không thể thực hiện được thông qua mộtphương pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phương phápnhằm mô tả đúng bản chất sự việc cần dự báo

2.3 Khai phá dữ liệu

2.3.1 Giới thiệu về khai phá dữ liệu

Lượng dữ liệu mà chúng ta tạo ra mỗi ngày ước tính khoảng trên vài tỷ tỷbyte/ngày Chính vì vậy, hiện nay lượng dữ liệu mà con người thu thập và lưu trữđược trong các kho dữ liệu là rất lớn, nhiều khi vượt qua khả năng quản lý Hiệntại, người ta đang đề cập đến khái niệm khủng hoảng phân tích dữ liệu tác nghiệp

để cung cấp thông tin với yêu cầu chất lượng ngày càng cao cho những người raquyết định trong các tổ chức tài chính, thương mại, khoa học, việc làm Nhà

Trang 19

nghiên cứu John Naisbett đã cảnh báo về vấn đề này “Chúng ta đang chìm ngậptrong dữ liệu mà vẫn đói tri thức”.

Với khối lượng dữ liệu tăng nhanh và khổng lồ như vậy, chính vì vậy cácphương pháp thủ công truyền thống áp dụng để phân tích dữ liệu sẽ không hiệuquả, tốn kém và dễ dẫn đến những sai lệch

Nếu cho rằng các điện tử và các sóng điện tử chính là bản chất của côngnghệ điện tử truyền thống thì dữ liệu, thông tin và tri thức hiện đang là tiêu điểmcủa một lĩnh vực mới trong nghiên cứu và ứng dụng về phát hiện tri thức(Knowledge Discovery) và khai phá dữ liệu (Data Mining)

Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặc các số vàcác ký hiệu, hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi cho mộtchương trình dưới một dạng nhất định Chúng ta sử dụng các bit để đo lường cácthông tin và xem nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọntới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu Chúng ta có thể xemtri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệgiữa chúng Các mối quan hệ này có thể được hiểu ra, có thể được phát hiện,hoặc có thể được học Nói cách khác, tri thức có thể được coi là dữ liệu có độtrừu tượng và tổ chức cao

Phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết cácmẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và

có thể hiểu được Còn khai thác dữ liệu là một bước trong quy trình phát hiện trithức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số quy định

về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong

dữ liệu Nói một cách khác, mục đích của phát hiện tri thức và khai phá dữ liệuchính là tìm ra các mẫu và/hoặc các mô hình đang tồn tại trong các cơ sở dữ liệunhưng vẫn còn bị che khuất bởi hàng núi dữ liệu

Trang 20

Định nghĩa: “KDD (Knowledge Discovery in Databases) là quá trìnhkhông tầm thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểuđược trong dữ liệu”.

Còn các nhà thống kê thì xem Khai phá dữ liệu như là một qui trình phântích được thiết kế để thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện racác mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến vàsau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã pháthiện được cho các tập con mới của dữ liệu Quy trình này bao gồm ba giai đoạn

cơ bản: thăm dò, xây dựng mô hình hoặc định nghĩa mẫu, hợp thức/kiểm chứng

Quy trình phát hiện tri thức được mô tả tóm tắt như sau:

Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán là tìm hiểulĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phảihoàn thành Bước này sẽ quyết định cho việc rút ra được các tri thức hữu ích vàcho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứngdụng và bản chất của dữ liệu

Bước thứ hai: Thu thập và tiền xử lý dữ liệu là thu thập và xử lý thô, cònđược gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biếnđổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thờigian nhất trong toàn bộ qui trình phát hiện tri thức

Trang 21

Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức là khai phá dữ liệu haynói cách khác là trích ra các mẫu và/hoặc các mô hình ẩn dưới các dữ liệu Giaiđoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ vàmục đích của khai phá dữ liệu, dùng phương pháp khai phá nào.

Bước thứ tư: Sử dụng các tri thức phát hiện được là hiểu tri thức đã tìmđược, đặc biệt là làm sáng tỏ các mô tả và dự đoán Các bước trên có thể lặp đilặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lầnthực hiện

Tóm lại: KDD là một quá trình chiết xuất ra tri thức từ kho dữ liệu màtrong đó khai phá dữ liệu là công đoạn quan trọng nhất

Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiềulĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán songsong và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê,

sử dụng các phương pháp thống kê để mô hình dữ liệu và phát hiện các mẫu,luật Ngân hàng dữ liệu (Data Warehousing) và các công cụ phân tích trực tuyến(OLAP) cũng liên quan rất chặt chẽ với phát hiện tri thức và khai phá dữ liệu.Khai phá dữ liệu có nhiều ứng dụng trong thực tế Một số ứng dụng điểnhình như:

- Bảo hiểm, tài chính và thị trường chứng khoán: Phân tích tình hình tàichính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán Danhmục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận,

- Phân tích dữ liệu và hỗ trợ ra quyết định

- Điều trị y học và chăm sóc y tế: Một số thông tin về chuẩn đoán bệnh lưutrong các hệ thống quản lý bệnh viện Phân tích mối liên hệ giữa các triệu chứngbệnh, chẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, )

Trang 22

- Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố.

- Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắtvăn bản, …

- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học,tìm kiếm, so sánh các hệ gen và thông tin di truyền, mối liên hệ gen và một sốbệnh di truyền,

- Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sátlỗi, sự cố, chất lượng dịch vụ,

2.3.2 Các phương pháp khai phá dữ liệu

KDD bao gồm hai yếu tố quan trọng không thể thiếu được là Dự đoán(Prediction) và Mô tả (Description)

Dự đoán: Đòi hỏi sử dụng một vài biến hoặc trường để dự đoán thông tintiềm ẩn hoặc một giá trị tương lai của một biến thuộc tính mà ta quan tâm đến

Mô tả: Tập trung là nổi bật lên mô hình kết quả mà con người có thểhiểu sâu về thông tin dữ liệu

Với hai mục đích chính đã nêu ở trên, người ta thường sử dụng cácphương pháp sau cho khai phá dữ liệu:

- Phân lớp, phân loại (Classification): Là việc học một hàm ánh xạ từmột mẫu dữ liệu vào một trong số các lớp đã được xác định trước đó

- Hồi quy (Regression): Là việc học một hàm ánh xạ từ một mẫu dữ liệuthành một biến dự đoán có giá trị thực

- Phân nhóm (Clustering): Là việc mô tả chung để tìm ra các tập hay cácnhóm, loại mô tả dữ liệu Các nhóm có thể tách nhau hoặc phân cấp

- Tổng hợp (Summarization): Là công việc liên quan đến các phươngpháp tìm kiếm một mô tả tập con dữ liệu, thường áp dụng trong việc phân tích

dữ liệu có tính thăm dò và báo cáo tự động

- Mô hình ràng buộc (Dependency modeling): Là việc tìm kiếm một môhình mô tả sự phụ thuộc giữa các biến, thuộc tính theo hai mức: phụ thuộc cục

Trang 23

bộ vào cấu trúc của mô hình, phụ thuộc vào thước đo, ước lượng của một địnhlượng nào đó.

- Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Chú ývào những thay đổi quan trọng trong dữ liệu từ các giá trị chuẩn hoặc đã đượcxác định trước đó

- Biểu diễn mô hình (Model Representation): Là việc dùng một ngônngữ L_ Language nào đó để mô tả các mẫu mô hình có thể khai phá được Mô

tả mô hình rõ ràng thì học máy sẽ tạo ra mẫu có mô hình chính xác cho dữ liệu.Tuy nhiên, nếu mô hình quá lớn thì khả năng dự đoán của học máy sẽ bị hạnchế Như thế sẽ làm cho việc tìm kiếm phức tạp hơn cũng như hiểu được môhình là không đơn giản

- Kiểm định mô hình (Model Evaluation): Là việc đánh giá, ước lượngcác mô hình chi tiết, chuẩn trong quá trình xử lý và phát hiện tri thức với sựước lượng có dự báo chính xác hay không và có thoả mãn cơ sở logic haykhông? Ước lượng phải được đánh giá chéo (cross validation) với việc mô tảđặc điểm bao gồm dự báo chính xác, tính mới lạ, tính hữu ích, tính hiểu đượcphù hợp với các mô hình Hai phương pháp logic và thống kê chuẩn có thể sửdụng trong mô hình kiểm định

- Phương pháp tìm kiếm (Search Method): Gồm có hai thành phần: (1) –Trong bảng tham biến (phạm vi tìm kiếm tham số) thuật toán phải tìm kiếmcác tham số trong phạm vi các chuẩn của mô hình kiểm định rồi tối ưu hoá vàđưa ra tiêu chí (quan sát) dữ liệu và biểu diễn mô hình đã định (2) – Mô hìnhtìm kiếm, xuất hiện như một đường vòng trên toàn bộ phương pháp tìm kiếm,biểu diễn mô hình phải thay đổi sao cho các hệ mô hình phải thay đổi sao chocác hệ gia phả mô hình phải được thông qua

2.4 Các nghiên cứu liên quan

Một số Nghiên cứu trình bày về lý thuyết dự báo nói chung như:

“Elements of Forecasting” của tác giả Francis X Diebold (University ofPennsylvania) [11], đây cũng là một tài liệu được tham khảo nhiều khi nghiên

Trang 24

cứu về dự báo Ngoài ra còn có Đề tài “Cơ sở khoa học của dự báo nhu cầu nhânlực trình độ cao đẳng, đại học ở Việt Nam” [5]; Hay đề tài “Dự báo và phân tích

dữ liệu trong kinh tế và tài chính” [4] trình bày về các phương pháp dự báo đượcứng dụng các hàm toán học như ngoại suy xu thế theo hàm tuyến tính theo dãy sốthời gian và sơ đồ luồng…

Việc nâng cao chất lượng, làm hài lòng khách hàng đang sử dụng dịch vụ,tìm lại những khách hàng trước đây và thu hút thêm khách hàng mới là vô cùngquan trọng [10] Bởi chất lượng là vấn đề sống còn đối với bất cứ doanh nghiệp(DN) nào khi tham gia cung cấp sản phẩm cho thị trường, là chìa khóa để giảiquyết vấn đề năng suất và hiệu quả sản xuất kinh doanh của các DN nói chung và

DN thuế nói riêng

Các công trình nghiên cứu là những cơ sở quý báu, các công trình nàybước đầu cũng đã áp dụng vào Việt Nam cụ thể là tỉnh Hải Dương, Nghệ An vàcũng đã mang đến những kết quả nhất định về dự báo khu vực kinh tế trọng điểmphía Nam mà cụ thể là tỉnh Bình Dương

Đề tài “Cơ sở khoa học của dự báo nhu cầu nhân lực trình độ cao đẳng,đại học ở Việt Nam” [9], đề tài đã hệ thống hóa và xây dựng cơ sở lý luận của dựbáo nhu cầu nhân lực trình độ cao đẳng, đại học thông qua làm rõ các khái niệm,các nhân tố kinh tế - xã hội tác động đến nhu cầu nhân lực, các phương pháp dựbáo và hệ thống các kiểm định của một phương trình dự báo, các điều kiện đểđảm bảo kết quả dự báo có độ tin cậy… qua đó tiến hành đánh giá thực trạng các

dự báo nhu cầu nhân lực đã thực hiện, thực trạng các điều kiện để thực hiện dựbáo nhu cầu nhân lực trình độ cao đẳng, đại học của nước ta Thử nghiệm ứngdụng mối quan hệ giữa một số yếu tố kinh tế - xã hội như GDP, tỷ trọng laođộng với nhân lực trình độ cao đẳng, đại học vào các phương trình dự báo nhucầu nhân lực trình độ cao đẳng, đại học ở Việt Nam

Trần Hữu Nam với đề tài “Nghiên cứu ứng dụng các phương pháp dự báotrong giáo dục - đào tạo” [8] trình bày về các phương pháp dự báo được ứngdụng các hàm toán học như ngoại suy xu thế theo hàm tuyến tính theo dãy số thời

Trang 25

gian và sơ đồ luồng (dựa trên dân số độ tuổi, dòng chảy học sinh theo khối lớp vàcấp học) Đây thực sự là cẩm nang đại cương về các phương pháp dự báo giáodục.

Tác giả Nguyễn Kim Sơn với đề tài “Sử dụng Data Mining dự báo nhucầu lao động cho một số ngành nghề trên địa bàn tỉnh Bình Dương” 2019 [7]trình bày cơ bản về các phương pháp dự báo, khai phá dữ liệu, các kỹ thuật khaiphá dữ liệu và các ứng dụng của khai phá dữ liệu trong thực tế Trong đó tậptrung vào nghiên cứu các kỹ thuật, phương pháp hồi quy trên các thuật toán và ápdụng vào bài toán dự báo thực tế đó là bài toán dự báo nhu cầu lao động cho một

số ngành nghề trên địa bàn tỉnh Bình Dương

Nhìn chung chưa có nghiên cứu nào về khai phá dữ liệu dựa trên báo cáotình hình, kết quả giải quyết thủ tục hành chính thuế tỉnh Bình Dương Tuy nhiênnhững nghiên cứu trên là nền tảng để chúng tôi nghiên cứu và vận dụng một cáchsáng tạo vào việc khai thác dữ liệu dựa vào báo cáo tình hình, kết quả giải quyếtthủ tục hành chính thuế nói chung và thủ tục hành chính thuế tỉnh Bình Dươngnói riêng

2.5 Hướng đề xuất nghiên cứu

Dựa trên các nghiên cứu trước chúng tôi đề xuất hướng nghiên cứu ápdụng Khai phá dữ liệu dựa trên báo cáo tình hình, kết quả giải quyết thủ tục hànhchính thuế tỉnh Bình Dương với 3 nội dung chính:

Phân tích so sánh và trực quan hóa số liệu giải quyết thủ tục hành chínhthuế

Phân tích các yếu tố ảnh hưởng đến kết quả giải quyết thủ tục hành chínhthuế

Dự báo kết quả giải quyết thủ tục hành chính thuế tại Cục thuế tỉnh BìnhDương bằng các phương pháp học máy

Trang 26

Chương 3

MÔ HÌNH ĐỀ XUẤT 3.1 Mô hình đề xuất

Mô hình đề xuất về Khai phá dữ liệu dựa trên báo cáo tình hình, kết quảgiải quyết thủ tục hành chính thuế tỉnh Bình Dương gồm 3 phần được trình bàytrong Hình 3.1 Mô hình này gồm có 3 phần chính:

Phân tích so sánh và trực quan hóa số liệu kết quả giải quyết thủ tục hànhchính thuế tỉnh Bình Dương

Phân tích các yếu tố ảnh hưởng đến kết quả giải quyết thủ tục hành chínhthuế tỉnh Bình Dương bằng các độ đo Pearson và Spearman từ đó xác định đượccác yếu tố then chốt ảnh hưởng tới kết quả giải quyết thủ tục hành chính thuế

Từ các yếu tố ảnh hưởng tới giải quyết thủ tục hành chính thuế, sẽ tiếnhành Dự báo kết quả giải quyết thủ tục hành chính thuế tỉnh Bình Dương bằngcác phương pháp học máy

Hình 3.1 Mô hình đề xuất

Phân tích so sánh và

trực quan hóa số liệu

Dữ liệu về báo cáo tình hình, kết quả giải quyết thủ tụchành chính thuế tại Cục thuế tỉnh Bình Dương

Phân tích các yếu tố ảnhhưởng đến kết quả giảiquyết thủ tục hành chínhthuế :

- Pearson

- Spearman

Dự báo kết quả giải quyếtthủ tục hành chính thuế tạiCục thuế tỉnh Bình Dươngbằng các phương pháp họcmáy:

- Random Forest,

- Linear Regression,

- K-Nearest Neighbors

- Decision Trees

Trang 27

3.2 Đặc trưng của mô hình đề xuất

3.2.1 Phân tích trực quan hóa số liệu các dịch vụ chuyển phát

Phân tích và trực quan hóa số liệu giải quyết thủ tục hành chính thuế tỉnhBình Dương để thấy được sự tăng trưởng và khác biệt giữa các thủ tục hànhchính thuế và bức tranh tổng quát về kết quả giải quyết thủ tục hành chính thuếtỉnh Bình Dương là một việc rất quan trọng

Từ dữ liệu về báo cáo tình hình, kết quả giải quyết thủ tục hành chính thuếtại Cục thuế tỉnh Bình Dương đã được thu thập, chúng tôi sẽ thống kê và biểudiễn trực quan theo từng thủ tục, từng thời điểm, đồng thời phân tích số liệu đểthấy được mức tăng trưởng nhỏ nhất, thấp nhất trung bình của thủ tục Chúng tôicũng tiến hành phân tích và trực quan hóa tổng quan về kết quả giải quyết thủ tụchành chính thuế tại Cục thuế tỉnh Bình Dương để có được bức tranh tổng quát vềviệc giải quyết thủ tục hành chính thuế theo từng thời điểm, từng thủ tục

3.2.2 Phân tích các yếu tố ảnh hưởng tới kết quả giải quyết thủ tục hành chính thuế

Giải quyết thủ tục hành chính thuế phụ thuộc vào nhiều yếu tố, trong phầnnày chúng tôi sẽ đi sâu phân tích các yếu tố ảnh hưởng tới kết quả giải quyết thủtục hành chính thuế

3.2.2.1 Các yếu tố về chính sách chiến lược bao gồm:

- Xây dựng và phát triển ngành thu ế hiện đại nhằm phục vụ phát triểnkinh tế - xã hội, bảo đảm quốc phòng, an ninh và đời sống của nhân dân

- Xây dựng và hoàn thiện môi trường cạnh tranh theo quy định của phápluật để các thành phần kinh tế tham gia hoạt động thuế

- Khuyến khích ứng dụng tiến bộ khoa học, công nghệ, đào tạo nguồnnhân lực để phát triển ngành thuế

- Tăng cường hội nhập, hợp tác quốc tế và thực hiện cam kết quốc tế tronglĩnh vực thuế

Trang 28

- Áp dụng cơ chế ưu đãi đối với việc giải quyết thủ tục hành chính thuếtại vùng có điều kiện kinh tế - xã hội khó khăn và vùng có điều kiện kinh tế - xãhội đặc biệt khó khăn.

3.2.2.2 Các yếu tố về kinh tế - xã hội

Kinh tế-xã hội có ảnh hưởng lớn đến sự phát triển ngành thuế và kết quảgiải quyết các thủ tục thuế, các yếu tố về kinh tế-xã hội có thể kể đến như:

- Dân số: Trong các yếu tố xã hội thì quy mô dân số là yếu tố tác động rấtmạnh đến nhu cầu nhân lực

- GDP: Với các mô hình dự báo nhu cầu nhân lực, thông thường tác độngcủa các yếu tố kinh tế như tốc độ tăng trưởng GDP, thu nhập bình quân đầungười, tỷ lệ ngân sách Nhà nước (NSNN) chi cho GD, cơ cấu kinh tế, tốc độ tăngdân số, có vai trò quyết định Chính sách đối với lao động, việc làm

- Phát triển, chuyển dịch cơ cấu kinh tế: Kinh tế phát triển kéo theo nhucầu phát triển nguồn nhân lực có trình độ cũng như tạo nhiều việc làm hơn trong

xã hội, đây là mối quan hệ tất yếu, chuyến dịch cơ cấu kinh tế đã làm thay đổi cơcấu lao động nước ta theo xu hướng công nghiệp hoá, hiện đại hoá Số lao độngtrong các ngành công nghiệp và dịch vụ ngày càng tăng lên, trong khi số laođộng ngành nông nghiệp ngày càng giảm đi…

- Vấn đề toàn cầu hóa hội nhập quốc tế

- Mức thu nhập, tiền lương, tiền công

3.2.2.3 Các yếu tố khoa học công nghệ

Sự phát triển khoa học có tác động rất lớn đến sự phát triển ngành thuế vàkết quả giải quyết các thủ tục thuế, đặc biệt cuộc cách mạng 4.0 sẽ làm cho vệcgiải quyết các thủ tục thuế phải có sự thay đổi về cơ cấu lao động, cơ cấu nguồnlực, cơ cấu về trình độ lao động, có những yêu cầu về kỹ năng nghiệp vụ khácnhau Bên cạnh đó, lĩnh vực công nghiệp 4.0 cũng là lĩnh vực khởi nghiệp quantrọng bởi nhân lực là nguồn lực rất lớn cho phát triển kinh tế xã hội Việc kết nối,phát triển các nguồn lực đó dựa trên nền tảng công nghiệp 4.0, nền tảng công

Trang 29

nghệ kết nối là lĩnh vực mà rất nhiều nhà doanh nghiệp, nhà khởi nghiệp có thểtham gia vào để đưa ra giải pháp kết nối cung cầu lao động, phát triển nguồnnhân lực.

3.2.2.4 Lựa chọn yếu tố ảnh hưởng tới dự báo kết quả giải quyết thủ tục hành chính thuế

Từ việc nghiên cứu các yếu tố tác động đến kết quả giải quyết thủ tục hành chínhthuế như đã trình bày ở trên, để có thể đo lường các yếu tố thông qua các số liệu

đã được thu thập và công bố hàng tháng từ Cục thuế tỉnh Bình Dương, chúng tôi

đã lựa chọn các yếu tố ảnh hưởng tới dự báo kết quả giải quyết thủ tục hànhchính thuế liên quan đến các thủ tục hành chính thuế trong báo cáo gồm:

1 Trả lời vướng mắc của ĐTNT bằng văn bản

2 Hồ sơ đăng ký thuế

3 Hồ sơ hoàn thuế

3.1 Hoàn thuế GTGT

- Hồ sơ hoàn thuế đối với dự án ODA

- Hồ sơ hoàn thuế GTGT hoàn trước kiểm tra sau

- Hồ sơ hoàn thuế GTGT kiểm tra trước, hoàn sau

- Hoàn thuế GTGT tạm

3.2 Hoàn thuế TNCN

3.3 Hồ sơ hoàn thuế khác

4 Hồ sơ miễn giảm thuế

4.1 Hồ sơ miễn giảm thuế TNCN

4.2 Hồ sơ miễn giảm khác

5 Hồ sơ khiếu nại, tố cáo về thuế

6 Hồ sơ mua hoá đơn thuế

7 Hồ sơ đăng ký tự in hoá đơn, sử dụng hoá đơn tự in thuế

Trang 30

8 Hồ sơ giải quyết nợ thuế (khoanh, xoá)

9 Hồ sơ khác

Để đánh giá sự tác động của các yếu tố trên tới kết quả giải quyết thủ tụchành chính thuế, chúng tôi sử dụng hệ số tương quan Pearson Correlation vàSpearman (đo lường mức độ tương quan tuyến tính giữa hai biến) để tìm mốitương quan giữa các yếu tố ảnh hưởng đến kết quả giải quyết thủ tục hành chínhthuế Các hệ số tương quan được trình bày ở phần dưới đây:

Hệ số tương quan Pearson

Hệ số tương quan Pearson (Pearson correlation coefficient, kí hiệu r) đolường mức độ tương quan tuyến tính giữa hai biến Về nguyên tắc, tương quanPearson sẽ tìm ra một đường thẳng phù hợp nhất với mối quan hệ tuyến tính của

- r=0 cho thấy không có sự tương quan

- r > 0 cho biết một sự tương quan thuận giữa hai biến, nghĩa là nếu giá trịcủa biến này tăng thì sẽ làm tăng giá trị của biến kia

Công thức tính Hệ số tương quan Pearson:

Với các bước cụ thể như sau:

Bước 1: Tính trung bình của x và y

Trang 31

Bước 2: Tính độ lệch của mỗi giá trị của x với trung bình của x (lấy cácgiá trị của x trừ đi trung bình của x) và gọi là "a", làm tương tự như vậy với y và

gọi là "b"

Bước 3: Tính:a × b, a 2 vàb 2cho mỗi giá trị

Bước 4: Tính tổnga × b, tổng a 2vả tổngb 2

Bước 5: Chia tổng của a × b cho căn bậc 2 của [(sum a2) × (sum b2)]

Hệ số tương quan Spearman ρ

Hệ số tương quan hạng Pearson chỉ hợp lí nếu biến số x và y tuân theo luậtphân phối chuẩn Nếu x và y không tuân theo luật phân phối chuẩn, chúng ta phải

sử dụng một hệ số tương quan khác tên là Spearman, một phương pháp phân tíchphi tham số Hệ số này được ước tính bằng cách biến đổi hai biến số x và y thànhthứ bậc (rank), và xem độ tương quan giữa hai dãy số bậc Sử dụng tương quanhạng Spearman để kiểm tra mối quan hệ giữa hai biến được xếp hạng hoặc mộtbiến được xếp hạng và một biến đo lường [8]

Test score: Kiểm tra độ chính xác của kết quả dự báo cho từng thuộc tínhCông thức tính Hệ số tương quan Spearman dựa trên xếp hạng như sau:

3.2.3 Dự báo kết quả giải quyết thủ tục hành chính thuế

Trang 32

Dựa trên các yếu tố ảnh hưởng tới kết quả giải quyết thủ tục hành chínhthuế như đã xác định ở phần trước, chúng tôi sẽ tiến hành dự báo kết quả giảiquyết thủ tục hành chính thuế Mô hình đề xuất về dự báo , kết quả giải quyết thủtục hành chính thuế tại Cục thuế Bình Dương được biểu diễn như sau:

Hình 3.1: Mô hình dự báo kết quả giải quyết thủ tục hành chính cục Thuế

tỉnh Bình DươngChi tiết về mô hình này được trình bày cụ thể theo các bước sau đây:

Bước 1:

5 Trình bày kết quả dự báo

1 Dữ liệu về thủ tục hành chính tại cục thuế tỉnh Bình

Dương

2 Tiền xử lý dữ liệu

3 Lựa chọn mô hình

4 Thực nghiệm, Đánh giá

Mô hình tối ưu

Mô hìnhchưa tối ưu

6 Theo dõi KQDB

Trang 33

- Thu thập dữ liệu về số lượng hồ sơ và nguồn thu ngân sách các dich vụthủ tục hành chính thuế tại các đơn vị trực thuộc Cục thuế tỉnh Bình Dương.

- Thu thập dữ liệu các yếu tố ảnh hưởng tới dịch vụ thủ tục hành chínhthuế

Bước 2:

- Tiền xử lý dữ liệu và cho ra tập dữ liệu chuẩn để dưa vào dự báo, baogồm: việc Làm sạch dữ liệu, loại bỏ nhiễu, hiểu chỉnh những thành phần dữ liệukhông nhất quán, xử lý các dữ liệu của các biến dư thừa hoặc thiếu thông tin,vector hóa dữ liệu đã được làm sạch

Bước 3:

Lựa chọn mô hình: Gồm năm mô hình dự báo Linear Regression, Nearest Neighbors, Decision Trees và Random Forests và Học luật với các tham

K-số trên từng mô hình

Bước 4: Thực nghiệm, đánh giá và lựa chọn mô hình phù hợp

- Thực nghiệm và đánh giá, lựa chọn mô hình phù hợp dựa vào các độ đo:Trong quá trình thực nghiệm, chúng tôi lập lại nhiều lần để thay đổi tỉ lệphân chia giữa tập huấn luyện và tập kiểm tra với các tập dữ liệu được chươngtrình chọn ngẫu nhiên và tiến hành kiểm tra chọn độ chính xác của các model tốtnhất

- Thực nghiệm và đánh giá, lựa chọn mô hình phù hợp dựa vào kết quả sốliệu dự báo:

Chúng tôi tiến hành cài đặt 05 mô hình dự báo của 05 thuật toán trên với

dữ liệu đầu vào, đầu ra như sau:

+ Dữ liệu đầu vào là: Dữ liệu thu thập số lượng các dịch vụ thủ tục hànhchính thuế tại Cục thuế tỉnh Bình Dương, dữ liệu về các yếu tố ảnh hưởng tớidịch vụ thủ tục hành chính thuế theo từng tháng

Trang 34

+ Dữ liệu đầu ra: Dự báo kết quả giải quyết thủ tục hành chính thuế Đểkiểm tra độ chính xác của kết quả dự báo với số liệu gốc hiện có, chúng tôi chọn

số dữ liệu làm bộ test đồng thời tiến hành loại bỏ số liệu đó trong bảng dữ liệu vàtiến hành chạy thực nghiệm

Bước 5: Trình bày kết quả dự báo

Kết quả dự báo phải được trình bày rõ ràng sao cho đễ hiểu các con sốđược tính toán như thế nào và chỉ ra sự tin cậy trong kết quả dự báo

Người dự báo phải có khả năng trao đổi các kết quả dự báo theo ngôn ngữ

mà các nhà quản lý hiểu được

Trình bày cả ở dạng viết và dạng nói

Bước 6: Theo dõi kết quả dự báo

Lệch giữa giá trị dự báo và giá trị thực phải được thảo luận một cách tíchcực, khách quan và cởi mở

Mục tiêu của việc thảo luận là để hiểu tại sao có các sai số, để xác định độlớn của sai số

Trao đổi và hợp tác giữa người sử dụng và người làm dự báo có vai trò rấtquan trọng trong việc xây dựng và duy trì quy trình dự báo thành công

Có rất nhiều thuật toán để sử dụng cho bài toán dự báo, tuy nhiên trong đềtài này, chúng tôi chọn bốn thuật toán để áp dụng xây dựng mô hình dự báo nhưsau:

Trang 35

3.2.3.1 Linear Regression

Hồi quy tuyến tính đã được phát minh khoảng hơn 200 năm và đã đượcnghiên cứu rộng rãi Một số quy tắc tốt khi sử dụng kĩ thuật này là loại bỏ cácbiến tương tự nhau (correlated) và để loại bỏ bớt yếu tố sao lãng từ dữ liệu củabạn, nếu có thể Đây là một kĩ thuật đơn giản và nhanh chóng, và là thuật toán tốtđầu tiên để thử

Mô hình tiên đoán chủ yếu quan tâm đến việc giảm thiểu sai sót của môhình hoặc đưa ra các dự đoán chính xác nhất có thể, với một chi phí giải trình.Chúng tôi sẽ mượn, sử dụng lại và lấy các thuật toán từ nhiều lĩnh vực khác nhau,bao gồm số liệu thống kê và sử dụng chúng cho những mục đích này

Biểu diễn hồi quy tuyến tính là một phương trình mô tả một đường thẳng

mô tả phù hợp nhất mối quan hệ giữa các biến đầu vào (x) và các biến đầu ra (y),bằng cách tìm các trọng số cụ thể cho các biến đầu vào được gọi là các hệ số ():

y = 0 + 1* Xi + ϵiChúng ta sẽ dự đoán y với biến x cho trước và mục tiêu của thuật toán hồiquy tuyến tính là tìm các giá trị cho các hệ số 0+ 1 Hình 3.2 biểu diễn mô hìnhhồi quy tuyến tính

Hình 3.2: Mô hình hồi quy tuyến tínhHạn chế đầu tiên của Linear Regression là nó rất nhạy cảm với nhiễu(sensitive to noise) Vì vậy, trước khi thực hiện Linear Regression, các nhiễu(outlier) cần phải được loại bỏ Bước này được gọi là tiền xử lý (pre-processing);

Trang 36

Hạn chế thứ hai của Linear Regression là nó không biễu diễn được các mô hìnhphức tạp [5], [9], [10]

3.2.3.2 K - Nearest Neighbors

K-nearest neighbor là một trong những thuật toán supervised-learning đơngiản nhất (mà hiệu quả trong một vài trường hợp) trong Machine Learning Khitraining, thuật toán này không học một điều gì từ dữ liệu training (đây cũng là lý

do thuật toán này được xếp vào loại lazy learning), mọi tính toán được thực hiệnkhi nó cần dự đoán kết quả của dữ liệu mới K-nearest neighbor có thể áp dụngđược vào cả hai loại của bài toán Supervised learning là Classification vàRegression Hình 3.3 mô tả về KNN

K-Nearest Neighbors algorithm (K-NN) được sử dụng rất phổ biến tronglĩnh vực Data Mining K-NN là phương pháp để phân lớp các đối tượng dựa vàokhoảng cách gần nhất giữa đối tượng cần xếp lớp (Query point) và tất cả các đốitượng trong Training Data

Hình 3.3 KNNMột đối tượng được phân lớp dựa vào K láng giềng của nó K là sốnguyên dương được xác định trước khi thực hiện thuật toán Người ta thườngdùng khoảng cách Euclidean để tính khoảng cách giữa các đối tượng

Trang 37

Trong đó x là test data, xi là một điểm trong K-lân cận của x, wi làtrọng số của điểm đó (ứng với điểm dữ liệu đang xét x ), σ là một số dương.Nhận thấy rằng hàm số này cũng thỏa mãn điều kiện: điểm càng gần x thì trọng

số càng cao (cao nhất bằng 1)

Dự đoán được thực hiện cho một điểm dữ liệu mới bằng cách tìm kiếmthông qua toàn bộ tập đào tạo cho hầu hết các ví dụ K giống nhau (hàng xóm) vàtóm tắt biến đầu ra cho các ví dụ K Đối với các vấn đề hồi quy, đây có thể làbiến đầu ra trung bình, đối với các vấn đề phân loại, đây có thể là mode (hoặcphổ biến nhất) của lớp

Bí quyết là làm thế nào để xác định sự giống nhau giữa các trường hợp dữliệu Kĩ thuật đơn giản nhất nếu các thuộc tính của bạn có cùng kích cỡ (ví dụ tất

cả đều là inch) là sử dụng khoảng cách Euclide, một con số bạn có thể tính toántrực tiếp dựa trên sự khác biệt giữa mỗi biến đầu vào

KNN có thể yêu cầu rất nhiều bộ nhớ hoặc không gian để lưu trữ tất cả dữliệu, nhưng chỉ thực hiện tính toán (hoặc học) khi một dự báo là cần thiết, chỉ vừađúng lúc Bạn cũng có thể cập nhật và tổ chức các bài tập đào tạo theo thời gian

để giữ các dự đoán chính xác

Ý tưởng về khoảng cách hoặc độ gần có thể bị phá vỡ với các quy mô rấtcao (rất nhiều biến đầu vào) có thể ảnh hưởng tiêu cực đến hiệu suất của thuậttoán đối với vấn đề của bạn Đây được gọi là lời nguyền của quy mô Nó chothấy bạn chỉ sử dụng những biến đầu vào có liên quan nhất đến dự đoán biến đầura

Thuật toán K-NN được mô tả như sau:

B1 Xác định giá trị tham số K (số láng giềng gần nhất)

B2 Tính khoảng cách giữa đối tượng cần phân lớp (Query Point) với tất

cả các đối tượng trong training data (thường sử dụng khoảng các Euclidean)

B3 Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềnggần nhất với Query Point

Trang 38

B4 Lấy tất cả các lớp của K láng giềng gần nhất đã xác định

B5 Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp choQuery Point

- Ưu điểm của KNN

+ Độ phức tạp tính toán của quá trình training là bằng 0

+ Việc dự đoán kết quả của dữ liệu mới rất đơn giản

+ Không cần giả sử gì về phân phối của các class

- Nhược điểm của KNN

+ KNN rất nhạy cảm với nhiễu khi K nhỏ

+ Như đã nói, KNN là một thuật toán mà mọi tính toán đều nằm ởkhâu test Trong đó việc tính khoảng cách tới từng điểm dữ liệu trong training set

sẽ tốn rất nhiều thời gian, đặc biệt là với các cơ sở dữ liệu có số chiều lớn và cónhiều điểm dữ liệu Với K càng lớn thì độ phức tạp cũng sẽ tăng lên Ngoài ra,việc lưu toàn bộ dữ liệu trong bộ nhớ cũng ảnh hưởng tới hiệu năng của KNN.[5], [11]

3.2.3.3 Decision trees

Cây quyết định là mô hình máy học tự động sử dụng rất nhiều trong phântích dự báo và khai phá dữ liệu do tính đơn giản và hiệu quả Cây quyết định thuđược bằng cách học từ tập dữ liệu, để dự đoán giá trị biến phụ thuộc y từ biến xchúng ta có thể rút trích luật quyết định tương ứng với nút lá có dạng IF-THENđược tạo ra từ việc thực hiện AND trên các điều kiện theo đường dẫn từ nút gốcđến nút lá Các luật quyết định dễ hiểu với người sử dụng

Giải thuật học từ dữ liệu là quá trình xây dựng cây bắt đầu từ nút gốc đếnnút lá Giải thuật thực hiện phân hoạch đệ quy tập dữ liệu theo các biến độc lậpthành các phân vùng siêu chữ nhật rời nhau mà ở đó các phần tử dữ liệu xi,

xj, …, xk của cùng phân vùng (nút lá) có các yi, yj, …, yk là tương tự nhau trongvấn đề hồi quy Giải thuật học mô hình cây quyết định từ dữ liệu gồm 2 bước

Trang 39

lớn: xây dựng cây, cắt nhánh để tránh học vẹt Quá trình xây dựng cây được làmnhư sau:

- Bắt đầu từ nút gốc, tất cả các dữ liệu học ở nút gốc,

- Nếu các phần tử dữ liệu tại 1 nút là tương tự nhau thì nút đang xét đượccho là nút lá, giá trị dự báo của nút lá chính là giá trị trung bình của các{yi, …,yk} của các phần tử trong nút lá

- Nếu dữ liệu ở nút quá hỗn loạn (các giá trị {yi, …,yk} rất khác nhau) thìnút được cho là nút trong, tiến hành phân hoạch dữ liệu một cách đệ quy bằngviệc chọn 1 biến để thực hiện phân hoạch tốt nhất có thể Một biến được cho làtốt được sử dụng để phân hoạch dữ liệu sao cho kết quả thu được cây nhỏ nhất.Việc lựa chọn này dựa vào các heuristics: chọn biến sinh ra các nút lá sớm nhất

Để đánh giá và chọn biến khi phân hoạch dữ liệu, giải thuật CART của [13] ướclượng độ đo hỗn loạn thông tin tại phân vùng D dựa trên độ lệch chuẩn nhưtrong (1) với μ là giá trị trung bình của các giá trị y trong D

Nếu sử dụng biến A phân hoạch D kích thước m thành 2 tập con D1 (kíchthước m1) và D2 (kích thước m2), độ hỗn loạn sau khi phân hoạch được tínhnhư công thức (2):

Biến được chọn phân hoạch dữ liệu là biến cho giá trị độ hỗn loạn sau khiphân hoạch là nhỏ nhất Mô hình cây quyết định sau khi xây dựng thường khôngmạnh với nhiễu và dễ dẫn đến học vẹt Tức là mô hình có tính tổng quát thấp,chỉ cần dữ liệu kiểm tra có thay đổi một ít so với dữ liệu học thì cây quyết định

dự báo sai Để khắc phục khuyết điểm này, Breiman cũng đề nghị các chiến lượccắt nhánh trong giải thuật CART Có 2 lựa chọn hoặc postpruning (cắt nhánhcây sau khi xây dựng cây) hay prepruning (dừng sớm quá trình phân nhánh)

Trang 40

Trong thực tế, postpruning được sử dụng nhiều hơn prepruning Tuy nhiên độphức tạp của việc cắt nhánh sau khi xây dựng cây rất phức tạp, sử dụng cácchiến lược để ước lượng lỗi sinh ra bởi mô hình sau khi cắt nhánh Mô hìnhDecision Tree cho vấn đề hồi quy được trình bày trong Hình 3.4.

Hình 3.4: Mô hình Cây quyết định

Trong phân tích thành phần lỗi của giải thuật học, Breiman đã chỉ ra trong[14], lỗi bao gồm 2 thành phần là bias và variance Thành phần lỗi bias là kháiniệm về lỗi của mô hình học (không liên quan đến dữ liệu học) và thành phần lỗivariance là lỗi do tính biến thiên của mô hình so với tính ngẫu nhiên của các mẫu

dữ liệu học Dựa trên cách phân tích hiệu quả của giải thuật học, Breiman đã đềxuất giải thuật học rừng ngẫu nhiên [16], tạo ra một tập hợp các cây quyết địnhkhông cắt nhánh, mỗi cây được xây dựng trên tập mẫu bootstrap (lấy mẫu cóhoàn lại từ tập học), tại mỗi nút phân hoạch tốt nhất được thực hiện từ việc chọnngẫu nhiên một tập con các thuộc tính Lỗi tổng quát của rừng phụ thuộc vào độchính xác của từng cây thành viên trong rừng và sự phụ thuộc lẫn nhau giữa cáccây thành viên Giải thuật rừng ngẫu nhiên xây dựng cây không cắt nhánh nhằmgiữ cho thành phần lỗi bias thấp (thành phần lỗi bias là thành phần lỗi của giảithuật học, nó độc lập với tập dữ liệu học) và dùng tính ngẫu nhiên để điều khiểntính tương quan thấp giữa các cây trong rừng Giải thuật máy học rừng ngẫunhiên (hình 2.4) có thể được trình bày ngắn gọn như sau:

Định dạng
Số trang	81
Dung lượng	3,53 MB