Hồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuếHồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuếHồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuếHồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuếHồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuếHồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuếHồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuếHồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuếHồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuếHồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế
Trang 1MỞ ĐẦU
1 Lý do chọn đề tài
Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin
và Internet vào nhiều lĩnh vực khác nhau của đời sống xã hội trong những năm gần đây đã tạo ra nhiều cơ sở dữ liệu (CSDL) khổng lồ Để khai thác hiệu quả nguồn thông tin trên các CSDL khổng lồ đó nhằm mục đích dự báo, hỗ trợ ra quyết định, bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu đã sử dụng công cụ máy tính điện tử để phát triển các phương pháp, kỹ thuật mới hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin Lĩnh vực này được gọi là khai phá dữ liệu và khám phá tri thức (Data Mining and Knowledge Discovery) Trong khai phá dữ liệu, phân lớp và hồi quy
là phương pháp quan trọng và có ứng dụng rộng rãi, hiệu quả trong các bài toán phân tích dữ liệu và dự báo trong lĩnh vực kinh tế, tài chính
Hồi quy dữ liệu là việc xác định một hàm ánh xạ từ một mẫu
dữ liệu vào một biến dự đoán có giá trị thực Các phương pháp hồi quy được chia thành các nhóm chính: Hồi quy tương quan để xác định mối liên hệ giữa nhiều biễn ngẫu nhiên với nhau; hồi quy tuyến tính đơn biến để xác định mối liên hệ giữa một biến độc lập vào một biến phụ thuộc; hồi quy tuyến tính đa biến xác định mối liên hệ giữa nhiều biến độc lập vào một biến phụ thuộc… Hồi qui thường được xếp vào loại bài toán tối ưu vì chúng ta nỗ lực để tìm kiếm một giải pháp để cho sai
số và phần dư là tốt nhất
Trong lĩnh vực thuế, vấn đề gian lận và trốn thuế đang diễn biến ngày càng trầm trọng và phổ biến trên thế giới nói chung và tại Việt Nam nói riêng Trên thế giới, phân tích rủi ro của các doanh
Trang 2nghiệp để phát hiện các gian lận trong lĩnh vực thuế là chiến lược cải thiện nguồn thu ngân sách của hầu hết các chính phủ trên, đặc biệt là các nước đang phát triển
Nhận thức được vấn đề nghiêm trọng đó, các quốc gia trên thế giới đã và đang xây dựng các phần mềm máy tính để phân tích các rủi
ro của các doanh nghiệp nộp thuế dựa trên các kỹ thuật phân tích dữ liệu nhằm phát hiện các doanh nghiệp gian lận, trốn thuế
Tại Việt Nam, theo thống kê của Bộ Tài chính cho biết năm
2013 đã thực hiện thanh tra, kiểm tra đối với 64.119 doanh nghiệp (tăng 8% so với năm 2012) xử lý truy thu, phạt và truy hoàn số tiền là 13.657,08 tỷ đồng Năm 2014 đã thực hiện thanh tra, kiểm tra đối với 67.053 doanh nghiệp với tổng số thuế tăng thu qua thanh tra, kiểm tra
là 12.224,85 tỷ đồng [24] Nhiều vụ gian lận thuế được phát hiện trong thời gian gần đây tại Việt Nam cho thấy vấn đề gian lận thuế đã và đang xảy ra với một mức độ nghiêm trọng
Để thực hiện công tác phòng ngừa gian lận thuế, trong công tác thanh tra, kiểm tra đối với hoạt động này, Tổng cục Thuế đã xây dựng được kho dữ liệu tập trung về tình hình thu, nộp thuế và thanh tra thuế của các doanh nghiệp Bài toán đặt ra là từ số liệu về kết quả thu nộp thuế, làm sao để dự báo được các doanh nghiệp có khả năng gian lận thuế để có các biện pháp phòng ngừa, đặc biệt là tổ chức các biện pháp thanh tra thuế nhằm truy thu thuế, đảm bảo chống thất thu ngân sách Do đó, việc xây dựng phần mềm máy tính nhằm tính điểm rủi ro của doanh nghiệp dựa vào số liệu thu nộp thuế nhằm hỗ trợ công tác lập kế hoạch thanh tra thuế là yêu cầu cấp thiết Doanh nghiệp có điểm rủi ro càng cao thì khả năng gian lận thuế càng cao, cần được đưa vào diện tiến hành thanh tra
Trang 3Từ ý nghĩa khoa học và thực tiễn nêu trên, học viên chọn đề
tài: “Hồi quy dữ liệu và ứng dụng tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế”
2 Tổng quan về vấn đề nghiên cứu
Các nước đã nghiên cứu, xây dựng các ứng dụng để tính điểm rủi ro nhằm phục vụ hoạt động thanh, kiểm tra các doanh nghiệp đặc biệt là doanh nghiệp có mức độ rủi ro cao nhằm hạn chế tiến tới ngăn chặn hành vi chốn thế, gian lận thuế của các cá nhân, doanh nghiệp Tại Việt Nam, Tổng cục Thuế đã ban hành bộ tiêu chí phân tích rủi ro
về thuế của doanh nghiệp tuy nhiên việc xây dựng ứng dụng tính điểm rủi ro còn nhiều tồn tại, tính khách quan và độ chính xác chưa cao Trên cơ sở đó, luận văn xác định một số nội dung trọng tâm cần giải quyết như sau:
- Tìm hiểu bài toán tính điểm rủi ro của doanh nghiệp dựa trên
bộ tiêu chí phân tích rủi ro
- Tìm hiểu các phương pháp hồi quy dữ liệu, tập trung vào phương pháp hồi quy tuyến tính đơn biến, đa biến
- Cài đặt chương trình thử nghiệm tính điểm rủi ro của một số doanh nghiệp tại Cục thuế Hà Nội
3 Mục đích nghiên cứu
- Nghiên cứu một số phương pháp hồi quy dữ liệu, tập trung vào các phương pháp hồi quy tuyến tính
- Cài đặt chương trình thử nghiệm đánh giá độ chính xác của
mô hình hồi quy tuyến tính đối với bài toán tính điểm rủi ro cho một
số doanh nghiệp tại Cục thuế Hà Nội
4 Đối tượng và phạm vi nghiên cứu
4.1 Đối tượng nghiên cứu: Các phương pháp hồi quy
4.2 Phạm vi nghiên cứu:
Trang 4- Phương pháp hồi quy tuyến tính đơn biến, đa biến
- Thử nghiệm với bài toán tính điểm rủi ro cho các doanh nghiệp phục vụ thanh tra thuế
5 Phương pháp nghiên cứu
- Nghiên cứu lý thuyết: Sử dụng các phương pháp phân tích, tổng hợp thông tin để tổng kết các kiến thức nền tảng, các công bố khoa học và các ứng dụng của các phương pháp hồi quy dữ liệu
- Nghiên cứu thực nghiệm: Bao gồm các nội dung:
1) Tìm hiểu bài toán tính điểm rủi ro của doanh nghiệp phục
vụ công tác thanh tra thuế
2) Cài đặt chương trình tính điểm rủi ro và thử nghiệm chương trình trên dữ liệu thử nghiệm của một số doanh nghiệp thuộc Cục thuế
Hà Nội
3) Công cụ thực nghiệm: Sử dụng ngôn ngữ lập trình R và bộ Visual Studio
6 Bố cục luận văn
Luận văn có bố cục gồm: Phần mở đầu, 3 chương chính, phần
kết luận, tài liệu tham khảo và phụ lục Được bố trí theo thứ tự:
- Mở đầu
- Chương 1: Phát biểu về bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế
- Chương 2: Một số phương pháp hồi quy tuyến tính
- Chương 3: Xây dựng và thử nghiệm chương trình tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế
- Kết luận
- Tài liệu tham khảo
- Phụ lục
Trang 5Chương 1- PHÁT BIỂU VỀ BÀI TOÁN TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP
PHỤC VỤ THANH TRA THUẾ
1.1 Bài toán tính điểm rủi ro của doanh nghiệp
1.1.1 Tổng quan tình hình nghiên cứu ngoài nước
Gian lận thuế là vấn nạn quốc gia và nó gây ra thất thu ngân sách vô cùng lớn và ảnh hưởng nghiêm trọng tới sự phát triển kinh tế,
xã hội của quốc gia đó Xác định tình trạng gian lận thuế thông qua điều tra một nhóm nhỏ và các yếu tố tuân thủ nộp thuế và dữ liệu lợi nhuận được xác định qua đơn vị thứ ba Nhóm tác giả Bruno Chiarini
và các cộng sự đã xây dựng phần mềm phân tích gian lận thuế giá trị gia tăng (GTGT) và thu nhập doanh nghiệp (TNDN) bằng phương pháp phân tích chuỗi thời gian (time series analysis) [21] Nhóm tác giả Stefano Pisani và các cộng sự [21] đã xây dựng phần mềm phân tích rủi ro thuế dựa trên dữ liệu thu nhập phát sinh qua thẻ tín dụng sử dụng phương pháp cây quyết định CART Nhóm tác giả Shebo Nalishebo và các cộng sự [23] thực hiện phân tích rủi ro thuế thông qua khảo sát định lượng phỏng vấn một nhóm người theo từng loại hình doanh nghiệp và ngành nghề kinh doanh sử dụng phương pháp phân tích phương sai ANOVA và mô hình hồi quy tuyến tính đa biến Nhóm tác giả Francisco Roberto Pinto và các cộng sự [24] xây dựng công cụ phân tích rủi ro qua khảo sát các doanh nghiệp dựa trên bốn giả thuyết: sự khác biệt giữa các doanh nghiệp; loại hình doanh nghiệp; khác biệt quan điểm kinh doanh; dữ liệu kê khai và nộp thuế sử dụng
mô hình hồi quy tuyến tính đa biến
Trang 61.1.2 Tổng quan tình hình nghiên cứu trong nước
Tại Việt Nam, các nghiên cứu và ứng dụng của phân tích dữ liệu hiện còn nhiều hạn chế Về nghiên cứu khoa học, mặc dù phân tích dữ liệu đã hình thành một chuyên ngành nghiên cứu nhưng các nhóm nghiên cứu bài bản về phân tích dữ liệu ở Việt Nam còn chưa nhiều Về triển khai ứng dụng, rất nhiều cơ quan, tổ chức tại Việt Nam cũng đang thể hiện sự quan tâm lớn đến lĩnh vực phân tích dữ liệu Sau một thời gian dài xây dựng và vận hành các ứng dụng nghiệp vụ, cho đến nay nhiều cơ quan, tổ chức ở Việt Nam đã lưu trữ được một khối lượng dữ liệu khổng lồ và mong muốn thực hiện được các phân tích trên dữ liệu đó Ví dụ, ngành thuế có nhu cầu phân tích các hành vi tuân thủ của người nộp thuế, phân tích phát hiện các gian lận thuế nhằm khắc phục tình trạng thâm hụt thuế, chống thất thu ngân sách
1.1.3 Tính cấp thiết của bài toán tính điểm rủi ro của doanh nghiệp
Với điều kiện về bộ CSDL tập trung về tình hình thu, nộp thuế, với các tiến bộ của khoa học kỹ thuật, khoa học máy tính và đặc biệt
là sự phát triển của phương pháp phân tích dữ liệu chúng ta hoàn toàn
có thể xây dựng một hệ thống tính điểm rủi ro của các doanh nghiệp nhằm phục vụ mục đích thanh, kiểm tra thuế, phòng ngừa sai phạm trong hoạt động thuế của các doanh nghiệp Xuất phát từ nhu cầu thực
tế trên, bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế dựa trên các số liệu thống kê về thu nộp thuế của các doanh nghiệp qua các năm để dự báo khả năng gian lận trong thực hiện nghĩa vụ thuế với Nhà nước là thực sự cần thiết
Trang 71.2 Quy định của pháp luật về áp dụng quản lý rủi ro trong quản lý thuế
1.2.1 Khái quát về quản lý rủi ro về thuế
Quản lý rủi ro về thuế là việc phân loại, đánh giá NNT dựa trên hệ thống tiêu thức rủi ro về thuế từ đó xác định NNT có mức độ tuân thủ thấp và khả năng gian lận về thuế cao để tập trung nguồn lực
xử lý nhằm nâng cao tính tuân thủ tự nguyện của NNT theo nguyên tắc ưu tiên nguồn lực quản lý gian lận có thể mang lại tổn thất lớn nhất
và những sai phạm có nhiều khả năng xảy ra nhất
1.2.2 Một số văn bản pháp quy về quản lý rủi ro trong quản lý thuế
Xuất phát từ yêu cầu thực tế, tại Việt Nam, các cơ quan chức năng từ Trung ương đến địa phương đã ban hành các văn bản pháp quy
về quản lý lý thuế nói chung và quản lý rủi ro trong quản lý thuế nói riêng như: Luật Quản lý thuế số 78/2006/QH11; Nghị định
1.2.3 Xu thế áp dụng quản lý rủi ro
Quản lý rủi ro đang là một xu thế, ngày càng được áp dụng rộng rãi trong công tác quản lý Đối với cơ quan thuế việc áp dụng mô hình quản lý thuế theo rủi ro là một yêu cầu khách quan và là giải pháp
Trang 8để giải quyết những vấn đề thực tiễn đặt ra nhằm nâng cao chất lượng, hiệu quả công tác quản lý thuế Tính tất yếu của việc áp dụng phương pháp quản lý rủi ro có thể thấy rõ ở cả hai khía cạnh, từ nội tại cơ quan thuế và nhu cầu của xã hội
1.2.4 Nguyên tắc áp dụng quản lý rủi ro trong quản lý thuế
Áp dụng quản lý rủi ro trong quản lý thuế cần phải tuân thủ nguyên tắc cơ bản sau: Cơ quan thuế áp dụng quản lý rủi ro để khuyến khích, tạo điều kiện thuận lợi để NNT tuân thủ tốt các quy định của pháp luật, đồng thời phòng chống, phát hiện, xử lý kịp thời các hành
vi vi phạm pháp luật thuế trong quản lý thuế đối với NNT [26]
1.3 Bộ tiêu chí phân tích rủi ro về thuế của doanh nghiệp
Bộ tiêu chí phân tích rủi ro về thuế của doanh nghiệp được Tổng cục Thuế ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 01/10/2013 với 21 tiêu chí được chia thành 6 nhóm tiêu chí đánh giá mức độ rủi ro về thuế của doanh nghiệp trong thực hiện nghĩa vụ thuế với Nhà nước Mỗi nhóm tiêu chí có quy định phương pháp tính điểm rủi ro cụ thể (kèm theo tại phụ lục luận văn)
1.4 Kết luận chương 1
Trong chương 1, học viên đã trình bày khái quát về tình hình, thực trạng gian lận thuế, chốn thuế của các nước trên thế giới và tại Việt Nam Đồng thời nêu ra các giải pháp mà các nước, trong đó có Việt Nam đã áp dụng để hạn chế tiến tới ngăn chặn tình trạng gian lận trong thực hiện nghĩa vụ thuế với Nhà nước
Việc áp dụng quản lý rủi ro trong quản lý thuế đang được rất nhiều nước áp dụng, trong đó có Việt Nam Việc quản lý rủi ro trong quản lý thuế là xu thế tất yếu để tăng cường năng lực quản lý của cơ quan thuế với điều kiện đội ngũ cán bộ có hạn, tình trạng gian lận thuế, trốn thuế ngày một ra tăng Trong chương 1 của luận văn, học viên đã
Trang 9nêu ra một số căn cứ pháp lý trong quản lý thuế nói chung và quản lý rủi ro trong quản lý thuế tại Việt Nam nói riêng Đồng thời nêu khái quát về bộ tiêu chí phân tích rủi ro làm căn cứ để chấm điểm rủi ro về thuế đối với NNT Đây chính là một căn cứ quan trọng được lưu trữ trong CSDL về thu, nộp thuế do Tổng cục Thuế quản lý nhằm dự báo
và đưa vào kế hoạch thanh, kiểm tra về thuế đối với NNT có điểm rủi
ro cao
Trang 10Chương 2- MỘT SỐ PHƯƠNG PHÁP
HỒI QUY TUYẾN TÍNH
2.1 Tổng quan về hồi quy tuyến tính
2.1.1 Khái quát về phân tích dữ liệu
Phân tích dữ liệu là kỹ thuật nền tảng trong quá trình khám
phá tri thức từ dữ liệu với hai mục tiêu chính: mô tả dữ liệu (hiểu dữ liệu) và xây dựng các mô hình phân tích nhằm trích lọc các tri thức có ích, tiềm ẩn trong dữ liệu phục vụ cho công tác dự báo, ra quyết định
2.1.2 Phân tích hồi quy tuyến tính
a) Phân tích tương quan
Là một phép phân tích được sử dụng là thước đo độ lớn của các mối liên hệ giữa các biến định lượng trong nghiên cứu Thông qua thước đo này người nghiên cứu có thể xác định mối liên hệ tuyến tính giữa các biến độc lập, phụ thuộc trong nghiên cứu Phân tích tương quan dựa trên một khoảng tin cậy cho trước sẽ có một giá trị tương quan của mô hình giữa các biến đại diện Khoảng giá trị của hệ số tương quan chạy trong đoạn giá trị [-1 đến 1] Dấu của hệ số tương quan nói lên tính liên hệ thuận nghịch giữa các biến đồng thời phản
ánh tính chất tuyến tính của mô hình hồi quy
b) Hồi quy và mô hình hồi quy tuyến tính
Hồi quy là việc xác định một hàm ánh xạ từ một mẫu dữ liệu
vào một biến dự đoán có giá trị thực Phân tích hồi quy bao gồm: hồi quy tương quan để xác định mối liên hệ giữa nhiều biến ngẫu nhiên với nhau; hồi quy tuyến tính đơn biến để xác định mối liên hệ giữa một biến độc lập vào một biến phụ thuộc; hồi quy tuyến tính đa biến xác định mối liên hệ giữa nhiều biến độc lập vào một biến phụ thuộc
Trang 11Hồi quy tuyến tính (linear regression analysis) là một phương
pháp phân tích quan hệ giữa biến phụ thuộc và Y với một hay nhiều biến độc lập X Mô hình hóa sử dụng hàm tuyến tính (bậc 1) Các tham
số của mô hình (hay hàm số) được ước lượng từ dữ liệu
2.2 Hồi quy tuyến tính đơn biến
2.2.1 Vấn đề mô hình hồi quy
Mô hình HQTT đơn biến:
Mô hình (2.2.3) được gọi là mô hình hồi quy tuyến tính (HQTT) đơn; x được gọi là biến hồi quy; Y được gọi là biến phản hồi (hay biến phụ thuộc, biến được giải thích); a, b được gọi là các tham
số hồi quy, a: hệ số chặn, b: hệ số góc; đường thẳng y = ax + b được
gọi là đường hồi quy (lý thuyết)
Mô hình trên được gọi là tuyến tính vì nó tuyến tính với các tham số a, b (a, b có lũy thừa 1); được gọi là đơn vì có một biến hồi quy
Để khảo sát mô hình, ta phải tiến hành các thí nghiệm, các
phép quan sát để có bộ số liệu {(xi, yi)} Từ đó, đưa ra các ước lượng tốt cho tham số Mô hình với các hệ số đã ước lượng được gọi là mô hình thực nghiệm hay mô hình lọc Dùng mô hình thực nghiệm chúng
ta có thể tiến hành một số dự đoán, tính các giá trị cực trị cũng như các khía cạnh của vấn đề điều khiển
2.2.2 Ước lượng hệ số hồi quy
Phương trình hồi quy thực nghiệm
y = 𝑎̂𝑥 + 𝑏̂ (2.2.10) Với 𝑎̂, 𝑏̂ là các ước lượng của hệ số bằng phương pháp bình phương cực tiểu