Do đó, việc xây dựng hệ thống phân tích dữ liệu tính điểm rủi ro cho doanh nghiệp, trong đó các tiêu chí và trọng số các tiêu chí được học tự động từ dữ liệu, nhằm nâng cao độ chính xác
Trang 1i
MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC BẢNG iii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ iv
MỞ ĐẦU 1
Chương 1 GIỚI THIỆU BÀI TOÁN PHÂN TÍCH DỮ LIỆU NHẰM TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ THANH TRA 2
1.1.Mở đầu 2
1.2.Quy trình hệ thống tính điểm rủi ro của doanh nghiệp (TPR) 2
1.2.1 Kiến trúc ứng dụng TPR 2
1.2.2 Quy trình tính điểm rủi ro của hệ thống TPR 3
1.2.3 Hạn chế của hệ thống TPR 8
1.3.Bài toán phân tích dữ liệu nhằm tính điểm rủi ro của doanh nghiệp 9
1.3.1 Phát biểu bài toán 9
1.3.2 Mô tả đầu vào và đầu ra của hệ thống 9
Chương 2 QUY TRÌNH GIẢI QUYẾT BÀI TOÁN 14
2.1.Quy trình giải quyết bài toán 14
2.1.1 Quy trình tổng thể 14
2.1.2 Quy trình chi tiết 14
2.2.Thu thập và tiền xử lý dữ liệu 17
2.2.1 Xây dựng dữ liệu huấn luyện, dữ liệu kiểm tra 18
2.2.2 Rút gọn thuộc tính 22
2.3.Xây dựng, kiểm tra mô hình hồi quy 22
2.3.1 Xây dựng mô hình hồi quy tuyến tính đa biến 23
2.3.2 Kiểm tra mô hình hồi quy tuyến tính đa biến 24
Chương 3 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 26
3.1.Mô hình chức năng của hệ thống 26
3.2.Danh sách các tác nhân, ca sửu dụng, đặc tả ca sử dụng 27
3.2.1 Danh sách các tác nhân của hệ thống 27
3.2.2 Danh sách các ca sử dụng của hệ thống 27
Trang 2ii
3.2.3 Đặc tả ca sử dụng 32
3.3.Biểu đồ ca sử dụng (use case) 41
3.3.1 Biểu đồ use case khối chức năng hệ thống 41
3.3.2 Biểu đồ use case khối chức năng phân tích 42
3.3.3 Biểu đồ use case khối chức năng thực hiện mô hình phân tích 43
3.4.Biểu đồ hoạt động 44
3.4.1 Biểu đồ hoạt động xử lý dữ liệu 44
3.4.2 Biểu đồ hoạt động huấn luyện mô hình 45
3.4.3 Biểu đồ hoạt động thực hiện mô hình 46
3.5.Thiết kế chi tiết hệ thống PTRR 47
3.5.1 Danh mục chỉ tiêu phân tích 47
3.5.2 Nạp dữ liệu 48
3.5.3 Xây dựng dữ liệu phân tích 52
3.5.4 Rút gọn thuộc tính 56
3.5.5 Xây dựng dữ liệu học 58
3.5.6 Huấn luyện mô hình học 60
3.5.7 Kiểm tra mô hình học 65
3.5.8 Phê duyệt mô hình học 67
3.5.9 Nạp dữ liệu dự báo 68
3.5.10 Xây dựng dữ liệu tính điểm rủi ro 69
3.5.11 Tính điểm rủi ro 71
3.5.12 In danh sách thanh tra 72
TÀI LIỆU THAM KHẢO 76
Trang 3iii
DANH MỤC CÁC BẢNG
Bảng 1.1.Cấu trúc tệp dữ liệu đầu vào kết xuất từ hệ thống TPR 9
Bảng 1.2.Bộ tiêu chí phân tích rủi ro 12
Bảng 2.1.Ví dụ minh họa về dữ liệu đầu vào kết xuất từ hệ thống PTR (DataSource_PTR.XLS) 17
Bảng 2.2.Cấu trúc dữ liệu DATA_PTRR.xls 18
Bảng 2.3.Công thức tính giá trị phân loại doanh nghiệp 20
Bảng 2.4.Ví dụ về bộ dữ liệu huấn luyện, kiểm tra 22
Trang 4iv
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Kiến trúc ứng dụng TPR 3
Hình 1.2 Quy trình hệ thống TPR 4
Hình 1.3 Quy trình xây dựng và thử nghiệm bộ tiêu chí 5
Hình 1.4 Quy trình tính điểm rủi ro 7
Hình 1.5 Quy trình lập kế hoạch thanh tra thuế 8
Hình 2.1 Quy trình tổng thể giải quyết bài toán 14
Hình 2.2 Quy trình chi tiết giải quyết bài toán 16
Hình 2.3 Quy trình xây dựng, kiểm tra mô hình hồi quy 23
Hình 2.4 Phương pháp k-fold Cross validation 25
Hình 3.1 Sơ đồ chức năng của hệ thống PTRR 27
Hình 3.2 Biểu đồ Usecase khối chức năng hệ thống 41
Hình 3.3 Biểu đồ Usecase khối chức năng phân tích 42
Hình 3.4 Biểu đồ Usecase khối chức năng thực hiện mô hình phân tích 43
Hình 3.5 Biểu đồ hoạt động xử lý dữ liệu 44
Hình 3.6 Biểu đồ hoạt động huấn luyện mô hình 45
Hình 3.7 Biểu đồ hoạt động thực hiện mô hình 46
Trang 5MỞ ĐẦU
Báo cáo phân tích, thiết kế hệ thống trình bày nội dung phân tích, thiết kế hệ thống phần mềm phân tích dữ liệu thu và nộp thuế nhằm tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế bằng phương pháp phân tích thiết kế UML Báo cáo này bao gồm các nội dung sau:
- Trình bày tổng quan về quy trình phân tích rủi ro của hệ thống phần mềm quản lý rủi ro đang triển khai tại Cục thuế (PTR) và quy trình xây dựng
hệ thống mới phân tích dữ liệu thu nộp thuế nhằm tính điểm rủi ro cho danh nghiệp (PTRR) Hệ thống mới nhận dữ liệu đầu vào từ hệ thống PTR, thực hiện phân tích và tính điểm rủi ro độc lập và trả về điểm rủi ro cho hệ thống PTR phục vụ quản lý rủi ro và lập kế hoạch thanh tra thuế
- Trình bày nội dung phân tích thiết kế các chức năng, dữ liệu của hệ thống phân tích rủi ro (PTRR) bằng phương pháp phân tích thiết kế UML Báo cáo phân tích thiết kế này là cơ sở để lập trình xây dựng các chức năng của phần mềm phân tích dữ liệu thu nộp thuế nhằm tính điểm rủi ro cho danh nghiệp (PTRR)
Trang 6Cùng với công cuộc cải cách và hiện đại hoá Ngành thuế, Tổng cục thuế đã xây dựng các cơ sở dữ liệu tập trung toàn ngành thuế, bao gồm các cơ sở dữ liệu về tình hình thu nộp thuế, cơ sở dữ liệu về báo cáo tài chính doanh nghiệp, cơ sở dữ liệu về kết quả thanh tra thuế…Nhằm hỗ trợ công tác thanh tra thuế, Tổng cục thuế
đã xây dựng hệ thống phần mềm tính điểm rủi ro của các doanh nghiệp phục vụ công tác thanh tra thuế (TPR) (thanh tra dựa trên rủi ro) Tuy nhiên, các tiêu chí và trọng số của các tiêu chí được đưa vào để tính điểm rủi ro hoàn toàn do cán bộ thanh tra lựa chọn dựa vào kinh nghiệm và phương pháp thử sai, không được học tự động từ dữ liệu Do đó, độ chính xác về điểm rủi ro của các doanh nghiệp chưa cao
Do đó, việc xây dựng hệ thống phân tích dữ liệu tính điểm rủi ro cho doanh nghiệp, trong đó các tiêu chí và trọng số các tiêu chí được học tự động từ dữ liệu, nhằm nâng cao độ chính xác của mô hình tính điểm rủi ro cho doanh nghiệp là nhu cầu cấp thiết và là bài toán thực tiễn đặt ra cho đề tài
Chương này giới thiệu tổng quan về hệ thống tính điểm rủi ro cho doanh nghiệp của Tổng cục thuế (TPR), phân tích các vấn đề còn tồn tại của hệ thống TPR, trên cơ sở đó phát biểu bài toán và trình bày quy trình và phương pháp giải quyết bài toán
1.2 Quy trình hệ thống tính điểm rủi ro của doanh nghiệp (TPR)
1.2.1 Kiến trúc ứng dụng TPR
Hệ thống TPR được xây dựng tập trung tại Tổng cục thuế, đối tượng khai thác
là Tổng cục thuế và các Cục thuế trên cả nước Hình 1.1 mô tả kiến trúc ứng dụng của hệ thống TPR
Trang 7Cán bộ thanh tra thuế các cấp
CSDL tập trung
TTR-TC TPH (QTN,QLT,TIN)
Phân tích rủi ro
CSDL tập trung
Dữ liệu khác
…………
Hình 1.1 Kiến trúc ứng dụng TPR
1.2.2 Quy trình tính điểm rủi ro của hệ thống TPR
Quy trình tính điểm rủi ro của hệ thống TPR đang vận hành tại Tổng cục thuế được mô tả ở Hình 1.2.Chi tiết tham khảo thêm tài liệu [2] về quy trình phân tích thông tin rủi ro doanh nghiệp phục vụ công tác lập kế hoạch thanh tra, kiểm tra thuế Ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 1 tháng10 năm 2013 của Tổng cục trưởng Tổng cục Thuế
Trang 8Quy trình hệ thống quản lý rủi ro TPR của Tổng cục thuế
Phòng Thanh tra tổng hợp Bộ phận thanh tra kiểm tra Phòng Thanh tra tổng hợp
Thu thập và tiền xử lý
dữ liệu
Rà soát dữ liệu nhập
Rà soát dữ liệu tăng giảm đột biến
Rà soát giá trị bất thường
Rà soát hiệu quả sản xuất
Dữ liệulịch
sử thu nộp thuế và kết quả thanh tra
Xây dựng và thử nghiệm
Tính điểm rủi ro cho từng tiêu chí
TÍnh điểm rủi ro
Lập kế hoạch thanh tra
In hồ sơ rủi ro cho DN
Chọn ngưỡng rủi ro cần thanh tra
Lập danh sách DN cần thanh tra
Đánh giá rủi ro
Dữ liệu doanh nghiệp cần tính điểm rủi ro
Bộ tiêu chí phân tích rủi ro (21 tiêu chí theo
QĐ 1733/
QĐ-TCT)
Bộ tiêu chí được chọn để tính điểm rủi ro
Điểm rủi
ro của doanh nghiệp
- Các chức năng thu thập, tiền xử lý dữ liệu:
Các chức năng thu thập, tiền xử lý dữ liệu cho phép người sử dụng cập nhật, chuẩn hóa và chính xác hóa dữ liệu trước khi đưa vào phân tích, bao gồm: Rà soát, cập nhật dữ liệu thu nộp thuế và kết quả thanh tra được tổng hợp từ dữ liệu tác nghiệp; Rà soát, cập nhật dữ liệu bất thường, tăng giảm đột biến; Rà soát hiệu quả sản xuất kinh doanh tổng hợp từ báo cáo tài chính cấp Tổng cục Ngoài ra, các chức
Trang 95năng cho phép cập nhật bổ sung thông tin từ các dữ liệu thu thập từ bên ngoài như Hải quan, Kho bạc, Chứng khoán, Cục quản lý giá, từ các Bộ ngành, hiệp hội kinh doanh…
- Kết quả của thu thập, tiền xử lý dữ liệu:
Kết quả của thu thập và tiền xử lý dữ liệu là tệp dữ liệu lịch sử về tình hình thu nộp thuế và kết quả thanh tra của các doanh nghiệp trên cả nước từ năm 2007 (chi tiết được mô tả ở Chương 2) Các trường dữ liệu của tệp dữ liệu này được xây dưng dựa trên bộ chỉ tiêu phân tích rủi ro được ban hành theo Quyết định số 1733/QĐ-TCT ngày 1 tháng10 năm 2013 của Tổng cục trưởng Tổng cục Thuế, chi tiết tệp chỉ tiêu được mô tả ở Phụ lục 1 Tệp dữ liệu này là đầu vào cho khối chức năng tiếp theo là xây dựng và thử nghiệm bộ tiêu chí Đồng thời, tệp dữ liệu này có thể kết xuất ra tệp Excel làm đầu vào cho hệ thống phân tích rủi ro được mô tả ở phần sau
1.2.2.2 Xây dựng và thử nghiệm bộ tiêu chí
Quy trình xây dựng và thử nghiệm bộ tiêu chí được mô tả ở Hình 1.3
Quy trình xây dựng và thử nghiệm bộ tiêu chí
cho bộ tiêu chí
Thiết lập bộ tiêu chí đánh giá rủi ro
Chính xác?
Thử nghiệm bộ tiêu chí
Hình 1.3 Quy trình xây dựng và thử nghiệm bộ tiêu chí
- Thiết lập bộ tiêu chí:
Trang 10Cán bộ thanh tra, kiểm tra thuế lựa chọn các tiêu chí theo kinh nghiệm để đưa vào tính điểm rủi ro, bao gồm các tiêu chí tĩnh và các tiêu chí động Các tiêu chí tĩnh được chọn trong bộ tiêu chí phân tích thông tin rủi ro doanh nghiệp phục vụ công tác lập kế hoạch thanh tra, kiểm tra thuế ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 01 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế (Phụ lục 1) Các tiêu chí động do Vụ Thanh tra Tổng cục Thuế, Cục Thuế tự xây dựng phù hợp với tình hình địa phương Việc lựa chọn được tiến hành hàng năm
- Thử nghiệm bộ tiêu chí:
Sau khi lựa chọn được bộ tiêu chí (mỗi tiêu chí có công thức để tính điểm cho từng tiêu chí, bao gồm bốn mức điểm là 4, 3, 2, 1 tương ứng với rủi ro cao, rủi ro trung bình, rủi ro thấp và rủi ro rất thấp), cán bộ thanh tra thuế gán trọng số cho từng tiêu chí dựa vào kinh nghiệm theo phương pháp như sau:
Xác định những tiêu chí quan trọng, có ảnh hưởng lớn đến rủi ro để gán trọng số cao Các tiêu chí có mức độ ảnh hưởng không lớn đến rủi ro về thuế
với i là trọng số của tiêu chí i, TC i là điểm rủi ro của tiêu chí i
Điểm rủi ro của doanh nghiêp được chia thành 04 mức: rủi ro cao, rủi ro vừa, rủi ro thấp, rủi ro rất thấp Cán bộ thanh tra so sánh điểm rủi ro của doanh nghiệp so với kết quả thanh tra Nếu kết quả thanh tra không khớp với điểm rủi ro, ví dụ: doanh nghiệp có điểm rủi ro cao lại không vi phạm…, thì thực hiện điều chỉnh lại trọng số của tiêu chí, hoặc thay đổi các tiêu chí được chọn Quá trình trên cứ tiếp tục cho đến khi điểm rủi ro được tính phù hợp với kết quả thanh tra, khi đó việc thử nghiệm kết thúc và lựa chọn bộ tiêu chí
và trọng số đưa vào làm bộ tiêu chí đánh giá chính thức trình Lãnh đạo đơn
vị phê duyệt
1.2.2.3 Tính điểm rủi ro
Trang 117Quy trình tính điểm rủi ro được mô tả ở Hình 1.4 Xuất phát từ dữ liệu thu nộp thuế của doanh nghiệp cần tính rủi ro, dựa vào bộ tiêu chí tính điểm rủi ro và trọng
số cho từng tiêu chí đã được phê duyệt, hệ thống tính điểm rủi ro của từng doanh nghiệp Điểm rủi ro là dữ liệu đầu vào để lập kế hoạch thanh tra thuế
Tính giá trị tiêu chí 1
Phân ngưỡng tiêu chí 1
Cho điểm tiêu chí 1
Đánh trọng số tiêu chí 1
Tính giá trị tiêu chí 2
Phân ngưỡng tiêu chí 2
Cho điểm tiêu chí 2
Đánh trọng số tiêu chí 2
Tính giá trị tiêu chí n
Phân ngưỡng tiêu chí n
Cho điểm tiêu chí n
Đánh trọng số tiêu chí n
CSDL thông tin NNT
Tổng điểm của tất cả các tiêu chí
Lựa chọn NNT có rủi
ro cao
Bước I
Bước II
Hình 1.4 Quy trình tính điểm rủi ro
1.2.2.4 Lập kế hoạch thanh tra thuế
Sau khi đã hoàn thành việc tính điểm rủi ro, các đơn vị tiếp tục sử dụng kết quả điểm rủi ro để lựa chọn doanh nghiệp vào kế hoạch kiểm tra theo nguyên tắc lựa chọn tiếp các doanh nghiệp có điểm rủi ro cao vào danh sách thanh tra
Quy trình lập kế hoạch thanh tra được mô tả như Hình 1.5
Trang 12Kế hoạch điều chỉnh
Lập kế hoạch
Kế hoạch năm
Kết quả phân tích rủi ro
đã được phê duyệt
Lựa chọn những DN có mức độ rủi ro cao nhất
Danh sách kê khai
trước chuyển sang
DN có thông tin thu
và kết quả thanh tra, kiểm tra thuế Vì việc lựa chọn này theo kinh nghiệm nên không bảo đảm được độ chính xác về điểm rủi ro được tính (có thể doanh nghiệp điểm rủi ro thấp lại vi phạm nhiều)
2) Trọng số của các tiêu chí phân tích rủi ro được gán hoàn toàn dựa vào kinh nghiệm của cán bộ thanh tra và thay đổi theo năm, chưa được học
tự động từ dữ liệu lịch sử về thu nộp thuế và kết quả thanh tra, kiểm tra
Do đó, cũng không bảo đảm độ chính xác về điểm rủi ro được tính 3) Việc thử nghiệm bộ tiêu chí để lựa chọn bộ tiêu chí và trọng số được tiến hành theo phương pháp thử, sai (nếu đúng thì giữ nguyên, nếu sai thì thay đổi lại trọng số và tiêu chí) là không khoa học và không bao quát được quy luật vốn có của dữ liệu Hơn nữa, việc thử sai được tiến hành
Trang 139hàng năm sẽ mất nhiều thời gian, công sức của cán bộ nghiệp vụ thanh tra và không ổn định qua các năm
Nhằm mục tiêu nâng cao độ chính xác của mô hình tính điểm rủi ro của doanh nghiệp để lựa chọn đúng các doanh nghiệp đưa vào thanh tra, góp phần nâng cao hiệu quả công tác thanh tra, kiểm tra thuế, mục tiêu của đề tài là xây dựng mô hình hồi quy tuyến tính đa biến nhằm tính điểm rủi ro của doanh nghiệp, trong đó các tiêu chí (biến đầu vào) và trọng số của các tiêu chí được học tự động từ dữ liệu lịch
sử (dữ liệu huấn luyện, dữ liệu kiểm tra)
1.3 Bài toán phân tích dữ liệu nhằm tính điểm rủi ro của doanh nghiệp
1.3.1 Phát biểu bài toán
Xây dựng mô hình hồi quy tuyến tính đa biến tính điểm rủi ro của doanh nghiệp phục vụ công tác lập kế hoạch thanh tra thuế với mục tiêu độ chính xác của
mô hình đạt trên 80% trên tập dữ liệu kiểm tra Đầu vào của hệ thống là tệp dữ liệu lịch sử về tình hình thu nộp thuế, kết quả thanh tra được kết xuất từ hệ thống PTR, tệp bảng chỉ tiêu do Tổng cục thuế ban hành, đầu ra là điểm rủi ro của doanh nghiệp, bao gồm các bước:
1) Xây dựng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra từ tệp dữ liệu kết xuất từ PTR
2) Rút gọn thuộc tính bằng phương pháp sử dụng tập thô mờ
3) Xây dựng mô hình hồi quy tuyến tính trên tập dữ liệu huấn luyện
4) Kiểm tra mô hình trên tập dữ liệu kiểm tra
5) Thực thi mô hình tính điểm rủi ro của doanh nghiệp đưa vào hệ thống PTR
1.3.2 Mô tả đầu vào và đầu ra của hệ thống
1) Đầu vào:
- Tệp dữ liệu lịch sử về tình hình thu nộp thuế của các doanh nghiệp được kết xuất từ hệ thống PTR dưới dạng tệp Excel Cấu trúc tệp Excel như ở Bảng 1.1
Bảng 1.1.Cấu trúc tệp dữ liệu đầu vào kết xuất từ hệ thống TPR
STT Tên trường Kiểu dữ liệu Ghi chú
Trang 147 NganhTB Nvarchar(10) Mã công thức tính trung bình
ngành
8 TenLHKT Nchar(100) Tên loại hình kinh tế
11 Doanh thu Numeric(20,2) Doanh thu
12 ThueTNDNPN Numeric(20,2) Số thuế TNDN phải nộp
13 SoTKNC Numeric(2,0) Chậm nộp hồ sơ khai thuế so
với thời hạn quy định
14 LoaiDN Numeric(2,0) Phân loại doanh nghiệp theo
loại hình kinh tế
15 TLTNDN Numeric(5,2) So sánh biến động của tỷ lệ
(Thuế TNDN phát sinh/ Doanh thu giữa) các năm
16 TLGTGTPS Numeric(5,2) So sánh biến động của tỷ lệ
(Thuế GTGT phát sinh/ Doanh thu hàng hoá dịch vụ bán ra) giữa các năm
17 TLHDKD Numeric(5,2) Tỷ lệ (Lợi nhuận từ hoạt động
kinh doanh/ Doanh thu thuần)
18 TLLNTT Numeric(5,2) Tỷ lệ ((Lợi nhuận trước thuế +
Chi phí lãi vay)/ Doanh thu thuần)
19 TLLNST Numeric(5,2) Tỷ lệ ((Lợi nhuận sau thuế/
Doanh thu thuần)
20 TLLNKT Numeric(5,2) Tỷ lệ (Lợi nhuận kế toán trước
thuế/ Vốn chủ sở hữu)
21 TLGVBH Numeric(5,2) Tỷ lệ (Giá vốn hàng bán/
Doanh thu thuần)
22 TLCPBH Numeric(5,2) Tỷ lệ (Chi phí bán hàng/ Doanh
thu thuần)
23 TLCPQL Numeric(5,2) Tỷ lệ (Chi phí quản lý/ Doanh
thu thuần)
24 TLDuPhong Numeric(5,2) Tỷ lệ Tổng dự phòng so với
tổng chi phí sản xuất kinh doanh
25 TLDTGTGT Numeric(5,2) Tỷ lệ Doanh thu thuần về bán
hàng và cung cấp dịch vụ so với vốn chủ sở hữu
Trang 1526 TLDTKhac Numeric(5,2) Tỷ lệ Tổng doanh thu GTGT
hàng hoá dịch vụ bán ra so với Tổng doanh thu thuần bán hàng hóa và cung cấp dịch vụ và Thu nhập khác
27 TLHangTon Numeric(5,2) Tỷ lệ hàng tồn kho so với
doanh thu thuần
28 HSKNTT Numeric(5,2) Hệ số khả năng thanh toán tổng
31 KyTT Numeric(2,0) Kỳ đã được thanh tra gần nhất
32 ThueTThu Numeric(20,2) Số thuế truy thu tuyệt đối của
kỳ thanh tra gần nhất
33 VonSH Numeric(20,2) Vốn chủ sở hữu nhỏ hơn 20 tỷ
đồng thời kinh doanh đa ngành nghề
36 TTTruoc Numeric(20,2) Người mua thanh tón trước
37 GTDT Numeric(20,2) Các khoản giảm trừ doanh thu
39 CPLon Numeric(20,2) Chi phí phải trả lớn
40 LayVayNVH Numeric(20,2) Lãy vai chưa vốn hóa
41 HTKho Numeric(20,2) Hàng tồn kho cuối kỳ
42 DHCG Numeric(20,2) Giấu hiệu chuyên gia
43 DNCMG Numeric(20,2) Số thuế miễn giảm
44 VATA_H Numeric(20,2) Có thuế VAT âm nhưng không
hoàn
45 TK331 Numeric(20,2) Số dư tài khoản 331
46 DTNHVon Numeric(20,2) Doanh thu nhỏ hơn vốn
47 HDBH_Use Numeric(5,2) Sử dụng hóa đơn bán hàng
nhiều
Trang 16- Bộ tiêu chí cứng phân tích thông tin rủi ro doanh nghiệp phục vụ công tác
lập kế hoạch thanh tra, kiểm tra thuế với công thức tính điểm rủi ro ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 01 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế
Bảng 1.2.Bộ tiêu chí phân tích rủi ro
I Nhóm I: Đánh giá về tuân thủ khai thuế, tính thuế
Tiêu chí 1: Chậm nộp hồ sơ khai thuế so với thời hạn quy định (bao gồm tháng, quý, năm)
II Nhóm II: Phân loại doanh nghiệp theo loại hình kinh tế
Tiêu chí 2: Phân loại doanh nghiệp theo loại hình kinh tế
III Nhóm III: Đánh giá sự biến động về kê khai giữa các năm
Tiêu chí 3: So sánh biến động của tỷ lệ “Thuế TNDN phát sinh/ doanh thu” giữa các năm
Tiêu chí 4: So sánh biến động của tỷ lệ “Thuế GTGT phát sinh/ doanh thu hàng hoá dịch vụ bán ra” giữa các năm
IV Nhóm IV: Đánh giá về tình hình tài chính
Tiêu chí 5: Tỷ lệ lợi nhuận từ hoạt động kinh doanh/ doanh thu thuần
Tiêu chí 6: Tỷ lệ (lợi nhuận trước thuế + chi phí lãi vay)/ doanh thu thuần Tiêu chí 7: Tỷ lệ lợi nhuận sau thuế/ doanh thu thuần
Tiêu chí 8: Tỷ lệ lợi nhuận/ vốn chủ sở hữu
Tiêu chí 9: Tỷ lệ giá vốn hàng bán/ doanh thu thuần
Tiêu chí 10: Tỷ lệ chi phí bán hàng/ doanh thu thuần
Tiêu chí 11: Tỷ lệ chi phí quản lý/ doanh thu thuần
Tiêu chí 12: Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất kinh doanh Tiêu chí 13: Tỷ lệ Doanh thu thuần về bán hàng và cung cấp dịch vụ so với vốn chủ sở hữu
Tiêu chí 14: Tỷ lệ Tổng doanh thu GTGT hàng hoá dịch vụ bán ra so với Tổng doanh thu thuần bán hàng hóa và cung cấp dịch vụ và Thu nhập khác
Tiêu chí 15: Tỷ lệ hàng tồn kho so với doanh thu thuần
Tiêu chí 16: Hệ số khả năng thanh toán tổng quát
Tiêu chí 17: Hệ số khả năng thanh toán nợ ngắn hạn
Tiêu chí 18: Hệ số khả năng thanh toán nhanh
Trang 17V Nhóm V: Lịch sử thanh tra của doanh nghiệp
Tiêu chí 19: Kỳ đã được thanh tra, kiểm tra gần nhất
Tiêu chí 20: Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra gần nhất
VI Nhóm VI Các tiêu chí về nhân thân doanh nghiệp
Tiêu chí 21: Vốn chủ sở hữu nhỏ hơn 20 tỷ đồng thời kinh doanh đa ngành nghề
- Ngoài các tiêu chí cứng theo thông tư của TCT, cục thuế Hà Nội bổ sung
thêm 14 tiêu chí mở rộng mang đặc thù riêng của Cục thuế Hà Nội Như vậy, tổng
số có 35 tiêu chí phân tích rủi ro
2) Đầu ra:
- Điểm rủi ro của doanh nghiệp Điểm rủi ro có giá trị từ 0 đến 100
Trang 18Hình 2.1 Quy trình tổng thể giải quyết bài toán
2.1.2 Quy trình chi tiết
Hình 2.1 trình bày quy trình chi tiết giải quyết bài toán xây dựng mô hình hồi quy nhằm tính điểm rủi ro của doanh nghiệp phục vụ lập kế hoạch thanh tra thuế.Đầu vào của hệ thống là tệp liệu lịch sử về tình hình thu nộp thuế của các doanh nghiệp được kết xuất từ hệ thống PTR dưới dạng tệp Excel và tệp bảng chỉ tiêu phân tích rủi ro và công thức tính điểm rủi ro cho từng chỉ tiêu (bốn mức điểm
là 4, 3, 2, 1)
1) Bước 1: Thu thập và tiền xử lý dữ liệu:
- Xây dựng tệp dữ liệu huấn luyện và dữ liệu kiểm tra (mẫu có nhãn) từ tệp
dữ liệu lịch sử về tình hình thu nộp thuế của các doanh nghiệp Các thuộc tính đầu vào tưng ứng với các chỉ tiêu phân tích rủi ro Giá trị của các thuộc tính là giá trị điểm rủi ro được tính theo công thức Đầu ra là điểm
Thu thập và tiền
xử lý dữ liệu
• Xây dựng dữ
liệu huấn luyện,
dữ liệu kiểm tra
• Rút gọn thuộc
tính
Xây dựng và kiểm tra mô hình
• Xây dựng mô hình hồi quy tuyến tính đa biến
• Kiểm tra mô hình
Thực thi mô hình tính điểm rủi ro
• Xây dựng dữ liệu đầu vào cho
mô hình
• Tính điểm rủi ro của doanh nghiệp
Trang 19rủi ro Điểm rủi ro được tính = (ThueTThu/ThueTNDNPN)*100 Trong
đó, trường số thuế truy thu (ThueTThu) là trường số 32 của Bảng 1.1 (cấu trúc tệp dữ liệu đầu vào),trường thuế thu nhập doanh nghiệp phải nộp (ThueTNDNPN) là trường số 12 của Bảng 1.1 (cấu trúc tệp dữ liệu đầu vào) Điểm rủi ro nhận giá trị từ 0 đến 100 Nếu Điểm rủi ro lớn hơn 100
sẽ được gán bằng 100
- Rút gọn thuộc tính: Sử dụng phương pháp rút gọn thuộc tính trực tiếp trên
dữ liệu gốc theo tiếp cận tập thô mờ để thực hiện rút gọn thuộc tính đầu vào, phục vụ xây dựng mô hình hồi quy đa biến
2) Bước 2: Xây dựng và kiểm tra mô hình hồi quy
- Tập dữ liệu sau khi rút gọn thuộc tính được sử dụng để xây dựng mô hình
và kiểm tra mô hình hồi quy
- Tập dữ liệu được chia thành 02 phần: Dữ liệu huấn luyện (training data) và
dữ liệu kiểm tra (test data)
- Tập dữ liệu huấn luyện được sử dụng để xây dựng mô hình hồi quy đa biến
- Tập dữ liệu kiểm tra được sử dụng để kiểm tra mô hình hồi quy đa biến
- Nếu độ chính xác của mô hình chưa đạt ngưỡng 80% thì tiếp tục huấn luyện mô hình bằng cách bổ sung thêm tập dữ liệu huấn luyện từ tập dữ liệu kiểm tra Quá trình trên kết thúc khi độ chính xác của mô hình đạt trên 80%
3) Bước 3: Thực thi mô hình hồi quy tính điểm rủi ro
- Từ tệp dữ liệu doanh nghiệp cần tính điểm rủi ro (được kết xuất từ hệ thống PTR) chưa có kết quả thanh tra và bộ tiêu chí rút gọn (sau khi rút gọn thuộc tính ở bước 2), hệ thống thực hiện xây dựng tệp dữ liệu đầu vào
cho mô hình (mẫu không có nhãn, chỉ có đầu vào, không có đầu ra)
- Đưa dữ liệu đầu vào mô hình hồi quy tuyến tính, mô hình hồi quy tuyến tính tính ra điểm rủi ro của doanh nghiệp (đầu ra) Điểm rủi ro của doanh
nghiệp trả về hệ thống PTR phục vụ việc lập kế hoạch thanh tra thuế
Trang 20Hệ thống quản lý rủi ro PTR
Phòng Thanh tra tổng hợp Bộ phận thanh tra kiểm tra Phòng Thanh tra tổng hợp
Thu thập và tiền xử lý
dữ liệu
Rà soát dữ liệu nhập
Rà soát dữ liệu tăng giảm đột biến
Rà soát giá trị bất thường
Rà soát hiệu quả sản xuất
Xây dựng và thử nghiệm
Tính điểm rủi ro cho từng tiêu chí
TÍnh điểm rủi ro Điểm rủi ro
của doanh nghiệp
Lập kế hoạch thanh tra
In hồ sơ rủi ro cho DN
Chọn ngưỡng rủi ro cần thanh tra Lập danh sách DN cần thanh tra
Đánh giá rủi ro
Dữ liệu doanh nghiệp cần tính điểm rủi ro
Dữ liệu lịch
sử thu nộp thuế và kết quả thanh tra
dữ liệu
Xây dựng dữ liệu học, kiểm tra
Rút gọn thuộc tính
Bộ tiêu chí được chọn
để tính điểm rủi ro
Dữ liệu học
Dữ liệu kiểm tra
Bộ tiêu chí rút gọn
mô hình
Mô hình hồi quy
Thực thi mô hình tính điểm rủi ro
Xây dựng dữ liệu đầu vào cho mô hình
Dữ liệu đầu vào cho mô hình Tính điểm rủi ro Điểm rủi ro của doanh nghiệp
Hình 2.2 Quy trình chi tiết giải quyết bài toán
Trang 212.2 Thu thập và tiền xử lý dữ liệu
Như đã trình bày ở mục 1.3.2, dữ liệu đầu vào của hệ thống bao gồm:
- Dữ liệu lịch sử về tình hình thu nộp thuế của các doanh nghiệp được kết xuất từ hệ thống PTR dưới dạng tệp Excel (DataSource_PTR.XLS), cấu trúc tệp dữ liệu đầu vào được mô tả ở Bảng 1.1 Bảng 2.1 là một ví dụ về tệp dữ liệu:
Bảng 2.1.Ví dụ minh họa về dữ liệu đầu vào kết xuất từ hệ thống
PTR(DataSource_PTR.XLS)
STT Mã số thuế
(MST)
Tên doanh nghiệp (TenNNT)
Trạng thái hoạt động (TT)
Ngành nghề kinh doanh (NGANH2)
Loại hình kinh tế (LOAND N)
Doanh thu (DOANH THU)
…
1 0105402531 Tổng công ty
bảo hiểm PVI
Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)
Bảo hiểm phi nhân thọ Cổ phần
1.534.418.
789.486
2 0105427367
Công ty cổ phần liên doanh bảo trì thang máy Coninco - Sec Việt Nhật
Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)
Hoạt động xây dựng chuyên dụng khác
Doanh nghiệp liên doanh với nước ngoài
2.500.000
3 0102671977
Công Ty Cổ Phần Phát Triển Đô Thị Nam Hà Nội
Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)
Hoạt động xây dựng chuyên dụng
4 0100106338
Tổng Công Ty Xây Dựng Hà Nội - Công Ty TNHH Một Thành Viên
Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)
Xây dựng nhà các loại
Trách nhiệm hữu hạn
1.741.750.
271.465
5 0101073692
Công Ty Cổ Phần Đầu Tư Xây Dựng Và Phát Triển Hạ Tầng
Vinaconex
Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)
Hoạt động xây dựng chuyên dụng
Cổ phần 109.670.87
4.974
6 0100105574
Công Ty Cổ Phần Đầu Tư
Và Xây Dựng
Doanh nghiệp đang hoạt động (đã được
Hoạt động xây dựng chuyên dụng
Cổ phần 1.071.415.
854.209
Trang 22Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)
Bảo hiểm phi nhân thọ khác Cổ phần
812.574.15 7.273
…
- Bộ tiêu chí cứng (21 chỉ tiêu) phân tích thông tin rủi ro doanh nghiệp phục
vụ công tác lập kế hoạch thanh tra, kiểm tra thuế (ChiTieu.XLS) với công thức tính điểm rủi ro ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 01 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế
- 14 tiêu chí mở rộng của Cục thuế Hà Nội
2.2.1 Xây dựng dữ liệu huấn luyện, dữ liệu kiểm tra
- Từ tệp dữ liệu lịch sử về tình hình thu nộp thuế của các doanh nghiệp được kết xuất từ hệ thống PTR (DataSource_PTR.XLS), 21 tiêu chí cứng (trong tệp ChiTieu.XLS), 14 tiêu chí mở rộng của Cục thuế hà Nội, hệ thống xây dựng tệp dữ liệu huấn luyện và kiểm tra
- Tệp dữ liệu huấn luyện và kiểm tra (DATA_PTRR.XLS) gồm: 35 đầu vào (Từ ChiTieu1 đến ChiTieu35) Trong đó, từ ChiTieu1 đến ChiTieu21 tương ứng với 21 chỉ tiêu trong bộ tiêu chí cứng, từ ChiTieu22 đến ChiTieu35 tương ứng với 14 tiêu chí mở rộng Đầu ra là điểm rủi ro (DiemRR) Cấu trúc tệp DATA_PTRR.XLS như sau:
Bảng 2.2.Cấu trúc dữ liệu DATA_PTRR.xls
trong tệp DataSource_PTR.XLS
1 ChiTieu1 Numeric(2,0) Chậm nộp hồ sơ khai thuế so với
3 ChiTieu3 Numeric(5,2) So sánh biến động của tỷ lệ “Thuế
TNDN phát sinh/ doanh thu” giữa các năm
TLTNDN
4 ChiTieu4 Numeric(5,2) So sánh biến động của tỷ lệ “Thuế TLGTGTPS
Trang 2319GTGT phát sinh/ doanh thu hàng hoá dịch vụ bán ra” giữa các năm
5 ChiTieu5 Numeric(5,2) Tỷ lệ lợi nhuận từ hoạt động kinh
doanh/ doanh thu thuần
TLHDKD
6 ChiTieu6 Numeric(5,2) Tỷ lệ (lợi nhuận trước thuế + chi
phí lãi vay)/ doanh thu thuần
TLLNTT
7 ChiTieu7 Numeric(5,2) Tỷ lệ lợi nhuận sau thuế/ doanh thu
thuần
TLLNST
8 ChiTieu8 Numeric(5,2) Tỷ lệ lợi nhuận/ vốn chủ sở hữu TLLNKT
9 ChiTieu9 Numeric(5,2) Tỷ lệ giá vốn hàng bán/ doanh thu
12 ChiTieu12 Numeric(5,2) Tỷ lệ Tổng dự phòng so với tổng
chi phí sản xuất kinh doanh
20 ChiTieu20 Numeric(20,2) Số thuế truy thu tuyệt đối của kỳ
thanh tra, kiểm tra gần nhất
ThueTThu
21 ChiTieu21 Numeric(20,2) Vốn chủ sở hữu nhỏ hơn 20 tỷ
đồng thời kinh doanh đa ngành nghề
VonSH
Trang 2422 ChiTieu22 Numeric(5,2) Quan hệ liên kết QHLK
23 ChiTieu23 Numeric(5,2) So sánh doanh thu SSDT
24 ChiTieu24 Numeric(20,2) Người mua thanh toán trước TTTruoc
25 ChiTieu25 Numeric(20,2) Các khoản giảm trừ doanh thu GTDT
27 ChiTieu27 Numeric(20,2) Chi phí phải trả lớn CPLon
28 ChiTieu28 Numeric(20,2) Lãi vay chưa vốn hóa LayVayNVH
29 ChiTieu29 Numeric(20,2) Hàng tồn kho cuối kỳ HTKho
30 ChiTieu30 Numeric(20,2) Dấu hiệu chuyên gia DHCG
31 ChiTieu31 Numeric(20,2) Số thuế miễn giảm DNCMG
32 ChiTieu32 Numeric(20,2) Có thuế VAT âm nhưng không
hoàn
VATA_H
33 ChiTieu33 Numeric(20,2) Số dư tài khoản 331 TK331
34 ChiTieu34 Numeric(20,2) Doanh thu nhỏ hơn vốn DTNHVon
35 ChiTieu35 Numeric(5,2) Sử dụng hóa đơn bán hàng nhiều HDBH_Use
36 DiemRR Numeric(5,2) Điểm rủi ro (đầu ra) ThueTThu/T
hueTNDNPN
- Giá trị của các đầu vào (Từ ChiTieu1 đến ChiTieu35) là giá trị điểm rủi ro (4, 3, 2, 1) của trường tương ứng trong tệp dữ liệu đầu vào DataSource_PTR.XLS
Ví dụ 2.1 Với ChiTieu2 (phân loại doanh nghiệp theo loại hình kinh tế)
công thức trong bảng chỉ tiêu xác định như sau:
Bảng 2.3.Công thức tính giá trị phân loại doanh nghiệp
12 Doanh nghiệp liên doanh với nước ngoài 2
Trang 25Ví dụ 2.2 Ví dụ về bộ dữ liệu huấn luyện và kiểm tra DATA_PTRR.xls
Trang 26Bảng 2.4.Ví dụ về bộ dữ liệu huấn luyện, kiểm tra
mô hình, kiểm tra mô hình và thực thi mô hình ở các bước tiếp theo
Chúng tôi sử dụng kết quả nghiên cứu về phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô mờ được trình bày trong báo cáo thu thập và tiền xử lý dữ liệu để thực hiện rút gọn thuộc tính Cụ thể, chúng tôi sử dụng thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ (Thuật toán FDBAR) để thực hiện rút gọn thuộc tính đầu vào
Kết quả của rút gọn thuộc tính là bảng dữ liệu rút gọn sử dụng để xây dựng
mô hình hồi quy và kiểm tra độ chính xác của mô hình
2.3 Xây dựng, kiểm tra mô hình hồi quy
Quy trình xây dựng và kiểm tra mô hình hồi quy được mô tả ở Hình 2.3
Trang 27Xây dựng mô hình hồi quy tuyến tính đa biến
Dữ liệu huấn luyện
Mô hình hồi quy tuyến tính
DiemRR = α1*ChiTieu1 + α2*ChiTieu2 + + αN*ChiTieuN + β
Dữ liệu kiểm tra
Sai số của mô hình < e
Sai
Kết thúc
Đúng
Hình 2.3 Quy trình xây dựng, kiểm tra mô hình hồi quy
2.3.1 Xây dựng mô hình hồi quy tuyến tính đa biến
Từbảng dữ liệu rút gọn, chúng tôi trích lọc ra tệp dữ liệu huấn luyện theo tỷ lệ xác định trước Tệp dữ liệu huấn luyện được sử dụng để xây dựng mô hình hồi quy tuyến tính đa biến
dữ liệu huấn luyện có cấu trúc như sau:
Trang 28Mô hình có dạng như sau:
- Nội dung công việc của bước xây dựng mô hình hồi quy tuyến tính là xác định các hệ số α1 αN và β
- Công cụ sử dụng: Ngôn ngữ phân tích dữ liệu R với giao diện được lập trình bằng bộ công cụ Visual Studio.Net
2.3.2 Kiểm tra mô hình hồi quy tuyến tính đa biến
Sau khi xây dựng xong mô hình hồi quy, bước tiếp theo là kiểm tra độ chính xác của mô hình trên tập dữ liệu kiểm tra, cũng như để khẳng định mô hình xây dựng phù hợp với dữ liệu Ở đây chúng tôi sử dụng hai phương pháp đánh giá Phương pháp thứ nhất (Hold-out) phân chia dữ liệu thành hai tệp độc lập, tập huấn luyện (training set) 2/3 dữ liệu; tập kiểm tra (testing set) 1/3 dữ liệu còn lại
Dữ liệu huấn luyện và dữ liệu thử nghiệm được lấy ngẫu nhiên với mong muốn các lớp được phân bổ đều trên cả hai tập và thực hiện holdout k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác
Phương pháp thứ hai là Cross validation hay còn gọi là k-fold Cross validation Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước (hình 2.6) Tại mỗi vòng lặp sử dụng một tập con là tập kiểm tra và các tập con còn lại là tập huấn luyện Giá trị k thường là = 10 Ta có thể dùng một trong hai cách:
- Leave-one-out : k= số mẫu trong dữ liệu (dành cho tập dữ liệu nhỏ)
- Stratified cross-validation : dùng phương pháp lấy mẫu để các lớp trong từng tập con phân bố như trên toàn bộ dữ liệu
Độ chính xác bằng trung bình cộng của các lần thực hiện theo công thức sau
1
i i
Finall Accuracy Accuracy
k
Trang 29Hình 2.4 Phương pháp k-fold Cross validation
Sau kết quả kiểm tra, nếu độ chính xác Accuracy của mô hình chưa đạt được trên 80% thì tiếp tục bổ sung thêm dữ liệu vào tệp huấn luyện để tiếp tục thực hiện huấn luyện và kiểm tra mô hình Quá trình dừng lại khi độ chính xác của mô hình đạt trên 80%
Trang 30Chương 3 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG
Chương này trình bày chi tiết nội dung phân tích và thiết kế hệ thống xây dựng
mô hình hồi quy nhằm tính điểm rủi ro của doanh nghiệp, bao gồm liệt kê các tác nhân, ca sử dụng (chức năng) của hệ thống, các biểu đồ ca sử dụng, biểu đồ tuần tự
và đặc tả chi tiết thiết kế các chức năng hệ thống
Đầu vào của hệ thống là tệp dữ liệu tình hình thu nộp thuế được kết xuất từ hệ thống PTR với khuôn dạng Excel và tệp bảng tiêu chí phân tích rủi ro Đầu ra của
hệ thống là điểm rủi ro của doanh nghiệp cần tính Điểm rủi ro được tính trả về hệ thống PTR để phục vụ công tác lập kế hoạch thanh tra
3.1 Mô hình chức năng của hệ thống
Hình 3.1 mô tả sơ đồ chức năng của hệ thống phân tích dữ liệu nhằm tính điểm rủi ro của doanh nghiệp
Hệ thống phân tích dữ liệu nhằm tính điểm rủi ro của doanh nghiệp
(PTRR)
Hệ thống Xây dựng mô hình Thực hiện mô hình Trợ giúp
Tạo tài khoản
Rút gọn thuộc tính
Xây dựng dữ liệu học
Xây dựng dữ liệu tính điểm rủi ro Tính điểm rủi ro
In danh sách thanh tra
Hồi quy tuyến tính Hồi quy logistic
Trang 31Hình 3.1 Sơ đồ chức năng của hệ thống PTRR
3.2 Danh sách các tác nhân, ca sửu dụng, đặc tả ca sử dụng
3.2.1 Danh sách các tác nhân của hệ thống
Danh sách các tác nhân (Actor) của hệ thống bao gồm:
1 Cán bộ phân tích (cán bộ
thanh tra thuế)
Người sử dụng hệ thống hồi quy tính điểm rủi ro của doanh nghiệp
2 Hệ thống tính điểm rủi ro
PTR
Hệ thống tính điểm rủi ro PTR cung cấp dữ liệu đầu vào và nhận giá trị đầu ra (điểm rủi ro) của hệ thống
3 Người quản trị Người quản trị hệ thống hồi quy tính điểm
rủi ro của doanh nghiệp
Mô tả
Hệ thống 1 Đăng nhập
hệ thống
Cán bộ phân tích, người quản trị
- Ca sử dụng cho phép NSD (cán
bộ phân tích, người quản trị) đăng nhập hệ thống
- NSD có thể đăng nhập vào hệ thống bằng 2 quyền Quyền quản trị (admin) có khả năng phân quyền cho các Use ser khác và quyền thực hiện tất cả các chức năng của hệ thống; Quyền thành viên (User) chỉ có khả năng xem chức năng Bộ chỉ tiêu phân tích
và In hồ sơ phân tích
2 Tạo tài
khoản
Người quản trị
Ca sử dụng này cho phép người quản trị tạo tài khoản cho người
Trang 32Ca sử dụng này cho phép người quản trị phân quyền cho người sử dụng hệ thống Bao gồm quyền quản trị (admin) và quyền thành viên (user)
4 Bộ tiêu chí
phân tích rủi ro
Cán bộ phân tích, Người quản trị
- Ca sử dụng này cho phép cán bộ phân tích xem bộ tiêu chí phân tíc rủi ro, người quản trị cập nhật bộ tiêu chí phân tích rủi ro (bổ sung các tiêu chí động để phù hợp với các đặc thù của từng cơ quan thuế)
Phân tích 5 Nạp dữ
liệu
Cán bộ phân tích, hệ thống PTR
- Ca sử dụng này cho phép cán bộ phân tích nạp tệp dữ liệu đầu vào được kết xuất từ hệ thống PTR (tệp dữ liệu lịch sử về tình hình thu nộp thuế, sản xuất kinh doanh
và kết quả thanh tra) Khuôn dạng tệp nạp vào dưới dạng Excel với định dạng *.csv Sau khi nạp dữ liệu, ca sử dụng cho phép hiển thị
dữ liệu
6 Xây dựng
dữ liệu phân tích
Cán bộ phân tích
- Ca sử dụng này cho phép cán bộ phân tích xây dựng bộ dữ liệu phân tích từ dữ liệu đầu vào Chức năng này xây dựng mẫu dữ liệu (huẩn luyện, kiểm tra) từ dữ liệu đầu vào Các thuộc tính điều kiện lấy từ bảng tiêu chí phân tích rủi
ro Giá trị các thuộc tính điều kiện được tính theo công thức tính điểm rủi ro trong bộ tiêu chí (bố mức 4, 3, 2, 1) Thuộc tính đầu ra
là điểm rủi ro, giá trị từ 0 đến 100 được tính theo tỷ lệ số thuế truy
Trang 33thu / số thuế TNDN phải nộp (như
đã mô tả ở phần trên
- Ca sử dụng này cũng cho phép hiển thị mẫu dữ liệu phục vụ xây dựng và kiểm tra mô hình
7 Rút gọn
thuộc tính
Cán bộ phân tích
Ca sử dụng này cho phép cán bộ phân tích thực hiện các thuật toán rút gọn thuộc tính theo tiếp cận tập thô mờ được đề xuất Sau đó, hiển thị tập mẫu sau khi rút gọn thuộc tính phục vụ xây dựng và kiểm tra mô hình Tập mẫu sau khi rút gọn được lưu trữ lại
8 Xây dựng
dữ liệu học
Cán bộ phân tích
Ca sử dụng này cho phép cán bộ phân tích thực hiện trích chọn dữ liệu huấn luyện từ dữ liệu mẫu đã được rút gọn, bao gồm:
- Lựa chọn phần trăm số mẫu đưa vào dữ liệu huấn luyện
- Hiển thị dữ liệu huấn luyện
- Ghi dữ liệu huấn luyện vào hệ thống
luyện mô hình
Cán bộ phân tích
Ca sử dụng này cho phép cán bộ phân tích thực hiện xây dựng mô hình hồi quy tuyến tính từ dữ liệu huấn luyện đã được xây dựng bằng phương pháp k-fold (10-fold)
- Lấy ngẫu nhiên 80% dữ liệu đế xây dựng mô hình hồi quy, 20%
dữ liệu đề kiểm tra mô hình
- Hiển thị phân bố dữ liệu
- Tính sai số của mô hình trên tập kiểm tra
- Lặp lại quá trình trên, lựa chọn
mô hình có sai số nhỏ nhất
Trang 34Ca sử dụng này cho phép cán bộ phân tích thực hiện kiểm tra mô hình đã được xây dựng trên tập dữ liệu kiểm tra (data test)
- Hiển thị độ chính xác của mô hình
- Biểu diễn các mô hình bằng đồ thị trực quan
11 Phê duyệt
mô hình
Cán bộ phân tích
Ca sử dụng này cho phép cán bộ phân tích thực hiện phê duyệt mô hình đã được xây dựng, phục vụ tính điểm rủi ro cho các bước sau
- Hiển thị mô hình hồi quy tuyến tính đa biến
- Hiển thị các hệ số của mô hình hồi quy
Ca sử dụng này cho phép cán bộ phân tích thực hiện nạp dữ liệu cần tính điểm rủi ro được kết xuất
từ hệ thống PTR (dữ liệu thu nộp thuế, kết quả kinh doanh của các đối tượng cần tính điểm rủi ro)
- Nạp dữ liệu từ tệp Excel (khuôn dạng *.csv) được kết xuất từ hệ thống PTR
- Hiển thị dữ liệu đầu vào
13 Xây dựng
dữ liệu tính điểm rủi ro
Cán bộ phân tích
Ca sử dụng này cho phép cán bộ phân tích thực hiện xây dựng dữ liệu mẫu (dữ liệu không có nhãn)
để tính điểm rủi ro Các thuộc tính điều kiện là các thuộc tính rút gọn
ở bước xây dựng mô hình Giá trị thuộc tính điều kiện được tính theo công thức xác định điểm rủi
Trang 35Ca sử dụng này cho phép cán bộ phân tích thực hiện tính điểm rủi
ro theo hàm hồi quy được phê duyệt ở bước trước
- Tính điểm rủi ro cho các mẫu
dữ liệu đầu vào
- Hiển thị điểm rủi ro trên màn hình
- Ghi điểm rủi ro đã được tính vào hệ thống
15 In danh
sách thanh tra
Cán bộ phân tích
Ca sử dụng này cho phép cán bộ phân tích thực hiện in danh sách điểm rủi ro của doanh nghiệp trả
về hệ thống PTR phục vụ công tác lập kế hoạch thanh tra
- Cho phép in theo ngưỡng rủi ro nhập vào
- Ghi danh sách ra tệp Excel
16 Hồi quy
tuyến tính
Cán bộ phân tích
Ca sử dụng này cho phép cán bộ phân tích thực hiện lựa chọn các biến thực hiện xây dựng, phân tích
và dự báo cho mô hình hồi quy tuyến tính
17 Hồi quy
logistic
Cán bộ phân tích
Đây là chức năng hỗ trợ Ca sử dụng này cho phép cán bộ phân tích thực hiện xây dựng mô hình hồi quy logistic trả lời câu hỏi doanh nghiệp có rủi ro hay không ?
Trang 363.2.3 Đặc tả ca sử dụng
1) Khối chức năng phân tích:
1 Ca sử dụng “Nạp dữ liệu”
Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích nạp tệp dữ liệu đầu vào
được kết xuất từ hệ thống PTR (tệp dữ liệu lịch sử về tình hình thu nộp thuế, sản xuất kinh doanh và kết quả thanh tra) Khuôn dạng tệp nạp vào dưới dạng Excel với định dạng *.csv
Điều kiện bắt đầu Use-case (Pre-Condition):
- Cán bộ phân tích vào chức năng “Phân tích / Nạp dữ liệu” trên ứng dụng
Điều kiện kết thúc Use-case (Post Condition):
- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích
Trình tự các sự kiện:
- Cán bộ phân tíchvào chức năng “Phân tích / Nạp dữ liệu”
- Hệ thống hiển thị giao diện chọn tệp dữ liệu đầu vào khuôn dạng CSV
- Cán bộ phân tích chọn tệp dữ liệu đầu vào khuôn dạng CSV
- Hệ thống hiển thị dữ liệu đầu vào
Hoàn cảnh sử dụng thành công cơ bản:
Hiển thị dữ liệu đầu vào thành công
Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:
Thông báo lỗi hệ thống
Hành động liên quan sẽ xảy ra khi Use-case kết thúc:
Cán bộ phân tích thực hiện chức năng xây dựng dữ liệu phân tích
Các yêu cầu phi chức năng: Không
2 Ca sử dụng “Xây dựng dữ liệu phân tích”
Tên Use-case: Xây dựng dữ liệu phân tích Mức độ BMT: B
Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích xây dựng bộ dữ liệu
phân tích từ dữ liệu đầu vào Chức năng này xây dựng mẫu dữ liệu (huẩn luyện, kiểm tra) từ dữ liệu đầu vào Các thuộc tính điều kiện lấy từ bảng tiêu chí phân tích rủi ro Giá trị các thuộc tính điều kiện được tính theo công thức tính điểm rủi ro trong bộ tiêu chí (bố mức 4, 3, 2, 1) Thuộc tính đầu ra là điểm rủi ro, giá trị từ 0
Trang 3733đến 100 được tính theo tỷ lệ số thuế truy thu / số thuế TNDN phải nộp (như đã mô
tả ở phần trên
Điều kiện bắt đầu Use-case (Pre-Condition):
- Cán bộ phân tích vào chức năng “Phân tích / Xây dựng dữ liệu phân tích” trên
ứng dụng
Điều kiện kết thúc Use-case (Post Condition):
- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích
Trình tự các sự kiện:
- Cán bộ phân tíchvào chức năng “Phân tích / Xây dựng dữ liệu phân tích”
- Hệ thống trích chọn các thuộc tính đầu vào từ tệp tiêu chí phân tích rủi ro
- Hệ thống tính giá trị điểm rủi ro cho các thuộc tính đầu vào theo công thức trong tệp tiêu chí rủi ro
- Hệ thống tính điểm rủi ro đầu ra dựa vào Số thuế truy thu / Số thuế thu nhập doanh nghiệp phải nộp
- Hệ thống hiển thị dữ liệu phân tích ra màn hình (mẫu có nhãn), bao gồm các đầu vào và điểm rủi ro
- Cán bộ phân tích ghi dữ liệu phân tích
- Hệ thống ghi dữ liệu phân tích vào cơ sở dữ liệu
Hoàn cảnh sử dụng thành công cơ bản:
Hiển thị dữ liệu phân tích thành công
Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:
Thông báo lỗi hệ thống hoặc chưa nạp tệp dữ liệu đầu vào
Hành động liên quan sẽ xảy ra khi Use-case kết thúc:
Cán bộ phân tích thực hiện chức năng rút gọn thuộc tính
Các yêu cầu phi chức năng: Không
3 Ca sử dụng “Rút gọn thuộc tính”
Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích thực hiện các thuật toán
rút gọn thuộc tính theo tiếp cận tập thô mờ được đề xuất
Điều kiện bắt đầu Use-case (Pre-Condition):
- Cán bộ phân tích vào chức năng “Phân tích / Rút gọn thuộc tính” trên ứng dụng
Điều kiện kết thúc Use-case (Post Condition):
- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích
Trang 38Trình tự các sự kiện:
- Cán bộ phân tíchvào chức năng “Phân tích / Rút gọn thuộc tính”
- Hệ thống thực hiện thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận tập thô mờ
- Hệ thống hiển thị tập thuộc tính rút gọn trên màn hình
- Hệ thống hiển thị dữ liệu tập thuộc tính rút gọn trên màn hình
- Cán bộ phân tích thực hiện ghi dữ liệu tập thuộc tính rút gọn làm đầu vào cho huấn luyện mô hình
- Hệ thống ghi dữ liệu tập thuộc tính rút gọn vào cơ sở dữ liệu
Hoàn cảnh sử dụng thành công cơ bản:
Hiển thị dữ liệu tập thuộc tính rút gọn thành công
Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:
Thông báo lỗi hệ thống hoặc chưa xây dựng tệp dữ liệu phân tích
Hành động liên quan sẽ xảy ra khi Use-case kết thúc:
Cán bộ phân tích thực hiện chức năng xây dựng dữ liệu học
Các yêu cầu phi chức năng: Không
4 Ca sử dụng “Xây dựng dữ liệu học”
Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích thực hiện trích chọn dữ
liệu huấn luyện (dữ liệu học) từ tệp dữ liệu mẫu đã được rút gọn thuộc tính
Điều kiện bắt đầu Use-case (Pre-Condition):
- Cán bộ phân tích vào chức năng “Phân tích / Xây dựng dữ liệu học” trên ứng
dụng
Điều kiện kết thúc Use-case (Post Condition):
- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích
Trình tự các sự kiện:
- Cán bộ phân tíchvào chức năng “Phân tích / Xây dựng dữ liệu học”
- Hệ thống hiển thị giao diện cho phép chọn tỷ lệ % kích thước tệp mẫu
- Cán bộ phân tích chọn phần trăm tỷ lệ dữ liệu mẫu làm dữ liệu học (ví dụ 30%)
- Hệ thống hiển thị dữ liệu học (dữ liệu huấn luyện) trên màn hình
- Cán bộ phân tích thực hiện ghi dữ liệu huấn luyện vào cơ sở dữ liệu để xây dựng
mô hình
- Cán bộ phân tích thực hiện kết xuất dữ liệu huấn luyện ra tệp Excel để sử dụng
Trang 39về sau
- Hệ thống ghi dữ liệu huấn luyện vào cơ sở dữ liệu để thực hiện bước tiếp theo
Hoàn cảnh sử dụng thành công cơ bản:
Hiển thị dữ liệu huấn luyện thành công
Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:
Thông báo lỗi hệ thống hoặc chưa xây dựng tệp dữ liệu mẫu
Hành động liên quan sẽ xảy ra khi Use-case kết thúc:
Cán bộ phân tích thực hiện chức năng xây dựng mô hình hồi quy tuyến tính từ dữ
liệu học
Các yêu cầu phi chức năng: Không
5 Ca sử dụng “Huấn luyện mô hình”
Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích thực hiện xây dựng mô
hình hồi quy tuyến tính từ dữ liệu huấn luyện bằng phương pháp k-fold (10-fold)
Điều kiện bắt đầu Use-case (Pre-Condition):
- Cán bộ phân tích vào chức năng “Phân tích / Huấn luyện mô hình” trên ứng dụng
Điều kiện kết thúc Use-case (Post Condition):
- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích
Trình tự các sự kiện:
- Cán bộ phân tíchvào chức năng “Phân tích / Huấn luyện mô hình”
- Hệ thống chia ngẫu nhiênmẫu thành 2 tập dữ liệu Một tệp gồm 80% dữ liệu
mẫu sử dụng để huấn luyện mô hình được gọi là DataTraining và tệp còn lại
20% sử dụng để kiểm tra độ chính xác mô hình huấn luyện được gọi là dữ liệu
kiểm tra (DataTesting)
- Hệ thống hiển thị dữ liệu huấn luyện ra màn hình
- Hệ thống hiển thị mô tả dữ liệu huấn luyện dưới dạng bảng và đồ thị
- Cán bộ phân tích chọn xây dựng mô hình học
- Hệ thống tính và hiển thị mô hình hồi quy tuyến tính, bao gồm hiển thị hàm hồi quy và các tham số
- Hệ thống kiểm tra độ chính xác mô hình trên tập dữ liệu kiểm tra
- Cán bộ phân tích thực hiện lại huấn luyện mô hình 10 lần
- Cán bộ phân tích chọn mô hình có độ chính xác cao nhất
- Cán bộ phân tích ghi dữ liệu mô hình hồi quy tuyến tính được chọn
Trang 40- Hệ thống ghi mô hình hồi quy vào cơ sở dữ liệu để thực hiện các bước tiếp theo
Hoàn cảnh sử dụng thành công cơ bản:
Hiển thị mô hình hồi quy và các tham số thành công
Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:
Thông báo lỗi hệ thống hoặc chưa xây dựng dữ liệu huấn luyện
Hành động liên quan sẽ xảy ra khi Use-case kết thúc:
Cán bộ phân tích thực hiện chức năng kiểm tra mô hình trên tập dữ liệu kiểm tra
Các yêu cầu phi chức năng: Không
6 Ca sử dụng “Kiểm tra mô hình”
Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích thực hiện kiểm tra mô
hình đã được xây dựng trên tập dữ liệu kiểm tra (data test)
Điều kiện bắt đầu Use-case (Pre-Condition):
- Cán bộ phân tích vào chức năng “Phân tích / Kiểm tra mô hình” trên ứng dụng
Điều kiện kết thúc Use-case (Post Condition):
- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích
Trình tự các sự kiện:
- Cán bộ phân tíchvào chức năng “Phân tích / Kiểm tra mô hình”
- Hệ thống tính độ chính xác của mô hình trên tập dữ liệu kiểm tra (tệp dữ liệu mẫu còn lại sau khi trích chọn tập dữ liệu huấn luyện
- Hệ thống hiển thị độ chính xác của mô hình trên màn hình dưới dạng đồ thị
- Cán bộ phân tích thực hiện quy trình xây dựng lại mô hình nếu độ chính xác chưa đạt ngưỡng trên 90%
Hoàn cảnh sử dụng thành công cơ bản:
Hiển thị độ chính xác của mô hình trên tập dữ liệu kiểm tra thành công
Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:
Thông báo lỗi hệ thống hoặc chưa xây dựng mô hình hồi quy
Hành động liên quan sẽ xảy ra khi Use-case kết thúc:
Cán bộ phân tích thực hiện chức năng phê duyệt mô hình
Các yêu cầu phi chức năng: Không
7 Ca sử dụng “Phê duyệt mô hình”