1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp phân tích dữ liệu ứng dụng trong phân tích thu và nộp thuế của doanh nghiệp phục vụ thanh tra

80 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 1,74 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Do đó, việc xây dựng hệ thống phân tích dữ liệu tính điểm rủi ro cho doanh nghiệp, trong đó các tiêu chí và trọng số các tiêu chí được học tự động từ dữ liệu, nhằm nâng cao độ chính xác

Trang 1

i

MỤC LỤC

MỤC LỤC i

DANH MỤC CÁC BẢNG iii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ iv

MỞ ĐẦU 1

Chương 1 GIỚI THIỆU BÀI TOÁN PHÂN TÍCH DỮ LIỆU NHẰM TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ THANH TRA 2

1.1.Mở đầu 2

1.2.Quy trình hệ thống tính điểm rủi ro của doanh nghiệp (TPR) 2

1.2.1 Kiến trúc ứng dụng TPR 2

1.2.2 Quy trình tính điểm rủi ro của hệ thống TPR 3

1.2.3 Hạn chế của hệ thống TPR 8

1.3.Bài toán phân tích dữ liệu nhằm tính điểm rủi ro của doanh nghiệp 9

1.3.1 Phát biểu bài toán 9

1.3.2 Mô tả đầu vào và đầu ra của hệ thống 9

Chương 2 QUY TRÌNH GIẢI QUYẾT BÀI TOÁN 14

2.1.Quy trình giải quyết bài toán 14

2.1.1 Quy trình tổng thể 14

2.1.2 Quy trình chi tiết 14

2.2.Thu thập và tiền xử lý dữ liệu 17

2.2.1 Xây dựng dữ liệu huấn luyện, dữ liệu kiểm tra 18

2.2.2 Rút gọn thuộc tính 22

2.3.Xây dựng, kiểm tra mô hình hồi quy 22

2.3.1 Xây dựng mô hình hồi quy tuyến tính đa biến 23

2.3.2 Kiểm tra mô hình hồi quy tuyến tính đa biến 24

Chương 3 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 26

3.1.Mô hình chức năng của hệ thống 26

3.2.Danh sách các tác nhân, ca sửu dụng, đặc tả ca sử dụng 27

3.2.1 Danh sách các tác nhân của hệ thống 27

3.2.2 Danh sách các ca sử dụng của hệ thống 27

Trang 2

ii

3.2.3 Đặc tả ca sử dụng 32

3.3.Biểu đồ ca sử dụng (use case) 41

3.3.1 Biểu đồ use case khối chức năng hệ thống 41

3.3.2 Biểu đồ use case khối chức năng phân tích 42

3.3.3 Biểu đồ use case khối chức năng thực hiện mô hình phân tích 43

3.4.Biểu đồ hoạt động 44

3.4.1 Biểu đồ hoạt động xử lý dữ liệu 44

3.4.2 Biểu đồ hoạt động huấn luyện mô hình 45

3.4.3 Biểu đồ hoạt động thực hiện mô hình 46

3.5.Thiết kế chi tiết hệ thống PTRR 47

3.5.1 Danh mục chỉ tiêu phân tích 47

3.5.2 Nạp dữ liệu 48

3.5.3 Xây dựng dữ liệu phân tích 52

3.5.4 Rút gọn thuộc tính 56

3.5.5 Xây dựng dữ liệu học 58

3.5.6 Huấn luyện mô hình học 60

3.5.7 Kiểm tra mô hình học 65

3.5.8 Phê duyệt mô hình học 67

3.5.9 Nạp dữ liệu dự báo 68

3.5.10 Xây dựng dữ liệu tính điểm rủi ro 69

3.5.11 Tính điểm rủi ro 71

3.5.12 In danh sách thanh tra 72

TÀI LIỆU THAM KHẢO 76

Trang 3

iii

DANH MỤC CÁC BẢNG

Bảng 1.1.Cấu trúc tệp dữ liệu đầu vào kết xuất từ hệ thống TPR 9

Bảng 1.2.Bộ tiêu chí phân tích rủi ro 12

Bảng 2.1.Ví dụ minh họa về dữ liệu đầu vào kết xuất từ hệ thống PTR (DataSource_PTR.XLS) 17

Bảng 2.2.Cấu trúc dữ liệu DATA_PTRR.xls 18

Bảng 2.3.Công thức tính giá trị phân loại doanh nghiệp 20

Bảng 2.4.Ví dụ về bộ dữ liệu huấn luyện, kiểm tra 22

Trang 4

iv

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 Kiến trúc ứng dụng TPR 3

Hình 1.2 Quy trình hệ thống TPR 4

Hình 1.3 Quy trình xây dựng và thử nghiệm bộ tiêu chí 5

Hình 1.4 Quy trình tính điểm rủi ro 7

Hình 1.5 Quy trình lập kế hoạch thanh tra thuế 8

Hình 2.1 Quy trình tổng thể giải quyết bài toán 14

Hình 2.2 Quy trình chi tiết giải quyết bài toán 16

Hình 2.3 Quy trình xây dựng, kiểm tra mô hình hồi quy 23

Hình 2.4 Phương pháp k-fold Cross validation 25

Hình 3.1 Sơ đồ chức năng của hệ thống PTRR 27

Hình 3.2 Biểu đồ Usecase khối chức năng hệ thống 41

Hình 3.3 Biểu đồ Usecase khối chức năng phân tích 42

Hình 3.4 Biểu đồ Usecase khối chức năng thực hiện mô hình phân tích 43

Hình 3.5 Biểu đồ hoạt động xử lý dữ liệu 44

Hình 3.6 Biểu đồ hoạt động huấn luyện mô hình 45

Hình 3.7 Biểu đồ hoạt động thực hiện mô hình 46

Trang 5

MỞ ĐẦU

Báo cáo phân tích, thiết kế hệ thống trình bày nội dung phân tích, thiết kế hệ thống phần mềm phân tích dữ liệu thu và nộp thuế nhằm tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế bằng phương pháp phân tích thiết kế UML Báo cáo này bao gồm các nội dung sau:

- Trình bày tổng quan về quy trình phân tích rủi ro của hệ thống phần mềm quản lý rủi ro đang triển khai tại Cục thuế (PTR) và quy trình xây dựng

hệ thống mới phân tích dữ liệu thu nộp thuế nhằm tính điểm rủi ro cho danh nghiệp (PTRR) Hệ thống mới nhận dữ liệu đầu vào từ hệ thống PTR, thực hiện phân tích và tính điểm rủi ro độc lập và trả về điểm rủi ro cho hệ thống PTR phục vụ quản lý rủi ro và lập kế hoạch thanh tra thuế

- Trình bày nội dung phân tích thiết kế các chức năng, dữ liệu của hệ thống phân tích rủi ro (PTRR) bằng phương pháp phân tích thiết kế UML Báo cáo phân tích thiết kế này là cơ sở để lập trình xây dựng các chức năng của phần mềm phân tích dữ liệu thu nộp thuế nhằm tính điểm rủi ro cho danh nghiệp (PTRR)

Trang 6

Cùng với công cuộc cải cách và hiện đại hoá Ngành thuế, Tổng cục thuế đã xây dựng các cơ sở dữ liệu tập trung toàn ngành thuế, bao gồm các cơ sở dữ liệu về tình hình thu nộp thuế, cơ sở dữ liệu về báo cáo tài chính doanh nghiệp, cơ sở dữ liệu về kết quả thanh tra thuế…Nhằm hỗ trợ công tác thanh tra thuế, Tổng cục thuế

đã xây dựng hệ thống phần mềm tính điểm rủi ro của các doanh nghiệp phục vụ công tác thanh tra thuế (TPR) (thanh tra dựa trên rủi ro) Tuy nhiên, các tiêu chí và trọng số của các tiêu chí được đưa vào để tính điểm rủi ro hoàn toàn do cán bộ thanh tra lựa chọn dựa vào kinh nghiệm và phương pháp thử sai, không được học tự động từ dữ liệu Do đó, độ chính xác về điểm rủi ro của các doanh nghiệp chưa cao

Do đó, việc xây dựng hệ thống phân tích dữ liệu tính điểm rủi ro cho doanh nghiệp, trong đó các tiêu chí và trọng số các tiêu chí được học tự động từ dữ liệu, nhằm nâng cao độ chính xác của mô hình tính điểm rủi ro cho doanh nghiệp là nhu cầu cấp thiết và là bài toán thực tiễn đặt ra cho đề tài

Chương này giới thiệu tổng quan về hệ thống tính điểm rủi ro cho doanh nghiệp của Tổng cục thuế (TPR), phân tích các vấn đề còn tồn tại của hệ thống TPR, trên cơ sở đó phát biểu bài toán và trình bày quy trình và phương pháp giải quyết bài toán

1.2 Quy trình hệ thống tính điểm rủi ro của doanh nghiệp (TPR)

1.2.1 Kiến trúc ứng dụng TPR

Hệ thống TPR được xây dựng tập trung tại Tổng cục thuế, đối tượng khai thác

là Tổng cục thuế và các Cục thuế trên cả nước Hình 1.1 mô tả kiến trúc ứng dụng của hệ thống TPR

Trang 7

Cán bộ thanh tra thuế các cấp

CSDL tập trung

TTR-TC TPH (QTN,QLT,TIN)

Phân tích rủi ro

CSDL tập trung

Dữ liệu khác

…………

Hình 1.1 Kiến trúc ứng dụng TPR

1.2.2 Quy trình tính điểm rủi ro của hệ thống TPR

Quy trình tính điểm rủi ro của hệ thống TPR đang vận hành tại Tổng cục thuế được mô tả ở Hình 1.2.Chi tiết tham khảo thêm tài liệu [2] về quy trình phân tích thông tin rủi ro doanh nghiệp phục vụ công tác lập kế hoạch thanh tra, kiểm tra thuế Ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 1 tháng10 năm 2013 của Tổng cục trưởng Tổng cục Thuế

Trang 8

Quy trình hệ thống quản lý rủi ro TPR của Tổng cục thuế

Phòng Thanh tra tổng hợp Bộ phận thanh tra kiểm tra Phòng Thanh tra tổng hợp

Thu thập và tiền xử lý

dữ liệu

Rà soát dữ liệu nhập

Rà soát dữ liệu tăng giảm đột biến

Rà soát giá trị bất thường

Rà soát hiệu quả sản xuất

Dữ liệulịch

sử thu nộp thuế và kết quả thanh tra

Xây dựng và thử nghiệm

Tính điểm rủi ro cho từng tiêu chí

TÍnh điểm rủi ro

Lập kế hoạch thanh tra

In hồ sơ rủi ro cho DN

Chọn ngưỡng rủi ro cần thanh tra

Lập danh sách DN cần thanh tra

Đánh giá rủi ro

Dữ liệu doanh nghiệp cần tính điểm rủi ro

Bộ tiêu chí phân tích rủi ro (21 tiêu chí theo

QĐ 1733/

QĐ-TCT)

Bộ tiêu chí được chọn để tính điểm rủi ro

Điểm rủi

ro của doanh nghiệp

- Các chức năng thu thập, tiền xử lý dữ liệu:

Các chức năng thu thập, tiền xử lý dữ liệu cho phép người sử dụng cập nhật, chuẩn hóa và chính xác hóa dữ liệu trước khi đưa vào phân tích, bao gồm: Rà soát, cập nhật dữ liệu thu nộp thuế và kết quả thanh tra được tổng hợp từ dữ liệu tác nghiệp; Rà soát, cập nhật dữ liệu bất thường, tăng giảm đột biến; Rà soát hiệu quả sản xuất kinh doanh tổng hợp từ báo cáo tài chính cấp Tổng cục Ngoài ra, các chức

Trang 9

5năng cho phép cập nhật bổ sung thông tin từ các dữ liệu thu thập từ bên ngoài như Hải quan, Kho bạc, Chứng khoán, Cục quản lý giá, từ các Bộ ngành, hiệp hội kinh doanh…

- Kết quả của thu thập, tiền xử lý dữ liệu:

Kết quả của thu thập và tiền xử lý dữ liệu là tệp dữ liệu lịch sử về tình hình thu nộp thuế và kết quả thanh tra của các doanh nghiệp trên cả nước từ năm 2007 (chi tiết được mô tả ở Chương 2) Các trường dữ liệu của tệp dữ liệu này được xây dưng dựa trên bộ chỉ tiêu phân tích rủi ro được ban hành theo Quyết định số 1733/QĐ-TCT ngày 1 tháng10 năm 2013 của Tổng cục trưởng Tổng cục Thuế, chi tiết tệp chỉ tiêu được mô tả ở Phụ lục 1 Tệp dữ liệu này là đầu vào cho khối chức năng tiếp theo là xây dựng và thử nghiệm bộ tiêu chí Đồng thời, tệp dữ liệu này có thể kết xuất ra tệp Excel làm đầu vào cho hệ thống phân tích rủi ro được mô tả ở phần sau

1.2.2.2 Xây dựng và thử nghiệm bộ tiêu chí

Quy trình xây dựng và thử nghiệm bộ tiêu chí được mô tả ở Hình 1.3

Quy trình xây dựng và thử nghiệm bộ tiêu chí

cho bộ tiêu chí

Thiết lập bộ tiêu chí đánh giá rủi ro

Chính xác?

Thử nghiệm bộ tiêu chí

Hình 1.3 Quy trình xây dựng và thử nghiệm bộ tiêu chí

- Thiết lập bộ tiêu chí:

Trang 10

Cán bộ thanh tra, kiểm tra thuế lựa chọn các tiêu chí theo kinh nghiệm để đưa vào tính điểm rủi ro, bao gồm các tiêu chí tĩnh và các tiêu chí động Các tiêu chí tĩnh được chọn trong bộ tiêu chí phân tích thông tin rủi ro doanh nghiệp phục vụ công tác lập kế hoạch thanh tra, kiểm tra thuế ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 01 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế (Phụ lục 1) Các tiêu chí động do Vụ Thanh tra Tổng cục Thuế, Cục Thuế tự xây dựng phù hợp với tình hình địa phương Việc lựa chọn được tiến hành hàng năm

- Thử nghiệm bộ tiêu chí:

Sau khi lựa chọn được bộ tiêu chí (mỗi tiêu chí có công thức để tính điểm cho từng tiêu chí, bao gồm bốn mức điểm là 4, 3, 2, 1 tương ứng với rủi ro cao, rủi ro trung bình, rủi ro thấp và rủi ro rất thấp), cán bộ thanh tra thuế gán trọng số cho từng tiêu chí dựa vào kinh nghiệm theo phương pháp như sau:

 Xác định những tiêu chí quan trọng, có ảnh hưởng lớn đến rủi ro để gán trọng số cao Các tiêu chí có mức độ ảnh hưởng không lớn đến rủi ro về thuế

với i là trọng số của tiêu chí i, TC i là điểm rủi ro của tiêu chí i

 Điểm rủi ro của doanh nghiêp được chia thành 04 mức: rủi ro cao, rủi ro vừa, rủi ro thấp, rủi ro rất thấp Cán bộ thanh tra so sánh điểm rủi ro của doanh nghiệp so với kết quả thanh tra Nếu kết quả thanh tra không khớp với điểm rủi ro, ví dụ: doanh nghiệp có điểm rủi ro cao lại không vi phạm…, thì thực hiện điều chỉnh lại trọng số của tiêu chí, hoặc thay đổi các tiêu chí được chọn Quá trình trên cứ tiếp tục cho đến khi điểm rủi ro được tính phù hợp với kết quả thanh tra, khi đó việc thử nghiệm kết thúc và lựa chọn bộ tiêu chí

và trọng số đưa vào làm bộ tiêu chí đánh giá chính thức trình Lãnh đạo đơn

vị phê duyệt

1.2.2.3 Tính điểm rủi ro

Trang 11

7Quy trình tính điểm rủi ro được mô tả ở Hình 1.4 Xuất phát từ dữ liệu thu nộp thuế của doanh nghiệp cần tính rủi ro, dựa vào bộ tiêu chí tính điểm rủi ro và trọng

số cho từng tiêu chí đã được phê duyệt, hệ thống tính điểm rủi ro của từng doanh nghiệp Điểm rủi ro là dữ liệu đầu vào để lập kế hoạch thanh tra thuế

Tính giá trị tiêu chí 1

Phân ngưỡng tiêu chí 1

Cho điểm tiêu chí 1

Đánh trọng số tiêu chí 1

Tính giá trị tiêu chí 2

Phân ngưỡng tiêu chí 2

Cho điểm tiêu chí 2

Đánh trọng số tiêu chí 2

Tính giá trị tiêu chí n

Phân ngưỡng tiêu chí n

Cho điểm tiêu chí n

Đánh trọng số tiêu chí n

CSDL thông tin NNT

Tổng điểm của tất cả các tiêu chí

Lựa chọn NNT có rủi

ro cao

Bước I

Bước II

Hình 1.4 Quy trình tính điểm rủi ro

1.2.2.4 Lập kế hoạch thanh tra thuế

Sau khi đã hoàn thành việc tính điểm rủi ro, các đơn vị tiếp tục sử dụng kết quả điểm rủi ro để lựa chọn doanh nghiệp vào kế hoạch kiểm tra theo nguyên tắc lựa chọn tiếp các doanh nghiệp có điểm rủi ro cao vào danh sách thanh tra

Quy trình lập kế hoạch thanh tra được mô tả như Hình 1.5

Trang 12

Kế hoạch điều chỉnh

Lập kế hoạch

Kế hoạch năm

Kết quả phân tích rủi ro

đã được phê duyệt

Lựa chọn những DN có mức độ rủi ro cao nhất

Danh sách kê khai

trước chuyển sang

DN có thông tin thu

và kết quả thanh tra, kiểm tra thuế Vì việc lựa chọn này theo kinh nghiệm nên không bảo đảm được độ chính xác về điểm rủi ro được tính (có thể doanh nghiệp điểm rủi ro thấp lại vi phạm nhiều)

2) Trọng số của các tiêu chí phân tích rủi ro được gán hoàn toàn dựa vào kinh nghiệm của cán bộ thanh tra và thay đổi theo năm, chưa được học

tự động từ dữ liệu lịch sử về thu nộp thuế và kết quả thanh tra, kiểm tra

Do đó, cũng không bảo đảm độ chính xác về điểm rủi ro được tính 3) Việc thử nghiệm bộ tiêu chí để lựa chọn bộ tiêu chí và trọng số được tiến hành theo phương pháp thử, sai (nếu đúng thì giữ nguyên, nếu sai thì thay đổi lại trọng số và tiêu chí) là không khoa học và không bao quát được quy luật vốn có của dữ liệu Hơn nữa, việc thử sai được tiến hành

Trang 13

9hàng năm sẽ mất nhiều thời gian, công sức của cán bộ nghiệp vụ thanh tra và không ổn định qua các năm

Nhằm mục tiêu nâng cao độ chính xác của mô hình tính điểm rủi ro của doanh nghiệp để lựa chọn đúng các doanh nghiệp đưa vào thanh tra, góp phần nâng cao hiệu quả công tác thanh tra, kiểm tra thuế, mục tiêu của đề tài là xây dựng mô hình hồi quy tuyến tính đa biến nhằm tính điểm rủi ro của doanh nghiệp, trong đó các tiêu chí (biến đầu vào) và trọng số của các tiêu chí được học tự động từ dữ liệu lịch

sử (dữ liệu huấn luyện, dữ liệu kiểm tra)

1.3 Bài toán phân tích dữ liệu nhằm tính điểm rủi ro của doanh nghiệp

1.3.1 Phát biểu bài toán

Xây dựng mô hình hồi quy tuyến tính đa biến tính điểm rủi ro của doanh nghiệp phục vụ công tác lập kế hoạch thanh tra thuế với mục tiêu độ chính xác của

mô hình đạt trên 80% trên tập dữ liệu kiểm tra Đầu vào của hệ thống là tệp dữ liệu lịch sử về tình hình thu nộp thuế, kết quả thanh tra được kết xuất từ hệ thống PTR, tệp bảng chỉ tiêu do Tổng cục thuế ban hành, đầu ra là điểm rủi ro của doanh nghiệp, bao gồm các bước:

1) Xây dựng tập dữ liệu huấn luyện và tập dữ liệu kiểm tra từ tệp dữ liệu kết xuất từ PTR

2) Rút gọn thuộc tính bằng phương pháp sử dụng tập thô mờ

3) Xây dựng mô hình hồi quy tuyến tính trên tập dữ liệu huấn luyện

4) Kiểm tra mô hình trên tập dữ liệu kiểm tra

5) Thực thi mô hình tính điểm rủi ro của doanh nghiệp đưa vào hệ thống PTR

1.3.2 Mô tả đầu vào và đầu ra của hệ thống

1) Đầu vào:

- Tệp dữ liệu lịch sử về tình hình thu nộp thuế của các doanh nghiệp được kết xuất từ hệ thống PTR dưới dạng tệp Excel Cấu trúc tệp Excel như ở Bảng 1.1

Bảng 1.1.Cấu trúc tệp dữ liệu đầu vào kết xuất từ hệ thống TPR

STT Tên trường Kiểu dữ liệu Ghi chú

Trang 14

7 NganhTB Nvarchar(10) Mã công thức tính trung bình

ngành

8 TenLHKT Nchar(100) Tên loại hình kinh tế

11 Doanh thu Numeric(20,2) Doanh thu

12 ThueTNDNPN Numeric(20,2) Số thuế TNDN phải nộp

13 SoTKNC Numeric(2,0) Chậm nộp hồ sơ khai thuế so

với thời hạn quy định

14 LoaiDN Numeric(2,0) Phân loại doanh nghiệp theo

loại hình kinh tế

15 TLTNDN Numeric(5,2) So sánh biến động của tỷ lệ

(Thuế TNDN phát sinh/ Doanh thu giữa) các năm

16 TLGTGTPS Numeric(5,2) So sánh biến động của tỷ lệ

(Thuế GTGT phát sinh/ Doanh thu hàng hoá dịch vụ bán ra) giữa các năm

17 TLHDKD Numeric(5,2) Tỷ lệ (Lợi nhuận từ hoạt động

kinh doanh/ Doanh thu thuần)

18 TLLNTT Numeric(5,2) Tỷ lệ ((Lợi nhuận trước thuế +

Chi phí lãi vay)/ Doanh thu thuần)

19 TLLNST Numeric(5,2) Tỷ lệ ((Lợi nhuận sau thuế/

Doanh thu thuần)

20 TLLNKT Numeric(5,2) Tỷ lệ (Lợi nhuận kế toán trước

thuế/ Vốn chủ sở hữu)

21 TLGVBH Numeric(5,2) Tỷ lệ (Giá vốn hàng bán/

Doanh thu thuần)

22 TLCPBH Numeric(5,2) Tỷ lệ (Chi phí bán hàng/ Doanh

thu thuần)

23 TLCPQL Numeric(5,2) Tỷ lệ (Chi phí quản lý/ Doanh

thu thuần)

24 TLDuPhong Numeric(5,2) Tỷ lệ Tổng dự phòng so với

tổng chi phí sản xuất kinh doanh

25 TLDTGTGT Numeric(5,2) Tỷ lệ Doanh thu thuần về bán

hàng và cung cấp dịch vụ so với vốn chủ sở hữu

Trang 15

26 TLDTKhac Numeric(5,2) Tỷ lệ Tổng doanh thu GTGT

hàng hoá dịch vụ bán ra so với Tổng doanh thu thuần bán hàng hóa và cung cấp dịch vụ và Thu nhập khác

27 TLHangTon Numeric(5,2) Tỷ lệ hàng tồn kho so với

doanh thu thuần

28 HSKNTT Numeric(5,2) Hệ số khả năng thanh toán tổng

31 KyTT Numeric(2,0) Kỳ đã được thanh tra gần nhất

32 ThueTThu Numeric(20,2) Số thuế truy thu tuyệt đối của

kỳ thanh tra gần nhất

33 VonSH Numeric(20,2) Vốn chủ sở hữu nhỏ hơn 20 tỷ

đồng thời kinh doanh đa ngành nghề

36 TTTruoc Numeric(20,2) Người mua thanh tón trước

37 GTDT Numeric(20,2) Các khoản giảm trừ doanh thu

39 CPLon Numeric(20,2) Chi phí phải trả lớn

40 LayVayNVH Numeric(20,2) Lãy vai chưa vốn hóa

41 HTKho Numeric(20,2) Hàng tồn kho cuối kỳ

42 DHCG Numeric(20,2) Giấu hiệu chuyên gia

43 DNCMG Numeric(20,2) Số thuế miễn giảm

44 VATA_H Numeric(20,2) Có thuế VAT âm nhưng không

hoàn

45 TK331 Numeric(20,2) Số dư tài khoản 331

46 DTNHVon Numeric(20,2) Doanh thu nhỏ hơn vốn

47 HDBH_Use Numeric(5,2) Sử dụng hóa đơn bán hàng

nhiều

Trang 16

- Bộ tiêu chí cứng phân tích thông tin rủi ro doanh nghiệp phục vụ công tác

lập kế hoạch thanh tra, kiểm tra thuế với công thức tính điểm rủi ro ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 01 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế

Bảng 1.2.Bộ tiêu chí phân tích rủi ro

I Nhóm I: Đánh giá về tuân thủ khai thuế, tính thuế

Tiêu chí 1: Chậm nộp hồ sơ khai thuế so với thời hạn quy định (bao gồm tháng, quý, năm)

II Nhóm II: Phân loại doanh nghiệp theo loại hình kinh tế

Tiêu chí 2: Phân loại doanh nghiệp theo loại hình kinh tế

III Nhóm III: Đánh giá sự biến động về kê khai giữa các năm

Tiêu chí 3: So sánh biến động của tỷ lệ “Thuế TNDN phát sinh/ doanh thu” giữa các năm

Tiêu chí 4: So sánh biến động của tỷ lệ “Thuế GTGT phát sinh/ doanh thu hàng hoá dịch vụ bán ra” giữa các năm

IV Nhóm IV: Đánh giá về tình hình tài chính

Tiêu chí 5: Tỷ lệ lợi nhuận từ hoạt động kinh doanh/ doanh thu thuần

Tiêu chí 6: Tỷ lệ (lợi nhuận trước thuế + chi phí lãi vay)/ doanh thu thuần Tiêu chí 7: Tỷ lệ lợi nhuận sau thuế/ doanh thu thuần

Tiêu chí 8: Tỷ lệ lợi nhuận/ vốn chủ sở hữu

Tiêu chí 9: Tỷ lệ giá vốn hàng bán/ doanh thu thuần

Tiêu chí 10: Tỷ lệ chi phí bán hàng/ doanh thu thuần

Tiêu chí 11: Tỷ lệ chi phí quản lý/ doanh thu thuần

Tiêu chí 12: Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất kinh doanh Tiêu chí 13: Tỷ lệ Doanh thu thuần về bán hàng và cung cấp dịch vụ so với vốn chủ sở hữu

Tiêu chí 14: Tỷ lệ Tổng doanh thu GTGT hàng hoá dịch vụ bán ra so với Tổng doanh thu thuần bán hàng hóa và cung cấp dịch vụ và Thu nhập khác

Tiêu chí 15: Tỷ lệ hàng tồn kho so với doanh thu thuần

Tiêu chí 16: Hệ số khả năng thanh toán tổng quát

Tiêu chí 17: Hệ số khả năng thanh toán nợ ngắn hạn

Tiêu chí 18: Hệ số khả năng thanh toán nhanh

Trang 17

V Nhóm V: Lịch sử thanh tra của doanh nghiệp

Tiêu chí 19: Kỳ đã được thanh tra, kiểm tra gần nhất

Tiêu chí 20: Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra gần nhất

VI Nhóm VI Các tiêu chí về nhân thân doanh nghiệp

Tiêu chí 21: Vốn chủ sở hữu nhỏ hơn 20 tỷ đồng thời kinh doanh đa ngành nghề

- Ngoài các tiêu chí cứng theo thông tư của TCT, cục thuế Hà Nội bổ sung

thêm 14 tiêu chí mở rộng mang đặc thù riêng của Cục thuế Hà Nội Như vậy, tổng

số có 35 tiêu chí phân tích rủi ro

2) Đầu ra:

- Điểm rủi ro của doanh nghiệp Điểm rủi ro có giá trị từ 0 đến 100

Trang 18

Hình 2.1 Quy trình tổng thể giải quyết bài toán

2.1.2 Quy trình chi tiết

Hình 2.1 trình bày quy trình chi tiết giải quyết bài toán xây dựng mô hình hồi quy nhằm tính điểm rủi ro của doanh nghiệp phục vụ lập kế hoạch thanh tra thuế.Đầu vào của hệ thống là tệp liệu lịch sử về tình hình thu nộp thuế của các doanh nghiệp được kết xuất từ hệ thống PTR dưới dạng tệp Excel và tệp bảng chỉ tiêu phân tích rủi ro và công thức tính điểm rủi ro cho từng chỉ tiêu (bốn mức điểm

là 4, 3, 2, 1)

1) Bước 1: Thu thập và tiền xử lý dữ liệu:

- Xây dựng tệp dữ liệu huấn luyện và dữ liệu kiểm tra (mẫu có nhãn) từ tệp

dữ liệu lịch sử về tình hình thu nộp thuế của các doanh nghiệp Các thuộc tính đầu vào tưng ứng với các chỉ tiêu phân tích rủi ro Giá trị của các thuộc tính là giá trị điểm rủi ro được tính theo công thức Đầu ra là điểm

Thu thập và tiền

xử lý dữ liệu

• Xây dựng dữ

liệu huấn luyện,

dữ liệu kiểm tra

• Rút gọn thuộc

tính

Xây dựng và kiểm tra mô hình

• Xây dựng mô hình hồi quy tuyến tính đa biến

• Kiểm tra mô hình

Thực thi mô hình tính điểm rủi ro

• Xây dựng dữ liệu đầu vào cho

mô hình

• Tính điểm rủi ro của doanh nghiệp

Trang 19

rủi ro Điểm rủi ro được tính = (ThueTThu/ThueTNDNPN)*100 Trong

đó, trường số thuế truy thu (ThueTThu) là trường số 32 của Bảng 1.1 (cấu trúc tệp dữ liệu đầu vào),trường thuế thu nhập doanh nghiệp phải nộp (ThueTNDNPN) là trường số 12 của Bảng 1.1 (cấu trúc tệp dữ liệu đầu vào) Điểm rủi ro nhận giá trị từ 0 đến 100 Nếu Điểm rủi ro lớn hơn 100

sẽ được gán bằng 100

- Rút gọn thuộc tính: Sử dụng phương pháp rút gọn thuộc tính trực tiếp trên

dữ liệu gốc theo tiếp cận tập thô mờ để thực hiện rút gọn thuộc tính đầu vào, phục vụ xây dựng mô hình hồi quy đa biến

2) Bước 2: Xây dựng và kiểm tra mô hình hồi quy

- Tập dữ liệu sau khi rút gọn thuộc tính được sử dụng để xây dựng mô hình

và kiểm tra mô hình hồi quy

- Tập dữ liệu được chia thành 02 phần: Dữ liệu huấn luyện (training data) và

dữ liệu kiểm tra (test data)

- Tập dữ liệu huấn luyện được sử dụng để xây dựng mô hình hồi quy đa biến

- Tập dữ liệu kiểm tra được sử dụng để kiểm tra mô hình hồi quy đa biến

- Nếu độ chính xác của mô hình chưa đạt ngưỡng 80% thì tiếp tục huấn luyện mô hình bằng cách bổ sung thêm tập dữ liệu huấn luyện từ tập dữ liệu kiểm tra Quá trình trên kết thúc khi độ chính xác của mô hình đạt trên 80%

3) Bước 3: Thực thi mô hình hồi quy tính điểm rủi ro

- Từ tệp dữ liệu doanh nghiệp cần tính điểm rủi ro (được kết xuất từ hệ thống PTR) chưa có kết quả thanh tra và bộ tiêu chí rút gọn (sau khi rút gọn thuộc tính ở bước 2), hệ thống thực hiện xây dựng tệp dữ liệu đầu vào

cho mô hình (mẫu không có nhãn, chỉ có đầu vào, không có đầu ra)

- Đưa dữ liệu đầu vào mô hình hồi quy tuyến tính, mô hình hồi quy tuyến tính tính ra điểm rủi ro của doanh nghiệp (đầu ra) Điểm rủi ro của doanh

nghiệp trả về hệ thống PTR phục vụ việc lập kế hoạch thanh tra thuế

Trang 20

Hệ thống quản lý rủi ro PTR

Phòng Thanh tra tổng hợp Bộ phận thanh tra kiểm tra Phòng Thanh tra tổng hợp

Thu thập và tiền xử lý

dữ liệu

Rà soát dữ liệu nhập

Rà soát dữ liệu tăng giảm đột biến

Rà soát giá trị bất thường

Rà soát hiệu quả sản xuất

Xây dựng và thử nghiệm

Tính điểm rủi ro cho từng tiêu chí

TÍnh điểm rủi ro Điểm rủi ro

của doanh nghiệp

Lập kế hoạch thanh tra

In hồ sơ rủi ro cho DN

Chọn ngưỡng rủi ro cần thanh tra Lập danh sách DN cần thanh tra

Đánh giá rủi ro

Dữ liệu doanh nghiệp cần tính điểm rủi ro

Dữ liệu lịch

sử thu nộp thuế và kết quả thanh tra

dữ liệu

Xây dựng dữ liệu học, kiểm tra

Rút gọn thuộc tính

Bộ tiêu chí được chọn

để tính điểm rủi ro

Dữ liệu học

Dữ liệu kiểm tra

Bộ tiêu chí rút gọn

mô hình

Mô hình hồi quy

Thực thi mô hình tính điểm rủi ro

Xây dựng dữ liệu đầu vào cho mô hình

Dữ liệu đầu vào cho mô hình Tính điểm rủi ro Điểm rủi ro của doanh nghiệp

Hình 2.2 Quy trình chi tiết giải quyết bài toán

Trang 21

2.2 Thu thập và tiền xử lý dữ liệu

Như đã trình bày ở mục 1.3.2, dữ liệu đầu vào của hệ thống bao gồm:

- Dữ liệu lịch sử về tình hình thu nộp thuế của các doanh nghiệp được kết xuất từ hệ thống PTR dưới dạng tệp Excel (DataSource_PTR.XLS), cấu trúc tệp dữ liệu đầu vào được mô tả ở Bảng 1.1 Bảng 2.1 là một ví dụ về tệp dữ liệu:

Bảng 2.1.Ví dụ minh họa về dữ liệu đầu vào kết xuất từ hệ thống

PTR(DataSource_PTR.XLS)

STT Mã số thuế

(MST)

Tên doanh nghiệp (TenNNT)

Trạng thái hoạt động (TT)

Ngành nghề kinh doanh (NGANH2)

Loại hình kinh tế (LOAND N)

Doanh thu (DOANH THU)

1 0105402531 Tổng công ty

bảo hiểm PVI

Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)

Bảo hiểm phi nhân thọ Cổ phần

1.534.418.

789.486

2 0105427367

Công ty cổ phần liên doanh bảo trì thang máy Coninco - Sec Việt Nhật

Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)

Hoạt động xây dựng chuyên dụng khác

Doanh nghiệp liên doanh với nước ngoài

2.500.000

3 0102671977

Công Ty Cổ Phần Phát Triển Đô Thị Nam Hà Nội

Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)

Hoạt động xây dựng chuyên dụng

4 0100106338

Tổng Công Ty Xây Dựng Hà Nội - Công Ty TNHH Một Thành Viên

Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)

Xây dựng nhà các loại

Trách nhiệm hữu hạn

1.741.750.

271.465

5 0101073692

Công Ty Cổ Phần Đầu Tư Xây Dựng Và Phát Triển Hạ Tầng

Vinaconex

Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)

Hoạt động xây dựng chuyên dụng

Cổ phần 109.670.87

4.974

6 0100105574

Công Ty Cổ Phần Đầu Tư

Và Xây Dựng

Doanh nghiệp đang hoạt động (đã được

Hoạt động xây dựng chuyên dụng

Cổ phần 1.071.415.

854.209

Trang 22

Doanh nghiệp đang hoạt động (đã được cấp GCN ĐKT)

Bảo hiểm phi nhân thọ khác Cổ phần

812.574.15 7.273

- Bộ tiêu chí cứng (21 chỉ tiêu) phân tích thông tin rủi ro doanh nghiệp phục

vụ công tác lập kế hoạch thanh tra, kiểm tra thuế (ChiTieu.XLS) với công thức tính điểm rủi ro ban hành kèm theo Quyết định số 1733/QĐ-TCT ngày 01 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế

- 14 tiêu chí mở rộng của Cục thuế Hà Nội

2.2.1 Xây dựng dữ liệu huấn luyện, dữ liệu kiểm tra

- Từ tệp dữ liệu lịch sử về tình hình thu nộp thuế của các doanh nghiệp được kết xuất từ hệ thống PTR (DataSource_PTR.XLS), 21 tiêu chí cứng (trong tệp ChiTieu.XLS), 14 tiêu chí mở rộng của Cục thuế hà Nội, hệ thống xây dựng tệp dữ liệu huấn luyện và kiểm tra

- Tệp dữ liệu huấn luyện và kiểm tra (DATA_PTRR.XLS) gồm: 35 đầu vào (Từ ChiTieu1 đến ChiTieu35) Trong đó, từ ChiTieu1 đến ChiTieu21 tương ứng với 21 chỉ tiêu trong bộ tiêu chí cứng, từ ChiTieu22 đến ChiTieu35 tương ứng với 14 tiêu chí mở rộng Đầu ra là điểm rủi ro (DiemRR) Cấu trúc tệp DATA_PTRR.XLS như sau:

Bảng 2.2.Cấu trúc dữ liệu DATA_PTRR.xls

trong tệp DataSource_PTR.XLS

1 ChiTieu1 Numeric(2,0) Chậm nộp hồ sơ khai thuế so với

3 ChiTieu3 Numeric(5,2) So sánh biến động của tỷ lệ “Thuế

TNDN phát sinh/ doanh thu” giữa các năm

TLTNDN

4 ChiTieu4 Numeric(5,2) So sánh biến động của tỷ lệ “Thuế TLGTGTPS

Trang 23

19GTGT phát sinh/ doanh thu hàng hoá dịch vụ bán ra” giữa các năm

5 ChiTieu5 Numeric(5,2) Tỷ lệ lợi nhuận từ hoạt động kinh

doanh/ doanh thu thuần

TLHDKD

6 ChiTieu6 Numeric(5,2) Tỷ lệ (lợi nhuận trước thuế + chi

phí lãi vay)/ doanh thu thuần

TLLNTT

7 ChiTieu7 Numeric(5,2) Tỷ lệ lợi nhuận sau thuế/ doanh thu

thuần

TLLNST

8 ChiTieu8 Numeric(5,2) Tỷ lệ lợi nhuận/ vốn chủ sở hữu TLLNKT

9 ChiTieu9 Numeric(5,2) Tỷ lệ giá vốn hàng bán/ doanh thu

12 ChiTieu12 Numeric(5,2) Tỷ lệ Tổng dự phòng so với tổng

chi phí sản xuất kinh doanh

20 ChiTieu20 Numeric(20,2) Số thuế truy thu tuyệt đối của kỳ

thanh tra, kiểm tra gần nhất

ThueTThu

21 ChiTieu21 Numeric(20,2) Vốn chủ sở hữu nhỏ hơn 20 tỷ

đồng thời kinh doanh đa ngành nghề

VonSH

Trang 24

22 ChiTieu22 Numeric(5,2) Quan hệ liên kết QHLK

23 ChiTieu23 Numeric(5,2) So sánh doanh thu SSDT

24 ChiTieu24 Numeric(20,2) Người mua thanh toán trước TTTruoc

25 ChiTieu25 Numeric(20,2) Các khoản giảm trừ doanh thu GTDT

27 ChiTieu27 Numeric(20,2) Chi phí phải trả lớn CPLon

28 ChiTieu28 Numeric(20,2) Lãi vay chưa vốn hóa LayVayNVH

29 ChiTieu29 Numeric(20,2) Hàng tồn kho cuối kỳ HTKho

30 ChiTieu30 Numeric(20,2) Dấu hiệu chuyên gia DHCG

31 ChiTieu31 Numeric(20,2) Số thuế miễn giảm DNCMG

32 ChiTieu32 Numeric(20,2) Có thuế VAT âm nhưng không

hoàn

VATA_H

33 ChiTieu33 Numeric(20,2) Số dư tài khoản 331 TK331

34 ChiTieu34 Numeric(20,2) Doanh thu nhỏ hơn vốn DTNHVon

35 ChiTieu35 Numeric(5,2) Sử dụng hóa đơn bán hàng nhiều HDBH_Use

36 DiemRR Numeric(5,2) Điểm rủi ro (đầu ra) ThueTThu/T

hueTNDNPN

- Giá trị của các đầu vào (Từ ChiTieu1 đến ChiTieu35) là giá trị điểm rủi ro (4, 3, 2, 1) của trường tương ứng trong tệp dữ liệu đầu vào DataSource_PTR.XLS

Ví dụ 2.1 Với ChiTieu2 (phân loại doanh nghiệp theo loại hình kinh tế)

công thức trong bảng chỉ tiêu xác định như sau:

Bảng 2.3.Công thức tính giá trị phân loại doanh nghiệp

12 Doanh nghiệp liên doanh với nước ngoài 2

Trang 25

Ví dụ 2.2 Ví dụ về bộ dữ liệu huấn luyện và kiểm tra DATA_PTRR.xls

Trang 26

Bảng 2.4.Ví dụ về bộ dữ liệu huấn luyện, kiểm tra

mô hình, kiểm tra mô hình và thực thi mô hình ở các bước tiếp theo

Chúng tôi sử dụng kết quả nghiên cứu về phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thô mờ được trình bày trong báo cáo thu thập và tiền xử lý dữ liệu để thực hiện rút gọn thuộc tính Cụ thể, chúng tôi sử dụng thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ (Thuật toán FDBAR) để thực hiện rút gọn thuộc tính đầu vào

Kết quả của rút gọn thuộc tính là bảng dữ liệu rút gọn sử dụng để xây dựng

mô hình hồi quy và kiểm tra độ chính xác của mô hình

2.3 Xây dựng, kiểm tra mô hình hồi quy

Quy trình xây dựng và kiểm tra mô hình hồi quy được mô tả ở Hình 2.3

Trang 27

Xây dựng mô hình hồi quy tuyến tính đa biến

Dữ liệu huấn luyện

Mô hình hồi quy tuyến tính

DiemRR = α1*ChiTieu1 + α2*ChiTieu2 + + αN*ChiTieuN + β

Dữ liệu kiểm tra

Sai số của mô hình < e

Sai

Kết thúc

Đúng

Hình 2.3 Quy trình xây dựng, kiểm tra mô hình hồi quy

2.3.1 Xây dựng mô hình hồi quy tuyến tính đa biến

Từbảng dữ liệu rút gọn, chúng tôi trích lọc ra tệp dữ liệu huấn luyện theo tỷ lệ xác định trước Tệp dữ liệu huấn luyện được sử dụng để xây dựng mô hình hồi quy tuyến tính đa biến

dữ liệu huấn luyện có cấu trúc như sau:

Trang 28

Mô hình có dạng như sau:

- Nội dung công việc của bước xây dựng mô hình hồi quy tuyến tính là xác định các hệ số α1 αN và β

- Công cụ sử dụng: Ngôn ngữ phân tích dữ liệu R với giao diện được lập trình bằng bộ công cụ Visual Studio.Net

2.3.2 Kiểm tra mô hình hồi quy tuyến tính đa biến

Sau khi xây dựng xong mô hình hồi quy, bước tiếp theo là kiểm tra độ chính xác của mô hình trên tập dữ liệu kiểm tra, cũng như để khẳng định mô hình xây dựng phù hợp với dữ liệu Ở đây chúng tôi sử dụng hai phương pháp đánh giá Phương pháp thứ nhất (Hold-out) phân chia dữ liệu thành hai tệp độc lập, tập huấn luyện (training set) 2/3 dữ liệu; tập kiểm tra (testing set) 1/3 dữ liệu còn lại

Dữ liệu huấn luyện và dữ liệu thử nghiệm được lấy ngẫu nhiên với mong muốn các lớp được phân bổ đều trên cả hai tập và thực hiện holdout k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác

Phương pháp thứ hai là Cross validation hay còn gọi là k-fold Cross validation Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước (hình 2.6) Tại mỗi vòng lặp sử dụng một tập con là tập kiểm tra và các tập con còn lại là tập huấn luyện Giá trị k thường là = 10 Ta có thể dùng một trong hai cách:

- Leave-one-out : k= số mẫu trong dữ liệu (dành cho tập dữ liệu nhỏ)

- Stratified cross-validation : dùng phương pháp lấy mẫu để các lớp trong từng tập con phân bố như trên toàn bộ dữ liệu

Độ chính xác bằng trung bình cộng của các lần thực hiện theo công thức sau

1

i i

Finall Accuracy Accuracy

k

Trang 29

Hình 2.4 Phương pháp k-fold Cross validation

Sau kết quả kiểm tra, nếu độ chính xác Accuracy của mô hình chưa đạt được trên 80% thì tiếp tục bổ sung thêm dữ liệu vào tệp huấn luyện để tiếp tục thực hiện huấn luyện và kiểm tra mô hình Quá trình dừng lại khi độ chính xác của mô hình đạt trên 80%

Trang 30

Chương 3 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG

Chương này trình bày chi tiết nội dung phân tích và thiết kế hệ thống xây dựng

mô hình hồi quy nhằm tính điểm rủi ro của doanh nghiệp, bao gồm liệt kê các tác nhân, ca sử dụng (chức năng) của hệ thống, các biểu đồ ca sử dụng, biểu đồ tuần tự

và đặc tả chi tiết thiết kế các chức năng hệ thống

Đầu vào của hệ thống là tệp dữ liệu tình hình thu nộp thuế được kết xuất từ hệ thống PTR với khuôn dạng Excel và tệp bảng tiêu chí phân tích rủi ro Đầu ra của

hệ thống là điểm rủi ro của doanh nghiệp cần tính Điểm rủi ro được tính trả về hệ thống PTR để phục vụ công tác lập kế hoạch thanh tra

3.1 Mô hình chức năng của hệ thống

Hình 3.1 mô tả sơ đồ chức năng của hệ thống phân tích dữ liệu nhằm tính điểm rủi ro của doanh nghiệp

Hệ thống phân tích dữ liệu nhằm tính điểm rủi ro của doanh nghiệp

(PTRR)

Hệ thống Xây dựng mô hình Thực hiện mô hình Trợ giúp

Tạo tài khoản

Rút gọn thuộc tính

Xây dựng dữ liệu học

Xây dựng dữ liệu tính điểm rủi ro Tính điểm rủi ro

In danh sách thanh tra

Hồi quy tuyến tính Hồi quy logistic

Trang 31

Hình 3.1 Sơ đồ chức năng của hệ thống PTRR

3.2 Danh sách các tác nhân, ca sửu dụng, đặc tả ca sử dụng

3.2.1 Danh sách các tác nhân của hệ thống

Danh sách các tác nhân (Actor) của hệ thống bao gồm:

1 Cán bộ phân tích (cán bộ

thanh tra thuế)

Người sử dụng hệ thống hồi quy tính điểm rủi ro của doanh nghiệp

2 Hệ thống tính điểm rủi ro

PTR

Hệ thống tính điểm rủi ro PTR cung cấp dữ liệu đầu vào và nhận giá trị đầu ra (điểm rủi ro) của hệ thống

3 Người quản trị Người quản trị hệ thống hồi quy tính điểm

rủi ro của doanh nghiệp

Mô tả

Hệ thống 1 Đăng nhập

hệ thống

Cán bộ phân tích, người quản trị

- Ca sử dụng cho phép NSD (cán

bộ phân tích, người quản trị) đăng nhập hệ thống

- NSD có thể đăng nhập vào hệ thống bằng 2 quyền Quyền quản trị (admin) có khả năng phân quyền cho các Use ser khác và quyền thực hiện tất cả các chức năng của hệ thống; Quyền thành viên (User) chỉ có khả năng xem chức năng Bộ chỉ tiêu phân tích

và In hồ sơ phân tích

2 Tạo tài

khoản

Người quản trị

Ca sử dụng này cho phép người quản trị tạo tài khoản cho người

Trang 32

Ca sử dụng này cho phép người quản trị phân quyền cho người sử dụng hệ thống Bao gồm quyền quản trị (admin) và quyền thành viên (user)

4 Bộ tiêu chí

phân tích rủi ro

Cán bộ phân tích, Người quản trị

- Ca sử dụng này cho phép cán bộ phân tích xem bộ tiêu chí phân tíc rủi ro, người quản trị cập nhật bộ tiêu chí phân tích rủi ro (bổ sung các tiêu chí động để phù hợp với các đặc thù của từng cơ quan thuế)

Phân tích 5 Nạp dữ

liệu

Cán bộ phân tích, hệ thống PTR

- Ca sử dụng này cho phép cán bộ phân tích nạp tệp dữ liệu đầu vào được kết xuất từ hệ thống PTR (tệp dữ liệu lịch sử về tình hình thu nộp thuế, sản xuất kinh doanh

và kết quả thanh tra) Khuôn dạng tệp nạp vào dưới dạng Excel với định dạng *.csv Sau khi nạp dữ liệu, ca sử dụng cho phép hiển thị

dữ liệu

6 Xây dựng

dữ liệu phân tích

Cán bộ phân tích

- Ca sử dụng này cho phép cán bộ phân tích xây dựng bộ dữ liệu phân tích từ dữ liệu đầu vào Chức năng này xây dựng mẫu dữ liệu (huẩn luyện, kiểm tra) từ dữ liệu đầu vào Các thuộc tính điều kiện lấy từ bảng tiêu chí phân tích rủi

ro Giá trị các thuộc tính điều kiện được tính theo công thức tính điểm rủi ro trong bộ tiêu chí (bố mức 4, 3, 2, 1) Thuộc tính đầu ra

là điểm rủi ro, giá trị từ 0 đến 100 được tính theo tỷ lệ số thuế truy

Trang 33

thu / số thuế TNDN phải nộp (như

đã mô tả ở phần trên

- Ca sử dụng này cũng cho phép hiển thị mẫu dữ liệu phục vụ xây dựng và kiểm tra mô hình

7 Rút gọn

thuộc tính

Cán bộ phân tích

Ca sử dụng này cho phép cán bộ phân tích thực hiện các thuật toán rút gọn thuộc tính theo tiếp cận tập thô mờ được đề xuất Sau đó, hiển thị tập mẫu sau khi rút gọn thuộc tính phục vụ xây dựng và kiểm tra mô hình Tập mẫu sau khi rút gọn được lưu trữ lại

8 Xây dựng

dữ liệu học

Cán bộ phân tích

Ca sử dụng này cho phép cán bộ phân tích thực hiện trích chọn dữ liệu huấn luyện từ dữ liệu mẫu đã được rút gọn, bao gồm:

- Lựa chọn phần trăm số mẫu đưa vào dữ liệu huấn luyện

- Hiển thị dữ liệu huấn luyện

- Ghi dữ liệu huấn luyện vào hệ thống

luyện mô hình

Cán bộ phân tích

Ca sử dụng này cho phép cán bộ phân tích thực hiện xây dựng mô hình hồi quy tuyến tính từ dữ liệu huấn luyện đã được xây dựng bằng phương pháp k-fold (10-fold)

- Lấy ngẫu nhiên 80% dữ liệu đế xây dựng mô hình hồi quy, 20%

dữ liệu đề kiểm tra mô hình

- Hiển thị phân bố dữ liệu

- Tính sai số của mô hình trên tập kiểm tra

- Lặp lại quá trình trên, lựa chọn

mô hình có sai số nhỏ nhất

Trang 34

Ca sử dụng này cho phép cán bộ phân tích thực hiện kiểm tra mô hình đã được xây dựng trên tập dữ liệu kiểm tra (data test)

- Hiển thị độ chính xác của mô hình

- Biểu diễn các mô hình bằng đồ thị trực quan

11 Phê duyệt

mô hình

Cán bộ phân tích

Ca sử dụng này cho phép cán bộ phân tích thực hiện phê duyệt mô hình đã được xây dựng, phục vụ tính điểm rủi ro cho các bước sau

- Hiển thị mô hình hồi quy tuyến tính đa biến

- Hiển thị các hệ số của mô hình hồi quy

Ca sử dụng này cho phép cán bộ phân tích thực hiện nạp dữ liệu cần tính điểm rủi ro được kết xuất

từ hệ thống PTR (dữ liệu thu nộp thuế, kết quả kinh doanh của các đối tượng cần tính điểm rủi ro)

- Nạp dữ liệu từ tệp Excel (khuôn dạng *.csv) được kết xuất từ hệ thống PTR

- Hiển thị dữ liệu đầu vào

13 Xây dựng

dữ liệu tính điểm rủi ro

Cán bộ phân tích

Ca sử dụng này cho phép cán bộ phân tích thực hiện xây dựng dữ liệu mẫu (dữ liệu không có nhãn)

để tính điểm rủi ro Các thuộc tính điều kiện là các thuộc tính rút gọn

ở bước xây dựng mô hình Giá trị thuộc tính điều kiện được tính theo công thức xác định điểm rủi

Trang 35

Ca sử dụng này cho phép cán bộ phân tích thực hiện tính điểm rủi

ro theo hàm hồi quy được phê duyệt ở bước trước

- Tính điểm rủi ro cho các mẫu

dữ liệu đầu vào

- Hiển thị điểm rủi ro trên màn hình

- Ghi điểm rủi ro đã được tính vào hệ thống

15 In danh

sách thanh tra

Cán bộ phân tích

Ca sử dụng này cho phép cán bộ phân tích thực hiện in danh sách điểm rủi ro của doanh nghiệp trả

về hệ thống PTR phục vụ công tác lập kế hoạch thanh tra

- Cho phép in theo ngưỡng rủi ro nhập vào

- Ghi danh sách ra tệp Excel

16 Hồi quy

tuyến tính

Cán bộ phân tích

Ca sử dụng này cho phép cán bộ phân tích thực hiện lựa chọn các biến thực hiện xây dựng, phân tích

và dự báo cho mô hình hồi quy tuyến tính

17 Hồi quy

logistic

Cán bộ phân tích

Đây là chức năng hỗ trợ Ca sử dụng này cho phép cán bộ phân tích thực hiện xây dựng mô hình hồi quy logistic trả lời câu hỏi doanh nghiệp có rủi ro hay không ?

Trang 36

3.2.3 Đặc tả ca sử dụng

1) Khối chức năng phân tích:

1 Ca sử dụng “Nạp dữ liệu”

Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích nạp tệp dữ liệu đầu vào

được kết xuất từ hệ thống PTR (tệp dữ liệu lịch sử về tình hình thu nộp thuế, sản xuất kinh doanh và kết quả thanh tra) Khuôn dạng tệp nạp vào dưới dạng Excel với định dạng *.csv

Điều kiện bắt đầu Use-case (Pre-Condition):

- Cán bộ phân tích vào chức năng “Phân tích / Nạp dữ liệu” trên ứng dụng

Điều kiện kết thúc Use-case (Post Condition):

- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích

Trình tự các sự kiện:

- Cán bộ phân tíchvào chức năng “Phân tích / Nạp dữ liệu”

- Hệ thống hiển thị giao diện chọn tệp dữ liệu đầu vào khuôn dạng CSV

- Cán bộ phân tích chọn tệp dữ liệu đầu vào khuôn dạng CSV

- Hệ thống hiển thị dữ liệu đầu vào

Hoàn cảnh sử dụng thành công cơ bản:

Hiển thị dữ liệu đầu vào thành công

Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:

Thông báo lỗi hệ thống

Hành động liên quan sẽ xảy ra khi Use-case kết thúc:

Cán bộ phân tích thực hiện chức năng xây dựng dữ liệu phân tích

Các yêu cầu phi chức năng: Không

2 Ca sử dụng “Xây dựng dữ liệu phân tích”

Tên Use-case: Xây dựng dữ liệu phân tích Mức độ BMT: B

Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích xây dựng bộ dữ liệu

phân tích từ dữ liệu đầu vào Chức năng này xây dựng mẫu dữ liệu (huẩn luyện, kiểm tra) từ dữ liệu đầu vào Các thuộc tính điều kiện lấy từ bảng tiêu chí phân tích rủi ro Giá trị các thuộc tính điều kiện được tính theo công thức tính điểm rủi ro trong bộ tiêu chí (bố mức 4, 3, 2, 1) Thuộc tính đầu ra là điểm rủi ro, giá trị từ 0

Trang 37

33đến 100 được tính theo tỷ lệ số thuế truy thu / số thuế TNDN phải nộp (như đã mô

tả ở phần trên

Điều kiện bắt đầu Use-case (Pre-Condition):

- Cán bộ phân tích vào chức năng “Phân tích / Xây dựng dữ liệu phân tích” trên

ứng dụng

Điều kiện kết thúc Use-case (Post Condition):

- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích

Trình tự các sự kiện:

- Cán bộ phân tíchvào chức năng “Phân tích / Xây dựng dữ liệu phân tích”

- Hệ thống trích chọn các thuộc tính đầu vào từ tệp tiêu chí phân tích rủi ro

- Hệ thống tính giá trị điểm rủi ro cho các thuộc tính đầu vào theo công thức trong tệp tiêu chí rủi ro

- Hệ thống tính điểm rủi ro đầu ra dựa vào Số thuế truy thu / Số thuế thu nhập doanh nghiệp phải nộp

- Hệ thống hiển thị dữ liệu phân tích ra màn hình (mẫu có nhãn), bao gồm các đầu vào và điểm rủi ro

- Cán bộ phân tích ghi dữ liệu phân tích

- Hệ thống ghi dữ liệu phân tích vào cơ sở dữ liệu

Hoàn cảnh sử dụng thành công cơ bản:

Hiển thị dữ liệu phân tích thành công

Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:

Thông báo lỗi hệ thống hoặc chưa nạp tệp dữ liệu đầu vào

Hành động liên quan sẽ xảy ra khi Use-case kết thúc:

Cán bộ phân tích thực hiện chức năng rút gọn thuộc tính

Các yêu cầu phi chức năng: Không

3 Ca sử dụng “Rút gọn thuộc tính”

Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích thực hiện các thuật toán

rút gọn thuộc tính theo tiếp cận tập thô mờ được đề xuất

Điều kiện bắt đầu Use-case (Pre-Condition):

- Cán bộ phân tích vào chức năng “Phân tích / Rút gọn thuộc tính” trên ứng dụng

Điều kiện kết thúc Use-case (Post Condition):

- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích

Trang 38

Trình tự các sự kiện:

- Cán bộ phân tíchvào chức năng “Phân tích / Rút gọn thuộc tính”

- Hệ thống thực hiện thuật toán rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận tập thô mờ

- Hệ thống hiển thị tập thuộc tính rút gọn trên màn hình

- Hệ thống hiển thị dữ liệu tập thuộc tính rút gọn trên màn hình

- Cán bộ phân tích thực hiện ghi dữ liệu tập thuộc tính rút gọn làm đầu vào cho huấn luyện mô hình

- Hệ thống ghi dữ liệu tập thuộc tính rút gọn vào cơ sở dữ liệu

Hoàn cảnh sử dụng thành công cơ bản:

Hiển thị dữ liệu tập thuộc tính rút gọn thành công

Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:

Thông báo lỗi hệ thống hoặc chưa xây dựng tệp dữ liệu phân tích

Hành động liên quan sẽ xảy ra khi Use-case kết thúc:

Cán bộ phân tích thực hiện chức năng xây dựng dữ liệu học

Các yêu cầu phi chức năng: Không

4 Ca sử dụng “Xây dựng dữ liệu học”

Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích thực hiện trích chọn dữ

liệu huấn luyện (dữ liệu học) từ tệp dữ liệu mẫu đã được rút gọn thuộc tính

Điều kiện bắt đầu Use-case (Pre-Condition):

- Cán bộ phân tích vào chức năng “Phân tích / Xây dựng dữ liệu học” trên ứng

dụng

Điều kiện kết thúc Use-case (Post Condition):

- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích

Trình tự các sự kiện:

- Cán bộ phân tíchvào chức năng “Phân tích / Xây dựng dữ liệu học”

- Hệ thống hiển thị giao diện cho phép chọn tỷ lệ % kích thước tệp mẫu

- Cán bộ phân tích chọn phần trăm tỷ lệ dữ liệu mẫu làm dữ liệu học (ví dụ 30%)

- Hệ thống hiển thị dữ liệu học (dữ liệu huấn luyện) trên màn hình

- Cán bộ phân tích thực hiện ghi dữ liệu huấn luyện vào cơ sở dữ liệu để xây dựng

mô hình

- Cán bộ phân tích thực hiện kết xuất dữ liệu huấn luyện ra tệp Excel để sử dụng

Trang 39

về sau

- Hệ thống ghi dữ liệu huấn luyện vào cơ sở dữ liệu để thực hiện bước tiếp theo

Hoàn cảnh sử dụng thành công cơ bản:

Hiển thị dữ liệu huấn luyện thành công

Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:

Thông báo lỗi hệ thống hoặc chưa xây dựng tệp dữ liệu mẫu

Hành động liên quan sẽ xảy ra khi Use-case kết thúc:

Cán bộ phân tích thực hiện chức năng xây dựng mô hình hồi quy tuyến tính từ dữ

liệu học

Các yêu cầu phi chức năng: Không

5 Ca sử dụng “Huấn luyện mô hình”

Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích thực hiện xây dựng mô

hình hồi quy tuyến tính từ dữ liệu huấn luyện bằng phương pháp k-fold (10-fold)

Điều kiện bắt đầu Use-case (Pre-Condition):

- Cán bộ phân tích vào chức năng “Phân tích / Huấn luyện mô hình” trên ứng dụng

Điều kiện kết thúc Use-case (Post Condition):

- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích

Trình tự các sự kiện:

- Cán bộ phân tíchvào chức năng “Phân tích / Huấn luyện mô hình”

- Hệ thống chia ngẫu nhiênmẫu thành 2 tập dữ liệu Một tệp gồm 80% dữ liệu

mẫu sử dụng để huấn luyện mô hình được gọi là DataTraining và tệp còn lại

20% sử dụng để kiểm tra độ chính xác mô hình huấn luyện được gọi là dữ liệu

kiểm tra (DataTesting)

- Hệ thống hiển thị dữ liệu huấn luyện ra màn hình

- Hệ thống hiển thị mô tả dữ liệu huấn luyện dưới dạng bảng và đồ thị

- Cán bộ phân tích chọn xây dựng mô hình học

- Hệ thống tính và hiển thị mô hình hồi quy tuyến tính, bao gồm hiển thị hàm hồi quy và các tham số

- Hệ thống kiểm tra độ chính xác mô hình trên tập dữ liệu kiểm tra

- Cán bộ phân tích thực hiện lại huấn luyện mô hình 10 lần

- Cán bộ phân tích chọn mô hình có độ chính xác cao nhất

- Cán bộ phân tích ghi dữ liệu mô hình hồi quy tuyến tính được chọn

Trang 40

- Hệ thống ghi mô hình hồi quy vào cơ sở dữ liệu để thực hiện các bước tiếp theo

Hoàn cảnh sử dụng thành công cơ bản:

Hiển thị mô hình hồi quy và các tham số thành công

Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:

Thông báo lỗi hệ thống hoặc chưa xây dựng dữ liệu huấn luyện

Hành động liên quan sẽ xảy ra khi Use-case kết thúc:

Cán bộ phân tích thực hiện chức năng kiểm tra mô hình trên tập dữ liệu kiểm tra

Các yêu cầu phi chức năng: Không

6 Ca sử dụng “Kiểm tra mô hình”

Mô tả Use-case: Ca sử dụng này cho phép cán bộ phân tích thực hiện kiểm tra mô

hình đã được xây dựng trên tập dữ liệu kiểm tra (data test)

Điều kiện bắt đầu Use-case (Pre-Condition):

- Cán bộ phân tích vào chức năng “Phân tích / Kiểm tra mô hình” trên ứng dụng

Điều kiện kết thúc Use-case (Post Condition):

- Các chức năng đã được thực hiện theo yêu cầu của án bộ phân tích

Trình tự các sự kiện:

- Cán bộ phân tíchvào chức năng “Phân tích / Kiểm tra mô hình”

- Hệ thống tính độ chính xác của mô hình trên tập dữ liệu kiểm tra (tệp dữ liệu mẫu còn lại sau khi trích chọn tập dữ liệu huấn luyện

- Hệ thống hiển thị độ chính xác của mô hình trên màn hình dưới dạng đồ thị

- Cán bộ phân tích thực hiện quy trình xây dựng lại mô hình nếu độ chính xác chưa đạt ngưỡng trên 90%

Hoàn cảnh sử dụng thành công cơ bản:

Hiển thị độ chính xác của mô hình trên tập dữ liệu kiểm tra thành công

Hoàn cảnh sử dụng phụ (thay thế) trong trường hợp không thành công:

Thông báo lỗi hệ thống hoặc chưa xây dựng mô hình hồi quy

Hành động liên quan sẽ xảy ra khi Use-case kết thúc:

Cán bộ phân tích thực hiện chức năng phê duyệt mô hình

Các yêu cầu phi chức năng: Không

7 Ca sử dụng “Phê duyệt mô hình”

Ngày đăng: 03/08/2020, 23:52

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w