Dự án môn khoa học dữ liệu ứng dụng máy học vào phát hiện rủi ro gian lận báo cáo tài chính

2 DANH MỤC HÌNH ẢNH Ảnh 1: Mô hình thực hiện bài toán phát hiện Ảnh 2: Mô hình quy trình xử lý bài toán phân lớp Ảnh 3: Mô hình giải quyết bài toán Ảnh 4: Mô hình quy trình xử lý bài to

Trang 1

1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TP.HCM

TRƯỜNG KINH DOANH – COLLEGE OF BUSINESS

KHOA KẾ TOÁN

DỰ ÁN

Ứng dụng máy học vào phát hiện rủi ro gian lận báo cáo tài chính

Giảng viên giảng dạy : ThS Nguyễn Mạnh Tuấn

Nhóm sinh viên : Ngô Hoàng Triều Anh

Lâm Khánh Mai Nguyễn Thị Bích Tuyền Trần Tố Tâm

Phạm Ngọc Kim Ngân

Trang 2

2

DANH MỤC HÌNH ẢNH

Ảnh 1: Mô hình thực hiện bài toán phát hiện

Ảnh 2: Mô hình quy trình xử lý bài toán phân lớp

Ảnh 3: Mô hình giải quyết bài toán

Ảnh 4: Mô hình quy trình xử lý bài toán phân cụm

DANH MỤC BẢNG

Bảng 1: Phân tích thông tin dữ liệu

Bảng 2: Kết quả dự báo theo Test and Score

Bảng 3: Kết quả dự báo khi sử dụng phương pháp Tree theo ma trận nhầm lẫn Bảng 4: Kết quả dự báo khi sử dụng phương pháp SVM theo ma trận nhầm lẫn Bảng 5: Kết quả dự báo khi sử dụng phương pháp Logistic Regression theo ma trận nhầm lẫn

Bảng 6: Kết quả K-Means

DANH MỤC BIỂU ĐỒ

Biểu đồ 1: Dữ liệu của Risk0 và Risk1 theo Control_Risk

Biểu đồ 2: Dữ liệu của Risk0 và Risk1 theo Inherent_Risk

Biểu đồ 3: Dữ liệu của Risk0 và Risk1 theo Audit_Risk

Biểu đồ 4: Sự chênh lệch được tìm thấy trong báo cáo cuộc điều tra và báo cáo tóm tắt

Biểu đồ 5: Giá trị rủi ro của báo cáo A trong quá khứ

Biểu đồ 6: Giá trị rủi ro của báo cáo trong quá khứ

Biểu đồ 7: Tổng số lượng khác biệt trong các báo cáo khác

Biểu đồ 8: Chỉ số chênh lệch khác biệt trong quá khứ

Biểu đồ 9: Giá trị tổn thất (Loss_Score)

Biểu đồ 10: Money_Value - Chỉ số tiền liên quan đến sai sót

Biểu đồ 11: Detection_risk: Rủi ro phát hiện

Biểu đồ 12: Tổng hợp rủi ro

Biểu đồ 13: Biểu đồ Silhouette Plot của bài toán phân cụm

Biểu đồ 14: Biểu đồ Scatter Plot của bài toán phân cụm

Trang 3

3

CHƯƠNG 1: TỔNG QUAN 5

I Lý do ch ọn đề tài 5

II M ục tiêu nghiên cứu 6

1 M ục tiêu tổng quát 6

2 Các m ục tiêu cụ thể 6

III Đối tượng và phạm vi nghiên cứu 6

1 Đối tượng nghiên cứu: 6

2 Ph ạm vi nghiên cứu: 6

IV Mô t ả bài toán 6

V Mô t ả dữ liệu 6

CHƯƠNG II: QUY TRÌNH THỰC HIỆN & KẾT QUẢ 8

1 Phân tích và ti ền xử lý dữ liệu 8

a Phân tích d ữ liệu 8

b Ti ền xử lý dữ liệu 10

2 Bài toán 1: Phát hi ện các điểm đặc thù (các yếu tố gây ra gian lận) của d ữ liệu dựa vào lược đồ và các công cụ thống kê 11

a Mô t ả bài toán 11

b Các phương pháp thể hiện - đánh giá dữ liệu 11

c Phân tích d ữ liệu: 11

d Đánh giá: 17

3 Bài toán 2: D ự báo nguy cơ gian lận (Gian lận/Không gian lận) của các công ty d ựa vào khả năng xảy ra rủi ro ở các báo cáo kiểm toán (Bài toán phân l ớp nhị phân) 17

a Mô tả phương pháp 17

b Quy trình x ử lý 18

c Đánh giá kết quả: 19

d Các kiến thức chuyên ngành liên quan 22

4 Bài toán 3: Phân lo ại các nhóm có nguy cơ gian lận báo các tài chính (Bài toán phân c ụm) 23

a Mô tả phương pháp phân cụm (Clustering): 23

b Mô tả phương pháp K-Means: 23

Trang 4

4

c Quy trình thực hiện bài toán phân cụm: 23

d K ết quả phân loại k-Means: 24

e Các kiến thức chuyên ngành liên quan: 26

Trang 5

5

CHƯƠNG 1: TỔNG QUAN

I Lý do chọn đề tài

Thời đại công nghệ 4.0 hiện nay, các ngành về công nghệ thông tin và khoa học

dữ liệu đang có sự phát triển bùng nổ Hệ thống dữ liệu khổng lồ đang được tạo

ra hàng ngày với mức độ vô cùng phức tạp Đứng trước yêu cầu cấp thiết cần xử

lý các dữ liệu lớn này chuyển thành những tri thức có ích, ngành khai phá dữ liệu (data mining) đã ra đời và có sự phát triển vô cùng mạnh mẽ Phần mềm khai phá

dữ liệu cho phép người dùng phân tích dữ liệu theo nhiều góc nhìn khác nhau, phân loại dữ liệu theo những quan điểm riêng biệt và tổng kết các mối quan hệ

đã được bóc tách Từ đó, giúp người dùng tìm được và dự đoán được các thông tin bổ ích tiềm ẩn trong hệ thống dữ liệu lớn Việc ứng dụng các phần mềm về khoa học dữ liệu đang được quan tâm nhiều và là một xu hướng tất yếu của thời đại Nó được ứng dụng trong nhiều lĩnh vực trong đời sống xã hội như thương

mại (nhằm tìm ra các tệp khách hàng mục tiêu, phân tích thị trường, ) hay trong các lĩnh vực khoa học (dự báo, ), Kiểm toán hiện nay đang dần ngày càng trở thành một lĩnh vực quan trọng trong nền kinh tế Việt Nam Và một trong những

vấn đề cơ bản để đảm bảo chất lượng kiểm toán là việc đánh giá được những rủi

ro kiểm toán, tìm ra được các gian lận trong báo cáo tài chính từ đó cung cấp các thông tin chính xác, bổ ích đến người sử dụng thông tin trên báo cáo tài chính Tuy nhiên, việc phát hiện được các hành vi gian lận này của các công ty là một

vấn đề vô cùng khó khăn và mang tính thách thức đối với các kiểm toán viên Theo Hiệp hội các nhà điều tra gian lận (2016), gian lận trên báo cáo tài chính là trường hợp các thông tin trên báo cáo bị bóp méo, phản ánh không trung thực tình hình tài chính của doanh nghiệp một cách cố ý nhằm lừa gạt người sử dụng thông tin Việc đánh giá và tìm ra hành vi gian lận trên các báo cáo tài chính là một vấn

đề mang tính thời sự và cấp thiết Đặc biệt, sau hàng loạt vụ bê bối về gian lận của hàng loạt công ty lớn trên toàn thế giới dẫn đến việc phá sản như việc gian

lận của Worldcom, Enron, Lehman Brothers, Xerox, Tại Việt Nam, những năm qua, đã xảy ra nhiều vụ gian lận khi lập báo cáo tài chính của các doanh nghiệp điển hình như: Công ty Dược Viễn Đông (năm 2011), Công ty Cổ phần Đầu tư khoáng sản Tây Bắc (năm 2012), Tập đoàn Kỹ nghệ gỗ (năm 2016)… Việc phát sinh những thông tin thiếu minh bạch trên báo cáo tài chính ở những công ty có tầm vóc lớn đến công ty nhỏ hơn đã làm phát sinh sự quan tâm ngày càng nhiều

về tính trung thực và hợp lý của báo cáo tài chính Điều này tạo nên thách thức

lớn đối với người quản lý công ty cũng như các công ty kiểm toán và các kiểm toán viên Từ thực tế đó, các nhà lãnh đạo và các công ty kiểm toán mong muốn

có được một công cụ nhằm lưu trữ, truy xuất và có khả năng xử lý dữ liệu tốt để

hỗ trợ các kiểm toán viên Đáp ứng được các yêu cầu trên, các phần mềm về khoa học dữ liệu đã và đang được ứng dụng nhiều trong các công ty kiểm toán Nhằm nghiên cứu và tìm hiểu rõ hơn về việc đánh giá được các gian lận nhờ vào các

Trang 6

Bài toán 2: Dự báo nguy cơ gian lận trong báo cáo tài chính - giúp kiểm toán viên đánh giá được mức độ gian lận của các công ty để kịp thời xử lí

Bài toán 3: Phân loại các nhóm có gian lận báo cáo tài chính - giúp kiểm toán viên phát hiện gian lận một cách nhanh chóng với tính chính xác cao hơn

III Đối tượng và phạm vi nghiên cứu

1 Đối tượng nghiên cứu:

Đối tượng nghiên cứu của bài Nghiên cứu về Rủi ro kiểm toán này sẽ tập trung

về các thông tin về 777 doanh nghiệp kinh doanh đến từ 46 thành phố trên thế giới, chẳng hạn như vị trí địa lí, điểm khác biệt trong báo cáo, những số liệu trong quá khứ về số lần xảy ra tổn thất, số tiền bạc bị tổn thất trong doanh nghiệp nói chung và trong địa phương nói riêng Bên cạnh đó là các chỉ số rủi ro tiềm tàng,

rủi ro kiểm soát, rủi ro phát hiện và cuối cùng là rủi ro sẽ có thể xảy ra kiểm toán trong tương lai

2. Phạm vi nghiên cứu:

Thời gian số liệu được thu thập trong 10 năm (2009-2019)

IV Mô tả bài toán

Sử dụng excel và phần mềm orange để xử lý dữ liệu và giải quyết các bài toán sau:

Bài toán 1: Phát hiện các điểm đặc thù (các yếu tố gây ra gian lận) của dữ liệu

dựa vào lược đồ và các công cụ thống kê

Bài toán 2: Dự báo nguy cơ gian lận (Gian lận/Không gian lận) của các công ty dựa vào khả năng xảy ra rủi ro ở các báo cáo kiểm toán (Bài toán phân lớp nhị phân)

Bài toán 3: Phân loại các nhóm có nguy cơ gian lận báo các tài chính (Bài toán phân cụm)

V Mô tả dữ liệu

Trang 7

Bộ dữ liệu gồm các thông tin:

liệu Sector_score Giá trị rủi ro trong lịch sử qua quy trình phân tích Số thực Location_ID Mã tỉnh/thành phố Số tự nhiên Para_A Sự khác biệt chi tiêu theo kế hoạch của kiểm tra và báo cáo tóm tắt A

tính bằng Rs Số thựcScore_A Giá trị rủi ro lịch sử của rp A Số thực Risk_A Giá trị rủi ro của rp A Số thực Para_B Sự khác biệt chi tiêu theo kế hoạch của kiểm tra và báo cáo tóm tắt B

tính bằng Rs Số thựcScore_B Giá trị rủi ro lịch sử của rp B Số thực Risk_B Giá trị rủi ro của rp B Số thực Total Tổng số lượng khác biệt trong các báo cáo khác ngoài Rs Số thực Numbers Giá trị khác biệt lịch sử Số thực Money value Số tiền của những sai phạm của kiểm toán trong quá khứ Số thực Loss Số tổn thất mà doanh nghiệp phải chịu trong năm trước Số nguyên District_loss Tổn thất mà doanh nghiệp trong quận phải chịu trong 10 năm qua Số nguyên History Tổn thất lịch sử trung bình mà công ty phải chịu trong 10 năm qua Số nguyên

Prob Xác suất rủi ro lịch sử Số thực Inherent_risk Chỉ số Rủi ro tiềm tàng (Rủi ro cố hữu) Số thực Control_risk Chỉ số Rủi ro kiểm soát Số thực Detection_risk Chỉ số Rủi ro phát hiện Số thực Audit_risk Chỉ số rủi ro kiểm toán Số thực Risk Khả năng xảy ra rủi ro

(0 = không, 1 = có) (Đối tượng mục tiêu)

Số nguyên

Trang 8

8

Risk class Lớp rủi ro được chỉ định cho một trường hợp kiểm toán Chuỗi

Bảng 1: Phân tích thông tin dữ liệu

Trong đó:

+ Rs: Hệ số tương quan thứ bậc Spearman

+ Score = (đơn vị) 10 triệu

+ float: kiểu số thực

+ integer: kiểu số nguyên

+ char: kiểu chuỗi

+ object: kiểu phức hợp

CHƯƠNG II: QUY TRÌNH THỰC HIỆN & KẾT QUẢ

1 Phân tích và tiền xử lý dữ liệu

a Phân tích dữ liệu

Phân tích dữ liệu của các đặc trưng có tính phân loại:

− Mỗi hàng đại diện cho 1 đối tượng doanh nghiệp và mỗi cột chứa các thuộc tính của đối tượng

− Dữ liệu thô chứa 776 hàng (đối tượng) và 25 cột (đặc trưng)

− Trong cột dữ liệu về các thuộc tính có 4 thuộc tính là: Inherent_Risk (Rủi

ro tiềm tàng), Control_Risk (Rủi ro kiểm soát), Audit_Risk (Rủi ro kiểm toán) sẽ ảnh hưởng phần lớn đến nguy cơ doanh nghiệp có gian lận (Risk1) hoặc không gian lận (Risk0)

Nhìn chung, các đặc tính Inherent_Risk, Control_Risk, Audit_Risk đều có điểm chung là nếu các chỉ số càng nhỏ hoặc không đáng kể (xấp xỉ 0) thì khả năng xảy

ra kết quả “Risk 0” càng cao Mặt khác, các chỉ số càng lớn thì khả năng xảy ra kết quả “Risk1” càng cao, chứng tỏ doanh nghiệp có nguy cơ gian lận trong kiểm toán

Trang 10

Báo cáo sử dụng bộ dữ liệu được tổng hợp từ trang:

Trang 11

11

đối với các dữ liệu bị thiếu, nhóm sử dụng công cụ Preprocess để thay thế các dữ

liệu bị thiếu bằng giá trị trung bình của các giá trị trong thuộc tính đó

Phân tách d ữ liệu:

− Lọc từ dữ liệu gốc “audit_risk”, nhóm đã sử dụng công cụ Data Sampler tách dữ liệu khảo sát ban đầu thành hai file riêng biệt để thực hiện việc phân lớp dữ liệu như sau: Sử dụng 70% dữ liệu ban đầu để làm dữ liệu mẫu huấn luyện mô hình phân lớp dữ liệu (audit_risk.tab) Và sử dụng 30% dữ liệu còn lại để làm dữ liệu dự báo cho nghiên cứu (audit_risk_forecast.tab)

− Xác định biến độc lập và biến phụ thuộc:

+ Biến phụ thuộc là “Risk”

+ Biến độc lập là các thuộc tính còn lại

2 Bài toán 1: Phát hiện các điểm đặc thù (các yếu tố gây ra gian lận) của

d ữ liệu dựa vào lược đồ và các công cụ thống kê

a Mô tả bài toán

− Mỗi hàng đại diện cho 1 công ty, mỗi cột tương ứng với các thuộc tính của đối tượng

− Bài toán tìm ra một số điểm khác biệt và thể hiện một cách trực quan trong các thuộc tính giữa doanh nghiệp gian lận và không gian lận

− Các thuộc tính được xem xét và đánh giá sự phân bổ bằng biểu đồ để xác định mức độ ảnh hưởng của thuộc tính đến với kết quả “Risk 0” hay “Risk 1”

b Các phương pháp thể hiện - đánh giá dữ liệu

− Biểu đồ thanh: Thể hiện một cách trực quan nhất sự chênh lệch của các thuộc tính ( đặc điểm dữ liệu) trong việc đánh giá và đưa ra kết quả “Có”

hoặc “không” xảy ra rủi ro gian lận

− Biểu đồ histogram: Phân bổ chỉ số điểm và tần suất xuất hiện của các chỉ

số đối với kết quả 2 loại công ty

− Biểu đồ phân tán điểm (Scatter plot): Biểu đồ phân tán thể hiện mối tương quan giữa 2 thuộc tính, đưa ra cái nhìn khái quát của mối liên hệ giữa 2 thuộc tính dữ liệu đó

Trang 12

12

Bi ểu đồ 4: Sự chênh lệch được tìm thấy trong báo cáo cuộc điều tra và báo cáo tóm t ắt

Các chỉ số Para A (khác biệt A) của “Risk 0” tập trung hoàn toàn từ mức 0-1 Trái

lại, chỉ số này đối với “Risk 1” lại được phân rải giảm dần từ mức 1-90 Bên cạnh

đó mức độ phủ của “Risk 1” hoàn toàn áp đảo “Risk 0” Sự khác biệt này được

thể hiện rõ ở biểu đồ này và tương tự như với Para B

− Risk_A, Risk_B: Giá trị rủi ro của các báo cáo trong quá khứ

Bi ểu đồ 5,6: Giá trị rủi ro của báo cáo A (bên trái) và báo cáo B (bên phải) trong quá kh ứ

Có thể thấy chỉ số chỉ số giá trị rủi ro gian lận trong báo cáo có xu hướng tỉ lệ thuận với giá trị khác biệt lịch sử Với chỉ số khác biệt và chỉ số giá trị rủi ro càng cao thì lại càng có nguy cơ xuất hiện gian lận trong kiểm toán Trong đại đa

số giá trị của 2 chỉ số này không có sự chênh lệch quá lớn Đối với báo cáo A, giá

Downloaded by chinh toan (vuchinhhp22@gmail.com)

Trang 13

13

trị chủ yếu từ 30 đổ xuống, bên cạnh đó, đối với báo cáo B thì 2 chỉ số được nhắc đến có sự phân tán rộng hơn ( 0-200)

− Total: Tổng số lượng khác biệt trong các báo cáo khác

Bi ểu đồ 7: Tổng số lượng khác biệt trong các báo cáo khác

Đúng như dự đoán và những lập luận ngay từ đầu, với sự khác biệt trong các báo cáo nói chung và trong báo cáo Rs hay các báo cáo còn lại nói riêng càng lớn (càng nhiều sự khác biệt) thì khả năng xảy ra “Risk 0” và “Risk 1” gần như có thể dự đoán Càng nhiều sự khác biệt, khả năng xảy ra rủi ro gian lận trong kiểm toán càng cao và với mức giá trị lớn hơn 7,66 gần như hoàn toàn có thể xảy ra gian lận “Risk 1”

− Number: Chỉ số chênh lệch khác biệt trong quá khứ

Trang 14

14

Bi ểu đồ 8: Chỉ số chênh lệch khác biệt trong quá khứ

Biểu đồ trên cho thấy hầu như các công ty có khả năng xảy ra rủi ro, sẽ có chỉ số chênh lệch (chỉ số khác biệt) trong quá khứ dao động ở mức 4.8-5, ngược lại thì

chỉ số này ở mức cao hơn rất nhiều Dễ dàng thấy được, sự chênh lệch được tìm thấy ở hiện tại hay quá khứ chính là những yếu tố quan trọng để đánh giá và dự đoán công ty sẽ có thể xảy ra gian lận trong kiểm toán hay không Để làm rõ hơn, chúng ta sẽ đến với:

− Giá trị tổn thất (Loss_Score)

Trang 15

15

Bi ểu đồ 9: Giá trị tổn thất (Loss-Score)

Do “Risk 0” có chỉ số chênh lệch ở mức ổn định, với sự chênh lệch này không đáng kể ở mức từ 1-2 Ngược lại với sự chênh lệch giữa quá khứ so với hiện tại

là rất lớn và phân bổ từ 2-7, cho thấy tỉ lệ xảy ra gian lận là có thể

− Money_Value:

Trang 16

16

Bi ểu đồ 10: Money_Value – Chỉ số tiền liên quan đến sai sót

Tương tự như các thuộc tính trên thì chỉ số tiền liên quan đến sai sót ở “Risk 0” tập trung ổn định ở mức nhỏ hơn 20.689 Đối với “Risk 1” thì chỉ số này phân bố đều ở các mức lớn hơn 20.689, với giá trị lớn nhất (max) đạt đến mức 935.030

Bi ểu đồ 11: Detection-Risk – Rủi ro phát hiện

Rủi ro phát hiện – 1 trong 3 loại rủi ro gian lận trong kiểm toán thường gặp nhất

là thuộc tính dễ dàng dự đoán được khả năng xảy ra rủi ro của doanh nghiệp Với

mức chỉ số thấp hơn 0,5, công ty được dự đoán là “Risk 0” Ngược lại với “Risk 1”, chỉ số rủi ro phát hiện của kiểm toán từ 0,5 trở lên

Tiêu đề	Ứng dụng máy học vào phát hiện rủi ro gian lận báo cáo tài chính
Tác giả	Nguyễn Mạnh Tuấn
Người hướng dẫn	ThS. Nguyễn Mạnh Tuấn
Trường học	Trường Kinh Doanh – College of Business, Đại Học Kinh Tế TP.HCM
Chuyên ngành	Khoa học dữ liệu
Thể loại	Dự án môn khoa học dữ liệu
Năm xuất bản	Năm 2023
Thành phố	TP.HCM

Định dạng
Số trang	28
Dung lượng	1,03 MB