2 DANH MỤC HÌNH ẢNH Ảnh 1: Mô hình thực hiện bài toán phát hiện Ảnh 2: Mô hình quy trình xử lý bài toán phân lớp Ảnh 3: Mô hình giải quyết bài toán Ảnh 4: Mô hình quy trình xử lý bài to
Trang 11
BỘ GIÁO DỤC VÀ ĐÀO TẠO TP.HCM
TRƯỜNG KINH DOANH – COLLEGE OF BUSINESS
KHOA KẾ TOÁN
DỰ ÁN
Ứng dụng máy học vào phát hiện rủi ro gian lận báo cáo tài chính
Giảng viên giảng dạy : ThS Nguyễn Mạnh Tuấn
Nhóm sinh viên : Ngô Hoàng Triều Anh
Lâm Khánh Mai Nguyễn Thị Bích Tuyền Trần Tố Tâm
Phạm Ngọc Kim Ngân
Trang 22
DANH MỤC HÌNH ẢNH
Ảnh 1: Mô hình thực hiện bài toán phát hiện
Ảnh 2: Mô hình quy trình xử lý bài toán phân lớp
Ảnh 3: Mô hình giải quyết bài toán
Ảnh 4: Mô hình quy trình xử lý bài toán phân cụm
DANH MỤC BẢNG
Bảng 1: Phân tích thông tin dữ liệu
Bảng 2: Kết quả dự báo theo Test and Score
Bảng 3: Kết quả dự báo khi sử dụng phương pháp Tree theo ma trận nhầm lẫn Bảng 4: Kết quả dự báo khi sử dụng phương pháp SVM theo ma trận nhầm lẫn Bảng 5: Kết quả dự báo khi sử dụng phương pháp Logistic Regression theo ma trận nhầm lẫn
Bảng 6: Kết quả K-Means
DANH MỤC BIỂU ĐỒ
Biểu đồ 1: Dữ liệu của Risk0 và Risk1 theo Control_Risk
Biểu đồ 2: Dữ liệu của Risk0 và Risk1 theo Inherent_Risk
Biểu đồ 3: Dữ liệu của Risk0 và Risk1 theo Audit_Risk
Biểu đồ 4: Sự chênh lệch được tìm thấy trong báo cáo cuộc điều tra và báo cáo tóm tắt
Biểu đồ 5: Giá trị rủi ro của báo cáo A trong quá khứ
Biểu đồ 6: Giá trị rủi ro của báo cáo trong quá khứ
Biểu đồ 7: Tổng số lượng khác biệt trong các báo cáo khác
Biểu đồ 8: Chỉ số chênh lệch khác biệt trong quá khứ
Biểu đồ 9: Giá trị tổn thất (Loss_Score)
Biểu đồ 10: Money_Value - Chỉ số tiền liên quan đến sai sót
Biểu đồ 11: Detection_risk: Rủi ro phát hiện
Biểu đồ 12: Tổng hợp rủi ro
Biểu đồ 13: Biểu đồ Silhouette Plot của bài toán phân cụm
Biểu đồ 14: Biểu đồ Scatter Plot của bài toán phân cụm
Trang 33
CHƯƠNG 1: TỔNG QUAN 5
I Lý do ch ọn đề tài 5
II M ục tiêu nghiên cứu 6
1 M ục tiêu tổng quát 6
2 Các m ục tiêu cụ thể 6
III Đối tượng và phạm vi nghiên cứu 6
1 Đối tượng nghiên cứu: 6
2 Ph ạm vi nghiên cứu: 6
IV Mô t ả bài toán 6
V Mô t ả dữ liệu 6
CHƯƠNG II: QUY TRÌNH THỰC HIỆN & KẾT QUẢ 8
1 Phân tích và ti ền xử lý dữ liệu 8
a Phân tích d ữ liệu 8
b Ti ền xử lý dữ liệu 10
2 Bài toán 1: Phát hi ện các điểm đặc thù (các yếu tố gây ra gian lận) của d ữ liệu dựa vào lược đồ và các công cụ thống kê 11
a Mô t ả bài toán 11
b Các phương pháp thể hiện - đánh giá dữ liệu 11
c Phân tích d ữ liệu: 11
d Đánh giá: 17
3 Bài toán 2: D ự báo nguy cơ gian lận (Gian lận/Không gian lận) của các công ty d ựa vào khả năng xảy ra rủi ro ở các báo cáo kiểm toán (Bài toán phân l ớp nhị phân) 17
a Mô tả phương pháp 17
b Quy trình x ử lý 18
c Đánh giá kết quả: 19
d Các kiến thức chuyên ngành liên quan 22
4 Bài toán 3: Phân lo ại các nhóm có nguy cơ gian lận báo các tài chính (Bài toán phân c ụm) 23
a Mô tả phương pháp phân cụm (Clustering): 23
b Mô tả phương pháp K-Means: 23
Trang 44
c Quy trình thực hiện bài toán phân cụm: 23
d K ết quả phân loại k-Means: 24
e Các kiến thức chuyên ngành liên quan: 26
Trang 55
CHƯƠNG 1: TỔNG QUAN
I Lý do chọn đề tài
Thời đại công nghệ 4.0 hiện nay, các ngành về công nghệ thông tin và khoa học
dữ liệu đang có sự phát triển bùng nổ Hệ thống dữ liệu khổng lồ đang được tạo
ra hàng ngày với mức độ vô cùng phức tạp Đứng trước yêu cầu cấp thiết cần xử
lý các dữ liệu lớn này chuyển thành những tri thức có ích, ngành khai phá dữ liệu (data mining) đã ra đời và có sự phát triển vô cùng mạnh mẽ Phần mềm khai phá
dữ liệu cho phép người dùng phân tích dữ liệu theo nhiều góc nhìn khác nhau, phân loại dữ liệu theo những quan điểm riêng biệt và tổng kết các mối quan hệ
đã được bóc tách Từ đó, giúp người dùng tìm được và dự đoán được các thông tin bổ ích tiềm ẩn trong hệ thống dữ liệu lớn Việc ứng dụng các phần mềm về khoa học dữ liệu đang được quan tâm nhiều và là một xu hướng tất yếu của thời đại Nó được ứng dụng trong nhiều lĩnh vực trong đời sống xã hội như thương
mại (nhằm tìm ra các tệp khách hàng mục tiêu, phân tích thị trường, ) hay trong các lĩnh vực khoa học (dự báo, ), Kiểm toán hiện nay đang dần ngày càng trở thành một lĩnh vực quan trọng trong nền kinh tế Việt Nam Và một trong những
vấn đề cơ bản để đảm bảo chất lượng kiểm toán là việc đánh giá được những rủi
ro kiểm toán, tìm ra được các gian lận trong báo cáo tài chính từ đó cung cấp các thông tin chính xác, bổ ích đến người sử dụng thông tin trên báo cáo tài chính Tuy nhiên, việc phát hiện được các hành vi gian lận này của các công ty là một
vấn đề vô cùng khó khăn và mang tính thách thức đối với các kiểm toán viên Theo Hiệp hội các nhà điều tra gian lận (2016), gian lận trên báo cáo tài chính là trường hợp các thông tin trên báo cáo bị bóp méo, phản ánh không trung thực tình hình tài chính của doanh nghiệp một cách cố ý nhằm lừa gạt người sử dụng thông tin Việc đánh giá và tìm ra hành vi gian lận trên các báo cáo tài chính là một vấn
đề mang tính thời sự và cấp thiết Đặc biệt, sau hàng loạt vụ bê bối về gian lận của hàng loạt công ty lớn trên toàn thế giới dẫn đến việc phá sản như việc gian
lận của Worldcom, Enron, Lehman Brothers, Xerox, Tại Việt Nam, những năm qua, đã xảy ra nhiều vụ gian lận khi lập báo cáo tài chính của các doanh nghiệp điển hình như: Công ty Dược Viễn Đông (năm 2011), Công ty Cổ phần Đầu tư khoáng sản Tây Bắc (năm 2012), Tập đoàn Kỹ nghệ gỗ (năm 2016)… Việc phát sinh những thông tin thiếu minh bạch trên báo cáo tài chính ở những công ty có tầm vóc lớn đến công ty nhỏ hơn đã làm phát sinh sự quan tâm ngày càng nhiều
về tính trung thực và hợp lý của báo cáo tài chính Điều này tạo nên thách thức
lớn đối với người quản lý công ty cũng như các công ty kiểm toán và các kiểm toán viên Từ thực tế đó, các nhà lãnh đạo và các công ty kiểm toán mong muốn
có được một công cụ nhằm lưu trữ, truy xuất và có khả năng xử lý dữ liệu tốt để
hỗ trợ các kiểm toán viên Đáp ứng được các yêu cầu trên, các phần mềm về khoa học dữ liệu đã và đang được ứng dụng nhiều trong các công ty kiểm toán Nhằm nghiên cứu và tìm hiểu rõ hơn về việc đánh giá được các gian lận nhờ vào các
Trang 6Bài toán 2: Dự báo nguy cơ gian lận trong báo cáo tài chính - giúp kiểm toán viên đánh giá được mức độ gian lận của các công ty để kịp thời xử lí
Bài toán 3: Phân loại các nhóm có gian lận báo cáo tài chính - giúp kiểm toán viên phát hiện gian lận một cách nhanh chóng với tính chính xác cao hơn
III Đối tượng và phạm vi nghiên cứu
1 Đối tượng nghiên cứu:
Đối tượng nghiên cứu của bài Nghiên cứu về Rủi ro kiểm toán này sẽ tập trung
về các thông tin về 777 doanh nghiệp kinh doanh đến từ 46 thành phố trên thế giới, chẳng hạn như vị trí địa lí, điểm khác biệt trong báo cáo, những số liệu trong quá khứ về số lần xảy ra tổn thất, số tiền bạc bị tổn thất trong doanh nghiệp nói chung và trong địa phương nói riêng Bên cạnh đó là các chỉ số rủi ro tiềm tàng,
rủi ro kiểm soát, rủi ro phát hiện và cuối cùng là rủi ro sẽ có thể xảy ra kiểm toán trong tương lai
2. Phạm vi nghiên cứu:
Thời gian số liệu được thu thập trong 10 năm (2009-2019)
IV Mô tả bài toán
Sử dụng excel và phần mềm orange để xử lý dữ liệu và giải quyết các bài toán sau:
Bài toán 1: Phát hiện các điểm đặc thù (các yếu tố gây ra gian lận) của dữ liệu
dựa vào lược đồ và các công cụ thống kê
Bài toán 2: Dự báo nguy cơ gian lận (Gian lận/Không gian lận) của các công ty dựa vào khả năng xảy ra rủi ro ở các báo cáo kiểm toán (Bài toán phân lớp nhị phân)
Bài toán 3: Phân loại các nhóm có nguy cơ gian lận báo các tài chính (Bài toán phân cụm)
V Mô tả dữ liệu
Trang 7Bộ dữ liệu gồm các thông tin:
liệu Sector_score Giá trị rủi ro trong lịch sử qua quy trình phân tích Số thực Location_ID Mã tỉnh/thành phố Số tự nhiên Para_A Sự khác biệt chi tiêu theo kế hoạch của kiểm tra và báo cáo tóm tắt A
tính bằng Rs Số thựcScore_A Giá trị rủi ro lịch sử của rp A Số thực Risk_A Giá trị rủi ro của rp A Số thực Para_B Sự khác biệt chi tiêu theo kế hoạch của kiểm tra và báo cáo tóm tắt B
tính bằng Rs Số thựcScore_B Giá trị rủi ro lịch sử của rp B Số thực Risk_B Giá trị rủi ro của rp B Số thực Total Tổng số lượng khác biệt trong các báo cáo khác ngoài Rs Số thực Numbers Giá trị khác biệt lịch sử Số thực Money value Số tiền của những sai phạm của kiểm toán trong quá khứ Số thực Loss Số tổn thất mà doanh nghiệp phải chịu trong năm trước Số nguyên District_loss Tổn thất mà doanh nghiệp trong quận phải chịu trong 10 năm qua Số nguyên History Tổn thất lịch sử trung bình mà công ty phải chịu trong 10 năm qua Số nguyên
Prob Xác suất rủi ro lịch sử Số thực Inherent_risk Chỉ số Rủi ro tiềm tàng (Rủi ro cố hữu) Số thực Control_risk Chỉ số Rủi ro kiểm soát Số thực Detection_risk Chỉ số Rủi ro phát hiện Số thực Audit_risk Chỉ số rủi ro kiểm toán Số thực Risk Khả năng xảy ra rủi ro
(0 = không, 1 = có) (Đối tượng mục tiêu)
Số nguyên
Trang 88
Risk class Lớp rủi ro được chỉ định cho một trường hợp kiểm toán Chuỗi
Bảng 1: Phân tích thông tin dữ liệu
Trong đó:
+ Rs: Hệ số tương quan thứ bậc Spearman
+ Score = (đơn vị) 10 triệu
+ float: kiểu số thực
+ integer: kiểu số nguyên
+ char: kiểu chuỗi
+ object: kiểu phức hợp
CHƯƠNG II: QUY TRÌNH THỰC HIỆN & KẾT QUẢ
1 Phân tích và tiền xử lý dữ liệu
a Phân tích dữ liệu
Phân tích dữ liệu của các đặc trưng có tính phân loại:
− Mỗi hàng đại diện cho 1 đối tượng doanh nghiệp và mỗi cột chứa các thuộc tính của đối tượng
− Dữ liệu thô chứa 776 hàng (đối tượng) và 25 cột (đặc trưng)
− Trong cột dữ liệu về các thuộc tính có 4 thuộc tính là: Inherent_Risk (Rủi
ro tiềm tàng), Control_Risk (Rủi ro kiểm soát), Audit_Risk (Rủi ro kiểm toán) sẽ ảnh hưởng phần lớn đến nguy cơ doanh nghiệp có gian lận (Risk1) hoặc không gian lận (Risk0)
Nhìn chung, các đặc tính Inherent_Risk, Control_Risk, Audit_Risk đều có điểm chung là nếu các chỉ số càng nhỏ hoặc không đáng kể (xấp xỉ 0) thì khả năng xảy
ra kết quả “Risk 0” càng cao Mặt khác, các chỉ số càng lớn thì khả năng xảy ra kết quả “Risk1” càng cao, chứng tỏ doanh nghiệp có nguy cơ gian lận trong kiểm toán
Trang 10Báo cáo sử dụng bộ dữ liệu được tổng hợp từ trang:
Trang 1111
đối với các dữ liệu bị thiếu, nhóm sử dụng công cụ Preprocess để thay thế các dữ
liệu bị thiếu bằng giá trị trung bình của các giá trị trong thuộc tính đó
Phân tách d ữ liệu:
− Lọc từ dữ liệu gốc “audit_risk”, nhóm đã sử dụng công cụ Data Sampler tách dữ liệu khảo sát ban đầu thành hai file riêng biệt để thực hiện việc phân lớp dữ liệu như sau: Sử dụng 70% dữ liệu ban đầu để làm dữ liệu mẫu huấn luyện mô hình phân lớp dữ liệu (audit_risk.tab) Và sử dụng 30% dữ liệu còn lại để làm dữ liệu dự báo cho nghiên cứu (audit_risk_forecast.tab)
− Xác định biến độc lập và biến phụ thuộc:
+ Biến phụ thuộc là “Risk”
+ Biến độc lập là các thuộc tính còn lại
2 Bài toán 1: Phát hiện các điểm đặc thù (các yếu tố gây ra gian lận) của
d ữ liệu dựa vào lược đồ và các công cụ thống kê
a Mô tả bài toán
− Mỗi hàng đại diện cho 1 công ty, mỗi cột tương ứng với các thuộc tính của đối tượng
− Bài toán tìm ra một số điểm khác biệt và thể hiện một cách trực quan trong các thuộc tính giữa doanh nghiệp gian lận và không gian lận
− Các thuộc tính được xem xét và đánh giá sự phân bổ bằng biểu đồ để xác định mức độ ảnh hưởng của thuộc tính đến với kết quả “Risk 0” hay “Risk 1”
b Các phương pháp thể hiện - đánh giá dữ liệu
− Biểu đồ thanh: Thể hiện một cách trực quan nhất sự chênh lệch của các thuộc tính ( đặc điểm dữ liệu) trong việc đánh giá và đưa ra kết quả “Có”
hoặc “không” xảy ra rủi ro gian lận
− Biểu đồ histogram: Phân bổ chỉ số điểm và tần suất xuất hiện của các chỉ
số đối với kết quả 2 loại công ty
− Biểu đồ phân tán điểm (Scatter plot): Biểu đồ phân tán thể hiện mối tương quan giữa 2 thuộc tính, đưa ra cái nhìn khái quát của mối liên hệ giữa 2 thuộc tính dữ liệu đó
Trang 1212
Bi ểu đồ 4: Sự chênh lệch được tìm thấy trong báo cáo cuộc điều tra và báo cáo tóm t ắt
Các chỉ số Para A (khác biệt A) của “Risk 0” tập trung hoàn toàn từ mức 0-1 Trái
lại, chỉ số này đối với “Risk 1” lại được phân rải giảm dần từ mức 1-90 Bên cạnh
đó mức độ phủ của “Risk 1” hoàn toàn áp đảo “Risk 0” Sự khác biệt này được
thể hiện rõ ở biểu đồ này và tương tự như với Para B
− Risk_A, Risk_B: Giá trị rủi ro của các báo cáo trong quá khứ
Bi ểu đồ 5,6: Giá trị rủi ro của báo cáo A (bên trái) và báo cáo B (bên phải) trong quá kh ứ
Có thể thấy chỉ số chỉ số giá trị rủi ro gian lận trong báo cáo có xu hướng tỉ lệ thuận với giá trị khác biệt lịch sử Với chỉ số khác biệt và chỉ số giá trị rủi ro càng cao thì lại càng có nguy cơ xuất hiện gian lận trong kiểm toán Trong đại đa
số giá trị của 2 chỉ số này không có sự chênh lệch quá lớn Đối với báo cáo A, giá
Downloaded by chinh toan (vuchinhhp22@gmail.com)
Trang 1313
trị chủ yếu từ 30 đổ xuống, bên cạnh đó, đối với báo cáo B thì 2 chỉ số được nhắc đến có sự phân tán rộng hơn ( 0-200)
− Total: Tổng số lượng khác biệt trong các báo cáo khác
Bi ểu đồ 7: Tổng số lượng khác biệt trong các báo cáo khác
Đúng như dự đoán và những lập luận ngay từ đầu, với sự khác biệt trong các báo cáo nói chung và trong báo cáo Rs hay các báo cáo còn lại nói riêng càng lớn (càng nhiều sự khác biệt) thì khả năng xảy ra “Risk 0” và “Risk 1” gần như có thể dự đoán Càng nhiều sự khác biệt, khả năng xảy ra rủi ro gian lận trong kiểm toán càng cao và với mức giá trị lớn hơn 7,66 gần như hoàn toàn có thể xảy ra gian lận “Risk 1”
− Number: Chỉ số chênh lệch khác biệt trong quá khứ
Downloaded by chinh toan (vuchinhhp22@gmail.com)
Trang 1414
Bi ểu đồ 8: Chỉ số chênh lệch khác biệt trong quá khứ
Biểu đồ trên cho thấy hầu như các công ty có khả năng xảy ra rủi ro, sẽ có chỉ số chênh lệch (chỉ số khác biệt) trong quá khứ dao động ở mức 4.8-5, ngược lại thì
chỉ số này ở mức cao hơn rất nhiều Dễ dàng thấy được, sự chênh lệch được tìm thấy ở hiện tại hay quá khứ chính là những yếu tố quan trọng để đánh giá và dự đoán công ty sẽ có thể xảy ra gian lận trong kiểm toán hay không Để làm rõ hơn, chúng ta sẽ đến với:
− Giá trị tổn thất (Loss_Score)
Downloaded by chinh toan (vuchinhhp22@gmail.com)
Trang 1515
Bi ểu đồ 9: Giá trị tổn thất (Loss-Score)
Do “Risk 0” có chỉ số chênh lệch ở mức ổn định, với sự chênh lệch này không đáng kể ở mức từ 1-2 Ngược lại với sự chênh lệch giữa quá khứ so với hiện tại
là rất lớn và phân bổ từ 2-7, cho thấy tỉ lệ xảy ra gian lận là có thể
− Money_Value:
Downloaded by chinh toan (vuchinhhp22@gmail.com)
Trang 1616
Bi ểu đồ 10: Money_Value – Chỉ số tiền liên quan đến sai sót
Tương tự như các thuộc tính trên thì chỉ số tiền liên quan đến sai sót ở “Risk 0” tập trung ổn định ở mức nhỏ hơn 20.689 Đối với “Risk 1” thì chỉ số này phân bố đều ở các mức lớn hơn 20.689, với giá trị lớn nhất (max) đạt đến mức 935.030
Bi ểu đồ 11: Detection-Risk – Rủi ro phát hiện
Rủi ro phát hiện – 1 trong 3 loại rủi ro gian lận trong kiểm toán thường gặp nhất
là thuộc tính dễ dàng dự đoán được khả năng xảy ra rủi ro của doanh nghiệp Với
mức chỉ số thấp hơn 0,5, công ty được dự đoán là “Risk 0” Ngược lại với “Risk 1”, chỉ số rủi ro phát hiện của kiểm toán từ 0,5 trở lên
Downloaded by chinh toan (vuchinhhp22@gmail.com)