Mục tiêu nghiên cứu Mục tiêu của luận văn là nghiên cứu vận dụng kỹ thuật khai phá dữ liệu Data Mining nhằm kiểm toán gian lận trên BCTC, cụ thể như sau: o Hệ thống hóa cơ sở lý luận về
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
- -
Trần Thị Phương Thanh
ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG
VIỆC KIỂM TOÁN GIAN LẬN TRÊN BÁO CÁO TÀI CHÍNH
LUẬN VĂN THẠC SỸ KINH TẾ
TP Hồ Chí Minh - Năm 2014
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
- -
Trần Thị Phương Thanh
ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG
VIỆC KIỂM TOÁN GIAN LẬN TRÊN BÁO CÁO TÀI CHÍNH
Chuyên ngành: Kế toán
Mã số: 60340301
LUẬN VĂN THẠC SỸ KINH TẾ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS Trần Phước
TP Hồ Chí Minh - Năm 2014
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan tất cả nội dung của luận văn này hoàn toàn được hình thành và phát triển từ những quan điểm của chính cá nhân tác giả, dưới sự hướng dẫn khoa học của PGS.TS Trần Phước Tất cả các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc, tất cả số liệu và kết quả trình bày trong luận văn là hoàn toàn trung thực
Tác giả luận văn
Trần Thị Phương Thanh
Trang 4MỤC LỤC TRANG PHỤ BÌA
LỜI CAM ĐOAN
MỤC LỤC
DANH MỤC KÝ HIỆU – CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG BIỂU
DANH MỤC HÌNH
PHẦN MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Tổng quan về nghiên cứu 2
3 Mục tiêu nghiên cứu 3
4 Đối tượng và phạm vi nghiên cứu 4
5 Phương pháp nghiên cứu 4
6 Đóng góp của luận văn 5
7 Kết cấu của luận văn 5
CHƯƠNG 1 CƠ SỞ LÝ LUẬN VỀ PHÂN CỤM DỮ LIỆU VÀ GIAN LẬN BÁO CÁO TÀI CHÍNH 6
1.1 Khai phá dữ liệu 6
1.1.1 Tổng quan về khai phá dữ liệu 6
1.1.1.1 Định nghĩa 6
1.1.1.2 Các kỹ thuật tiếp cận trong khai phá dữ liệu 8
1.1.2 Ứng dụng của khai phá dữ liệu 9
1.1.3 Phân cụm dữ liệu 10
1.1.3.1 Định nghĩa 10
1.1.3.2 Yêu cầu của phân cụm dữ liệu 10
1.1.3.3 Các đặc trưng cơ bản để phân cụm dữ liệu 11
1.1.3.4 Các phương pháp phân cụm dữ liệu 12
1.1.3.5 Nhận xét phương pháp phân cụm dữ liệu 15
1.2 Tổng quan tình hình nghiên cứu về phân cụm dữ liệu 16
1.2.1 Tình hình nghiên cứu trên thế giới 16
1.2.2 Tình hình nghiên cứu trong nước 18
Trang 51.3 Gian lận 19
1.3.1 Tổng quan về gian lận 19
1.3.1.1 Định nghĩa 19
1.3.1.2 Lịch sử các công trình nghiên cứu về gian lận 20
1.3.1.3 Các yếu tố của gian lận 29
1.3.2 Ảnh hưởng của công nghệ thông tin đến BCTC trong mối quan hệ với gian lận và sai sót 30
Kết luận chương 1 32
CHƯƠNG 2 THỰC TRẠNG GIAN LẬN BÁO CÁO TÀI CHÍNH VÀ TÌNH HÌNH SỬ DỤNG TỶ SUẤT TÀI CHÍNH 34
2.1 Sơ lược về thực trạng gian lận BCTC 34
2.1.1 Thực trạng gian lận BCTC trên thế giới 34
2.1.2 Thực trạng gian lận BCTC tại Việt Nam 36
2.1.3 Các thủ thuật gian lận BCTC 39
2.2 Thực trạng các quy định về trách nhiệm của kiểm toán viên đối với gian lận BCTC 41
2.2.1 Chuẩn mực kiểm toán quốc tế 41
2.2.2 Thực trạng các quy định về trách nhiệm của KTV đối với gian lận trên BCTC tại Việt Nam 44
2.3 Kinh nghiệm của các công ty kiểm toán nước ngoài tại Việt Nam trong việc vận dụng kỹ thuật khai phá dữ liệu trong kiểm toán BCTC 46
2.3.1 KPMG Việt Nam 46
2.3.1.1 Lập kế hoạch kiểm toán 47
2.3.1.2 Đánh giá hệ thống kiểm soát nội bộ 47
2.3.1.3 Thiết kế và thực hiện thử nghiệm cơ bản 48
2.3.1.4 Kết thúc kiểm toán 48
2.3.2 Deloitte Việt Nam 48
2.3.3 Grant Thornton Việt Nam 49
2.4 Thực trạng sử dụng các tỷ suất tài chính nhằm phát hiện gian lận trên BCTC trong nghiên cứu trước đây và tại các công ty kiểm toán ở Việt Nam 51
2.4.1 Kết hợp giữa tỷ suất tài chính và kỹ thuật phân cụm dữ liệu trong việc phát hiện gian lận trên BCTC trong nghiên cứu trước đây 51
Trang 62.4.2 Thực trạng sử dụng tỷ suất tài chính trong việc phát hiện gian lận trên
BCTC tại các công ty kiểm toán ở Việt Nam 53
2.4.2.1 Theo chương trình kiểm toán mẫu năm 2013 do VACPA ban hành 54
2.4.2.2 Theo chương trình kiểm toán tại Deloitte Việt Nam 55
2.4.2.3 Theo chương trình kiểm toán tại Grant Thornton Việt Nam 56
2.4.2.4 Theo chương trình kiểm toán tại KPMG Việt Nam 56
2.5 Đánh giá thực trạng ứng dụng tỷ suất tài chính trong việc phát hiện gian lận trên BCTC 57
2.5.1 Ưu điểm 57
2.5.2 Tồn tại 57
Kết luận chương 2 58
CHƯƠNG 3 ỨNG DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU TRONG VIỆC KIỂM TOÁN GIAN LẬN TRÊN BCTC, NHẬN XÉT VÀ KIẾN NGHỊ 59
3.1 Quan điểm về ứng dụng CNTT trong quá trình kiểm toán BCTC 59
3.1.1 Hạn chế làm thủ công 59
3.1.2 Ứng dụng triệt để CNTT vào trong quá trình kiểm toán 59
3.2 Ứng dụng kỹ thuật phân cụm dữ liệu phân hoạch K-means 60
3.2.1 Quy trình thực hiện phân cụm dữ liệu 60
3.2.2 Các công cụ thực hiện phân cụm dữ liệu 60
3.2.3 Thống kê mô tả về mẫu quan sát 62
3.2.4 Sự khác biệt trị trung bình giữa hai nhóm doanh nghiệp 64
3.2.5 Kết quả phân cụm dữ liệu K-Means 66
3.2.5.1 Tóm tắt kết quả phân tích cụm 66
3.2.5.2 Kết quả kiểm định AVOVA 69
3.2.5.3 Kết quả phân cụm dữ liệu cuối cùng 69
3.2.6 Phân tích dữ liệu cụm 2 70
3.2.6.1 Phân tích tỷ số đòn bẫy tài chính 70
3.2.6.2 Phân tích tỷ suất về khả năng sinh lời 72
3.2.6.3 Phân tích tỷ suất về cơ cấu tài sản 73
3.2.6.4 Phân tích tỷ số về tính thanh khoản 74
3.2.6.5 Phân tích chỉ số về quy mô doanh nghiệp 76
3.2.6.6 Phân tích hệ số về khả năng phá sản 77
Trang 73.3 Nhận xét và kiến nghị áp dụng 79
3.3.1 Nhận xét 79
3.3.2 Các kiến nghị áp dụng 80
3.3.2.1 Đối với kiểm toán viên và công ty kiểm toán 80
3.3.2.2 Đối với Ban quản trị doanh nghiệp 82
3.3.2.3 Đối với nhà trường và hiệp hội kiểm toán viên hành nghề 83
3.3.2.4 Đối với nhà đầu tư 83
KẾT LUẬN CHUNG 85 TÀI LIỆU THAM KHẢO
PHỤ LỤC
Trang 8DANH MỤC KÝ HIỆU – CHỮ VIẾT TẮT
1 ACFE Hiệp hội các nhà điều tra gian lận Mỹ
2 AICPA Viện kế toán công chứng Mỹ
3 BCTC Báo cáo tài chính
4 CNTT Công nghệ thông tin
5 DBMS Hệ quản trị cơ sở dữ liệu
6 HOSE Sàn giao dịch chứng khoán Thành phố Hồ Chí Minh
7 HASTC Sàn giao dịch chứng khoán Hà Nội
8 ISA Chuẩn mực kiểm toán Quốc tế
9 KTV Kiểm toán viên
10 KDD Quy trình khai phá tri thức
12 VSA Chuẩn mực kiểm toán Việt Nam
DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1: Báo cáo gian lận theo loại gian lận 27
Bảng 1.2: Báo cáo gian lận theo cấp bậc, chức vụ 27
Bảng 1.3: Báo cáo về thời gian phát hiện gian lận 28
Bảng 1.4: Báo cáo về gian lận theo giới tính 28
Bảng 1.5: Báo cáo về gian lận theo loại hình công ty 28
Bảng 1.6: Báo cáo về gian lận theo quy mô công ty 29
Bảng 2.1: Báo cáo về thủ thuật gian lận 39
Bảng 2.2: Thành phần và trọng số của Z-score 53
Bảng 2.3: Giải thích hệ số Z-score 53
Trang 9Hình 1.1: Quy trình khai phá dữ liệu từ kho dữ liệu 7
Hình 1.2: Mô phỏng sự phân cụm dữ liệu 10
Hình 1.3: Minh họa cho hai phương pháp tạo kiến trúc phân cấp cụm 14
Hình 1.4: Tam giác gian lận 21
Hình 1.5: Mô hình bàn cân gian lận 23
Hình 1.6: Sơ đồ phân loại gian lận theo ACFE 26
Hình 1.7: Mối quan hệ cá tính và gian lận 30
Hình 1.8: Kỹ thuật khai phá dữ liệu nhằm phát hiện gian lận tài chính 32
Hình 3.1: Sơ đồ quy trình phân cụm dữ liệu 60
Hình 3.2: Kết quả thống kê tỷ lệ doanh nghiệp gian lận 63
Hình 3.3: Đặc điểm của cụm cuối cùng qua các biến quan sát 68
Hình 3.4: Tần số đòn bẫy tài chính 71
Hình 3.5: Thống kê trị trung bình đòn bẫy tài chính theo năm 71
Hình 3.6: Thống kê trị trung bình tỷ suất sinh lời theo năm 72
Hình 3.7: Tần số tỷ suất sinh lời 73
Hình 3.8: Trị trung bình cơ cấu tài sản theo năm 74
Hình 3.9: Tần số cơ cấu tài sản 74
Hình 3.10: Trị trung bình chỉ số thanh khoản theo năm 75
Hình 3.11: Tần số tỷ số thanh khoản 75
Hình 3.12: Quy mô doanh nghiệp theo năm 76
Hình 3.13: Tần số của chỉ số Quy mô doanh nghiệp 77
Hình 3.14: Trị trung bình hệ số Z-score theo năm 78
Hình 3.15: Tần số của Z-score theo loại doanh nghiệp 78
DANH MỤC HÌNH
Trang 10PHẦN MỞ ĐẦU
1 Tính cấp thiết của đề tài
Ngày nay, cùng với sự thay đổi và phát triển không ngừng của công nghệ thông tin nói chung và trong các ngành công nghệ phần cứng, phần mềm, truyền thông và các hệ thống dữ liệu phục vụ cho các ngành kinh tế - xã hội nói riêng, lượng dữ liệu được tạo ra ngày càng lớn và phức tạp Sự bùng nổ dữ liệu này dẫn đến một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành tri thức có ích Cho đến những năm 90 của thế kỷ trước, hàng loạt các nghiên cứu về tổ chức các kho dữ liệu và kho thông tin, các hệ hỗ trợ ra quyết định, các thuật toán nhận dạng mẫu và phân lớp mẫu, v.v
và đặc biệt là khai phá dữ liệu (Data Mining) ra đời
Từ khi ra đời, khai phá dữ liệu đã trở thành một trong những hướng nghiên cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức Nhiều kết quả nghiên cứu đã được ứng dụng vào các lĩnh vực khoa học, kinh tế và xã hội Khai phá dữ liệu bao gồm nhiều hướng nghiên cứu quan trọng, một trong số đó là phân cụm dữ liệu (Data Clustering)
Trong thời gian gần đây, trong lĩnh vực phân cụm dữ liệu, người ta tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu phức tạp như web, hình ảnh, v.v và đặc biệt là dữ liệu hỗn hợp Vấn đề đặt ra là làm thế nào có thể rút trích được thông tin có ích từ kho dữ liệu kinh tế tài chính khổng lồ như hiện nay nhằm hỗ trợ cho các nhà quản trị, các chủ đầu tư, kiểm toán viên cũng như các tổ chức và hội kiểm toán viên hành nghề trong việc quản lý, đánh giá danh mục đầu tư để đưa ra các quyết định, thiết lập chiến lược, thủ tục kiểm toán và ban hành các chính sách, quy định
Gian lận trên Báo cáo tài chính (BCTC) là một trong những chủ đề thời sự hiện nay, đặc biệt là sau sự kiện hàng loạt các công ty hàng đầu trên thế giới bị phá sản vào đầu thế kỷ 21 như Enron, Worldcom, Global Crossing, v.v
Việc phát sinh gian lận trên BCTC ở những công ty có tầm vóc lớn đã làm phát sinh sự quan tâm ngày càng nhiều về tính trung thực và hợp lý của BCTC
Trang 11Điều này tạo nên thách thức lớn đối với người quản lý công ty cũng như các công ty kiểm toán và các kiểm toán viên (KTV)
Cùng với sự phát triển kinh tế thì số lượng các nghiệp vụ phát sinh của các doanh nghiệp ngày càng nhiều và phức tạp Điều này đã gây không ít khó khăn cho các doanh nghiệp kiểm toán, nhà quản lý trong việc phân tích dữ liệu, phát hiện hay ngăn chặn gian lận trên BCTC Sự ra đời của kỹ thuật khai phá dữ liệu (“Data Mining”) đã mở ra hướng giải quyết hữu hiệu cho các doanh nghiệp Data mining như là một công nghệ tri thức giúp khai phá những thông tin hữu ích từ những kho
dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty hay tổ chức nào
đó
Tại Việt Nam hiện nay, công nghệ “data mining” chưa phổ biến Thế nhưng các sự kiện như công ty Bông Bạch Tuyết (BBT), công ty Cổ phần Dược Viễn Đông (DVD) có thể không phải là những trường hợp duy nhất thiếu minh bạch dẫn đến thiệt hại cho các nhà đầu tư
Chính vì vậy, việc nghiên cứu ứng dụng của công nghệ “Data Mining” vào việc kiểm toán gian lận trên BCTC là thực sự cần thiết Tuy nhiên, do hạn chế về thời gian, luận văn chỉ đi sâu vào việc xem xét “Ứng dụng phân cụm dữ liệu trong việc kiểm toán gian lận trên Báo cáo tài chính”
2 Tổng quan về nghiên cứu
Tổng quan về khai phá dữ liệu: Khai phá dữ liệu (“KPDL”) là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu lớn cho các đơn vị, tổ chức, doanh nghiệp, v.v Từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của doanh nghiệp này và doanh nghiệp khác Tri thức mà khai phá dữ liệu mang lại giúp cho các doanh nghiệp kịp thời đưa ra các quyết định hay trả lời các câu hỏi trong sản xuất, kinh doanh cũng như hoạt động đầu tư Điều mà trước đây phần lớn các doanh nghiệp mất rất nhiều thời gian và nhân lực
Giáo sư Tom Mitchell (1999)[15] đã đưa ra định nghĩa về khai phá dữ liệu như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những quyết định trong tương lai”
Trang 12Tiến sĩ Fayyad (1996)[16] đã phát biểu: “KPDL thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu”
Tổng quan về gian lận trên BCTC: Gian lận với nghĩa hẹp là hành vi thiếu trung thực, dối trá, mánh khóe nhằm lừa gạt người khác Theo nghĩa rộng gian lận
là hành vi không hợp pháp nhằm lừa gạt, dối trá để thu được lợi ích nào đó
Theo chuẩn mực kiểm toán Việt Nam số 240 (VSA 240) [1], gian lận là hành
vi cố ý do một hay nhiều người trong Ban quản trị, Ban Giám đốc, các nhân viên hoặc bên thứ ba thực hiện bằng các hành vi gian dối để thu lợi bất chính hoặc bất hợp pháp
Theo công trình nghiên cứu gian lận của Hiệp hội các nhà điều tra gian lận
Mỹ (ACFE), có ba loại gian lận như sau:
o Biển thủ tài sản: xảy ra khi nhân viên biển thủ tài sản của tổ chức
o Tham ô: xảy ra khi người quản lý lợi dụng trách nhiệm và quyền hạn của họ tham ô tài sản của công ty hay hành động trái ngược với nghĩa vụ mà họ đã cam kết với tổ chức để làm lợi cho bản thân hay một bên thứ ba
o Gian lận trên BCTC: là trường hợp các thông tin trên BCTC bị bóp méo, phản ánh không trung thực tình hình tài chính một cách cố ý nhằm lừa gạt người sử dụng thông tin
3 Mục tiêu nghiên cứu
Mục tiêu của luận văn là nghiên cứu vận dụng kỹ thuật khai phá dữ liệu (Data Mining) nhằm kiểm toán gian lận trên BCTC, cụ thể như sau:
o Hệ thống hóa cơ sở lý luận về khai phá dữ liệu và phân cụm dữ liệu;
o Hệ thống hóa cơ sở lý luận về gian lận trong kiểm toán BCTC;
o Tóm lược về thực trạng gian lận BCTC, các quy định về trách nhiệm của kiểm toán viên trong quá trình kiểm toán BCTC trên thế giới và tại Việt Nam Đồng thời trình bày về thực trạng ứng dụng tỷ suất tài chính trong việc phát hiện gian lận trên BCTC tại các công ty kiểm toán;
o Vận dụng thành quả nghiên cứu về kỹ thuật phân cụm dữ liệu của Gupta và Gill (2012)[13] trên các tỷ suất tài chính, tiến hành phân cụm dữ liệu trên báo cáo tài
Trang 13chính của các doanh nghiệp niêm yết tại Việt Nam Sau đó thực hiện đối chiếu với
tỷ suất tài chính của các doanh nghiệp gian lận được công bố chính thức trong thời gian qua nhằm phát hiện các doanh nghiệp có dấu hiệu gian lận trên BCTC;
o Từ kết quả nghiên cứu trên, tác giả sẽ nhận xét và đưa ra các kiến nghị áp dụng đối với kiểm toán viên, doanh nghiệp kiểm toán; ban quản trị doanh nghiệp; nhà trường & hội kiểm toán viên hành nghề Việt Nam và các nhà đầu tư
4 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: kỹ thuật phân cụm dữ liệu (K-means) trên tỷ suất tài chính của các công ty niêm yết
Giới hạn của luận văn: luận văn chỉ nghiên cứu một mảng của khai phá dữ liệu đó là kỹ thuật phân cụm dữ liệu (K-means) được thực hiện trên tỷ suất tài chính của các công ty niêm yết trên sàn HOSE và HASTC
5 Phương pháp nghiên cứu
Phương pháp nghiên cứu định tính: Thông qua việc tổng hợp dữ liệu thứ cấp (tổng hợp từ các sách, giáo trình, internet, các nghiên cứu trước đây) để phân tích, nội suy nhằm đưa ra các yếu tố và tỷ suất tài chính thường dùng để phân tích gian lận trên BCTC
Phương pháp nghiên cứu định lượng: Với dữ liệu tài chính từ BCTC của các công ty niêm yết trên sàn giao dịch chứng khoán TP.HCM (HOSE) và Hà Nội (HASTC), dùng kiểm định trung bình hai mẫu độc lập (Independent sample t-test)
và phân cụm dữ liệu để phát hiện doanh nghiệp với các tỷ suất tài chính gần giống với tỷ suất tài chính của các doanh nghiệp gian lận được công bố chính thức Từ đó, tác giả đưa ra các kiến nghị cũng như hạn chế và hướng nghiên cứu tiếp theo
Trang 146 Đóng góp của luận văn
Nghiên cứu về ứng dụng của kỹ thuật phân cụm dữ liệu trong việc kiểm toán gian lận trên BCTC là rất cần thiết Nó góp phần hỗ trợ kiểm toán viên, công ty kiểm toán và nhà đầu tư trong việc đánh giá khách hàng cũng như danh mục đầu tư tiềm ẩn rủi ro gian lận Ngoài ra, nghiên cứu còn giúp cho Ban quản trị doanh nghiệp; Nhà trường & Hội kiểm toán viên hành nghề Việt Nam nhận thức rõ hơn về khai phá dữ liệu, cụ thể là phân cụm dữ liệu Từ đó có kế hoạch huấn luyện và đào tạo cho các kiểm toán viên nội bộ cũng như sinh viên và các kiểm toán viên hành nghề
7 Kết cấu của luận văn
o Chương 1: Cơ sở lý luận về phân cụm dữ liệu (“Clustering”) và gian lận trên BCTC Chương này trình bày khái quát về khai phá dữ liệu, phân cụm dữ liệu và gian lận trên BCTC Tác giả cũng đồng thời trình bày các nghiên cứu trước đây về phân cụm dữ liệu trong mối quan hệ với gian lận trên BCTC, các tỷ suất tài chính được sử dụng là yếu tố đầu vào cho quá trình phân cụm dữ liệu
o Chương 2: Thực trạng gian lận BCTC và tình hình sử dụng tỷ suất tài chính nhằm phát hiện gian lận trên BCTC Chương này trình bày về thực trạng gian lận BCTC trên thế giới và tại Việt Nam, quy định về trách nhiệm của KTV đối với gian lận BCTC Trong đó, tác giả cũng sẽ đồng thời trình bày về kinh nghiệm của các công ty kiểm toán nước ngoài tại Việt Nam trong việc vận dụng kỹ thuật khai phá
dữ liệu trong kiểm toán BCTC và tình hình sử dụng tỷ suất tài chính trong quá trình kiểm toán cũng như trong các nghiên cứu trước đây Từ đó rút ra ưu điểm và tồn tại của việc vận dụng kỹ thuật khai phá dữ liệu và tỷ suất tài chính trong quá trình kiểm toán BCTC hiện nay
o Chương 3: Ứng dụng kỹ thuật phân cụm dữ liệu trong việc kiểm toán gian lận trên BCTC, nhận xét và kiến nghị áp dụng Chương này sẽ trình bày về cách chọn biến quan sát, phương pháp kiểm định và kỹ thuật phân cụm dữ liệu Từ đó tác giả phân tích, nhận xét kết quả phân cụm dữ liệu và gợi ý các kiến nghị áp dụng
Trang 15CHƯƠNG 1
CƠ SỞ LÝ LUẬN VỀ PHÂN CỤM DỮ LIỆU VÀ
GIAN LẬN BÁO CÁO TÀI CHÍNH
“Necessity is the mother of invention” (Plato, 348 TCN) – Data mining ra đời như một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên Khá nhiều định nghĩa về Data mining và sẽ được đề cập sau, tuy nhiên có thể hiểu rằng Data mining như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty hay
tổ chức nào đó
Khai phá dữ liệu được định nghĩa như quá trình chắt lọc hay khai phá tri thức
từ một lượng lớn dữ liệu Thuật ngữ “data mining” chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một lượng lớn dữ liệu thô “Data mining” được ví dụ như việc “đãi cát tìm vàng” trong một tập hợp lớn các dữ liệu cho trước Hiện nay có nhiều thuật ngữ được sử dụng tương tự với “data mining” như “knowledge mining” (khai phá tri thức), “knowledge extraction” (chắt lọc tri thức), “data/pattern analysis” (phân tích dữ liệu/mẫu), “data dredging” (nạo vét dữ liệu)…(Han và Kamber, 2006) [11]
Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng
lồ và phức tạp, đồng thời cũng tìm ra các mẫu tìm ẩn trong tập dữ liệu đó
Khai phá dữ liệu là một bước trong 7 bước của quá trình khai phá dữ liệu (Knowledge Discovery in Database - KDD) và KDD bao gồm 7 quá trình khác nhau theo thứ tự như sau:
Trang 16Hình 1.1: Quy trình khai phá dữ liệu từ kho dữ liệu
(Nguồn: Han and Kamber, 2006 [11] Data mining: Concepts and Techniques)
1 Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu và các dữ liệu không cần thiết;
2 Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouse) sau khi đã làm sạch và tiền xử lý (data preprocessing);
3 Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu lớn ban đầu theo những tiêu chí nhất định;
4 Biến đổi dữ liệu (data transformation): là bước chuẩn hóa và làm mịn dữ liệu
để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau;
5 Khai phá dữ liệu (data mining): là bước áp dụng các kỹ thuật phân tích nhằm khai phá dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu Đây được xem là bước quan trọng và tốn thời gian nhất của toàn quá trình KDD;
6 Đánh giá mẫu (pattern evaluation): quá trình đánh giá các kết quả tìm được qua các thước đo nào đó;
7 Biểu diễn tri thức (knowledge presentation): quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người sử dụng
Trang 171.1.1.2 Các kỹ thuật tiếp cận trong khai phá dữ liệu
Nếu đứng trên quan điểm của học máy (Machine learning) thì các kỹ thuật trong Data mining bao gồm:
Học có giám sát (Supervised learning):
Là quá trình gán nhãn lớp cho các phần tử trong cơ sở dữ liệu dựa trên một tập các ví dụ huấn luyện và các thông tin về nhãn lớp đã biết
Học không có giám sát (Unsupervised learning):
Là quá trình phân chia một tập dữ liệu thành các lớp hay là cụm dữ liệu tương tự nhau mà chưa biết trước các thông tin về lớp hay tập các ví dụ huấn luyện Học nửa giám sát (Semi – Supervised learning):
Là quá trình phân chia một tập dữ liệu thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và một số các thông tin về một số nhãn lớp đã biết trước
Nếu căn cứ vào lớp các bài toán cần giải quyết thì Data mining bao gồm các
kỹ thuật sau:
Phân lớp và dự đoán (Classification & Prediction)
Là việc xếp các đối tượng vào một trong các lớp đã biết trước Phân lớp là lĩnh vực rất quan trọng trong khai phá dữ liệu, phân lớp còn được gọi là học có giám sát, hướng tiếp cận này thường được sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Phân tích luật kết hợp (Association rule)
Luật kết hợp là luật biểu diễn tri thức ở dạng tương đối đơn giản Mục tiêu của phương pháp này là phát hiện và đưa ra các mối quan hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh vực khác nhau như kinh doanh, y học, tài chính, thị trường chứng khoán, phân tích quyết định, phân tích thị trường, v.v Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa Thông tin mà dạng luật này đem lại rất có lợi trong các hệ hỗ trợ ra quyết định Tìm kiếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận chính trong lĩnh vực khai phá dữ liệu
Khai thác mẫu tuần tự (sequential/temporal patterns)
Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian
Trang 18Một luật mô tả mẫu tuần tự có dạng tiêu biểu X Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y Hướng tiếp cận này có tính
dự báo cao
Phân nhóm – đoạn (Clustering/Segmentation)
Mục tiêu chính của việc phân nhóm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các nhóm sao cho mức độ tương tự giữa các đối tượng trong cùng một nhóm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các nhóm khác nhau là nhỏ nhất Các nhóm có thể tách nhau hoặc phân cấp gối lên nhau và số lượng các nhóm là chưa biết trước Một đối tượng có thể vừa thuộc nhóm này, nhưng cũng có thể vừa thuộc nhóm khác Không giống như phân lớp dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu Vì thế có thể xem phân nhóm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example) Phân nhóm còn được gọi
là học không có giám sát (unsupervised learning) Phân nhóm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang web, v.v Ngoài ra phân nhóm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác
1.1.2 Ứng dụng của khai phá dữ liệu
Tại Việt Nam, khai phá dữ liệu là hướng tiếp cận khá mới Tuy nhiên đây là lĩnh vực thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu trên thế giới và
nó đã phát triển nhờ vào những ứng dụng của nó như:
o Phân tích dữ liệu và ra quyết định (data analysis & decision support);
o Điều trị y học (medical treatment);
o Tài chính và thị trường chứng khoán (finance & stock market);
hàng giá trị, phân loại và dự đoán hành vi khách hàng, v.v) sử dụng sản phẩm hay dịch vụ của công ty để công ty có chiến lược kinh doanh hiệu quả hơn
Trang 19Như vậy, khai phá dữ liệu đã được ứng dụng trong nhiều lĩnh vực kinh tế,
xã hội, y học, khoa học, v.v Tuy nhiên, ứng dụng những kỹ thuật này trong lĩnh vực kiểm toán BCTC còn rất hạn chế
Khai phá dữ liệu có thể giúp khám phá kiến thức tiềm ẩn, mối quan hệ không ngờ của các dữ liệu trong khối dữ liệu khổng lồ Với chức năng này kỹ thuật khai phá dữ liệu được ứng dụng để kiểm toán gian lận và nhầm lẫn trên BCTC Để thực hiện chức năng này kỹ thuật khai phá dữ liệu mô tả được sử dụng Kỹ thuật này dễ dàng ứng dụng trên khối dữ liệu chưa được biết trước Kỹ thuật khai phá dữ liệu mô
tả bao gồm luật liên kết, phân tích cụm và kỹ thuật phát hiện bất thường Trong phạm vi luận văn, tác giả đi sâu phân tích kỹ thuật phân cụm dữ liệu
sẽ đồng nhất cao trong khi giữa các cụm có sự khác biệt lớn
Các cụm được gom có chất lượng cao khi chúng tương tự cao trong lớp (intra-class) và tương tự thấp giữa các lớp (inter-class) Điều đó có nghĩa là các đối tượng trong cùng một nhóm có sự giống nhau hoặc gần giống nhau càng nhiều thì chất lượng gom cụm sẽ càng cao
Hình 1.2: Mô phỏng sự phân cụm dữ liệu
(Nguồn: Tác giả tổng hợp và mô phỏng) 1.1.3.2 Yêu cầu của phân cụm dữ liệu
Việc thiết kế và sắp xếp các cụm cần thỏa mãn các yêu cầu sau đây:
Trang 20 Yêu cầu về tính sẵn sàng cao (Availability): các tài nguyên mạng phải luôn sẵn sàng trong khả năng cao nhất để cung cấp và phục vụ cho người dùng cuối cùng và giảm thiểu sự ngưng hoạt động hệ thống ngoài ý muốn;
Yêu cầu về độ tin cậy cao (Realiability): độ tin cậy của cụm được hiểu là khả năng giảm thiểu tần số xảy ra sự cố và nâng cao khả năng chịu đựng sai sót của
hệ thống;
Yêu cầu về khả năng mở rộng được (Scalability): hệ thống phải có khả năng dễ dàng cho việc nâng cấp, mở rộng tương lai Việc nâng cấp mở rộng bao hàm cả việc thêm các thiết bị, máy tính vào hệ thống để nâng cao chất lượng dịch
vụ và thêm các tài nguyên mạng khác
Ba yêu cầu trên được gọi tắt là RAS (Realiability – Availability – Scalability), những hệ thống đáp ứng ba yêu cầu trên gọi là hệ thống RAS
1.1.3.3 Các đặc trưng cơ bản để phân cụm dữ liệu
Chọn lựa đặc trưng: các đặc trưng phải được lựa chọn một cách hợp lý để
có thể “mã hóa” nhiều nhất thông tin liên quan đến công việc quan tâm Mục tiêu chính là giảm thiểu sự dư thừa thông tin giữa các đặc trưng Các đặc trưng cần được
xử lý trước khi tiến hành các bước sau
Chọn độ gần gũi: đây là độ đo chỉ ra mức độ tương tự hay không tương tự giữa hai vectơ đặc trưng Phải đảm bảo rằng tất cả các vectơ đặc trưng góp phần như nhau trong việc tính toán độ đo gần gũi và không có đặc trưng nào át đặc trưng nào Điều này được đảm nhận bởi quá trình tiền xử lý
Tiêu chuẩn phân cụm: điều này phụ thuộc vào giải thích của chuyên gia cho thuật ngữ “dễ nhận thấy” dựa vào loại của các cụm được chuyên gia cho rằng ẩn dưới tập dữ liệu
Thuật toán phân cụm: cần lựa chọn một sơ đồ thuật toán riêng biệt nhằm làm sáng tỏ cấu trúc của tập dữ liệu
Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính đúng đắn của nó Điều này thường được thực hiện bởi việc dùng các kiểm định phù hợp
Trang 21Giải thích kết quả: trong nhiều trường hợp các chuyên gia trong lĩnh vực ứng dụng phải kết hợp kết quả phân loại với bằng chứng phân cụm và phân tích để đưa ra các kết luận đúng đắn
1.1.3.4 Các phương pháp phân cụm dữ liệu
Phương pháp phân hoạch: là tạo ra một phân hoạch của cơ sở dữ liệu D chứa
n đối tượng thành tập gồm k cụm sao cho:
Mỗi cụm chứa ít nhất một đối tượng
Mỗi đối tượng thuộc về đúng một cụm
Cho k, tìm một phân hoạch có k cụm nhằm tối ưu các tiêu chuẩn phân cụm được chọn
Các phương pháp phân cụm:
tâm của cụm (centroid);
đại diện bằng một trong các đối tượng của cụm (medoids)
Phương pháp phân cụm K-means:
Trọng tâm của cụm là một vec tơ, trong đó giá trị mỗi phần tử của nó là trung bình cộng của các thành phần tương ứng của các đối tượng vectơ dữ liệu trong cụm đang xem xét
Tham số đầu vào của thuật toán là số cụm k và tham số đầu ra của thuật toán
là các trọng tâm của các cụm dữ liệu
Độ đo khoảng cách giữa các đối tượng dữ liệu thường được sử dụng là khoảng cách Euclide, bởi vì đây là mô hình khoảng cách dễ lấy đạo hàm và cực trị tối thiểu
Thuật toán K-means bao gồm các bước sau:
Phân hoạch đối tượng thành k cụm
Tính các điểm hạt giống làm Centroid cho từng cụm trong cụm hiện hành
Gán từng đối tượng vào cụm có Centroid gần nhất
Quay về bước 2, chấm dứt khi không còn phép gán mới
Trang 22Cho đến nay có rất nhiều thuật toán kế thừa tư tưởng của thuật toán K-means
để giải quyết với tập dữ liệu có kích thước rất lớn, được áp dụng hiệu quả và phổ biến như thuật toán K-modes, PAM, CLARA, CLARANS, K-prototypes,…
Phương pháp K-medoids:
Đầu vào của thuật toán là số cụm k và cơ sở dữ liệu có n đối tượng
Thuật toán được tiến hành với 4 bước sau:
Chọn bất kỳ k đối tượng nào làm medoids ban đầu (đối tượng làm đại diện)
Gán từng đối tượng còn lại vào cụm có medoids gần nhất
Chọn nonmedoids và thay một trong các medoids bằng nó nếu nó cải thiện chất lượng
Quay về bước 2, dừng khi không còn phép gán mới
Phương pháp phân cấp: tạo phân cấp cụm chứ không phải là một phân hoạch đơn thuần các đối tượng, không cần dữ liệu là số cụm k, dùng ma trận để làm tiêu chuẩn gom cụm
Cây các cụm hay còn được gọi là Dendrogram:
Các lá của cây thể hiện các đối tượng riêng lẻ
Các nút của cây biểu diễn các cụm
Phương pháp tạo kiến trúc cụm (xem Hình 2.3):
Gộp – agglomerative (từ dưới lên): đưa từng đối tượng vào cụm riêng của
nó, trộn mỗi bước hai cụm tương tự nhất cho đến khi chỉ còn một cụm hay thỏa mãn các điều kiện kết thúc
Phân chia – Divisive (từ trên xuống): bắt đầu bằng một cụm lớn chứa tất
cả các đối tượng, phân chia cụm phân biệt nhất thành các cụm nhỏ hơn và xử lý cho đến khi có n cụm hay thỏa mãn điều kiện kết thúc
Trang 23Hình 1.3: Minh họa cho hai phương pháp tạo kiến trúc phân cấp cụm
(Nguồn: Tác giả tổng hợp) Các thuật toán phổ biến là BIRCH (Balanced Reducing and Clustering Using Hierarchies) và CURE (Clustering Using Representatives) Thuật toán BIRCH là thuật toán phân cụm phân cấp sử dụng chiến lược phân cụm từ trên xuống (top down) Thuật toán CURE là thuật toán sử dụng chiến lược dưới lên (Bottom up) của
kỹ thuật phân cụm phân cấp
Các cụm có thể được xem như các vùng có mật độ cao, được tách ra bởi các vùng không có hoặc ít mật độ Khái niệm mật độ ở được xem như là số các đối tượng láng giềng Các thuật toán phân cụm dựa trên mật độ phổ biến nhất là DBSCAN (Density – Based Spatial Clustering of Application with noise), OPTICS (Ordering Points to Identify the Clustering Structure) và DENCLUE (Density – Based Clustering)
Phân cụm dữ liệu dựa trên lưới như thuật toán STING (Statistical Information Grid) Phân cụm dữ liệu dựa vào không gian con như thuật toán CLIQUE, v.v
Trang 241.1.3.5 Nhận xét phương pháp phân cụm dữ liệu
Thuật toán K-means chỉ thích hợp để tìm kiếm các cụm dữ liệu có dạng hình cầu, không thích hợp với việc xác định các cụm với hình dạng bất kỳ Nhưng trong trường hợp các cụm khá gần nhau thì một số đối tượng của một cụm có thể là nằm cuối trong các cụm khác
Thuật toán PAM là cải tiến của K-means nhằm khắc phục trong những trường hợp dữ liệu chứa nhiễu hoặc các phần tử ngoại lai
CLARA và CLARANS là các thuật toán dựa trên hàm tiêu chuẩn của thuật toán PAM Đây là các thuật toán có khả năng áp dụng với tập dữ liệu lớn, nhưng hiệu quả của chúng phụ thuộc vào kích thước của mẫu được phân Thuật toán CLARANS hiệu quả hơn so với thuật toán CLARA
Hạn chế chung của các thuật toán phân cụm phân hạch là chỉ thích hợp với
dữ liệu số và ít chiều, và chỉ khám phá ra các cụm dạng hình cầu Thế nhưng, chúng lại áp dụng tốt với dữ liệu có các cụm phân bố độc lập và trong mỗi cụm có mật độ phân bố cao
Khi cụm được trộn/tách, quyết định là vĩnh cửu, số phương pháp khác nhau cần được xem xét rút giảm Tuy nhiên khi trộn/tách là vĩnh cửu thì quyết định sai thì không thể khắc phục về sau Các phương pháp phân chia thì cần thời gian tính toán Các phương pháp không mở rộng được cho các tập tin dữ liệu lớn
Ngoài ra còn cực tiểu hóa các ảnh hưởng của các phần tử ngoại lai Có thể quan tâm khai thác các phần tử ngoại lai và ứng dụng vào lĩnh vực phát hiện tội phạm, tiếp thị, y khoa, v.v
Phương pháp dựa trên mật độ thường áp dụng cho các tập dữ liệu có không gian lớn đa chiều
Thuật toán DBSCAN có thể tìm ra các cụm với hình thù bất kỳ và tại một thời điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng dữ liệu nhập vào
Trang 25Thuật toán OPTICS là thuật toán mở rộng của thuật toán DBSCAN bằng cách giảm các tham số đầu vào OPTICS sắp xếp các cụm theo thứ tự tăng dần nhằm tự động phân cụm dữ liệu
Thuật toán DENCLUE có khả năng xử lý các phần tử ngoại lai, cho phép khám phá ra các cụm với hình thù bất kỳ ngay cả đối với dữ liệu đa chiều
Nhìn chung về kỹ thuật phương pháp dựa trên mật độ khá phức tạp do có sự khác biệt giữa mật độ của các đối tượng trong mẫu với mật độ của toàn bộ dữ liệu
Thuật toán STING có lợi thế hơn so với các phương pháp khác là tính toán dựa trên lưới nên chỉ cần thông tin tóm tắt của dữ liệu trong cells chứ không phải là
dữ liệu thực tế, cấu trúc dữ liệu lưới thuận tiện cho quá trình xử lý song song và cập nhật liên tục
Hạn chế của thuật toán này là hoàn toàn phụ thuộc vào tính chất hộp ở mức thấp nhất của cấu trúc lưới Nếu tính chất hộp là mịn dẫn đến chi phí và thời gian xử
lý tăng, tính toán trở nên phức tạp Nếu mức dưới cùng là quá thô thì nó có thể làm giảm bớt chất lượng và độ chính xác của phân tích cụm
1.2 Tổng quan tình hình nghiên cứu về phân cụm dữ liệu
1.2.1 Tình hình nghiên cứu trên thế giới
Theo công trình nghiên cứu về “Đánh giá khả năng gian lận trên BCTC thông qua các yếu tố của tam giác gian lận” (Lou & Wang, 2009) [14], trong suốt hai thập kỷ vừa qua, vấn đề gian lận BCTC đã thu hút rất nhiều sự quan tâm của cả những người nghiên cứu hàn lâm lẫn những người hành nghề Công trình nghiên cứu đầu tiên về tín hiệu dự đoán gian lận (“red flags”) đã được xuất bản năm 1986 (Albrecht và Rommey) Năm 1988, Viện kế toán công chứng Mỹ (AICPA) đã ban hành SAS 53 (“Statement on Auditing Standards”) nhằm làm rõ trách nhiệm của kiểm toán viên trong việc phát hiện gian lận và tập trung vào đánh giá rủi ro gian lận trên BCTC thông qua các nhân tố rủi ro (“risk factors”) hay tín hiệu gian lận (“red flags”) Loebbecke, Eining và Willingham (1989) đã xây dựng mô hình dự đoán gian lận dựa trên các nhân tố rủi ro được đề cập trong SAS 53
Nhiều nghiên cứu sau đó đã mở rộng mô hình nghiên cứu của Loebbecke, Eining và Willingham (1989) với nhiều tín hiệu gian lận (“red flags”) (Bell, 1991;
Trang 26Bell và Carcello, 2000; Hansen, 1996; Apostolou, 2001; Nieschwietz, 2000; Wilks
và Zimbelman, 2004) Tuy nhiên dữ liệu về các tín hiệu trên không có sẵn cho người nghiên cứu hay những người sử dụng khác và rất khó để thực hiện trong thực tiễn (Owusu-Ansah, 2002) Ví dụ: sự thiếu tính trung thực của Ban quản lý là tín hiệu gian lận nhưng lại mang tính xét đoán khách quan
Một nhóm nghiên cứu khác đã xem xét liệu việc phân tích các chỉ số tài chính có hữu ích trong việc phát hiện gian lận hay không? Năm 1994, mô hình nghiên cứu về gian lận dựa trên các thông tin được công bố ra đời (Calderon và Green) Và hàng loạt các nghiên cứu sau đó đã sử dụng các dữ liệu tài chính và hoạt động để phân tích (Calderon và Green, 1994; Blocher và Cooper, 1988; Blocher, 1992) Person (1995) chỉ dựa vào các tỷ suất tài chính tiềm ẩn khả năng gian lận BCTC bao gồm tỷ suất đòn bẫy tài chính, hệ số sử dụng tài sản, hiệu quả sử dụng tài sản và quy mô doanh nghiệp như dấu hiệu chính để phân tích và phát hiện gian lận Năm 1996, Heiman-Hoffman và các cộng sự cho rằng yếu tố thái độ, cá tính quan trọng hơn so với yếu tố về động cơ, áp lực hay cơ hội Kết quả điều tra các kiểm toán viên độc lập và kiểm toán nội bộ thông qua các tín hiệu gian lận được đề cập trong SAS 82, cho thấy tính cách, đặc điểm của Ban quản lý là dấu hiệu chính
để dự đoán gian lận (Apostolou, 2001)
Theo khảo sát về “Các công trình nghiên cứu nhằm phát hiện gian lận BCTC bằng kỹ thuật phân cụm dữ liệu” của Sabau (2012) [6] cho thấy một số công trình nghiên cứu tiêu biểu như sau:
Jans, Lybaert và Vanhoof (2007) đã thực hiện nghiên cứu “Khai phá dữ liệu trong việc phát hiện gian lận nhằm cải thiện hệ thống kiểm soát nội bộ” Các tác giả đã tiến hành phân cụm K-means trên các biến quan sát và phân tích ANOVA Kết quả nghiên cứu nhận dạng được ba loại gian lận liên quan đến quy trình mua hàng đó là thanh toán trùng hóa đơn, thay đổi đơn đặt hàng, chệnh lệch của đơn đặt hàng Từ đó đề xuất các biện pháp cải thiện hệ thống kiểm soát nội bộ
Năm 2009, Deng và Mei đã thực hiện khá thành công nghiên cứu “Kết hợp mạng nhân tạo Nơron và phân cụm dữ liệu K-means trong việc phát hiện gian lận BCTC” Tác giả tiến hành tính các tỷ suất tài chính từ các BCTC của 100 công
ty niêm yết trên thị trường chứng khoán Trung Quốc từ năm 1999 – 2006 Kỹ thuật
Trang 27mạng nhân tạo Nơron được thực hiện trên 47 tỷ suất tài chính Sau đó phân cụm means được tiến hành dựa trên kết quả của mạng nhân tạo Nơron
K-Nghiên cứu của Jans, Lybaert và Vanhoof (2010) về “Giảm rủi ro gian lận nội bộ: Kết quả của khai phá dữ liệu trong từng tình huống” Các tác giả đã sử dụng kỹ thuật phân cụm mờ trong việc phát hiện gian lận trong các thủ tục đấu thầu
Năm 2011, Glancy và Yadav đã thực hiện nghiên cứu và xây dựng “Mô hình tính toán nhằm phát hiện gian lận BCTC” Tác giả đã tiến hành thu thập dữ liệu tài chính đã được công bố và phân thành hai nhóm: doanh nghiệp gian lận và doanh nghiệp không gian lận Dữ liệu được xử lý thông qua kỹ thuật phân loại dữ liệu văn bản, sau đó tiến hành kỹ thuật phân cụm phân cấp gộp từ dưới lên (Hierarchical agglomerative clustering)
Như vậy, phần lớn các nghiên cứu trước đây chỉ tập trung vào việc phát hiện gian lận trên BCTC Tuy nhiên, khi gian lận được phát hiện thì ảnh hưởng của nó sẽ lan tỏa và gây thiệt hại rất nhiều cho các đối tượng có liên quan
Có rất ít công trình nghiên cứu về việc ngăn chặn gian lận BCTC dựa trên các dữ liệu công bố Năm 2012, Gupta và Gill [13] đã vận dụng kỹ thuật khai phá dữ liệu mô tả (“descriptive data mining”) vào việc phân tích dữ liệu công bố đại chúng nhằm dự đoán doanh nghiệp gian lận trên BCTC Trong nghiên cứu này, hai kỹ thuật: luật liên kết (“association rules”) và phân cụm dữ liệu (“clustering analysis”)
đã được vận dụng trên 62 chỉ số tài chính về thanh khoản, an toàn, lợi suất và hiệu quả; 2 biến số về hành vi là thời gian hoạt động (thâm niên) và quy mô doanh nghiệp dựa trên tài sản và doanh số
1.2.2 Tình hình nghiên cứu trong nước
Đề tài “Khai phá dữ liệu về kết quả học tập của học sinh trường Cao Đẳng
đã nghiên cứu ứng dụng kỹ thuật phân cụm trong khai phá dữ liệu để khai thác thông tin từ điểm của học sinh trường Cao đẳng nghề Văn Lang Hà Nội Sự ảnh hưởng của vùng miền, của hoàn cảnh gia đình, dân tộc, đạo đức, v.v đến kết quả học tập của học sinh, phân loại kết quả học tập để đánh giá một cách nhanh chóng nhận thức của người học Từ đó có những điều chỉnh phương pháp giảng dạy của giáo viên phù hợp với năng lực của người học;
Trang 28Đề tài “Khai phá dữ liệu phát hiện gian lận trong bảo hiểm y tế” năm 2012 của Thạc sĩ Lã Thúy Hà [3], đề tài đã nghiên cứu và ứng dụng kỹ thuật khai phá dữ liệu trên tổng chi phí của từng bệnh nhân để phát hiện các hành vi gian lận một cách tự động dựa trên dấu hiệu bất thường so với dữ liệu quá khứ
Hiểu theo nghĩa rộng, gian lận là việc thực hiện các hành vi không hợp pháp nhằm lường gạt, dối trá để thu được lợi ích nào đó Có ba cách thông thường nhất
để thực hiện gian lận đó là chiếm đoạt, lừa đảo và biển thủ
Về phương diện kế toán, theo chuẩn mực quốc tế số 10 (IAS 10), gian lận được định nghĩa là những sai phạm trong tính toán, trong việc áp dụng chính sách
kế toán, giải thích sai thực tế, gian lận hay cố ý bỏ sót
Về phương diện kiểm toán, theo chuẩn mực kiểm toán quốc tế số 240 năm
2012 (ISA 240) về trách nhiệm của KTV đối với gian lận trong quá trình kiểm toán BCTC, gian lận và nhầm lẫn được định nghĩa như sau:
Nhầm lẫn là những lỗi không cố ý xảy ra ảnh hưởng đến BCTC như bỏ sót một khoản tiền hay quên không khai báo thông tin trên BCTC Các ví dụ thông thường về nhầm lẫn trong quá trình thu thập và xử lý số liệu và trình bày trên BCTC, nhầm lẫn trong các ước tính kế toán hay trong việc áp dụng sai các nguyên tắc kế toán
Gian lận là hành vi cố của một hay nhiều người trong Ban quản lý, Ban Giám đốc, nhân viên hay bên thứ ba nhằm lừa gạt người khác để đạt được lợi ích nào đó Hành vi gian lận được chia thành hai loại: Gian lận trên BCTC và hành vi biển thủ tài sản
Trang 29Gian lận trên BCTC là làm thay đổi, làm giả mạo các chứng từ kế toán hoặc ghi chép sai; không trình bày hoặc cố ý bỏ sót các thông tin quan trọng trên BCTC;
cố ý không áp dụng, không tuân thủ các nguyên tắc kế toán, chuẩn mực kế toán; giấu diếm hay bỏ sót không ghi chép các nghiệp vụ phát sinh, ghi chép các nghiệp
vụ không xảy ra
Biển thủ tài sản là biển thủ một khoản tiền thu được; đánh cắp một tài sản vật chất hay một tài sản trí tuệ; sử dụng tài sản của công ty vào việc riêng
Bên cạnh các định nghĩa tìm thấy trong chuẩn mực kế toán và kiểm toán, định nghĩa về gian lận còn được tìm thấy trong các công trình nghiên cứu về gian lận
Theo báo cáo của Ủy ban thuộc Hội đồng Quốc gia về chống gian lận trên BCTC của Hoa Kỳ hay còn được gọi là Treadway Commission năm 1987, gian lận được định nghĩa: Gian lận trên BCTC là hành vi cố ý bỏ sót không ghi chép các nghiệp vụ phát sinh hay công bố thiếu thông tin tài chính nhằm đánh lừa người sử dụng thông tin, đặc biệt là nhà đầu tư và chủ nợ Gian lận trên BCTC có thể bao gồm các loại sau đây:
để thay đổi các nghiệp vụ, các khoản mục, tài sản;
Cố ý bỏ sót hay không trình bày những thông tin quan trọng trên BCTC;
tục được sử dụng để đo lường, ghi nhận, báo cáo và công bố những sự kiện và các giao dịch kinh tế;
sách liên quan tới các số liệu tài chính
1.3.1.2 Lịch sử các công trình nghiên cứu về gian lận
Gian lận bắt đầu xuất hiện từ khi có sự xuất hiện của con người Thế nhưng nghiên cứu đầy đủ về gian lận mới chỉ xuất hiện vài thế kỷ gần đây So với thiệt hại
do gian lận gây ra cho nền kinh tế thì những nghiên cứu về gian lận chỉ dừng lại ở mức độ nhất định Sau đây là tóm tắt một số công trình nghiên cứu về gian lận kinh điển trên thế giới
Trang 30 Edwin H Sutherland:
Edwin H Sutherland là nhà nghiên cứu về tội phạm người Mỹ Edwin là người tiên phong trong việc nghiên cứu về gian lận do những nhà quản trị cao cấp nhằm lường gạt công chúng Cho đến nay, những lý thuyết về gian lận vẫn dựa chủ yếu vào những nghiên cứu của ông Ông không phải là người có công đầu trong việc phân tích tâm lý của những kẻ phạm tội nhưng ông là cha đẻ của thuật ngữ
“white collar” – một thuật ngữ mà ngày nay trở thành rất thông dụng khi người ta muốn ám chỉ tới những gian lận do tầng lớp lãnh đạo của công ty gây ra
Một đóng góp to lớn trong sự nghiệp của Sutherland là lý thuyết về phân loại
xã hội Nghiên cứu này chủ yếu dựa vào việc quan sát tội phạm đường phố: những
kẻ lưu manh, sát thủ hay những kẻ du thủ du thực Qua đó, Sutherland đã rút ra một kết luận: việc phạm tội thường phát sinh từ môi trường sống, vì thế hành vi phạm tội không thể được tiến hành nếu như không có sự tác động của yếu tố bên ngoài
Để hiểu rõ bản chất và nhận diện tội phạm, cần nghiên cứu thái độ cũng như động
cơ thúc đẩy hành vi phạm tội
Donald R Cressy:
Donald R Cressy là học trò xuất sắc của Sutherland tại trường đại học Indian Khác với bậc thầy của mình, Cressy chỉ tập trung phân tích gian lận dưới gốc độ tham ô và biển thủ Ông là người phát minh tam giác gian lận (xem Hình 1.4) Mô hình này đã trở thành một trong những mô hình chính thống dùng trong nhiều nghề nghiệp khác nhau như kiểm toán, an ninh, điều tra tội phạm, v.v
Hình 1.4: Tam giác gian lận
(Nguồn: Donald R Cressy, 1950 In the People’s money: A study in the
Social Psychplogy of Embezzlement) Theo Donald R Cressy, hành vi gian lận chỉ phát sinh khi hội đủ 3 nhân tố sau: áp lực, động cơ và cá tính của con người
Thái độ, cá tính
Cơ hội
Áp lực
GIAN LẬN
Trang 31o Áp lực: khởi nguồn của việc thực hiện gian lận là do người thực hiện chịu nhiều áp lực Áp lực có thể là những bế tắc trong cuộc sống cá nhân như do khó khăn về tài chính, do sự rạn nứt trong mối quan hệ giữa người chủ và người làm thuê
o Cơ hội: khi đã bị áp lực, nếu có cơ hội họ sẽ sẵn sàng thực hiện hành vi gian lận Có 2 yếu tố liên quan đến gian lận là nắm bắt thông tin và có kỹ năng thực hiện
o Thái độ, cá tính: công trình nghiên cứu của Cressy cho thấy rằng tùy theo cá tính mà hành vi gian lận có được thực hiện hay không Không phải mọi người khi gặp khó khăn và có cơ hội cũng đều thực hiện gian lận mà phụ thuộc rất nhiều vào thái độ cá tính của từng cá nhân Có những người dù chịu áp lực và có cơ hội thực hiện nhưng vẫn không thực hiện gian lận và ngược lại Nghiên cứu của Hiệp hội các nhà điều tra gian lận Mỹ (1996) cho thấy có 80% người khi có cơ hội và chịu áp lực
họ sẽ thực hiện hành vi gian lận với lý lẽ tự an ủi là họ sẽ không để chuyện này lặp lại Và Cressy cho rằng đây là phản ứng tự nhiên của con người: lần đầu tiên khi làm những điều trái với lương tâm và đạo đức của mình, họ sẽ bị ám ảnh Nhưng ở những lần kế tiếp, người thực hiện sẽ không cảm thấy băn khoăn và mọi việc diễn
ra dễ dàng hơn, dễ được chấp nhận hơn
Tam giác gian lận của Cressy được sử dụng để lý giải rất nhiều vụ gian lận, tất nhiên nó không giống như tiên đề nên khó có thể khẳng định rằng mô hình này đúng với mọi trường hợp Bên cạnh việc xây dựng thành công tam giác gian lận, Cressy cũng là sáng lập viên của Hiệp hội các chuyên gia phát hiện gian lận Hoa Kỳ (ACFE)
D.W Steve Albrecht:
Ông là tác giả của mô hình nổi tiếng, mô hình về bàn cân gian lận Mô hình này gồm có ba nhân tố: hoàn cảnh tạo ra áp lực, nắm bắt cơ hội và tính liêm chính của cá nhân (xem Hình 1.5) Theo Albrecht, khi hoàn cảnh tạo ra áp lực, cơ hội thực hiện gian lận cao cùng với tính liêm chính của cá nhân thấp thì nguy cơ xảy ra gian lận là rất cao Và ngược lại, khi hoàn cảnh tạo ra áp lực, cơ hội thực hiện gian lận thấp cùng với tính liêm chính cao thì nguy cơ xảy ra gian lận là rất thấp
Trang 32Hình 1.5: Mô hình bàn cân gian lận
(Nguồn: Albrecht, Howe, Romey Deferring fraud: The Internal Auditor’s
Perspective, trang 6) Theo ông, hoàn cảnh tạo áp lực có thể liên quan đến những khó khăn về tài chính Cơ hội thực hiện gian lận có thể do cá nhân đó tự tạo ra hay do sự yếu kém của hệ thống kiểm soát nội bộ Đây là công trình nghiên cứu có đóng góp rất lớn trong việc xây dựng hệ thống kiểm soát nội bộ Ngoài ra, ông còn tìm ra mối liên hệ giữa cá tính của người thực hiện gian lận và loại gian lận mà anh ta thực hiện
Richard C Hollinger:
Cùng với đồng sự của mình, Richard C Hollinger và John P Clark đã cho ra đời cuốn sách “Khi nhân viên biển thủ” vào năm 1983 sau một cuộc nghiên cứu công phu với mẫu chọn là hơn 10.000 nhân viên làm việc tại Hoa Kỳ Cuốn sách này có sức hút rất lớn với những nhà nghiên cứu về gian lận vì nó đã đưa ra một kết luận có tính chất khác biệt so với mô hình tam giác gian lận kinh điển của Cressy
Hollinger và Clark cho rằng nguyên nhân chủ yếu của gian lận chính là điều kiện nơi làm việc Ông đưa ra một loạt các giả thuyết về tình trạng nhân viên biển thủ tài sản của công ty:
o Nền kinh tế có những khó khăn chung: giá cả tăng, đồng tiền mất giá;
o Những người đương thời, đặc biệt là những người trẻ tuổi thường kém trung thực và không chịu khó làm bằng những thế hệ đi trước;
o Bản chất tự nhiên của con người là lòng tham và không trung thực vì thế các nhân viên thường cố gắng lấy cắp tài sản của công ty khi có cơ hội;
Trang 33o Sự không hài lòng, không thỏa mãn với công việc cũng là một trong những nguyên nhân nguyên phát của việc biển thủ;
o Và cuối cùng là do cấu trúc công ty có hợp lý hay không
Ngoài ra, ông còn tìm ra một loạt những mối liên hệ giữa thu nhập, tuổi tác,
vị trí và mức độ hài lòng trong công việc với tình trạng biển thủ Ví dụ như mối liên
hệ giữa thu nhập và biển thủ Theo đó, một người chịu áp lực về tài chính hay có những rắc rối trong tình hình tài chính không gây ra nhiều động cơ biển thủ so với việc anh ta luôn luôn đặt tài chính như ưu tiên số một cho mục tiêu sống của anh ta
Đối với mối tương quan giữa tuổi tác và biển thủ, Hollinger và Clark cho rằng thông thường trong một tổ chức những người trẻ thường không được giao nhiều trách nhiệm, đương nhiên phần đó thuộc về những người có nhiều kinh nghiệm làm việc và có tuổi đời cao hơn Nhưng chính cách bố trí này đã làm cho mức độ gắn kết với công ty, những cam kết cá nhân hay những ràng buộc với mục tiêu của tổ chức trở nên lỏng lẻo hơn Và đấy chính là một lý do khiến cho tỷ lệ biển thủ ở những người trẻ tuổi thường cao hơn
Ông còn tìm ra mối liên kết trực tiếp giữa vị trí chức vụ và mức độ biển thủ Khởi nguồn của hành vi biển thủ thường là do sự không hài lòng về công việc hiện tại nhưng mức độ nghiêm trọng của việc biển thủ thì lại tùy thuộc vào vị trí của người đó trong tổ chức Thông thường những người có hành vi biển thủ ở vị trí cao cấp thì hành vi đó thường gây ra những tổn thất lớn
Sau quá trình nghiên cứu, hai ông kết luận rằng nhà quản trị cần tập trung vào bốn vấn đề sau đây nhằm ngăn ngừa những hành vi biển thủ trong tổ chức
o Quy định rõ ràng những hành vi nào được coi là biển thủ;
o Không ngừng phổ biến những thông tin hữu ích, những quy định của tổ chức cho toàn thể nhân viên;
o Áp dụng việc phê chuẩn những quy định đó;
o Công khai các phê chuẩn
Và quan trọng hơn cả là nhân viên của tổ chức đó hiểu như thế nào về cách thức quản lý, cụ thể những đóng góp của họ được đánh giá như thế nào, tổ chức có quan tâm nhiều đến vấn đề ngăn ngừa biển thủ không, thái độ và cách nhìn nhận của nhà lãnh đạo cao cấp với lực lượng lao động như thế nào
Trang 34 Công trình nghiên cứu gian lận của Hiệp hội các nhà điều tra gian lận Hoa Kỳ (ACFE):
Vào năm 1993, một tổ chức chuyên nghiệp về gian lận ra đời bên cạnh Ủy ban quốc gia chống gian lận Hoa Kỳ đó là Hiệp hội của các nhà điều tra gian lận (ACFE)
Cho đến nay có thể nói đây là tổ chức nghiên cứu và điều tra về gian lận có quy mô lớn nhất thế giới Ngay sau khi thành lập, ACFE đã tiến hành cuộc nghiên cứu trên quy mô lớn các trường hợp gian lận với mục tiêu là tập trung vào phân tích cách thức tiến hành gian lận từ đó giúp các nghề nghiệp đưa ra các biện pháp ngăn ngừa và phát hiện gian lận trên BCTC
Thông qua bảng câu hỏi gửi tới 10.000 thành viên nhằm thu thập các trường hợp về gian lận mà các thành viên này đã từng chứng kiến Tính đến đầu năm 1995,
đã có 2.608 phản hồi trong đó có 1.509 trường hợp đề cập trực tiếp đến vấn đề gian lận tài sản của tổ chức Thiệt hại sơ bộ lên đến 15 tỷ đô la Mỹ
Bằng cách phân loại và xác lập nhóm, các nghiên cứu đã xem xét các hành vi này một cách cụ thể Thay vì xếp tất cả vào một tên gọi duy nhất “gian lận” thì họ
đã phân nhóm tùy thuộc vào độ tương đồng của từng loại gian lận qua đó nghiên cứu những phương pháp hay được sử dụng nhất và cùng với kế hoạch thực hiện gian lận được xem là tinh vi và có mức tổn thất tới nền kinh tế cao nhất Theo đó có
ba loại gian lận như sau:
o Biển thủ tài sản: là loại gian lận liên quan tới hành vi đánh cắp tài sản, thường do nhân viên thực hiện Một số ví dụ điển hình như ghi thiếu doanh thu để biển thủ tiền, biển thủ hàng tồn kho, gian lận về tiền lương, v.v;
o Tham nhũng, tham ô: là loại gian lận do người quản lý công ty nhằm mục tiêu tham ô tài sản của công ty Loại gian lận này thường xảy ra khi một người nào
đó dùng hình ảnh của họ vào các giao dịch kinh tế nhằm mang lại lợi nhuận cho bản thân mình hay một bên thứ ba;
o Gian lận trên BCTC: là trường hợp các thông tin tài chính không được báo cáo đầy đủ hay bị cố ý trình bày sai lệch nhằm đánh lạc hướng người sử dụng thông tin
Trang 35Hình 1.6: Sơ đồ phân loại gian lận theo ACFE
(Nguồn: ACFE, 2012) [9]
Kết quả điều tra cho thấy gian lận liên quan đến biển thủ chiếm hơn 86% các trường hợp nghiên cứu nhưng mức thiệt hại cho nền kinh tế lại thấp hơn cả Trong khi đó gian lận trên BCTC chiếm một tỷ lệ thấp nhất trong ba loại trên nhưng thiệt
Tham ô, tham nhũng
Đòi hỏi lợi ích
Khai giảm doanh thu/tài sản
Khác thời gian
Dthu giả mạo
Giấu công nợ, chi phí
Đánh giá tài sản
Công bố không đầy đủ
Khác thời gian
Dthu giả mạo
Giấu công nợ, chi phí
Đánh giá tài sản
Công bố không đầy đủ
Đánh
cắp tiền
mặt
Đánh cắp tiền thu từ Biển thủ các khoản chi Hàng không sử dụng Biển thủ hàng
Trang 36hại cho nền kinh tế lại lớn hơn cả Tham ô được xếp hạng thứ hai tức là sau gian lận trên BCTC và trước gian lận liên quan đến biển thủ tài sản (xem Bảng 1.1)
Bảng 1.1: Báo cáo gian lận theo loại gian lận
Bảng 1.2: Báo cáo gian lận theo cấp bậc, chức vụ
Trang 37Bảng 1.3: Báo cáo về thời gian phát hiện gian lậnThời gian phát hiện gian lận dựa trên chức vụ
Bảng 1.4: Báo cáo về gian lận theo giới tính
Gian lận theo loại hình tổ chức như sau: gian lận xuất hiện nhiều ở các công
ty tư nhân, kế đến là các doanh nghiệp niêm yết, các doanh nghiệp Nhà Nước và các
tổ chức phi Chính Phủ (xem Bảng 1.5)
Bảng 1.5: Báo cáo về gian lận theo loại hình công ty
Trang 38Kết quả điều tra cũng cho thấy gian lận ở các doanh nghiệp có quy mô nhỏ (có ít hơn 100 nhân viên) là cao nhất (xem Bảng 1.6) Nguyên nhân là do các doanh nghiệp nhỏ thường cho phép kiêm nhiệm các chức năng và thường dựa trên sự tin tưởng lẫn nhau, như vậy kiểm soát thường không chặt chẽ
Bảng 1.6: Báo cáo về gian lận theo quy mô công ty
1.3.1.3 Các yếu tố của gian lận
Gian lận, dù việc lập BCTC gian lận hay biển thủ tài sản đều có liên quan đến động cơ hoặc áp lực phải thực hiện hành vi gian lận, một cơ hội rõ ràng để thực hiện điều đó và việc hợp lý hóa hành vi gian lận
Động cơ hay áp lực phải thực hiện hành vi lập BCTC gian lận tồn tại khi Ban Giám đốc phải chịu áp lực từ bên ngoài hoặc từ bên trong đơn vị, phải đạt được mục tiêu về lợi nhuận hoặc kết quả tài chính như dự kiến Đặc biệt là trong trường hợp Ban Giám đốc không đạt được các mục tiêu tài chính thì sẽ chịu hậu quả rất lớn Cá nhân có thể thực hiện hành vi biển thủ khi hoàn cảnh kinh tế khó khăn
Cơ hội rõ ràng để thực hiện hành vi gian lận có thể tồn tại khi một cá nhân cho rằng có thể khống chế kiểm soát nội bộ Ví dụ như cá nhân đó có vị trí đáng tin cậy hoặc biết rõ về các khuyết điểm cụ thể của kiểm soát nội bộ
Các cá nhân có thể biện minh cho việc thực hiện hành vi gian lận Một số cá nhân có thái độ, tính cách hoặc hệ thống các giá trị đạo đức cho phép họ thực hiện hành vi gian lận một cách cố ý Tuy nhiên ngay cả khi không có các điều kiện như vậy thì những cá nhân trung thực cũng có thể thực hiện hành vi gian lận khi ở trong môi trường có áp lực mạnh
Nghiên cứu của Hiệp hội các nhà điều tra gian lận Mỹ (1996) về mối quan hệ
về cá tính của nhóm người với gian lận cho thấy như sau: 20% người gương mẫu
Trang 39tuyệt đối dù ở trong bất kỳ hoàn cảnh khó khăn hay áp lực nào, 20% người thực hiện gian lận khi không hề có bất kỳ áp lực nào, 60% còn lại là những người thực hiện gian lận khi có điều kiện (xem Hình 1.7)
Hình 1.7: Mối quan hệ cá tính và gian lận
(Nguồn: Báo cáo ACFE, 1996) 1.3.2 Ảnh hưởng của công nghệ thông tin đến BCTC trong mối quan hệ với gian lận và sai sót
CNTT là nhân lõi của cuộc cách mạng khoa học và công nghệ hiện đại, nó phản ánh giai đoạn phát triển mới về chất của sản xuất trong đó hàm lượng trí tuệ là thành phần chủ yếu trong sản phẩm Ngày nay CNTT tác động tới mọi mặt của cuộc sống
Ảnh hưởng của CNTT đối với tổ chức công tác kế toán trong doanh nghiệp rất sâu rộng Ảnh hưởng này xuất phát từ những tiến bộ về phần cứng như khả năng
xử lý, khả năng lưu trữ, tốc độ xử lý, v.v hay ảnh hưởng của các tiến bộ về phần mềm như sự phát triển của hệ thống quản trị dữ liệu (DBMS – Database Management Systems), các giải pháp xử lý, lưu trữ, truy xuất thông tin hay cũng có thể là các giải pháp đảm bảo an toàn cho dữ liệu, thông tin trong môi trường máy tính Bên cạnh đó, còn bị ảnh hưởng của những tiến bộ về khả năng chia sẻ tài nguyên, khả năng cung cấp, chia sẻ thông tin trên hệ thống mạng nội bộ (LAN), mạng diện rộng (WAN), …
Nếu doanh nghiệp có hệ thống hạ tầng mạng tốt, có hệ thống intranet riêng,
có phần mềm kế toán có thể xử lý, chuyển giao dữ liệu dựa trên nền tảng internet, doanh nghiệp có thể vận dụng hình thức tổ chức bộ máy kế toán tập trung và bỏ qua các giới hạn về phạm vi địa lý, khối lượng nghiệp vụ
Mối quan hệ về cá tính của nhóm người với gian lận
20% gương mẫu
tuyệt đối
20% thực hiện gian lận không cần áp lực 60% thực hiện gian
lận khi có điều kiện
Trang 40CNTT mang lại nhiều lợi ích nhưng cũng phải thấy rằng bên cạnh đó còn có những bất lợi cần phải hạn chế bớt Đối với hệ thống thông tin kế toán, CNTT ảnh hưởng trong một số vấn đề sau:
o Tính trung thực và đáng tin cậy của thông tin kế toán: Một yêu cầu của thông tin kế toán là tính trung thực và đáng tin cậy CNTT giúp cho việc xử lý thông tin kế toán được nhanh chóng, chính xác hơn so với xử lý thủ công Tuy nhiên vẫn tìm ẩn rủi ro trong môi trường này:
Sai sót và gian lận trong môi trường kế toán máy tính: do sự thiếu hiểu biết về kiến thức tin học, hoặc có ý đồ xấu mà người sử dụng có thể gây ra sai sót và gian lận về nhập liệu, xử lý nghiệp vụ, thông tin đầu ra và về lưu trữ và bảo mật thông tin
Rủi ro đối với thông tin kế toán: hiện nay việc sử dụng phần mềm kế toán để tạo ra thông tin kế toán đã khá phổ biến, tuy nhiên những rủi ro vẫn có thể gặp phải là: phần mềm được lập trình sai; phần mềm không phù hợp với chế độ kế toán; thông tin kế toán bị mất hay không đúng do lỗi thiết bị, lỗi người dùng; thông tin kế toán bị đánh cắp, bị lộ bí mật; hệ thống bị phá hủy
Thông tin kế toán trung thực hợp lý và đáng tin cậy phụ thuộc vào tính kiểm soát, độ ổn định của hệ thống và năng lực của người sử dụng
Đánh giá tính trung thực và đáng tin cậy của thông tin kế toán trong môi trường máy tính thường gặp nhiều khó khăn
Thêm vào đó, CNTT phát triển đã cho ra đời kỹ thuật khai phá dữ liệu Kỹ thuật này tuy chưa thực sự phổ biến ở Việt Nam, nhưng đã được nhiều nhà nghiên cứu trên thế giới ứng dụng trong việc ngăn ngừa và phát hiện gian lận BCTC
Năm 2010, trong công trình nghiên cứu về ứng dụng của khai phá dữ liệu trong việc phát hiện gian lận BCTC, các tác giả E.W.Ngai, Yong Hu, Y.H.Wong, Yijun Chen, Sin Sun [10] đã khảo sát, tóm tắt và phân loại như sau: phân loại gian lận về tài chính, bao gồm gian lận trong ngân hàng, gian lận bảo hiểm, gian lận chứng khoán và các loại gian lận khác Sau đó, họ đi sâu phân loại dựa vào hành vi gian lận (ví dụ: rửa tiền, gian lận tín dụng, v.v) Phân loại kỹ thuật khai phá dữ liệu, trước hết phân làm 6 kỹ thuật cơ bản là phân lớp, phân cụm, phát hiện ngoại lai, dự đoán, hồi quy và mô hình hóa để đọc giả dễ nhìn, dễ phân tích Sau đó trên cơ sở