1. Trang chủ
  2. » Tất cả

Ứng dụng máy học vào phân nhóm và dự đoán thời gian thuhồi các khoản phải thu của doanh nghiệp

35 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng Máy học Vào Phân Nhóm Và Dự Đoán Thời Gian Thu Hồi Các Khoản Phải Thu Của Doanh Nghiệp
Tác giả Nguyễn Thị Phương Nhi, Nguyễn Thị Bảo Ngọc, Nguyễn Ngọc Yến Vy, Đinh Thị Vân Anh, Trần Thị Bảo Ngọc
Người hướng dẫn NCS TS. Thái Kim Phụng
Trường học Trường Đại học Kinh tế Thành phố Hồ Chí Minh
Chuyên ngành Khoa học Dữ liệu
Thể loại Dự án cuối kỳ
Năm xuất bản 2022
Thành phố TP.Hồ Chí Minh
Định dạng
Số trang 35
Dung lượng 897,55 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Untitled BỘ GIÁO DỤC & ĐÀO TẠO ĐẠI HỌC UEH KHOA KẾ TOÁN DỰ ÁN CUỐI KÌ ĐỀ TÀI ỨNG DỤNG MÁY HỌC VÀO PHÂN NHÓM VÀ DỰ ĐOÁN THỜI GIAN THU HỒI CÁC KHOẢN PHẢI THU CỦA DOANH NGHIỆP Giảng viên NCS TS Thái Kim[.]

Trang 1

BỘ GIÁO DỤC & ĐÀO TẠO ĐẠI HỌC UEH

KHOA KẾ TOÁN

DỰ ÁN CUỐI KÌ

ĐỀ TÀI:

ỨNG DỤNG MÁY HỌC VÀO PHÂN NHÓM VÀ DỰ ĐOÁN THỜI GIAN THU

HỒI CÁC KHOẢN PHẢI THU CỦA DOANH NGHIỆP

Giảng viên : NCS TS Thái Kim Phụng

Môn học : Khoa học dữ liệu – 22C1INF50905966

Sinh viên thực hiện :

Nguyễn Thị Phương Nhi - 31211026535

Trang 2

LỜI CẢM ƠN

“Để hoàn thành dự án này, chúng em xin gửi lời cảm ơn chân thành đến Thầy Thái Kim Phụng giảng viên bộ môn Khoa Học Dữ Liệu của trường ĐH Kinh tế TPHCM.đã giảng dạy tận tình, chitiết để em có đủ kiến thức và vận dụng chúng vào bài tiểu luận này

-Do chưa có nhiều kinh nghiệm làm để tài cũng như những hạn chế về kiến thức, trong dự án chắcchắn sẽ không tránh khỏi những thiếu sót Rất mong nhận được sự nhận xét, ý kiến đóng góp, phêbình từ phía Thầy để dự án của chúng em được hoàn thiện hơn và thông qua đó chúng em có thểrút ra được những bài học cho mình và cũng có thể học thêm được những kinh nghiệm để lần sautránh những sai phạm ấy

Lời cuối cùng, chúng em xin kính chúc thầy nhiều sức khỏe, thành công và hạnh phúc.”

Trang 3

CÁC BÀI TOÁN LIÊN QUAN ĐẾN CHUYÊN NGÀNH:

Bài toán 1: Dự đoán phân loại khách hàng trả đúng hay trễ hạn Bài

toán 2: Phân cụm các khách hàng theo loại “đúng hạn”

Bài toán 3: Phân cụm các khách hàng theo loại “trễ hạn”

Bài toán 4: Dùng pivot table trên excel tìm ra điểm khác nhau giữa 2 loại khoảnphải thu

Tất cả 4 bài toán nhóm thực hiện đều thuộc mức độ liên quan đến chuyên ngành

LÝ DO: Trong thời đại công nghệ thông tin đang có những phát triển vượt bậc, việc ứng

dụng các công nghệ mới nổi vào từng lĩnh vực đang ngày càng trở nên phổ biến.Nhiềudoanh nghiệp gặp vấn đề trong khâu chuyển đổi từ hình thức làm việc truyền thống sang

áp dụng khoa học công nghệ vào hoạt động của mình Trong lĩnh vực kế toán, các côngnghệ phân tích dữ liệu cũng đã nổi lên, nhiều tài liệu nghiên cứu mang tính học thuật vàcác bài báo khoa học cung cấp những bằng chứng xác thực về những lĩnh vực kế toán đã

và đang bị tác động bởi các công cụ phân tích dữ liệu hiện nay Trước đây, kế toán viênchủ yếu ghi nhận và phân loại các nghiệp vụ thông qua ghi chép và giấy tờ Ngày nay,ngành kế toán đặt ra các yêu cầu cao hơn, không đơn thuần là ghi chép nghiệp vụ đã xảy

ra mà kế toán viên cần linh hoạt, nhạy bén để phân tích dự báo các vấn đề cho doanhnghiệp Từ đó, doanh nghiệp có thể sử dụng nguồn vốn linh hoạt, hạn chế các rủi ro ởmức thấp nhất Đang theo học chuyên ngành kế toán doanh nghiệp,bằng những kiến thứcđược tiếp thu qua học phần phân tích dữ liệu,nhóm nghiên cứu chúng em mong muôn gópphần tạo ra thông tin hữu ích liên quan đến chuyên ngành nhằm khắc phục một phần khókhăn cho các kế toán viên trong doanh nghiệp

Trang 4

DANH MỤC BIỂU ĐỒ

Biểu đồ 1: Tổng tiền trên hóa đơn thương mại

Biểu đồ 2: Phân loại đối tượng khách hàng

Biểu đồ 3: Minh họa Scatter Plot (1)

Biểu đồ 4: Minh họa Silhouette Plot (1)

Biểu đồ 5: Minh họa Scatter Plot (2)

Biểu đồ 6: Minh họa Silhouette Plot (2)

DANH MỤC HÌNH ẢNH Hình 1: Quá trình phân lớp dữ liệu

Hình 2: Quá trình phân cụm dữ liệu

Hình 3: Phân tách dữ liệu

Hình 4: Mô hình bài toán 1

Hình 5 : Kết quả dự báo

Hình 6: Mô hình bài toán 2

Hình 7: Mô hình bài toán 3

DANH MỤC BẢNG Bảng 1: Mô tả biến

Bảng 2: Kết quả Test and Score

Bảng 3: Kết quả Confusion Matrix

Bảng 4 : Kết quả K-Means (1)

Bảng 5: Kết quả K-Means (2)

Bảng 6 : Tỷ lệ % của các biến (1)

Bảng 7: Tỷ lệ % của các biến (2)

Bảng 8: Tỷ lệ % của các biến (3)

Bảng 9: Phụ lục

Trang 5

MỤC LỤC CÁC BÀI TOÁN LIÊN QUAN ĐẾN CHUYÊN NGÀNH:

DANH MỤC BIỂU ĐỒ

Trang 6

Quy trình thực hiện: 17

2.4 Bài toán 4: Dùng pivot table trên excel tìm ra điểm khác nhau giữa 2 loại khoản phải thu 19

Trang 7

Công việc của kế toán: thu thập thông tin, kiểm tra các khoản thu và chi, tiếp nhận và kiểm soát chứng từ kế toán, ghi chép vào sổ sách kế toán, tổng hợp

và lập các báo cáo tài chính.

Phân loại: Kế toán thường có hai loại:

- Kế toán doanh nghiệp: là loại kế toán ở các doanh nghiệp, hoạt động với tính chất kinh doanh Mục tiêu chính của đơn vị này là kinh doanh sinh lời.

- Kế toán công: là kế toán làm việc tại các đơn vị hoạt động không có tính chất kinh doanh, không lấy doanh lợi làm mục đích hoạt động như các tổ chức đoàn thể xã hội, các tổ chức nhà nước

1.1.2 Các khoản phải thu:

Khái niệm: Các khoản phải thu là một loại tài sản của công ty tính dựa trên tất cả các khoản nợ cần thu hồi, các giao dịch chưa thanh toán hoặc bất cứ nghĩa

vụ tiền tệ nào mà các bên nợ hay khách hàng chưa thanh toán cho công ty.

Theo mục đích quản lý công nợ phải thu bao gồm: phải thu khác, phải thu nội bộ, phải thu khách hàng…

Theo mục đích trình bày trên Báo cáo tài chính bao gồm: nợ phải thu ngắn hạn và nợ phải thu dài hạn.

1.2 Ảnh hưởng của các khoản phải thu lên báo cáo tài chính:

Trang 8

Trong Báo cáo tình hình tài chính của doanh nghiệp, Các khoản nợ phải thu được ghi nhận trong phần Tài sản thuộc mục “Các khoản phải thu ngắn hạn” và “Các khoản phải thu dàihạn” Khi thu đúng hạn thì doanh nghiệp cần ghi phần Tài sản thuộc mục “Tiền” sẽ tăng lên vàmục “Các khoản phải thu” sẽ giảm xuống Còn khi thu hồi trễ hạn (hay còn gọi là các khoản phải thu khó đòi) thì cần lập dự phòng như là ghi nhận trước một khoản tổn thất sẽ xảy ra trong tương lai

Khi phân tích báo cáo tài chính, chúng ta cần hiểu rằng việc doanh nghiệp đánh giá tìnhhình công nợ và khả năng thu hồi nợ là dựa kinh nghiệm thu nợ trong quá khứ Tuy nhiên, kinh nghiệm thu nợ trong quá khứ có thể không phải là một yếu tố dự báo đầy đủ về khả năng trả nợ trong tương lai Các khoản nợ khó đòi trên thực tế được ghi nhận vào dự phòng nợ khó đòi (ADA), và các khoản lỗ dự kiến liên quan đến nợ khó đòi được tính vào chi phí quản lý doanh nghiệp (operating expenses) Do đó, nhiệm vụ của kế toán là cần phân tích các khoản phải thu, phải cảnh giác với những thay đổi tình hình dự phòng nợ khó đòi của doanh nghiệp,

cụ thể là tỷ lệ dự phòng nợ khó đòi trên tổng doanh thu, tỷ lệ dự phòng nợ khó đòi trên tổng khoản phải thu, và cần so sánh các số liệu của doanh nghiệp với các doanh nghiệp trong cùng ngành có sự cân nhắc đến tình hình chung của thị trường

1.2.1 Các khoản phải thu đúng hạn:

Các khoản nợ phải thu được xem là đúng hạn khi và chỉ khi khách hàng trả nợ

đúng thời hạn các khoản trả chậm hay trả góp theo thỏa thuận mà khách hàng đã ký với

doanh nghiệp Và khi khách hàng đã trả hết toàn bộ các khoản trả góp hay nợ trả chậm thìcác khoản này sẽ được xóa trên “Bảng cân đối kế toán hợp nhất” hay còn gọi là “Báo cáo tình hình tài chính”

1.2.2 Các khoản phải thu trễ hạn:

Các khoản nợ phải thu được xem là trễ hạn khi khách hàng trả nợ trễ hơn so với

thời hạn các khoản trả chậm hay trả góp theo thỏa thuận mà khách hàng đã ký với doanh nghiệp Trong báo cáo tài chính, các hợp đồng kinh tế, bản cam kết nợ, các khế ước vay

nợ có các khoản nợ trễ hạn, doanh nghiệp đã dùng mọi biện pháp vẫn không thể thu hồi, thì trên báo cáo tài chính sẽ lập một khoản dự phòng nợ phải thu khó đòi Khoản dự

phòng này được lập ra với mục đích nhằm bảo toàn vốn kinh doanh khi khách hàng

Trang 9

không trả được nợ, bù đắp các khoản thiệt hại thực tế sẽ xảy ra khi khách hàng chưa trả

nợ

1.3 Yêu cầu của ngành

Trong tất cả các khoản phải thu thì khoản phải thu khách hàng chiếm tỷ trọng lớn nhất,thường phát sinh thường xuyên nhất và cũng là khoản phải thu tiềm ẩn nhiều rủi ro nhất Vì nócung cấp thêm vốn để hỗ trợ hoạt động và giảm nợ ròng của công ty, điều quan trọng là phảitheo dõi các khách hàng chưa thanh toán Vì vậy, khi quyết định hợp đồng mua bán hàng hóa

có thể trả chậm, trả góp, doanh nghiệp phải cân nhắc rủi ro nếu khách hàng không trả được nợ

Một số nguyên tắc chung mà các doanh nghiệp cần phải thực hiện để tránh những tiêucực hoặc rủi ro có thể xảy ra:

- Xây dựng một chính sách bán hàng rõ ràng, cụ thể: Một khó khăn lớn đối với cáccông ty là muốn tăng doanh số bán hàng bằng chính sách bán hàng trả chậm, nhưng lại muốngiảm thiểu hậu quả của việc có thể trả chậm, tức là khoản nợ không có khả năng thu hồi Vìvậy, cần cập nhật thông tin tài chính của khách hàng để có chiết khấu cho khách hàng khithanh toán nhanh hoặc khi họ mua số lượng lớn,

- Không phân công kiêm nhiệm cho một người phụ trách nhiều công việc trong chutrình bán hàng Nguyên tắc này thường bị vi phạm ở các công ty nhỏ vì số lượng nhân viên ít

và do đó họ thường phải đảm nhận nhiều công việc Do đó, việc sử dụng con người tin cây làrất quan trọng

- Theo dõi chặt chẽ quá trình thu hồi các khoản nợ: Để thu hồi nhanh chóng và chặt chẽ,doanh nghiệp cần phân công theo dõi, đối chiếu công nợ Thông báo cho khách hàng thườngxuyên để họ chuẩn bị Từ đó, nhanh chóng thu được các khoản nợ phải thu

2 LÝ DO CHỌN ĐỀ TÀI NGHIÊN CỨU

Khi một doanh nghiệp muốn tăng doanh số bán hàng bằng cách thực hiện chính sách bán hàng trả chậm nhưng lại muốn giảm thiểu những hậu quả do việc bán trả chậm có thể xảy

ra, đó là các khoản nợ có khả năng thu hồi trễ hoặc không có khả năng thu hồi Đây là một khókhăn lớn đối với việc quản lý doanh nghiệp một cách hiệu quả

Trang 10

3 MỤC TIÊU NGHIÊN CỨU:

3.1 Mục tiêu tổng quát:

Mục tiêu tổng quát của nhóm là giúp doanh nghiệp nhận ra đâu là khách hàng có khảnăng trả nợ trễ cũng như trả nợ đúng hạn Thông qua phân tích và dự đoán các khách hàng trảđúng hạn hoặc có khả năng trả trễ thì công ty kiểm soát khoản dự phòng cũng như luồng tiềntrong doanh nghiệp

3.2 Mục tiêu cụ thể:

Bài toán 1: Dự đoán phân loại khách hàng trả đúng hay trễ hạn

Bài toán 2: Phân cụm các khách hàng theo loại “đúng hạn”

Bài toán 3: Phân cụm các khách hàng theo loại “trễ hạn”

Bài toán 4: Dùng pivot table trên excel tìm ra điểm khác nhau giữa 2 loại khoản phải thu

4 ĐỐI TƯỢNG NGHIÊN CỨU

Mô tả dữ liệu:

Nguồn gốc dữ liệu

Dữ liệu trong dự án được lấy từ bài viết

<https://www.kaggle.com/code/andls555/accountant-receivables-prediction-days-

late/notebook> trên trang <https://www.kaggle.com/datasets>

Trang 11

Cấu trúc dữ liệu:

InvoiceDate Ngày xuất hóa đơn thương

mại

dd/mm/yy

Invoice Amount Số tiền hóa đơn thương mại Số tự nhiên

Trang 12

Days To Settle Số ngày khách hàng trả nợ Số tự nhiên

Bảng 1: Mô tả biến

Late là loại khách hàng đúng hay trễ hạn của các khoản phải thu trong dữ liệu Lateđược phân loại thành “Yes” (Có) hoặc “No” (Không)

Công thức trong Excel là: Late=IF(L2=0,"No","Yes")

CHƯƠNG II: CƠ SỞ LÝ THUYẾT

1.1 PHƯƠNG PHÁP PHÂN LỚP:

Khái niệm: là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã

cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân lớp

Hình 1: Quá trình phân lớp dữ liệu

Quá trình phân lớp dữ liệu: gồm 2 bước chính:

Bước 1: Xây dựng mô hình phân lớp (“học” hay “huấn luyện”)

Trang 13

Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý

Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật…

Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp).

Bước 2: Sử dụng mô hình phân lớp:

Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

+ Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử

lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn

+Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình

Phân lớp dữ liệu mới

+Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn).+Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1

Có 3 phương pháp phân lớp được sử dụng trong bài :

Hồi quy Logistics ( Logistic Regression) là phương pháp nhằm kiểm tra tính hiệu

quả của mô hình phân lớp dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình

đó hay không Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá

phức tạp và không quá nhạy cảm với nhiễu.

Cây quyết định (Decision tree) là một sơ đồ hoặc biểu đồ giúp xác định một quá

trình hành động hoặc hiển thị một xác suất thống kê Biểu đồ được gọi là cây quyết định

do nó giống với cây cùng tên, thường được phác thảo dưới dạng một biểu đồ thẳng đứng hoặc nằm ngang phân nhánh Bắt đầu từ chính quyết định (được gọi là "nút"), mỗi

"nhánh" của cây quyết định đại diện cho một quyết định, kết quả hoặc phản ứng có thể xảy ra Các nhánh xa nhất trên cây đại diện cho kết quả cuối cùng của một con đường quyết định nhất định và được gọi là "l

SVM (Support Vector Machine) là một thuật toán có giám sát Phương pháp này

nhận dữ liệu vào, xem chúng như những vector trong không gian và phân loại chúng vàocác lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm

Trang 14

mặt phân cách các lớp dữ liệu Phương pháp này có nhiều biến thể để phù hợp với các bàitoán phân loại khác nhau.

1.2 PHƯƠNG PHÁP PHÂN CỤM:

Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc

điểm tương đồng vào các cụm/nhóm tương ứng Trong đó:

- Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau

- Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau

Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn Dữ liệu này là

dữ liệu tự nhiên thường thấy trong thực tế

Hình 2: Quá trình phân cụm dữ liệu

Đặc điểm:

- Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu

- Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised

learning) vì không biết trước được số nhóm (khác với bài toán phân lớp)

- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:

● Độ tương đồng bên trong cụm cao

● Độ tương tự giữa các cụm thấp (khác biệt cao)

- Các ứng dụng điển hình:

Trang 15

Độ đo phân cụm được sử dụng làm tiêu chí nhằm tính toán sự tương đồng hoặc sai biệt giữa các đối tượng dữ liệu nhằm phục vụ cho quá trình gom cụm Một số độ đo phân cụm: Euclid, Cosin, Minkowski …

Thuật toán K-means:

- Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch

- Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)

CHƯƠNG III: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ

1.TÌM HIỂU VỀ DỮ LIỆU

1.1 Phân tích dữ liê ̣u:

Phân tích dữ liệu của các đặc trưng có tính phân loại:

- Mỗi hàng đại diện cho 1 khoản phải thu trong nhóm 5 khu vực thu thập dữ liệu, mỗi cột chứa các thuộc tính của khoản phải thu

- Dữ liệu thô chứa 2467 hàng (khoản phải thu) và 12 cột (đặc trưng)

- Mã khách hàng có đến 75 mã khác nhau cho cả 5 khu vực

- Trong cột dữ liệu về các khu vực có 5 thuộc tính là: Đức với mã 391 , Úc với

mã 406, California - Mỹ với mã 818, Kansas-Mỹ với mã 897, Georgia-Mỹ với mã 770

- Tổng tiền trên hóa đơn thương mại của khu vực 406 (Đức) là nhiều nhất trong

5 khu vực với số tiền là 2713,29 chiếm 29,83% Tổng số tiền trên hóa đơn thương mại của khu vực 897 (Kansas-Mỹ) là ít nhất trong 5 khu vực với số tiền là 892,24 chiếm 9,81%

Trang 16

Biểu đồ 1: Tổng tiền trên hóa đơn thương mại

Trong cột dữ liệu phân loại đối tượng trả nợ đúng hoặc trễ hạn thì đối tượng đúng hạn (66,67%) chiếm gấp đôi đối tượng trễ hạn (33,3%)

Biểu đồ 2: Phân loại đối tượng khách hàng

1.2 Tiền xử lý dữ liê ̣u:

Trang 17

● Xử lý dữ liệu: Báo cáo sử dụng bộ dữ liệu từ trang kaggle.com với link dữ liệu

<https://days-late/notebook>, đã được xác minh và xử lý cơ bản nên không có dữ liệu bị thiếu

www.kaggle.com/code/andls555/accountant-receivables-prediction-● Loại bỏ biến Paperless Day trong File excel do ý nghĩa của biến không liên quan đến bài toán nhóm cần nghiên cứu

● Thêm biến Late (Có trễ hạn không) trong File excel và đặt tên là “file gốc đã chỉnh”

Ngày đăng: 23/02/2023, 22:06

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w