1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng bi (business intelligence) trong bài toán thẩm định tài sản bảo đảm của ngân hàng

90 52 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 90
Dung lượng 3,48 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hỗ trợ nhân viên thẩm định khai thác dữ liệu lịch sử về thẩm định đã thành công được lưu trữ trong hệ thống ngân hàng trước đó, để tìm ra được các tài sản so sánh TSSS có các yếu tố tươn

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

CAO THỊ VÂN ANH

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

CAO THỊ VÂN ANH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS TRƯƠNG NINH THUẬN

Hà Nội – 2017

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan nội dung của luận văn “Ứng dụng BI (Business Intelligence)

trong bài toán thẩm định tài sản bảo đảm của ngân hàng” là sản phẩm do tôi thực hiện

dưới sự hướng dẫn của PGS.TS.Trương Ninh Thuận Toàn bộ những điều được trình

bày trong khóa luận hoặc là của cá nhân, hoặc được tham khảo và tổng hợp từ các nguồn tài liệu khác nhau Tất cả tài liệu tham khảo, tổng hợp đều được trích dẫn với nguồn gốc

Hà Nội, Ngày tháng năm 2017

Người cam đoan

Cao Thị Vân Anh

Trang 4

LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn của tôi, PGS.TS Trương Ninh Thuận Thầy đã giúp tôi có những cơ hội để có thể theo đuổi nghiên cứu lĩnh vực mình yêu thích Trong suốt quá trình thực hiện luận văn, thầy đã tận tình hướng dẫn cho tôi, góp ý cho tôi về định hướng, đồng thời đưa ra những lời khuyên bổ ích để tôi có thể hoàn thành luận văn của mình

Tiếp đến, xin được cảm ơn các thầy cô giáo đã giảng dạy trong quá trình học tập, thực hành, làm bài tập, đọc và nhận xét luận văn của em, giúp em hiểu thấu đáo hơn lĩnh vực mà em nghiên cứu và những hạn chế cần khắc phục trong việc học tập, nghiên cứu

và thực hiện bản luận văn này

Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã tạo mọi điều kiện tốt nhất, động viên, cổ vũ trong suốt quá trình học tập và làm luận văn tốt nghiệp

Hà Nội, Ngày tháng năm 2017

Cao Thị Vân Anh

Trang 5

MỤC LỤC

LỜI CAM ĐOAN

LỜI CẢM ƠN

DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT i

DANH MỤC HÌNH VẼ iii

DANH MỤC BẢNG iii

MỞ ĐẦU 1

Lý do chọn đề tài 1

Mục tiêu của đề tài 1

Đóng góp của luận văn 2

Cấu trúc của luận văn 3

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 4

1.1 Giới thiệu về Trí tuệ nghiệp vụ (Business Intelligence) 4

1.1.1 Khái niệm 4

1.1.2 Kiến trúc và thành phần của BI 4

1.2.Giới thiệu về Data Warehouse 9

1.2.1 Khái niệm 9

1.2.2.Kiến trúc của Data Warehouse 10

1.2.3.Xây dựng Data warehouse 11

1.3 Giới thiệu về Khai phá dữ liệu (Data mining) 13

1.3.1 Khái niệm 13

1.3.2.Quy trình khai phá dữ liệu 13

1.3.3 Các phương pháp khai phá dữ liệu 15

CHƯƠNG 2: BÀI TOÁN ỨNG DỤNG BI TRONG HỖ TRỢ THẨM ĐỊNH TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG 20

2.1 Ứng dụng của BI trong lĩnh vực ngân hàng 20

2.1.1 Công nghệ BI trong các hoạt động ngân hàng 20

2.1.2 Một số ứng dụng BI trong lĩnh vực ngân hàng 21

2.2 Bài toán thẩm định tài sản bảo đảm trong hệ thống ngân hàng 22

2.2.1 Giới thiệu về thẩm định tài sản bảo đảm 22

2.2.2 Quy trình thẩm định giá tài sản bảo đảm 23

Trang 6

2.2.3 Phương pháp so sánh trực tiếp trong bước định giá giá trị của tài sản 25

CHƯƠNG 3: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG BI HỖ TRỢ THẨM ĐỊNH TÀI SẢN BẢO ĐẢM TRONG NGÂN HÀNG 27

3.1.Phát biểu bài toán 27

3.2 Áp dụng thuật toán K-Nearest Neighbors (KNN) và thuật toán hồi quy tuyến tính đa biến trong quyết định giá 31

3.2.1 Sử dụng thuật toán K-Nearest Neighbors (KNN) để dự đoán giá trị tài sản thẩm định 33 3.2.2 Dự đoán giá trị tài sản qua phương pháp hồi quy tuyến tính đa biến 35

3.2.3 Kết hợp thuật toán KNN và hồi quy tuyến tính đa biến 37

3.3 Thiết kế ứng dụng 39

3.3.1 Module ETL 39

3.3.2 Module Thẩm định tài sản 40

3.4 Xây dựng và triển khai 56

3.4.1 Xây dựng Database 56

3.4.2 Xây dựng mô hình ứng dụng 60

CHƯƠNG 4: CÀI ĐẶT VÀ KẾT QUẢ 62

4.1.Cài đặt 62

4.2 Kết quả 63

4.2.1 Chức năng quản lý thông tin hồ sơ thẩm định 63

4.2.2 Chức năng Cập nhật thông tin chung của hồ sơ 64

4.2.3 Cập nhật thông tin pháp lý của hồ sơ 65

4.2.4 Cập nhật thông tin tài sản bảo đảm 66

4.2.5 Cập nhật thông tin kết luận của báo cáo thẩm định 67

4.2.6 Thuyết minh giá 68

4.2.7 So sánh kết quả thực nghiệm trên Web thẩm định và phần mềm Weka 70

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 72

Kết luận 72

Hướng phát triển 73

TÀI LIỆU THAM KHẢO 74

PHỤ LỤC 1 75

Trang 7

DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT

Trang 9

DANH MỤC HÌNH VẼ

Hình 1- 1: Các thành phần chính trong một hệ thống BI [13] 5

Hình 1- 2: Chu kỳ của phân tích BI [13] 6

Hình 1- 3: Các pha phát triển một hệ thống BI [13] 8

Hình 1- 4: Kiến trúc và các tính năng của một kho dữ liệu [13] 10

Hình 1- 5: Quy trình khai phá dữ liệu[13] 14

Hình 2- 1: Quy trình thẩm định tài sản bào đảm trong ngân hàng [6] 23

Hình 3- 1: Dữ liệu thẩm định thông tin BĐS 29

Hình 3- 2: Dữ liệu thẩm định BĐS qua tiền xử lý 30

Hình 3- 3: Kết quả trích chọn thuộc tính sử dụng weka 31

Hình 3- 4:Kết quả phân tích hồi quy tuyến tính ví dụ thẩm định đất 36

Hình 3- 5: Mô hình thiết kế ứng dụng thẩm định tài sản bảo đảm 39

Hình 3- 6: Biểu đồ Use Case module Thẩm định tài sản 41

Hình 3- 7:Lược đồ dữ liệu thông tin hồ sơ thẩm định 56

Hình 3- 8: Lược đồ dữ liệu thông tin tài sản BĐS- Đất 58

Hình 3- 9: Lược đồ dữ liệu thông tin báo cáo thẩm định tài sản bảo đảm 59

Hình 3- 10:Mô hình ứng dụng 60

Hình 4- 1: Chức năng Quản lý hồ sơ 64

Hình 4- 2: Cập nhật thông tin chung của hồ sơ 64

Hình 4- 3: Cập nhật thông tin pháp lý của tài sản trong hồ sơ thẩm định 65

Hình 4- 4: Cập nhật thông tin tài sản bảo đảm - Bất động sản 66

Hình 4- 5: Kết luận của báo cáo thẩm định tài sản 67

Hình 4- 6: Thuyết minh giá 69

DANH MỤC BẢNG Bảng 3- 1: Ví dụ số liệu mua bán tài sản đất 32

Bảng 3- 2: Tính toán và sắp xếp giá trị của tài sản theo khoảng cách tăng dần 34

Bảng 3- 3: Giá trị các tài sản so sánh 37

Bảng 3- 4: So sánh hai phương pháp KNN và hồi quy tuyến tính đa biến 37

Bảng 4- 1: Kết quả thử nghiệm hai phương pháp 70

Trang 10

MỞ ĐẦU

Lý do chọn đề tài

Ngân hàng là tổ chức hoạt động mang tính chất lợi nhuận Mọi hoạt động của ngân hàng đều hướng tới hiệu quả kinh tế, tìm cách phân tán và giảm thiểu rủi ro Trong hoạt động cho vay hoặc cấp tín dụng ngân hàng đã có những biện pháp nhằm đảm bảo cho nguồn vốn của ngân hàng sinh lợi nhuận và an toàn Tài sản đảm bảo là một trong những biện pháp đó Tài sản bảo đảm của khách hàng có thể là: nhà đất, sạp chợ, phương tiện, công cụ, hàng hóa Mức tiền khách hàng mong muốn vay hoặc quyết định cấp tín dụng

có được chấp nhận hay không thông qua khâu định giá tài sản bảo đảm mà khách hàng đang có và muốn thế chấp

Quá trình thẩm định giá phải trải qua rất nhiều bước và hồ sơ thẩm định sẽ được luân chuyển qua nhiều phòng ban, vị trí Trong các bước thẩm định, việc báo cáo thẩm định giá là một khâu phức tạp và cần phải được tính toán cẩn thận Cán bộ thẩm định phải nêu được giá trị thị trường hay phi thị trường của tài sản thẩm định Sau đó tại phần lập luận để ra mức giá cuối cùng, cán bộ thẩm định phải tính toán tỷ lệ điều chỉnh phù hợp với mục đích thẩm định Sẽ đơn giản hơn nếu có một công cụ hỗ trợ cán bộ đưa ra được mức giá có thể cho vay dựa trên các hồ sơ thẩm định trong lịch sử hay từ các nguồn dữ liệu được cập nhật thường xuyên trên thị trường

Xuất phát từ tình hình thực tế đó, luận văn nghiên cứu giải pháp công nghệ Trí tuệ nghiệp vụ (Business Intelligence - BI) để giải quyết bài toán hỗ trợ ra quyết định giá tài sản bảo đảm của ngân hàng

Mục tiêu của đề tài

Trong khuôn khổ luận văn này, tôi nghiên cứu kiến thức về Data Warehouse, Data Mining, Trí tuệ nghiệp vụ để thiết kế và xây dựng một hệ thống thẩm định giá tài sản bảo đảm (TSBĐ) Trong đó luận văn sẽ tập trung vào các phương pháp hồi quy trong BI để giải quyết bài toán thuyết minh giá cho TSBĐ Hỗ trợ nhân viên thẩm định khai thác dữ liệu lịch sử về thẩm định đã thành công được lưu trữ trong hệ thống ngân hàng trước đó,

để tìm ra được các tài sản so sánh (TSSS) có các yếu tố tương đồng nhất với TSTĐ bằng phương pháp K láng giềng gần nhất Và hỗ trợ đưa ra quyết định về mức giá thẩm định TSBĐ trong quá trình ước lượng giá trị tài sản từ tập các TSSS có các yếu tố tương đồng với TSTĐ đã được thẩm định trước đó bằng phương pháp hồi quy tuyến tính đa biến Phần mềm thẩm định tài sản bảo đảm sẽ hỗ trợ người dùng quản lý các hồ sơ thẩm định có liên quan đến mình Xử lý và luân chuyển hồ sơ nhanh chóng, chính xác thông

Trang 11

tin giữa các bộ phận trong hệ thống thẩm định Đặc biệt nó sẽ có ý nghĩa đối với các chuyên viên thẩm định chưa có nhiều kinh nghiệm Họ sẽ có thể đưa ra tỷ lệ điều chỉnh giá và mức ước lượng giá chính xác hơn, dựa trên các thông tin phân tích từ nguồn dữ liệu đầy đủ trong hệ thống phần mềm…

Đóng góp của luận văn

Luận văn đã trình bày về quy trình thẩm định tài sản bảo đảm, các phương pháp định giá đối với từng loại tài sản và đưa ra một số các khó khăn của các chuyên viên thẩm định trong quá trình thu thập thông tin tài sản dùng để so sánh và ước lượng giá trị của tài sản thẩm định Luận văn đã thiết kế một kho dữ liệu dùng để lưu trữ các thông tin của hồ

sơ thẩm định Dùng làm nguồn tài nguyên cho việc phân tích, định giá tài sản, tạo các báo cáo theo từng yêu cầu nghiệp vụ Đồng thời đưa ra giải pháp kết hợp các phương pháp hồi quy: K láng giềng gần nhất và hồi quy tuyến tính đa biến vào khâu định giá tài sản thẩm định bằng phương pháp so sánh Để đưa ra được một kết quả định giá chính xác và

dễ dàng hơn đối với chuyên viên thẩm định

Hệ thống thẩm định tài sản sẽ giúp người dùng giảm thiều thời gian tìm kiếm, thu thập và nâng cao kết quả phân tích, định giá tài sản Đồng thời giúp công việc quản lý thông tin hồ sơ thẩm định, tài liệu liên quan đến hồ sơ một cách hiệu quả, dễ dàng Xử lý

hồ sơ một cách linh hoạt và thuận tiện hơn

Các tính năng và lợi ích của hệ thống thẩm định tài sản bảo đảm:

- Chức năng ETL: Chức năng thu thập, xử lý dữ liệu và lưu trữ các thông tin liên quan đến hồ sơ thẩm định vào trong kho dữ liệu Làm nguồn tài nguyên hữu ích cho thuyết minh giá, tạo báo cáo Thông qua: Import trực tiếp file hồ sơ thẩm định trên trang web Hoặc service tự động download-select-convert-import file từ một thư mục lưu trữ file hồ sơ được thu thập về từ các hệ thống thẩm định giá của liên ngân hàng gửi về

- Quản lý hồ sơ: Quản lý danh sách hồ sơ có liên quan đến người dùng, thuộc quyền quản lý của người dùng Nhằm hỗ trợ người dùng theo dõi tiến trình xử lý của hồ

sơ và lựa chọn các tính năng xử lý hồ sơ thuộc trách nhiệm và quyền của mình

- Cập nhật thông tin hồ sơ: Khai báo các thông tin cơ bản của hồ sơ thẩm định Bao gồm: Thông tin chung về tài sản bảo đảm, thông tin khách hàng, thông tin liên quan đến hồ sơ thẩm định, thông tin về thành phần thẩm định

- Cập nhật danh sách tài sản thẩm định: Cập nhật các thông tin liên quan đến tài sản dùng để định giá và theo dõi danh sách tài sản được thẩm định để đưa vào làm tài sản bảo đảm trong mỗi hồ sơ thẩm định

Trang 12

- Lập báo cáo thẩm định: Tạo báo cáo thẩm định cho tài sản Lựa chọn phương pháp định giá phù hợp với tài sản để đưa ra được chi phí dự kiến cho tài sản

- Thuyết minh giá: Cho người dùng tìm kiếm các tài sản so sánh có các yếu tố tương đồng nhất với các thông tin tài sản người dùng nhập Khai thác dữ liệu thẩm định lịch sử để đưa ra được mô hình tuyến tính đa biến và giá gợi ý cho tài sản

Cấu trúc của luận văn

Luận văn này sẽ được trình bày theo bố cục như sau:

- Mở đầu: Giới thiệu về đề tài, mục tiêu và tổ chức của luận văn

- Chương 1: Cơ sở lý thuyết

Chương này sẽ giới thiệu tổng quan về Business Intelligence, Data Warehouse, Data Mining

- Chương 2: Bài toán ứng dụng BI trong hỗ trợ thẩm định tài sản bảo đảm của ngân

Chương này phát biểu yêu cầu của bài toán trong phạm vị thực hiện của luận văn

Mô tả việc áp dụng các phương pháp hồi quy trong ước lượng giá trị tài sản Thiết

kế kho dữ liệu hồ sơ thẩm định

- Chương 4: Cài đặt và kết quả

Chương này sẽ trình bày cách cấu hình, cài đặt và kết quả xây dựng web thẩm định tài sản bảo đảm

- Kết luận và hướng phát triển

Trang 13

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 Giới thiệu về Trí tuệ nghiệp vụ (Business Intelligence)

1.1.1 Khái niệm

Trí tuệ nghiệp vụ (BI) là một giải pháp công nghệ khai thác dữ liệu từ các nguồn

dữ liệu khác nhau, từ các hệ thống tác nghiệp khác nhau, thông qua các mô hình toán học, các kỹ thuật khai phá dữ liệu để xử lý thành các thông tin hữu ích nhằm hỗ trợ ra quyết định kinh doanh hiệu quả [13]

Mục đích của hệ thống BI là biến đổi dữ liệu từ kho dữ liệu hoặc khối dữ liệu chủ

đề thành các thông tin và tri thức hữu ích, thông qua các ứng dụng mô hình toán học và các thuật toán Từ việc tổng hợp và phân tích thông tin tri thức, doanh nghiệp có thể đưa

ra được các chiến lược, hành động hiệu quả Việc áp dụng các hệ thống BI là một cách tiếp cận hợp lý và khoa học của các doanh nghiệp và các tổ chức phức tạp trong vấn đề quản lý Ví dụ: Doanh nghiệp có thể dựa trên một bảng tính để dự đoán sự biến động của lãi suất ảnh hưởng đến ngân sách như thế nào Điều này sẽ thúc đẩy họ tạo ra một thể hiện mới về các dòng phát triển của tài chính

Cách tiếp cận điển hình của các nhà phân tích BI có thể được tóm tắt như sau:

- Bước 1: Cần xác định các mục tiêu của phân tích và các chỉ số sẽ được sử dụng để đánh giá các lựa chọn thay thế đã được xác định

- Bước 2: Phát triển các mô tình toán học bằng cách khai thác các mối quan hệ giữa các biến điều khiển hệ thống, các tham số và các chỉ số đánh giá

- Cuối cùng: Phân tích, đánh giá tính hiệu quả của hiệu suất được xác định bởi các biến điều khiển và các tham số thay đổi

1.1.2 Kiến trúc và thành phần của BI

Kiến trúc của BI gồm 3 thành phần chính [13]:

- Nguồn dữ liệu (Data sources): Nguồn dữ liệu được thu thập, chuẩn hóa và tích

hợp từ nhiều nguồn khác nhau, không đồng nhất về cách tổ chức và loại dữ liệu Phần lớn dữ liệu được lấy từ các hệ thống hoạt động của doanh nghiệp, cũng có thể lấy từ tài liệu phi cấu trúc như thư điện tử và các dữ liệu từ các nhà cung cấp bên ngoài

- Kho dữ liệu và khối dữ liệu chủ đề (Data warehouse/Data mart): Sử dụng các

công cụ chiết xuất và chuyển đổi dữ liệu được biết đến như công cụ ETL, dữ liệu được tổ chức từ các nguồn khác nhau sẽ được lưu trữ trong các cơ sơ dữ liệu để cung cấp cho việc phân tích trong hệ thống trí tuệ nghiệp vụ

- Các phương pháp luận của BI: Dữ liệu được trích xuất và sử dụng cho các mô

hình toán học, các phương pháp phân tích Nhằm hỗ trợ ra quyết định của doanh

Trang 14

nghiệp Trong một hệ thống BI, một vài ứng dụng hỗ trợ ra quyết định sẽ được cài đặt như:

o Phân tích cube nhiều chiều

o Phân tích dữ liệu thăm dò

o Phân tích theo chuỗi thời gian

o Các mô hình học máy quy nạp trong khai phá dữ liệu

o Các mô hình tối ưu hóa

Các thành phần chính trong một hệ thống BI được thể hiện như sau:

Hình 1- 1: Các thành phần chính trong một hệ thống BI [13]

- Các nguồn dữ liệu và kho dữ liệu/ khối dữ liệu: Là các thành phần chính trong

hệ thống BI Lưu trữ các thông tin hữu ích cho việc khai phá tri thức

- Thăm dò dữ liệu (Data exploration): Bao gồm các công cụ thực hiện việc phân

tích một cách bị động như: các hệ thống báo cáo, thống kê Người ra quyết định đặt ra các giả thuyết hoặc các tiêu chí trích xuất dữ liệu, sau đó sử dụng công cụ để tìm ra câu trả lời

- Khai phá dữ liệu (Data minning): Bao gồm các phương pháp luận trọng các hoạt

động của BI, với mục đích là khai thác thông tin và tri thức từ dữ liệu: Các mô hình toán học để nhận dạng máy, học máy và các công cụ khai phá dữ liệu Không giống như các công cụ được mô tả ở các tầng trước của kim tự tháp, các mô hình này thuộc loại chủ động hơn, không yêu cầu người ra quyết định xây dựng các giả thuyết và tiêu chí trước Mục đích là mở rộng tri thức cho các chuyên gia ra quyết định Các kỹ thuật có thể được dùng như: phân loại (classification), phân cụm (clustering), phát hiện luật kết hợp (association rule), dự đoán (prediction)…

Quyết địnhTối ưu hóaKhai phá dữ liệuThăm dò dữ liệuKho dữ liệu/khối dữ liệuNguồn dữ liệu

Dữ liệu từ các hệ thống, tài liệu và dữ liệu mở rộng

Trang 15

- Tối ưu hóa (Optimization): Cho phép xác định giải pháp tốt nhất trong một tập

các giải pháp đưa ra

- Quyết định (Decisions): Sau khi đã lựa chọn phương án tốt nhất, người sử dụng

sẽ đưa ra quyết định cuối cùng

Khi đi từ dưới lên trên kim tự tháp, các hệ thống BI sẽ cần được cung cấc các công

cụ hỗ trợ nâng cao hơn theo từng hoạt động Thậm chí là thay đổi luật và quyền

1.1.2.1 Chu kỳ của một phân tích BI

Mỗi phân tích BI sẽ theo một lĩnh vực ứng dụng riêng, phụ thuộc vào mục tiêu của người ra quyết định và các phương pháp phân tích có sẵn Tuy nhiên, có thể đưa ra được một chu kỳ lý tưởng đặc trưng cho sự tiến hóa của một phân tích BI điển hình như hình 1-2, mặc dù vẫn tồn tại sự khác biệt dựa trên đặc thù của từng ngữ cảnh cụ thể

Hình 1- 2: Chu kỳ của phân tích BI [13]

Phân tích (Analysis): Trong giai đoạn phân tích, cần phải nhận biết chính xác các

vấn đề đang xảy ra Người quyết định phải tạo một thể hiện ý tưởng của hiện tượng đang được phân tích, bằng cách xác định các nhân tố liên quan nhất Trong giai đoạn này các phương pháp luận BI sẽ được sử dụng, cho phép các nhà quyết định thực hiện nhanh chóng các dò xét khác nhau, bằng việc đặt ra một số câu hỏi để thu được các phản hồi nhanh chóng thông qua các phương pháp tương tác

Nhận thức (Insight): Trong giai đoạn thứ hai này cho phép các nhà ra quyết định

hiểu một cách sâu và rõ ràng hơn các vấn đề hiện tại, thường ở mức độ nhân quả Một mặt, việc khai thác tri thức có thể xảy ra theo trực giác của người ra quyết định, dựa trên kinh nghiệm của họ và có thể là trên các thông tin phi cấu trúc có sẵn Mặt khác, các mô hình học máy quy nạp cũng có thể chứng minh là rất hữu ích trong giai đoạn phân tích này, đặc biệt áp dụng cho dữ liệu có cấu trúc

Phân tích

Nhận thứcĐánh giá

Quyết định

Trang 16

Quyết định (Decision): Trong pha thứ ba, tri thức thu được là kết quả của pha

nhận thức được chuyển thành các quyết định và thứ tự hành động Các phương pháp luận

BI cho phép pha phân tích và nhận thức thực hiện nhanh chóng để đưa ra được quyết định hiệu quả hơn và kịp thời phù hợp với các chiến lược ưu tiên của một tổ chức Vì vậy tổng thời gian thực hiện của chu trình phân tích- quyết định- hành động- sửa đổi sẽ giảm

và quá trình ra quyết định sẽ đạt chất lượng tốt hơn

Đánh giá (Evaluation): Cuối cùng là pha thứ tư của chu trình BI liên quan đến

phép đo hiệu suất và đánh giá Các số liệu mở rộng không chỉ giới hạn trong các khía cạnh tài chính mà còn tính đến chỉ số hiệu suất được xác định theo phòng ban khác nhau của công ty

1.1.2.2 Phát triển một hệ thống BI

Việc phát triển một hệ thống BI giống như là phát triển một dự án, với một mục tiêu cụ thể, thời gian phát triển và chi phí dự kiến, sử dụng và điều phối nguồn lực cần thiết để thực hiện kế hoạch Hình 1-3 thể hiện một loại chu kỳ phát triển một hệ thống BI

Trang 17

Hình 1- 3: Các pha phát triển một hệ thống BI [13]

Phân tích (Analysis): Xác định các nhu cầu liên quan đến việc phát triển một hệ

thống BI của tổ chức Thông qua một loạt các buổi phỏng vấn các nhân viên có các vai trò và hoạt động khác nhau trong tổ chức Mô tả rõ ràng các mục tiêu chung và các ưu tiên của dự án, đưa ra các chi phí và trợ cấp phát sinh từ việc phát triển hệ thống BI

Thiết kế (Design): Nhằm mục đích đưa ra một kế hoạch tạm thời về kiến trúc

tổng thể, có tính đến bất kỳ sự phát triển nào trong tương lai gần và sự phát triển của hệ thống trong giai đoạn giữa Bao gồm hai giai đoạn:

 Đầu tiên là đánh giá các cơ sở hạ tầng thông tin đã có và phải kiểm tra các quy trình ra quyết định chính cần được hệ thống BI hỗ trợ để xác định đầy đủ các thông tin yêu cầu

Phân tích Xác định các yêu cầu

nghiệp vụ

Thiết kế

Kiến trúc tổng thể

Lập kế hoạch vĩ mô cho dự án

Lập kế hoạch

Đặc tả chi tiết dự án

Xác định nguồn dữ liệu định nghĩa kho dữ liệu, khối dữ liệu

Xác định các mô hình

toán học

Xây dựng nguyên mẫu

Xây dựng kho dữ liệu, khối dữ liệu chủ đề Xây dựng module ETL

Trang 18

 Sau đó, sử dụng các phương pháp quản lý dự án để đưa ra kế hoạch của dự án, xác định các giai đoạn phát triển, các ưu tiên, thời gian và chi phí dự kiến, các vai trò và nguồn lực cần thiết

Lập kế hoạch (Planning): Xác định và mô tả chi tiết hơn các tính năng của hệ

thống BI

 Đánh giá nguồn dữ liệu hiện có, dữ liệu được truy xuất từ bên ngoài Điều này cho phép xây dựng cấu trúc thông tin của hệ thống BI, bao gồm một kho dữ liệu trung tâm và có thể có nhiều khối dữ liệu đi kèm

 Cần xác định các mô hình toán học được áp dụng, đảm bảo tính sẵn có của các dữ liệu cần thiết cho mỗi mô hình và xác định hiệu quả của các thuật toán

có phù hợp với mức độ kết quả các vấn đề

 Cuối cùng, tạo một hệ thống với chi phí thấp và khả năng giới hạn, để phát hiện ra bất kỳ sự khác biệt giữa nhu cầu thực tế và các dự án cụ thể

Cài đặt và kiểm tra (Implementation and control): Gồm có 5 giai đoạn chính:

 Đầu tiên là phát triển kho dữ liệu và khối dữ liệu cụ thể Đây là những cơ sở

hạ tầng thông tin sẽ cung cấp cho hệ thống BI

 Thứ hai là tạo ra một metadata để giải thích ý nghĩa của dữ liệu lưu trữ trong kho dữ liệu và áp dụng các phép biến đổi dữ liệu chính

 Thứ ba là thiết lập các thủ tục ETL để thu thập và chuẩn hóa dữ liệu đã tồn tại trong các nguồn tài nguyên chính, nạp chúng vào trong kho dữ liệu và các khối dữ liệu

 Bước tiếp theo là phát triển các ứng dụng core của BI để thực hiện các phân tích kế hoạch

 Cuối cùng, hệ thống được phát hành để thử nghiệm và sử dụng

1.2.Giới thiệu về Data Warehouse

1.2.1 Khái niệm

Data Warehouse (DW) là nơi lưu trữ dữ liệu có giá trị cho việc xây dựng các kiến trúc BI và các hệ thống hỗ trợ quyết định Một định nghĩa DW thể hiện toàn bộ các hoạt động liên quan đến nhau, tham gia vào việc thiết kế, phát triển và sử dụng một DW [13]

Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước

Các đặc tính của kho dữ liệu:

Trang 19

- Hướng chủ đề: Kho dữ liệu được thiết kế để phục vụ cho một mục đích phân tích

dữ liệu hướng tới một chủ đề nào đó Có thể là: Khách hàng, sản phẩm, bán hàng… Giúp người dùng xác định được các thông tin cần thiết trong hoạt động của mình và loại bỏ những thông tin không cần thiết

- Tích hợp: Dữ liệu được tập hợp từ nhiều nguồn khác nhau: cơ sở dữ liệu Oracle, SQLserver, files… cần phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu

- Biến đổi theo thời gian: Mỗi dữ liệu trong kho dữ liệu đều được gắn với thời gian

và có tính lịch sử

- Ổn định: Được lấy từ nhiều nguồn dữ liệu của hệ thống tác nghiệp có sẵn Nó tách rời vật lý với môi trường tác nghiệp,nên dữ liệu trong kho dữ liệu là dữ liệu chỉ đọc, không được sửa bởi người dùng cuối

1.2.2.Kiến trúc của Data Warehouse

Các kiến trúc tham chiếu của một kho dữ liệu được thể hiện như sau [13]:

Hình 1- 4: Kiến trúc và các tính năng của một kho dữ liệu [13]

- Kho dữ liệu kết hợp với các metadata chứa dữ liệu và các chức năng cho phép dữ liệu được truy cập, hình tượng hóa và cập nhật

- Các ứng dụng thu thập dữ liệu từ hệ thống nghiệp vụ, chuẩn hóa dữ liệu về dạng

dữ liệu đa chiều, nạp vào kho dữ liệu (ETL) hoặc các công cụ back-end cho phép

dữ liệu được chiết xuất, chuyển đổi và tải vào kho dữ liệu

- Các ứng dụng BI và hệ thống ra quyết định như là các front-end, cho phép các nhà tri thức thực hiện các phân tích và trực quan hóa các kết quả

Một kho dữ liệu có thể được phát triển theo các kiểu thiết kế: top-down (từ trên xuống), bottom-up (từ dưới lên) và mixed (hỗn hợp hai phương pháp)

Đánh giá hiệu suất

Cube đa chiều Phân tích thăm dò dữ liệu Phân tích chuỗi thời gian Khai giá dữ liệu

Tối ưu hóa

Trang 20

- Top - down: Phương pháp top-down dựa trên thiết kế tổng thể của kho dữ liệu Thời gian phát triển dài hơn và rủi ro không hoàn thành theo lập lịch cao hơn, khi toàn bộ kho dữ liệu được phát triển trên thực tế

- Bottom-up: Phương pháp này dựa trên việc sử dụng các nguyên mẫu và do đó phần mở rộng hệ thống được thực hiện theo từng bước của kế hoạch Cách tiếp cận này thường nhanh hơn, cung cấp nhiều kết quả hữu hình hơn, nhưng lại thiếu một tầm nhìn tổng thể của toàn bộ hệ thống đang được phát triển

- Mixed: Phương pháp này dựa trên thiết kế tổng thể của kho dữ liệu, nhưng sau đó tiến hành theo cách tiếp cận các nguyên mẫu, bằng cách thực hiện tuần tự các phần khác nhau của toàn bộ hệ thống Cách tiếp cận này thực tiễn hơn và thích hợp hơn,

vì nó cho phép các bước nhỏ đã được kiểm soát để được thực hiện trong khi luôn ghi nhớ tới toàn bộ hình ảnh

Hai thành phần quan trọng tạo nên kho dữ liệu là:

- Các công cụ ETL: Là các công cụ phần mềm sử dụng để thực hiện tự động hóa ba tính năng chính sau: Khai thác, chuyển đổi và nạp dữ liệu vào trong kho dữ liệu

o Khai thác: Dữ liệu được trích xuất từ các nguồn dữ liệu bên trong và mở rộng có sẵn Việc lựa chọn dữ liệu để cập nhật vào dựa trên thiết kế kho dữ liệu, phụ thuộc vào thông tin được đưa ra bởi các hệ thống phân tích nghiệp

vụ kinh doanh và hỗ trợ ra quyết định hoạt động trong một miền ứng dụng

cụ thể

o Chuyển đổi: Cải tiến chất lượng dữ liệu được chiết xuất từ các nguồn dữ liệu khác nhau, thông qua việc hiệu chỉnh tính không nhất quán, không chính xác và thiếu giá trị

o Nạp dữ liệu: Dữ liệu được nạp vào trong các bảng của kho dữ liệu, tạo ra các dữ liệu có giá trị cho các ứng dụng phân tích và hỗ trợ quyết định

- Metadata (Siêu dữ liệu): Ghi lại ý nghĩa của dữ liệu trong kho dữ liệu Được chia làm hai nhóm là siêu dữ liệu nghiệp vụ và siêu dữ liệu kỹ thuật

o Siêu dữ liệu nghiệp vụ mô tả ý nghĩa dữ liệu, các luật và ràng buộc tác động

o Siêu dữ liệu kỹ thuật mô tả cách thức tổ chức, lưu trữ và điều khiển dữ liệu trong hệ thống máy tính

1.2.3.Xây dựng Data warehouse

Việc thiết kế kho dữ liệu và dữ liệu mô tả dựa trên mô hình dữ liệu đa chiều Về mặt chức năng mô hình có thể đảm bảo thời gian phản hồi nhanh, thậm chí đối với câu lệnh truy vấn phức tạp Về mặt logic người dùng có thể nhìn dữ liệu theo nhiều khía cạnh khác nhau

Trang 21

Biểu diễn data cube dựa trên lược đồ sao được xác định bởi hai loại bảng dữ liệu: bảng cắt lớp (dimenson tables) và bảng sự kiện (fact tables).[13]

- Bảng cắt lớp: Cung cấp các thông tin, quan điểm được dùng để phân tích dữ liệu

Bảng cắt lớp tương ứng với các thực thể chính chứa trong kho dữ liệu, chúng thường thu được từ các bảng chính được lưu trữ trên các hệ thống xử lý giao dịch thời gian thực (OLTP) như: bảng khách hàng, sản phẩm, kinh doanh, vị trí và thời gian Mỗi bảng cắt lớp thường được xây dựng theo mối quan hệ có tính phân cấp Bảng cắt lớp bao gồm 3 thành phần chính:

o Khóa thay thế: Là khóa chính chứa giá trị duy nhất, tự sinh và không có nghĩa

o Khóa tự nhiên: Là khóa chính của dữ liệu trong hệ thống nghiệp vụ Có ý nghĩa trong giá trị

o Tập các thuộc tính mô tả: Có thể ở nhiều kiểu dữ liệu khác nhau

- Bảng sự kiện: Lưu các tiêu chí, chi tiêu về hoạt động kinh doanh của doanh

nghiệp Mỗi môt tiêu chí được định nghĩa là một lượng quan sát được theo một đơn vị đo lường thống nhất Bảng sự kiện gồm có hai thành phần:

o Một tập khóa ngoại: Để kết nối tới các bảng cắt lớp Cung cấp ngữ cảnh cho các thông tin trong bảng sự kiện

o Các tiêu chí đo lường: thuộc tính là các giá trị số, mô tả các giao dịch tương ứng và thể hiện mục tiêu của các phân tích OLAP tiếp theo

Một bảng sự kiện được kết nối với n bảng cắt lớp có thể được biểu diễn bằng một data cube n cắt lớp, trong đó mỗi trục tương ứng với một cắt lớp Nhìn chung, từ một bảng sự kiện liên kết với n bảng cắt lớp, có thể tạo ra một lưới các cuboid Một cuboid tương ứng với các mức độ hợp nhất với một hoặc nhiều cắt lớp Kiểu kết hợp này tương đương với ngôn ngữ truy vấn cấu trúc (SQL) tới câu lệnh truy vấn sum bắt nguồn từ điều kiện group by

Trong nhiều trường hợp, phân tích OLAP dựa trên sự phân cấp các khái niệm để hợp nhất dữ liệu và tạo ra các quan điểm logic dọc theo các cắt lớp của một kho dữ liệu Tính chất cây phân cấp định nghĩa ra một cấu trúc hình cây với các mức độ chi tiết khác nhau của một cắt lớp Với hai mức độ liền nhau trong một cây, mức thấp hơn gọi là mức con, mức cao hơn gọi là mức cha Các phân cấp khái niệm được sử dụng để thực hiện trực quan hóa khối dữ liệu trong một kho dữ liệu Một số tính năng cho phép thực hiện điều đó là [5]:

- Nhìn xa (Roll-up): Hay còn gọi là drill-up Biến tiêu chí từ mức chi tiết sang mức

tổng hợp để hiển thị cho người dùng Tập hợp dữ liệu trong cube được tạo ra từ việc thay thế theo hai cách: Đi từ mức thấp lên mức cao trong cây phân cấp hoặc làm giảm số cắt lớp

Trang 22

- Đào sâu (Roll-down): Hay còn gọi là drill-down Là một hoạt động ngược lại với

roll-up Nó cho phép đi từ mức tổng hợp cao đến mức chi tiết hơn Mục đích là để đảo ngược kết quả từ hoạt động roll-up Vì vậy, hoạt động drill-down có thể được thực hiện theo hai cách: Di chuyển xuống bậc thấp hơn dọc theo một cắt lớp của cây phân cấp hoặc thêm một cắt lớp

- Cắt lát mỏng và cắt khối (Slice and dice): Hoạt động cắt lấy dữ liệu một lớp cắt

cụ thể trong một cắt lớp hoặc lựa chọn giá trị cho ít nhất hai cắt lớp Hoạt động

"cắt" có được một khối lập phương trong một không gian con bằng việc lựa chọn một vài cắt lớp cùng một lúc

- Đảo chiều (Pivot): Họat động pivot được xem như là việc luân chuyển, tạo ra một

vòng xoay giữa các trục: biến cột thành hàng, hàng thành cột Đảo chiều để có được một cách nhìn khác về khối dữ liệu

1.3 Giới thiệu về Khai phá dữ liệu (Data mining)

1.3.1 Khái niệm

Các hoạt động khai phá dữ liệu là một quá trình lặp đi lặp lại nhằm phân tích các

cơ sở dữ liệu lớn, với mục đích khai thác thông tin và tri thức một cách chính xác và hữu ích cho việc hỗ trợ ra quyết định và xử lý vấn đề [13]

Thuật ngữ khai phá dữ liệu đề cập đến một quá trình tổng thể bao gồm: thu thập và phân tích dữ liệu, phát triển các mô hình học thức quy nạp thông qua các quyết định thực tiễn và các hành động diễn ra sau đó dựa trên kiến thức thu được

Các hoạt động khai phá dữ liệu có thể được chia ra thành hai luồng phân tích chính, theo mục đích phân tích là: thông dịch (Interpretation) và dự đoán (Prediction)

- Thông dịch (Interpretation): Xác định các mẫu có quy tắc trong dữ liệu và mô tả

chúng thông qua các luật và các tiêu chí mà các chuyên gia trong lĩnh vực ứng dụng có thể dễ dàng hiểu được Các quy tắc tạo ra phải là nguyên thủy và không tầm thường để làm tăng thực sự mức độ tri thức và hiểu biết về hệ thống cần quan tâm

- Dự đoán (Prediction): Mục đích của hoạt động này là dự đoán giá trị mà một

biến ngẫu nhiên sẽ có trong tương lai hoặc để đánh giá khả năng xảy ra của các sự kiện trong tương lai Thực tế thì hầu hết các kỹ thuật khai phá dữ liệu thu được được tiên đoán từ giá trị của một bộ biến liên quan đến các thực thể trong cơ sở dữ liệu

1.3.2.Quy trình khai phá dữ liệu

Khai phá dữ liệu được thực hiện theo quy trình sau [13]:

Trang 23

Hình 1- 5: Quy trình khai phá dữ liệu[13]

- Định nghĩa các mục tiêu (Objectives definition): Các phân tích khai phá dữ liệu

được thực hiện trong những lĩnh vực ứng dụng nhất định và được mong đợi để cung cấp những tri thức cần thiết cho người ra quyết định

- Thu thập và tích hợp dữ liệu (Data gathering and integration): Dữ liệu có thể

đến từ nhiều nguồn khác nhau, có thể là trong một cơ sở dữ liệu, một kho dữ liệu, thậm chí các dữ liệu từ các nguồn ứng dụng web

- Phân tích thăm dò (Exploratory analysis): Trong giai đoạn thứ ba của quá trình

khai thác dữ liệu, một phân tích thăm dò sẽ được thực hiện với mục đích làm quen với các thông tin hiện có và thực hiện công việc làm sạch dữ liệu Thông thường,

dữ liệu được lưu trữ trong một kho dữ liệu đã được xử lý ở giai đoạn tải dữ liệu theo cách loại bỏ bất kỳ dữ liệu không nhất quán về cú pháp Trong quá trình khai thác dữ liệu, làm sạch dữ liệu xảy ra ở mức độ ngữ nghĩa Trước hết các giá trị phân bố của mỗi thuộc tính sẽ được nghiên cứu, sử dụng biểu đồ danh mục thuộc tính và các thống kê tổng hợp cơ bản cho các biến số Bằng cách này, bất kỳ một giá trị bất thường nào hoặc thiếu giá trị cũng sẽ bị đánh dấu

- Lựa chọn các thuộc tính (Attribute Selection): Trong giai đoạn này, sự liên

quan của các thuộc tính khác nhau được đánh giá trên mối quan hệ giữa các mục

Trang 24

tiêu của phép phân tích Các thuộc tính được chứng minh là ít được sử dụng sẽ bị loại bỏ, để làm sạch thông tin không liên quan từ bộ dữ liệu Hơn nữa, các thuộc tính mới thu được từ các biến ban đầu thông qua các phép biến đổi thích hợp được đưa vào bộ dữ liệu Phân tích thăm dò và lựa chọn thuộc tính là những giai đoạn quan trọng và có thể ảnh hưởng đến mức độ thành công của các giai đoạn tiếp theo

- Phát triển mô hình và xác nhận (Model development and validation): Một khi

bộ dữ liệu có chất lượng tốt được nhúng và có khả năng được làm giàu với các thuộc định mới đã được xác định, chúng ta có thể phát triển các mô hình nhận diện

và dự báo Thông thường việc đào tạo của các mô hình được thực hiện bằng cách

sử dụng một mẫu của các bản nghi đã được chiết xuất từ tập dữ liệu ban đầu Sau

đó, độ chính xác dự đoán của mỗi mô hình đã được tạo ra có thể được đánh giá bằng phần còn lại của dữ liệu

- Dự đoán và thông dịch dữ liệu (Prediction and interpretation): Sau khi kết

thúc quá trình khai thác dữ liệu, mô hình đã được chọn trong số các mô hình được tạo ra trong suốt giai đoạn phát triển sẽ được cài đặt và sử dụng để đạt được các mục tiêu xác định ban đầu Hơn nữa, nó cần được kết hợp chặt chẽ vào các thủ tục của quá trình hỗ trợ ra quyết định để để dự đoán và thu thập kến thức sâu hơn về các hiện tượng đang được quan tâm

1.3.3 Các phương pháp khai phá dữ liệu

Có một số phương pháp khai phá dữ liệu điển hình là [13]:

- Phân lớp dữ liệu: Từ một cơ sở dữ liệu với nhiều thông tin ẩn, con người có thể trích rút ra các quyết định nghiệp vụ thông minh Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán các xu hướng dữ liệu tương lai Phân lớp dự đoán giá trị của những nhãn xác định hay những giá trị rời rạc đã biết trước Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giá trị liên tục Một số thuật toán tiêu biểu như:Phân lớp cây quyết định (Decision tree classification), bộ phân lớp Bayesian (Bayesian classifier), mô hình phân lớp K hàng xóm gần nhất (K-nearest neighbor classifier), mạng nơ ron …

- Phân cụm dữ liệu: Phân cụm dữ liệu là một kỹ thuật nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn, để từ

đó cung cấp thông tin, tri thức cho việc ra quyết định Có thể coi phân cụm dữ liệu

là một cách học bằng quan sát, còn phân lớp dữ liệu là học bằng ví dụ Các thuật toán thường được sử dụng như: K_means, K_medoids, CLARA (Clustering Large Application), CLARANS, AGNES, DIANA (Divisive Analysis), BIRCH …

- Khai phá luật kết hợp: Mục đích của luật kết hợp là rút ra những mối liên quan, những tập mẫu phổ biến, những cấu trúc kết hợp hay cấu trúc ngẫu nhiên giữa những tập hợp các item trong các CSDL giao tác hoặc trong các kho dữ liệu

Trang 25

Hai thuật toán sẽ được sử dụng trong luận văn là: K láng giềng gần nhất nearest neighbor) và hồi quy tuyến tính đa biến (multiple linear regression)

(K-1.3.3.1.Thuật toán K láng giềng gần nhất(KNN)

K-Nearest Neighbors algorithm (K-NN) là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp với tất cả các đối tượng trong Training Data.[9]

Thuật toán KNN được mô tả như sau:

- Bước 4: Lấy tất cả các lớp của K láng giềng gần nhất đã xác định

- Bước 5: Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho đối tượng cần phân lớp

Một số phương pháp phổ biến để tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong training data:

- Khoảng cách Euclidean: Khoảng cách giữa 2 điểm là chiều dài của đường thẳng nối chúng

- Khoảng cách Manhattan: Khoảng cách giữa 2 điểm là chiều dài của tất cả các đoạn nối hai điểm dọc theo mặt cắt trục đứng và trục ngang, theo một chiều tới

- Khoảng cách Minkowski: Là sự tổng quát của cả khoảng cách Euclidean và Manhattan

- Khoảng cách Hamming: Tính khoảng cách giữa các vector nhị phân Đo sự khác biệt giữa hai trạng thái/hai đối tượng

Khoảng cách Euclidean sẽ được sử dụng trong thuật toán KNN của luận văn Trong mặt phẳng, khoảng cách giữ 2 điểm (x1,y1) và (x2,y2) được tính bởi công thức Pytharorean:

Trang 26

2 1

n

i i i

Trước khi tiến hành thuật toán cần xử lý dữ liệu Nên chuẩn hóa dữ liệu về dạng

số, lý tưởng là phạm vi [0,1] và giảm số chiều dữ liệu của không gian đầu vào để thuật toán KNN thực hiện tốt hơn Lựa chọn các thuộc tính có ảnh hưởng lớn đến bài toán

1.3.3.2.Phương pháp hồi quy tuyến tính đa biến

Phân tích hồi quy tuyến tính đa biến là một kỹ thuật mô hình hóa mối quan hệ giữa hai hay nhiều biến Nó là một trong những phương pháp thống kê được sử dụng rộng rãi nhất Trong tài chính ngân hàng, phân tích hồi quy được sử dụng để tìm ra các yếu tố quyết định hiệu quả của ngân hàng.[10,13]

Mô hình hồi quy tuyến tính đa biến có dạng:

- X2i, X3i,…,Xki.: Là giá trị của các biến độc lập ứng với quan sát i

- 0,…,k : Là các tham số của hồi quy k đo lường tác động riêng phần của biến

sẽ tăng k đơn vị nếu Xk tăng 1 đơn vị

- i : Sai số ngẫu nhiên của hồi quy có kỳ vọng 0 và phương sai 2

 Các giá trị 0,…,k được ước tính dựa vào phương pháp bình phương tối thiểu Gọi Y i 0 1X1i 2 X2ik X ki

 sao cho

1

n

i i i

Trang 27

2 1

1 0

2 1

1 1

2 1

k

i n

i n i

k

i k

S

y

S S

  Với Sx là độ lệch chuẩn tương ứng của x và Sy là độ lệch chuẩn của y

Trang 28

 ESS:Tổng bình phương cho sai số giải thích sự biến đổi của các nhân tố

T T

ESSX Y n Y

 RSS: Tổng bình phương được giải thích bằng hồi quy, giải thích sự biến đổi

do mối liên hệ giữa X và Y RSSTSSESS Như vậy yếu tố nào có R2 càng lớn thì mối quan hệ giữa yếu tố đó với biến Y càng chặt chẽ

Trước khi áp dụng phương pháp vào bài toán, chúng ta cần phải thực hiện việc tiền xử lý dữ liệu trong tập training Loại bỏ các dữ liệu nhiễu và trích chọn các thuộc tính yếu tố có mức ảnh hưởng lớn đến kết quả của dự đoán Các thuộc tính không cần thiết đó làm giảm độ chính xác của mô hình và gây khó khăn trong việc phát hiện tri thức Có rất nhiều phương pháp để lựa chọn thuộc tính tùy thuộc vào cấu trúc của dữ liệu dùng cho mô hình và thuật toán được dùng để xây dựng mô hình:

Interestingness score: Được sử dụng đối với thuộc tính có kiểu dữ liệu liên tục Dùng entropy để đo lường mức độ interestingness Một thuộc tính với phân bố ngẫu nhiên có entropy cao hơn và có information gain (độ lợi thông tin) thấp hơn thì các thuộc tính đó gọi là less interesting Entropy của một thuộc tính nào đó sẽ được so sánh với entropy của tất cả các thuộc tính còn lại theo công thức sau:

Interestingness(Attribute) = - (m - Entropy(Attribute)) * (m - Entropy(Attribute)) Trong đó m gọi là entropy trung tâm (Central entropy- có nghĩa là entropy của toàn bộ tập thuộc tính)

Trong phạm vi của luận văn, sẽ sử dụng mã nguồn mở weka và lựa chọn thuật toán Interestingness score để lựa chọn ra các thuộc tính quan trọng của mỗi loại tài sản ảnh hưởng đến giá trị của tài sản

Trang 29

CHƯƠNG 2: BÀI TOÁN ỨNG DỤNG BI TRONG HỖ TRỢ THẨM ĐỊNH TÀI

SẢN BẢO ĐẢM CỦA NGÂN HÀNG

Chương này sẽ trình bày một số ứng dụng của BI trong lĩnh vực ngân hàng Các khái niệm về thẩm định tài sản bảo đảm, quy trình thẩm định và các phương pháp thẩm định tài sản bảo đảm mà các ngân hàng thường hay sử dụng

2.1 Ứng dụng của BI trong lĩnh vực ngân hàng

2.1.1 Công nghệ BI trong các hoạt động ngân hàng

Lĩnh vực tài chính luôn phải thích ứng với những áp lực từ toàn cầu hóa, hội nhập, cạnh tranh mạnh mẽ, đổi mới thị trường và sản phẩm, hoàn thiện các quy trình nghiệp vụ

và các xu hướng phát triển Để đạt được thành công, các tổ chức tài chính cần phải:

- Xem xét mọi khía cạnh liên quan đến khách hàng

- Xác định và duy trì khách hàng tiềm năng

- Thu hút khách hàng mới từ đối thủ cạnh tranh

- Đánh giá các sản phẩm và các tổ chức sản xuất một cách đúng đắn

- Xác định những nhu cầu và thị trường cho các sản phẩm mới

Để đạt được những mục tiêu trên, ngân hàng cần khai thác dữ liệu giao dịch hàng ngày với những phân tích phức tạp bao gồm: thông tin khách hàng và quản lý rủi ro dữ liệu quan hệ khách hàng, thông tin khách hàng tiềm năng, khách hàng trung thành, sản phẩm và kênh phân phối đem lại lợi nhuận cao cho ngân hàng, phân loại các nhóm khách hàng, đánh giá các chiến dịch quảng cáo và hiệu quả điều hành, xác định xu hướng thị trường, nâng cao dịch vụ khách hàng và doanh số bán hàng Vì vậy, ngân hàng đang ngày càng tích lũy một khối dữ liệu rất lớn từ các nguồn nội bộ và bên ngoài các hệ thống khác nhau như core - banking (ngân hàng lõi), hệ thống thẻ, hệ thống thông tin tín dụng… từ các website, sách báo, kết quả nghiên cứu… Khó khăn gặp phải trong quá trình thu thập

dữ liệu cấu trúc và phi cấu trúc từ những nguồn khác nhau là việc chuẩn hóa dữ liệu, trích lọc, phân cụm, làm sạch và nâng cao chất lượng dữ liệu Tiếp đến là làm thế nào để trích lọc ra được những tri thức nhất quán, đúng đắn, và kịp thời từ những dữ liệu đó Câu trả lời là sử dụng giải pháp BI để khai phá tri thức là hướng tiếp cận phổ biến hiện nay

Các ngân hàng cần phải kiểm soát các rủi ro có thể gặp phải Trước đây, ngân hàng có những nhân viên được đào tạo kỹ càng nghiệp vụ quản lý rủi ro, những cán bộ mới có thể học hỏi từ những người đi trước có nhiều kinh nghiệm Trong khi đó, những ngân hàng mới thì lại chủ yếu là nhân viên trẻ chưa có nhiều kinh nghiệm, việc tuyển dụng nhân viên có nhiều kinh nghiệm và có đầy đủ các kỹ năng cần thiết thì không có nhiều hoặc chi phí phải trả cao Thông tin và tri thức cùng với nền tảng công nghệ thông tin sẽ trở thành nguồn lực then chốt Một nhân viên ngân hàng hiện đại cần biết khai thác thông tin phù hợp một cách thông minh và kịp thời để giải quyết việc quản lý rủi ro trong nghiệp vụ đảm nhiệm

Trang 30

Giải pháp BI trong lĩnh vực tài chính trở thành một công nghệ cốt yếu trong việc

hỗ trợ mục tiêu chiến lược là đạt được một lợi thế cạnh tranh và đảm bảo một tầm nhìn triển vọng trong tương lai

2.1.2 Một số ứng dụng BI trong lĩnh vực ngân hàng

Quản trị rủi ro: Đối với ngân hàng, quản lý rủi ro rất quan trọng để tránh phát

sinh nợ xấu, nợ khó đòi và tính toán ra lợi nhuận trước khi cấp tín dụng cho khách hàng Tín dụng và tính điểm tín dụng trở thành những công cụ hữu ích để mô hình hóa các bài toán tài chính Những mô hình dự đoán hoạt động của chủ thẻ có thể đưa ra các cảnh báo sớm về gian lận, từ đó giúp giảm thiểu rủi ro cho ngân hàng Phân tích thẻ tín dụng bị đánh cắp cho thấy số giao dịch phát sinh nhiều và nhanh chóng sau khi bị đánh cắp Bằng việc so sánh với số giao dịch trung bình hoặc số giao dịch trong ngày thì hệ thống xác thực có thể đưa ra cảnh báo sớm

Bán sản phẩm, dịch vụ tới khách hàng đang có: Yếu tố then chốt trong việc

quảng cáo sản phẩm và dịch vụ là cung cấp sản phẩm phù hợp với từng đối tượng khách hàng và đúng thời điểm.Giải pháp BI hỗ trợ cho việc xác định xem sản phẩm nào phù hợp với khách hàng, dịch vụ nào là tốt nhất cho khách hàng và tính toán sao cho ngân hàng thu được nhiều lợi nhuận nhất Làm được điều này sẽ giúp cho ngân hàng giảm được chi phí cho các chiến dịch quảng cáo, củng cố chất lượng mối quan hệ với khách hàng và tăng lượng khách hàng trung thành, lợi nhuận cho ngân hàng

Duy trì lượng khách hàng hiện tại: Mất khách hàng vào tay đối thủ cạnh tranh là

vấn đề rất lớn đối với tất cả các lĩnh vực kinh doanh Khách hàng có thể chuyển tới sử dụng dịch vụ của đối thủ cạnh tranh bởi những lợi ích được chào mời Giải pháp BI có thể đánh giá khả năng khách hàng sẽ tiếp tục giao dịch hay không sau khi kết thúc thời gian ưu đãi lãi suất Khai phá dữ liệu là một thành phần cơ bản của việc quản lý quan hệ khách hàng và có thể được xem như là một công cụ để dự báo Việc quan trọng là phải xác định được tại sao khách hàng ngưng sử dụng sản phẩm, dịch vụ để tử đó có hướng xử

lý hợp lý

Phân khúc khách hàng: Ngân hàng sử dụng các phân khúc khách hàng trong

hoạt động kinh doanh bán lẻ và thương mại Các sản phẩm dịch vụ ngân hàng được tạo ra

để phục vụ nhiều phân khúc khách hàng khác nhau Bằng việc sử dụng các thông tin hữu ích từ lịch sử sử dụng sản phẩm dịch vụ của khác hàng để phân tích, nhận định hành vi hoặc thói quen, nhu cầu của khách hàng trong tương lai Giải pháp BI có thể nhận diện khách hàng mới, khách hàng tiềm năng, phân khúc khách hàng để ngân hàng có thể cung cấp các sản phẩm dịch vụ phù hợp và từ đó nâng cao kết quả kinh doanh của ngân hàng

Đánh giá việc kích hoạt sử dụng sản phẩm dịch vụ: Ước lượng khả năng một

khách hàng mới thực sự sử dụng một sản phẩm, dịch vụ mới như đã ký kết, thỏa thuận trở thành một khách hàng tốt của ngân hàng Việc đánh giá kích hoạt sử dụng sản phẩm sẽ giúp ngân hàng nắm bắt được tình trạng và có phương hướng thúc đẩy khách hàng chính thức sử dụng sản phẩm dịch vụ đã ký kết

Trang 31

2.2 Bài toán thẩm định tài sản bảo đảm trong hệ thống ngân hàng

2.2.1 Giới thiệu về thẩm định tài sản bảo đảm

Theo khoản 7, điều 3, NĐ 163/2006/CP, tài sản bảo đảm (TSBĐ) là tài sản thuộc quyền sở hữu của bên bảo đảm dùng để bảo đảm thực hiện nghĩa vụ dân sự đối với bên nhận bảo đảm Theo khoản 2, điều 4, NĐ 163/2006/CP: Tài sản bảo đảm do các bên thỏa thuận và thuộc sở hữu của bên có nghĩa vụ hoặc thuộc sở hữu của người thứ ba mà người này cam kết dùng tài sản đó để bảo đảm thực hiện nghĩa vụ của bên có nghĩa vụ đối với bên có quyền Tài sản bảo đảm có thể là tài sản hiện có (tiền, bất động sản, động sản, hoa lợi, lợi tức), tài sản hình thành trong tương lai và được phép giao dịch [2]

Thẩm định tài sản bảo đảm là việc mà ngân hàng sử dụng các công cụ và phương tiện kĩ thuật nhằm đánh giá được giá trị của tài sản bảo đảm mà khách hàng dùng để bảo đảm cho khoản vay của mình [2]

Công tác thẩm định tài sản bảo đảm có một số vai trò như sau:

- Kiểm soát rủi ro tín dụng:

o Tính pháp lý: Quyền sở hữu, lợi ích hợp pháp của ngân hàng đối với TSBĐ

- Nâng cao chất lượng tín dụng, thúc đẩy hoạt động kinh doanh của ngân hàng:

o Kết quả thẩm định giá chính xác, khách quan và tin cậy, phù hợp với giá trị TSBĐ

o Rút ngắn được thời gian phê duyệt khoản vay

- Thẩm định giá trị tài sản, giá trị còn lại

- Khả năng thanh toán

Tùy theo từng loại TSBĐ mà chuyên viên sẽ sử dụng các phương pháp định giá giá trị tài sản:

- Đối với TSBĐ là BĐS: Áp dụng phương pháp so sánh hoặc phương pháp chi phí

Trang 32

- Đối với TSBĐ là động sản: Áp dụng phương pháp so sánh hoặc phương pháp tính

giá trị còn lại

2.2.2 Quy trình thẩm định giá tài sản bảo đảm

Quy trình thẩm định giá tài sản bảo đảm được mô tả theo sơ đồ sau [6]:

Hình 2- 1: Quy trình thẩm định tài sản bào đảm trong ngân hàng [6]

Diễn giải quy trình thẩm định giá tài sản bảo đảm như sau:

- Bước 1: Nộp hồ sơ Tài sản bảo đảm: Khách hàng nộp hồ sơ Tài sản bảo đảm tại

Đơn vị kinh doanh

- Bước 2:Kiểm tra hồ sơ khách hàng: CVQHKH thuộc các đơn vị kinh doanh tiếp

nhận HS TSBĐ từ khách hàng và có trách nhiệm kiểm tra hồ sơ của TSBĐ, đảm

bảo:

Trang 33

o HS TSBĐ đầy đủ các tài liệu chứng minh quyền sở hữu, quyền sử dụng hợp pháp của chủ tài sản đối với tài sản

o Nếu hồ sơ đảm bảo các tiêu chí, chuyển tiếp Bước 3

o Trường hợp HS TSBĐ không đầy đủ yêu cầu khách hàng cung cấp bổ sung theo Bước 8

o Trường hợp HS TSBĐ không hợp lệ cán bộ tiếp nhận hồ sơ từ chối nhận TSBĐ của khách hàng

- Bước 3: Phân loại luồng thẩm định tài sản bảo đảm:Căn cứ trên HS TSBĐ, CVQHKH phân loại TSBĐ và xác định thẩm quyền thẩm định:

o Nếu thuộc thẩm quyền của ĐVKD, CVQHKH tiếp nhận hồ sơ nhập các thông tin vào sổ theo dõi, sau đó báo cáo lãnh đạo Phòng KD để phân công chuyên viên thực hiện thẩm định tài sản (chuyển tiếp Bước 6)

o Nếu thuộc thẩm quyền thẩm định của Phòng TĐTS, chuyển tiếp Bước 4

- Bước 4: Lập và kiểm soát Giấy đề nghị thẩm định TSBĐ: Nếu thông tin chính xác, lãnh đạo phòng KD ký duyệt và chuyển tiếp bước 5 Nếu thông tin chưa chính xác, yêu cầu CVQHKH hoàn thiện lại

- Bước 5:Tiếp nhận và kiểm soát Giấy đề nghị thẩm định TSBĐ: Bộ phận văn thư Phòng TĐTS/ Bộ phận TĐTS khi tiếp nhận Giấy đề nghị thẩm định TSBĐ và bản sao HS TSBĐ có trách nhiệm kiểm tra, đối chiếu với Danh mục HS TSBĐ tối thiểu và nhập thông tin vào sổ ghi chép, theo dõi hồ sơ thẩm định và chuyển cho

LĐ để phân công cho CVTĐ thực hiện thẩm định

- Bước 6: Phân công cán bộ thẩm định TSBĐ: Lãnh đạo phòng TĐTS/ Lãnh đạo bộ phận TĐTSBĐ/ Lãnh đạo phòng KD phân công công việc thẩm định cho chuyên viên thẩm định thuộc phòng mình phụ trách Mọi hồ sơ yêu cầu thẩm định đều phải được chuyển cho Lãnh đạo phòng TĐTS/ Lãnh đạo bộ phận TĐTSBĐ/ Lãnh đạo phòng KD xem xét trước khi chuyển giao cho CVTĐ CVTĐ không được tự ý tiến hành thẩm định bất kỳ TSBĐ nào mà chưa được sự phân công của Lãnh đạo phòng TĐTS/ Lãnh đạo bộ phận TĐTSBĐ/ Lãnh đạo phòng KD

- Bước 7: Xem xét HS TSBĐ: Trong quá trình thẩm định, CVTĐ kiểm tra HS TSBĐ đảm bảo tuân thủ đúng quy định, hợp lệ, hợp pháp:

o Nếu HS TSBĐ chưa đầy đủ, không hợp pháp, hợp lệ, yêu cầu khách hàng

bổ sung tại bước 8

o Nếu HS TSBĐ đầy đủ, hợp lệ, hợp pháp thực hiện bước 9

- Bước 8: Bổ sung thông tin HS TSBĐ: Khi có yêu cầu bổ sung thông tin vào HS TSBĐ thì CVQHKH tại ĐVKD sẽ đề nghị khách hàng thực hiện việc bổ sung thông tin theo yêu cầu của bước 7

Trang 34

- Bước 9: Thẩm định TSBĐ, lập Báo cáo thẩm định.CVTĐ được phân công thẩm định tùy theo từng loại tài sản để thực hiện việc thẩm định, thẩm định chi tiết theo các văn bản Hướng dẫn thẩm định TSBĐ do TGĐ ban hành trong từng thời kỳ Sau khi hoàn thiện Báo cáo thẩm định, CVTĐ chuyển cho Lãnh đạo Phòng TĐTS/Bộ phận TĐTS/ Phòng KD kiểm tra và phê duyệt

- Bước 10: Ký duyệt Báo cáo thẩm định/ Phiếu phê duyệt giá trị TSBĐ

- Bước 11: Chuyển Báo cáo thẩm định/ Phiếu phê duyệt giá trị TSBĐ về ĐVKD

- Bước 12: Nhận kết quả và lưu hồ sơ

2.2.3 Phương pháp so sánh trực tiếp trong bước định giá giá trị của tài sản

Phương pháp so sánh trực tiếp là phương pháp thẩm định giá dựa trên cơ sở phân tích mức giá của các tài sản tương tự với tài sản cần định giá đã giao dịch thành công hoặc đang mua, bán trên thị trường vào thời điểm thẩm định giá (hoặc trong vòng 12 tháng trước thời điểm thẩm định giá) để ước tính giá trị thị trường của tài sản cần thẩm định giá

Các bước thực hiện khi áp dụng phương pháp so sánh như sau [7]:

- Bước 1: Nghiên cứu thị trường để có thông tin về giá giao dịch, giá niêm yết hoặc giá chào bán và các yếu tố so sánh của những tài sản tương tự với tài sản cần định giá, đã giao dịch thành công hoặc đang mua, bán trên thị trường

- Bước 2: Thu thập, kiểm tra thông tin, số liệu về các yếu tố so sánh từ các tài sản cùng loại hoặc tương tự có thể so sánh được với tài sản cần định giá đã giao dịch thành công hoặc đang mua, bán trên thị trường vào thời điểm cần định giá hoặc trong vòng 6 tháng trước thời điểm cần định giá

- Bước 3: Lựa chọn đơn vị so sánh chuẩn và xây dựng bảng phân tích, so sánh đối với mỗi đơn vị so sánh chuẩn

- Bước 4: Phân tích, xác định các yếu tố khác biệt giữa TSSS và tài sản cần định giá

từ đó thực hiện điều chỉnh giá của các TSSS theo sự khác biệt về các yếu tố so sánh so với tài sản cần định giá, tìm ra mức giá chỉ dẫn cho mỗi TSSS

- Bước 5: Phân tích tổng hợp các mức giá chỉ dẫn của các TSSS, rút ra mức giá chỉ dẫn đại diện để ước tính và xác định mức giá của tài sản cần thẩm định

Trong bước thu thập thông tin cần nghiên cứu thị trường để có ít nhất 3 thông tin

về giá giao dịch Ưu tiên sử dụng giá đã giao dịch thành công trên thị trường Trường hợp không thu thập được giá đã giao dịch có thể sử dụng giá niêm yết, giá chào bán, chào mua và các yếu tố so sánh của những tài sản tương tự với TSTĐ

CVTĐ phải tuân thủ quy định về TSSS phải tương tự với TSTĐ và lập bảng điều chỉnh mức giá cho từng ưu điểm và bất lợi của TSSS Nguyên tác điều chỉnh giá [2,4]:

- Mỗi sự điều chỉnh về các yếu tố so sánh phải được chứng minh từ các chứng cứ điều tra thu thập được

Trang 35

- Khi điều chỉnh giá theo chênh lệch của một yếu tố so sánh thì cố định những yếu

tố so sánh còn lại

- Lấy tài sản cần thẩm định làm chuẩn

- Những yếu tố ở TSSS kém hơn so với TSTĐ thì điều chỉnh tăng đơn giá.Những yêu tố ở TSSS vượt trội hơn so với TSTĐ thì điều chỉnh giảm đơn giá TSSS

- Những yếu tố ở TSSS giống với TSTĐ thì giữ nguyên mức giá của TSSS

- Nếu TSTĐ không có thông tin giao dịch thị trường thì CVTĐ có thể khảo sát thông tin thị trường tại các tuyến đương tương tự gần với TSTĐ và có tính chất tương đồng với TSTĐ

- Phương thức điều chỉnh giá:

o Điều chỉnh theo số tiền tuyệt đối: áp dụng đối với chênh lệch các yếu tố so sánh có thể lượng hóa thành tiền như: điều kiện thanh toán, chi phí pháp lý, trạng bị nội thất, sân vườn, bể bơi, gara ô tô (đối với bất động sản); điều kiện thanh toán, thiết bị kèm theo, chi phí lắp đặt, huấn luyện sử dụng (đối với máy, thiết bị) Những yếu tố nào liên quan đến giao dịch có quan

hệ nguyên nhân – kết quả thì nhân với nhau, những yếu tố nào tương tác cùng ảnh hưởng đến giá tị tài sản thì cộng với nhau

o Điều chỉnh theo tỷ lệ phần trăm: áp dụng đối với chênh lệch các yêu tố so sánh không thể lượng hóa thành tiền như: môi trường, cảnh quan, điều kiện

hạ tầng, vị trí (đối với BĐS); năm sản xuất, đặc trưng kỹ thuật chủ yếu (đối với máy, thiết bị) Những yếu tố nào liên quan đến giao dịch có quan hệ nguyên nhân – kết quả thì nhân với nhau, những yếu tố liên quan đến tài sản có quan hệ tương tác thì cộng với nhau

- Cuối cùng, đơn giá có thể giao dịch của TSTĐ bằng trung bình cộng đơn giá sau điều chỉnh của các TSSS

Trang 36

CHƯƠNG 3: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG BI HỖ TRỢ THẨM ĐỊNH

TÀI SẢN BẢO ĐẢM TRONG NGÂN HÀNG 3.1.Phát biểu bài toán

Trong phương pháp so sánh của quy trình thẩm định Cần xác định các yếu tố ảnh hưởng đến giá trị của tài sản thẩm định Các yếu tố cần so sánh của một số tài sản thông dụng:

o Điều chỉnh giá theo thời hạn giao đất

o Chi phí phải bỏ ra ngay sau khi mua: Nếu có chi phí phát sinh thì phải cộng vào mức giá giao dịch thành công

o Giá trị tài sản không phải BĐS: Trong trường hợp phát sinh bán kèm các tài sản không phải BĐS thì cần xem xét trừ hoặc cộng giá trị các tài sản này vào giá bán tùy thuộc vào trường hợp tài sản này thuộc TSSS hay TSTĐ

o Địa điểm, địa thế: Khoảng cách đến chợ, siêu thị, trường học, bệnh viện, công viên Việc điều chỉnh sự chênh lệch về yếu tố địa điểm cần quy đổi thành chênh lệch về thời gian hoặc chi phí phát sinh liên quan đến việc đi lại, căn cứ vào chứng cứ thu nhập từ thị trường

o Các đặc điểm tự nhiên: hình dáng, chiều rộng mặt tiền, chiều sâu lô đất, hướng Việc điều chỉnh chênh lệch về đặc điểm tự nhiên cần quy đổi thành chênh lệch về giá giao dịch trên thị trường hoặc chi phí phát sinh để khắc phục điểm bất lợi, căn cứ vào chứng cứ thu thập từ thị trường

o Quy hoạch: Cần thẩm định giá với các BĐS đối chiếu so sánh có đồng dạng với nhau về mặt quy hoạch hoặc vi phạm quy hoạch của khu vực hay không

o Đặc điểm tài sản trên đất (Ngôi nhà chính và các hạng mục xây dựng khác như gara, nhà phụ, đường đi, tường xây, hàng rào, cây cối, vườn ) Cần điều chỉnh theo số tiền tuyệt đối

- Cửa hàng, chợ, siêu thị, khu thương mại:

o Giá bán, thuê

o Vị trí, khả năng sinh lời

Trang 37

o Thời gian kinh doanh

o Chiều rộng mặt tiền

o Điều kiện bán, thuê mướn mặt bằng

o Điều kiện giao nhận và phân phối hàng hóa

o Sự phù hợp của thiết kế với công năng làm nơi bán hàng của công trình

o Hệ thống phòng chống cháy nổ, lối thoát hiểm

o Dịch vụ vệ sinh, thu gom rác

o Sự thuận tiện cho người mua hàng

Trên thực tế các yếu tố được nhân viên thẩm định sử dụng để đánh giá và làm cơ

sở so sánh để điều chỉnh giá có thể là các giá trị định lượng hoặc định tính Để tính được khoảng cách giữa TSTĐ với các TSSS cùng khu vực, các yếu tố so sánh sẽ được chuyển đổi thành các giá trị định lượng Đối với các yếu tố không thể quy chuyển thành giá trị số

sẽ được đưa vào trong điều kiện tìm kiếm tuyệt đối của tài sản Đối với tài sản BĐS là đất, các yếu tố có thể đổi về các giá trị định lượng:

- Vị trí: Thông tin này sẽ được quy ra thông tin tọa độ (tung độ, vĩ độ) của đất

- Tình trạng pháp lý: Được quy ra 2 giá trị 0 (Chưa hợp thức hóa quyền sử dụng đất) hoặc 1 (Đã cấp sổ đỏ)

- Lợi thế kinh doanh: Xét về độ rộng mặt ngõ của nhà

Trang 38

- Hướng đất: Với các giá trị hướng tương ứng với các giá trị điểm như sau: Nam:10, Tây Nam:9, Đông Nam:9, Đông:8, Tây:8, Bắc:8, Tây Bắc: 7, Đông Bắc:7

- Cơ sở hạ tầng: Được quy ra 2 giá trị 0 (Cơ sở hạ tầng xấu), 1 (Cơ sở hạ tầng tốt)

Ta cần thực hiện tiền xử lý dữ liệu, trích chọn thuộc tính ảnh hưởng đến giá trị của tài sản Luận văn sử dụng phần mềm weka và chuẩn bị một tập dữ liệu để trích chọn các thuộc tính của lại tài sản là bất động sản

Tập dữ liệu gồm 110 tài sản bất động sản đã được thẩm định trong 6 tháng gần đây nhất của ngân hàng (Chi tiết trong phụ lục 1) Bao gồm các yếu tố thẩm định: Diện tích, chiều ngang, chiều sâu, mặt đường, loại đất, hướng đất, lợi thế kinh doanh, tình trạng pháp lý, cơ sở hạ tầng, vị trí (đường- phường-quận/huyện-tỉnh/thành phố), kinh độ, vĩ độ

Hình 3- 1: Dữ liệu thẩm định thông tin BĐS

Trước khi sử dụng phần mềm weka, ta tiến hành tiền xử lý dữ liệu:

- Loại bỏ các yếu tố: diện tích, vị trí

- Chuyển đổi các giá trị định tính thành định lượng: Lợi thế kinh doanh, hướng đất,

cơ sở hạ tầng, loại đất, tình trạng pháp lý

Kết quả thu được tập dữ liệu mới dưới dạng:

Trang 39

Hình 3- 2: Dữ liệu thẩm định BĐS qua tiền xử lý

Sử dụng phần mềm weka để thực hiện trích chọn thuộc tính:

- Lựa chọn tính năng Select attributes của Explorer trong Weka để lựa chọn các thuộc tính độc lập xây dựng mô hình

- Thuộc tính "Gia" được xác định là thuộc tính dự báo

- Lựa chọn phương thức tìm kiếm GreedyStepwise: thực hiện một tìm kiếm chuyển tiếp hoặc quay lui trong các tập con thuộc tính Tạo một danh sách xếp hạng các thuộc tính

- Chế độ lựa chọn thuộc tính Cross-validation: Tập dữ liệu sẽ được chia đều thành k tập có kích thước xấp xỉ nhau Bộ phân loại học sẽ được đánh giá chéo

- Bộ đánh giá thuộc tính WrapperSubsetEva: Đánh giá tập thuộc tính dựa trên một

bộ phân loại học (learning scheme) Lựa chọn bộ phân loại sử dụng phương pháp lan truyền ngược MultilayerPerceptron để phân loại các thể hiện

Ta thu được kết quả như sau:

Trang 40

Hình 3- 3: Kết quả trích chọn thuộc tính sử dụng weka

Kết quả cho thấy rằng, cả 9 thuộc tính đều được giữ lại và mức độ quan trọng ảnh hưởng đến giá trị của bất động sản theo chiều mũi tên đỏ: Lợi thế kinh doanh=> Loại đất

3.2 Áp dụng thuật toán K-Nearest Neighbors (KNN) và thuật toán hồi quy tuyến tính đa biến trong quyết định giá

Luận văn sẽ lấy một ví dụ mô tả việc áp dụng các thuật toán data mining vào việc phân tích và dự đoán giá của tài sản bất động sản là Đất

Đầu vào của bài toán như sau:

Giả sử ta có một tập dữ liệu training gồm 10 tài sản đã được định giá ở khu vực Hà Đông, Hà Nội 10 tài sản này ta đặt tên tương ứng X1, …, X10.

Ngày đăng: 11/04/2019, 23:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w