1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe Cơ Giới

26 133 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 1,14 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt động đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ giới, tôi thấy cần phải xây dựng và triển khai hệ thống ứng dụn

Trang 1

ĐẠI HỌC ĐÀ NẴNG

PHAN TRỌNG HẢI

ỨNG DỤNG KHAI PHÁ DỮ LIỆU

ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI

RO TRONG BẢO HIỂM XE CƠ GIỚI

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2016

Trang 2

ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học: TS Nguyễn Trần Quốc Vinh

Phản biện 1: PGS.TS Nguyễn Tấn Khôi

Phản biện 2: TS Nguyễn Hoàng Hải

Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày tháng năm

2016

* Có thể tìm hiểu luận văn tại:

 Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng

Trang 3

MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm gần đây, việc ứng dụng cộng nghệ thông tin ngày càng rộng khắp Vấn đề khai phá dữ liệu đã và đang ứng dụng thành công vào rất nhiều các lĩnh vực khác nhau như: Bảo hiểm, tài chính, y học, giáo dục và viễn thông v.v

Mặt khác, cùng với sự phát triển mạnh mẽ của nền kinh tế và đời sống xã hội, nhu cầu vận chuyển và tham gia giao thông bằng xe

cơ giới ở nước ta không ngừng tăng cao, mà còn đa dạng và phong phú về chủng loại

Theo thống kê, dân số tại Quảng Ngãi hiện có 1.200.000 người, tập trung ở 12 huyện và thành phố Trong đó có khoản 593.243 phương tiện cơ giới tham gia giao thông và có 20.114 ô tô, 573.129 môtô, xe máy Theo số liệu của Ủy ban An toàn giao thông tỉnh Quảng Ngãi, trong năm 2015 có khoản 792 vụ tại nạng giao thông, làm hỏng 1.467 phương tiện ô tô xe máy các loại, đa số tập trung ở các vùng đồng bằng

Trong khi đó, hệ thống hạ tầng giao thông chưa thể đáp ứng tốt nhu cầu lưu thông của một lượng xe cơ giới lớn như hiện nay Những người tham gia giao thông đều hiểu rằng, tai nạn có thể xảy ra bất kỳ lúc nào, cho bất kỳ ai với những hậu quả khôn lường Vì vậy, bảo hiểm xe cơ giới đã ra đời và trở thành một nhu cầu thiết yếu với những người tham gia điều khiển phương tiện giao thông Điều này

đã mở ra những cơ hội lớn cho các công ty bảo hiểm xe cơ giới Những công ty nào có dịch vụ tốt, sẽ chiếm lĩnh được tỉ lệ khách

Trang 4

hàng nhiều hơn

Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ giới rất quan trọng và hết sức phức tạp Quy trình tác nghiệp đòi hỏi người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa phải có nhiều kinh nghiệm thực tiễn Hầu hết các công ty đều chỉ chú trọng đến vấn đề doanh thu mà ít quan tâm đến công tác đánh giá rủi

ro, đa phần đều thủ công sơ sài và cảm tính Vì vậy, hiệu quả kinh doanh thường không như mong muốn

Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra cần “Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng như sự sẻ chia những rủi ro mà họ gặp phải Vấn đề bồi thường sau tai nạn mang tính nhạy cảm rất cao và tác động không nhỏ đến tính hiệu quả của hoạt động kinh doanh bảo hiểm

Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt động đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ giới, tôi thấy cần phải xây dựng và triển khai hệ thống ứng dụng công nghệ thông tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến mức tối đa cho công tác đánh giá và bồi thường rủi ro trong bảo hiểm

xe cơ giới

Xuất phát từ những lý do trên được sự đồng ý của TS Nguyễn

Trần Quốc Vinh, tôi chọn đề tài: “Ứng Dụng Khai Phá Dữ Liệu Để Xây Dựng Hệ Thống Trợ Giúp Đánh Giá Rủi Ro Trong Bảo Hiểm Xe

Cơ Giới” để làm luận văn thạc sĩ

2 Mục tiêu nghiên cứu

Nghiên cứu các thuật toán liên quan đến cây quyết định Phân

Trang 5

tích, so sánh, đánh giá và triển khai áp dụng thuật toán C4.5 và Random Forest

Trên cơ sở phân tích thực trạng và đề ra giải pháp ứng dụng công nghệ thông tin Hướng đến là xây dựng hệ thống trợ giúp đánh giá rủi ro xe cơ giới, đảm bảo đầy đủ các yêu cầu về mặt chuyên môn trong lĩnh vực bảo hiểm xe cơ giới

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Quy trình đánh giá rủi ro xe cơ giới

- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm xe cơ giới

- Hồ sơ khách hàng tham gia mua bảo hiểm xe cơ giới tại Công

ty Cổ phần bảo hiểm AAA tại Quảng Ngãi

- Nghiên cứu về phân lớp dữ liệu trong khai phá dữ liệu

4 Phương pháp nghiên cứu

4.1 Nghiên cứu lý thuyết

- Nghiên cứu tài liệu, ngôn ngữ và các công nghệ có liên quan

- Khai phá dữ liệu và phân lớp dữ liệu

- Giải thuật xây dựng cây quyết định

- Nghiên cứu về Thuật toán C4.5 và Random Forest trong việc

dự đoán và phân loại thông tin

Trang 6

4.2 Nghiên cứu thực nghiệm

- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy trình thẩm định và đánh giá hồ sơ đối với lĩnh vực bảo hiểm xe cơ giới

- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến hành kiểm thử so sánh đánh giá hiệu suất của ứng dụng

5 Dự kiến kết quả

5.1 Kết quả về lý thuyết

Hiểu thêm được phương pháp khai phá dữ liệu

- Ứng dụng phương pháp khai phá dữ liệu vào dự đoán tính rủi

ro trong khai thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh doanh trong đơn vị

6 Ý nghĩa khoa học và thực tiễn của luận văn

Áp dụng lý thuyết về khai phá dữ liệu vào bài toán đánh giá rủi

ro trong khai thác bảo hiểm cho xe cơ giới

Về mặt thực tiễn, ứng dụng có khả năng phân tích dữ liệu kinh doanh của công ty trong những năm gần đây và qua đó có khả năng phát hiện ra các trường hợp bảo hiểm xe cơ giới có mức độ rủi ro cao

Trang 7

Giúp cho việc dự đoán nhằm hỗ trợ ra quyết định một cách khoa học, tránh được các tình huống bồi thường theo cảm tính, hạn chế các trường hợp rủi ro và tăng hiệu quả kinh doanh của công ty

7 Bố cục luận văn

Chương 1: Nghiên cứu tổng quan

Chương 2: Ứng dụng cây quyết định trong công tác đánh giá rủi ro và bồi thường bảo hiểm xe cơ giới

Chương 3: Xây dựng và thử nghiệm ứng dụng

Cuối cùng là những đánh giá, kết luận và hướng phát triển của

đề tài

Trang 8

CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN

1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1.1 Sơ lƣợc về khai phá dữ liệu

Trong thời đại ngày nay, cùng với sự phát triển vượt bật của công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng ngày của chúng Từ khối dữ liệu này, các kỹ thuật trong khai phá dữ liệu (KPDL) và máy học (MH) có thể dùng để trích xuất những thông tin hữu ích mà chúng ta chưa biết Các tri thức vừa học được có thể vận dụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu

Khái niệm khai phá dữ liệu là “quá trình khảo sát và phân tích một lượng lớn các dữ liệu được lưu trữ trong các CSDL, kho dữ liệu… để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm

ẩn bên trong”

1.1.2 Các kỹ thuật áp dụng trong khai phá dữ liệu

Học có giám sát: Là quá trình gán nhãn lớp cho các phần tử trong CSDL dựa trên một tập các ví dụ huấn luyện và các thông tin

về nhãn lớp đã biết

Học không có giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp hay cụm dữ liệu tương tự nhau mà chưa biết trước các thông tin về lớp hay tập các ví dụ huấn luyện

Trang 9

Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và các thông tin về một số nhãn lớp đã biết trước

1.1.3 Các bước xây dựng hệ thống khai phá dữ liệu

1.1.4 Ứng dụng của khai phá dữ liệu

1.1.5 Khó khăn trong khai phá dữ liệu

1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU

1.2.2 Quá trình phân lớp dữ liệu

Bước thứ nhất (learning): quá trình học nhằm xây dựng một mô hình

mô tả tập các lớp dữ liệu hay các khái niệm định trước

Bước thứ hai (classification): bước này dùng mô hình đã xây dựng được ở bước thứ nhất để phân lớp dữ liệu mới

1.2.3 Các vấn đề liên quan đến phân lớp dữ liệu

1.3 GIỚI THIỆU CÂY QUYẾT ĐỊNH

1.3.1 Giới thiệu chung

1.3.2 Ưu điểm của cây quyết định

1.3.3 Các luật được rút ra từ cây quyết định

1.4 THUẬT TOÁN C4.5

1.4.1 Giới thiệu

Trang 10

Giải thuật C4.5 biểu diễn các khái niệm ở dạng các cây quyết định Biểu diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó

Đầu vào: Một tập hợp các ví dụ Mỗi ví dụ bao gồm các thuộc tính mô tả một tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó

Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví

dụ trong tập dữ liệu huấn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp trong tương lai

1.4.2 Giải thuật C4.5 xây dựng cây quyết định từ trên xuống

1.4.3 Chọn thuộc tính phân loại tốt nhất

1.4.4 Entropy đo tính thuần nhất của tập ví dụ

Khái niệm entropy của một tập S được định nghĩa trong lý thuyết thông tin là số lượng mong đợi các bit cần thiết để mã hóa thông tin về lớp của một thành viên rút ra một cách ngẫu nhiên từ tập

S Trong trường hợp tối ưu, mã có độ dài ngắn nhất Theo lý thuyết

thông tin, mã có độ dài tối ưu là mã gán –log2p bit cho thông điệp có xác suất là p

Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví

dụ, mỗi ví dụ thuộc một lớp hay có một giá trị phân loại

Entropy có giá trị nằm trong khoảng [0 1]

Entropy(S) = 0: tập ví dụ S chỉ toàn thuộc cùng một loại, hay S

là thuần nhất

Trang 11

Entropy(S) = 1: tập ví dụ S có các ví dụ thuộc các loại là bằng nhau

0 < Entropy(S) < 1: tập ví dụ S có số lượng ví dụ thuộc các loại khác nhau là không bằng nhau

Tập S là tập dữ liệu huấn luyện, trong đó thuộc tính phân loại

có hai giá trị, giả sử là âm (-) và dương (+) Trong đó:

p+ là phần các ví dụ dương trong tập S

p_ là phần các ví dụ âm trong tập S

Khi đó, entropy đo độ pha trộn của tập S theo công thức sau: Entropy(S) = -p+ log2 p+ - p- log2 p-

Công thức Entropy tổng quát là:

Entropy là số đo độ pha trộn của một tập ví dụ, bây giờ chúng

ta sẽ định nghĩa một phép đo hiệu suất phân loại các ví dụ của một thuộc tính Phép đo này gọi là lượng thông tin thu được (hay độ lợi thông tin), nó đơn giản là lượng giảm entropy mong đợi gây ra bởi việc phân chia các ví dụ theo thuộc tính này

Một cách chính xác hơn, Gain(S, A) của thuộc tính A, trên tập S, được định nghĩa như sau:

Giá trị Value (A) là tập các giá trị có thể cho thuộc tính A, và

Sv là tập con của S mà A nhận giá trị v

1.4.5 Tỷ suất lợi ích Gain Ratio

i 2 c

1 i

i log p p

S

Entropy(S)A)

Value(A) V

Trang 12

Thuật toán C4.5, một cải tiến của ID3, mở rộng cách tính Information Gain thành Gain Ratio để cố gắng khắc phục sự thiên lệch

Gain Ratio được xác định bởi công thức sau:

Trong đó, SplitInformation(S, A) chính là thông tin do phân tách của

A trên cơ sở giá trị của thuộc tính phân loại S Công thức tính như sau:

1.4.6 Chuyển cây về dạng luật

1.5 RANDOM FOREST

1.5.1 Cơ sở và định nghĩa

Random Forest là một phương pháp học quần thể để phân loại, hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số các cây quyết định trong thời gian đào tạo và đầu ra của lớp là mô hình phân lớp hoặc hồi quy của những cây riêng biệt Nó như là một nhóm phân loại và hồi quy cây không cắt tỉa được làm từ các lựa chọn ngẫu nhiên của các mẫu dữ liệu huấn luyện Tính năng ngẫu nhiên được chọn trong quá trình cảm ứng Dự đoán được thực hiện bằng cách kết hợp (đa số phiếu để phân loại hoặc trung bình cho hồi quy) dự đoán của quần thể

1.5.2 Tóm tắt giải thuật

Đầu vào: là tập dữ liệu đào tạo

A)mation(S,SplitInfor

A)Gain(S,A)

S,

|S

|

Slog

|S

|

SA)

mation(S,

c 1 i i

Trang 13

Đầu ra: là mô hình Random Forest, Random Forest là tập hợp nhiều cây quyết định n tree

Với mỗi Cây n tree được xây dựng bằng các sử dụng thuật toán sau:

Với N là số lượng các trường hợp của dữ liệu đào tạo, M là số lượng các biến trong việc phân loại

Lấy m là số các biến đầu vào được sử dụng để xác định việc phân chia tại 1 Nút của cây, m < M

Chọn 1 tập huấn luyện cho cây bằng cách chọn n ngẫu nhiên với sự thay thế từ tất cả các trường hợp đào tạo có sẵn N Sử dụng các phần còn lại để ước lượng các lỗi của cây, bằng cách dự đoán các lớp của chúng

Với mỗi nút của cây, chọn ngẫu nhiên m là cơ sở phân chia tại nút đó (độc lập với mỗi nút) Tính chia tốt nhất dựa trên các biến m trong tập huấn luyện n

Mỗi cây được trồng hoàn toàn và không tỉa (có thể được sử dụng trong vệ xây dựng một bộ phân loại như các cây bình thường) Đối với mỗi dự đoán mới được đưa vào Nó được gán nhãn của mẫu đạo tạo trong các nút cuối để kết thúc Thủ tục sẽ được lập lại

qua tất cả các cây N tree, và số phiếu bình chọn (với phân lớp) hay

trung bình (với hồi quy) của các cây N tree là dự đoán của rừng ngẫu nhiên

Trang 14

1.5.3 Mô hình phân lớp với Random Forest

Hình 1.1 Mô hình phân lớp với Random Forest

1.5.4 Tạo ra n tập dữ liệu huấn luyện bằng cách sử dụng Bootstrap

1.5.5 X y dựng c y ngẫu nhiên

1.5.6 Tạo cây ngẫu nhiên

1.5.7 Đặc điểm của Random Forest

Trang 15

CHƯƠNG 2 ỨNG DỤNG CÂY QUYẾT ĐỊNH TRONG CÔNG TÁC ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI

2.1 KHÁI QUÁT VỀ THỊ TRƯỜNG BẢO HIỂM XE CƠ GIỚI 2.2 ĐÁNH GIÁ RỦI RO XE CƠ GIỚI

2.2.1 Khái niệm rủi ro

2.2.2 Khái niệm về đánh giá rủi ro

ro trong bảo hiểm xe cơ giới

2.4 SO SÁNH KẾT QUẢ PHÂN LỚP GIỮA 2 THUẬT TOÁN C4.5 VÀ RANDOM FOREST

2.5 ỨNG DỤNG CÂY QUYẾT ĐỊNH

2.5.1 Phân tích dữ liệu

2.5.2 Xây dựng mô hình phân lớp với Random Forest

Xây dựng mô hình phân lớp với dữ liệu đầu vào là bảng dữ liệu của 1724 hồ sơ khách hàng với 9 thuộc tính và thuộc tính cần phân lớp là: RỦI RO, như sau:

Trang 16

Trước hết xác định 2 giá trị quan trọng của Random Forest là numTree (số cây của rừng) và numFeatures (số biến được lựa chọn

Bước 2: Xây dựng một cây quyết định ngẫu nhiên

Hình 2.2 Cấu trúc cây ngẫu nhiên

Bước 3: Chọn nút chia tốt nhất bằng cách tính theo giá trị GAIN Lập lại như vậy với mỗi nút cho đến khi cây không thể chia nữa

Cuối cùng ta được Random Forest với numTree cây

?

Thuộc tính

Dữ liệu đào tạo [1724 khách hàng]

Dữ liệu huấn luyện

[1724 khách hàng]

OOB [586 khách hàng]

Trang 17

Hình 2.3 Mô hình Random Forest với numtree cây

2.5.3 Mô hình tổng quát

Hình2.4 Mô hình tổng quát của Random Forest để phân lớp

2.5.4 Ƣớc tính độ chính xác của mô hình

Trang 18

CHƯƠNG 3 XÂY DỰNG VÀ THỬ NGHIỆM ỨNG DỤNG

Trang 19

 Giao diện chính: Có 2 chức năng đó là Huấn Luyện Dữ

Liệu và Tư Vấn:

Hình 3.2 Màn hình Menu

 Huấn Luyện Dữ Liệu: Đầu tiên ta chon mút Chọn dữ liệu để

nạp dữ liệu huấn luyện (dữ liệu huấn luyện là file excel có phần mở rộng là *.xls hoặc file CSV, arff)

Phần mô hình hệ thống gồm có 2 mô hình phân lớp Decision tree (C4.5) và Random Forest Sau khi chay hệ thống sẽ sinh ra các tập luật và kết xuất ra kết quả dự đoán khách hàng và lưu trong database

Trang 20

Hình 3.3 Màn hình tải dữ liệu huấn luyện

Trang 21

 Mô hình phân lớp là Decision tree (C4.5)

Hình 3.4 Giao diện mô hình phân lớp Decision tree (C4.5)

Trang 22

 Mô hình phân lớp với Random Forest

Hình 3.5 Giao diện mô hình phân lớp Random Forest

 Giao diện Tư Vấn: Khi chọn chức năng này, hệ thống cho phép người dùng cập nhật trực tiếp các thông tin của khách hàng mà cán bộ thậm định cần hệ thống tư vấn tư vấn, sau đó click Xem Kết Quả, hệ thống sẽ dựa vào tập luật đã có trong database và xuất kết quả dự đoán phân lớp khách hàng trong vùng hiện thị Kết Quả

Ngày đăng: 25/05/2019, 14:02

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w