ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC SƯ PHẠM NGUYỄN THỊ THU AN ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI Chuyên ngành: H
Trang 1ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM
NGUYỄN THỊ THU AN
ỨNG DỤNG THUẬT TOÁN RỪNG NGẪU NHIÊN MỜ
ĐỂ XÂY DỰNG HỆ THỐNG TRỢ GIÚP ĐÁNH GIÁ RỦI RO TRONG BẢO HIỂM XE CƠ GIỚI
Chuyên ngành: Hệ thống thông tin
Mã số: 61.49.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
Đà Nẵng – Năm 2017
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM - ĐHĐN
Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH
Phản biện 1: TS Phạm Anh Phương Phản biện 2: PGS.TS Hoàng Quang
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc
sĩ Hệ thống thông tin họp tại Trường Đại học Sư phạm – ĐHĐN vào
ngày 30 tháng 7 năm 2017
Có thể tìm hiểu luận văn tại:
- Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng
- Trung tâm thông tin học liệu, Đại học Đà Nẵng
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Trong những năm gần đây, sự phát triển mạnh mẽ của công nghệ thông tin đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt Bên cạnh đó, việc tin học hóa một cách ồ ạt và nhanh chóng của các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ Hàng triệu cơ sở dữ liệu đã được sử dụng cho các hoạt động sản xuất, kinh doanh và quản lý,
Theo thống kê, dân số tại Quảng Ngãi hiện có 1.200.000 người, tập trung ở 12 huyện và thành phố Trong đó có khoản 593.243 phương tiện cơ giới tham gia giao thông và có 20.114 ô tô, 573.129 môtô các loại Theo số liệu của Ủy ban An toàn giao thông tỉnh Quảng Ngãi, trong năm 2015 có khoản 792 vụ tại nạn giao thông, làm hỏng 1.467 phương tiện ô tô xe máy các loại, đa số tập trung ở các vùng đồng bằng Mức tăng trưởng kinh tế của Quảng Ngãi đạt được là khá cao nhưng đi liền với nó là vấn đề về tai nạn giao thông và ùn tắc giao thông, đặc biệt là giao thông đường bộ, số vụ giao thông không ngừng tăng cả về quy mô và số lượng Đây là mối lo ngại lớn nhất đối với chủ
xe cơ giới bởi vì họ không chỉ gây thiệt hại cho bản thân mà còn phải chịu trách nhiệm đối với bên thứ ba Để khắc phục tổn hại cho các bên, bảo hiểm xe cơ giới đã ra đời và đã chứng minh được sự cần thiết khách quan của loại hình bảo hiểm này
Trong lĩnh vực kinh doanh này, công tác đánh giá rủi ro xe cơ giới rất quan trọng và hết sức phức tạp Quy trình tác nghiệp đòi hỏi người thẩm định vừa phải có trình độ chuyên môn nghiệp vụ cao, vừa phải có nhiều kinh nghiệm thực tiễn Tuy nhiên, hầu hết các công ty đều chỉ chú trọng đến vấn đề doanh thu mà ít quan tâm đến công tác đánh giá rủi ro, đa phần việc đánh giá rủi ro đều thủ công, sơ sài và cảm tính dẫn đến hiệu quả kinh doanh thường không như mong muốn
Trang 4Mặt khác, vấn đề giải quyết bồi thường khi có tổn thất xảy ra cần
“Nhanh, Đúng, Đủ” sẽ mang lại cho khách hàng niềm tin, cũng như sự
sẻ chia những rủi ro mà họ gặp phải Vấn đề bồi thường sau tai nạn mang tính nhạy cảm rất cao và tác động không nhỏ đến tính hiệu quả của hoạt động kinh doanh bảo hiểm
Nắm bắt được vấn đề trên cũng như tính cấp thiết của hoạt động đánh giá rủi ro và bồi thường tổn thất trong bảo hiểm xe cơ giới, tôi thấy cần phải xây dựng triển khai hệ thống ứng dụng công nghệ thông tin nhằm đáp ứng nhu cầu phân tích, xử lý và hỗ trợ đến mức tối đa cho công tác đánh giá và bồi thường rủi ro trong bảo hiểm xe cơ giới Hiện nay, đã có một số công trình nghiên cứu được sử dụng để xây dựng hệ thống đánh giá rủi ro trong xe cơ giới như: thuật toán C4.5, thuật toán rừng nhẫu nhiên, nhưng thuật toán rừng ngẫu nhiên mờ
chưa được sử dụng Vì vậy tôi chọn đề tài: “Ứng dụng thuật toán rừng ngẫu nhiên mờ để xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới” để làm luận văn thạc sỹ của mình
2 Mục tiêu nghiên cứu
- Nghiên cứu thuật toán liên quan đến cây quyết định
- Phân tích, so sánh đánh giá và triển khai áp dụng thuật toán Random Forest và Fuzzy Random Forest
- Xây dựng hệ thống trợ giúp đánh giá rủi ro xe cơ giới, đảm bảo đầy đủ các yêu cầu về mặt chuyên môn trong lĩnh vực bảo hiểm xe cơ giới và nâng cao hiệu quả kinh doanh trong đơn vị
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
- Nghiên cứu về các quy định, quy trình trong đánh giá rủi ro xe
cơ giới
- Các vấn đề liên quan đến độ rủi ro trong bảo hiểm xe cơ giới
- Hồ sơ khách hàng tham gia mua bảo hiểm xe cơ giới tại Công ty
Cổ phần Bảo hiểm AAA tại Quảng Ngãi
Trang 5- Các phương pháp khai phá dữ liệu
4 Phương pháp nghiên cứu
4.1 Nghiên cứu lý thuyết
- Nghiên cứu tài liệu, ngôn ngữ và các công nghệ có liên quan
- Khai phá dữ liệu và phân lớp dữ liệu
- Giải thuật xây dựng cây quyết định
- Nghiên cứu về Thuật toán Random Forest và Fuzzy Random Forest trong việc dự đoán và phân loại thông tin
4.2 Nghiên cứu thực nghiệm
- Tiến hành thu thập và tổng hợp các tài liệu liên quan đến quy trình thẩm định và đánh giá hồ sơ đối với lĩnh vực bảo hiểm xe cơ giới
- Vận dụng các cơ sở lý thuyết để xây dựng ứng dụng, tiến hành kiểm thử so sánh đánh giá hiệu suất của ứng dụng
5 Dự kiến kết quả
5.1 Kết quả về lý thuyết
- Hiểu thêm được phương pháp khai phá dữ liệu
- Ứng dụng phương pháp khai phá dữ liệu vào dự đoán tính rủi ro trong khai thác bảo hiểm hiện tại nhằm nâng cao hiệu quả kinh doanh trong đơn vị
5.2 Kết quả thực tiễn
- Xây dựng hệ thống hỗ trợ đánh giá rủi ro cho xe cơ giới tại Công ty Cổ phần Bảo hiểm AAA tại Quảng Ngãi
Trang 6- Hệ thống giúp đánh giá rủi ro nhanh chóng nhưng vẫn đảm bảo
về mặt tối ưu, có chức năng cơ bản và dễ sử dụng
6 Ý nghĩa khoa học và thực tiễn của luận văn
Áp dụng lý thuyết về thuật toán rừng ngẫu nhiên mờ vào bài toán đánh giá rủi ro trong khai thác bảo hiểm cho xe cơ giới
Về mặt thực tiễn, ứng dụng phân tích dữ liệu kinh doanh của công ty trong những năm gần đây, qua đó phát hiện các trường hợp bảo hiểm xe cơ giới có mức độ rủi ro cao
Giúp dự đoán và hỗ trợ ra các quyết định chính xác, tránh những tình huống bồi thường theo cảm tính, đồng thời hạn chế các trường hợp rủi ro và tăng hiệu quả kinh doanh của công ty
7 Bố cục luận văn
Chương 1: Nghiên cứu tổng quan
Chương 2: Ứng dụng cây quyết định trong công tác đánh giá rủi
ro và bồi thường trong bảo hiểm xe cơ giới
Chương 3: Xây dựng chương trình và thử nghiệm ứng dụng Cuối cùng là những đánh giá, kết luận và hướng phát triển của đề tài
CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1.1 Sơ lược về khai phá dữ liệu
Trong thời đại ngày nay, cùng với sự phát triển vượt bậc của công nghệ thông tin, các hệ thống thông tin có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng ngày của chúng Từ khối dữ liệu này, các kỹ thuật trong khai phá dữ liệu và máy học có thể dùng để trích xuất những thông tin hữu ích mà chúng ta chưa biết Các tri thức vừa học được có thể vận dụng để cải thiện hiệu quả hoạt động của hệ thống thông tin ban đầu
Như vậy ta có thể khái quát hóa khái niệm khai phá dữ liệu là
Trang 7“quá trình khảo sát và phân tích một lượng lớn các dữ liệu được lưu trữ
trong các cơ sở dữ liệu (CSDL), kho dữ liệu… để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong”
1.1.2 Các kỹ thuật áp dụng trong khai phá dữ liệu
- Học có giám sát (supervised learning)
- Học không có giám sát (unsupervised learning)
- Học bán giám sát (semi-supervised learning)
- Học tăng cường (reinforcement learning)
1.1.3 Các bước xây dựng hệ thống khai phá dữ liệu
1.1.4 Ứng dụng của khai phá dữ liệu
1.1.5 Khó khăn trong khai phá dữ liệu
1.2 PHÂN LỚP TRONG KHAI PHÁ DỮ LIỆU
1.2.2 Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bước [14]:
- Bước thứ nhất (learning): quá trình ho ̣c nhằm xây dựng mô ̣t
mô hình mô tả tâ ̣p các lớp dữ liê ̣u hay các khái niê ̣m đi ̣nh trước
- Bước thứ hai (classification): bướ c này dùng mô hình đã xây
dựng được ở bước thứ nhất để phân lớp dữ liê ̣u mới
1.2.3 Các vấn đề liên quan đến phân lớp dữ liệu
1.3 CÂY QUYẾT ĐỊNH
1.3.1 Cây quyết định ID3
1.3.2 Cây quyết định mờ (Fuzzy Decision tree)
1.4 RỪNG NGẪU NHIÊN
1.4.1 Rừng ngẫu nhiên (Random Forest)
Random Forest là một phương pháp học quần thể để phân loại, hồi quy và các nhiệm vụ khác, hoạt động bằng cách xây dựng vô số các
Trang 8quyết định trong thời gian đào tạo và đầu ra của lớp là mô hình phân lớp hoặc hồi quy của những cây riêng biệt Nó như là một nhóm phân loại
và hồi quy cây không cắt tỉa được làm từ các lựa chọn ngẫu nhiên của các mẫu dữ liệu huấn luyện Tính năng ngẫu nhiên được chọn trong quá trình cảm ứng Dự đoán được thực hiện bằng cách kết hợp (đa số phiếu
để phân loại hoặc trung bình cho hồi quy) dự đoán của quần thể
Thuật toán Random Forest (RF)
Function RF (input: E, Output: Random Forest)
Begin
1 Tạo cây con S: Lấy ngẫu nhiên có hoàn lại |E| từ mẫu tập huấn luyện E
2 Xây dựng cây quyết định (Decision Tree – DT) từ tập con S
3 Lặp lại bước 1 và bước 2 cho tới khi tất cả cây quyết định (DT)
được xây dựng
End
1.4.2 Rừng ngẫu nhiên mờ (Fuzzy Random Forest)
Hiện nay có rất nhiều kỹ thuật và thuật toán giải quyết vấn đề phân lớp Tuy nhiên, đa số các bài toán phân lớp này được áp dụng trên
dữ liệu đầy đủ và được đo đạc chính xác Nhưng trên thực tế các dữ liệu thu thập được hầu như không hoàn hảo, dữ liệu méo mó, dữ liệu không đầy đủ, việc xử lý các dạng dữ liệu này rất khó khăn và tốn kém Hơn nữa các thông tin này thường được điều chỉnh bởi các chuyên gia Do
đó, tính xác thực của dữ liệu trở nên mơ hồ Vậy nên cần thiết xử lý trực tiếp các dạng thông tin này [3]
Rừng ngẫu nhiên có hai yếu tố ngẫu nhiên, một là bagging được
sử dụng lựa chọn tập dữ liệu được sử dụng như dữ liệu đầu vào cho mỗi cây; và hai là tập các thuộc tính được coi là ứng cử viên cho mỗi nút chia Tính ngẫu nhiên nhằm tăng sự đa dạng của cây và cải thiện chính xác kết quả dự báo trên các cây trong rừng Khi rừng ngẫu nhiên được xây dựng thì 1/3 đối tượng quan sát (exambles) được loại bỏ ra khỏi dữ liệu huấn luyện của mỗi cây trong rừng Các đối tượng này được gọi là
Trang 9“out of bag - OOB” Mỗi cây sẽ có các tập đối tượng OOB khác nhau Các đối tượng OOB không sử dụng để xây dựng các cây và được sử dụng thử nghiệm cho mỗi cây tương ứng
Chúng tôi phát hiện ra rằng độ chính xác phân lớp có thể được cải thiện với dữ liệu không chắc chắn khi sử dụng sức mạnh ngẫu nhiên của phương pháp Fuzzy Random Forest để tăng sự đa dạng của cây và sự linh hoạt của tập mờ
Để phân loại, chúng tôi sử dụng phương pháp luận của rừng ngẫu nhiên và kết hợp xử lý dữ liệu hoàn hảo, sau đó xây dựng rừng ngẫu nhiên sử dụng cây mờ như phân loại cơ sở Do đó, chúng tôi cố gắng sử dụng sự vững mạnh của một quần thể cây, sức mạnh của sự ngẫu nhiên-Ness để tăng sự đa dạng của các cây trong rừng, sự linh hoạt của logic
mờ và tập mờ để quản lý dữ liệu không hoàn hảo
Thuật toán Fuzzy Random Forest (FRF) tương tự thuật toán Random Forest, chỉ khác là thay cây quyết định trong thuật toán RF bởi cây quyết định mờ
Function FRF (input: E, Fuzzy Partition; output: Fuzzy
- T là số cây trong rừng ngẫu nhiên mờ (FRF)
- N t là tổng số nút lá trong cây thứ t với t=1,2,3,…,T Đặc tính
phân lớp của cây quyết định mờ là một mẫu có thể thuộc về một lá hoặc nhiều lá khác nhau do sự chồng chéo của tập mờ tạo ra một số phân
Trang 10hoạch mà một thuộc tính cùng tồn tại trên các phân hạch khác nhau
- I là tổng số lớp của dữ liệu mẫu
- E mẫu sử dụng huấn luyện hoặc kiểm tra
- t n, ( )e là độ phụ thuộc mẫu e của nút lá n trên cây t
- Support là độ hỗ trợ của lớp I trong mỗi lá bằng
với E i là tổng mức độ thuộc của các mẫu e trong lớp I
của nút lá n, E n là tổng mức độ thuộc của đối tượng e trong nút lá n
t
N MAX Tuy nhiên ma trận L_FRF bao gồm tất cả các thông tin được tạo ra bởi FRF, trong khi các thông tin này được sử dụng để phân lớp các mẫu e
- T_FRFt,i là ma trận có kích thước (T 1) bao gồm độ chắc chắn (confidence) của mỗi cây t đối với mỗi lớp i
- D_FRFi là một véc tơ có kích thước I, chỉ độ chắc chắn của FRF đối với mỗi lớp i
b. Phân lớp trong rừng ngẫu nhiên mờ
Phân lớp mờ được P.Bonissone và các cộng sự đưa ra hai dạng
mô hình được gọi là Mô hình 1 (Strategy 1) và Mô hình 2 (Strategy 2) như sau:
Hình 1.16 Mô hình phân lớp mờ
Trang 11- Mô hình 1 (kí hiệu Strategy 1)
Thuật toán FRF Classification (strategy 1)
FRFClassification(Input e, Fuzzy Random Forest; Output c)
Trong đó, ma trận L_FRF và hàm tổng hợp thông tin Faggre
được xác định như sau:
- Ma trận L_FRF đươc tạo ra bằng cách quét mẫu e trên các cây t
- Các hàm tổng hợp thông tin Fagge coi như trọng số của cây
trong FRF và xác định như sau:
; 1
1 1
i L FRF Fagge t i L FRF
Trang 12Trong đó: max max 1 er (OO )
tỷ lệ lỗi của cây t,
dữ liệu kiểm thử OOB, size(OOBt) kích thước của dữ liệu kiểm tra OOB của cây t pmin là tỷ lệ lỗi của cây t và arg max min
- Mô hình 2 (kí hiệu Strategy 2)
Thuật toán FRF Classification (Strategy 2)
FRFclassification(in: e, Fuzzy random Forest; out: c) )
errors OOB size OOB
được xác định tương tự
thuật toán FRF Classification (strategy 1)
Trang 13CHƯƠNG 2 ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ TRONG CÔNG TÁC ĐÁNH GIÁ RỦI RO VÀ BỒI THƯỜNG BẢO HIỂM XE CƠ GIỚI 2.1 KHÁI QUÁT VỀ THỊ TRƯỜNG BẢO HIỂM XE CƠ GIỚI 2.2 ĐÁNH GIÁ RỦI RO XE CƠ GIỚI
2.2.1 Khái niệm rủi ro
2.2.2 Khái niệm về đánh giá rủi ro
2.2.3 Phạm vi bảo hiểm
2.2.4 Quy trình đánh giá rủi ro trong bảo hiểm xe cơ giới 2.2.5 Các yếu tố ảnh hưởng đến rủi ro trong bảo hiểm xe cơ giới
2.3 PHÂN TÍCH HIỆN TRẠNG
2.3.1 Chỉ số trong lĩnh vực kinh doanh bảo hiểm xe cơ giới 2.3.2 Giải pháp xây dựng hệ thống trợ giúp đánh giá rủi ro trong bảo hiểm xe cơ giới
2.4 ỨNG DỤNG RỪNG NGẪU NHIÊN MỜ
2.5.1 Phân tích dữ liệu
Có rất nhiều yếu tố ảnh hưởng đến tỉ lệ rủi ro trong bảo hiểm xe
cơ giới như đã nêu ở trên Tuy nhiên ở đây, chúng tôi chú trọng phân tích các tập thuộc tính với các yếu tố chính trong bảng dữ liệu sau:
Trang 14- Thuộc tính Giới tính là loại thộc tính Nominal có giá trị [Nam:
1, Nữ: 0] Thông thường khi mới lái xe (kinh nghiệm lái xe =< 3 năm), thì nguy cơ rủi ro của nữ thường là cao hơn so với nam
- Thuộc tính Mục đích sử dụng là loại thộc tính Nominal có giá
trị [kinh doanh:1 , không kinh doanh: 0, chuyên dụng: 2]
+ Xe kinh doanh: Là xe có cấp Giấy phép kinh doanh vận tải bằng xe ô tô, thường dùng trong các doanh nghiệp vận tải và chuyên chở khách…
+ Xe không kinh doanh: Là xe sử dụng cá nhân trong cá hộ gia đình, các doanh nghiệp tư nhân…
+ Xe chuyên dụng: Là xe sử dụng trong các lĩnh vực đặc thù như
xe trong các cơ qua nhà nước, cứu thương, cứu hỏa…
- Thuộc tính Thời gian sử dụng là loại thuộc tính Numeric Xe
sản xuất càng lâu năm thì nguy cơ rủi ro càng cao
- Thuộc tính Kinh nghiệm lái xe là loại thuộc tính Numeric Nếu
kinh nghiệm lái xe càng lâu năm, thì nguy cơ rủi ro càng thấp Ngược lại kinh nghiệm lái xe càng ít thì nguy cơ rủi ro càng cao
- Thuộc tính Bảo dưỡng định kỳ là loại thộc tính Nominal có giá
trị [Có: 1, Không: 0] Nếu chủ xe thường xuyên bảo dưỡng, kiểm tra định kỳ, thì chắc chắn sẽ giảm thiểu được rủi ro
- Thuộc tính Khu vực để xe là loại thộc tính Nominal có giá trị
[Gara: 1, Không: 0] Đây cũng là yếu tố ảnh hưởng đến mức độ rủi ro của xe tham gia bảo hiểm Vì nếu xe không có gara, thì nguy cơ va quẹt
xe nơi đậu đỗ là rất cao
- Thuộc tính Số tiền bồi thường là loại thuộc tính Numeric Là tỉ
lệ % của số tiền bồi thường so với tổng phí bảo hiểm của năm trước đó Nếu tỉ lệ này trên 50% có nghĩa là hợp đồng này trước đó có tại nang, đồng nghĩa với tỉ lệ rủi ro cao
- Thuộc tính Phạm vi hoạt động là loại thộc tính Nominal có giá
trị [Trong tỉnh: 1, Ngoài tỉnh: 0] Nếu xe hoạt động trên địa bàn càng rộng (ngoài tỉnh) Thì khả năng gặp rủi ro càng cao Ngược lại nếu xe