Trong chăm sóc sức khỏe y tế hiện nay, lạm dụng đó phát hiện gian lận y tế bây giờ trở nên càng quan được hiểu là xác định gian lận một cách nhanh nhất khi nó... thay đổi, phát sinh hình
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
LÃ THÚY HÀ
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
LÃ THÚY HÀ
ĐỀ TÀI KHAI PHÁ DỮ LIỆU PHÁT HIỆN GIAN LẬN
TRONG BẢO HIỂM Y TẾ
CHUYÊN NGÀNH :TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH
MÃ SỐ: 60.48.15 8
TÓM T ẮT LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN DUY PHƯƠNG
HÀ N ỘI, 2012
Trang 3Lu ận văn được hoàn thành tại:
H ỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: Tiến sỹ Nguyễn Duy Phương
Ph ản biện 2: ……… ……
Lu ận văn sẽ được bảo vệ trước Hội đồng chấm luận văn
th ạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: gi ờ ngày tháng năm
Có th ể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 4M Ở ĐẦU
người dân
Trong chăm sóc sức khỏe y tế hiện nay, lạm dụng
đó phát hiện gian lận y tế bây giờ trở nên càng quan
được hiểu là xác định gian lận một cách nhanh nhất khi nó
Trang 5thay đổi, phát sinh hình thức gian lận mới ngay khi một phương pháp phát hiện gian lận được biết đến và sử dụng
M ục tiêu luận văn: Tìm hiểu vấn đề gian lận trong y tế
(bảo hiểm y tế), các loại gian lận, các phương pháp phát hiện gian lận và đi sâu vào nghiên cứu phương pháp sử
dụng kỹ thuật khai phá dữ liệu để phát hiện các hành vi gian lận một cách tự động dựa trên dấu hiệu bất thường
so với dữ liệu trong quá khứ
Đối tượng nghiên cứu:
- Các loại gian lận và một số phương pháp phát hiện gian lận
- Kỹ thuật khai phá dữ liệu
Trang 6- Nghiên cứu bài toán cụ thể với quản lý chi phí khám chữa bệnh tại cơ sở y tế và kỹ thuật khai phá dữ
liệu trên tổng chi phí của từng bệnh nhân sử dụng phương pháp cây quyết định
Phương pháp nghiên cứu:
- Nghiên cứu thực tiễn công tác quản lý chi phí khám chữa bệnh tại các cơ sở y tế
- Nghiên cứu các tài liệu, báo cáo trong nước và nước ngoài có liên quan sử dụng kỹ thuật khai phá dữ liệu để phát hiện gian lận trong lĩnh vực y tế
- Tiến hành cài đặt và thử nghiệm
Trang 7CHƯƠNG I: TỔNG QUAN VỀ GIAN LẬN
B ẢO HIỂM Y TẾ
1.1 Gi ới thiệu chung về bảo hiểm y tế tại Việt Nam
nhà nước, thực hiện các chính sách về lĩnh vực y tế, Bộ
nhóm đối tượng trong phạm vi quyền lợi của người tham
Trang 8- Chi phí khám bệnh, chữa bệnh bảo hiểm y tế do
1.1.1 Cơ cấu tổ chức quản lý bảo hiểm y tế của Bảo
hi ểm xã hội Việt Nam
ban hành trong đó có lĩnh vực bảo hiểm y tế Bảo hiểm xã
phương
1.1.2 Ch ức năng, nhiệm vụ của cơ quan Bảo hiểm xã
h ội trong y tế:
a Giám định bảo hiểm y tế
Trang 91.2 Hi ện trạng gian lận trong bảo hiểm y tế
cho cơ sở khám chữa bệnh hoặc dọanh nghiệp tham gia
1.2.2 Các hình th ức gian lận bảo hiểm y tế
các cơ sở khám chữa bệnh, nhân viên y tế
điều trị
Trang 10c Gian lận từ người tham gia thụ hưởng bảo hiểm:
khi đi khám chữa bệnh
1.2.3 Nguy cơ gian lận bảo hiểm y tế tại Việt Nam
tượng đến phương thức lạm dụng, hiện chưa có một công
1.3 Phòng ch ống và phát hiện gian lận trong y tế
1 3.1 Định nghĩa:
Trang 11Phát hiện gian lận là xác định gian lận nhanh nhất
1.3.2 Tình hình phòng ch ống và phát hiện gian lận trong l ĩnh vực y tế:
được xem là không thích hợp
khăn khi xác định tình trạng, tính trầm trọng của bệnh tật
1.3.3 Các phương pháp ph òng ch ống gian lận trong
l ĩnh vực y tế
Phương pháp học máy dựa trên một bộ quy tắc tập
Trang 12từng loại bệnh trên số bệnh nhân được thanh toán bảo
Phương pháp luận điểm dựa trên việc sử dụng các
Trang 13xây dựng một véctơ duy nhất được đánh giá bởi mạng
Trang 14CHƯƠNG II CÁC PHƯƠNG PHÁP
KHAI PHÁ D Ữ LIỆU ỨNG DỤNG
TRONG PHÁT HI ỆN GIAN LẬN
2.1 Phát hi ện tri thức và khai phá dữ liệu là gì ?
các tính năng: hợp thức, mới, khả ích, và có thể hiểu được
chuyên dùng dưới một số qui định về hiệu quả tính toán
2.2 Quá trình phát hi ện tri thức từ cơ sở dữ liệu
Bước thứ nhất là tìm hiểu lĩnh v ực ứng dụng và hình thành bài toán
Bước thứ hai là thu thập và xử lý thô, còn được gọi
Bước thứ ba là khai phá dữ liệu, hay nói cách khác
Trang 15Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là
2.3 Quá trình khai phá d ữ liệu
2.4 Các phương pháp khai phá dữ liệu
2.4.1 Phương pháp suy diễn và quy nạp
Phương pháp suy diễn: Rút ra thông tin là kết quả
Phương pháp quy nạp: Các thông tin được suy ra
đã được biết trước
2.4.2 Phân nhóm và phân đoạn
Trang 164.3 Cây quy ết định
2.4.5 M ạng Neural
nút được nối với nhau thành một mạng lưới Tín hiệu được
cơ chế xử lý tại mỗi nút
2.4.6 Gi ải thuật di truyền
Trang 17CHƯƠNG III : KHAI PHÁ DỮ LIỆU
B ẰNG CÂY QUYẾT ĐỊNH 3.1 M ột số khái niệm cơ bản về cây quyết định:
tính đơn (hình chữ nhật)
tròn)
3.1.1 Ưu điểm của cây quyết định :
Trang 18- Thể hiện rõ ràng những thuộc tính tốt nhất
3.1.2 Điểm yếu của cây quyết định
3.2 Các p hương pháp xây dựng cây quyết định
đoạn:
có độ đồng nhất cao nhất
3.2.1 Thu ật toán ID3:
Trang 19tăng độ đồng nhất, từ đây xác định thuộc tính tốt nhất tại
tương ứng có độ tăng thông tin lớn được xếp ở gần gốc hơn
3.2.2 Thu ật toán C4.5
đối phó với dữ liệu huấn luyện gồm các trường hợp với
Gain Ratio(S,A) để phạt những thuộc tính nhiều giá trị
3.2.3 Thu ật toán CART:
Trái ngược với độ đo Gain, chỉ số Gini là độ đo về tính
3.2.4 Thu ật toán CHAID:
Trang 20Thuật toán CHAID kiểm tra thống kê sử dụng phụ
3.4.1.2 Quá v ừa dữ liệu (data overfitting)
Có hai hướng giải pháp chính để hạn chế quá vừa
3.4.1.3 Cơ chế riêng trong xử lý những giá trị thiếu
3.4.1.4 Chuy ển đổi từ cây quyết định sang luật:
Giai đoạn chuyển dổi từ cây quyết định sang luật
Trang 21• Cắt tỉa
3.4.2 Phương pháp cắt tỉa cây
Phương pháp cắt tỉa các luật được thuật toán C4.5 như sau:
đúng tối đa tập huấn luyện
Trang 22CHƯƠNG IV: XÂY DỰNG VÀ CÀI ĐẶT BÀI TOÁN
tăng cường giám sát quy trình thực hiện dịch vụ y tế và
lượng theo quy định cũng như chống lạm dụng quỹ BHYT
hưởng đến chi phí khám chữa bệnh
Trang 23D ữ liệu trích chọn:
Căn cứ vào phân tích đánh giá từng mức chi phí
điều trị của người bệnh Cụ thể:
Các trường gồm các chi phí: Tiền xét nghiệm, tiền chuẩn đoán hình ảnh, tiền thuốc và tổng chi phí, và các yếu tố ảnh hưởng đến chi phí như độ tuổi, số bệnh trong một đợt
D ữ liệu kiếm tra:
để phù hợp với Bảng dữ liệu huấn luyện Ví dụ: Ta xét trong 236 trường hợp trong một đợt điều trị Trong đó
Trang 24trường gian lận được gán bằng ‘No’ Việc đánh giá mô
4.1.2 Công ngh ệ sử dụng:
Chương trình đư ợc viết bằng ngôn ngữ C++, cơ sở
đã xây dựng cây quyết định và tạo xong tập luật Chương
Trang 25trình sẽ thống kê số lượng các bản ghi nghi ngờ có khả năng gian lận và đưa ra các bản ghi đó
4.3.2 D ữ liệu thử nghiệm:
được trích chọn trên cùng một mã bệnh và được xử lý
4.3.3 K ết quả thử nghiệm:
chương trình phát hiện 6/243 bản ghi bị lỗi và đưa danh
4.3.4 Đánh giá kế t quả thử nghiệm
ra 6 trường hợp với tỷ lệ (2,5%) có dấu hiệu gian lận
Trang 26K ẾT LUẬN
hay các mô hình thông kê
được áp dụng rộng rãi trên nhiều lĩnh vực nói chung và
Trang 27HƯỚNG NGHIÊN CỨU TIẾP THEO
đã được nghiên cứu kể trên vào thực tế tại cơ quan Bảo
người dân tham gia BHYT khi đi khám chữa bệnh
Đi sâu nghiên cứu chi tiết các xét nghiệm, các phương pháp chuẩn đoán hình ảnh và những thuốc chuyên