1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Data warehousing and business intelligence báo cáo bài tập lớn đề tài healthcare

44 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 1,92 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Doanh nghiệp triển khaimột kho dữ liệu hợp nhất để tập trung thông tin từ một số hệ thống cốt lõi, mởrộng sang dữ liệu thị trường và tích hợp khả năng trực quan hóa, cung cấp tầmnhìn bao

Trang 1

VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC

Data Warehousing and Business

Intelligence

BÁO CÁO BÀI TẬP LỚN

Đề tài: Healthcare

Giảng viên hướng dẫn: ThS Nguyễn Danh Tú

Nhóm sinh viên: Ngô Quốc Cường (Nhóm trưởng) - 20185436

Nguyễn Ngọc Diệp - 20185440 Phạm Văn Hiếu - 20185353 Nguyễn Tiến Vĩ - 20185426 Trần Văn Hoàng - 20185451

HÀ NỘI – 2022

Trang 2

NHẬN XÉT CỦA GIẢNG VIÊN

Trang 3

Lời cảm ơn

Chúng em xin gửi lời cảm ơn chân thành và kính trọng nhất tới Thạc sĩNguyễn Danh Tú, người đã tận tình giảng dạy học phần Kho dữ liệu và Kinhdoanh thông minh, giúp nhóm em có cái nhìn tổng quan nhất về học phần vàhoàn thành bài báo cáo này

Do kiến thức còn hạn hẹp nên không tránh khỏi những thiếu sót trong cáchhiểu, lỗi trình bày Chúng em rất mong nhận được đóng góp ý kiến từ thầy đểbài báo cáo đạt kết quả tốt nhất

Chúng em xin chân thành cảm ơn!

Hà Nội, tháng 07 năm 2022

Nhóm trưởng

Ngô Quốc Cường

Trang 4

Mục lục

Chương 2 Tổng quan về Datawarehouse 6

2.1 Khái niệm về kho dữ liệu 6

2.1.1 Lịch sử 6

2.1.2 Khái niệm 7

2.2 Tiến trình phát triển của kho dữ liệu 7

2.3 Kiến trúc kho dữ liệu 8

2.4 Xây dựng kho dữ liệu 9

2.4.1 Dự án DW 9

2.4.2 ETL dữ liệu 9

Chương 3 Tổng quan về BI 11 3.1 Khái niệm BI 11

3.2 Các thành phần chính 11

3.3 Vai trò của BI với doanh nghiệp 12

3.4 Power BI 14

Chương 4 Ứng dụng phân tích dữ liệu y tế 16 4.1 Khảo sát 16

4.1.1 Quy trình nghiệp vụ 16

4.1.2 Tổng quan về bộ dữ liệu 19

4.1.3 Yêu cầu phân tích 20

Trang 5

4.1.4 Khám phá dữ liệu 21

4.2 Phân tích thiết kế hệ thống 24

4.2.1 Kiến trúc Datawarhouse 24

4.2.2 ETL dữ liệu 24

4.2.3 Dimensions & Fact 26

4.2.4 Mô hình OLTP 31

4.2.5 Mô hình OLAP 33

4.3 Xây dựng và phân tích Dashboard 34

Trang 6

Đánh giá thành viên

Họ và tên nhóm trưởng Ngô Quốc Cường

Lớp K63 - Hệ thống thông tin quản lý

Họ và tên Phần việc

được giao

Giữ liên lạc tốt

Đóng góp

ý kiến

Sẵn sàng giúp đỡ

Đóng góp chung

Ngô Quốc Cường 5 5 5 5 5

Nguyễn Ngọc Diệp 5 5 5 5 5

Phạm Văn Hiếu 4 5 5 5 4

Nguyễn Tiến Vĩ 4 5 5 5 4

Trần Văn Hoàng 2 4 5 5 3,5

Trang 7

Danh sách hình vẽ

2.1 Tiến trình phát triển của Datawarehouse 7

2.2 Kiến trúc Datawarehouse đầy đủ 8

3.1 Giao diện Power BI 14

4.1 Chi tiêu chăm sóc sức khỏe theo tỷ trọng nền kinh tế 17

4.2 Các hãng bảo hiểm y tế tư nhân lớn tại Hoa Kỳ 18

4.3 Xếp hạng các hàng bảo hiểm tại Hoa Kỳ theo doanh thu 18

4.4 Hiển thị một góc dữ liệu 19

4.5 Số lượng bệnh nhân theo nhóm tuổi 21

4.6 Số lượng bệnh nhân theo giới tính 21

4.7 Số lượng bệnh nhân theo chủng tộc 22

4.8 Số lượng bệnh nhân theo tình trạng nguy kịch 22

4.9 Số lượng bệnh nhân đến các cơ sở y tế 23

4.10 Tỷ trọng hình thức thanh toán viện phí mà bệnh nhân chọn lựa 23

4.11 Kiến trúc Datawarehouse 24

4.12 Một vài cột dữ liệu không cần thiết 24

4.13 Giá trị null không có ý nghĩa 25

4.14 Kiểu đơn vị tiền tệ 25

4.15 Một góc dữ liệu sau khi ETL 25

4.16 Mô hình logic 26

4.17 Các cơ sở y tế 27

4.18 Các hình thức nhập viện 27

Trang 8

4.19 Các nhóm tuổi người bệnh 28

4.20 Các mức độ nghiêm trọng bệnh tật 28

4.21 Các hình thức phẫu thuật 28

4.22 Các mức nguy kịch 29

4.23 Các hình thức điều trị sau xuất viện 29

4.24 Các loại hình thanh toán viện phí 30

4.25 Các loại bệnh 30

4.26 Mô hình OLTP 32

4.27 Mô hình OLAP 33

4.28 Tổng chi phí, tổng viện phí chưa khấu trừ và viện phí chưa khấu trừ trung bình 34

4.29 Bản đồ các khu vực thu về nhiều tiền viện phí nhất 34

4.30 Tỷ lệ viện phí theo hình thức chi trả 35

4.31 Top cơ sở y tế có doanh thu cao nhất 36

4.32 Tỷ trọng viện phí theo nhóm tuổi 36

4.33 Doanh thu theo vùng dịch vụ 37

4.34 Chi phí điều trị cho các loại bệnh 37

4.35 Doanh thu theo tình trạng nhập viện 38

Trang 9

Danh sách bảng

4.1 Tên và ý nghĩa các trường dữ liệu 20

Trang 10

Chương 1

Mở đầu

Bài báo cáo về lĩnh vực chăm sóc sức khỏe, cụ thể là phân tích chi phí điềutrị nội trú tại một tiểu bang Hoa Kỳ Từ đó, cung cấp cho các nhà hoạch địnhchiến lược tại những hàng bảo hiểm y tế hàng đầu Hoa Kỳ nhiều thông tin hữuích để phát triển chiến lược tiếp thị, hướng tới đối tượng khách hàng phù hợp,góp phần thúc đẩy doanh thu

Datawarehouse & Business Itelligence (Kho dữ liệu và kinh doanh thôngminh) là cách mà doanh nghiệp khai thác và tận dụng dữ liệu từng lĩnh vực đểthu được nhiều thông tin chi tiết hơn về hoạt động Doanh nghiệp triển khaimột kho dữ liệu hợp nhất để tập trung thông tin từ một số hệ thống cốt lõi, mởrộng sang dữ liệu thị trường và tích hợp khả năng trực quan hóa, cung cấp tầmnhìn bao quát nhằm phân tích dự đoán và tự động hóa hoạt động kinh doanh

Trang 11

Chương 2

Tổng quan về Datawarehouse

2.1 Khái niệm về kho dữ liệu

2.1.1 Lịch sử

Datawarehouse (Kho dữ liệu) là khái niệm được giới thiệu lần đầu vào năm

1988 bởi hai nhà nghiên cứu thuộc IBM là Barry Devlin và Paul Murphy Nhucầu lưu trữ dữ liệu phát triển khi các hệ thống máy tính trở nên phức tạp hơn

và phải xử lí lượng dữ liệu ngày càng khổng lồ Một cuốn sách quan trọng về lưutrữ dữ liệu là “Xây dựng kho dữ liệu” của W.H Inmon, được xuất bản lần đầutiên vào năm 1990 và về sau được tái bản nhiều lần Cuốn sách cung cấp chongười đọc cái nhìn sâu sắc hơn về hiệu suất của một công ty bằng cách so sánh

dữ liệu được hợp nhất từ nhiều nguồn không đồng nhất và được thiết kế để chạycác câu hỏi và phân tích trên dữ liệu lịch sử có nguồn gốc từ nhiều nguồn giaodịch

Ngày nay, kho dữ liệu được hiểu theo nghĩa rộng hơn, bao gồm các phươngpháp, kỹ thuật và công nghệ, hỗ trợ nhau để thu thập và quản lý dữ liệu từnhiều nguồn, môi trường khác nhau, cung cấp thông tin cho người dùng và đượcnhắc đến cùng nhiều tên gọi khác nhau như: hệ hỗ trợ quyết định, hệ thống điềuhành thông tin, hệ thống thông tin quản lý, ứng dụng phân tích

Trang 12

2.1.2 Khái niệm

Kho dữ liệu (Datawarehouse) là kho dữ liệu lớn của tổ chức, được thiết kếđặc biệt cho việc lập báo cáo và phân tích DW là kho lưu giữ trung tâm của dữliệu tích hợp từ một hoặc nhiều nguồn khác nhau Dữ liệu được lưu giữ trongkho được tải lên từ các hệ thông hoạt động Dữ liệu có thể đi qua kho lưu trữ

dữ liệu vận hành và có thể yêu cầu làm sạch dữ liệu cho các hoạt động bổ sung

để đảm bảo chất lượng dữ liệu trước khi được sử dụng trong DW để báo cáo.Trích xuất, biến đổi, tải (ETL) là cách tiếp cận phổ biến được sử dụng đểxây dựng một hệ thống thông tin kho dữ liệu

2.2 Tiến trình phát triển của kho dữ liệu

Vòng đời phát triển hệ thống kho dữ liệu là tiến trình phát triển hướng dữliệu Một khi có dữ liệu, bắt đầu tích hợp và test độ lệch Các chương trình đượcviết cho dữ liệu, kết quả được phân tích và cuối cùng các yêu cầu của hệ thốngđược hiểu Một khi các yêu cầu được hiểu, các điều chỉnh được thiết kế và tiếntrình được lặp lại

Hình 2.1: Tiến trình phát triển của Datawarehouse.

Các giai đoạn:

• Design (Thiết kế): Phỏng vấn người dùng cuối, phân tích các nguồn dữ liệu,thiết kế lược đồ logic và vật lý,

Trang 13

• Làm nguyên mẫu: Mục tiêu là rang buộc và tổ chức lại các yêu cầu củangười dùng cuối.

• Triển khai (Tài liệu, đào tạo, vận hành và quản lý tiến trình)

• Vận hành: Thực hiện ETL

• Nâng cấp: Nâng cấp các thành phần vật lý, thiết kế lược đồ logic,

2.3 Kiến trúc kho dữ liệu

Hình 2.2: Kiến trúc Datawarehouse đầy đủ.

Kiến trúc của một kho dữ liệu thường không giống nhau hoàn toàn, màthường phụ thuộc vào nghiệp vụ của tổ chức vận hành kho dữ liệu đó Đối vớiviệc hình thành một kho dữ liệu, trước hết ta cần có những nguồn cung cấp dữliệu (Data Sources) Những nguồn cung cấp dữ liệu này đa dạng, có thể từ hệ cơ

sở dữ liệu quan hệ, và là các dữ liệu ghi chép hoạt động hàng ngày của doanhnghiệp Vùng đệm (Stagging Area) chứa các bản copy của dữ liệu được đổ vào,

và sau đó qua quá trình làm sạch, hay có thể gọi là quá trình ETL (Extract Transform - Load), dữ liệu được đưa vào kho dữ liệu Dữ liệu trong kho dữ liệu,

-là dữ liệu có cấu trúc đa chiều, có thể được sử dụng nhằm phục vụ các nghiệp

vụ phân tích, dự báo của doanh nghiệp

Trang 14

Ngày nay, kiến trúc kho dữ liệu được sử dụng phổ biến được tổ chức thànhcác kho dữ liệu chủ đề (Data Marts) Việc tổ chức kho dữ liệu theo hướng chủ

đề giúp tách biệt rõ ràng hơn dữ liệu cho từng bộ phận với nghiệp vụ khác nhaukhai thác Bên cạnh đó, kho dữ liệu chủ đề cũng giúp dữ liệu được truy xuất dễdàng hơn và cải thiện hiệu năng của hệ thống

2.4 Xây dựng kho dữ liệu

2.4.1 Dự án DW

• Xây dựng DW là một dự án IT (Công nghệ thông tin) phức tạp Các côngviệc thông thường trong một dự án DW bao gồm: Giao tiếp – tiến trìnhtrao đổi thông tin giữa các thành viên nhóm, quản lý xung đột (thời gian,giá, chất lượng), đảm bảo chất lượng, tài liệu

• Lựa chọn phần mềm: lựa chọn hệ cơ sở dữ liệu cho DW, lựa chọn các công

Quá trình ETL được hiểu là một bước nhằm trích xuất dữ liệu từ nhiềunguồn, thực hiện làm sạch và đảm bảo tính nhất quán của dữ liệu từ các nguồnkhác nhau để có thể sử dụng chung tại một kho dữ liệu thống nhất Quá trìnhETL có thể được mô tả như sau:

Trang 15

• Trích xuất dữ liệu (Extract): Hầu hết các hệ thống kho dữ liệu thường sửdụng dữ liệu từ nhiều nguồn, nhiều cơ sở dữ liệu quan hệ khác nhau Mỗinguồn dữ liệu cũng có những tiêu chuẩn khác nhau Do vậy, cần một quátrình tập hợp dữ liệu từ các nguồn này.

• Biến đổi (Transform): Trong giai đoạn này, các công cụ xử lý dữ liệu được

sử dụng nhằm định dạng dữ liệu từ nhiều nguồn thành một quy chuẩnthống nhất và rõ ràng Dữ liệu cần được làm sạch toàn diện và loại bỏ các

dữ liệu không cần thiết

• Tải dữ liệu (Load): Dữ liệu sau quá trình biến đổi làm sạch được tải vàokho dữ liệu Tùy thuộc vào nghiệp vụ của doanh nghiệp mà dữ liệu có thểđược tải vào theo các cách khác nhau Ví dụ như với một kho dữ liệu mới,thì dữ liệu được tải vào trực tiếp Đối với các kho dữ liệu đã đi vào hoạtđộng, dữ liệu có thể được thêm vào theo chu kỳ từng quý hoặc từng năm,hay thậm chí là ghi đè lên Mọi sự thay đổi dữ liệu đều phải được ghi lại

Trang 16

để hỗ trợ liên tục ra quyết định và hoạch định chiến lược kinh doanh Mục tiêuchính của BI giúp cho phép truy cập dữ liệu, hình mẫu dễ dàng, cung cấp chongười quản trị khả năng thực hiện phân tích BI hỗ trợ chuyển đổi từ dữ liệuthành thông tin, tri thức, từ đó ra quyết định hành động.

• Data Source: Là cơ sở dữ liệu thô, thường là cơ sở dữ liệu quan hệ, đến từnhiều nguồn khác nhau Trong tầng đầu tiên của thành phần kiến trúc hệthống kinh doanh thông minh, cần phải tập hợp và tích hợp đủ các dữ liệuđược chứa trong nhiều nguồn trực tiếp và nguồn gián tiếp

• Datawarehouse: Là cơ sở dữ liệu được thiết kế theo mô hình khác với CSDLOLTP thông thường, là nơi lưu trữ dữ liệu lâu dài của tổ chức Dữ liệu của

Trang 17

DW chỉ có thể đọc, hoặc cập nhật bởi quá trình ETL.

• Integrating Server: Chịu trách nhiệm trung gian và vận hành công cụ ETL

để chuyển đổi dữ liệu từ Data source vào Datawarehouse

• Analysis Server: nơi nhận dữ liệu đầu vào để trả về kết quả dựa trên trithức nghiệp vụ được định nghĩa sẵn

• Reporting Server: thực thi các report với output nhận được từ AnalysisServer

• Data Mining: là quá trình trích xuất thông tin dữ liệu đã qua xử lý phùhợp với yêu cầu riêng của doanh nghiệp, từ đó kết hợp với các thuật toán

để đưa ra hoặc dự đoán các quyết định có lợi cho doanh nghiệp Đây làmột quá trình giữ vị trí quan trọng trong BI

• Data presentation: Tạo ra các báo cáo, biểu đồ từ quá trình Data mining

để phục vụ chon hu cầu của người dùng cuối

3.3 Vai trò của BI với doanh nghiệp

Kinh doanh thông minh ngày càng trở nên quan trọng với các doanh nghiệp

Nó có thể hỗ trợ doanh nghiệp đưa ra quyết định sáng suốt bằng cách so sánh

dữ liệu hoạt động kinh doanh trong hiện tại và quá khứ Các nhà phân tích cóthể tận dụng để đánh giá về hiệu suất và đối thủ cạnh tranh, từ đó hỗ trợ doanhnghiệp hoạt động thuận lợi và hiệu quả hơn Họ cũng có thể nắm bắt xu hướngthị trường và thúc đẩy doanh thu Nếu kinh doanh thông minh được sử dụnghiệu quả thì doanh nghiệp sẽ đạt được rất nhiều lợi ích Kinh doanh thông minh

có thể hỗ trợ doanh nghiệp qua những cách sau:

• Tìm ra giải pháp giúp tăng trưởng lợi nhuận

• Phân tích hành vi khách hàng, từ đó đề ra các chiến lược kinh doanh tiếptheo

Trang 18

• So sánh dữ liệu với đối thủ cạnh tranh.

• Theo dõi hiệu suất làm việc của công ty nhằm kịp thời phát hiện nhữngvấn đề phát sinh trong nội tại công ty đó

• Tối ưu hóa hoạt động kinh doanh

• Dự báo các chỉ số kinh doanh cũng như mức độ thành công của công tytrong tương lai

Những lợi ích của hệ thống BI dành cho doanh nghiệp:

• Giúp doanh nghiệp tăng năng suất: BI cung cấp thông tin và nhiệm vụ

cụ thể trong công việc giúp nhân viên hoàn thành công việc một cách tốtnhất, mang lại hiệu quả cao cho cả doanh nghiệp

• Tiết kiệm thời gian và chi phí

• Cải thiện trải nghiệm việc làm của nhân viên

• Kiểm soát hiệu suất tốt hơn: BI giúp xây dựng những biểu đồ hiệu suất từ

dữ liệu thực tế Doanh nghiệp có thể nhìn nhận và thay đổi năng suất mộtcách thích hợp

• Hỗ trợ doanh nghiệp ra quyết định hiệu quả trong công việc: Xác định vịtrí và năng lực cạnh tranh, mục đích và chiến lược, từ đó đưa ra quyết địnhnhanh chóng, kịp thời và phù hợp nhất đối với từng doanh nghiệp

Trang 19

3.4 Power BI

Hình 3.1: Giao diện Power BI.

Power BI là công cụ tự xử lý dữ liệu, một dịch vụ phân tích kinh doanh củaMicrosoft nhằm mục đích cung cấp trực quan dữ liệu và thông tin thông minhkinh doanh (BI) với giao diện đủ đơn giản cho mọi người dùng, giúp tạo kết nối,

mô hình dữ liệu và xuất báo cáo

Power BI được sử dụng để tìm thông tin chi tiết trong dữ liệu của tổ chức, cóthể kết nối nhiều loại tệp, chuyển đổi và trực quan hoá thành mô hình dữ liệu.Tạo biểu đồ, đồ thị để cung cấp hình ảnh trực quan và sự tương quan của dữliệu Tất cả những điều này có thể được chia sẻ với những người dùng Power BIkhác trong tổ chức

Doanh nghiệp sử dụng mô hình dữ liệu từ Power BI để dự đoán Các dự đoántheo thời gian thực để kịp thời phản ứng với các chỉ số kinh doanh Power BIcung cấp bảng điều khiển chung, cho quản trị viên nắm tổng quá tình hình hoạtđộng

Một số tính năng quan trọng của Power BI trong kinh doah thông minh:

Trang 20

• Trí tuệ nhân tạo (AI): Nhận dạng hình ảnh và phân tích văn bản trongPower BI, tạo mô hình học máy (machine learning).

• API để tích hợp: Dành cho developer xử lý code và các API để nhúng bảngđiều khiển Power BI với phần mềm khác

• Tự làm sạch làm dữ liệu: Sử dụng Power Query, nhập, chuyển đổi, tích hợp

và làm phong phú dữ liệu lớn (big data) Dữ liệu đã nhập để làm báo cáo

và dashboard

• Chế độ xem modeling: Chia các mô hình dữ liệu phức tạp theo lĩnh vựcchủ đề thành các sơ đồ riêng biệt Chọn nhiều đối tượng và đặt các thuộctính chung, xem và sửa đổi các thuộc tính Đặt các thư mục hiển thị để sửdụng các mô hình dữ liệu phức tạp dễ dàng

Trang 21

Nếu hệ thống chăm sóc sức khỏe tách khỏi nền kinh tế quốc dân Hoa Kỳ vàtrở thành một nền kinh tế riêng thì nó sẽ là nền kinh tế lớn thứ năm trên thếgiới David Blumenthal, giám đốc điều hành của Quỹ Thịnh vượng chung phi lợinhuận cho biết: “Nó sẽ lớn hơn nền kinh tế Vương quốc Anh hoặc Pháp và chỉxếp sau bốn nền kinh tế Hoa Kỳ, Trung Quốc, Nhật Bản và Đức".

Một trong những thách thức lớn nhất đối với ngành chăm sóc sức khỏe Hoa

Kỳ là khoảng cách đáng kể về mức độ và chất lượng chăm sóc giữa các phânkhúc dân số khác nhau Một số cộng đồng nhất định phải chịu tỷ lệ mắc bệnhhoặc khuyết tật cao hơn, tỷ lệ qua khỏi bệnh hiểm nghèo thấp hơn và có tuổithọ trung bình thấp hơn Thống kê chỉ ra rằng các yếu tố có thể ảnh hưởng đếnsức khỏe bao gồm sắc tộc, tình trạng kinh tế, giới tính và xu hướng tình dục.Điều này càng được chứng minh kể từ khi Đại dịch Covid-19 bùng phát mạnh

mẽ tại Hoa Kỳ Nhiều báo cáo mới chỉ ra: so với người Mỹ da trắng, người Mỹ

Trang 22

gốc Latin và gốc Phi có nguy cơ mắc Covid nhỉnh hơn Tương tự, tỷ lệ tử vongliên quan đến Covid-19 ở người Mỹ gốc Phi và gốc Latin cũng cao hơn hẳn sovới người Mỹ da trắng.

Hình 4.1: Chi tiêu chăm sóc sức khỏe theo tỷ trọng nền kinh tế

Tại Hoa Kỳ, hệ thống y tế không được chia theo tuyến như tại Việt Nam,

mà chia đơn thuần theo khu vực Mỗi bang gồm nhiều vùng dịch vụ y tế, baohàm một số quận nhất định Các bệnh viện, cơ sở khám chữa bệnh, nhà thuốc,các công ty bảo hiểm, các trường đại học liên kết với nhau tạo thành một mạnglưới lịch vụ y tế Người bệnh đến khám hay mua thuốc tại bất cứ cơ sở y tế nàothuộc mạng lưới đều được khấu trừ bảo hiểm như nhau

Trong số các quốc gia phát triển, Hoa Kỳ là quốc gia duy nhất không có hìnhthức bảo hiểm y tế toàn dân do nhà nước quản lý Tại nước này, bệnh nhân đượckhấu trừ chi phí điều trị, thuốc men chủ yếu thông qua:

• Các chương trình bảo hiểm của chính phủ (chương trình y tế công cộng)

• Chế độ bảo hiểm cho người lao động từ các doanh nghiệp, tập đoàn

• Bảo hiểm tự mua từ các hãng bảo hiểm tư nhân

Ngày đăng: 10/08/2022, 05:25

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w