1. Trang chủ
  2. » Công Nghệ Thông Tin

Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện

186 1,2K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 186
Dung lượng 1,13 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-DỰ BÁO CHUỖI THỜI GIAN TRONG

HỆ THỐNG THÔNG TIN BỆNH VIỆN

Chuyên ngành : Hệ thống thông tin quản lý

Mã số: 603448

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 11 năm 2012

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học : PGS.TS DƯƠNG TUẤN ANH

Cán bộ chấm nhận xét 1 :

Cán bộ chấm nhận xét 2 :

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1

2

3

4

5

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA…………

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Chuyên ngành: Hệ thống thông tin quản lý………Mã số : 603448

I TÊN ĐỀ TÀI: Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện

II NHIỆM VỤ VÀ NỘI DUNG:

1 1 Nghiên cứu các mô hình thống kê, cụ thể ba phương pháp: kỹ thuật làm trơn,

mô hình ARIMA và mô hình mùa SARIMA cho dự báo dữ liệu chuỗi thời gian

2 2 Nghiên cứu phần mềm R để dự báo chuỗi thời gian.

3 3 Áp dụng và so sánh hiệu quả của ba phương pháp: kỹ thuật làm trơn, mô hình

ARIMA và mô hình mùa SARIMA vào việc dự báo doanh thu của bệnh viện

III NGÀY GIAO NHIỆM VỤ : 02/07/2012

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 30/11/2012

V CÁN BỘ HƯỚNG DẪN: PGS.TS DƯƠNG TUẤN ANH

Tp HCM, ngày tháng năm 20

CÁN BỘ HƯỚNG DẪN

(Họ tên và chữ ký)

PGS.TS DƯƠNG TUẤN ANH

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

(Họ tên và chữ ký)

TRƯỞNG KHOA

(Họ tên và chữ ký)

Trang 4

LỜI CÁM ƠN

Lời đầu tiên trong luận văn này tôi xin gửi lời cám ơn chân thành đến thầyPGS TS Dương Tuấn Anh, thầy đã dành nhiều thời gian và tâm huyết hướng dẫntôi trong thời gian thực hiện luận văn tốt nghiệp

Tôi xin gửi lời cảm ơn đến quý thầy cô đã giảng dạy và truyền đạt nhữngkiến thức hữu ích cho tôi trong suốt thời gian tham gia học tập tại trường Đại họcBách Khoa thành phố Hồ Chí Minh

Tôi xin chân thành cám ơn các anh chị đồng nghiệp đã tạo điều kiện giúp đỡtôi trong việc thu thập dữ liệu thực hiện luận văn này

Cuối cùng tôi xin cám ơn đến gia đình và bạn bè đã động viên giúp đỡ tôitrong quá trình thực hiện luận văn này

TP.HCM, ngày 30 tháng 11 năm 2012Học viên cao học khóa 2010

Trang 5

TÓM TẮT NỘI DUNG LUẬN VĂN

Luận văn này thực hiện nhằm mục đích xác định phương pháp nào đưa ra kết quả

dự báo dữ liệu chuỗi thời gian tối ưu nhất trong ba phương pháp: (1) Kỹ thuật làmtrơn, (2) Mô hình ARIMA và (3) Mô hình mùa (SARIMA)

Phương pháp nghiên cứu được thực hiện bởi phương pháp định lượng

Trong luận văn này, tác giả sẽ đi sâu vào nghiên cứu: (1) Lý thuyết của dữ liệuchuỗi thời gian, (2) Ba phương pháp hỗ trợ thực hiện dự báo dữ liệu chuỗi thời gian

và (3) Tìm hiểu và sử dụng ngôn ngữ R Bên cạnh việc nghiên cứu các lý thuyết, thìluận văn cũng tiến hành áp dụng lý thuyết đã nghiên cứu vào hai tập dữ liệu đượcthu thập từ hai đơn vị trong lĩnh vực bệnh viện tại thành phố Hồ Chí Minh

Đánh giá và đưa ra kết luận từ nghiên cứu thực nghiệm về mô hình dự báo nào chokết quả tối ưu nhất Kết quả này sẽ là tư liệu tham khảo hữu hiệu cho các đơn vịtrong lĩnh vực y tế - bệnh viện và các doanh nghiệp khác ngoài ngành, có nhu cầu

về việc phân tích dữ liệu chuỗi thời gian trong lựa chọn phương pháp và ngôn ngữ

hỗ trợ thực hiện

Trang 6

This thesis aims to determine the best method for forecasting of the data time series

in hospital from three methods: (1) Exponential Smoothing, (2) ARIMA model and(3) Seasonal Model (SARIMA)

The method research is implemented by Quantitative Methods

In this thesis, I will go to deep into researching: (1) Theory of the data time series,(2) Three methods support for implement of the data time series, and (3) Learn anduse the language R Besides the research of theory, the thesis also conducts appliedthe research theory into two data sets were collected from two units in the hospital

in Ho Chi Minh city

Evaluate and draw conclusions from real research about the best choice of the threeforecasting models These result will be usefull reference material for the units inthe hospitals and other industries, there is need for data time series analysis in theselection of the method and language support implemention

Trang 7

DANH MỤC CHỮ VIẾT TẮT

ACF : Hàm tự tương quan

AIC : Akaike’s Information Criterion

ARIMA: Integrated Autoregressive Moving Average

PACF : Hàm tự tương quan riêng phần

PKDK: Phòng khám đa khoa

TTYT : Trung tâm y tế

SARIMA: Seasonal ARIMA

Trang 8

LỜI CAM ĐOAN

Tôi xin cam đoan rằng toàn bộ những nội dung và số liệu trong luận văn này do tôi

tự nghiên cứu và thực hiện Những dữ liệu được thu thập và xử lý một cách kháchquan và trung thực

Trang 9

MỤC LỤC

LỜI CÁM ƠN i

TÓM TẮT NỘI DUNG LUẬN VĂN ii

ABSTRACT iii

DANH MỤC CHỮ VIẾT TẮT iv

LỜI CAM ĐOAN v

MỤC LỤC vi

DANH MỤC BẢNG x

DANH MỤC HÌNH xi

CHƯƠNG 1: GIỚI THIỆU 1

1.1 Giới thiệu đề tài 1

1.1.1 Giới thiệu tổng quan về tình hình ứng dụng dự báo chuỗi thời gian 1

1.1.2 Tổng quan về tình hình dự báo chuỗi thời gian tại Việt Nam 4

1.2 Cơ sở hình thành đề tài 5

1.3 Mục tiêu đề tài 6

1.4 Ý nghĩa đề tài 6

1.5 Phạm vi và giới hạn đề tài 6

1.6 Bố cục luận văn 7

CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN 8

2.1 Mô hình Neural Network 8

2.2 Các mô hình phân tích thống kê 9

2.2.1 Các mô hình xu thế 9

Trang 10

2.2.2 Dự báo bằng phương pháp phân tích 11

2.2.3 Dự báo bằng phân tích hồi quy 12

2.2.4 Các mô hình dự báo bằng phương pháp Box – Jenkins 13

CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU 15

3.1 Phương pháp nghiên cứu 15

3.1.1 Phương pháp dự báo 15

3.1.2 Phương pháp luận của dự báo định lượng 16

3.1.3 Nguồn dữ liệu 18

3.2 Phần mềm hỗ trợ 19

CHƯƠNG 4: CƠ SỞ LÝ THUYẾT 21

4.1 Dự báo chuỗi thời gian 21

4.1.1 Khái niệm dãy số chuỗi thời gian 21

4.1.2 Phân tích biến động các thành phần của dãy số thời gian 22

4.2 Đánh giá độ chính xác của dự báo 24

4.2.1 Phân chia mẫu 24

4.2.2 Các thước đo độ chính xác của mô hình dự báo 24

4.3 Các mô hình nghiên cứu 26

4.3.1 Kỹ thuật làm trơn 26

4.3.2 Các mô hình ARIMA 30

4.3.3 Mô hình mùa 37

4.4 Ngôn ngữ R 39

4.4.1 Văn phạm 39

4.4.2 Cấu trúc lệnh của ngôn ngữ R 40

CHƯƠNG 5: KẾT QUẢ THỰC NGHIỆM 43

Trang 11

5.1 Nguồn dữ liệu 43

5.1.1 Phòng khám đa khoa 43

5.1.2 Trung tâm y tế 48

5.2 Tập dữ liệu Phòng khám đa khoa 52

5.2.1 Phương pháp kỹ thuật làm trơn 52

5.2.2 Mô hình ARIMA 64

5.2.3 Mô hình mùa SARIMA 74

5.2.4 Đánh giá các phương pháp 82

5.3 Tập dữ liệu Trung tâm y tế 83

5.3.1 Phương pháp kỹ thuật làm trơn 83

5.3.2 Mô hình ARIMA 83

5.3.3 Mô hình mùa SARIMA 89

5.3.4 Đánh giá các phương pháp 94

5.4 Kết quả nghiên cứu 94

CHƯƠNG 6: KẾT LUẬN VÀ KIẾN NGHỊ 96

6.1 Kết quả nghiên cứu 96

6.1.1 Tóm tắt lại nội dung nghiên cứu 96

6.1.2 Kết luận 96

6.2 Kiến nghị 97

6.3 Hạn chế và hướng nghiên cứu tiếp theo 97

6.3.1 Hạn chế 97

6.3.2 Hướng nghiên cứu tiếp theo 98

THƯ MỤC THAM KHẢO 99 Phụ lục A: DỮ LIỆU PKDK và TTYT A1

Trang 12

Phụ lục B: DỮ LIỆU PKDK - MÔ HÌNH ARIMA B1Phụ lục C: DỮ LIỆU PKĐK – MÔ HÌNH SARIMA C1Phụ lục D: DỮ LIỆU TTYT –KỸ THUẬT LÀM TRƠN MŨ D1Phụ lục E: DỮ LIỆU TTYT – MÔ HÌNH ARIMA E1Phụ lục F: DỮ LIỆU TTYT – MÔ HÌNH SARIMA F1Phụ lục G: HÀM G1Phụ lục H: THƯ VIỆN HỖ TRỢ H1

LÝ LỊCH TRÍCH NGANG I1

Trang 13

DANH MỤC BẢNG

Bảng 2.1 Các hàm xu thế

Bảng 3.1 Ứng dụng các phương pháp dự báo của các phần mềm (miễn phí hoặc thương mại) 20Y Bảng 4.1 Bảng các toán tử luận lý 41

Bảng 4.2 Bảng một số hàm vẽ biểu đồ 4 Bảng 5.1 Thống kê mô tả dữ liệu PKDK 44

Bảng 5.2 Thông tin tần số của doanh thu PKDK 46

Bảng 5.3 Thống kê mô tả dữ liệu TTYT 49

Bảng 5.4 Thông tin tần số của doanh thu TTYT 51

Bảng 5.5 So sánh AIC của các mô hình ARIMA đề xuất đối với dữ liệu PKDK mẫu 71

Bảng 5.6 Đánh giá kết quả dự báo của mô hình ARIMA(3,2,3) - PKDK 72

Bảng 5.7 Đánh giá kết quả dự báo của các mô hình ARIMA đề xuất - PKDK 73

Bảng 5.8 So sánh AIC của các mô hình SARIMA đề xuất đối với dữ liệu PKDK mẫu 79

Bảng 5.9 Đánh giá kết quả dự báo của mô hình SARIMA(0,1,0)(1,1,1)12 - PKDK80 Bảng 5.10 Đánh giá kết quả dự báo của các mô hình SARIMA đề xuất - PKDK .81

Bảng 5.11 Đánh giá kết quả dự báo của các phương pháp - PKDK 82

Bảng 5.12 Đánh giá kết quả dự báo của các mô hình ARIMA đề xuất - TTYT 89

Bảng 5.13 Đánh giá kết quả dự báo của các mô hình SARIMA đề xuất - TTYT 93

Bảng 5.14 Đánh giá kết quả dự báo của các phương pháp - TTYT 94

Trang 14

DANH MỤC HÌNH

Hình 1.1 Tỷ lệ % người dùng của các phần mềm phân tích dữ liệu (2010-2011) 2

Hình 1.2 Tình hình sử dụng các công cụ phần mềm 3

Hình 1.3 Sử dụng phần mềm miễn phí tại các khu vực trên thế giới 3Y Hình 2.1 Kiến trúc của một ANN cho dự báo chuỗi thời gian với 3 ngõ vào, một lớp ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo) ([4]) 8

Hình 2.2 Dự báo (2001-2020) số lượng người bị gãy xương tại Northern Ireland của những người trên 50 tuổi và phân theo giới tính.([6]) 10

Hình 2.3 Dự báo số lượng bệnh nhân (từ tháng 109 - 132)[5] 1 Hình 3.1 Phương pháp luận của dự báo chuỗi thời gian [3] 1 Hình 4.1 Doanh thu theo quý của Johnson & Johnson, (1960-I, 1980-IV) [13] 2 Hình 5.1 Biểu đồ doanh thu PKDK (01/2009 – 06/2012) 45

Hình 5.2 Biểu đồ thể hiện tần số và phân phối chuẩn của doanh thu PKDK 46

Hình 5.3 Biểu đồ tương quan của doanh thu PKDK (01/2009-06/2012) 47

Hình 5.4 Biểu đồ Doanh thu TTYT (01/2007 – 12/2010) 49

Hình 5.5 Biểu đồ thể hiện tần số và phân phối chuẩn của doanh thu TTYT 51

Hình 5.6 Biểu đồ tương quan của doanh thu TTYT 52

Hình 5.7 Biểu đồ dữ liệu doanh thu PKDK đã được làm trơn bằng phương pháp trung bình di động với n=5 53

Hình 5.8 Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK theo phương pháp làm trơn mũ Holt 54

Hình 5.9 Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK tại 35 điểm theo phương pháp làm trơn mũ Holt 55

Hình 5.10 Biểu đồ về các ước lượng xu hướng và ước lượng mức độ của phương pháp làm trơn mũ Holt 56

Trang 15

Hình 5.11 Biểu đồ dự báo cho các khoảng thời gian tiếp theo của doanh thu PKDK

theo phương pháp làm trơn mũ Holt 57

Hình 5.12 Biểu đồ giá trị thực tế và giá trị dự báo của doanh thu PKDK theo phương pháp làm trơn mũ Holt 58

Hình 5.13 Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK theo phương pháp làm trơn mũ Winters 59

Hình 5.14 Biểu đồ giá trị làm trơn và giá trị thực tế của doanh thu PKDK tại 35 điểm theo phương pháp làm trơn mũ Winters 60

Hình 5.15 Biểu đồ về các ước lượng xu hướng, ước lượng mức độ và ước lượng mùa vụ của phương pháp làm trơn mũ Winters 61

Hình 5.16 Biểu đồ dự báo cho các khoảng thời gian tiếp theo của doanh thu PKDK theo phương pháp làm trơn mũ Winters 62

Hình 5.17 Biểu đồ giá trị thực tế và giá trị dự báo của doanh thu PKDK theo phương pháp làm trơn mũ Winters 63

Hình 5.18 Biểu đồ doanh thu PKDK của 35 điểm 64

Hình 5.19 Biểu đồ doanh thu PKDK (01/2009 – 11/2011) 65

Hình 5.20 Biểu đồ tương quan của doanh thu PKDK (01/2009-11/2011) 66

Hình 5.21 Biểu đồ dữ liệu doanh thu PKDK mẫu sau khi lấy sai phân bậc 1 67

Hình 5.22 Biểu đồ dữ liệu doanh thu PKDK mẫu sau khi lấy sai phân bậc 2 67

Hình 5.23 Biểu đồ tương quan và tương quan riêng phần của dữ liệu PKDK mẫu áp dụng cho mô hình ARIMA 68

Hình 5.24 Biểu đồ giá trị phần dư, tương quan và kiểm định p-values của thống kê Ljung-Box theo mô hình ARIMA thứ nhất 70

Hình 5.25 Biểu đồ so sánh giá trị thực tế và giá trị dự báo cho các khoảng thời gian tiếp theo của doanh thu PKDK theo mô hình ARIMA(3,2,3) 72

Hình 5.26 Biểu đồ doanh thu PKDK mẫu (theo số điểm) trước và sau khi lấy sai phân bậc 1 75

Hình 5.27 Biểu đồ doanh thu PKDK mẫu (theo thời gian) trước và sau khi lấy sai phân bậc 1 75

Hình 5.28 Biểu đồ dữ liệu PKDK sau khi lấy sai phân bậc 2 76

Trang 16

Hình 5.29 Biểu đồ tương quan và tương quan riêng phần của dữ liệu PKDK mẫu áp

dụng cho mô hình SARIMA 77

Hình 5.30 Biểu đồ giá trị phần dư, tương quan và kiểm định p-values của thống kê Ljung-Box theo mô hình SARIMA(0,1,0)(1,1,1)12 78

Hình 5.31 Biểu đồ so sánh giá trị thực tế và giá trị dự báo cho các khoảng thời gian tiếp theo của doanh thu PKDK theo mô hình SARIMA(0,1,0)(1,1,1)12 80

Hình 5.32 Biểu đồ doanh thu TTYT của 40 điểm 84

Hình 5.33 Biểu đồ doanh thu TTYT (01/2007 – 4/2010) 84

Hình 5.34 Biểu đồ tương quan của doanh thu TTYT (01/2007-04/2010) 85

Hình 5.35 Biểu đồ dữ liệu doanh thu TTYT mẫu sau khi lấy sai phân bậc 1 86

Hình 5.36 Biểu đồ dữ liệu doanh thu TTYT mẫu sau khi lấy sai phân bậc 2 87

Hình 5.37 Biểu đồ tương quan và tương quan riêng phần của dữ liệu TTYT mẫu áp dụng cho mô hình ARIMA 87

Hình 5.38 Biểu đồ doanh thu TTYT mẫu (theo số điểm) trước và sau khi lấy log .90 Hình 5.39 Biểu đồ doanh thu TTYT mẫu (theo thời gian) trước và sau khi lấy log.90 Hình 5.40 Biểu đồ dữ liệu TTYT sau khi lấy log và sai phân bậc 1 91

Hình 5.41 Biểu đồ dữ liệu TTYT sau khi lấy log và sai phân bậc 2 91

Hình 5.42 Biểu đồ tương quan và tương quan riêng phần của dữ liệu TTYT mẫu áp dụng cho mô hình SARIMA 92

Trang 17

CHƯƠNG 1: GIỚI THIỆU

1.1 Giới thiệu đề tài

Trong bối cảnh hiện nay, sự phát triển của tất cả các mặt đời sống xã hộicho đến nền kinh tế, nó đã thúc đẩy các doanh nghiệp phải luôn luôn tự hoànthiện mình hơn nữa để đáp ứng với nhu cầu gia tăng của xã hội Mặc dù ngànhcông nghệ thông tin đã song hành cùng với các doanh nghiệp để hỗ trợ các tácnghiệp từ mức thấp nhất đến mức cao nhất, từ cấp nhân viên cho tới cấp lãnhđạo Đa phần các doanh nghiệp phát triển phần mềm thường xây dựng để hỗ trợcác tác nghiệp hằng ngày, và ít chú trọng phát triển những phần mềm hỗ trợ raquyết định cho các cấp lãnh đạo

Khi mà các phần mềm hỗ trợ tác nghiệp đã được vận hành ổn định cùngvới sự phát triển của các doanh nghiệp, vấn đề đặt ra ở đây là những dữ liệu phátsinh đó phải giải quyết như thế nào Trước khi có sự giúp đỡ mạnh mẽ của côngnghệ thông tin, thì vấn đề này đã được nghiên cứu bằng các phương pháp toánhọc Đối với những dữ liệu lớn như ngày nay thì những phương pháp đó được tinhọc hóa bằng những phần mềm chuyên dụng để hỗ trợ phân tích những dữ liệu

đó Việc sử dụng các phần mềm này cơ bản đã giúp cho các doanh nghiệp tiếtkiệm thời gian để phân tích số liệu, nó cung cấp khung nhìn tổng quan nhất đốivới sự phát triển theo các mốc thời gian từ quá khứ đến thời điểm hiện tại Mộttrong những tính năng thu hút nhiều nhà quản lý của các doanh nghiệp là việcphân tích dữ liệu về khách hàng, nhóm hàng, , và đặc biệt hơn nữa là tính năng

có thể dự đoán được những kết quả trong tương lai

Sự phát triển của ngành công nghệ thông tin đóng vai trò rất quan trọng đối với sựphát triển của nền kinh tế Vì vậy, nên các doanh nghiệp phát triển lĩnh vực nàyluôn luôn tạo ra những phần mềm hỗ trợ tối đa Điều đó có thể thấy được nhu cầu

về tình hình sử dụng công nghệ thông tin trong lĩnh vực phân tích dữ liệu

Trang 18

K Poll ([16])có một khảo sát với số lượng người tham gia là 1103 người, trong đó43% sử dụng phần mềm thương mại, 32% sử dụng phần mềm miễn phí và 25% cảhai Ba phần mềm phổ biến nhất của năm 2011 là RapidMiner, R và Excel

Hình 1.1 Tỷ lệ % người dùng của các phần mềm phân tích dữ liệu (2010-2011)

(Nguồn: 2011, Top analysis, data mining tool) [16]

Tình hình sử dụng phần mềm thương mại, miễn phí và cả hai loại phần mềm này ởcác khu vực trên thế giới Khu vực Tây Âu, Châu Á và Châu Mỹ Latin là ba khuvực có tỷ lệ sử dụng phần mềm miễn phí chiếm tỷ lệ khá cao hơn so với các khuvực khác

Trang 19

Hình 1.2 Tình hình sử dụng các công cụ phần mềm

(Nguồn: 2011, Top analysis, data mining tool) [16]

Các nước trong khu vực Tây Âu là khu vực chiếm tỷ lệ cao nhất so vớicác khu còn lại về việc sử dụng các công cụ miễn phí

Hình 1.3 Sử dụng phần mềm miễn phí tại các khu vực trên thế giới

(Nguồn: 2011, Top analysis, data mining tool) [16]

Trang 20

1.1.2 Tổng quan về tình hình dự báo chuỗi thời gian tại Việt Nam

Sự phát triển của nền kinh tế Việt Nam có những biến đổi đáng kể bằngchứng là các doanh nghiệp vừa và nhỏ tới những doanh nghiệp lớn đều sử dụngcông nghệ thông tin để hỗ trợ các công việc hằng ngày Những dữ liệu thu thập

từ những gì mà doanh nghiệp hoạt động, thì những chủ doanh nghiệp thường cónhu cầu xem xét và dựa vào kinh nghiệm thực tế của mình, để đưa ra nhữngquyết định trong công tác quản lý doanh nghiệp Những phần mềm hiện tại màcác doanh nghiệp dùng để hỗ trợ, thông thường thì chỉ có những báo cáo mang ýnghĩa thống kê Mặc dù những doanh nghiệp này đã cố gắng phát triển và tíchhợp vào hệ thống phần mềm hiện có, nhưng những báo cáo này cũng chưa đápứng được nhu cầu phân tích chuyên sâu để có thể đưa ra quyết định Sản phẩmAccnet BA của Công ty cổ phần tin học Lạc Việt là phần mềm chuyên dùng đề

hỗ trợ đủ các loại báo cáo về tài chính, thế nhưng vẫn chưa đáp ứng được cácnăng như phân tích dữ liệu: phân tích liên quan về nhóm khách hàng, nhà cungcấp, …

Mặc dù, các doanh nghiệp nước ngoài cũng đã giới thiệu những gói phầnmềm có tích hợp phần phân tích dữ liệu, nhưng chi phí cao, thời gian triển khaitương đối lâu, quy trình thực hiện phức tạp IBM có giới thiệu gói sản phẩm làIBM Cognos 10.1 tới thị trường Việt Nam nhưng hiện tại chỉ mới có Ngân hàng

Á Châu – ACB triển khai thành công, nhưng xét về tính năng dự báo thì vẫnchưa thể nào bằng những phần mềm chuyên về phân tích dữ liệu

Tại Việt Nam, lĩnh vực dự báo chuỗi thời gian ngày càng được chú trọngphát triển, đặc biệt ở các mảng: marketing, dự báo doanh thu theo thời gian, phântích nhu cầu tồn kho của các sản phẩm, … Đa phần các doanh nghiệp có quy môlớn mới có khái niệm về việc sử dụng các ứng dụng liên quan đến việc phân tích

dữ liệu và dự báo chuỗi thời gian cho các hoạt động của doanh nghiệp Một sốcác doanh nghiệp đã sử dụng: CoopMart, Prudential, Bảo hiểm Bảo Việt,NamVietBank, VietinBank, … Để đáp ứng được vấn đề về phân tích dữ liệu làviệc hình thành các trung tâm hoạt động chuyên về phân tích dữ liệu: VIDAC

Trang 21

(Trung tâm thông tin và phân tích số liệu Việt Nam), Cedzo (Trung tâm tư vấndoanh nghiệp và phát triển kinh tế vùng), …

Dự báo dữ liệu chuỗi thời gian là một vấn đề được nghiên cứu trong thờigian dài Và là một trong những thành phần quan trọng trong hoạt động nghiêncứu phát triển của tổ chức, bởi vì những dữ liệu từ quá khứ đến hiện tại thườngđược dùng để cung cấp cho các mô hình quyết định Mô hình dự báo nhu cầu vềkhách du lịch ghé thăm trong tương lai, hay là mô hình tồn kho yêu cầu ước tínhđược nhu cầu cần hàng trong thời gian dự kiến, hay là mô hình dự báo nhómbệnh theo mùa, dự đoán về thị trường chứng khoán, doanh thu…

Dữ liệu chuỗi thời gian là dữ liệu mà các biến quan sát được thu thập theothời gian với tần suất nhất định tùy theo đặc tính của đối tượng nghiên cứu Dữliệu chuỗi thời gian được thu thập từ nhiều nguồn khác nhau: các giao dịch củanghiệp vụ, quan sát môi trường, …

 Thu thập theo thời gian với tần suất [3]:

o Theo ngày, tuần: chứng khoán, giá vàng, tỷ giá ngoại tệ, …

o Theo tháng: doanh thu, năng suất sản xuất, tỷ lệ lạm phát, tỷ lệ thất nghiệp,

Trang 22

trường chứng khoán, Dự đoán về năng suất, Quy trình và quản lý chất lượng,Kiểm kê học, Dự báo khối lượng công việc, Dự báo về dân số, …

Đối với ngành y của Việt Nam cũng đã quan tâm đến vấn đề phân tích dữliệu, cụ thể là tại các trường Đại học Y Dược đều được đào tạo các môn học liênquan đến phân tích số liệu và biểu đồ bằng phần mềm R Dự báo chuỗi thời gianứng dụng cho các công việc liên quan đến ngành y thì chưa được chú trọngnhiều Các lĩnh vực được phát triển song hành cùng với sự phát triển của côngnghệ đều liên quan đến lĩnh vực kinh tế, nhưng lĩnh vực về y cụ thể là nhữngcông tác quản lý trong bệnh viện vẫn đang được triển khai Những đối tượng cầnthiết đưa vào áp dụng như: doanh thu từ các hoạt động khám chữa bệnh, dự báo

sự gia tăng khám bệnh đối với các nhóm bệnh, hiệu suất làm việc của các nhânviên bệnh viện…

=> Đó là những lý do mà chúng tôi chọn đề tài “Dự báo chuỗi thời gian trong hệthống thông tin bệnh viện”

1.3 Mục tiêu đề tài

Nghiên cứu các mô hình thống kê, cụ thể ba phương pháp: kỹ thuật làmtrơn, mô hình ARIMA và mô hình mùa SARIMA cho dự báo dữ liệu chuỗi thờigian

Nghiên cứu phần mềm R để dự báo chuỗi thời gian

Áp dụng ba phương pháp: kỹ thuật làm trơn, mô hình ARIMA và mô hìnhmùa SARIMA vào việc dự báo doanh thu của bệnh viện So sánh hiệu quả của baphương pháp này

1.4 Ý nghĩa đề tài

Chỉ ra được phương pháp thực hiện tối ưu trong việc dự báo chuỗi thờigian trong hệ thống thông tin bệnh viện

Trang 23

Giới thiệu thêm một công cụ hỗ trợ phân tích dữ liệu chuỗi thời gian tiệndụng và không tốn chi phí mà đem lại hiệu quả.

1.5 Phạm vi và giới hạn đề tài

Phạm vi thực hiện là hai tập dữ liệu thuộc hai đơn vị khác nhau là của mộtđơn vị Phòng khám đa khoa và một đơn vị Trung tâm y tế, cả hai đơn vị này đềuđặt tại thành phố Hồ Chí Minh

Đề tài tiến hành thực hiện dựa trên ba phương pháp dùng để phân tích dữliệu chuỗi thời gian: phương pháp kỹ thuật làm trơn mũ, mô hình ARIMA và môhình mùa SARIMA

Trang 24

1.6 Bố cục luận văn

Bố cục của luận văn này bao gồm sáu chương sau:

Chương I: Giới thiệu – Giới thiệu tổng quan về dự báo chuỗi thời gianđược ứng dụng ở các lĩnh vực, lý do nghiên cứu, mục tiêu nghiên cứu, ý nghĩathực tiễn, phạm vi và giới hạn của đề tài

Chương II: Các công trình liên quan – Trình bày các công trình nghiêncứu liên quan đến dự báo chuỗi thời gian trong lĩnh vực quản lý bệnh viện

Chương III: Phương pháp nghiên cứu – Trình bày phương pháp nghiêncứu và công cụ hỗ trợ quá trình thực hiện luận văn

Chương IV: Cơ sở lý thuyết – Trình bày cơ sở lý thuyết được sử dụng đểgiải quyết các vấn đề bài toán của luận văn Ở chương này giới thiệu nhữngthước đo dự báo chuỗi thời gian, kỹ thuật làm trơn, mô hình ARIMA, mô hìnhmùa SARIMA, phần mềm R

Chương V: Kết quả thực nghiệm – Trình bày kết quả nghiên cứu thựcnghiệm

Chương VI: Kết luận và kiến nghị – Trình bày kết luận từ kết quả nghiêncứu, nêu lên những hạn chế và hướng nghiên cứu tiếp theo

Trang 25

CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN

Dự báo chuỗi thời gian là một trong những vực được nghiên cứu trong thờigian gần đây Như đã giới thiệu ở chương I thì dự báo chuỗi thời gian là mộttrong những vấn đề quan trọng đối với tất cả các lĩnh vực: kinh tế, xã hội, giáodục, bệnh viện,… Hiện có nhiều công trình nghiên cứu các khía cạnh liên quanđến các lĩnh vực đã nêu

Trong luận văn có thể chia thành các nhóm chính trong dự báo chuỗi thời gian đượcphân thành hai nhánh: mô hình Neural Network và các mô hình phân tích trongthống kê

2.1 Mô hình Neural Network

Mạng nơ-ron nhân tạo (ANN) là một lĩnh vực nghiên cứu rất lớn trong lĩnh vực trí

tuệ nhân tạo, ANN được xem như một hệ thống kết nối tập hợp các ngõ vào (inputs) đến tập hợp các ngõ ra (outputs) qua một hay nhiều lớp nơ-ron, các lớp này được gọi là các lớp ẩn Việc xác định có bao nhiêu ngõ vào, ngõ ra, số lớp ẩn cũng như

số lượng nơ-ron của mỗi lớp tạo thành kiến trúc của mạng

Kiến trúc của một ANN cho dự báo chuỗi thời gian được mô phỏng ở Hình 2.1 với

3 ngõ vào, một lớp ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo).

Hình 2.1 Kiến trúc của một ANN cho dự báo chuỗi thời gian với 3 ngõ vào, một lớp

ẩn hai nơ-ron và một ngõ ra (là giá trị dự báo) ([4])

Trang 26

Trong ngữ cảnh chuỗi thời gian, ngõ ra là giá trị của chuỗi thời gian được dự báo,

ngõ vào có thể là có giá trị quan sát trước thời điểm dự báo (xác định bởi độ trễ) của

chuỗi thời gian và các biến giải thích khác

Đối với các ANN một lớp ẩn có H nơ-ron, phương trình tổng quát để tính giá trị dự

báo x t (ngõ ra) sử dụng đến các mẫu quan sát quá khứ x t− j1, x t− j2, …, x t− jk làm ngõvào được viết dưới dạng sau:

w c 0 là trọng số kết nối trực tiế giữa ngõ vào hằng số và ngõ ra,

 {w ih} và {w h 0} là các trọng số của các kết nối khác giữa các ngõ vào và các nơ-ronlớp ẩn giữa các nơ-ron lớp ẩn với ngõ ra

0 và ∅ h là hai hàm kích hoạt lần lượt được sử dụng tại ngõ ra và tại các nơ-ronlớp ẩn

ANN được áp dụng trong dự báo chuỗi thời gian bởi rất nhiều nhà nghiên cứu.C.Yeh và các cộng sự năm 2008 ([4]) đã sử dụng mô hình mạng nơ-ron nhân tạo để

dự báo về chi tiêu y tế tại Đài Loan

E.Hadavandi và các cộng sự năm 2011 ([5]) đã phát triển mô hình mạng nơ-ron đểứng dụng cho việc dự báo số lượng bệnh nhân tới khám tại bệnh viện

2.2 Các mô hình phân tích thống kê

Tổng quan về hàm xu thế

Xu thế là sự vận động tăng hay giảm của dữ liệu trong một thời gian dài Sự vận

động này có thể được mô tả bằng một đường thằng (xu thế tuyến tính) hoặc bởi một vài dạng đường cong toán học (xu thế phi tuyến tính) Phân tích hồi quy là cách thức

Trang 27

mô hình hóa mối quan hệ giữa Y t và t (biến thời gian t sử dụng như một biến giải

thích) Phần này giới thiệu hai mô hình xu thế thường được sử dụng trong phân tích,

dự báo kinh tế, xã hội Đó là Mô hình xu thế tuyến tính và Mô hình tăng trưởng mũ.

Yb e ln( ) ln( )Yb ob t1

T R O Beringer và các cộng sự năm 2000 ([6]) đã tiến hành nghiên cứu xu hướng

và dự báo số lượng người bị gãy xương của các bệnh nhân tại Northern Ireland.Phân tích độ tuổi và giới tính được thực hiện hồi qui tuyến tính, hồi qui Poisson vàcác hàm xu thế

Hình 2.2 Dự báo (2001-2020) số lượng người bị gãy xương tại Northern Ireland của

những người trên 50 tuổi và phân theo giới tính.([6])

Trang 28

Biểu đồ Hình 2.2 thể hiện cả dữ liệu quá khứ và dữ liệu dự đoán số người bị gãyxương đến năm 2016, dựa vào dữ liệu từ năm 1985 đến năm 1997 của nam và nữ từ

độ tuổi 50 trở lên và sử dụng ba phương pháp trên để dự đoán

Các phương pháp phân tích (Decomposition methods) hay các mô hình phân tích chuỗi thời gian (Time-series decomposition medols) được sử dụng cả trong dự báo

ngắn hạn và dài hạn Phương pháp này là một trong những phương pháp ra đời sớmnhất trong lịch sử của các kỹ thuật dự báo, và hiện nay vẫn còn được sử dụng phổbiến ở các nước phát triển Phân tích chuỗi thời gian cổ điển là cách thức thực hiệnchủ yếu dựa trên nền tảng của các phương pháp trung bình di động và dự báo theohàm xu thế

Robert Champion và các cộng sự năm 2007 ([7]), nghiên cứu về dự báo số ngàyđiều trị nội trú cho mỗi tháng của bệnh nhân tại tiểu bang Victoria, Úc Để thực hiệnnghiên cứu này, nhóm tác giả sử dụng kỹ thuật làm trơn và mô hình ARIMA, nhưngtrong quá trình thực hiện đã sử dụng kết hợp với phương pháp phân tích có yếu tốmùa vụ để tìm ra số lượng bệnh nhân cho mỗi giờ của tuần

Bốn thành phần của chuỗi thời gian:

Xu thế: là thành phần thể hiện sự tăng (hoặc giảm) ẩn bên trong của một

chuỗi thời gian Thành phần này thường được ký hiệu là Tr, hay T.

Chu kỳ là một chuỗi những sự dao động giống như hình sóng và sự dao

động này sẽ lặp lại sau một thời kỳ dài hơn một năm Ký hiệu chu kỳ là CI, hay

C.

Mùa: những dao động mùa vụ rất thường được tìm thấy với dữ liệu theo

quý, theo tháng, hoặc thậm chí theo tuần nếu chỉ có dữ liệu theo năm thì không

có biến động mùa Sự dao động mùa vụ liên quan đến kiểu thay đổi khá ổn địnhxuất hiện hàng năm hoặc kiểu thay đổi đó lại được lặp lại ở năm sau, và các nămsau nữa Yếu tố mùa xảy ra do ảnh hưởng của thời tiết, các sự kiện hàng năm

kiên quan đến lịch như nghỉ hè, ngày lễ Ký hiệu mùa là Sn, hay S.

Trang 29

Ngẫu nhiên/ bất thường: thành phần ngẫu nhiên bao gồm những thay đổi

ngẫu nhiên, hay không dự đoán được Thành phần bất thường này xuất hiện cóthể do ảnh hưởng của tin đồn, thiên tai, động đất, … Ký hiệu ngẫu nhiên/bất

thường là Ir, hay I.

Phương pháp phân tích được thể hiện ở hai mô hình: mô hình nhân tính và

J.Boyle và các cộng sự năm 2008([2]), dự báo số lượng bệnh nhân nhậpviện Dự báo này được nhóm tác giả phân tích dữ liệu và dự báo dữ liệu bằng

phân tích hồi quy (Regression) Dữ liệu được tạo ra từ mô hình này sẽ được so

sánh với dữ liệu nhập liệu trên 6 tháng Phương pháp này thực hiện hiệu quả với

11 biến giả để mô hình biến hàng tháng (MAPE=1.79%).

Mô hình hồi quy đơn

Phân tích hồi quy có thể giúp cho người phân tích: ước lượng giá trị trungbình của biến phụ thuộc khi cho trước giá trị một hoặc các biến giải thích; kiểmđịnh các giả thuyết về bản chất của sự phụ thuộc giữa biến độc lập và biến phụthuộc; dự báo giá trị trung bình của biến phụ thuộc khi cho trước các giá trị củacác biến giải thích; dự báo tác động biên hoặc độ co giãn của một biến độc lậplên biến phụ thuộc thông qua hệ số hồi quy

Mô hình hồi quy tuyến tính cổ điển

Trang 30

Trong đó:

E(Y t ) là giá trị trung bình có điều kiện của Y t theo X t , và β 1, β 2 là các tham số chưa

biết của tổng thể (t ký hiệu theo thông lệ dữ liệu chuỗi thời gian cho quan sát vào thời điểm t của biến quan sát).

Mô hình hồi quy bội

Thông thường trong các mối quan hệ kinh tế hay quản trị, biến phụ thuộc,

Y, phụ thuộc vào nhiều biến giải thích khác nhau Mô hình hồi quy bội được thể

hiện như sau:

Y t = β 1 + β 2 X 2t + … + β k X kt + u t t=1,2,3,…,n ( 2.3 )

Trong đó, β 1 là hệ số cắt, β 2 , …, β k là các hệ số hồi quy riêng, u t là hạng nhiễu ngẫu

nhiên, và t là quan sát thứ t, n là quy mô toàn bộ của tổng thể.

Mô hình ARIMA liên quan đến mô hình tự hồi quy (AR) và mô hình

trung bình di động (MA) Biến Y t của mô hình AR chỉ ảnh hưởng bởi hạng nhiễu

trắng u t , và cũng chịu ảnh hưởng bới các biến Y t-1 , Y t-2 , Y t-3 , … thường được tạo ra

MA(q) Nếu mô hình MA(1), Y t đại diện không chỉ chịu ảnh hưởng của nhiễu

trắng, mà bằng cách nào đó có mối liên hệ với các giá trị Y t-1 , Y t-2 , Y t-3.[4]

Nếu biến Y t có mối liên hệ với các giá trị Y t-1 , Y t-2 , Y t-3 , …và các giá trị

hạng nhiễu trắng u t-1 , u t-2 , u t-3 , …, mô hình này gọi mô ARMA(p,q) Nếu mô hình

ARMA không được chấp nhận, vi phân lần “d” có thể được dùng để tạo ra sự

chấp thuận, sau đó ta có được mô hình ARIMA(p,d,q) Được diễn tả bởi hai

phương trình sau:

D t = γ 1 D t-1 + … + γ p D t-p + u t + θ 1 u t-1 + … + θ q u t-q (2.1)

(1-L)) d Y t = γ 1 (1-L)) d Y t-1 + … + γ p (1-L)) d D t-p + u t + θ 1 u t-1 + … + θ q u t-q (2.2)

(1- γ 1 L) 1 - … - γ p L) p )(1-L)) d Y t = (1+ θ 1 L) 1 + … + θ q L) q ) (2.3)

D t là thông tin được chuyển đổi sau khi lấy sai phân lần thứ t; γ p , θ q là các giá trị

được ước tính, u t là giá trị sau khi lấy sai phân lần thứ t, L) là giá trị làm suy thoái.

C.Yeh và các cộng sự năm 2008 ([4]) bên cạnh sử dụng mô hình mạng ron nhân tạo để dự báo về chi tiêu y tế tại Đài Loan thì nhóm tác giả này cũng đã

nơ-sử dụng mô hình ARIMA cho dự báo này Qua quá trình thực hiện nghiên cứu thì

Trang 31

nhóm tác giả này kết luận mô hình ARIMA dự báo cho ra kết quả tốt hơn môhình mạng nơ-ron nhân tạo về dự báo chi tiêu y tế.

E.P.C.Kao và G.G.Tung năm 1980 ([8]) đã sử dụng mô hình ARIMA để

dự báo nhu cầu về các dịch vụ chăm sóc sức khỏe bệnh nhân Dự báo số lượngbệnh nhân khám các dịch vụ chịu ảnh hưởng theo mùa, dự đoán này có thể dựđoán theo hàng tháng

Hình 2.3 Dự báo số lượng bệnh nhân (từ tháng 109 - 132)[5].

Biểu đồ Hình 2.3 thể hiện giá trị thực tế và giá trị dự báo từ tháng thứ 109 đến thángthứ 132, với vùng giới hạn tin cậy có thể xảy ra của mô hình ARIMA trong việc dựbáo số lượng bệnh nhân đến khám là 95%

Trang 32

CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU

Chương này trình bày phương pháp nghiên cứu và giới thiệu về ngôn ngữ hỗ trợtrong suốt quá trình thực hiện nghiên cứu thực nghiệm

3.1 Phương pháp nghiên cứu

Phương pháp luận của dự báo chuỗi thời gian được đề cập trong cuốn sách [3] về

dự báo và phân tích dữ liệu trong kinh tế và tài chính, nội dung cơ bản như sau:

o Nhóm các phương pháp chính thức được chia thành phương pháp định tính vàphương pháp định lượng

 Các phương pháp định tính dựa vào kinh nghiệm và phán đoán của nhữngchuyên viên, những người quản lý và những chuyên gia Theo Dayanandachia dự báo định tính thành hai nhóm:

 Các phương pháp thu thập thông tin dự báo từ các cá nhân liên quan đếnđối tượng dự báo, bao gồm khảo sát thị trường và tổng hợp lực lượng bánhàng

 Các phương pháp dựa vào các ý kiến của nhóm chuyên gia am hiểu vềlĩnh vực cần dự báo, bao gồm ý kiến ban quản lý, phương pháp Delphi,

kỹ thuật nhóm định danh, và các kỹ thuật khác

Trang 33

 Các phương pháp định lượng dựa vào các mô hình toán và giả định dữ liệuquá khứ cũng như các yếu tố liên quan khác có thể được kết hợp để đưa racác dự báo đáng tin cậy ở tương lai Chia thành các nhóm: các mô hình chuỗithời gian và các mô hình nhân quả.

Phân loại phương pháp luận của dự báo định lượng

Phương pháp luận của dự báo định lượng

 Phương pháp luận của dự báo chuỗi thời gian: dự báo các giai đoạn quá khứ

và dự báo các giai đoạn tương lai

 Phương pháp luận của dự báo nhân quả: xuất phát từ mục tiêu dự báo, ngườilàm dự báo cần dựa trên các lý thuyết, các kinh nghiệm có liên quan, cáckinh nghiệm của chuyên gia trong lĩnh vực nghiên cứu, … Bước kế tiếp, xácđịnh các biến số có thể ảnh hưởng đến biến cần dự báo Bước tiếp theo sẽtiến hành thu thập dữ liệu, xây dựng, ước lượng mô hình, kiểm định giảthuyết và thực hiện dự báo

Trang 34

Dự báo các giai đoạn quá khứ

Đánh giá Khảo sát lại

dạng dữ liệu

Dự báo các giai đoạn tương lai và sử dụng cho việc ra quyết định

Kiểm tra độ chính xác của các dự báo

Đánh giá

Khảo sát dạng dữ liệu bằng các dữ liệu cập nhật Không tốt

Tốt Không

tốt

Tốt

Hình 3.1 Phương pháp luận của dự báo chuỗi thời gian [3]

Quy trình thực hiện dự báo chuỗi thời gian

 Xác định mục tiêu dự báo: xác định các mục tiêu liên quan đến các quyếtđịnh cần dựa vào kết quả dự báo

 Xác định biến số cần dự báo: sau khi xác định mục tiêu dự báo thì cần phảixác định chính xác sẽ dự báo điều gì

 Nhận dạng các khía cạnh thời gian: xét tới yếu tố độ dài của thời gian dựbáo

Trang 35

 Thu thập và phân tích dữ liệu: dữ liệu dùng để phân tích có thể lấy từ bêntrong hoặc bên ngoài tổ chức.

 Lựa chọn mô hình: phụ thuộc vào biến số dự báo là gì

 Đánh giá mô hình: sau khi xác định mô hình dự báo, bước tiếp theo là đánhgiá mô hình có phù hợp hay không

 Chuẩn bị dự báo

 Trình bày kết quả dự báo

 Theo dõi kết quả dự báo

Giới thiệu các tập dữ liệu

 Tập dữ liệu được dùng để dự báo chuỗi thời gian trong hệ thống thông tinbệnh viện của luận văn này là của hai đơn vị:

o Phòng khám đa khoa khu công nghiệp Tân Bình

o Trung tâm y tế dự phòng – thành phố Hồ Chí Minh

 Mỗi tập dữ liệu dùng để phân tích sẽ được chia làm 2 tập con gồm:

o Tập dữ liệu dùng để ước lượng, số lượng dòng dữ liệu bằng 85% sovới tổng số dòng dữ liệu gốc (tính từ thời điểm bắt đầu)

o Tập dữ liệu dùng để kiểm định, đánh giá với số lượng dòng dữ liệucòn lại là 15% so với tổng số dòng dữ liệu (phần dữ liệu còn lại saukhi lấy dùng để thực hiện các ước lượng)

 Đơn vị tính trị giá doanh thu của hai tập dữ liệu là triệu VNĐ Dữ liệu củahai đơn vị này có thể tra cứu ở phụ lục A

Phòng khám đa khoa

Tập dữ liệu của Phòng khám đa khoa khu công nghiệp Tân Bình đượcthành lập vào những tháng cuối năm 2007 Phòng khám thành lập với mục đíchđáp ứng nhu cầu khám chữa bệnh cho công nhân viên và các hộ dân sống trong

Trang 36

khu công nghiệp Tân Bình Một số hoạt động đem lại doanh thu bao gồm: khámchữa bệnh và bán thuốc Khám chưa bệnh: khám lâm sàng và cận lâm sàng.

Tập dữ liệu về doanh thu phòng khám đa khoa khu công nghiệp Tân Bìnhđược thu thập từ 01/2009 đến 06/2012

Trung tâm y tế

Dữ liệu doanh thu của Trung tâm y tế liên quan chủ yếu tới các hoạt độngxét nghiệm và khám bệnh Là một trong những trung tâm lớn chuyên về các hoạtđộng xét nghiệm

Tập dữ liệu về doanh thu trung tâm y tế được thu thập từ 01/2007 đến12/2010

3.2 Phần mềm hỗ trợ

R là một ngôn ngữ và môi trường lập trình hỗ trợ cho các phân tích thống

kê và vẽ đồ thị Nó được tạo ra từ dự án GNU( bởi hai nhà thống kê học RossIhaka và Robert Gentleman vào năm 1996), nó cũng giống như ngôn ngữ S vàmôi trường phát triển tạo ra tại phòng thí nghiệm Bell (tên trước đó là AT&T,nay là Lucent Technologies) bởi John Chambers và các công sự Ngôn ngữ R và

S tuy có những điểm khác nhau, nhưng đoạn mã của S có thể hiện ngôn ngữ R

Trang 37

Theo Wikipedia [18], các phương pháp dự báo được sử dụng trong phântích dữ liệu chuỗi thời gian của một số phần mềm:

Trang 38

Bảng 3.1 Ứng dụng các phương pháp dự báo của các phần mềm (miễn phí hoặc thương

mại)

Product ARIMA GARCH Unit root test Cointegration

Multivariate ARCH

Open source

Theo bảng thống kê này, phần mềm R là phần mềm miễn phí với đầy đủ các tínhnăng như những phần mềm thương mại khác về phân tích dữ liệu thông dụng như:Eview, SAS, Stata, SPSS Những phần mềm này được các trường đại học nghiêncứu và đưa vào công tác giảng dạy, chi phí của những phần mềm này khá đắt

Qua quá trình từng làm việc tiếp xúc với các phần mềm phân tích dữ liệu

kể trên, tôi thấy phần mềm R đáp ứng được tất cả những yêu cầu mà các phầnmềm thương mại cung cấp R là phần mềm miễn phí, nhưng với những tính năng

mà nó đem lại trong việc phân tích dữ liệu chuỗi thời gian không thua kémnhững phần mềm phải trả phí bản quyền Đó là một trong những lý do lựa chọncông cụ hỗ trợ thực hiện luận văn này

Tải phần mềm và tài liệu hướng dẫn sử dụng phần mềm R tại website:http://cran.R-project.org

Thông tin về phần mềm R được sử dụng trong luận văn này: “R

version 2.15.1 (2012-06-22), Copyright (C) 2012 The R Foundation forStatistical Computing”

Trang 39

CHƯƠNG 4: CƠ SỞ LÝ THUYẾT

Trong chương này, ta sẽ trình bày một số lý thuyết liên quan đến kỹ thuậtlàm trơn, mô hình tự hồi qui kết hợp trung bình di động ARIMA và mô hình mùaSARIMA (những khái niệm cơ bản và đặc điểm của chuỗi dữ liệu thời gian, cácbước thực hiện, cách chọn mô hình) Ngoài ra cũng giới thiệu một số câu lệnh củaphần mềm R được sử dụng để giải quyết bài toán trong luận văn này

4.1 Dự báo chuỗi thời gian

Dãy số thời gian

Chuỗi thời gian là một tập hợp các quan sát x t, mỗi một quan sát được ghi

nhận tại thời điểm t cụ thể Chuỗi thời gian rời rạc là tập thời gian được quan sát

thực hiện là một hợp rời rạc [9]

Dữ liệu chuỗi thời gian bao gồm các quan sát trên một đơn vị kinh tế tại

nhiều thời điểm Số liệu thu thập được sẽ tạo thành một dãy số thời gian.[10]

Dãy số thời gian là một dãy các giá trị của hiện tượng nghiên cứu được sắpxếp theo thứ tự thời gian.[11]

Theo tác giả R.H Shumway và cộng sự (2011)[12] cho rằng, việc phân tíchcác dữ liệu thực nghiệm được thu thập tại các thời điểm khác nhau đã dẫn đến cácvấn đề mới và độc đáo trong mô hình thống kê và suy luận

Trang 40

Hình 4.1 Doanh thu theo quý của Johnson & Johnson, (1960-I, 1980-IV) [13]

Giả sử ta có dãy số thời gian dựa trên mô hình nhân: Y = T.S.C.I Phần này ta sẽ đề

cập đến việc xem xét biến động từng yếu tố thành phần của dãy số[11]

Biến động mùa vụ

Số trung bình di động có tác dụng hạn chế, loại bỏ các biến động ngẫu nhiên.Tính chất này được ứng dụng trong việc tính toán các chỉ số thời vụ nhằm thể hiệnbiến động thời vụ của dãy số thời gian

Dãy số trung bình di động tính được sẽ chỉ bao hàm yếu tố xu hướng và chu

kỳ vì yếu tố thời vụ và ngẫu nhiên xem như đã bị loại bỏ bởi cách tính trung bình diđộng Do đó, nếu đem chia từng giá trị của dãy số gốc cho các giá trị tương ứng củadãy số trung bình di động ta sẽ tách riêng được ảnh hưởng của yếu tố thời vụ vàngẫu nhiên

: Số trung bình di động ứng với giá trị quan sát ở thời điểm t.

Bước tiếp theo loại bỏ yếu tố ngẫu nhiên bằng cách tính chỉ số thời vụ trungbình quý (nếu số liệu hàng quý), hoặc chỉ số thời vụ trung bình tháng (nếu số liệu

Ngày đăng: 19/02/2017, 01:26

HÌNH ẢNH LIÊN QUAN

Hình 5.15  Biểu đồ về các ước lượng xu hướng, ước lượng mức độ và ước lượng - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
Hình 5.15 Biểu đồ về các ước lượng xu hướng, ước lượng mức độ và ước lượng (Trang 70)
Hình 5.17  Biểu đồ giá trị thực tế và giá trị dự báo của doanh thu PKDK theo phương - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
Hình 5.17 Biểu đồ giá trị thực tế và giá trị dự báo của doanh thu PKDK theo phương (Trang 72)
Hình 5.20  Biểu đồ tương quan của doanh thu PKDK (01/2009-11/2011) - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
Hình 5.20 Biểu đồ tương quan của doanh thu PKDK (01/2009-11/2011) (Trang 75)
Hình 5.23  Biểu đồ tương quan và tương quan riêng phần của dữ liệu PKDK mẫu áp - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
Hình 5.23 Biểu đồ tương quan và tương quan riêng phần của dữ liệu PKDK mẫu áp (Trang 77)
Hình 5.26  Biểu đồ doanh thu PKDK mẫu (theo số điểm) trước và sau khi lấy sai - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
Hình 5.26 Biểu đồ doanh thu PKDK mẫu (theo số điểm) trước và sau khi lấy sai (Trang 84)
Hình 5.28  Biểu đồ dữ liệu PKDK sau khi lấy sai phân bậc 2 - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
Hình 5.28 Biểu đồ dữ liệu PKDK sau khi lấy sai phân bậc 2 (Trang 86)
Hình 5.34 Biểu đồ tương quan của doanh thu TTYT (01/2007-04/2010) - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
Hình 5.34 Biểu đồ tương quan của doanh thu TTYT (01/2007-04/2010) (Trang 95)
Hình 5.35  Biểu đồ dữ liệu doanh thu TTYT mẫu sau khi lấy sai phân bậc 1 - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
Hình 5.35 Biểu đồ dữ liệu doanh thu TTYT mẫu sau khi lấy sai phân bậc 1 (Trang 96)
Hình 5.38  Biểu đồ doanh thu TTYT mẫu (theo số điểm) trước và sau khi lấy log - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
Hình 5.38 Biểu đồ doanh thu TTYT mẫu (theo số điểm) trước và sau khi lấy log (Trang 100)
Hình D.5 Biểu đồ dự báo cho các khoảng thời gian tiếp theo của doanh thu TTYT - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
nh D.5 Biểu đồ dự báo cho các khoảng thời gian tiếp theo của doanh thu TTYT (Trang 138)
Hình E.4 Biểu đồ so sánh giá trị thực tế và giá trị dự báo cho các khoảng thời gian - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
nh E.4 Biểu đồ so sánh giá trị thực tế và giá trị dự báo cho các khoảng thời gian (Trang 150)
Hình E.6 Biểu đồ so sánh giá trị thực tế và giá trị dự báo cho các khoảng thời gian - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
nh E.6 Biểu đồ so sánh giá trị thực tế và giá trị dự báo cho các khoảng thời gian (Trang 153)
Hình E.7 Biểu đồ giá trị phần dư, tương quan và kiểm định p-values của thống kê - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
nh E.7 Biểu đồ giá trị phần dư, tương quan và kiểm định p-values của thống kê (Trang 154)
Hình F.1 Biểu đồ giá trị phần dư, tương quan và kiểm định p-values của thống kê - Dự báo chuỗi thời gian trong hệ thống thông tin bệnh viện
nh F.1 Biểu đồ giá trị phần dư, tương quan và kiểm định p-values của thống kê (Trang 159)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w