1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và triển khai ứng dụng các mô hình lý thuyết trong data mining vào lĩnh vực nhà hàng

80 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 3,09 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Dựa trên việc khảo sát hoạt động kinh doanh và dữ liệu của một nhà hàng để đưa ra các vấn đề hỗ trợ quá trình kinh doanh và hỗ trợ nhà quản lý ra quyết định, từ đó nghiên cứu và ứng dụ

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

LÂM HOÀNG TRÚC MAI

NGHIÊN CỨU VÀ TRIỂN KHAI ỨNG DỤNG CÁC

MÔ HÌNH LÝ THUYẾT TRONG DATA MINING VÀO

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

LÂM HOÀNG TRÚC MAI

NGHIÊN CỨU VÀ TRIỂN KHAI ỨNG DỤNG CÁC

MÔ HÌNH LÝ THUYẾT TRONG DATA MINING VÀO

Trang 3

TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học: PGS TS Nguyễn Đức Cường

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 PGS TS Dương Tuấn Anh, CT

2 TS Lê Thanh Vân, PB1

Trang 4

TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: LÂM HOÀNG TRÚC MAI MSHV: 10320915 Ngày, tháng, năm sinh: 06/09/1987 Nơi sinh: Tiền Giang Chuyên ngành: Hệ thống thông tin quản lý Mã số: 603448

I TÊN ĐỀ TÀI: Nghiên cứu và triển khai ứng dụng các mô hình lý thuyết trong Data Mining vào lĩnh vực nhà hàng

II NHIỆM VỤ VÀ NỘI DUNG:

 Xây dựng mô hình kho dữ liệu từ cơ sở dữ liệu thu thập được để phục vụ việc khai phá dữ liệu cho các bài toán

 Dựa trên việc khảo sát hoạt động kinh doanh và dữ liệu của một nhà hàng để đưa ra các vấn đề hỗ trợ quá trình kinh doanh và hỗ trợ nhà quản lý ra quyết định, từ đó nghiên cứu và ứng dụng các mô hình lý thuyết trong khai phá dữ liệu để áp dụng phù hợp vào các bài toán đã đưa ra

 Triển khai các ứng dụng cài đặt các mô hình đã nghiên cứu, đồng thời cũng

là một công cụ giúp nhà quản lý dễ dàng thao tác để thống kê, phân tích dữ liệu và hỗ trợ ra quyết định phục vụ cho các hoạt động kinh doanh cụ thể

III NGÀY GIAO NHIỆM VỤ : 02/07/2012

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 30/11/2012

V CÁN BỘ HƯỚNG DẪN: PGS TS Nguyễn Đức Cường

Trang 5

Để hoàn thành được khóa học và luận văn tốt nghiệp này, tôi đã nhận được

sự giúp đỡ nhiệt tình từ nhiều phía: Thầy cô, bạn bè, gia đình và cơ quan công tác Xin gửi lời cảm ơn chân thành đến mọi người vì đã giúp đỡ tôi trong suốt thời gian qua

Trước tiên, tôi xin gửi lời cảm ơn đến toàn thể các Thầy cô đã truyền đạt kiến thức cho tôi trong quá trình học tập tại trường Đặc biệt, tôi xin gửi lời cảm ơn chân thành và sâu sắc đến Thầy hướng dẫn luận văn Nguyễn Đức Cường, thầy đã tận tình hướng dẫn, hỗ trợ trong quá trình nghiên cứu và hoàn chỉnh luận văn

Bên cạnh đó, tôi cũng xin cảm ơn lãnh đạo và các anh chị trong cơ quan công tác đã tạo mọi điều kiện trong công việc để tôi có thể hoàn thành luận văn này

Cuối cùng, tôi chân thành cảm ơn bạn bè, những người thân trong gia đình

đã bên cạnh động viên, thông cảm và chia sẻ, là động lực để tôi vượt qua những lúc khó khăn nhất, giúp cho tôi vững tin và tập trung vào công việc và học tập

Tác giả Lâm Hoàng Trúc Mai

Trang 6

Mục tiêu chính của luận văn là nghiên cứu và ứng dụng các mô hình lý thuyết trong lĩnh vực Data warehouse và Data mining như thiết kế lược đồ data mart, thuật toán khai phá luật kết hợp, phương pháp hồi quy tuyến tính, lý thuyết tập phổ biến,… để xây dựng mô hình data mart từ cơ sở dữ liệu thu thập được, phục vụ cho quá trình khai phá dữ liệu áp dụng cho từng vấn đề đặt ra trong quá trình hoạt động của nhà hàng để hỗ trợ nhà quản lý ra quyết định

Ngoài ra, đề tài xây dựng các chương trình dựa trên các mô hình đã nghiên cứu giúp người quản trị doanh nghiệp là những người không chuyên trong lĩnh vực máy tính, đặc biệt là trong lĩnh vực phân tích, xử lý và khai thác dữ liệu vẫn có thể

sử dụng để hỗ trợ ra quyết định

Trang 7

This Thesis focuses on researching and applying some theory models in the field of Data warehousing and Data mining : Designing datamart diagram technique, Apriori algorithm for discovering association rules, Linear regression method, … Our objectives are building a Data warehouse model for storing data of a restaurant (sale orders, food, …) and writing some data mining programs working as a small Decision support system for restaurant manager

Trang 8

DANH MỤC HÌNH ẢNH i

DANH MỤC BẢNG BIỂU iii

CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI 1

1.1 Hình thành vấn đề 1

1.1.1 Thực trạng nghiên cứu ứng dụng kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD – Knowledge Discovery and Data Mining) 1

1.1.2 Tình hình quản trị doanh nghiệp 1

1.1.3 Lý do chọn đề tài 3

1.2 Phạm vi nghiên cứu 4

1.2.1 Đối tượng nghiên cứu 4

1.2.2 Không gian và thời gian thực hiện 4

1.3 Quy trình và phương pháp nghiên cứu 5

1.3.1 Quy trình nghiên cứu 5

1.3.2 Phương pháp nghiên cứu 5

1.4 Mục tiêu nghiên cứu 5

1.5 Ý nghĩa đề tài 6

1.6 Cấu trúc đề tài 6

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 7

2.1 Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD) 7

2.1.1 Khái niệm và phương pháp KDD 7

2.1.2 Mô hình bài toán KDD 7

2.2 Kho dữ liệu (Data Warehouse) 8

2.2.1 Khái niệm 8

2.2.2 Cấu trúc của kho dữ liệu 9

2.3 Hệ thống Business Intelligence (BI) 11

2.3.1 Khái niệm 11

2.3.2 Kiến trúc của BI 11

2.4 Phương pháp khai phá luật kết hợp dựa trên thuật toán Apriori 12

2.4.1 Một số khái niệm 12

Trang 9

2.4.3 Thuật toán Apriori 14

2.5 Những công trình liên quan 24

CHƯƠNG 3 PHÂN TÍCH, TRIỂN KHAI VÀ ĐÁNH GIÁ 25

3.1 Mô tả cơ sở dữ liệu (CSDL) 25

3.2 Quy trình xử lý dữ liệu và tạo data mart 28

3.2.1 Xử lý dữ liệu 30

3.2.2 Tạo data mart 31

3.3 Giải quyết vấn đề đặt ra: 35

3.3.1 Vấn đề 1: 35

3.3.1.1 Đặt vấn đề: 35

3.3.1.2 Giải quyết vấn đề: 35

3.3.1.3 Thử nghiệm và đánh giá: 48

3.3.2 Vấn đề 2: 53

3.3.2.1 Đặt vấn đề: 53

3.3.2.2 Giải quyết vấn đề: 53

3.3.2.3 Thử nghiệm và đánh giá 56

3.3.3 Vấn đề 3: 60

3.3.3.1 Đặt vấn đề 60

3.3.3.2 Giải quyết vấn đề 60

3.3.3.3 Thử nghiệm và đánh giá 62

CHƯƠNG 4 KẾT LUẬN VÀ KIẾN NGHỊ 64

4.1 Kết luận 64

4.2 Kiến nghị: 64

TÀI LIỆU THAM KHẢO 66

LÝ LỊCH TRÍCH NGANG 68

Trang 10

DANH MỤC HÌNH ẢNH

Hình 1.1 Các thành phần của một hệ thống BI đơn giản 2

Hình 2.1 Mô hình bài toán KDD 8

Hình 2.2 Cấu trúc kho dữ liệu 9

Hình 2.3 Sơ đồ data mart trên cơ sở hệ thống OLAP[5] 10

Hình 2.4 Lược đồ data mart dạng hình sao [5] 11

Hình 2.5 Kiến trúc của BI 12

Hình 3.1 Thiết kế luận lý của CSDL nguồn 25

Hình 3.2 Thiết kế luận lý data mart ban đầu 29

Hình 3.3 Thiết kế luận lý của CSDL rút gọn 30

Hình 3.4 Phân loại món ăn của CSDL nguồn 31

Hình 3.5 Danh sách món ăn sau khi được phân loại lại (bảng Food) 32

Hình 3.6 Danh sách các nguyên vật liệu (bảng Material) 33

Hình 3.7 Danh sách các cách chế biến (bảng CCB) 33

Hình 3.8 Danh sách các cách chế biến cụ thể 34

Hình 3.9 Mô hình data mart hoàn chỉnh 35

Hình 3.10 Danh sách 15 loại món ăn được mua nhiều nhất 36

Hình 3.11 Bảng thống kê 15 loại món ăn được mua hay không trong mỗi hóa đơn 37

Hình 3.12 Cửa sổ New Project của công cụ BI 37

Hình 3.13 Cửa sổ Data Source Wizard trong Project 38

Hình 3.14 Chọn Database cho mô hình Mining 38

Hình 3.15 Cửa sổ “Select Tables and Views” trong phần tạo Data Sources Views 39 Hình 3.16 Cửa sổ “Specify the Training Data” 40

Hình 3.17 Cửa sổ chạy mô hình 40

Hình 3.18 Cửa sổ “Process Mining Structure” 41

Hình 3.19 Cửa sổ kết quả sau khi Mining (thẻ Rules) 41

Hình 3.20 Cửa sổ kết quả sau khi Mining (thẻ Itemsets) 42

Hình 3.21 Các ngưỡng minimum probability và importance trong thẻ Rules 44

Trang 11

Hình 3.22.Giao diện ứng dụng vấn đề 1 45

Hình 3.23 Giao diện chức năng 3 của ứng dụng vấn đề 1 47

Hình 3.24 Chạy thử nghiệm vấn đề 1 49

Hình 3.25 File excel chứa bảng dữ liệu thống kê cho mô hình 50

Hình 3.26 File excel chứa các tập luật sau khi chạy mô hình 52

Hình 3.27 Giao diện ứng dụng vấn đề 2 56

Hình 3.28 Thử nghiệm ứng dụng vấn đề 2 56

Hình 3.29 File excel kết xuất bộ số liệu và biểu đồ của mã 821 trong khoảng thời gian mặc định 57

Hình 3.30 File excel kết xuất bộ số liệu và biểu đồ của mã món ăn 821 58

Hình 3.31 File excel kết xuất bộ số liệu và biểu đồ của mã món ăn 679 59

Hình 3.32 Kết quả của ứng dụng vấn đề 2 59

Hình 3.33 Bảng Food có thêm cột phân loại món (PLM) 60

Hình 3.34 Giao diện của ứng dụng vấn đề 3 61

Hình 3.35 File excel lưu tập phổ biến của chương trình 62

Hình 3.36 Kết quả của ứng dụng vấn đề 3 63

Trang 12

DANH MỤC BẢNG BIỂU

Bảng 1.1 Thứ tự ưu tiên về nhu cầu công nghệ của CIO trên thế giới 3

Bảng 2.1 Số liệu minh họa cho thuật toán Apriori 16

Bảng 2.2 Tính độ phổ biến trong tập Cp với p=1 17

Bảng 2.3 Tính độ phổ biến trong tập Cp với p=2 19

Bảng 2.4 Tính độ phổ biến trong tập Cp với p=3 20

Bảng 2.5 Tính độ phổ biến trong tập Cp với p=4 21

Bảng 3.1 Các thuộc tính và kiểu dữ liệu của bảng WS_Receipt 26

Bảng 3.2 Các thuộc tính và kiểu dữ liệu của bảng WS_ReceiptDetailNormal 27

Trang 13

CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI

1.1 Hình thành vấn đề

1.1.1 Thực trạng nghiên cứu ứng dụng kỹ thuật phát hiện tri thức và khai phá

dữ liệu (KDD – Knowledge Discovery and Data Mining)

Kỹ thuật phát hiện tri thức và khai phá dữ liệu (hay gọi ngắn gọn là Data mining) đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau như ngân hàng, bảo hiểm, quản trị doanh nghiệp,…ở khắp các nước trên thế giới Đã có rất nhiều các công trình nghiên cứu được xây dựng dựa trên các kỹ thuật cơ bản dùng để khai phá và phát hiện tri thức như khai phá luật kết hợp, gom cụm (Clustering), phân lớp (Classification)

KDD là một lĩnh vực nghiên cứu không mới trên thế giới, có lịch sử phát triển gần như cùng với sự phát triển của các thuật toán trí tuệ nhân tạo trong công nghệ thông tin từ những năm 1960 Tuy nhiên, do nhiều yếu tố khách quan về công nghệ, cơ sở hạ tầng và quy mô trong cơ cấu tổ chức, mà KDD chỉ mới thực sự bắt đầu được các doanh nghiệp, các nhà khoa học Việt Nam quan tâm trong những năm gần đây

1.1.2 Tình hình quản trị doanh nghiệp

Cùng với sự phát triển vượt bậc của công nghệ phần cứng máy tính cũng như

cơ sở hạ tầng viễn thông trên toàn thế giới, ngày càng có nhiều doanh nghiệp triển khai áp dụng hệ thống thông tin vào trong công tác quản lý ở mọi cấp độ từ các bộ phận tác nghiệp đến trung tâm điều hành cao nhất, mà ta tạm gọi các hệ thống này

là Hệ thống thông tin quản lý Điển hình nhất là hệ thống ERP (Enterprise Resource Planning), một hệ thống mà các doanh nghiệp Việt Nam hiện nay đang có nhu cầu triển khai rất lớn Bao quát thị trường ERP tại Việt Nam trong hai, ba năm trở lại đây, ông Srinivas Rao Adimulam, Tổng giám đốc SAP Việt Nam, cho biết: “ERP là nền tảng để ứng dụng các giải pháp khác Trước đây là làn sóng thứ nhất, các doanh nghiệp (DN) triển khai ERP ở những lĩnh vực như tài chính, bán hàng, nhân sự, quản lý kho Hiện nay, Việt Nam đang bước vào làn sóng đầu tư thứ hai sau khi đã

có các nền tảng từ làn sóng đầu tư thứ nhất Trên nền tảng đó họ xây dựng các ứng

Trang 14

dụng tích hợp mới như Business Intelligence (BI); lên kế hoạch, ngân sách; quản lý rủi ro; vấn đề tuân thủ pháp luật ” [1]

BI (Business Intelligence) là qui trình và công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình Mục đích của BI là hỗ trợ cho doanh nghiệp ra quyết định tốt hơn

Vì vậy một hệ thống BI (BI system) có thể xem là hệ thống hỗ trợ quyết định (Decision Support System - DSS) cho lĩnh vực kinh doanh [2]

BI có mối liên hệ rất chặt chẽ với kho dữ liệu (Data warehouse) và khai phá

dữ liệu (Data mining) Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính như sau [2]:

Hình 1.1 Các thành phần của một hệ thống BI đơn giản

Theo khảo sát của Gartner từ năm 2006 đến 2009, công nghệ BI luôn đứng đầu trong bảng xếp hạng ưu tiên đầu tư về công nghệ của các CIO trên thế giới Năm 2010 và 2011 thì BI xếp hạng 5

Trang 15

2008 CIO Technology Priorities Ranking

Xuất phát từ nhu cầu triển khai BI trong các doanh nghiệp mà nền tảng của

BI là khai phá dữ liệu, bên cạnh đó các thuật toán kinh điển trong khai phá dữ liệu không phải ứng dụng vào bất cứ dữ liệu hay lĩnh vực kinh doanh nào cũng mang lại hiệu quả tối ưu và cũng giải quyết được các bài toán Do đó, việc nghiên cứu và ứng dụng các mô hình lý thuyết cho từng bài toán cụ thể của doanh nghiệp là một vấn đề cần thiết Trong quá trình khảo sát, tác giả nhận thấy chưa có nhiều nghiên cứu và ứng dụng data mining vào lĩnh vực nhà hàng trong việc khai phá các món ăn

để tìm ra các combo (sự kết hợp giữa hai món ăn hoặc là một món ăn với thức uống) hoặc set menu có cơ sở

Bên cạnh đó, trước đây khoa học về thống kê dự báo được khai thác trên các tập dữ liệu rời rạc, không có mối liên hệ, sau này phát triển ở mức cao hơn là tập

Trang 16

hợp dữ liệu theo một cấu trúc nào đó (được gọi là cơ sở dữ liệu), điển hình là theo cấu trúc quan hệ dựa trên nền tảng lý thuyết tập hợp mà ta gọi là mô hình cơ sở dữ liệu quan hệ Cấu trúc của cơ sở dữ liệu (CSDL) có ưu điểm là chặt chẽ do phải thoả mãn các dạng chuẩn (các ràng buộc) và ưu điểm này có lợi khi quản trị dữ liệu nhưng đối với khai thác dữ liệu thì đó là nhược điểm vì do quá chặt chẽ nên làm chậm quá trình khai thác, rút trích dữ liệu và càng khó khăn hơn trên khối lượng dữ liệu rất lớn là đặc trưng trong khai phá dữ liệu (data mining) Vì vậy kho dữ liệu (Data warehouse) ra đời nhằm giúp hỗ trợ tối đa cho quá trình khai phá dữ liệu Do

đó, việc chuyển chuyển CSDL thu thập được về dạng kho dữ liệu, cụ thể hơn là các data mart (sẽ được trình bày trong chương 2) để phục vụ quá trình data mining cũng

là điều cấp thiết

Nhận biết được xu thế và nhu cầu cấp thiết trên tác giả thực hiện đề tài

“NGHIÊN CỨU VÀ TRIỂN KHAI ỨNG DỤNG CÁC MÔ HÌNH LÝ THUYẾT TRONG DATA MINING VÀO LĨNH VỰC NHÀ HÀNG” với mong muốn được đóng góp vào lĩnh vực KDD và sự thành công của việc triển khai ứng dụng các kết quả nghiên cứu khoa học vào hỗ trợ ra quyết định trong lĩnh vực nhà hàng tại Việt Nam

1.2 Phạm vi nghiên cứu

1.2.1 Đối tượng nghiên cứu

- Các công cụ lý thuyết trong khai phá dữ liệu

- Các phương pháp thu thập, lưu trữ và xử lý dữ liệu

- Mô hình của bài toán khai phá dữ liệu lĩnh vực thống kế dự báo nói chung và khai phá dữ liệu nói riêng

1.2.2 Không gian và thời gian thực hiện

- Không gian: đề tài thực hiện trong phạm vi nước Việt Nam

- Thời gian thực hiện nghiên cứu trong 5 tháng (từ tháng 7/2012 đến tháng 11/2012)

Trang 17

1.3 Quy trình và phương pháp nghiên cứu

1.3.1 Quy trình nghiên cứu

- Xây dựng kho dữ liệu, song song đó tìm hiểu các thuật toán cơ bản và các mô hình lý thuyết

- Từ việc khảo sát dữ liệu, nhận biết và đưa ra các bài toán hữu ích trong hoạt động kinh doanh nhà hàng

- Trích các data mart phù hợp với mỗi bài toán

- Nhận dạng bài toán, nghiên cứu mô hình lý thuyết phù hợp với mỗi bài toán

- Giải quyết bài toán

- Kiểm định và đánh giá kết quả

1.3.2 Phương pháp nghiên cứu

- Phương pháp nghiên cứu định tính: Sử dụng nghiên cứu mô tả, khám phá các khái niệm, thuật ngữ, giải thích mối quan hệ tương tác giữa các yếu tố, nhằm cung cấp một cái nhìn toàn diện về bài toán nghiên cứu

- Phương pháp nghiên cứu định lượng: Dựa trên nghiên cứu định tính, nghiên cứu định lượng sẽ lượng hóa được thông tin dựa trên các biến quan sát

- Phương pháp nghiên cứu dữ liệu thứ cấp: Được sử dụng trong giai đoạn hình thành mô hình

Với các phương pháp trên ta sẽ đi vào phần chính của đề tài là phân tích cơ sở

dữ liệu, đưa ra các vấn đề trong hoạt động kinh doanh lĩnh vực nhà hàng, nghiên cứu và ứng dụng các mô hình lý thuyết trong data mining, thử nghiệm và đánh giá các mô hình đã xây dựng

1.4 Mục tiêu nghiên cứu

- Xây dựng mô hình kho dữ liệu từ CSDL thu thập được để phục vụ việc khai phá

dữ liệu cho các bài toán

- Dựa trên việc khảo sát hoạt động kinh doanh và dữ liệu của một nhà hàng để đưa ra các vấn đề hỗ trợ quá trình kinh doanh và hỗ trợ nhà quản lý ra quyết định, từ đó nghiên cứu và ứng dụng các mô hình lý thuyết trong khai phá dữ liệu

để áp dụng phù hợp vào các bài toán đã đưa ra

Trang 18

- Triển khai các ứng dụng cài đặt các mô hình đã nghiên cứu, đồng thời cũng là một công cụ giúp nhà quản lý dễ dàng thao tác để thống kê, phân tích dữ liệu và

hỗ trợ ra quyết định phục vụ cho các hoạt động kinh doanh cụ thể

1.5 Ý nghĩa đề tài

- Cách xây dựng mô hình kho dữ liệu nói chung và cụ thể là các data mart theo chủ đề nói riêng từ CSDL thu thập được làm nguồn tham khảo cho các đối tượng làm thống kê dự báo

- Nghiên cứu các mô hình lý thuyết trong kỹ thuật khai phá dữ liệu áp dụng cho từng vấn đề đặt ra của doanh nghiệp để hỗ trợ nhà quản lý ra quyết định là nền tảng của hệ thống BI Đồng thời là nguồn tham khảo cho nghiên cứu về ứng dụng các mô hình trong KDD ở lĩnh vực nhà hàng

- Xây dựng chương trình cài đặt các mô hình đã nghiên cứu giúp người quản trị doanh nghiệp là những người không chuyên trong lĩnh vực máy tính, đặc biệt là trong lĩnh vực phân tích, xử lý và khai phá dữ liệu vẫn có thể sử dụng để hỗ trợ

ra quyết định

1.6 Cấu trúc đề tài

Luận văn bao gồm 5 chương, với nội dung sau:

Chương 1: giới thiệu tổng quan về nghiên cứu, lý do hình thành đề tài, phạm vi nghiên cứu, phương pháp nghiên cứu, mục tiêu nghiên cứu cũng như ý nghĩa và đóng góp của nghiên cứu

Chương 2: trình bày cơ sở lý thuyết liên quan đến các vấn đề sẽ nghiên cứu trong luận văn

Chương 3: đặt vấn đề, nghiên cứu và ứng dụng các mô hình lý thuyết trong data

mining để giải quyết các vấn đề đặt ra; triển khai, thử nghiệm và đánh giá các ứng dụng đã cài đặt các mô hình đã nghiên cứu

Chương 4: tổng kết lại các vấn đề đã nghiên cứu, những vấn đề chưa hoàn thiện và

đề xuất hướng nghiên cứu trong tương lai

Trang 19

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD)

2.1.1 Khái niệm và phương pháp KDD

KDD là một ngành khoa học hướng vào việc tìm ra các tri thức thông qua việc phân tích, tính toán, thống kê trên dữ liệu

Hiểu theo quan điểm của nhà quản lý, dữ liệu là toàn bộ mọi số liệu, dữ kiện

phát sinh trong quá trình hoạt động của doanh nghiệp Các dữ liệu phát sinh được thu thập, chọn lọc, phân loại,… để mang một ý nghĩa nào đó, khi đó ta gọi dữ liệu là

thông tin Và từ quá trình phân tích, thành lập giả thiết, kiểm định, … trên thông tin,

chuyên viên phân tích có thể tìm ra được các quy luật phụ thuộc, mà ta gọi là tri

thức, và các quy luật này được tổng quát hóa thành các mô hình dự báo, ứng dụng

vào việc hỗ trợ ra quyết định cho cấp lãnh đạo trong hệ thống thông tin doanh nghiệp

Các phương pháp KDD được xây dựng trên cơ sở của khoa học thống kê và khoa học máy tính Trong đó, khoa học máy tính cung cấp các nền tảng lý thuyết cũng như phương tiện để thu thập, tổ chức lưu trữ và khai thác trên khối lượng dữ liệu lớn hoặc cực lớn Bên cạnh đó, các phương pháp KDD còn sử dụng sức mạnh tính toán của máy tính để xây dựng các thuật toán, chương trình thống kê trên quần thể dữ liệu rất lớn, từ đó, mong đợi rằng kết quả thống kê sẽ mang tính chính xác hơn Một số thuật toán khai phá tri thức nổi tiếng của KDD, lệ thuộc rất nhiều vào tốc độ tính toán của máy tính, có thể kể ra như thuật toán Apriori, kỹ thuật xây dựng mạng nơ-ron, giải thuật di truyền,…[3]

2.1.2 Mô hình bài toán KDD

Cũng tương tự như bài toán lập mô hình dự báo trong lý thuyết thống kê, một bài toán KDD thường trải qua các giai đoạn:

 Hình thành và định nghĩa bài toán

 Thu thập và tiền xử lý dữ liệu

 Lựa chọn và sử dụng phương pháp KDD để tìm ra các qui luật trên dữ liệu

Trang 20

 Phân tích và kiểm định kết quả

 Vận dụng các qui luật vào thực tế [3]

Hình 2.1 Mô hình bài toán KDD

2.2 Kho dữ liệu (Data Warehouse)

2.2.1 Khái niệm

Như chương 1 đã trình bày, cấu trúc của CSDL có ưu điểm là chặt chẽ do phải thoả mãn các dạng chuẩn (các ràng buộc) và ưu điểm này có lợi khi quản trị dữ liệu nhưng đối với khai phá dữ liệu thì đó là nhược điểm vì do quá chặt chẽ nên làm chậm quá trình khai phá, rút trích dữ liệu và càng khó khăn hơn trên khối lượng dữ liệu rất lớn là đặc trưng trong khai phá dữ liệu (data mining) Vì vậy kho dữ liệu (Data warehouse) ra đời nhằm giúp hỗ trợ tối đa cho quá trình khai phá dữ liệu

Thông thường, một kho dữ liệu được xem như một CSDL mà được duy trì tách biệt từ những CSDL tác nghiệp (operational database) của tổ chức Nó thường được tích hợp với một hệ thống ứng dụng đa dạng để hỗ trợ xử lý thông tin và phân tích dữ liệu bằng cách cung cấp một nền tảng đồng nhất cho việc hợp nhất, lịch sử hoá dữ liệu Theo W.H.Inmon, một nhà kiến trúc hàng đầu của việc xây dựng data

warehouse, thì Data warehouse được định nghĩa như một “tập hợp dữ liệu hướng

Trang 21

đối tượng, tích hợp, có tính ổn định, thay đổi theo thời gian hỗ trợ cho việc ra quyết định” [4]

2.2.2 Cấu trúc của kho dữ liệu

Cấu trúc kho dữ liệu được xây dựng dựa trên các hệ quản trị CSDL quan hệ,

có chức năng giống như một kho lưu trữ thông tin trung tâm Trong đó, dữ liệu tác nghiệp và phần xử lý được tách riêng khỏi quá trình xử lý kho dữ liệu Kho lưu trữ trung tâm được bao quanh bởi các thành phần được thiết kế để làm cho kho dữ liệu

có thể hoạt động, quản lý và truy nhập được từ người dùng đầu cuối cũng như từ các nguồn dữ liệu

Hình 2.2 Cấu trúc kho dữ liệu

Hình 2.2 cho ta thấy kho dữ liệu bao gồm bảy phần:

1 Dữ liệu nguồn (là các ứng dụng tác nghiệp hoặc các CSDL tác nghiệp) và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu

2 Kho dữ liệu trung tâm (Metadata)

3 Kho dữ liệu trong DBMS bao gồm các kỹ thuật xây kho dữ liệu

4 Data mart (kho dữ liệu theo chủ đề)

Trang 22

5 Các công cụ truy vấn (query), báo cáo (reporting), phân tích trực tuyến (OLAP) và khai phá dữ liệu (data mining) Đây chính là các cách khai phá kho

dữ liệu để đem lại những tri thức

6 Quản trị kho dữ liệu

7 Hệ thống phân phối thông tin

Thành phần thứ 4 (kho dữ liệu theo chủ đề (Data mart)) là thành phần mà đề tài quan tâm và sẽ xây dựng để giải quyết các vấn đề, là nơi các dữ liệu được khoanh vùng theo chủ đề tới một giới hạn nào đó và có thể được thay đổi cho phù hợp với nhu cầu của từng bộ phận người dùng Một kho dữ liệu có thể được phân tích thành nhiều kho dữ liệu chủ đề và ngược lại một tập hợp các kho dữ liệu theo chủ đề có thể tạo thành một kho dữ liệu[4]

 Data mart được lưu trữ ở nhiều dạng như: bảng tính chẳng hạn như excel, hay ở dạng view được truy vấn từ CSDL trong hệ quản trị CSDL hoặc dựa trên hệ thống OLAP (đây là mô hình đề tài sử dụng)

 Lược đồ data mart phổ biến là dạng hình sao (Star Schema) với mô

hình là một bảng chi phối lớn ở giữa, được gọi là bảng sự kiện (fact

table) và nhiều kết nối đến các bảng còn lại (xem hình 2.4) Các bảng

Trang 23

còn lại, được gọi là các bảng chiều (dimension table), mỗi bảng chỉ

có một liên kết đến bảng sự kiện Mỗi dòng trong bảng sự kiện bao gồm nhiều ô (con trỏ), một ô trỏ đến một bảng chiều để cung cấp toạ

độ đa chiều của nó, và lưu trữ các độ đo cho các toạ độ này Mỗi bảng chiều bao gồm các cột tương đương với các thuộc tính của chiều Các bảng chiều mô tả và bổ sung thông tin cho bảng sự kiện [4]

2.3 Hệ thống Business Intelligence (BI)

2.3.1 Khái niệm

BI có thể được định nghĩa là một tập các mô hình toán học và các phương pháp phân tích nhằm khai phá dữ liệu có sẵn để tạo ra thông tin và tri thức hữu ích cho quá trình ra quyết định [6]

2.3.2 Kiến trúc của BI

Kiến trúc của BI (hình 2.5) bao gồm 3 thành phần chính [6]:

 Các nguồn dữ liệu (Data sources: operational systems, external data, ): là nơi tích hợp và thu thập các dữ liệu được lưu trữ trong các nguồn dữ liệu cấp thấp khác nhau, không đồng nhất về nguồn gốc và loại Các nguồn dữ liệu đa phần được thu thập từ các hệ thống tác nghiệp nhưng cũng có thể bao gồm các tài liệu phi cấu trúc như email và các dữ liệu nhận được từ các nhà cung cấp bên ngoài

Do đó, vấn đề quan trọng là làm sao để thống nhất và tích hợp các nguồn dữ liệu khác nhau này

 Kho dữ liệu và kho dữ liệu theo chủ đề (Data warehouse và data marts như logistics, marketing,…): sử dụng các công cụ khai phá và chuyển đổi như ETL (Extract – Transform – Load) để lưu trữ các nguồn dữ liệu khác nhau vào một

Trang 24

CSDL chung nhằm hỗ trợ phân tích kinh doanh Các CSDL đó thường được gọi

là data warehouse và data marts

 Các phương pháp BI: dữ liệu được trích xuất, xử lý lần cuối sau đó dùng để phục vụ cho các mô hình toán học và các phương pháp phân tích nhằm hỗ trợ việc ra quyết định Trong một hệ thống BI, một số ứng dụng hỗ trợ ra quyết định

có thể được thực hiện như:

o Phân tích các khối đa chiều (Multidimensional cubes)

o Phân tích chuỗi thời gian (Time series)

o Khai phá dữ liệu (Data mining)

o Mô hình tối ưu hóa (Optimization models)

Tỷ lệ giữa số dòng trong bảng A thoả E X  trên tổng số dòng n được gọi là

độ phổ biến của E X , ký hiệu Support E X    Độ phổ biến Support E X   

còn được hiểu là xác suất E X  được thoả trong bảng A, ký hiệu P E X   

Phép kéo theo logic E X  E Y  (đọc là “nếu thoả E X  thì thoả E Y ”)

được gọi là một luật kết hợp (associated rule) trên bảng A

Trang 25

Độ phổ biến của luật kết hợp E X  E Y , ký hiệu Support E X   E Y  , được xác định bởi: Support E X   E Y    Support E X   E Y  

Độ tin cậy (confidence), hay xác suất, của luật E X  E Y , ký hiệu

Nhận xét : với luật d  E X  E Y , khi Conf d  và Support d  lớn, ta nói

rằng luật d rất đúng, nghĩa là nếu xét một dòng t bất kỳ trong bảng A, nếu t thoả

 

E X thì ta sẽ có cơ may để t thoả E Y  là rất lớn, và bởi vì Support d  cũng

lớn, nên ta có thể dùng luật này như một mô hình dự báo cho các dòng t ở những thể hiện khác của bảng A [3]

2.4.2 Thuật toán tổng quát xác định luật kết hợp

Cho bảng dữ liệu A gồm N thuộc tính: X , X , , X 1 2 N;

Gọi V 1 x 11  x 12   x 1m 1 là tập các giá trị rời rạc của X1;

V  x  x   x là tập các giá trị rời rạc của XN

Thuật toán tổng quát để xác định tất cả các luật kết hợp trên A có dạng:

Trang 26

Tính Conf E X    E Y  , Support E X   E Y  , với E X  và E Y 

là các biểu thức điều kiện có dạng

2.4.3 Thuật toán Apriori

Input và Output: giống như của thuật toán tổng quát ở 2.4.2

Trang 27

- Thành lập biểu thức điều kiện

Bước 6: Đưa Lp vào L

Bước 7: Tăng p lên 1 và quay về B2

Giai đoạn 2: Xác định các luật kết hợp thoả minsupp và minconf từ L

Khởi đầu với R  

Bước 8: Với mỗi điều kiện E P  trong L:

Với mỗi điều kiện E X  trong L:

- Do mỗi điều kiện trong L có dạng

E Y tương ứng, thêm luật E X   E Y  vào R

Bước 9: Kết thúc thuật toán và trả về kết quả là tập R

Trang 28

Ví dụ minh họa: Cho bảng dữ liệu

Bảng 2.1 Số liệu minh họa cho thuật toán Apriori

Trong đó, mỗi dòng của bảng cho biết hóa đơn tại dòng đó có gọi các món ăn

A, B, C, D, hoặc E không Thực hiện xác định các luật kết hợp với các ngưỡng minsupp = 0.5, minconf = 0.9

Giải

Giai đoạn 1:

Bước 1: I = {A, B, C, D, E} với các giá trị rời rạc của A, B, C, D, E, đều là 0, 1 (nghĩa là V A  V B  V C  V D  V E 0,1)

Khởi đầu thuật toán với p1 và L  

Bước 2: Các tập con có p1 phần tử của I chính là           A , B , C , D , E Cp

khác rỗng nên tiếp tục làm B3

Bước 3: L  p  

Bước 4: Tính độ phổ biến của mọi điều kiện có thể có trong Cp Nếu điều kiện lớn hơn hay bằng minsupp = 0.5 thì chọn vào Lp

Trang 29

Món ăn A Support Chọn nếu L p  0.5

Bảng 2.2 Tính độ phổ biến trong tập Cp với p=1

=> Lp = {"Món ăn A=1" , "Món ăn B=1" , "Món ăn C=1" , "Món ăn D=1" , "Món

ăn D=0" , "Món ăn E=0"}

Bước 5: Đặt lại I là tập các thuộc tính có xuất hiện trong Lp, và xác định lại các tập giá trị rời rạc

Trang 30

Bước 2: Các tập con có p2 phần tử của I là

Trang 31

Món ăn A Món ăn B Support

=> Lp = {"Món ăn A=1,Món ăn B=1" , "Món ăn B=1,Món ăn C=1" , "Món ăn B=1,Món ăn D=0" , "Món ăn B=1,Món ăn E=0" , "Món ăn A=1,Món ăn E=0" ,

"Món ăn C=1,Món ăn E=0"}

Bước 5: Đặt lại I là tập các thuộc tính có xuất hiện trong Lp, và xác định lại các tập giá trị rời rạc

Bước 7: Tăng p lên 1, p = 3, quay về Bước 2

Bước 2: Các tập con có p 3 phần tử của I là

Trang 32

Món ăn A Món ăn B Món ăn C Support

=> Lp = {"Món ăn B=1,Món ăn C=1,Món ăn E=0" , "Món ăn A=1,Món ăn B=1,Món ăn E=0"}

Bước 5: Đặt lại I là tập các thuộc tính có xuất hiện trong Lp, và xác định lại các tập giá trị rời rạc

I là         A , B , C , E ,

 

Trang 33

Bước 6: Đưa Lp vào L, khi đó L = {"Món ăn A=1" , "Món ăn B=1" , "Món ăn C=1" , "Món ăn D=1" , "Món ăn D=0" , "Món ăn E=0", "Món ăn A=1,Món ăn B=1" , "Món ăn B=1,Món ăn C=1" , "Món ăn B=1,Món ăn D=0" , "Món ăn B=1,Món ăn E=0" , "Món ăn A=1,Món ăn E=0" , "Món ăn C=1,Món ăn E=0",

"Món ăn B=1,Món ăn C=1,Món ăn E=0" , "Món ăn A=1,Món ăn B=1,Món ăn E=0"}

Bước 7: Tăng p lên 1, p = 4, quay về Bước 2

Bước 2: Các tập con có p4 phần tử của I là

Bước 6: L không đổi

Bước 7: Tăng p lên 1, p = 5, quay về Bước 2

Bước 2: Do I bằng rỗng nên Cp cũng bằng rỗng > Kết thúc giai đoạn 1 của thuật toán

Giai đoạn 2: Xác định các luật kết hợp thoả minsupp và minconf từ L

Khởi đầu với R là rỗng

L = {"Món ăn A=1" , "Món ăn B=1" , "Món ăn C=1" , "Món ăn D=1" , "Món ăn D=0" , "Món ăn E=0", "Món ăn A=1,Món ăn B=1" , "Món ăn B=1,Món ăn C=1" ,

"Món ăn B=1,Món ăn D=0" , "Món ăn B=1,Món ăn E=0" , "Món ăn A=1,Món ăn

Trang 34

E=0" , "Món ăn C=1,Món ăn E=0", "Món ăn B=1,Món ăn C=1,Món ăn E=0" ,

"Món ăn A=1,Món ăn B=1,Món ăn E=0"}

Do khi E P  chỉ có một thuộc tính thì không thể có E X  nào để cho

Support (E(X) = “Món ăn A=1”) = 0.7

=> Support E P    Support E X    0.7143 < minconf

Support (E(X) = “Món ăn B=1”) = 0.8

=> Support E P    Support E X    0.625 < minconf

Với E P  = "Món ăn B=1,Món ăn C=1", Support E P    0.6, ta chọn được trong L hai trường hợp E X  thoả là "Món ăn B=1" và "Món ăn C=1"

Support (E(X) = “Món ăn B=1”) = 0.8

=> Support E P    Support E X    0.75 < minconf

Support (E(X) = “Món ăn C=1”) = 0.7

=> Support E P    Support E X    0.8571 < minconf

Tiếp tục xét các E P  theo cách như vậy, ta sẽ chọn được các cặp E P , E X  có

 

kiện E Y  từ T E Y    T E P   \ T E X   , ta có E X  E Y  là một luật tìm được (thêm luật này vào R), và độ tin cậy của luật này chính là

Trang 35

=> Thêm luật “NẾU Món ăn D=0 THÌ Món ăn B=1” vào R

E(P) = "Món ăn B=1,Món ăn E=0"

E(X) = "Món ăn E=0"

Support(E(P)) / Support(E(X)) = 0.7 / 0.7 = 1

E(Y) = "Món ăn B=1"

=> Thêm luật “NẾU Món ăn E=0 THÌ Món ăn B=1” vào R

E(P) = "Món ăn B=1,Món ăn C=1,Món ăn E=0"

E(X) = "Món ăn C=1,Món ăn E=0"

Support(E(P)) / Support(E(X)) = 0.5 / 0.5 = 1

E(Y) = "Món ăn B=1"

=> Thêm luật “NẾU Món ăn C=1 và Món ăn E=0 THÌ Món ăn B=1” vào R

E(P) = "Món ăn A=1,Món ăn B=1,Món ăn E=0"

E(X) = "Món ăn A=1,Món ăn B=1"

Support(E(P)) / Support(E(X)) = 0.5 / 0.5 = 1

E(Y) = "Món ăn E=0"

=> Thêm luật “NẾU Món ăn A=1 và Món ăn B=1 THÌ Món ăn E=0” vào R

E(P) = "Món ăn A=1,Món ăn B=1,Món ăn E=0"

E(X) = "Món ăn A=1,Món ăn E=0"

Trang 36

2.5 Những cơng trình liên quan

Wen-Yu Chiang (2010) [7] đã đề xuất một quy trình mới và một mơ hình cải tiến khai phá luật kết hợp về giá trị khách hàng Thị trường của ngành cơng nghiệp mua sắm trực tuyến ở Đài Loan là khu vực nghiên cứu Sử dụng mơ hình nghiên cứu Ward để phân thị trường mua sắm trực tuyến thành 3 thị trường Giá trị khách hàng được xây dựng lại từ mơ hình cải tiến RFMDR (dựa trên mơ hình RFM/RFMD) Thuật tốn Apriori được thực hiện với giá trị khách hàng để tạo ra luật kết hợp Những luật cĩ ý nghĩa được đề nghị để ứng dụng vào chức năng tiếp thị của hệ thống CRM để nâng cao giá trị khách hàng của doanh nghiệp

Xiaobing Liu và các đồng sự (2012) [8] phát triển thuật tốn tập phổ biến lớn nhất (maximal frequent itemsets) Thuật tốn truyền thống khi làm việc phải quét nhiều lần CSDL Những nghiên cứu gần đây tập trung vào việc giảm số lần quét, sau đĩ giảm số lần kết nối các nguồn dữ liệu vào/ra để cải thiện hiệu quả khai phá tồn diện tập luật phổ biến lớn nhất của luật kết hợp Kết quả là chỉ quét CSDL một lần, cải thiện hiệu quả lưu trữ cấu trúc dữ liệu và cải thiện thời gian của thuật tốn khai phá

Hanhoon Kang và các đồng sự (2011) [9] cải tiến thuật tốn Nạve Bayes để phân tích những ý kiến đánh giá nhà hàng Kết quả của thí nghiệm cho thấy rằng khi thuật tốn này được sử dụng khoảng cách giữa độ chính xác tích cực (positive accuracy) và chính xác tiêu cực (negative accuracy) đã thu hẹp tới 3,6% so với khi

sử dụng Bayes cơ bản ban đầu

Sau khi đã tìm hiểu các cơ sở lý luận để chuẩn bị cho các mục đích nghiên cứu, chương tiếp theo sẽ đề cập đến các phương pháp nghiên cứu trong đề tài

Trang 37

CHƯƠNG 3 PHÂN TÍCH, TRIỂN KHAI VÀ ĐÁNH GIÁ

3.1 Mô tả cơ sở dữ liệu (CSDL)

Đề tài ứng dụng trên dữ liệu kinh doanh trong lĩnh vực nhà hàng, CSDL hiện nay đang được quản trị bởi hệ quản trị SQL Server Do số lượng bảng nhiều, đề tài không thể trình bày tất cả cấu trúc của từng bảng và mối liên hệ giữa các bảng nên chỉ chọn lọc để tìm hiểu cấu trúc và ý nghĩa của những bảng có sử dụng trong các vấn đề nghiên cứu

Hình 3.1 Thiết kế luận lý của CSDL nguồn

WS_Employee

Oid WS_RECEIPT Employee OptimisticLockField GCRecord

WS_Receipt

Oid CODE PAYMENT_DATE ISSUE_DATE WAREHOUSE [USER]

Customer DELIVERY _ADDRESS Payment_Term

WS_ReceiptDetailNormal

Oid WS_RECEIPT PRODUCT GIFTVOUCHER Discount_Percent Discount_Amount Quantity Price Amount IsFree OptimisticLockField GCRecord AlreadyPrint comment Employee

Employee

Oid Code Address Name Email Tel Department Position Status OptimisticLockField GCRecord

CustomerGroup

Oid [Group]

OptimisticLockField GCRecord

Food

Oid Code Name Active Price VAT cat_id ishaschoice

Food_Category

Oid Code Name Active OptimisticLockField GCRecord ShowInMenu

RECEIVE_DETAIL

Oid RECEIVE_PAYMENT AMOUNT USD MemberShipCard GiftVoucher Input_Date OptimisticLockField

RECEIVE_PAYMENT

Oid CODE ISSUE_DATE REASON IN_OUT_COME SUPPLIER CUSTOMER EMPLOYEE NOTE

BY _RECEIPT SOURCE_NO [USER]

PAID_B Y AMOUNT OptimisticLockField GCRecord RECEIVE_SHOP

PRODUCT_BALANCE

Oid PRODUCT WAREHOUSE QUANTITY OptimisticLockField GCRecord

WAREHOUSE

Oid WAREHOUSE_CODE WAREHOUSE_NAME ACTIVE SHOP

Unit

Oid Code Name OptimisticLockField GCRecord

WS_Table

Oid WS_RECEIPT TableID OptimisticLockField GCRecord

MemberShipCard

Oid CardNo IssueDate MembershipType IsAllowChangeToCash IsAllowTopup ProfitCenter ValidFrom ValidTo Active Customer IssueReason OptimisticLockField GCRecord

MemberShipType

Oid Code Name OptimisticLockField GCRecord ACTIVE ALLOW_CHANGE_TO_CASH

PaymentTerm

Oid Code Name isActive Payment_Type Display_order card_fee_percent DISCOUNT_POLICY

Oid DIS_POLICY_CODE DIS_POLICY_NAME VALID_FROM

DISCOUNT_POLICY_CARDTYPE

Oid MEMBERSHIPTYPE DIS_POINT_POLICY OptimisticLockField GCRecord

DefaultShopStore

Oid Shop Warehouse OptimisticLockField GCRecord

District

Oid Code Name ProvinceCity OptimisticLockField GCRecord

User

Oid StoredPassword UserName

Party

Oid Photo Address1 Address2 OptimisticLockField GCRecord

Person

Oid FirstName LastName MiddleName Birthday Email

Age

Oid Age OptimisticLockField GCRecord

UserUsers_RoleRoles

Roles Users OID OptimisticLockField

Charge

Oid Name [Percent]

Amount OptimisticLockField GCRecord

Charge_WS

Oid Charge WS_Receipt [Percent]

Amount OptimisticLockField GCRecord

ProvinceCity

Oid Code Name OptimisticLockField GCRecord

Trang 38

WS_RECEIPT: bảng có 15442 dòng, cho biết thông tin về các hóa đơn, bao

gồm các thuộc tính: Oid (khóa chính), mã hóa đơn (code), ngày bán (Issue_date), ngày khách hàng thanh toán (Payment_date), kho (Warehouse), mã khách hàng (Customer), nhân viên (Sale_man), tổng số tiền chiết khấu (Total_Discount_Amount), tổng giá trị phiếu bán hàng (Total_Amount), …

Trang 39

WS_RECEIPTDETAILNORMAL: là mối kết hợp giữa bảng Food và

bảng WS_Receipt có 104648 dòng, thể hiện chi tiết mỗi hóa đơn trong bảng WS_Receipt Do có liên hệ một nhiều (phụ thuộc vào) với hai đối tượng WS_Receipt và Food, nên trong bảng WS_ReceiptDetailNormal có hai thuộc tính là WS_Receipt (là khóa chính của WS_Receipt) và Product (là khóa chính của Bảng Food) Ngoài hai thuộc tính khóa ngoại, bảng này còn có thêm một số thuộc tính khác như: phần trăm chiết khấu món ăn (Discount_Percent), số tiền chiết khấu món

Bảng 3.2 Các thuộc tính và kiểu dữ liệu của bảng WS_ReceiptDetailNormal

FOOD: cho biết thông tin về món ăn có 1008 dòng, bao gồm các thuộc tính:

Oid (khóa chính của bảng), mã món ăn (CODE), tên món ăn (NAME), mục hàng (Cat_id), giá bán (PRICE), thuế giá trị gia tăng của món ăn (VAT),…

EMPLOYEE: cung cấp thông tin về nhân viên bán hàng có 91 dòng, gồm

các thuộc tính như: khóa chính (Oid), mã nhân viên (code), tên nhân viên (Name),

số điện thoại (Tel), địa chỉ nhà (Address), email (Email), vị trí làm việc (position),…

CUSTOMER: cung cấp thông tin về khách hàng của nhà hàng có 1033

dòng, gồm các thuộc tính như: khóa chính (Oid), mã khách hàng (code), tên khách hàng (name), địa chỉ (Address), số điện thoại (Tel), thành phố (City), Giới tính

Trang 40

(Sex), tình trạng hôn nhân (Marriage), quận huyện (District), nhân viên bán hàng và giao hàng ( Employee),

FOOD_CATEGORY: cho biết thông tin loại món ăn, các món ăn được

phân thành 122 loại, bảng gồm các loại như: khóa chính (Oid), mã loại (Code), tên loại (Name), …

3.2 Quy trình xử lý dữ liệu và tạo data mart

Đứng trên góc độ nhà quản lý, toàn bộ doanh nghiệp có thể phân thành 3 hệ thống: hệ tác nghiệp, hệ thông tin và hệ (hỗ trợ) ra quyết định Trong đó, hệ tác nghiệp bao gồm các bộ phận, phòng ban, đơn vị trực thuộc tham gia trực tiếp vào các hoạt động nghiệp vụ diễn ra hàng ngày của doanh nghiệp; hệ ra quyết định bao gồm các cấp lãnh đạo (CEO – Chief Executive Officer), đóng vai trò tổ chức, lãnh đạo, đưa ra các quyết định quan trọng trong việc điều khiển các hoạt động mang tính chiến lược; hệ thông tin đóng vai trò tổ chức, quản lý và phục vụ truyền tải, khai phá thông tin cho các hệ còn lại Như đã trình bày ở phần đầu, đề tài nghiên cứu các vấn đề liên quan đến hệ thống BI – là một dạng của hệ hỗ trợ ra quyết định, tức là liên quan đến cấp chiến lược Vì vậy, các vấn đề đặt ra để ứng dụng các mô hình lý thuyết trong lĩnh vực KDD phải hỗ trợ cho cấp chiến lược, giúp cho nhà quản lý ra quyết định dựa trên kết quả của việc khai phá Dựa trên việc khảo sát dữ liệu của nhà hàng cùng với kiến thức trong lĩnh vực KDD và sử dụng phương pháp quan sát, tác giả đặt ra các vấn đề sau để nghiên cứu trong đề tài:

- Khảo sát mối liên hệ giữa các món ăn để hiểu rõ hơn về dữ liệu, còn đứng trên góc độ của nhà quản lý thì nắm được đặc trưng của nhà hàng thông qua các quy luật gọi món của khách hàng từ đó có thể tạo combo các món ăn

- Khai phá dữ liệu tìm ra các món ăn có xu hướng tăng hoặc giảm theo thời gian để tìm ra nguyên do của xu hướng đó đồng thời có chiến lược phù hợp

ví dụ như cân đối nguyên vật liệu; đưa ra các chính sách khuyến mãi, hậu mãi nếu muốn cải thiện tần suất gọi của món ăn có xu hướng giảm (giả sử món đó là đặc trưng hoặc gắn liền với thương hiệu của nhà hàng) hoặc loại

bỏ món này khỏi thực đơn của nhà hàng;…

Ngày đăng: 03/09/2021, 14:36

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w