1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phát triển TTCN theo hướng sản xuất hàng hóa ở huyện phú vang, tỉnh thừa thiên huế

108 156 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 108
Dung lượng 3,77 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khai phá luật kết hợp được ứng dụng trong nhiều lĩnh vực như kinh tế, tài chính, y tế, giáo dục,…Trong lĩnh vực giáo dục, khai phá luật kết hợp được sử dụng vào các nghiên cứu nhằm cải t

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ KHOA H Ệ THỐNG THÔNG TIN KINH TẾ

KHÓA LUẬN TỐT NGHIỆP ỨNG DỤNG KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP VÀO

TIN HỌC KINH TẾ - TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC

Trang 2

L ỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn sâu sắc đến quý thầy cô giáo trường Đại học

Kinh tế Huế và đặc biệt là quý thầy cô Khoa Hệ thống Thông tin Kinh tế đã truyền dạy

cho em nhiều kiến thức và kinh nghiệm quý báu trong suốt quá trình học tập tại trường

cũng như tạo điều kiện và hỗ trợ cho em hoàn thành đề tài

Em xin gửi lời cảm ơn chân thành đến Thạc sĩ Dương Thị Hải Phương, đã tận tình

truyền dạy kinh nghiệm cũng như kiến thức quý báu và hỗ trợ em hết mình trong suốt quá

trình làm thực hiện đề tài Cô đã giúp đỡ em rất nhiều từ việc lên ý tưởng đề tài ban đầu

cho đến hướng dẫn thực hiện đề tài và sau đó góp ý để đề tài hoàn thành tốt nhất có thể

Em cũng xin gửi lời cảm ơn đến Trường Đại học Kinh tế - Đại học Huế đã tạo

điều kiện cho em thực tập và cung cấp cơ sở dữ liệu ban đầu cũng như các điều kiện

thuận lợi khác để em hoàn thành tốt đề tài

Cuối cùng em xin gửi lời cảm ơn chân thành đến bố mẹ, người thân và bạn bè đã

khích lệ động viên em trong suốt thời gian qua để em có thể hoàn thành tốt đề tài

Mặc dù đã có nhiều cố gắng, nhưng do thời gian, kĩ năng bản thân còn nhiều hạn

chế nên không thể tránh khỏi những sai sót, mong quý thầy, cô và các bạn đóng góp, chỉ

bảo để đề tài có thể hoàn thiện hơn

Em xin chân thành cảm ơn!

Huế, 4 năm 2018 Sinh viên

Trang 3

MỤC LỤC

MỤC LỤC i

DANH MỤC CÁC TỪ VIẾT TẮT iv

DANH MỤC BẢNG v

DANH MỤC HÌNH vi

PH ẦN 1 MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục tiêu nghiên cứu 3

3 Đối tượng và phạm vi nghiên cứu 3

4 Phương pháp nghiên cứu 4

5 Cấu trúc của khóa luận 4

PHẦN 2 NỘI DUNG 6

CHƯƠNG 1 TỔNG QUAN VỀ KHUNG ĐÀO TẠO “TIN HỌC KINH TẾ” CỦA TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC HUẾ 6

1.1 Giới thiệu chung về Trường đại học Kinh tế - Đại học Huế 6

1.1.1 Lịch sử hình thành và phát triển 6

1.1.2 Hoạt động đào tạo 7

1.1.3 Đề tài nghiên cứu khoa học 8

1.1.4 Hợp tác quốc tế 9

1.2 Giới thiệu chung về Khoa Hệ thống thông tin kinh tế 10

1.2.1 Quá trình hình thành của Khoa Hệ thống thông tin kinh tế 10

1.2.2 Chức năng nhiệm vụ 11

1.2.3 Hoạt động đào tạo và nghiên cứu khoa học 11

1.3 Khung chương trình đào tạo của Chuyên ngành Tin học kinh tế 13

1.3.1 Mục tiêu đào tạo 13

1.3.2 Thời gian đào tạo 14

1.3.3 Khối lượng kiến thức toàn khóa 14

I H ỌC

KINH

Trang 4

1.3.4 Đối tượng tuyển sinh 14

1.3.5 Quy trình đào tạo, điều kiện tốt nghiệp 15

1.3.6 Thang điểm 15

1.3.7 Nội dung chương trình và kế hoạch dự kiến 15

CHƯƠNG 2 KHAI PHÁ LUẬT KẾT HỢP 19

2.1 Tổng quan về Khai phá dữ liệu 19

2.1.1 Khái niệm về khai phá dữ liệu 19

2.1.2 Quá trình khai phá dữ liệu 19

2.1.2.1 Tập hợp dữ liệu 20

2.1.2.2 Trích lọc dữ liệu 20

2.1.2.3 Tiền xử lý và chuẩn bị dữ liệu 20

2.1.2.4 Chuyển đổi dữ liệu 21

2.1.2.5 Khai phá dữ liệu 21

2.1.2.6 Đánh giá kết quả mẫu 21

2.2 Tổng quan về Khai phá luật kết hợp 21

2.2.1 Giới thiệu chung về khai phá luật kết hợp 21

2.2.2 Một số khái niệm 21

2.2.3 Bài toán khai phá luật kết hợp 23

2.2.3.1 Phát biểu bài toán 23

2.2.3.2 Phát hiện các tập mục phổ biến 24

2.2.3.3 Sinh luật kết hợp từ các tập mục phổ biến 30

2.3 Luật kết hợp phân lớp 31

2.3.1 Giới thiệu luật kết hợp phân lớp 31

2.3.2 Một số khái niệm và định nghĩa 32

2.4 Ứng dụng của Luật kết hợp 33

2.5 Một số nghiên cứu liên quan 34

CHƯƠNG 3 KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU ĐIỂM CỦA SINH VIÊN CHUYÊN NGÀNH TIN HỌC KINH TẾ 40

I H ỌC

KINH

Trang 5

3.1 Phát biểu bài toán nghiên cứu 40

3.2 Giới thiệu phần mềm khai phá dữ liệu Weka 41

3.2.1 Giới thiệu chung 42

3.2.2 Môi trường Explorer 43

3.3 Quy trình khai phá dữ liệu điểm của sinh viên bằng phần mềm Weka 49

3.3.1 Cơ sở dữ liệu bài toán 49

3.3.2 Tiền xử lý dữ liệu bài toán 50

3.3.3 Tiến hành khai phá dữ liệu điểm bằng thuật toán Apriori trong Weka 51

3.4 Kết quả và đánh giá kết quả quá trình khai phá dữ liệu điểm của sinh viên d ựa trên thuật toán Apriori trong Luật kết hợp 54

3.4.1 Về mối quan hệ mật thiết giữa các học phần 54

3.4.2 Về mối quan hệ giữa học phần được lựa chọn và các học phần còn lại 67

3.4.3 Về mối quan hệ giữa các nhóm môn học 78

3.4.3.1 Nhóm môn Tin học 78

3.4.3.2 Nhóm môn Kinh tế 87

3.5 Đề xuất tư vấn học tập cho sinh viên Chuyên ngành Tin học kinh tế 89

PH ẦN 3 KẾT LUẬN 97

1 Kết quả đạt được 97

2 Hạn chế của khóa luận 97

3 Hướng phát triển của đề tài 98 TÀI LIỆU THAM KHẢO 99 TR ƯỜ

I H ỌC

KINH

Trang 6

DANH MỤC CÁC TỪ VIẾT TẮT

CAR-Miner: Classification Association Rules - Miner

CAR-Miner-Diff: Classification Association Rules – Miner – Diff

CBA: Classification Based Association

CMAR: Classification Based on Multiple Association Rules

CSDL: Cơ sở dữ liệu

ECR-CARM: Equivalence Class Rule – Class Association Rule Mining

KDD - Knowledge Discovery in Database

KPDL: Khai phá dữ liệu

MCAR: Multiple Classification Association Rules

MMAC: Multi-Class, Multi-Label Associative Classification

Trang 7

DANH MỤC BẢNG

Bảng 1 1 Khung chương trình đào tạo chuyên ngành Tin học kinh tế 15

B ảng 2 1 Cơ sở dữ liệu ví dụ gồm 4 giao dịch 28

B ảng 2 2 Một ví dụ về cơ sở dữ liệu huấn luyện mẫu 32

Bảng 3 1 Ví dụ cơ sở dữ liệu điểm gồm 100 giao dịch 41

Bảng 3 2 Kết quả thực hiện thuật toán Apriori dựa trên các tham số min-sup = 0.1; min-conf = 0.6 tìm ra mối quan hệ mật thiết giữa các môn học 54

Bảng 3 3 Kết quả thực hiện thuật toán Apriori dựa trên các tham số Apriori (car = true); min-sup = 0.2; min-conf = 0.8 đối với học phần Thực tập cuối khóa 68

Bảng 3 4 Những tập luật không có ý nghĩa thực tế 76

Bảng 3 5 Kết quả thực hiện thuật toán Apriori dựa trên các tham số Apriori (car = true); min-sup = 0.2; min-conf = 0.8 đối với học phần Hoạch định nguồn lực doanh nghi ệp ERP 78

B ảng 3 6 Kết quả thực hiện thuật toán Apriori dựa trên các tham số Apriori (car = true); min-sup = 0.2; min-conf = 0.8 đối với học phần Internet và thương mại điện tử so với các môn học liên quan 83

Bảng 3 7 Kết quả thực hiện thuật toán Apriori dựa trên các tham số Apriori (car = true); min-sup = 0.2; min- conf = 0.8 đối với học phần Phát triển hệ thống thông tin kinh tế so với các môn học liên quan 85

Bảng 3 8 Kết quả thực hiện thuật toán Apriori dựa trên các tham số Apriori (car = true); min-sup = 0.1; min-conf = 0.6 đối với học phần Nguyên lý kế toán so với các môn h ọc liên quan 87

B ảng 3 9 Kết quả thực hiện thuật toán Apriori dựa trên các tham số min-sup = 0.1; min-conf = 0.6 đối với học phần liên quan với nhau trong nhóm môn Kinh tế 88

Bảng 3 10 Số tín chỉ tích lũy tối thiểu 90

I H ỌC

KINH

Trang 8

DANH MỤC HÌNH

Hình 1 1 Hình ảnh về trường Đại học Kinh Tế - Đại học Huế 6

Hình 1 2 Hợp tác giữa Trường Đại học Kinh tế Huế và Đại học quốc gia Chonbuk Hàn Quốc 10

Hình 2 1 Quá trình khai phá dữ liệu 20

Hình 2 2 Sơ đồ tổng quan của thuật toán khai phá tập mục phổ biến 25

Hình 2 3 Ví d ụ thuật toán Apriori 30

Hình 3 1 Giao diện phần mềm WEKA 42

Hình 3 2 Giao diện môi trường Explorer 43

Hình 3 3 Minh họa lớp classify 44

Hình 3 4 Minh h ọa lớp cluster 46

Hình 3 5 Minh h ọa lớp Associate 47

Hình 3 6 Minh họa lớp Select attributes 48

Hình 3 7 Minh họa lớp Visualize 49

Hình 3 8 Chuyển đổi kiểu dữ liệu 51

Hình 3 9 L ựa chọn thuật toán Apriori 52

Hình 3 10 Thiết lập tham số trong thuật toán Apriori 53

Hình 3 11 Các tập luật được sinh ra bởi thuật toán Apriori 54

Hình 3 12 Chuỗi phân bố điểm các môn học cần tích lũy qua từng năm 96

I H ỌC

KINH

Trang 9

PHẦN 1 MỞ ĐẦU

1 Lý do ch ọn đề tài

Trong môi trường tin học hóa hiện nay, việc nắm bắt thông tin được coi là cơ sở

của mọi hoạt động tin học, xử lý số liệu, thống kê và lưu trữ dữ liệu Quá trình thu thập

và hiểu được thông tin và hành động dựa trên các thông tin được chọn lọc từ thông tin đã

có sẵn sẽ tạo nên thành công trong mọi hoạt động Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưu trữ và khai thác ngày càng trở nên quan trọng và phát triển không ngừng

Cơ sở dữ liệu (CSDL) luôn được gia tăng và được làm mới trong mọi lĩnh vực đời sống như: thương mại, khoa học, quản lý, giáo dục đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu không chỉ bằng các phép tính toán đơn giản thông thường như: phép đếm, thống kê… mà còn đòi hỏi cách xử lý thông minh hơn, hiệu quả hơn Từ đó các nhà quản lý cũng như người sử dụng có được thông tin hữu ích cho hoạt động tri thức của mình Các kỹ thuật cho phép ta khai thác tri thức hữu dụng từ Cơ sở dữ liệu (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM- Data Mining)

Kỹ thuật khám phá tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước tiên tiến trên thế giới Tại Việt Nam, kỹ thuật này tương đối còn mới mẻ, tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng

Khai phá dữ liệu (Data Mining) được coi là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu…

Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: Khám phá tri thức từ cơ sở dữ liệu (Knowledge Discovery in Database-KDD), trích lọc dữ liệu (knowledge extraction), phân tích dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archacology), nạo vét dữ liệu (data dredging)

Trang 10

Luật kết hợp là dạng luật khá đơn giản nhưng lại mang nhiều ý nghĩa Thông tin

mà dạng luật này đem lại là rất đáng kể và hỗ trợ không nhỏ trong quá trình ra quyết định Tìm kiếm được các luật kết hợp quý hiếm và mang nhiều thông tin từ CSDL tác nghiệp là một trong những hướng tiếp cận chính của lĩnh vực khai thác dữ liệu Khai phá

luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu và nổi bật là thuật toán Apriori - thuật toán ra đời sớm nhất Khai phá luật kết hợp được ứng dụng trong nhiều lĩnh vực như kinh tế, tài chính, y tế, giáo dục,…Trong lĩnh vực giáo dục, khai phá luật kết

hợp được sử dụng vào các nghiên cứu nhằm cải thiện thái độ, hành vi của sinh viên, tư

vấn lựa chọn môn học, ngành học

Trường Đại học Kinh tế - Đại Học Huế được thành lập gần 50 năm, với 13 ngành đào tạo đã thu hút hàng nghìn sinh viên theo học trong nhiều năm qua Trong đó, Khoa

Hệ thống thông tin kinh tế là khoa mới thành lập và còn khá non trẻ, nhưng Khoa cũng có

chức năng quan trọng là đào tạo nguồn nhân lực có trình độ, nghiên cứu và chuyển giao các tiến bộ khoa học kỹ thuật thuộc lĩnh vực Hệ thống Thông tin Quản lý Bên cạnh đó, Khoa cũng đảm trách đào tạo các môn học thuộc chương trình cơ bản và cơ sở, cụ thể là các môn học về Thống kê, Toán kinh tế và Tin học Kinh tế cho tất cả các ngành học trong Trường và các trường thành viên Đại học Huế có liên quan Khoa cũng chú trọng đào tạo song song hai chuyên ngành Thống kê kinh doanh và Tin học kinh tế So với

những chuyên ngành khác, Tin học kinh tế là một chuyên ngành đào tạo còn khá mới mẻ

và có một số đặc thù khác Ngoài các học phần thuộc khối kiến thức đại cương và giáo

dục chuyên nghiệp, các học phần thuộc khối kiến thức chuyên ngành hầu như khác biệt

so với các chuyên ngành khác trong trường Do đó, phần lớn sinh viên chuyên ngành Tin học kinh tế thường khá bỡ ngỡ khi tiếp cận với khung chương trình đào tạo Một số sinh viên rơi vào tình trạng chán nản, bỏ bê việc học, dẫn đến kết quả học tập không như mong muốn Vậy, giữa các học phần trong khung chương trình đào tạo Tin học kinh tế có quan hệ mật thiết với nhau hay không? Kết quả học tập của học phần này sẽ ảnh hưởng đến kết quả học tập của học phần khác như thế nào? Làm thế nào để thiết kế một lộ trình

học phù hợp để đạt được kết quả học tập theo mong muốn?

Trang 11

Xuất phát từ những lý do trên, đề tài “Ứng dụng kỹ thuật khai phá luật kết hợp vào

việc tư vấn học tập cho sinh viên chuyên ngành Tin học kinh tế - Trường Đại học Kinh tế

- Đại học Huế” được triển khai thực hiện

2 Mục tiêu nghiên cứu

Nghiên cứu được thực hiện nhằm mục tiêu chung là ứng dụng được thuật toán Apriori trong khai phá luật kết hợp vào Cơ sở dữ liệu điểm của sinh viên, để đưa ra những tư vấn học tập cho sinh viên Để đạt được mục tiêu chung này nghiên cứu tập trung vào những mục tiêu cụ thể sau:

- Hệ thống hóa được các kiến thức liên quan đến Khai phá dữ liệu

- Hiểu rõ những vấn đề của Khai phá dữ liệu bằng Luật kết hợp

- Nắm vững được thuật toán Apriori trong Khai phá luật kết hợp

- Sử dụng thành thạo phần mềm khai phá dữ liệu Weka

- Ứng dụng được thuật toán Apriori vào việc khai phá Cơ sở dữ liệu điểm của Sinh Viên chuyên ngành THKT – Trường ĐH Kinh Tế Huế từ khóa K42 đến khóa K47

- Tìm ra được một số tập luật phổ biến phản ánh mối quan hệ giữa các học phần trong khung chương trình đào tạo Chuyên ngành tin học kinh tế

- Đưa ra được một số tư vấn học tập cho sinh viên chuyên ngành nhằm đạt kết

quả cao trong học tập

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu

- Phương pháp khai phá luật kết hợp

- Phần mềm khai phá dữ liệu Weka

- Khung chương trình đào tạo chuyên ngành Tin học kinh tế - Trường Đại học Kinh tế Huế

- Cơ sở dữ liệu điểm của sinh viên chuyên ngành Tin học kinh tế – Trường Đại học Kinh tế Huế từ khóa 42 đến khóa 47

Trang 12

- Không gian: trường Đại học Kinh Tế - Đại học Huế

- Thời gian: Từ ngày 02/01/2018 đến ngày 23/04/2018

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu lý luận: Dựa trên những tài liệu, bài báo, công trình

nghiên cứu để nhằm mục đích tìm chọn những khái niệm và tư tưởng cơ bản là cơ

sở cho lý luận của đề tài, hình thành giả thuyết khoa học, dự đoán về những thuộc tính của đối tượng nghiên cứu, xây dựng những mô hình lý thuyết hay thực nghiệm ban đầu

Phương pháp thu thập số liệu: Số liệu được sử dụng kết hợp giữa nguồn số

liệu thứ cấp trích rút từ cơ sở dữ liệu điểm của Trường Đại học Kinh tế Huế đối

với sinh viên chuyên ngành Tin học kinh tế - Trường Đại học Kinh Tế Huế từ khóa 42 đến khóa 47 với phương pháp tham khảo ý kiến của một số giáo viên, sinh viên chuyên ngành Tin học kinh tế

Phương pháp xử lý và phân tích dữ liệu: Lựa chọn những môn học bắt buộc

cần thiết cho quá trình khai phá từ file Excel sang CSV Sử dụng phương pháp nghiên cứu định lượng kiểm thử dữ liệu điểm đối với thuật toán Apriori phục vụ cho quá trình nghiên cứu định tính Sau đó, sử dụng phương pháp nghiên cứu định tính để bình luận các tập luật thu được từ thuật toán Apriori nhằm đưa ra những đánh giá mang tính kết luận

5 C ấu trúc của khóa luận

Ngoài phần mở đầu và kết luận, khóa luận gồm 3 chương với cấu trúc:

Chương 1: Tổng quan về khung chương trình đào tạo Tin học Kinh tế của Trường đại học Kinh tế - Đại học Huế - Giới thiệu chung về Trường đại học Kinh tế

huế, Khoa hệ thống thông tin kinh tế và phần quan trọng của chương là Khung chương trình đào tạo của Chuyên ngành Tin học Kinh tế

Chương 2: Khai phá luật kết hợp – Trình bày các kiến thức Tổng quan về Khai

phá dữ liệu, Tổng quan về khai phá luật kết hợp, Luật kết hợp phân lớp (Class Association Rule), Thuật toán Apriori, các ứng dụng của luật kết hợp và một số nghiên

Trang 13

Chương 3: Khai phá luật kết hợp trong cơ sở dữ liệu điểm của sinh viên Chuyên ngành Tin h ọc kinh tế - Trình bày quá trình khai phá cơ sở dữ liệu điểm của

sinh viên chuyên ngành Tin học kinh tế từ phát biểu bài toán, công cụ thực hiện Weka, quy trình thực hiện, kết quả thu được, đến đánh giá và đề xuất tư vấn cho sinh viên chuyên ngành Tin học kinh tế

Trang 14

PHẦN 2 NỘI DUNG CHƯƠNG 1 TỔNG QUAN VỀ KHUNG ĐÀO TẠO “TIN HỌC KINH TẾ” CỦA

TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC HUẾ 1.1 Giới thiệu chung về Trường đại học Kinh tế - Đại học Huế

1.1.1 L ịch sử hình thành và phát triển

Trải qua 49 năm, từ năm 1969 cho đến nay, bên cạnh 7 trường đại học khác là thành viên trong hệ thống đào tạo của Đại học Huế (Trường đại học Khoa học, Trường đại học Luật, Trường đại học Nông Lâm, Trường đại học Ngoại Ngữ, Trường đại học Y Dược, Khoa Du lịch, Khoa Giáo dục thể chất) Trường Đại học Kinh tế, tiếng

Anh: University of Economics – Hue University Trường được xuất thân từ Khoa Kinh tế

nông nghiệp – Đại học Nông Nghiệp II Hà Bắc vào năm 1969, sau đó đổi thành Khoa Kinh tế trực thuộc Đại học Nông Nghiệp II Huế, đến năm 1995 trường trở thành Khoa Kinh tế, Đại học Huế Cuối cùng đến tháng 9/2002, theo Quyết định số 126/QĐ-TTg của

Thủ tướng Chính Phủ, Khoa Kinh tế trở thành Trường Đại học Kinh tế trực thuộc Đại học Huế

Hình 1 1 Hình ảnh về trường Đại học Kinh Tế - Đại học Huế

Trang 15

Trong quá trình 49 năm hình thành và phát đó, Trường đã trãi qua những cột móc đáng nhớ vào các năm nhằm ghi dấu nên lịch sử của Trường như: 1969-1983 Trường được xem là Khoa Kinh tế nông nghiệp, rồi sau đó trở thành Khoa Kinh tế ở Đại học Nông nghiệp II Huế từ năm 1984 đến 1995, và cũng là Khoa Kinh tế từ năm 1995 đến năm 2002 thuộc Đại học huế, năm 2002 chính thức trở thành Trường Đại học Kinh tế

trực thuộc Đại học Huế như bây giờ

Những bước đầu mới thành lập, Trường còn gặp nhiều khó khăn trong vấn đề chuyên môn nghiệp vụ cũng như là trang thiết bị còn hạn chế Nhưng với sự nỗ lực của đội ngũ giảng viên của Đại học Huế nói chung và Trường Đại học Kinh Tế nói riêng, thì những năm trở lại đây chất lượng đào tạo đã được nâng tầm, thu hút và đào tạo lớp lớp sinh viên có trình độ kiến thức, kỹ năng nghiệp vụ liên quan đến kinh tế phù hợp với xu hướng phát triển của xã hội Từ đó, Trường dần dần trở thành thuộc nhóm đầu các Trường Đại học trong cả nước trong đào tạo nguồn nhân lực tri thức có trình độ cao

Những năm gần đây, Trường Đại học Kinh tế không ngừng nâng cao chất lượng

về đào tạo, nghiên cứu khoa học và các dịch vụ khác nhằm hướng tới mục tiêu trở thành

trở thành một cơ sở đào tạo đa ngành, một trung tâm nghiên cứu và chuyển giao khoa học công nghệ về lĩnh vực kinh tế và quản lý đạt chuẩn quốc gia; một số ngành đào tạo trọng điểm đạt chuẩn quốc tế đáp ứng nhu cầu đào tạo nguồn nhân lực chất lượng, trình độ cao

phục vụ sự nghiệp phát triển kinh tế - xã hội của khu vực và cả nước, Trường Đại học Kinh tế luôn coi trọng vấn đề nâng cao chất lượng toàn diện trên tất cả các mặt hoạt động Vị thế và uy tín của Nhà trường đang được nâng cao Các hoạt động của trường, đặc biệt là đào tạo và nghiên cứu khoa học, đã bước đầu đạt được một số thành tựu cơ bản, tạo nền tảng để trường tiếp tục phát triển theo chiều sâu

1.1.2 Hoạt động đào tạo

Hoạt động đào tạo được Trường Đại học Kinh tế thực hiện tập trung bậc đào tạo đại học ở 13 ngành với 17 chương trình đào: Quản trị kinh doanh, Kinh doanh thương

mại, Makerting, Quản trị nhân lực, Kế toán, Kiểm toán, Tài chính - Ngân hàng, Kế hoạch – Đầu tư, Kinh tế và Quản lý tài nguyên môi trường, Kinh doanh nông nghiệp, Kinh tế

Trang 16

nông nghiệp, Kinh tế chính trị, Hệ thống thông tin quản lý Ngoài ra ở hệ đào tạo đại học, Trường còn liên kết với chuyên gia nước ngoài giảng dạy ở ngành thuộc chương trình tiên tiến đối với Kinh tế nông nghiệp – Tài chính và Việt Rennes đối với ngành Tài chính – Ngâng hàng Bên cạnh đó, nhà trường còn mở rộng đào tạo sau đại học ở các bậc Thạc

sỹ, Tiến sỹ như: Quản trị kinh doanh, Kinh tế nông nghiệp và Quản lý kinh tế

Trường Đại học Kinh tế đang thực hiện đa dạng hóa các loại hình đào tạo, mở rộng hình thức liên kết đào tạo với các địa phương trong cả nước nhằm đáp ứng đòi hỏi nguồn nhân lực có chất lượng cao trong lĩnh vực quản lý kinh tế và quản trị kinh doanh ở khu vực miền Trung, Tây Nguyên và cả nước Cùng với việc mở rộng qui mô đào tạo, Trường đặc biệt chú trọng nâng cao chất lượng đào tạo và đã có nhiều biện pháp nhằm đảm bảo các điều kiện về đội ngũ cán bộ giáo dục, cơ sở vật chất phục vụ giảng dạy, tăng cường công tác quản lý, cải tiến nội dung, chương trình, phương pháp dạy và học

1.1.3 Đề tài nghiên cứu khoa học

Trong giai đoạn từ năm 2001 – 2010 và 2011 – 2017 đã có rất nhiều đề tài nghiên cứu khoa học của đội ngũ giảng viên chủ yếu có nhiều đề tài nghiên cứu trong các lĩnh

vực biến đổi khí hậu, kinh tế tài nguyên và môi trường, kinh tế nông nghiệp và nông thôn; kinh doanh nông nghiệp, quản lý doanh nghiệp vừa và nhỏ, tài chính công, quản lý giáo dục đại học Và được phân theo ba cấp độ từ đề tài cấp trường, cấp Đại học Huế cho đến những đề tài cấp Tỉnh Ngoài những đề tài của đội ngũ cán bộ giảng viên, còn rất nhiều đề tài nghiên cứu do chính những sinh viên của Trường đại học Kinh tế thực hiện trên các chủ đề như: đánh giá thực trạng, tình hình, mô hình hiệu quả, nghiên cứu các nhân tố ảnh hưởng đến thu hút vốn đầu tư, mua bán sản phẩm và các hướng nghiên cứu

về phầm mềm, ứng dụng công nghệ Đa số các đề tài của sinh viên nghiên cứu đều đạt

cấp độ đề tài trong trường học, nhưng cũng mang lại giá trị thực tiễn cao

Nhà trường đã có chính sách đẩy mạnh hoạt động nghiên cứu, phát động phong trào sinh viên nghiên cứu khoa học, hằng năm gia tăng số lượng đề tài đăng ký, huy động kinh phí từ các nguồn khác nhau: nguồn ngân sách nhà nước, nguồn vốn tự có, nguồn từ các chương trình hợp tác với các doanh nghiệp, địa phương và quốc tế Việc đăng tải

Trang 17

của sinh viên đã thực hiện và nghiệm thu trong giai đoạn 2011 - 2016 là 108 đề tài, trong

Ngoài 2 Trường đại học đến từ Pháp và Australia, thì nhà trường còn có mối quan

hệ hợp tác với hơn 40 trường đại học, viện nghiên cứu và tổ chức quốc tế khác Nhiều cán bộ giảng viên của Trường là thành viên của các mạng lưới quốc tế như: Chương trình kinh tế môi trường Đông Nam Á (EEPSEA), Hiệp hội các nhà kinh tế học tài nguyên môi trường châu Âu (EAERE), Hiệp hội các nhà kinh tế học tài nguyên môi trường Đông Nam Á (EAAERE), Mạng lưới nghiên cứu phát triển bền vững khu vực Mekong (SUMERNET) Nhiều chương trình liên kết đào tạo và dự án hợp tác đã được thực hiện, qua đó góp phần quan trọng giúp Nhà trường xây dựng và bồi dưỡng năng lực giảng dạy

và nghiên cứu của đội ngũ cán bộ giảng viên, nâng cao chất lượng đào tạo, cải thiện cơ sở vật chất và nâng cao uy tín của Nhà trường

Trang 18

Hình 1 2 H ợp tác giữa Trường Đại học Kinh tế Huế và Đại học quốc gia Chonbuk

Hàn Quốc 1.2 Giới thiệu chung về Khoa Hệ thống thông tin kinh tế

1.2.1 Quá trình hình thành c ủa Khoa Hệ thống thông tin kinh tế

Bên cạnh những khoa khác như: Quản trị kinh doanh, Tài chính – Ngân hàng, Kinh tế chính trị, Kinh tế và phát triển, Kế toán – Kiểm toán, thì Khoa Hệ thống Thông tin Kinh tế, cũng trực thuộc Trường Đại học Kinh tế - Đại học Huế có tiền thân là Bộ môn Khoa học cơ sở trực thuộc Khoa Kinh tế, Đại học Huế thành lập năm 1995 và được đổi tên nhiều lần để phù hợp với nhiệm vụ chính trị Và được đổi thành Bộ môn Thống

kê Toán Kinh tế trực thuộc trường Đại học Kinh tế theo Quyết định số 662/QĐ – ĐHH – TCNS của Giám đốc Đại học Huế ngày 24 tháng 12 năm 2002; sau đó đổi thành Bộ môn

Hệ thống Thông tin Kinh tế theo Quyết định số 521/QĐ – ĐHH – TCNS ngày 21 tháng

04 năm 2005 của Giám đốc Đại học Huế Vào ngày 20 tháng 06 năm 2006, Khoa Hệ

thống Thông tin Kinh tế chính thức được thành lập trên cơ sở Bộ môn Hệ thống Thông tin Kinh tế

Trang 19

Ngày 10 tháng 01 năm 2006 Giám đốc Đại học Huế ký Quyết định số 024/QĐ – ĐHH – ĐT cho phép Trường Đại học Kinh tế, Đại học Huế mở đào tạo chuyên ngành

Thống kê Kinh doanh hệ Chính quy, trình độ đại học, bắt đầu tuyển sinh từ năm học 2006 – 2007 Nhằm xây dựng Khoa không ngừng lớn mạnh cả quy mô, cơ cấu tổ chức, trình

độ quản lý, chất lượng đội ngũ, cơ sở vật chất phục vụ đào tạo, nghiên cứu khoa học ngang tầm với nhiệm vụ đặt ra ngày càng cao Đến tháng 08 năm 2007, Khoa hoàn thành việc xây dựng chuyên ngành Tin học Kinh tế theo chương trình đào tạo của Trường Đại

học Kinh tế và Đại học Huế, song song với chuyên ngành Thống kê kinh doanh đã có từ năm 2006 Tính đến năm 2017, đã đào tạo được 9 khóa thuộc chuyên ngành Tin học Kinh

tế từ K42 tới K50 với số lượng hơn 500 sinh viên

1.2.2 Ch ức năng nhiệm vụ

Chức năng, nhiệm vụ chính của Khoa Hệ thống Thông tin Kinh tế là đào tạo nguồn nhân lực có trình độ, nghiên cứu và chuyển giao các tiến bộ khoa học kỹ thuật thuộc lĩnh vực Hệ thống Thông tin Quản lý Đồng thời, Khoa cũng đảm trách đào tạo các môn học thuộc chương trình cơ bản và cơ sở, cụ thể là các môn học về Thống kê, Toán kinh tế và Tin học Kinh tế cho tất cả các ngành học trong Trường và các trường thành viên Đại học Huế có liên quan

Ngoài đào tạo trình độ, Khoa Hệ thống Thông tin Kinh tế còn đóng vai trò là cầu

nối cho sinh viên của Khoa tiếp cận cũng như có được môi trường làm việc phù hợp với chương trình học tại các Công ty, doanh nghiệp bên ngoài, giúp cho sinh viên có được

những kỹ năng cần thiết sau khi ra trường

1.2.3 Ho ạt động đào tạo và nghiên cứu khoa học

Trang 20

nâng cao chất lượng đội ngũ cán bộ giảng dạy Bên cạnh đó, Khoa đã tiến hành xây dựng thành công 2 chương trình đào tạo Ngành Hệ thống Thông tin Quản lý đó là Chuyên ngành Thống kê Kinh doanh (năm 2006) và chuyên ngành Tin học Kinh tế (năm 2007)

Đối với chuyên ngành Tin học Kinh tế, sinh viên sẽ được đào tạo để quản lý, phân tích, phát triển hệ thống thông tin Được đào tạo để có thể làm việc trên các Web ngữ nghĩa, các hệ thống thông minh, hỗ trợ ra quyết định, hệ hoạch định nguồn lực doanh nghiệp, khai phá dữ liệu và học máy Còn sinh viên chuyên ngành Thống kê kinh doanh

sẽ được đào tạo thống kê kinh tế vi mô, vĩ mô, nghiên cứu thị trường, du lịch, tài chính

Thống kê dân số, lao động, việc làm, môi trường, hoạt động sản xuất kinh doanh của doanh nghiệp, nền kinh tế, ngành kinh tế

• Ho ạt động nghiên cứu

Từ năm 2001 cho đến nay, Khoa hệ thống Thông tin Kinh tế đã có đến 86 đề tài nghiên cứu khoa học do cán bộ công nhân viên trong khoa trực tiếp tham gia nghiên cứu, các đề tài thường xoay quanh đến 2 chuyên ngành của Khoa là Tin học và Thống kê Từ

việc xác định nhân tố ảnh hưởng, quá trình nghiên cứu và cuối cùng là xây dựng, đề xuất những giải pháp đã giúp cho các đề tài có chiều sâu và tính ứng dụng thực tiễn cao.Trong

đó, nhiều đề tài đã được nghiệm thu đạt kết quả tốt và được Hội đồng khoa học Trường cũng như Đại học Huế đánh giá cao

Cùng với những đề tài được đánh giá cao của đội ngũ giảng viên, sinh viên Khoa

hệ thống Thông tin kinh tế cũng đã đóng góp 22 nghiên cứu cho cấp trường Các đề tài do sinh viên thực hiện liên quan đến các vấn đề nghiên cứu, xây dựng website mua bán cho các doanh nghiệp thực tế, đánh giá thực trạng, mức độ hài lòng của khách hàng về các

sản phẩm, dịch vụ

Ngoài ra, cán bộ giáo viên của Khoa cũng đã biên soạn nhiều giáo trình, bài giảng, các giáo trình bài giảng Khoa biên soạn được Hội đồng khoa học ngành và Hội đồng khoa học Trường Đại học Kinh tế đánh giá có chất lượng tốt đáp ứng được yêu cầu học tập và giảng dạy trong và ngoài ngành cho các hệ chính quy và tại chức Cải tiến nội

Trang 21

dung, phương pháp giảng dạy, xây dựng thống nhất đề cương chi tiết các học phần, xây

dựng ngân hàng đề thi thống nhất cho tất cả các học phần do Khoa phụ trách

1.3 Khung chương trình đào tạo của Chuyên ngành Tin học kinh tế

1.3.1 Mục tiêu đào tạo

Đào tạo cử nhân ngành Hệ thống thông tin quản lý – chuyên ngành Tin học kinh tế

có phẩm chất chính trị, đạo đức nghề nghiệp và sức khỏe tốt; nắm vững những kiến thức

cơ bản về kinh tế - xã hội và quản trị kinh doanh, có kiến thức chuyên sâu về Tin học kinh tế, có năng lực tổ chức ứng dụng và phát triển các ứng dụng tin học trong hoạt động

của các doanh nghiệp, các cơ quan quản lý, các tổ chức kinh tế xã hội

Sau khi hoàn thành chương trình đào tạo chuyên ngành Tin học kinh tế, sinh viên đạt được các kiến thức, kỹ năng và các giá trị giáo dục sau:

- Chuẩn về kiến thức: Chuẩn về kiến thức bao gồm chuẩn đầu ra cho các khối

kiến thức giáo dục đại cương, kiến thức chung trong lĩnh vực kinh tế quản lý,

kiền thức ngành – chuyên ngành

- Chuẩn về kỹ năng: Dựa trên những kiến thức về tin học căn bản và kỹ năng

giải quyết các vấn đề chuyên môn bằng các ứng dụng phần mềm, sử dụng hiệu

quả các phần mềm ứng dụng phục vụ chuyên môn trong môi trường internet

Có phương pháp làm việc, tư duy khoa học nhằm phân tích, đề xuất hướng giải quyết các vấn đề thuộc lĩnh vực hệ thống thông tin Có kỹ năng về tư vấn về

giải pháp kỹ thuật liên quan đến công nghệ, xây dựng hệ thống, có thể phân tích vá thiết kế thuật toán, nhằm xây dựng các ứng dụng trong thực tế Chủ động thực hiện các chuyên đề nghiên cứu, phát triển và ứng dụng công nghệ thông tin trong các lĩnh vực khoa học và xã hội, sử dụng được các phần mềm chuyên dùng thuộc chuyên ngành đào tạo Vận dụng các kĩ năng xử lý các vấn

đề liên quan đến phần mềm máy tính của hệ thống, ứng dụng hệ thống thông tin trong một tổ chức, biết cách xây dựng, quản trị các dự án phát triển hệ

thống thông tin Hiểu rõ và vận dụng các kĩ năng phân tích, thiết kế, xây dựng

Trang 22

và vận hành các hệ thống mạng, các hệ thống thông tin trong kinh doanh và

quản lý của các tổ chức

- Chuẩn về thái độ: Có phẩm chất chính trị, thái độ tôn trọng và chấp hành nghiêm túc pháp luật nhà nước, có ý thức trách nhiệm công dân Có thái độ và đạo đức nghề nghiệp đúng đắn, có ý thức kỹ luật tốt, tôn trọng nội dung, quy

chế của cơ quan và tác phong chuyên nghiệp Có tinh thần cầu tiến, không ngừng học tập nâng cao trình độ Có đạo đức, trách nhiệm và ý thức cộng đồng Chân thành, độ lượng, có lòng trắc ẩn, tôn trọng luật pháp

- Khả năng quản lý thời gian, nguồn lực, dự án và lãnh đạo nhóm thực hiện dự

án, công việc

Sinh viên sau khi đã tốt nghiệp Chuyên ngành Tin học Kinh tế có thể trực tiếp làm

việc tại các bộ phận ứng dụng tin học trong các đơn vị sản xuất kinh doanh thuộc các ngành kinh tế và thành phần kinh tế; các cơ quan nghiên cứu, cơ quan quản lý nhà nước, các tổ chức kinh tế - xã hội, làm việc trong các công ty sản xuất, gia công phần mềm trong nước cũng như nước ngoài với các vị trí công việc điển hình như: Phân tích nghiệp

vụ, thiết kế và phát triển hệ thống thông tin, lập trình các phần mềm ứng dung trong quản

lý, quản trị mạng, quản trị cơ sở dữ liệu, quản lý những dự án hệ thống thông tin Trở thành chuyên gia tư vấn về hệ thống thông tin quản lý cho các tổ chức kinh tế - xã hội về các vấn đề như hoạch dịnh và lập kế hoạch hệ thống thông tin quản lý, quản trị các nguồn

lực thông tin Cán bộ nghiệp vụ, cán bộ quản lý, chuyên gia hệ thống thông tin quản lý trong các tổ chức kinh doanh và cung ứng các giải pháp hệ thống thông tin quản lý Hoặc cũng có thể giảng dạy ở các trường đại học, cao đẳng và trung cấp khối kinh tế, quản trị kinh doanh

1.3.2 Thời gian đào tạo

Thời gian đào tạo được áp dụng đối với chuyên ngành Tin học kinh tế là 4 năm

1.3.3 Khối lượng kiến thức toàn khóa

Sinh viên được đào tạo với khối lượng kiến thức 122/153 tín chỉ

1.3.4 Đối tượng tuyển sinh

Trang 23

Thực hiện theo Quy chế tuyển sinh Đại học, Cao đẳng hệ chính quy của Bộ Giáo

dục và đào tạo

1.3.5 Quy trình đào tạo, điều kiện tốt nghiệp

- Quá trình đào tạo theo tính chỉ

- Điều kiện tốt nghiệp: Sinh viên tích luỹ tối thiểu 122/153 tín chỉ, trong đó phần

bắt buộc 95 tín chỉ và phần tự chọn tối thiểu 27 tín chỉ trong tổng số 58 tín chỉ

1.3.7 Nội dung chương trình và kế hoạch dự kiến

Khung đào tạo dành cho sinh viên Chuyên ngành Tin học Kinh tế, được phân bổ trên các học phần như sau:

Bảng 1 1 Khung chương trình đào tạo chuyên ngành Tin học kinh tế

4 KTCT1103 Ðường lối cách mạng của Ðảng Cộng sản

Trang 24

7.1.2.Khoa học xã hội – Nhân vãn – Nghệ thuật 8/12

8 KTPT 5192 Quản lý nhà nước về kinh tế (2) 2

16 HTTT1033 Lý thuyết xác suất và thống kê toán 3 3

7.1.5Giáo dục thể chất

7.1.6.Giáo dục quốc phòng – an ninh

Trang 25

22 HTTT4403 Nguyên lý thống kê kinh tế 3 4

24 HTTT2123 Kiến trúc máy tính và hệ điều hành 3 3

7.2.2.2 Kiến thức chuyên ngành 35/44

28 HTTT3143 Cấu trúc dữ liệu và giải thuật 3 4

29 HTTT3283 Hệ thống hoạch định nguồn lực doanh nghiệp

33 HTTT3163 Phát triển hệ thống thông tin kinh tế 3 5

41 HTTT4313 Kỹ thuật thương mại điện tử (3) 5

42 HTTT4223 Quản trị doanh nghiệp tin học (3) 7

Trang 26

+ Phần kiến thức giáo dục đại cương phải tích luỹ tối thiểu: 34/38 tín chỉ (trong

đó: phần Bắt buộc 28 tín chỉ; phần Tự chọn tối thiểu: 6 trong tổng số 10 tín chỉ tự chọn)

+ Phần kiến thức của khối ngành, kiến thức ngành, chuyên ngành và kiến thức bổ

trợ phải tích luỹ tối thiểu: 77/104 tín chỉ (trong đó: Học phần Bắt buộc 56 tín chỉ; phần

Tự chọn tối thiểu: 21 trong tổng số 48 tín chỉ tự chọn)

+ Phần thực tập, kiến tập: 4 tín chỉ

+ Phần Thực tập cuối khóa: 7 tín chỉ, (Nếu sinh viên không được giao làm

Khoá luận cuối khóa phải học 1 môn học chuyên đề tổng hợp: 2 tín chỉ và đi thực tập làm chuyên đề cuối khóa: 5 tín chỉ)

Trang 27

CHƯƠNG 2 KHAI PHÁ LUẬT KẾT HỢP 2.1 Tổng quan về Khai phá dữ liệu

2.1.1 Khái ni ệm về khai phá dữ liệu

Ngày nay dữ liệu lưu trữ ngày càng tăng Vấn đề đặt ra là chúng ta phải làm gì để tìm ra những tri thức từ một lượng lớn khổng lồ dữ liệu như vậy

Nhiệm vụ của Khai phá dữ liệu [1] là từ dữ liệu có sẵn phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện cũng như tìm ra những xu hướng phát triển và các xu hướng tác động lên chúng Các kỹ thuật cho phép ta lấy được tri thức từ

cơ sở dữ liệu được gọi là kỹ thuật khai phá dữ liệu (DM: data mining) Có rất nhiều kỹ thuật khai phá dữ liệu khác nhau tuân theo các bước quá trình phát hiện tri thức

Khai phá dữ liệu là khái niệm ra đời vào cuối những năm 1980 Nó là quá trình khám phá thông tin ẩn được tìm thấy trong các CSDL và có thể xem như là một bước trong quá trình khám phá tri thức KPDL là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ CSDL, các tri thức này hỗ trợ trong việc ra quyết định trong các lĩnh vực như: Khoa học, Giáo dục, Kinh doanh

Mặt khác, vào năm 1989 tác giả Fayyad, Smyth và Piatestsky[2] – Shapiro đã dùng khái niệm Phát hiện tri thức từ CSDL (Knowledge Discovery in Database – KDD) trong đó KPDL là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng kỹ thuật

để tìm ra các mẫu dữ liệu

Bên cạnh đó, Khai phá dữ liệu còn được biết đến là quá trình phát hiện các mô hình, các tổng kết khác nhau và các giá trị được lấy từ tập dữ liệu cho trước Hay, KPDL

là sự thăm dò và phân tích lượng dữ liệu lớn để khám phá từ dữ liệu ra các mẫu hợp lệ,

mới lạ, có ích và có thể hiểu được

2.1.2 Quá trình khai phá dữ liệu

Quá trình khám phá dữ liệu sẽ tiến hành qua 6 giai đoạn [7] như Hình 2.1

Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra

Về lý thuyết thì có vẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp

Trang 28

phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ quá trình

2.1.2.1 T ập hợp dữ liệu

Đây là giai đoạn đầu tiên trong quá trình KPDL Giai đoạn này lấy dữ liệu trong

một CSDL, một kho dữ liệu và dữ liệu từ các nguồn Internet

Giai đoạn này tiến hành xử lý những dạng dữ liệu nói trên Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị Vì vậy, đây là giai đoạn rất quan

Trang 29

trọng vì dữ liệu này nếu không được làm sạch – tiền xử lý – chuẩn bị trước thì sẽ gây nên

những kết quả sai lệch nghiêm trọng trong KPDL

2.1.2.4 Chuy ển đổi dữ liệu

Giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được

bởi việc tổ chức lại nó Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác 2.1.2.5 Khai phá dữ liệu

Giai đoạn mang tính tư duy trong KPDL Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để xuất ra các mẫu dữ liệu Thuật toán thường dùng là thuật toán phân loại dữ liệu, kết hợp dữ liệu hoặc các mô hình hóa dữ liệu tuần tự

Đây là giai đoạn được nhiều người nghiên cứu nhất

2.1.2.6 Đánh giá kết quả mẫu

Giai đoạn cuối trong quá trình KPDL Trong giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm KPDL Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nói còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để đưa ra các tri thức cần thiết và sử dụng được

2.2 T ổng quan về Khai phá luật kết hợp

2.2.1 Giới thiệu chung về khai phá luật kết hợp

Khai phá luật kết hợp [13] (association rules mining) lần đầu được Rakesh Agrawal Agrawal đưa ra vào năm 1993 Khai phá luật kết hợp là tìm ra các mẫu có tần

suất cao, các mẫu kết hợp, liên quan hoặc các cấu trúc tồn tại giữa các tập hợp đối tượng trong cơ sở dữ liệu các giao dịch, cơ sở dữ liệu quan hệ hoặc các kho chứa các thông tin khác Nói cách khác là chúng ta đi tìm tất cả các tập phổ biến từ trong dữ liệu

Trang 30

(sequential pattern) ví dụ như khách hàng thường mua laptop trước sau đó có thể mua máy ảnh số rồi đến thẻ nhớ Một thành phần cấu trúc con như đồ thị con, cây con, mạng con, xuất hiện thường xuyên thì lại được gọi là mẫu phổ biến có cấu trúc (structured pattern) Trong bài toán khai phá luật kết hợp, chúng ta thường quan tâm đến các tập mục

phổ biến nhiều hơn

Độ hỗ trợ

Độ hỗ trợ (support) của một luật X→ Y là tỉ lệ % các giao dịch trong T mà chứa cả

X và Y Nó giúp xác định mức độ phổ biến của các giao dịch chứa tập mục (X ∪ Y) trong tổng số tất cả các giao dịch Công thức tính độ hỗ trợ (support):

có độ chuẩn xác hơn

Ví dụ, trong phân tích kỹ thuật đầu tư chứng khoán Nó cho phép người nghiên

cứu có thêm những cơ sở mới trong việc chọn các loại cổ phiếu để mua hay bán, trong dự đoán các biến động tiềm năng, trong việc chỉ ra những thời điểm mà thị trường có thể gây

ra rắc rối cho nhà đầu tư Trên thực tế, nhiều nhà đầu tư có kinh nghiệm đã xây dựng cho

họ một “hệ thống đầu tư” riêng dựa hầu hết vào những nguyên lý về mức kháng cự và hỗ trợ Mức kháng cự và hỗ trợ có ý nghĩa rất quan trọng trong việc nghiên cứu phân tích các hình mẫu kỹ thuật Những kiến thức cơ bản về mức kháng cự và hỗ trợ sẽ giúp người nghiên cứu dễ dàng hiểu bản chất và các ứng dụng của các hình mẫu đó Mức hỗ trợ thường được dùng khá thông dụng Ta có thể định nghĩa mức hỗ trợ là việc mua thực tế hay khả năng mua với khối lượng đủ để làm ngưng lại xu thế giảm của giá trong một thời

kỳ đáng kể (tương đối dài)

Trang 31

Độ tin cậy (Confidence) của một luật X → Y lại là tỉ lệ % các giao dịch trong T

chứa cả X và Y trên tổng số các giao dịch trong T chỉ chứa X Nó là đại lượng ác định khả

năng dự đoán của luật và được tính như sau:

2.2.3 Bài toán khai phá luật kết hợp

2.2.3.1 Phát biểu bài toán

Bài toán khai phá luật kết hợp (Association Rule Mining) trên một CSDL được phân tích thành hai bài toán con như sau:

 Bài toán 1: tìm tất cả các tập mục dữ liệu có độ hỗ trợ thỏa ngưỡng tối thiểu cho trước, gọi là tập các tập mục dữ liệu phổ biến;

 Bài toán 2: tìm ra những luật kết hợp từ những tập mục dữ liệu phổ biến thỏa độ tin cậy tối thiểu cho trước

Theo đó, bài toán Khai phá luật kết hợp được phát biểu như sau:

Cho một tập các mục I, một cơ sở dữ liệu giao dịch D, ngưỡng hỗ trợ minsup, ngưỡng tin cậy minconf Tìm tất cả các luật kết hợp X ⇒Y trên CSDL D sao cho: sup(X

⇒ Y) ≥ minsup và conf(X ⇒ Y) ≥ minconf Bài toán khai thác luật kết hợp có thể được chia ra làm 2 bài toán con được phát biểu trong thuật toán sau:

Trang 32

Vào: I, D, minsup, minconf

Ra: Các luật kết hợp thỏa mãn minsup và minconf

Phương thức:

(1) Tìm tất cả các tập mục phổ biến từ CSDL D tức là tìm tất cả các tập mục

có độ hỗ trợ lớn hơn hoặc bằng minsup

(2) Sinh ra các luật từ các tập mục phổ biến (large itemsets) sao cho độ tin cậy của luật lớn hơn hoặc bằng minconf

Tùy theo ngữ cảnh các thuộc tính dữ liệu, cũng như phương pháp sử dụng trong các thuật toán; người ta có thể phân bài toán khai phá luật kết hợp ra nhiều nhóm khác nhau Chẳng hạn, nếu giá trị của các thuộc tính có kiểu boolean thì ta gọi là khai phá luật kết hợp Boolean (Mining Boolean Association Rules) …

2.2.3.2 Phát hiện các tập mục phổ biến

2.2.3.2.1 Ý tưởng thuật toán phát hiện các tập mục phổ biến

Các thuật toán phát hiện tập mục phổ biến phải thiết lập một số giai đoạn trên CSDL Trong giai đạn đầu, ta thực hiện tính độ hỗ trợ support cho mỗi mục riêng lẻ và xác định xem mục nào là phổ biến, nghĩa là có support ≥ minsup Trong mỗi giai đoạn tiếp theo, ta bắt đầu với các tập mục phổ biến đã tìm được trong giai đoạn trước, để sinh

ra các tập mục có khả năng là tập phổ biến mới (còn gọi là tập mục ứng cử - candidate itemset) và tính độ hỗ trợ cho các tập mục ứng cử này bằng một phép duyệt CSDL Cuối mỗi giai đoạn, người ta xác định các tập mục phổ biến cho giai đoạn tiếp theo Tiến trình này sẽ tiếp tục, cho đến khi không tìm được một tập các tập mục phổ biến mới hơn nữa

Trang 33

Hình 2 2 Sơ đồ tổng quan của thuật toán khai phá tập mục phổ biến

Ta giả sử các mục trong mỗi giao dịch đã được sắp xếp theo thứ tự từ điển (diễn tả một thứ tự quy ước nào đó cho các mục của CSDL) Các mục trong một tập mục cũng được lưu trữ theo thứ tự từ điển, nghĩa là, một k-itemset ci kí hiệu là c i [1], c i [2],…, c i [k]

thì c i [1] < c i [2] <…< c i [k] Nếu c i = X.Y và Y là một m-itemset thì Y cũng được gọi là một m-mở rộng (m-extention) của X Trong lưu trữ, mỗi tập mục có một trường

support_count tương ứng, dùng để lưu độ hỗ trợ cho tập mục này

2.2.3.2.2 Thuật toán Apriori

Apriori là thuật toán khai phá luật kết hợp [9] do RaKesh Agrawal, Tomasz Imielinski, Anin Sawami đưa ra vào năm 1993, là nền tảng cho việc phát triển những thuật toán sau này Thuật toán sinh tập mục ứng cử từ những tập mục phổ biến ở bước trước, sử dụng kĩ thuật “tỉa” để bỏ đi tập mục ứng cử không thỏa mãn ngưỡng hỗ trợ cho trước

Các ký hiệu sử dụng trong thuật toán:

Trang 34

 C k = {c 1 , c 2 ,…, c i , …} tập các k itemset ứng cử, mỗi ci có 2 trường itemset

và count dùng để chứa tập mục và số đếm hỗ trợ của tập mục đó trong CSDL

Nội dung thuật toán:

Dữ liệu vào: Tập các giao dịch D, ngưỡng hỗ trợ minsup

Dữ liệu ra: Tập Answer bao gồm các tập mục phổ biến trên D

 Phương pháp:

L 1 = {large 1-itemset};

for (k = 2; L k-1 ≠ φ; k++) do begin

C k = apriori_gen(L k-1 ); // sinh tập mục ứng cử mới C k ; for all giao dịch t D do

begin

C t = subset(C k , t); // các tập mục ứng cử chứa trong t; for all tập mục ứng cử c i C t do

c i count ++ ; end;

L k = {c i C k /c i count ≥ minsup}

end;

Answer = k L k ;

Giải thích thuật toán:

Trong thuật toán này, giai đoạn đầu đơn giản chỉ là việc tính độ hỗ trợ của các mục Để xác định L1, ta chỉ giữ lại các mục có độ hỗ trợ lớn hơn hoặc bằng minsup

Trong các giai đoạn thứ k sau đó (k > 1), mỗi giai đoạn gồm có 2 pha:

Trang 35

Pha thứ 1: Các (k-1)-itemset phổ biến trong tập Lk-1 tìm được trong giai

đoạn thứ k-1 được dùng để sinh ra các tập mục ứng cử Ck bằng cách thực

hiện hàm apriori_gen()

 Pha thứ 2: CSDL D sẽ được quét để tính độ hỗ trợ cho mỗi tập mục ứng

cử trong Ck Các tập mục ứng cử trong Ck mà được chứa trong giao dịch t có

thể được xác định một cách hiệu quả bằng việc sử dụng cây băm

Hàm apriori_gen() thực hiện hai bước:

Bước kết nối (Join step): Bước này kết nối các phấn tử trong L k-1 Trong

này, giả sử rằng các mục của các tập mục đã được sắp xếp theo thứ tự từ

điển Nếu có k-2 item đầu tiên (gọi là phần tiền tố) của hai (k-1)-itemset l1, l2

nào đó mà giống nhau thì ta khởi tạo một k-itemset ứng cử cho C kbằng cách

lấy phần tiền tố này hợp với 2 item thứ k-1 của l1 và l2 (có thể phải sắp lại thứ

tự cho các item này) Điều kiện l 1 [k-1] < l 2 [k-1] nhằm tránh trường hợp 2

tập mục l 1 và l 2giống nhau kết nối với nhau

 Bước cắt tỉa (Prune step): Trong bước này, ta cần loại bỏ tất cả các

-itemset c i C k mà tồn tại một (k-1)-itemset s, s c i và s L k-1 Khi đó,

sup(s) < minsup vì s không phải là tập phổ biến, mặt khác do c i s nên

sup(c i ) ≤ sup(s) < minsup Vậy c ikhông thể là tập phổ biến, nó cần được loại

bỏ ra khỏi Ck

Ví dụ: Cho tập các mục phổ biến L 3 = {{a; b; c}; {a; b; d}; {a; c; d}; {a; c;

e} ; {b; c; d}}

Chúng ta kết nối tập mục phổ biến l 1 = {a; b; c} và

tập mục phổ biến l 2 = {a; b; d}, ta được tập mục ứng cử c1={a; b; c; d} Cả

3 tập con ( {a; b; c}; {a; b; d} ; {b; c; d}) s c 1 đều thuộc L 3 do đó c1 được giữ lại và C4 ← c1 Cũng tương tự, ta kết nối tập mục phổ biến l3 = {a; c; d}

và tập mục phổ biến l4 = {a; c; e} , ta sinh ra được tập mục ứng cử c 2 = {a;

Trang 36

c; d; e} Ta có t ập mục s = {a; d; e} c 2 mà s L 3 nên tập mục ứng cử c 2

bị loại

Hàm subset và cấu trúc cây băm (hash-tree)

Cấu trúc cây băm: Để tăng hiệu quả cho việc tìm các tập mục thường

xuyên và tính độ hỗ trợ cho các tập mục ứng cử, thuật toán sử dụng cấu trúc cây băm để lưu trữ các tập mục ứng cử Ck Mỗi nút của cây băm hoặc chứa một danh sách của các tập mục (nếu là nút lá) hoặc một bảng băm (hash table) (nếu là nút cành) Tại mỗi nút cành, mỗi phần tử (bucket) của bảng băm trỏ đến một nút khác Gốc của cây được định nghĩa có mức bằng 1 Nút

ở mức d thì trỏ đến nút ở mức (d + 1) Các tập mục được lưu trữ trong các

nút lá tạo thành một danh sách liên kết và đã được sắp xếp Khi số tập mục lưu trong nút lá vượt quá ngưỡng thì nút lá chuyển thành nút cành Khi thêm một tập mục ci vào cây, ta bắt đầu duyệt từ nút gốc trên cây cho đến khi tìm được nút lá phù hợp, cách thực hiện như sau: ở mỗi nút trong mức d, chúng

ta quyết định đi theo nhánh nào bằng cách sử dụng hàm băm đối với mục thứ

d (c i [d] lưu mục thứ d) của tập mục c i

 Hàm subset(C k , t): Hàm này dùng để tìm tất cả các tập mục ứng cử trong

Ck có chứa trong giao dịch t Để tìm tập mục ứng cử ta bắt đầu từ nút gốc: nếu nút gốc là nút lá thì ta xem các tập mục trong nút lá đó có chứa trong giao dịch t hay không Trường hợp nút cành, và là kết quả của việc áp dụng hàm băm cho mục thứ i của giao dịch t , thì ta tiếp tục thực hiện hàm băm

cho mục thứ (i +1) của giao dịch t, cho đến khi tìm gặp nút lá Thủ tục tìm

này được thực hiện đệ quy

2.2.3.2.3 Ví dụ minh họa thuật toán Apriori

Cho tập các mục I = {A, B, C, D, E} và cơ sở dữ liệu giao dịch D như sau:

B ảng 2 1 Cơ sở dữ liệu ví dụ gồm 4 giao dịch

Trang 37

TID (giao dịch) Các khoản mục

Áp dụng thuật toán Apriori để tìm các tập mục phổ biến thỏa minsup = 50%

Sau khi áp dụng thuật toán Apriori các tập mục phổ biến thu được chỉ ra trong hình 2.3

Trang 38

Hình 2 3 Ví d ụ thuật toán Apriori

2.2.3.3 Sinh luật kết hợp từ các tập mục phổ biến

Dựa vào các phần tử phổ biến đã được tìm thấy trong các toàn tác của cơ sở dữ liệu D, chúng ta có thể sinh các luật kết hợp mạnh (các luật kết hợp mạnh thỏa mãn cả chỉ

số hỗ trợ lẫn chỉ số tin cậy) bằng cách sử dụng công thức tính chỉ số tin cậy Dựa vào công thức này, các luật kết hợp được sinh ra như sau:

 Với mỗi tập phần tử phổ biến l, sinh tất cả các tập con khác rỗng của nó;

 Với mỗi tập con khác rỗng s của l, sinh luật “s ⇒ (l-s)” nếu s)/support(s)≥ minconf với minconf là ngưỡng tin cậy tối thiểu

Trang 39

Do các luật được sinh từ các tập phần tử phổ biến nên chúng tự động thỏa mãn chỉ

số hỗ trợ tối thiểu Các tập phần tử phổ biến được lưu trữ trong các bảng băm theo số lượng của chúng để chúng có thể được truy cập nhanh chóng

Chẳng hạn, tiếp tục ví dụ minh họa giải thuật Apriori ở trên, ta có tập mục phổ

biến l = {B, C, E} ⇒ Các tập con của của l là {B, C}, {B, E}, {C, E}, {B}, {C} và {E} Do

đó, ta có thể sinh các luật kết hợp cùng với độ tin cậy của nó như sau:

(1) B∧C ⇒ E, với độ tin cậy confident = 2/2 = 100%

(2) B∧E ⇒ C, với độ tin cậy confident = 2/3 = 67%

(3) C∧E ⇒ B, với độ tin cậy confident =2/2 = 100%

(4) B ⇒ C∧ E, với độ tin cậy confident =2/3 = 67%

(5) C ⇒ B∧ E, với độ tin cậy confident =2/3 = 67%

(6) E ⇒ B∧ C, với độ tin cậy confident =2/3 = 67%

2.3 Luật kết hợp phân lớp

2.3.1 Giới thiệu luật kết hợp phân lớp

Luật kết hợp phân lớp (Class Association Rule) được đề xuất bởi Liu và các đồng

sự vào năm 1998 [8] Thuật toán CBA cũng đã được đề xuất trong công trình này Phương pháp này thường cho độ chính xác cao hơn so với các phương pháp phân lớp dựa trên luật khác như cây quyết định, ILA [12] Từ đó đến nay, đã có nhiều thuật toán được phát triển nhằm làm tăng độ chính xác, giảm thời gian khai thác như CMAR, MMAC, MCAR [8], ECR-CARM, CAR-Miner, CAR-Miner-Diff Trong số các thuật toán kể trên, CMAR và MMAC đề xuất phương pháp dự đoán lớp của mẫu mới dựa vào đa luật nên thường có độ chính xác cao hơn so với CBA ECR-CARM, CAR-Miner và CAR-Miner-Diff tập trung giải quyết vấn đề thời gian khai thác sao cho tập luật khai thác được vẫn

bảo đảm như CBA/CMAR nhưng thời gian khai thác nhanh hơn Một trong các điểm yếu

của phân lớp dựa vào luật phân lớp kết hợp là chọn ngưỡng độ hỗ trợ tối thiểu Một ngưỡng quá cao dẫn đến các lớp chứa ít mẫu sẽ không phổ biến và vì vậy, không luật nào

Trang 40

chứa lớp này sẽ ảnh hưởng đến giai đoạn dự đoán lớp Trong khi đó nếu chọn ngưỡng độ

hỗ trợ tối thiểu thấp để khai thác được các luật chứa lớp thiểu số thì số lượng luật của lớp

đa số vẫn áp đảo nên cũng ảnh hưởng đến giai đoạn dự đoán lớp

2.3.2 Một số khái niệm và định nghĩa

Khai thác luật phân lớp dựa vào khai thác luật kết hợp (Class Associaton Rules – CARs) là tìm một tập con của các luật kết hợp có trong cơ sở dữ liệu Mỗi luật trong tập con này chứa vế phải là giá trị của thuộc tính lớp Bài toán được phát biểu như sau:

Cho cơ sở dữ liệu D, I là tập tất cả các mục (item) trong D và Y là tập các nhãn

lớp Luật phân lớp kết hợp là một biểu thức có dạng X Y trong đó X I và y Y Độ tin cậy của luật là c nếu c% mẫu trong D chứa X được gán nhãn là lớp Y Độ phổ biến của

luật là s nếu có s% mẫu trong D chứa X được gán nhãn là lớp Y

Mục tiêu của khai thác luật phân lớp dựa vào khai thác luật kết hợp là:

(1) Khai thác tập CARs thỏa ngưỡng độ hỗ trợ tối thiểu (MinSup) và ngưỡng độ tin cậy tối thiểu (MinConf)

(2) Xây dựng bộ phân lớp từ CARs

Một cách hình thức, bài toán khai thác CARs được phát biểu như sau: Cho D là

một CSDL huấn luyện với n thuộc tính A1, A2…, An, mỗi thuộc tính có một tập các giá trị

tương ứng C là thuộc tính lớp chứa k giá trị khác nhau c 1 , c 2 …, c k đại diện các lớp trong

Ngày đăng: 10/07/2018, 23:50

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w