1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2

97 533 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 97
Dung lượng 124,05 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung đề tài: “ứng dụng khai phá dữ liệu ừợ giúp tư vấn học tập tại trường Đại học Sư phạm Hà Nội 2” là nghiên cứu của riêng em.. lớn được gọi là các kĩ thuật khai phá dữ liệu, nó đượ

Trang 1

TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2

• • • •

KHOA CÔNG NGHỆ THÔNG TIN CAO HOÀNG LONG

ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRỢ GIÚP Tư VẤN HỌC TẬP TẠI TRƯỜNG ĐH SP HN 2

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Chuyên ngành: Khoa học máy tính

HÀ NỘI - 2015 ■

Trang 2

TRƯỜNG ĐẠI HỌC sư PHẠM HÀ NỘI 2

• • • •

KHOA CÔNG NGHỆ THÔNG TIN CAO HOÀNG LONGỨNG DỤNG KHAI PHÁ DỮ LIỆU TRỢ GIÚP Tư VẤN HỌC TẬP

KHÓA LUẬN TÓT NGHIỆP ĐẠI HỌC

Chuyên ngành: Khoa học máy tính

Người hướng dẫn khoa học PGS.TS TRỊNH ĐÌNH THẮNG

HÀ NỘI - 2015

Trang 3

LỜI CAM ĐOANTên em là: Cao Hoàng Long

Sinh viên lớp: K37A - Tin học, khoa Công nghệ Thông tin, trường Đại học Sư phạm Hà Nội 2

Em xin cam đoan:

1 Nội dung đề tài: “ứng dụng khai phá dữ liệu ừợ giúp tư vấn học tập tại trường Đại học Sư phạm Hà Nội 2” là nghiên cứu của riêng em

2 Kết quả nghiên cứu của em không trùng với bất cứ một kết quả nào của những tác giả khác

Nếu sai em xin hoàn toàn chịu trách nhiệm

2, những người đã giảng dạy cho em rất nhiều kiến thức trong thời gian họctập tại trường

Trên hết, trong quá trình tìm hiểu và nghiên cứu về đề tài này, em đãnhận được sự giúp đỡ nhiệt tình từ giảng viên hướng dẫn là PGS.TS TrịnhĐình Thắng để em có thể hoàn thành bài khóa luận một cách hoàn chínhnhất

Trang 4

Với lòng biết ơn sâu sắc, em xin gửi lời cảm ơn tới quý thầy cô và chúc quý thầy cô dồi dào sức khỏe để tiếp tục đào tạo những thế hệ sinh viên trong tương lai

Và em cũng xin gửi lời cảm ơn chân thành tới người thân và bạn bè

đã luôn bên cạnh giúp đỡ và động viên em trong thời gian này

Với điều kiện thời gian nghiên cứu và vốn kiến thức của bản thân em còn hạn chế nên chương trình không tránh khỏi những thiếu sót Em rất mong nhận được sự chỉ bảo quý báu của quý thày, cô giáo và bạn bè để chương trình của em được hoàn thiện hơn

Em xin chân thành cảm ơn!

Vĩnh Phúc, ngày 08 tháng 05 năm 2015 Sinh viên

Cao Hoàng Long

MỤC LỤC

MỞ ĐẦU 6

CHƯƠNG 1 : TỔNG QUAN VỀ KHAIPHÁ DỮ LIỆU 9

1.1 Khai phá dữ liệu là gì 9

1.1.1. Định nghĩa 9

1.1.2. Các ứng dụng của khai phá dữ liệu 10

Trang 5

1.2 Kiến trúc hệ thống 11

1.2.1 Database, data warehouse, World Wide Web, và information repositories 12

1.2.2 Database hay data warehouse server 12

1.2.3 Knowledge base 12

1.2.4 Data mining engine 12

1.2.5 Pattern evaluation module 12

1.2.6 User interface 12

1.3 Các bước trong quá trình khai phá dữ liệu 13

1.4 Tiền xử lý dữ liệu 15

1.4.1 Dữ liệu 15

1.4.2 Làm sạch dữ liệu 16

1.4.3 Tích hợp dữ liệu 18

1.4.4 Biến đổi dữ liệu 18

1.4.5 Thu giảm dữ liệu 19

CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 21

2.1 Phương pháp dự báo 21

2.1.1 Giới thiệu dự báo 21

2.1.2 Tổng quan hồi quy 21

2.1.3 Hồi quy tuyến tính 22

2.1.4 Hồi quy phi tuyến 22

2.2 Phương pháp phân lớp 22

2.2.1 Giới thiệu phân lớp 22

Trang 6

2.2.2 Cây quyết định 23

2.3 Phương pháp gom cụm 24

2.3.1 Định nghĩa gom cụm 24

2.3.2 Mục tiêu của gom cụm 24 2.3.3 Các ứng dụng của gom cụm 25

2.4 Phương pháp khai phá luật kết hợp 26

2.4.1 Giới thiệu luật kết họp 26

2.4.2 Bài toán 26

2.4.3 Thuật toán Apriori 28

CHƯƠNG 3: KHAI PHÁ DỮ LIỆU TRONG CSDL ĐIỂM ĐỂ TRỢ GIÚP TƯ VẤN HỌC TẬP 41

3.1 Giới thiệu bài toán 41

3.1.1. Mục tiêu 41

3.1.2. Lựa chọn giải pháp 41

3.2 Đặc tả dữ liệu 42

3.3 Giao diện chính của chương trình 45

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 48

DANH MỤC HÌNH ẢNH VÀ BẢNG

Hình 1.1 Kiến trúc hệ thống khai phá dữ liệu 11

Hình 1.2 Các bước trong quá trình khai phá

Hình 2.1 Lược đô biêu diên các tập mục cân

xét đươc loai bỏ theo đô hỗ trơ • • • •

29

Trang 7

Hình 3.1 Sơ đô quan hệ cơ sở dữ liệu điêm sinh

Hình 3.6 Kêt quả sau khỉ khai phá dữ liệu 47

Bảng 2.2 Ví dụ vê thuật toán Aprỉorỉ trợ giúp

tư vân học tập

40

Bảng 3.2 Thuộc tính đỉêm được chia thành

Trang 8

lớn được gọi là các kĩ thuật khai phá dữ liệu, nó được ứng dụng trong nhiềulĩnh vực như: kinh tế, tài chính, giáo dục, y tế

Trong đó, lĩnh vực giáo dục được quan tâm hàng đàu và để địnhhướng, xây dựng chính sách trong giáo dục đào tạo cần phải được hỗ trợ bởicác công cụ khoa học để tránh những sai lầm đáng tiếc Khai phá dữ liệu làmột công cụ hữu ích và có tính khoa học cao giúp các nhà quản lý có nhữngtri thức quý giá phục vụ công tác quản lý và học sinh, sinh viên cũng có thể

sử dụng những kết quả hữu ích từ quá trình chắt lọc trong khai phá dữ liệu

Việc khai phá luật kết họp trong đào tạo còn chưa được nghiên cứu

và ứng dụng một cách triệt để Trong thời gian học môn "Các vấn đề hiệnđại của khoa học máy tính", em đã được giảng viên giới thiệu qua về khaiphá dữ liệu, nhung khi đó em mới chỉ trả lời được câu hỏi "khai phá dữ liệu

là gì?" mà chưa trả lời được "khai phá dữ liệu như thế nào?" Qua lần đượcnhận đề tài khóa luận này em quyết định chọn đề tài "ứng dụng khai phá dữliệu trợ giúp tư vấn học tập tại trường ĐHSPHN2" để tìm hiểu về khai phá

dữ liệu và áp dụng trên chính ngôi trường mà em đã và đang theo học

2 Mục đích nghiền cứu

Tìm hiểu về khai phá dữ liệu, khai phá dữ liệu luật kết họp, thuậttoán Apriori và ứng dụng vào tư vấn học tập cho sinh viên

3 Nhiệm vụ nghiền cứu

Nghiên cứu về định nghĩa cơ bản của khai phá dữ liệu, đi sâu tậptrung tìm hiểu các phương pháp khai phá và viết chương trình demo

4 Đổi tượng và phạm vỉ nghiên cứu

Khóa luận đi sâu vào nghiên cứu khai phá luật kết hợp bằng thuậttoán Apriori trên Cơ sở dữ liệu điểm của sinh viên khoa Công nghệ Thôngtin trường đại học Sư phạm Hà Nội 2 để tìm ra mối tương quan giữa cácmôn học

Trang 9

5 Giả thuyết khoa học

Tìm hiểu về các phương pháp khai phá dữ liệu giúp người lập trìnhhiểu rõ hơn về việc phát hiện những thông tin hữu ích trong một cơ sở dữliệu lớn Từ đó việc định hướng cho những hoạt động trong tương lai ừởnên dễ dàng hơn

Chương trình được xây dựng nếu đưa vào thực tế sẽ ừợ giúp để pháthiện ra mỗi liên hệ giữa các môn học để trợ giúp tư vấn cho sinh viên, hiệuquả hơn so với những phương pháp truyền thống

6 Phương pháp nghiên cứu

Phương pháp nghiên cứu lý luận

Nghiên cứu qua việc đọc sách, báo và các tài liệu liên quan nhằm xâydựng cơ sở lý thuyết của đề tài và các biện pháp cần thiết để giải quyết cácvấn đề của đề tài

Phương pháp chuyên gia

Tham khảo ý kiến của các chuyên gia để có thể thiết kế chương trìnhphù họp với yêu cầu thực tiễn Nội dung xử lý nhanh đáp ứng nhu cầu ngàycàng cao của người dùng

Phương pháp thực nghiệm

Thông qua quá trình học tập, trích rút được mối liên hệ giữa một sốmôn học những lý luận được nghiên cứu và kết quả đạt được qua nhữngphương pháp trên

7 Cấu trúc khóa ỉuân

• Chương 1: Tổng quan về khai phá dữ liệu

Nội dung chính của chương là giới thiệu về khai phá dữ liệu,kiến trúc hệ thống khai phá dữ liệu, các bước trong quá trình khai phá vàứng dụng của khai phá dữ liệu

• Chương 2: Một số phương pháp khai phá dữ liệu

Trang 10

Chương này trình bày một bước trong quá trình khai phá là tìm ra giải pháp và thuật toán phù họp để tiến hành khai phá.

Một số phương pháp được trình bày trong chương này là:

- Phương pháp phân lớp

- Phương pháp gom cụm

- Phương pháp dự báo

- Phương pháp khai phá luật kết hợp

• Chương 3: Khai phá dữ liệu ừên CSDL điểm sinh viên để trợ giúp tư vấn học tập

Chương này xây dựng chương trình demo để thử nghiệm trênCSDL điểm khoa CNTT trường Đại học Sư Phạm HN 2 để tìm mối liên

hệ các môn học qua thuật toán Apriori

CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 Khai phá dữ liệu ỉà gì

1.1.1 Định nghĩa

Khai phá dữ liệu (data mining) hay khám phá tri thức tò dữ liệu làviệc trích rút ra được các mẫu hoặc tri thức quan ừọng tò một lượng dữ liệulớn để phục vụ mục đích nào đó

Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thứctrong CSDL Quá trình này kết xuất ra các tri thức tiềm ẩn tò dữ liệu giúpcho việc dự báo trong kinh doanh, các hoạt động sản xuất, Khai phá dữliệu làm giảm chi phí về thời gian so với phương pháp truyền thống trướckia (ví dụ như phương pháp thống kê)

Sau đây là một số định nghĩa mang tính mô tả của nhiều tác giả vềkhai phá dữ liệu:

Trang 11

Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phươngpháp được dùng ừong tiến trình khám phá tri thức để chỉ ra sự khác biệt cácmối quan hệ và các mẫu chưa biết bên trong dữ liệu”

Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyếtđịnh, ừong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờtrong CSDL lớn”

Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình khôngtầm thường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng

và có thể hiểu được”

Các vấn đề tương tự:

- Khám phá tri thức trong các cơ sở dữ liệu

- Trích rút tri thức

- Phân tích mẫu/dữ liệu

1.1.2 Các ứng dụng của khai phá dữ liệu

Phát hiện tri thức và khai phá dữ liệu liên quan đến nhiều ngành,nhiều lĩnh vực: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toánsong song và tốc độ cao, thu thập tri thức cho các hệ chuyên gia, quan sát

dữ liệu Đặc biệt phát hiện tri thức và khai phá dữ liệu rất gàn gũi với lĩnhvực thống kê, sử dụng các phương pháp thống kê để mô hình dữ liệu vàphát hiện các mẫu, luật Ngân hàng dữ liệu (Data Warehousing) và cáccông cụ phân tích trực tuyến (OLAP- On Line Analytical Processing) cũngliên quan rất chặt chẽ với phát hiện tri thức và khai phá dữ liệu

Khai phá dữ liệu có nhiều ứng dụng trong thực tế, ví dụ như: Bảohiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính và

dự báo giá của các loại cổ phiếu ừong thị trường chứng khoán Danh mụcvốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận,

Trang 12

Điều tri y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnhlưu trong các hệ thống quản lý bệnh viện Phân tích mối liên hệ giữa cáctriệu chứng bệnh, chuẩn đoán và phương pháp điều ừị (chế độ dinh dưỡng,thuốc, )

Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sựcố

Text mining và Web mining: Phân lớp văn bản và các trang Web,tóm tắt văn bản,

Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vậthọc, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene

và một số bệnh di truyền, Mạng viễn thông: Phân tích các cuộc gọi điệnthoại và hệ thống giám sát lỗi, sự cố, chất lượng dịch vụ,

Trang 13

Hình 1.1 Kiến trúc hệ thống khai phá dữ liệu

1.2 Kiến trúc hệ thống

Hệ thống khai phá dữ liệu được phát triển dựa ưên khái niệm rộng của khai phá dữ liệu Khai phá dữ liệu là một quá trình khám phá tri thức được quan tâm từ lượng lớn dữ liệu trong các cơ sở dữ liệu, kho dữ liệu, hay các kho thông tin khác.

Các thành phần chính có thể cố:

Trang 14

1.2.1 Database, data warehouse, World Wide Web, và information

repositories

Thành phàn này là các nguồn dữ liệu/thông tin sẽ được khai phá

Trong những tình huống cụ thể, thành phần này là nguồn nhập (input) củacác kỹ thuật tích họp và làm sạch dữ liệu

1.2.2 Database hay data warehouse server

Thành phàn chịu trách nhiệm chuẩn bị dữ liệu thích hợp cho các yêu càukhai phá dữ liệu

1.2.4 Data mining engine

Thành phần chứa các khối chức năng thực hiện các tác vụ khai phá dữliệu

1.2.5 Pattern evaluation module

Thành phàn này làm việc với các độ đo (và các ngưỡng giá trị) hỗ trợ tìmkiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy là những mẫu đượcquan tâm bởi người sử dụng

Thành phàn này có thể được tích hợp vào thành phần Data mining engine

Trang 15

Người sử dụng có thể được cung cấp thông tin hỗ trợ việc tìm kiếm, thựchiện khai phá dữ liệu sâu hơn thông qua các kết quả khai phá trung gian.

Người sử dụng cũng có thể xem các lược đồ cơ sở dữ liệu/kho dữ liệu, cáccấu trúc dữ liệu; đánh giá các mẫu khai phá được; trực quan hóa các mẫu này ởcác dạng khác nhau

1.3 Các bước trong quá trình khai phá dữ liệu

Quá trình được thực hiện qua 9 bước:

1 Tìm hiểu lĩnh vực của bài toán (ứng dụng): Các mục đích của bài toán, các trithức cụ thể của lĩnh vực

2 Tạo nên (thu thập) một tập dữ liệu phù hợp

6 Lựa chọn/ Phát triển (các) giải thuật khai phá dữ liệu phù họp

7 Tiến hành khai phá dữ liệu

8 Đánh giá mẫu thu được và biểu diễn tri thức: Hiển thị hóa, chuyển đổi, bỏ đicác mẫu dư thừa,

9 Sử dụng tri thức được khai phá

Quá trình khám phá tri thức theo cách nhìn của giới nghiên cứu về các hệthống dữ liệu và kho dữ liệu về quá trình khám phá tri thức

Trang 16

DiBcơvety

0

Transformed Data

• Transformation

Trang 17

integration), chọn dữ liệu (data

selection), biến đổi dữ liệu (data ttansformati on).

Khai thác dữ liệu (data

milling): xác định nhiệm vụ khai thác

dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu Kêt quả cho

nguồn tri thức thô.

Trang 18

Đánh giá

(evaluation) : dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được.

Quá trình phát hiện tri thức

từ cơ sở dữ liệu là một quá trình tương tác và lặp đi lặp lại theo chu trình liên tục kiểu xoáy trôn

ốc, ừong đó

Trang 19

lần lặp sau hoàn chinh hơn lần lặp trước Giai đoạn sau sử dụng kết quả của giai đoạn trước.

Trang 20

1.4 Tiền

xử lý dữ liệu

Quátrình tiền xử

lý dữ liệu,đầu tiên phảinắm đượcdạng dữ liệu,thuộc tính,

mô tả của dữliệu thao tác.Sau đó tiếphành 4 giaiđoạn chính:làm sạch,tích hợp,biến đổi, thugiảm dữ liệu

1.4.1 Dữ liệu

a, Tập

dữ liệu

Mộttập dữ liệu(dataset) là

Trang 21

một tập họp

tượng

(object) vàcác thuộctính củachứng

Mỗithuộc tính(attribute)

mô tả mộtđặc điểm của

tượng

b) Các kiểu tập dữ liệu

Bảnghi (record):Các bản ghitrong cơ sở

dữ liệu quan

hệ Ma trận

dữ liệu Biểudiễn vẽnbản Hay dữ

Trang 22

liệu giaodịch.,,

Đồ thị(graph):World wideweb Mạngthông tin,hoặc mạng

xã hội

Dữliệu có ừậttự: Dữ liệukhông gian(ví dụ: bảnđồ) Dữ liệuthời gian (vídụ: time-series data)

chuỗi (ví dụ:chuỗi giaodịch)

c) Các kiểu giá trị thuộc tính

Kiểuđịnh

Trang 23

danh/chuỗi(norminal):không có thứ

tự Ví dụ:Các thuộctính như :Name,

Profession,

Kiểunhị phân(binary): làmột trườnghợp đặc biệtcủa kiểuđịnh danh.Tập các giátrị chỉ gồm

có 2 giá trị(Y/N, 0/1, T/F)

Kiểu

có thứ tự(ordinal):

Trang 24

Integer,Real, lấygiá trị từ mộttập có thứ tựgiá trị Ví

thuộc tínhlấy giá trị sốnhư : Age,

H e i g h t H a

y lấy mộttập xác định,thuộc tínhIncome lấygiá trị từ tập{low,

medium,high}

Kiểuthuộc tính

valued

(discrete-attributes):

Trang 25

có thể là tậpcác giá trịcủa một tậphữu hạn.Bao gồmthuộc tính cókiểu giá trị là

nguyên, nhịphân

Kiểuthuộc tính

valued

(continuous-attributes):C

ác giá tri làsố

thực

d) Các đặc tính

mô tả của

dữ liệu

Giúp hiểu rõ về dữ

Trang 26

liệu có được:chiều hướng chính/trung tâm, sự biến thiên, sự phân bố.

Sựphân bố của

dữ liệu (datadispersion):

+ Giá

tiểu/cực đại(min/max)

+ Giá

ừị xuất hiệnnhiều nhất(mode)

Trang 28

thu thậpđược, cànxác định cácvấn đề ảnhhưỏng là cho

nó khôngsạch Bởi vì,

không sạch(có chứa lỗi,nhiễu, khôngđầy đủ, cómâu thuẫn)thì các trithức khámphá được sẽ

bị ảnh hưởng

và khôngđáng tin cậy,

sẽ dẫn đếncác quyếtđịnh khôngchính xác

Do đó, càn

Trang 29

gán các giátri thuộc tínhcòn thiếu;sửa chữa các

nhiễu/lỗi;xác địnhhoặc loại bỏcác ngoại lai(outliers);giải quyếtcác mâuthuẫn dữliệu

a, Các vấn đề của

dữ liệu

- Trên thực

tế dữ liệu cóthể chứanhiều lỗi,không hoànchỉnh, cómâu thuẫn

- Khônghoàn chính(incomplete):

Trang 30

Thiếu các giátrị thuộc tínhhoặc thiếumột số thuộctính Ví dụ:

<undefĩned>

- Nhiễu/lỗi(noise/error):Chứa đựngnhững lỗihoặc cácmang các giá

thường Vídụ: salary =

“-525” , giátrị của thuộctính khôngthể là một sốâm

- Mâu thuẫn(inconsistent

Trang 31

đựng cácmâu thuẫn(khôngthống nhất).

Ví dụ: salary

= “abc” ,không phùhọp với kiểu

dữ liệu sốcủa thuộctính salary

b) Ng uồn gốc, lý do của dữ liệu không sạch

- Khônghoàn chỉnh(incomplete): Do giá trịthuộc tínhkhông có(not

Trang 32

available) tạithời điểmđược thuthập Hoặccác vấn gây

ra bởi phàncứng, phầnmềm, hoặcngười thuthập dữ liệu

- Nhiễu/lỗi(noise/error): Do việc thuthập dữ liệu,hoẽc việcnhập dữ liệu,hoặc việctruyền dữliệu

- Mâu thuẫn(inconsistent): Do dữ liệuđược thu

Trang 33

nguồn gốckhác nhau.Hoặc viphạm cácràng buộc(điều kiện)đối với cácthuộc tính.

c) Giả

i pháp khỉ thiếu giá trị của thuộc tính

- Bỏ qua cácbản ghi cócác thuộctính thiếu

Thường ápdụng ừongcác bài toánphân lớp.Hoặc khi tỷ

Trang 34

lệ % các giátrị thiếu đối

thuộc tínhquá lớn

- Một sốngười sẽđảm nhiệmviệc kiểm travà

các

trị thuộc tínhcòn

thiếu, nhưngđòi hỏi chiphí cao vàrất tẻ nhạt

- Gán giá tri

tự động bởimáy tính:+ Gán giá trịmặc định

Trang 35

+ Gán giá trịtrung bìnhcủa thuộctính đó.+ Gán giá trị

có thể xảy ranhất - dựatheo phương

suất

Trang 36

d) Giả

i pháp khỉ dữ liệu chứa nhiễu lỗi

- Phân

khoảng(binnmg):sắp xếp dữliệu và phânchia thànhcác khoảng(bins) có tần

số xuất hiệngiá trị nhưnhau Sau

đó, mỗi

Trang 37

khoảng dữliệu có thểđược biểudiễn bằngtrung bình,trung vị,hoặc cácgiới hạn .của các giátrị trongkhoảng đó.

- Hồi quy(regression):Gắn dữ liệuvới một hàmhồi quy

Trang 39

trị này sẽđược conngười kiểmtra lại.

1.4.3 T ích họp dữ liệu

Tíchhọp dữ liệu

là quá trìnhừộn dữ liệu

từ các nguồnkhác nhauvào một kho

dữ liệu cósẵn cho quátrình khaiphá dữ liệu

Khitích hợp cầnxác địnhthực thể từnhiều nguồn

dữ liệu để

Trang 40

tránh dưthừa dữ liệu.

ra, khi tíchhọp nhiềunguồn Bởicùng mộtthuộc tính(hay cùngmột đốitượng) cóthể mangcác tên khácnhau ừongcác nguồn(cơ sở dữliệu) khác

Ngày đăng: 24/09/2015, 11:33

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Kiến trúc hệ thống khai phá dữ liệu - Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2
Hình 1.1. Kiến trúc hệ thống khai phá dữ liệu (Trang 11)
Bảng  2.1. Ví  dụ  thuật  toán  Apriori Ví dụ 2: Giả - Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2
ng 2.1. Ví dụ thuật toán Apriori Ví dụ 2: Giả (Trang 153)
Hình 3.1. Stf đầ dữ liệu - Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2
Hình 3.1. Stf đầ dữ liệu (Trang 165)
Bảng 3.1. Ví dụ về CSDL điểm của sinh viên Dữ liệu đã được biểu diễn thành  các kí hiệu: - Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2
Bảng 3.1. Ví dụ về CSDL điểm của sinh viên Dữ liệu đã được biểu diễn thành các kí hiệu: (Trang 170)
Bảng 3.3. CSDL điểm đã được mã hóa - Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2
Bảng 3.3. CSDL điểm đã được mã hóa (Trang 171)
Hình 3.2: Nhập thông tin sinh viên - Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2
Hình 3.2 Nhập thông tin sinh viên (Trang 175)
Hình 3.3. Danh mục môn học - Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2
Hình 3.3. Danh mục môn học (Trang 175)
Hình 3.6.1. Kết quả với minsup = 50%, minconf = 80% - Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2
Hình 3.6.1. Kết quả với minsup = 50%, minconf = 80% (Trang 176)
Hình 3.6.2. Kết quả vói mỉnsup = 60%, minconf = 80% - Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2
Hình 3.6.2. Kết quả vói mỉnsup = 60%, minconf = 80% (Trang 177)
Hình 3.6.3. Kết quả với mỉnsup = 70%, minconf = 80% - Khoá luận tốt nghiệp ứng dụng khai phái dữ liệu trợ giúp tư vấn học tập tại trường đại học sư phạm hà nội 2
Hình 3.6.3. Kết quả với mỉnsup = 70%, minconf = 80% (Trang 178)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w