1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên

13 450 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dữ Liệu Trực Tuyến Phục Vụ Giảng Dạy Tại Trường Đại Học Chu Văn An, Hưng Yên
Tác giả Trần Thị Bích Thủy
Người hướng dẫn PGS. TS Đỗ Trung Tuấn
Trường học Học Viện Công Nghệ Bưu Chính Viễn Thông
Chuyên ngành Truyền Dữ Liệu Và Mạng Máy Tính
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2010
Thành phố Hà Nội
Định dạng
Số trang 13
Dung lượng 778,2 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hiện tại, việc quản lý điểm của Phòng Đào tạo thực hiện trên bảng tính MS Excel, mặc dù MS Excel là phần mềm hỗ trợ một số công cụ mạnh trong việc tạo báo cáo, thống kê, …nhưng trên thực

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

TRẦN THỊ BÍCH THỦY

PHÂN TÍCH DỮ LIỆU TRỰC TUYẾN PHỤC VỤ

GIẢNG DẠY TẠI TRƯỜNG ĐẠI HỌC CHU VĂN AN, HƯNG YÊN

CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH

MÃ SỐ: 60.48.15

Người hướng dẫn khoa học: PGS TS Đỗ Trung Tuấn

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2010

Trang 2

MỞ ĐẦU

Trong xu thế xã hội hóa giáo dục, ngày càng nhiều các trường Đại học, Cao đằng và Trung học chuyên nghiệp được mở ra để đáp ứng nhu cầu tri thức ngày càng cao của con người dẫn đến việc cạnh tranh gay gắt giữa các Trường trong việc thu hút người học Để làm được điều này, việc nâng cao chất lượng đội ngũ cán bộ, giảng viên, và xây dựng cơ sở vật chất hiện đại là việc cần quan tâm hàng đầu đối với các Trường; đặc biệt là đối với các trường ngoài công lập Do đó, họ cần phải có giải pháp tốt cho chiến lược phát triển giáo dục của mình

Trường Đại học Chu Văn An là trường Đại học Tư thục, chất lượng đầu vào của sinh viên không cao, nên vấn đề là làm thế nào để thu hút được sinh viên là một bài toán khó đối với Hội đồng quản trị và Ban giám hiệu nhà trường Hiện tại, việc quản lý điểm của Phòng Đào tạo thực hiện trên bảng tính MS Excel, mặc dù MS Excel là phần mềm hỗ trợ một số công cụ mạnh trong việc tạo báo cáo, thống kê,

…nhưng trên thực tế vẫn chưa đáp ứng được nhu cầu phân tích dữ liệu ngày càng cao của lãnh đạo nhà Trường Vậy làm thế nào để phân tích được dữ liệu đó và lấy ra các thông tin hữu ích để phục vụ cho công tác đào tạo, đưa ra được chiến lược toàn diện và đúng đắn cho bài toán phát triển nhà Trường Như vậy cần phải có một công cụ tốt để khai thác dữ liệu hiệu quả Xuất phát từ những đặc điểm của nhà trường và nhu

cầu cấp bách trong việc ứng dụng CNTT, tác giả thực hiện đề tài “Phân tích dữ liệu trực tuyến phục vụ

giảng dạy tại trường Đại học Chu Văn An, Hưng Yên” với mong muốn tạo ra một công cụ hữu hiệu phục

vụ, hỗ trợ công tác quản lý đào tạo có hiệu quả, trợ giúp cho các cán bộ quản lý, ban lãnh đạo đưa ra những quyết định đúng đắn kịp thời cho chiến lược nâng cao chất lượng đào tạo trong nhà trường

Đối tượng và phương pháp nghiên cứu: Bằng phương pháp nghiên cứu tài liệu, tác giả tìm hiểu lý

thuyết về hệ trợ giúp quyết định dựa trên dữ liệu và các công cụ phục vụ cho tiến trình trợ giúp quyết định đó

là công cụ OLAP trên kho dữ liệu, thuật toán Apriori tìm kiếm luật kết hợp để xây dựng cơ sở lý luận cho đề tài Từ cơ sở lý luận này, mô hình OLAP được xây dựng để giải quyết bài toán và thuật toán Apriori được cài đặt để tìm luật kết hợp

Bố cục của luận văn: Luận văn gồm 3 chương:

Phần mở đầu là các phân tích nhu cầu ứng dụng CNTT trong trường Đại học Chu Văn An và tính cấp thiết của đề tài

Chương 1: Chương này tác giả trình bày lý thuyết tổng quan nhất về hệ trợ giúp quyết định Tổng

quan về kho dữ liệu và xử lý phân tích trực tuyến là các công cụ trợ giúp cho tiến trình ra quyết định, các bước để xây dựng mô hình OLAP

Chương 2: Xử lý phân tích trực tuyến Chương này tác giả nghiên cứu sâu hơn về công cụ OLAP,

công cụ hữu hiệu cho việc phân tích dữ liệu, đưa ra kiến trúc khối của OLAP, các mô hình OLAP, mô hình

dữ liệu đa chiều

Chương 3: Ứng dụng xử lý phân tích trực tuyến trong bài toán phân loại sinh viên Trường Đại học

Chu Văn An Trong chương này, tác giả tìm hiểu mô hình quản lý điểm thực tế của trường Đại học Chu Văn

An, xây dựng hệ thống OLAP với Bộ quản trị phân tích của SQL server Mô phỏng thuật toán Apriori để đưa

ra một số luật kết hợp Ứng dụng này nhằm đưa ra dự báo hỗ trợ cho công tác ra quyết định

Phần kết luận sẽ tổng kết những kết quả nghiên cứu lý luận và thực tiễn đạt được và chưa đạt của đề tài Từ đó đưa ra kiến nghị và hướng nghiên cứu tiếp theo

Trang 3

Chương 1: TỔNG QUAN 1.1 Tổng quan về hệ trợ giúp quyết định

Khái niệm hệ trợ giúp quyết định được Scott Norton đưa ra năm 1971 với thuật ngữ Hệ thống hỗ trợ

quản lý: “Hệ thống dựa trên sự tương tác máy tính, giúp người ra quyết định dùng các dữ liệu và mô hình để giải các bài toán không có cấu trúc – những bài toán mờ, phức tạp với lời giải không hoàn chỉnh”

Hệ trợ giúp quyết định có vai trò quan trọng trong việc hỗ trợ giúp các nhà ra quyết định giải quyết các vấn đề trong các hoàn cảnh chưa được định nghĩa rõ ràng, các nhà ra quyết định chưa biết rõ vấn đề cũng như giải pháp, tiêu chuẩn để đánh giá sự thành công của lựa chọn Cơ chế hoạt động của các hệ thống trợ giúp quyết định là sự tương tác giữa người dùng và các thành phần của hệ thống Thông thường các hệ thống trợ giúp quyết định được xây dựng để hỗ trợ các giải pháp hoặc đánh giá cơ hội

Nhiệm vụ ra quyết định cần đến quá trình thu thập và chuẩn bị dữ liệu (i) trích dữ liệu từ nhiều nguồn, (ii) làm sạch dữ liệu thô, (iii) chuyển hoá và hợp lại, (iv) tải dữ liệu từ CSDL trợ giúp khác và thường xuyên làm tươi dữ liệu:

i Trích dữ liệu là quá trình thu lượm dữ liệu trong các cơ sở dữ liệu tác nghiệp và các nguồn dữ liệu khác

ii Làm sạch dữ liệu là quá trình tinh chế dữ liệu thô, điền các dữ liệu thiếu theo xu thế trước khi lưu trữ chúng trong cơ sở dữ liệu

iii Chuyển hoá dữ liệu trong hệ thống trợ giúp quyết định là quá trình chuyển dữ liệu từ nhiều nguồn khác nhau về dạng thức phù hợp với yêu cầu của việc ra quyết định

iv Tải dữ liệu gồm các thao tác chuyển hoá và tập hợp dữ liệu vào cơ sở dữ liệu, kiểm tra tính toàn vẹn dữ liệu rồi thiết lập các bảng chỉ số

v Làm tươi dữ liệu là quá trình thường kỳ tải dữ liệu, thường là từng phần của dữ liệu vào cơ sở dữ liệu ra quyết định để các dữ liệu luôn mang tính thời sự

Kho dữ liệu và xử lý phân tích trực tuyến có thể được xem như là các yếu tố cốt lõi của hệ hỗ trợ quyết định, lĩnh vực ngày càng trở thành trọng tâm của nền công nghiệp cơ sở dữ liệu Trong đó, kho dữ liệu đóng vai trò cung cấp dữ liệu và OLAP đóng vai trò phân tích, khai thác các dữ liệu này Nói một cách khác,

để có thể trợ giúp quyết định dựa vào dữ liệu cần xây dựng hai thành phần quan trọng là kho dữ liệu và OLAP

1.2 Kho dữ liệu

Theo W.H.Inmon, người ta thấy: “Một kho dữ liệu là một tập hợp cơ sở dữ liệu tích hợp hướng chủ

đề, dữ liệu thay đổi theo thời gian, không cho phép cập nhật, được thiết kế để hỗ trợ ra quyết định của các nhà quản lý”

Một kho dữ liệu có thể xem như là một hệ thống thông tin với các đặc điểm sau:

i Cung cấp một cái nhìn tích hợp và tổng quan về các doanh nghiệp

ii Kho dữ liệu là một cơ sở dữ liệu được thiết kế cho các tác vụ phân tích, bằng cách sử dụng dữ liệu

từ nhiều ứng dụng

iii Kho dữ liệu hỗ trợ một lượng tương đối nhỏ người dùng với những tương tác khá dài

iv Kho dữ liệu sử dụng theo chiều sâu

v Nội dung của kho dữ liệu được cập nhật định kỳ

vi Kho dữ liệu lưu trữ dữ liệu hiện tại và dữ liệu lịch sử để cung cấp một cái nhìn toàn diện về thông tin

Trang 4

vii Kho dữ liệu lưu trữ một số lượng lớn các bảng

1.3 Xử lý phân tích trực tuyến

Xử lý phân tích trực tuyến chính là việc sử dụng kho dữ liệu cho mục đích trợ giúp quyết định Ý tưởng mô phỏng các chiều trong dữ liệu có thể được mở rộng: một bảng với n thuộc tính có thể được xem như một không gian n chiều Người quản lý thường đặt những câu hỏi mà có thể phân tích trong những phân tích đa chiều Các thông tin này không phải dễ phân tích khi bảng được biểu diễn hai chiều và cơ sở dữ liệu quan hệ chuẩn không thể đáp ứng tốt công việc này Trong trường hợp như vậy, việc sử dụng OLAP tỏ ra thích hợp

1.4 Tiến trình trợ giúp quyết định dựa vào kho dữ liệu và xử lý phân tích trực tuyến

Kho dữ liệu và xử lý phân tích trực tuyến cho chúng ta khám phá dữ liệu để hướng đến việc ra quyết định Nó cho phép chúng ta truy xuất và xem dữ liệu từ nhiều khía cạnh khác nhau Nhưng quan trọng hơn là

hệ thống sẽ cho chúng ta những lối vào bên trong dữ liệu để tìm hiểu, dựa trên chính những đặc tính của dữ liệu Hệ thống cũng sẽ cho chúng ta khoan sâu vào trong dữ liệu để truy xuất được những thông tin chi tiết ở những mức độ khác nhau mà chúng ta có thể cần đến

Hình 1.8: Tiến trình trợ giúp quyết định cho một bài toán cụ thể Trong hình vẽ, các tiến trình được xây dựng một cách tuần tự Trước khi thiết kế mô hình OLAP cho một bài toán, người ta cần xác định rõ yêu cầu của bài toán Các vấn đề được nêu ra căn cứ vào việc tìm hiểu tình huống thực tế một cách khách quan và toàn diện Xây dựng mô hình OLAP cho bài toán thực chất là việc xác định các khối dữ liệu, định nghĩa cấu trúc các chiều và xây dựng các công thức luật cho tính toán Trên cơ sở đó, chúng ta sẽ đặt ra những mục tiêu cần đạt tới để ra quyết định ví dụ như: khắc phục hoặc giảm thiểu hạn chế, cải tiến hiệu quả

Trang 5

Chương 2: XỬ LÝ PHÂN TÍCH TRỰC TUYẾN 2.1 Định nghĩa

Xử lý phân tích trực tuyến là một loại công nghệ phần mềm cho phép các nhà phân tích, quản lý và điều hành có một cái nhìn sâu sắc về dữ liệu một cách nhanh chóng, nhất quán, truy cập tương tác phù hợp với nhiều quan điểm có thể có của thông tin đã được chuyển đổi từ dữ liệu thô để phản ánh các chiều thực của doanh nghiệp mà được hiểu bởi người dùng OLAP là việc sử dụng tập các công cụ đồ hoạ đề người dùng thấy được nhiều chiều của dữ liệu, cho phép phân tích các dữ liệu bằng các kỹ thuật cửa sổ

Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ kho dữ liệu hoặc kho dữ liệu chủ đề sau đó được chuyển thành mô hình đa chiều và được lưu trữ trong một kho dữ liệu đa chiều Các công cụ OLAP lấy dữ liệu trong kho dữ liệu để thực hiện các công việc phân tích đặc biệt, phức tạp theo nhiều chiều để hỗ trợ cho việc ra quyết định

2.2 Kiến trúc khối OLAP

Thành phần cốt lõi của bất kỳ một hệ thống OLAP nào là khối gọi là khối OLAP Để mô tả dữ liệu hình khối, người ta thử tưởng tượng dữ liệu trong bảng sự kiện được phân bố như sau: Đối tượng chính của OLAP là khối, một sự biểu diễn đa chiều của dữ liệu ở mức chi tiết và tổng thể Một khối bao gồm (i) một bảng sự kiện, (ii) một hoặc nhiều bảng chiều, (iii) các đơn vị đo và (iv) các phân hoạch Khối siêu dữ liệu thường được tạo từ một lược đồ hình sao hoặc lược đồ hình hoa tuyết của các bảng trong một cơ sở dữ liệu quan hệ Các đơn vị đo có nguồn gốc từ các bản ghi trong bảng sự kiện và các chiều được bắt nguồn từ các bảng chiều Mỗi đơn vị đo có thể coi như là có một tập các nhãn hoặc các siêu dữ liệu liên kết với nó Một chiều là những gì mô tả cho các nhãn này; nó cung cấp thông tin về đơn vị đo

Hình 2.1: Kiến trúc OLAP

Trang 6

2.3 Phân loại OLAP

Có nhiều cách để phân loại OLAP Các loại OLAP điển hình là: (i) OLAP quan hệ, gọi là ROLAP; (ii) OLAP nhiều chiều, gọi là MOLAP, và (iii) OLAP kết hợp, gọi là HOLAP Từ kiến trúc và dịch vụ của các loại OLAP ta có bảng so sánh sau:

Bảng 2.1: So sánh các loại hình OLAP

2.4 Mô hình dữ liệu đa chiều

Có nhiều cách tiếp cận khác nhau tới việc biểu diễn OLAP, nhưng chung nhất là tiếp cận lưu trữ dữ liệu đa chiều Mô hình dữ liệu đa chiều là một mô hình khái niệm phổ biến ảnh hưởng đến các công cụ đầu cuối trong thiết kế cơ sở dữ liệu, và các công cụ truy vấn cho OLAP Trong một mô hình dữ liệu đa chiều, một tập hợp các đơn vị đo lường là các đối tượng phân tích Mỗi phần trong số các đơn vị đo phụ thuộc vào tập hợp các chiều Các chiều cùng nhau được giả định là duy nhất để xác định các đơn vị đo Do đó, dữ liệu

đa chiều hiển thị một đơn vị đo như là một giá trị trong không gian đa chiều của các chiều Mỗi chiều được

mô tả bằng một tập các thuộc tính Khối OLAP chính là việc xem dữ liệu được chuyển vào cơ sở dữ liệu OLAP xuất phát từ việc truy vấn dữ liệu từ nhiều bảng sự kiện và những bảng chiều Nói cách khác, báo cáo cuối cùng của việc phân tích dữ liệu được kết xuất từ các loại bảng dữ liệu trên, cùng với việc ứng dụng một

số hàm tính toán như tính tổng, max, min,…

Chương 3: ỨNG DỤNG XỬ LÝ PHÂN TÍCH TRỰC TUYẾN ĐỂ

PHÂN LOẠI SINH VIÊN

Thực trạng vấn đề quản lý điểm sinh viên và nhu cầu ứng dụng CNTT của Trường Đại học Chu Văn An:

Hiện nay, trường Đại học Chu Văn An vẫn thực hiện chương trình đào tạo theo niên chế, nên phòng Đào tạo sẽ quản lý trực tiếp việc dạy và học, điểm tổng kết của sinh viên Đầu mỗi kỳ học, phòng Đào tạo lên danh sách các lớp học kèm theo thời khóa biểu của từng kỳ Cuối kỳ học, sinh viên sẽ được tham dự kỳ thi kết thúc học phần đó Kết quả học tập của từng học phần sẽ được xác định bởi các yếu tố: điểm trung bình kiểm tra, điểm thi kết thúc học phần lần 1, điểm thi kết thúc học phần lần 2 (nếu có)

Theo quy chế, sinh viên chỉ được phép thi 2 lần /1môn học Sau lần thi thứ 1, điểm trung bình tạm thời của sinh viên sẽ được tính theo công thức:

Lưu trữ dữ liệu cơ sở Khối Bảng quan hệ Bảng quan hệ

Lưu trữ thông tin tổng hợp Khối Bảng quan hệ Khối

Hiệu suất thực hiện truy vấn Nhanh nhất Chậm nhất Nhanh

Tiêu thụ không gian lưu trữ Nhiều Thấp Trung bình

Trang 7

Điểm trung bình môn = 30% điểm trung bình kiểm tra + 70% điểm thi lần 1 Nếu điểm trung bình môn này < 5 thì sinh viên sẽ phải thi lại lần 2 Vì vậy, mỗi sinh viên có thể có ít nhất là một điểm thi và có nhiều nhất là 2 điểm thi, điểm thi cao nhất trong hai lần thi sẽ là điểm thi được chọn để tính điểm trung bình cho học phần đó Điểm trung bình môn học của sinh viên được tính theo công thức sau:

Điểm trung bình môn học = 30%* trung bình kiểm tra + 70%* (max(điểm thi1, điểm thi 2))

Nếu điểm trung bình môn học của sinh viên dưới 5 thì sinh viên phải học lại môn học đó Ngoài ra, điểm tổng kết toàn khóa của sinh viên được tính như sau:

Điểm tổng kết toàn khóa =

Trên thực tế có rất nhiều công cụ đáp ứng được yêu cầu của người dùng trong việc phân tích, hiển thị dữ liệu ở các mức độ chi tiết hay tổng hợp khác nhau như bảng xoay, hay bảng đồ thị xoay trong phần mềm MS Excel, Matlab, Nhưng nhu cầu thể hiện dữ liệu rất đa dạng, phong phú và vô cùng, nên chúng ta

có thể sử dụng nhiều công cụ mạnh khác để đáp ứng các nhu cầu đó

Phân tích dữ liệu: Kết quả học tập của mỗi sinh viên được đánh giá bằng điểm tổng kết các môn học và điểm trung bình chung của toàn khóa Trường Đại học Chu Văn An có nhiều ngành học, ứng với mỗi ngành học có nhiều lớp học khác nhau và có các môn học thuộc các khối kiến thức khác nhau như khối kiến thức đại cương, khối kiến thức cơ sở ngành và khối kiến thức chuyên ngành Các môn học này ứng với từng ngành học cụ thể và trực tiếp do các khoa quản lý

Hình 3.2: Sơ đồ quan hệ CSDL DIEM Khái niệm về kho dữ liệu là một khái niệm tương đối đầy đủ và khá lớn Trong cơ sở dữ liệu đơn giản như trên chưa đủ để có thể nói tới khái niệm kho dữ liệu, nên trong khuôn khổ của luận văn tác giả chỉ phân tích trên dựa trên kết quả học tập của sinh viên khóa 1 (2006 – 2010) của Trường trong cơ sở dữ liệu Điểm sinh viên Có thể nói đây chỉ là khía cạnh nhỏ trong kho dữ liệu

3.1 Xác định các bảng sự kiện và bảng chiều

sodvht

sodvht

(

Trang 8

Để xây dựng thành công một kho dữ liệu chủ đề thì việc xác định các bảng sự kiện và các bảng chiều rất quan trọng Việc này phụ thuộc vào thông tin được lưu trữ và nhu cầu khai thác thông tin của người sử dụng

1 Tạo các bảng chiều: Bảng chiều gồm có: (i) Bảng nhóm môn học gồm các thông tin: mã nhóm, tên nhóm; (ii) Bảng môn học gồm các thông tin: Mã nhóm, mã môn, tên môn, số đơn vị học trình, kỳ học; (iii) Bảng ngành học gồm các thông tin: mã ngành, tên ngành; (iv) Bảng lớp học: mã ngành, tên lớp, khóa; (v) Bảng hời gian gồm mã thời gian, khóa học, kỳ học, năm học; (vi) Bảng sinh viên gồm các thông tin: số hiệu, họ tên, ngày sinh, lớp, mã giới tính; (vii) Bảng giới tính gồm các thông tin: mã giới tinht, giới tính;

và (viii) Bảng xếp loại học lực gồm các thông tin: mã xếp loại, tên loại học lực Các bảng chiều này sẽ quan hệ với các bảng sự kiện thông qua các trường khóa

2 Tạo các bảng sự kiện: Sau khi các bảng chiều được tạo, ta tạo bảng sự kiện Bảng sự kiện chứa tất cả các khóa chính của các bảng chiều và được sử dụng như là khóa ngoại trong bảng sự kiện để tạo mối liên kết giữa các bảng chiều Bảng sự kiện không có khoá chính của nó mà lấy tập khoá chính của các bảng

chiều làm khóa chính để phân biệt các bản ghi trong nó

Ở đây, các bảng sự kiện sẽ là (i) Bảng sự kiện lưu kết quả học tập của sinh viên; (ii) Bảng sự kiện lưu thông tin sinh viên thi lại; (iii) Bảng sự kiện lưu thông tin sinh viên học lại; (iv) Bảng sự kiện lưu thông tin về kết quả tốt nghiệp của sinh viên; (v) Bảng sự kiện phân loại sinh viên theo từng ngành, từng nhóm môn học…

3.2 Xây dựng các khối OLAP

1 Khối: Một khối bao gồm (i) một bảng sự kiện, (ii) một hoặc nhiều bảng chiều, (iii) các đơn vị

đo và (iv) các phân hoạch Việc xác định các khối dựa trên yêu cầu phân tích của người sử dụng Đối với công việc quản lý điểm, một số yêu cầu có thể đặt ra là:

- Có bao nhiêu sinh viên trượt tốt nghiệp lần 1 của từng ngành cụ thể

- Có bao nhiêu sinh viên phải thi lại trong từng học kỳ theo từng ngành, từng lớp

- Có bao nhiêu sinh viên còn nợ môn học trong từng học kỳ theo từng ngành, từng lớp

- Có bao nhiêu sinh viên có kết quả học tập từ loại khá trở lên trong từng ngành, từng lớp

Với mỗi thông tin được yêu cầu, ta tạo một khối tương ứng để thực hiện công việc tính toán trước

Dữ liệu tổng hợp sẽ được xử lý và lưu sẵn trong các khối, khi cần ta thực hiện truy vấn và trả lời các yêu cầu

được nhanh chóng hơn

2 Chiều: Trên thực tế, dữ liệu của một khối OLAP được tổ chức hoặc nhóm lại theo thông tin trong một chiều Ví dụ, chúng ta muốn xem kết quả học tập của sinh viên trong từng năm hoặc theo từng ngành cụ thể thì yếu tố thời gian hay ngành học chính là các chiều của một khối OLAP

3 Các độ đo: Các độ đo là các trường số liệu đặc thù của các bảng sự kiện Đó chính là số liệu

tổng hợp hoặc chi tiết theo các chiều khác nhau Trong khối phân tích thống kê kết quả học tập, trường Điểm trung bình từng môn học, điểm trung bình theo kỳ học và điểm tổng kết cuối khóa thường được sử dụng làm đơn vị đo Trong khối phanloaisv, trường Tổng số sinh viên là trường đơn vị đo

4 Các phân hoạch: Các phân hoạch đóng vai trò quan trọng trong các bảng khai thác khi khối lượng dữ liệu lớn Nó cho phép phân chia dữ liệu theo một số tiêu thức nào đó Trong các khối dữ liệu của hệ thống điểm của sinh viên, chúng ta có thể thiết kế các phân hoạch dựa vào chiều thời gian Cụ thể, một khối

có thể chứa trong mỗi phân hoạch dữ liệu của mỗi năm trước đó và các phân hoạch cho mỗi kỳ của năm hiện

Trang 9

tại Cuối năm các bảng phân hoạch của hai kỳ học có thể được hợp nhất trong một phân hoạch đơn cho năm học đó

3.3 Xây dựng các công thức luật

Một công việc rất quan trọng không thể thiếu được khi phân tích luật là việc chuẩn hóa và rời rạc hóa dữ liệu

- Chuẩn hóa dữ liệu: là quá trình loại bỏ các thuộc tính dư thừa

- Rời rạc hóa: Chuyển đổi các thuộc tính chưa ở dạng logic về dạng logic (0 hoặc 1)

Bảng dưới đây sẽ cho một ví dụ về một số thuộc tính đã được rời rạc hóa và chuẩn hóa trong CSDL điểm sinh viên Trường Đại học Chu Văn An

Bảng 3.11: Một số thuộc tính đã được rời rạc hóa và chuẩn hóa ở dạng logic Sau khi chuẩn hóa và rời rạc hóa dữ liệu, ta tiến hành cài đặt thuật toán Apriori để tìm ra các luật dựa trên cơ sở nghiên cứu lý thuyết đã được trình bày

3.4 Cài đặt minh họa

Với mong muốn là tìm ra một công cụ để đáp ứng được nhu cầu phân tích thông tin của lãnh đạo nhà Trường, tác giả đã tìm hiểu một số công cụ và lựa chon được một công cụ được coi là phù hợp để thực hiện điều này Tác giả xây dựng hệ thống OLAP với Bộ quản trị phân tích của Microsoft SQL Server 2000, đồng thời biểu diễn dữ liệu bằng công cụ OLAP Browser Pro; đây là công cụ cho phép hiển thị dữ liệu bằng đồ họa, và cuối cùng tác giả thực hiện demo thuật toán Apriori trên ngôn ngữ Visual Basic 2008 để khai thác một số luật kết hợp cho bài toán

Trang 10

Hình 3.5: Tạo khối và chiều cho các khối phanloaisv

Hình 3.9: Tiến trình xử lý khối phanloaisv

Hình 3.10: Kết quả hiển thị dữ liệu

Ngày đăng: 17/02/2014, 09:38

HÌNH ẢNH LIÊN QUAN

Hình 1.8: Tiến trình trợ giúp quyết định cho một bài toán cụ thể  Trong hình vẽ, các tiến trình được xây dựng một cách tuần tự - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Hình 1.8 Tiến trình trợ giúp quyết định cho một bài toán cụ thể Trong hình vẽ, các tiến trình được xây dựng một cách tuần tự (Trang 4)
Hình 2.1: Kiến trúc OLAP - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Hình 2.1 Kiến trúc OLAP (Trang 5)
Bảng 2.1: So sánh các loại hình OLAP - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Bảng 2.1 So sánh các loại hình OLAP (Trang 6)
Hình 3.2: Sơ đồ quan hệ CSDL DIEM Khái  niệm  về  kho  dữ liệu là  một  khái niệm tương  đối đầy đủ  và  khá lớn - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Hình 3.2 Sơ đồ quan hệ CSDL DIEM Khái niệm về kho dữ liệu là một khái niệm tương đối đầy đủ và khá lớn (Trang 7)
Bảng dưới đây sẽ cho một ví dụ về một số thuộc tính đã được rời rạc hóa và chuẩn hóa trong CSDL  điểm sinh viên Trường Đại học Chu Văn An - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Bảng d ưới đây sẽ cho một ví dụ về một số thuộc tính đã được rời rạc hóa và chuẩn hóa trong CSDL điểm sinh viên Trường Đại học Chu Văn An (Trang 9)
Bảng 3.11: Một số thuộc tính đã được rời rạc hóa và chuẩn hóa ở dạng logic  Sau khi chuẩn hóa và rời rạc hóa dữ liệu, ta tiến hành cài đặt thuật toán Apriori để tìm ra các luật dựa  trên cơ sở nghiên cứu lý thuyết đã được trình bày - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Bảng 3.11 Một số thuộc tính đã được rời rạc hóa và chuẩn hóa ở dạng logic Sau khi chuẩn hóa và rời rạc hóa dữ liệu, ta tiến hành cài đặt thuật toán Apriori để tìm ra các luật dựa trên cơ sở nghiên cứu lý thuyết đã được trình bày (Trang 9)
Hình 3.5: Tạo khối và chiều cho các khối phanloaisv - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Hình 3.5 Tạo khối và chiều cho các khối phanloaisv (Trang 10)
Hình 3.9: Tiến trình xử  lý khối phanloaisv - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Hình 3.9 Tiến trình xử lý khối phanloaisv (Trang 10)
Hình 3.13: Kết quả biểu diễn dữ liệu trong OLAP Browser bằng biểu đồ hình tròn - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Hình 3.13 Kết quả biểu diễn dữ liệu trong OLAP Browser bằng biểu đồ hình tròn (Trang 11)
Hình 3.14: Kết quả biểu diễn dữ liệu trong OLAP Browser bằng biểu đồ hình cột - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Hình 3.14 Kết quả biểu diễn dữ liệu trong OLAP Browser bằng biểu đồ hình cột (Trang 11)
Hình 3.15: Thuật toán Apriori thể hiện mối quan hệ giữa sinh viên - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Hình 3.15 Thuật toán Apriori thể hiện mối quan hệ giữa sinh viên (Trang 12)
Bảng 3.12: Một số luật tìm được khi chạy chương trình - Phân tích dữ liệu trực tuyến phục vụ giảng dạy tại trường đại học chu văn an, hưng yên
Bảng 3.12 Một số luật tìm được khi chạy chương trình (Trang 12)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w