1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Thạc sĩ Công nghệ thông tin: Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên

81 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 2,54 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • Chương 1. Giới thiệu (12)
    • 1.1. Quy trình quản lý đào tạo tại trường CĐ.ANND I (12)
    • 1.2. Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường CĐ.ANND I (0)
    • 1.3. Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục (17)
    • 1.4. Hướng tiếp cận của luận văn (18)
    • 1.5. Kết luận chương 1 (19)
  • Chương 2. Cơ sở lý thuyết (20)
    • 2.1. Khai phá dữ liệu (20)
      • 2.1.1. Khái niệm (20)
      • 2.1.2. Những hướng tiếp cận trong KPDL (21)
      • 2.1.3. Các bước xây dựng một giải pháp về KPDL (0)
      • 2.1.4. Các lĩnh vực ứng dụng của KPDL (0)
    • 2.2. Một số kỹ thuật KPDL trong phân lớp, dự đoán (24)
      • 2.2.1. Cây quyết định (24)
      • 2.2.2. Phân lớp Nạve Bayes (25)
      • 2.2.3. Luật kết hợp (26)
      • 2.2.4 Hồi quy tuyến tính (28)
      • 2.2.5 Mạng nơ-ron nhân tạo (30)
    • 2.3. KPDL với MS SQL Server (32)
      • 2.3.1. Giới thiệu chung (32)
      • 2.3.2. Data Mining eXtensions (34)
      • 2.3.3. Bộ công cụ SQL Server Data Tool – Business Intelligence (38)
      • 2.3.4. Lập trình KPDL với ADODE.NET (39)
      • 2.3.5. Đánh giá tính hiệu quả các mô hình KPDL trong SSDT-BI (40)
    • 2.4. Kết luận chương 2 (41)
  • Chương 3. Giải quyết bài toán (42)
    • 3.1. Phát biểu bài toán (42)
    • 3.2. Mô tả một số giải thuật sử dụng trong bài toán 1 và bài toán 2 (42)
      • 3.2.1. Thuật toán Apriori (42)
      • 3.2.2. Thuật toán C4.5 (44)
      • 3.2.3. Thuật toán hồi quy tuyến tính của Microsoft (45)
      • 3.2.4. Thuật toán Back propagation (47)
    • 3.3. Xây dựng CSDL (0)
    • 3.4. Xây dựng mô hình KPDL (0)
    • 3.5. Lập trình KPDL với ADOMD.NET (64)
    • 3.6. Đánh giá mô hình (66)
      • 3.6.1 Đánh giá mô hình với Lift Chart (66)
      • 3.6.2 Đánh giá mô hình với Classification Matrix (72)
    • 3.7. Xây dựng ứng dụng hỗ trợ tư vấn học tập (0)
    • 3.8. Kết luận chương 3 (78)
  • KẾT LUẬN (79)
  • TÀI LIỆU THAM KHẢO (80)

Nội dung

Mục đích của đề tài này là đi sâu tìm hiểu việc phân tích dữ liệu thông tin cá nhân của sinh viên, kết hợp với kết quả học tập thực tế trong các kỳ nhằm hỗ trợ sinh viên lựa chọn môn học phù hợp, đạt được kết quả cao nhất. Mời các bạn tham khảo!

Giới thiệu

Quy trình quản lý đào tạo tại trường CĐ.ANND I

Quy trình nghiệp vụ quản lý đào tạo cho hệ Cao đẳng tại trường CĐ.ANND

I được tổ chức thực hiện theo Quyết định số 17/VBHN-BGDĐT, ngày 15 tháng

Năm 2014, Bộ trưởng Bộ Giáo dục và Đào tạo đã ban hành Quy chế đào tạo đại học và cao đẳng hệ chính quy theo hệ thống tín chỉ, cùng với Hướng dẫn số 11792/HD-X11-X14 của Tổng cục Chính trị Công an nhân dân để thực hiện quy chế này Quyết định số 499/QĐ-T33(P5) ngày 27 tháng 5 năm 2016 của Hiệu trưởng Trường Cao đẳng An ninh nhân dân I đã quy định về đào tạo cao đẳng hệ chính quy theo hệ thống tín chỉ Lưu đồ được xây dựng nhằm quy định trách nhiệm, phương pháp tổ chức thực hiện và quản lý việc giảng dạy của Phòng Quản lý Đào tạo, các Khoa, Bộ môn và các Phòng chức năng liên quan.

Bước Công đoạn Hồ sơ

1 Quyết định và danh sách thí sinh trúng tuyển các khóa

Quyết định thành lập khoá học

5 Lịch giảng dạy chi tiết

Thành lập khoá học Kết quả tuyển sinh

K hông Lập Thời khoá biểu chi tiết Lập khung thời gian khoá học

Thực hiện công tác giảng dạy

Quản lý tổ chức giảng dạy

Quản lý nội dung giảng dạy

Quản lý tiến độ khoá học

8 Đề thi Bài thi Kết quả thi

Bảng điểm Mạng nội bộ

10 Quy chế xét và cấp bằng tốt nghiệp

Báo cáo tổng hợp tình hình giảng dạy

Hàng năm, dựa trên chỉ tiêu tuyển sinh được Bộ Công an phê duyệt, nhà trường tiến hành công tác tuyển sinh, tổ chức họp xét điểm chuẩn, và lập quyết định cùng danh sách thí sinh trúng tuyển.

Dựa trên danh sách thí sinh trúng tuyển, phòng Quản lý Đào tạo sẽ tiến hành phân lớp và phân công cán bộ quản lý đào tạo theo Quyết định thành lập từng khóa học.

Hàng năm, phòng QLĐT sẽ lập kế hoạch giảng dạy dự kiến cho cả năm học dựa trên chương trình đào tạo và tiến độ của các khóa học.

Bước 4: Cán bộ phòng QLĐT sẽ lập kế hoạch giảng dạy chi tiết cho từng môn học và chuyển đến các khoa đào tạo để phân công giảng viên cũng như đề nghị điều chỉnh lịch nếu cần thiết.

Căn cứ vào kế hoạch lịch giảng của năm học, cán bộ quản lý sẽ lập lịch giảng chi tiết cho các khóa học, bao gồm cả lịch giảng cho toàn bộ năm học, kèm theo phiếu báo lịch giảng cho từng môn học.

- Bước 6: Giảng viên thực hiện theo các lịch giảng chi tiết;

- Bước 7: Quản lí quá trình giảng dạy

Phân cấp trách nhiệm quản lí quá trình giảng dạy

✓ Phân công giảng viên phụ trách các học phần và báo về phòng QLĐT;

Quản lý đánh giá kết quả giảng dạy

Cập nhật & lưu giữ hồ sơ Quản lý kết quả học tập

Kiểm tra giáo trình và giáo án của giảng viên là cần thiết để đảm bảo việc thực hiện lịch trình giảng dạy, đồng thời đánh giá chất lượng giảng dạy và công tác phục vụ giảng dạy.

✓ Nắm khối lượng và tình hình giảng dạy của giảng viên, học tập của sinh viên thông qua Giáo vụ khoa, bộ môn

✓ Chịu trách nhiệm về chất lượng giảng dạy của Khoa, Bộ môn;

✓ Tổ chức sinh hoạt bộ môn theo đúng quy chế của Trường;

+ Giáo vụ khoa, bộ môn

✓ Cập nhật thời khoá biểu, lịch trình, lịch thi;

✓ Theo dõi việc thực hiện công tác giảng dạy và học tập của giảng viên và sinh viên trong Khoa;

✓ Trực kiểm tra việc thực hiện giờ lên lớp theo kế hoạch giảng dạy của năm học;

Kiểm tra tiến độ giảng dạy theo lịch trình và quản lý sổ theo dõi là rất quan trọng Dựa vào việc thực hiện giờ lên lớp, cần thống kê số giờ còn thiếu và yêu cầu dạy bù để đảm bảo đủ số tiết học.

Mỗi tháng, chúng tôi sẽ tổng hợp các trường hợp vi phạm như vắng tiết, quên giờ và bỏ giờ, sau đó lập báo cáo để gửi về phòng Quản lý học viên.

+ Chuyên viên Phòng thanh tra: Có trách nhiệm kiểm tra:

✓ Việc thực hiện giờ lên lớp theo quy định chung;

✓ Tiến độ giảng dạy theo lịch trình giảng dạy;

✓ Việc ghi chép, sử dụng theo biểu mẫu, sổ sách và quản lý giờ giảng + Ban Giám hiệu

Hiệu trưởng, với vai trò Chủ tịch Hội đồng khen thưởng và kỷ luật, có thẩm quyền quyết định hình thức kỷ luật đối với các giảng viên vi phạm Trong các trường hợp nghiêm trọng, Hiệu trưởng sẽ triệu tập họp để xem xét khen thưởng hoặc kỷ luật các đơn vị và cá nhân liên quan.

Quản lí nội dung giảng dạy

Căn cứ vào phân công trách nhiệm, quản lý nội dung giảng dạy gồm: + Quản lý khung chương trình

+ Quản lý đề cương chi tiết của các học phần

+ Quản lý giáo trình, giáo án

+ Đảm bảo số giáo trình, tài liệu tham khảo của các môn học

Sau khi có sự thống nhất của Hội đồng khoa học Khoa hoặc Hội đồng khoa học Trường, việc bổ sung và cập nhật các thay đổi về chương trình giảng dạy là cần thiết.

Quản lý tiến độ giảng dạy

Căn cứ vào phân công trách nhiệm, nội dung quản lý tiến độ gồm:

+ Tại các lớp học lý thuyết, việc thực hiện giờ giảng cho từng môn học được ghi chép vào Sổ theo dõi giảng dạy và học tập

+ Quản lý danh sách giảng viên báo nghỉ dạy và kiểm tra việc thực hiện dạy bù

+ Phòng QLĐT căn cứ vào theo dõi thực hiện thời khoá biểu sẽ thống kê số giờ còn thiếu và yêu cầu giảng viên dạy bù đủ số tiết

Phòng Khảo thí đảm bảo chất lượng thực hiện tổ chức thi hết học phần cho các khóa học, bao gồm việc chuyển đề thi và nhận bài thi theo quy trình phối hợp Đồng thời, phòng cũng tổ chức chấm thi và chuyển điểm về phòng Quản lý Đào tạo đúng thời gian quy định.

Khi nhận bảng điểm từ phòng Khảo thí đảm bảo chất lượng, phòng QLĐT cần photo 2 bản: một bản gửi đến các khoa, bộ môn và một bản công bố cho sinh viên Tổ điểm gốc sẽ nhập điểm vào hệ thống mạng nội bộ.

Bước 10 trong quy trình đào tạo bao gồm việc phòng QLĐT căn cứ vào tiến độ và quy chế của từng khóa học để xét chuyển giai đoạn, điều kiện dự thi tốt nghiệp và xét tốt nghiệp cho học viên Kết quả xét duyệt sẽ được công bố sau khi được Hội đồng thông qua, từ đó phòng QLĐT sẽ thực hiện các bước tiếp theo trong khóa học.

- Bước 11: Cập nhật và lưu trữ hồ sơ

1.2 Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường

Trường Cao đẳng An ninh nhân dân I, trực thuộc Bộ Công an, có nhiệm vụ đào tạo và huấn luyện các chiến sĩ với trình độ cao và phẩm chất chính trị vững vàng, nhằm đáp ứng nhu cầu nhân lực cho lực lượng vũ trang Công an nhân dân Việt Nam.

Về ngành, nghề đào tạo: Trong hơn 50 năm xây dựng và phát triền, nhà

Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục

Khai phá dữ liệu trong giáo dục ngày càng thu hút sự chú ý của các nhà nghiên cứu toàn cầu, đặc biệt thông qua các hội thảo Education Data Mining Năm 2008, hội nghị nghiên cứu quốc tế thường niên về Education Data Mining được thành lập, với hội nghị đầu tiên diễn ra tại Montreal, Quebec, Canada Nhiều công trình và bài báo về Education Data Mining đã được công bố tại hội nghị International Conference on Educational Data Mining hàng năm, góp phần phát triển các kỹ thuật phân tích dữ liệu trong môi trường giáo dục.

Trong "Conceptual Framework of Data Mining Process in Management

In their study "Education in India: An Institutional Perspective," Ranjan J and Khalil S (2008) employed decision trees and Bayesian networks to enhance the admissions process and analyze the quality of education and student outcomes in India Similarly, the research "Data mining for adaptive learning sequence in English language instruction" by Y H Wang, Tseng, and Liao (2009) focuses on utilizing data mining techniques to optimize learning sequences in English language education.

Wang Y., Tseng M và Liao H đã áp dụng cây quyết định để đề xuất trình tự học tối ưu, nhằm nâng cao quá trình học tập và tối đa hóa kết quả cho học sinh Trong bài báo "Recommender system for predicting student performance" của Thai-Nghe N., Drumond L., Krohn-Grimberghe A và Schmidt-Thieme L (2010), các tác giả đã trình bày một phương pháp sử dụng kỹ thuật khai thác dữ liệu, đặc biệt là các kỹ thuật dự đoán hiệu suất học tập của học sinh.

In their 2011 study, Psaromiligkos, Orfanidou, Kytagias, and Zafiri explored the analysis of learners' behavior within web-based learning management systems by mining log data They employed specific rules to effectively interpret this data, contributing valuable insights into how learners interact with online educational platforms.

9 kết hợp để cải thiện quy trình phản hồi liên tục trong suốt quá trình giáo dục

"Application of data mining in academic educational databases for predicting trends and patterns" (Parack, Zahid, & Merchant, 2012) Parack S Merchant và

Zahid F Z đã sử dụng các quy tắc kết hợp và phân cụm để xác định hồ sơ của sinh viên "Improving the Student's Performance Using Educational Data

Mining" (Priya, 2013) đã sử dụng cây quyết định để cải thiện hiệu suất của học sinh trong các khóa học "Data Mining: A prediction for Student's Performance

Using Classification Method" (Badr, Din, & Elaraby, 2014) do Ahmed A và

Elaraby I phát triển, trong đó cây quyết định được sử dụng để dự đoán điểm của học sinh cuối cấp "Educational Data Mining: Performance Evaluation of

Bài báo "Cây Quyết Định và Kỹ Thuật Phân Cụm sử dụng Nền Tảng WEKA" (Saxena, 2015) do tác giả Saxena R phát triển, tập trung vào việc so sánh hiệu suất của cây quyết định và các kỹ thuật phân cụm trong lĩnh vực giáo dục thông qua việc sử dụng công cụ WEKA.

Có nhiều nghiên cứu điển hình ứng dụng kỹ thuật khai thác dữ liệu trong giáo dục, mỗi nghiên cứu tìm kiếm câu trả lời cho tình huống cụ thể trong lĩnh vực này Tri thức được khai phá không chỉ phục vụ người khai thác mà còn hướng tới người sở hữu để sử dụng Do đó, việc ứng dụng khai thác dữ liệu trong giáo dục có thể tập trung vào nhiều tác nhân khác nhau từ các góc nhìn đa dạng.

Hướng tới học viên: tư vấn, đề xuất kinh nghiệm học tập: chọn ngành học, chọn môn học, chọn lộ trình học…

Để hỗ trợ giáo viên, chúng tôi tư vấn và đề xuất các phương pháp giảng dạy phù hợp, dựa trên việc phân loại học viên thành các nhóm theo mức độ khác nhau Chúng tôi chỉ ra những điểm mâu thuẫn và bất thường trong lộ trình học của học viên, đồng thời liệt kê các hoạt động hiệu quả giúp giáo viên cải thiện và xây dựng lại nội dung bài giảng một cách hợp lý, từ đó đạt được kết quả tốt hơn trong quá trình giảng dạy.

Hướng tới nhà quản lý, bài viết nhấn mạnh tầm quan trọng của việc cung cấp phân tích và đánh giá chính xác về kết quả học tập của học viên Qua đó, nhà quản lý có thể xác định định hướng và hoạch định chiến lược đầu tư bồi dưỡng giáo viên hàng năm, phát hiện và hỗ trợ học viên giỏi, cũng như lên kế hoạch nhắc nhở và tăng cường thời gian học cho những học viên yếu.

Hướng tiếp cận của luận văn

Luận văn tập trung vào việc nghiên cứu lý thuyết khai phá dữ liệu thông qua công cụ SSDT-BI do Microsoft phát triển.

Mười thuật toán khai phá dữ liệu được áp dụng để phân tích kết quả học tập của sinh viên tại Cao đẳng ANND Để dự đoán và đưa ra các kết quả học tập, luận văn sử dụng các thuật toán khai thác dữ liệu (KDPL) được hỗ trợ bởi SQL Server.

Tác giả sẽ lựa chọn mô hình dự đoán tốt nhất từ các mô hình đã phân tích và xây dựng chương trình thực nghiệm nhằm hỗ trợ hiệu quả cho quá trình học tập của học viên.

Kết luận chương 1

Chương này trình bày về bài toán thực tế tại Trường Cao đẳng ANND I, nêu rõ các vấn đề cần giải quyết liên quan đến bài toán, đồng thời đề cập đến một số hướng nghiên cứu của KDPL trong giáo dục hiện nay và phương pháp tiếp cận của luận văn.

Cơ sở lý thuyết

Khai phá dữ liệu

Khai phá dữ liệu là tập hợp các kỹ thuật tự động nhằm khám phá và xác định mối quan hệ giữa các dữ liệu trong một tập hợp lớn và phức tạp, đồng thời phát hiện các mẫu tiềm ẩn trong dữ liệu.

Hình 1.1 cho thấy khai phá dữ liệu là một bước trong quá trình KDD (Knowledge Discovery in Database) và KDD được tiến hành qua 6 giai đoạn [3]

Hình 1.1: Quá trình của khai thác tri thức

1 Gom dữ liệu: là bước đầu tiên trong quá trình KPDL bằng việc thu thập dữ liệu từ CSDL, kho dữ liệu hay là từ các Website

2 Trích lọc dữ liệu: Dữ liệu được tuyển chọn hoặc phân chia theo một tiêu chí nhất định dùng cho việc khai tác Ví dụ: chọn ra cá học viên có điểm trung bình học kỳ lớn hơn 7.0 và là người dân tộc thiểu số

3 Làm sạch, tiền xử lý dữ liệu: Là việc xử lý loại bỏ những dữ liệu dư thừa, thiếu logic dẫn tới kết quả bị sai lệch Ví dụ: Điểm Trung bình = 11.5

4 Chuyển đổi dữ liệu: Là đưa dữ liệu về dạng phù hợp, thuận tiện cho khai phá bằng cách nhóm hoặc tập hợp Ví dụ: Điểm TB học kỳ của học viên là biến số, biến định lượng, nếu muốn đánh giá học lực của các học viên chúng ta phải tạo cột dữ liệu mới với biến định danh có giá trị “Giỏi”, “Khá”, “Trung bình”, “ Kém”, “Yếu” được đặt ra bằng cách phân theo điều kiện của mức điểm trung bình

5 Khai phá dữ liệu: Đây là bước thể hiện tư duy trong KPDL Trong giai đoạn này sử dụng các thuật toán, phương pháp, các mô hình phân tích khác nhau như: Decision Tree, Classification, Association, Regression, …mục đích phát hiện, trích xuất các thông tin hữu ích, giá trị tiềm năng từ những mẫu dữ liệu, quy luật và xu hướng dữ liệu

6 Đánh giá luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu hay thông tin thu được từ quá trình khai khác sẽ được đánh giá, xác định mức độ chính xác bằng việc xây dựng các giả thuyết và tiến hành kiểm định, dựa trên mức độ tin cậy và kết quả kiểm định để xem xét Sau đó thể hiện kết quả bằng các công cụ trực quan hóa, sử dụng đồ thị, bảng, biểu đồ để dễ dàng diễn giải kết quả đến người xem

2.1.2 Những hướng tiếp cận trong KPDL

Về cơ bản KPDL được chia theo một số hướng chính sau:

Mục đích của bài viết là giới thiệu những đặc trưng và tính chất của khái niệm, bao gồm các hình thức điển hình như tổng quát hóa, tóm tắt, phát hiện các đặc trưng ràng buộc và tương phản.

Bài toán khai phá luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, giáo dục, viễn thông, tài chính, thị trường chứng khoán…

Phân tích luật kết hợp sẽ khám phá được các luật kết hợp giữa các thuộc tính hay xuất hiện cùng nhau ở trong tập dữ liệu

Ví dụ: “70% nam giới mua bia thì có tới 80% trong số đó sẽ mua thêm lạc” 2.1.2.3 Phân lớp và dự đoán

Phân lớp là một phương pháp phổ biến trong KPDL, cho phép sắp xếp một đối tượng vào các lớp đã biết, chẳng hạn như phân loại vùng địa lý dựa trên dữ liệu thời tiết hoặc phân loại bệnh nhân theo hồ sơ bệnh án Phương pháp này thường sử dụng các kỹ thuật học máy như cây quyết định và mạng nơ ron nhân tạo, và được gọi là học có giám sát (Supervised learning).

Phân cụm dữ liệu là quá trình nhóm các đối tượng dữ liệu thành các cụm, trong đó các đối tượng trong cùng một cụm có sự tương đồng nhất định theo một tiêu chí Trong bài toán phân cụm, việc xác định số lượng và tên của các cụm chưa được xác định rõ ràng.

Phân cụm là một phương pháp trong học không giám sát, nơi các đối tượng được nhóm lại với nhau dựa trên mức độ tương quan cao nhất trong cùng một cụm, trong khi mức độ tương quan giữa các đối tượng ở các cụm khác nhau là thấp nhất.

2.1.2.5 Phân tích chuỗi theo thời gian:

Luật kết hợp trong KPDL được mở rộng với tính thứ tự và thời gian, cho phép mô tả mối quan hệ giữa các biến Cụ thể, luật tuần tự X → Y chỉ ra rằng sự xuất hiện của biến X sẽ dẫn đến biến cố Y Phương pháp này thường được áp dụng trong các lĩnh vực dự báo, đặc biệt là tài chính và thị trường chứng khoán.

2.1.3 Các bước xây dựng một giải pháp về KPDL

Có thể liệt kê ra các bước của một hệ thống KPDL như sau:

- Bước 1: Xác định mục tiêu

- Bước 2: Tổng hợp dữ liệu

- Bước 3: Làm sạch, chuyển đổi dữ liệu

- Bước 4: Tạo mô hình khai phá

- Bước 5: Đánh giá mô hình

- Bước 8: Tích hợp với ứng dụng

- Bước 9: Quản lý mô hình

2.1.4 Các lĩnh vực ứng dụng của KPDL

Khai phá dữ liệu (KPDL) là lĩnh vực thu hút sự chú ý lớn từ các nhà nghiên cứu nhờ vào ứng dụng thực tiễn trong cuộc sống Dưới đây là một số ngành và lĩnh vực mà KPDL mang lại nhiều lợi ích.

Trong lĩnh vực tài chính và ngân hàng, công nghệ hỗ trợ xác định phân khúc khách hàng một cách hiệu quả, dự đoán khả năng vay và trả nợ của từng cá nhân, đồng thời tự động phát hiện và ngăn chặn các giao dịch gian lận cũng như tội phạm tài chính.

Trong lĩnh vực y tế và chăm sóc sức khỏe, việc thu thập và phân tích dữ liệu về nhân khẩu học và hồ sơ bệnh nhân đóng vai trò quan trọng trong việc hỗ trợ kiểm soát các loại dịch bệnh.

Tại các bệnh viện, việc phát hiện mối quan hệ giữa các bệnh và triệu chứng của chúng cùng với các phương pháp chữa trị là rất quan trọng Đồng thời, việc dự đoán khả năng mắc bệnh của bệnh nhân dựa trên các yếu tố rủi ro cũng đóng vai trò quan trọng trong việc nâng cao hiệu quả điều trị.

Một số kỹ thuật KPDL trong phân lớp, dự đoán

Cây quyết định là thuật toán cổ điển được cấu trúc giống như cây, trong đó mỗi nút bên trong biểu thị cho một 'thử nghiệm' trên một thuộc tính cụ thể.

Cây quyết định (Decision Trees) bao gồm các thành phần chính như nút (node), nhánh (branches) và lá (leafs) Mỗi nút biểu thị một thuộc tính hoặc tính năng, trong khi mỗi nhánh thể hiện một quy tắc hoặc quyết định, và mỗi lá đại diện cho một kết quả cụ thể Độ sâu của cây được xác định bởi số cấp, không tính nút gốc.

Hình 2.1: Cấu trúc của cây quyết định

Trong Hình 2.1 chúng ta có thể thấy:

Điểm ngọn trong cây quyết định chứa giá trị của biến đầu tiên được sử dụng để phân nhánh Các điểm bên trong thân cây là những biến chứa các thuộc tính, với giá trị dữ liệu được dùng để xem xét cho các phân nhánh tiếp theo.

Leaf node: là các lá cây chứa giá trị của biến phân loại sau cùng

Branch là quy luật phân nhánh, thể hiện mối quan hệ giữa giá trị của biến độc lập (Internal node) và giá trị của biến mục tiêu (Leaf node).

Trong khai phá dữ liệu và Machine Learning, cây quyết định (Decision tree) được sử dụng để dự báo khả năng xảy ra dựa trên các thông tin đầu vào Ví dụ trong lĩnh vực ngân hàng, cây quyết định giúp dự đoán khả năng khách hàng có thể trả nợ (no default) hoặc không (default) dựa trên các yếu tố như khoản tiết kiệm, thu nhập và tài sản.

Hình 2.2: Cây quyết định dự báo khả năng khách hàng

Nếu khách hàng có khoản tiết kiệm trung bình, họ sẽ không gặp nợ xấu Trong trường hợp khách hàng có khoản tiết kiệm cao, cần xem xét thêm thu nhập; nếu thu nhập trên 10 triệu, khả năng thanh toán nợ sẽ khả quan, ngược lại, khách hàng sẽ gặp khó khăn trong việc trả nợ.

Nhiệm vụ chính của cây quyết định (Decision Tree) là phân loại các đối tượng dữ liệu chưa được phân loại vào các nhóm hoặc lớp phù hợp Đây là một trong những phương pháp khai thác dữ liệu (KPDL) phổ biến nhất trong các dự án nghiên cứu dữ liệu, thuộc loại học có giám sát, mang lại kết quả dự báo và phân loại chính xác, ổn định, đồng thời dễ dàng để diễn giải.

Naive Bayes Classification (NBC) là một thuật toán phân loại dựa trên tính toán xác suất áp dụng định lý Bayes [5]

Định lý Bayes cho phép tính xác suất của sự kiện A xảy ra, dựa trên thông tin rằng sự kiện B đã xảy ra, được ký hiệu là P(A | B) Trong đó, P(A) đại diện cho xác suất của sự kiện A.

A xảy ra và P(B) là xác suất sự kiện B xảy ra Ta có công thức tính xác suất ngẫu nhiên của sự kiện A khi biết B như sau:

Thuật toán Naive Bayes Classification được áp dụng vào trong các loại ứng dụng sau:

1 Real time Prediction: NBC chạy khá nhanh nên nó thích hợp áp dụng ứng dụng nhiều vào các ứng dụng chạy thời gian thực, như hệ thống cảnh báo, các hệ thống trading …

2 Multi class Prediction: Nhờ vào định lý Bayes mở rộng ta có thể ứng dụng vào các loại ứng dụng đa dự đoán, tức là ứng dụng có thể dự đoán nhiều giả thuyết mục tiêu

3 Text classification/ Spam Filtering/ Sentiment Analysis: NBC cũng rất thích hợp cho các hệ thống phân loại văn bản hay ngôn ngữ tự nhiên vì tính chính xác của nó lớn hơn các thuật toán khác Ngoài ra các hệ thống chống thư rác cũng rất ưu chuộng thuật toán này Và các hệ thống phân tích tâm lý thị trường cũng áp dụng NBC để tiến hành phân tích tâm lý người dùng ưu chuộng hay không ưu chuộng các loại sản phẩm nào từ việc phân tích các thói quen và hành động của khách hàng

4 Recommendation System: Naive Bayes Classifier và Collaborative Filtering được sử dụng rất nhiều để xây dựng cả hệ thống gợi ý, ví dụ như xuất hiện các quảng cáo mà người dùng đang quan tâm nhiều nhất từ việc học hỏi thói quen sử dụng internet của người dùng, hoặc như ví dụ đầu bài viết đưa ra gợi ý các bài hát tiếp theo mà có vẻ người dùng sẽ thích trong một ứng dụng nghe nhạc

Khai phá luật kết hợp là một kỹ thuật quan trọng trong khai phá dữ liệu (KPDL), nhằm mục đích tìm ra các mẫu phổ biến và mối quan hệ giữa các tập đối tượng trong cơ sở dữ liệu (CSDL) cũng như các kho thông tin khác.

Luật kết hợp được ứng dụng trong đời sống ở nhiều lĩnh vực khác nhau

18 như: khoa học, kinh doanh thương mại, phân tích thị trường tài chính…

{Bánh mì, bơ} → {Sữa tươi} [2%; 70%]

Luật này chỉ ra rằng trong 70% trường hợp, khi khách hàng mua bánh mì và bơ, họ cũng sẽ mua thêm sữa tươi Mặc dù bánh mì, bơ và sữa tươi chỉ chiếm 2% tổng số giao dịch, nhưng sự kết hợp này cho thấy mối liên hệ mạnh mẽ giữa các sản phẩm.

Các khái niệm cơ bản:

Cơ sở dữ liệu chứa các mặt hàng I = {i1, i2, …, in} với n mục khác nhau Một tập hợp X ⊆ I được định nghĩa là tập mục (itemset) Nếu tập X có k mục, tức là |X| = k, thì nó được gọi là k-itemset.

KPDL với MS SQL Server

Hình 2.7 dưới đây mô tả kiến trúc tổng quan của KPDL với Microsoft SQL Server:

Hình 2.7: Kiến trúc tổng quan KPDL với MS SQL Server

Một số công cụ hỗ trợ KPDL với SQL Server gồm:

- SQL Server Business Intelligence: hỗ trợ từ bản Microsoft Visual Studio

- Bộ công cụ SQL Server 2012 (Analysis Service): ứng dụng hỗ trợ lưu trữ dữ liệu và phân tích dữ liệu

KPDL trong SQL Server bao gồm các loại thuật toán sau:

- Các thuật toán phân loại dự đoán một hoặc nhiều biến rời rạc, dựa trên các thuộc tính khác trong tập dữ liệu

Các thuật toán hồi quy được sử dụng để dự đoán một hoặc nhiều biến số liên tục, chẳng hạn như lãi hoặc lỗ, dựa trên các thuộc tính khác trong tập dữ liệu.

- Các thuật toán phân đoạn chia dữ liệu thành các nhóm hoặc cụm, các mục có các thuộc tính tương tự

Các thuật toán kết hợp giúp xác định mối tương quan giữa các thuộc tính trong tập dữ liệu Một trong những ứng dụng phổ biến nhất của chúng là tạo ra các quy tắc liên kết, thường được sử dụng trong phân tích rổ thị trường.

Các thuật toán phân tích trình tự giúp tóm tắt các chuỗi hoặc tập thường xuyên trong dữ liệu, như chuỗi nhấp chuột trên trang web hoặc các sự kiện nhật ký trước khi bảo trì máy.

Lựa chọn thuật toán tối ưu cho bài toán là một thách thức, và không nên chỉ sử dụng một thuật toán duy nhất Các nhà phân tích có kinh nghiệm thường áp dụng một thuật toán để xác định các yếu tố đầu vào hiệu quả, sau đó dùng một thuật toán khác để dự đoán kết quả dựa trên dữ liệu đó KPDL với SQL Server cho phép xây dựng nhiều mô hình trên một cấu trúc khai thác duy nhất, cho phép sử dụng các thuật toán như phân cụm, cây quyết định và Naive Bayes để có cái nhìn đa dạng về dữ liệu Hơn nữa, chúng ta có thể áp dụng nhiều thuật toán trong cùng một giải pháp để thực hiện các nhiệm vụ khác nhau, chẳng hạn như sử dụng hồi quy để dự báo tài chính và mạng thần kinh để phân tích các yếu tố ảnh hưởng đến dự báo.

Bảng 2.1 sau gợi ý cho chúng ta lựa chọn thuật toán phù hợp cho giải pháp KPDL với Microsoft SQL Server

Bảng 2.1: Lựa chọn các thuật toán KPDL theo mục đích

Nhiệm vụ Thuật toán Microsoft sử dụng

Dự đoán thuộc tính rời rạc

- Đưa ra khách hàng trong danh sách người mua tiềm năng là khách hàng tiềm năng tốt hoặc kém

- Tính xác suất để một máy chủ bị lỗi trong vòng 6 tháng tới

- Phân loại kết quả của bệnh nhân và khám phá các yếu tố liên quan

Dự đoán thuộc tính liên tục

- Dự đoán doanh số năm tới

- Dự đoán khách truy cập trang web theo lịch sử trước đây và theo xu hướng

Dự đoán một trình tự

- Phân tích các yếu tố dẫn đến lỗi máy chủ

Để xây dựng các phương pháp tối ưu cho hoạt động thăm khám bệnh nhân ngoại trú, cần nắm bắt và phân tích chuỗi các hoạt động diễn ra trong quá trình này.

Tìm nhóm của những mục chọn trong các giao dịch

- Đề xuất sản phẩm bổ sung cho khách hàng để mua

Phân tích dữ liệu khảo sát từ khách tham dự sự kiện giúp xác định các hoạt động hoặc gian hàng có liên quan, từ đó lập kế hoạch cho các sự kiện trong tương lai.

Tìm những mục giống nhau

- Tạo nhóm hồ sơ rủi ro bệnh nhân dựa trên các thuộc tính như nhân khẩu học và hành vi

DMX – Data Mining eXtensions là ngôn ngữ truy vấn khai phá dữ liệu được Microsoft phát triển trong OLE DB, nhằm mục đích hỗ trợ quá trình khai thác dữ liệu hiệu quả.

Giống như SQL, hệ thống này hỗ trợ định nghĩa, thao tác và truy vấn dữ liệu với cú pháp tương tự, giúp người dùng SQL dễ dàng làm quen với các câu lệnh.

DMX là ngôn ngữ chuyên dụng cho việc làm việc với các mô hình khai thác dữ liệu, bao gồm 26 động trên các bảng quan hệ Nó được sử dụng để tạo ra cấu trúc cho các mô hình mới, cũng như huấn luyện, duyệt, quản lý và dự đoán DMX bao gồm các câu lệnh ngôn ngữ định nghĩa dữ liệu (DDL), câu lệnh thao tác dữ liệu (DML), cùng với các hàm và toán tử.

Với DDL cho phép chúng ta có thể:

- Tạo mô hình khai thác dữ liệu mới và cấu trúc khai thác với các toán tử như: CREATE MINING STRUCTURE, CREATE MINING MODEL

- Xóa các mô hình khai tác dữ liệu và các cấu trúc khai thác với các toán tử như: DROP MINING STRUCTURE, DROP MINING MODEL

- Kết xuất và nhập cấu trúc khai thác với các toán tử: EXPORT, IMPORT

- Sao chép dữ liệu từ mô hình khác thác này sang mô hình khai thác khác với toán tử: SELECT INTO

Với DML cho phép chúng ta có thể:

- Huấn luyện mô hình khai thác với toán tử: INSERT INTO

- Duyệt dữ liệu trong các mô hình khai thác với toán tử: SELECT FROM

- Đưa ra dự đoán bằng mô hình khai thác với toán tử: SELECT FROM PREDICTION JOIN

DMX là ngôn ngữ chuyển đổi dữ liệu từ bảng với cột và hàng thành định dạng case và attributes, giúp tối ưu hóa cho các thuật toán khai thác dữ liệu Hai đối tượng chính trong quá trình này là cấu trúc khai thác và mô hình khai thác.

Cấu trúc khai thác dữ liệu bao gồm tất cả các mô hình phân tích dữ liệu nguồn, được định nghĩa là danh sách cột chứa kiểu dữ liệu và thông tin mô tả Dữ liệu cần được xử lý dưới dạng phân loại hoặc liên tục, tùy thuộc vào yêu cầu của từng thuật toán Chẳng hạn, thuật toán Microsoft Naive Bayes chỉ chấp nhận dữ liệu phân loại, trong khi thuật toán Microsoft Linear Regression yêu cầu dữ liệu liên tục.

Mô hình khai thác (mining model) đóng vai trò quan trọng trong việc chuyển đổi dữ liệu thành các trường hợp (case) và thực hiện học máy thông qua các thuật toán khai thác dữ liệu đã được chỉ định Nó có thể được xem như là một tập con của các cột dữ liệu.

Trong cấu trúc, 27 được sử dụng như thuộc tính, có thể đóng vai trò là đầu ra, đầu vào hoặc cả hai Các tham số thuật toán và thuật toán sẽ được áp dụng để thực hiện học máy trên dữ liệu cấu trúc.

Trong DMX, "Case" là một ví dụ độc đáo cho thuật toán KPDL, bao gồm một tập hợp thuộc tính với các giá trị liên kết Mỗi "Case" được thể hiện bằng một dòng trong bảng, với các cột đại diện cho các thuộc tính Ví dụ, khi đặt câu hỏi “Các yếu tố của khách hàng ảnh hưởng đến rủi ro tín dụng”, "Case" ở đây là khách hàng, chứa toàn bộ thông tin liên quan đến khách hàng đó.

Attribute là yếu tố cơ bản nhất của một truy vấn KPDL Ví dụ như giới tính một học viên, độ tuổi, điểm số…

Khi chọn thuộc tính cho KPDL, cần chú ý lựa chọn những thuộc tính có khả năng liên quan đến truy vấn và cung cấp thông tin hữu ích cho các thuật toán KPDL, vì nhiều thuộc tính có thể không phù hợp cho mục đích này.

Chúng ta đề cập đến hai loại thuộc tính sau:

Kết luận chương 2

Chương 2 trình bài khái niệm về KDPL, một số thuật toán thường được sử dụng với KDPL ở dạng phân lớn, dự báo đó là: Cây quyết định, Hồi quy tuyến tính, mạng nơ-ron, phân lớp Nạve Bayes, luật kết hợp

Chương 2 của luận văn trình bày về kỹ thuật KPDL trong hệ quản trị cơ sở dữ liệu SQL Server 2012, sử dụng bộ công cụ SSDT-BI của Microsoft và ngôn ngữ DMX Bên cạnh đó, các kỹ thuật lập trình KPDL trên máy client sẽ được thực hiện thông qua thư viện ADOMD.NET trong Analysis Services APIs Hệ thống tư vấn sẽ áp dụng những kỹ thuật này, và phương pháp thực hiện sẽ được giới thiệu chi tiết trong chương 3.

Giải quyết bài toán

Ngày đăng: 10/06/2021, 10:31

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Phan Xuân Hiếu (2013), Bài giảng môn học KPDL và kho dữ liệu, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Bài giảng môn học KPDL và kho dữ liệu
Tác giả: Phan Xuân Hiếu
Năm: 2013
[2] Huỳnh Lý Thanh Nhàn, Nguyễn Thái Nghe (2013), Hệ thống dự đoán kết quả học tập và gợi ý lựa chọn môn học, Hội thảo quốc gia lần thứ XVI: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông- Đà Nẵng Sách, tạp chí
Tiêu đề: Hệ thống dự đoán kết quả học tập và gợi ý lựa chọn môn học
Tác giả: Huỳnh Lý Thanh Nhàn, Nguyễn Thái Nghe
Năm: 2013
[3] Hà Quang Thụy (2010), Bài giảng môn học Kho dữ liệu và KPDL, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Bài giảng môn học Kho dữ liệu và KPDL
Tác giả: Hà Quang Thụy
Năm: 2010
[4] Đỗ Thanh Tùng (2010), Xây dựng hệ thống dự báo phụ tải điện sử dụng mạng Nơron nhân tạo, Trường Đại học dân lập Hải Phòng.Tiếng Anh Sách, tạp chí
Tiêu đề: Xây dựng hệ thống dự báo phụ tải điện sử dụng mạng Nơron nhân tạo
Tác giả: Đỗ Thanh Tùng
Năm: 2010
[5] Gray, G., C. McGuinness, P. Owende. An Application of Classification Models to Predict Learner Progression in Tertiary Education. – In: Advance IEEE International Computing Conference (IACC’14), 2014, pp. 549-554 Sách, tạp chí
Tiêu đề: An Application of Classification Models to Predict Learner Progression in Tertiary Education
[6] Gregory E Cooper , Edward Herskovit (1992), A Bayesian Method for the Induction of Probabilistic Networks from Data. Machine Learning, 9, pp. 309- 347 Sách, tạp chí
Tiêu đề: A Bayesian Method for the Induction of Probabilistic Networks from Data
Tác giả: Gregory E Cooper , Edward Herskovit
Năm: 1992
[7] Jiawei Han and Micheline Kamber (2006), Data Mining Concepts and Techniques, Second Edition. Published by Elsevier Inc Sách, tạp chí
Tiêu đề: Data Mining Concepts and Techniques, Second Edition
Tác giả: Jiawei Han and Micheline Kamber
Năm: 2006
[8] Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis (2010), Knight's Microsoft Business Intelligence 24-Hour Trainer.Published by Wiley Publishing, Inc Sách, tạp chí
Tiêu đề: Knight's Microsoft Business Intelligence 24-Hour Trainer
Tác giả: Brian Knight, Devin Knight, Adam Jorgensen, Patrick LeBlanc, Mike Davis
Năm: 2010
[9] Jamie MacLennan, ZhaoHui Tang, Bogdan Crivat (2008), Data Mining with Microsoft SQL Server 2008. Published by Wiley Publishing, Inc., Indianapolis, Indiana Sách, tạp chí
Tiêu đề: Data Mining with Microsoft SQL Server 2008
Tác giả: Jamie MacLennan, ZhaoHui Tang, Bogdan Crivat
Năm: 2008
[10] Tran, Thi Oanh and Dang, Hai Trieu and Dinh, Viet Thuong and Truong, Thi Minh Ngoc and Vuong, Thi Phuong Thao and Phan, Xuan Hieu (2017), Performance Prediction for Students: A Multi-Strategy Approach.Cybernetics and Information Technologies, 17 (2). pp. 164-182. ISSN 1314-4081 Sách, tạp chí
Tiêu đề: Performance Prediction for Students: A Multi-Strategy Approach
Tác giả: Tran, Thi Oanh and Dang, Hai Trieu and Dinh, Viet Thuong and Truong, Thi Minh Ngoc and Vuong, Thi Phuong Thao and Phan, Xuan Hieu
Năm: 2017
[11] Microsoft SQL Server (2012), Data Mining Extensions (DMX) Reference, SQL Server 2012 Books Online Sách, tạp chí
Tiêu đề: Data Mining Extensions (DMX) Reference
Tác giả: Microsoft SQL Server
Năm: 2012
[12] Rakesh Agrawal, & Ramakrishnan Srikant (1994), Fast algorithms for mining association rules in large databases. Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, pp. 487-499 Sách, tạp chí
Tiêu đề: Fast algorithms for mining association rules in large databases
Tác giả: Rakesh Agrawal, & Ramakrishnan Srikant
Năm: 1994
[13] Scutari, M. (2018), Dirichlet Bayesian network scores and the maximum relative entropy principle. Behaviormetrika, 45, pp. 337–362 Sách, tạp chí
Tiêu đề: Dirichlet Bayesian network scores and the maximum relative entropy principle
Tác giả: Scutari, M
Năm: 2018

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm