Do đó, việc sử dụng khai phá dữ liệu trong phân tích kết quả giáo dục là cần thiết,đặc biệt khi áp dụng vào việc điều chỉnh và mở các lớp học đáp ứng nhu cầu cụ thểcủa học viên, thúc đẩy
TỔNG QUAN
Lý do hình thành đồ án
Thời đại công nghệ 4.0, việc ứng dụng khai phá dữ liệu trong phân tích kết quả giáo dục đã không còn xa lạ Được thực hiện với mục đích nắm bắt và hiểu rõ hơn về các yếu tố ảnh hưởng đến chất lượng giáo dục và hiệu suất học tập của học sinh, điều này là cần thiết vì giáo dục đóng vai trò then chốt trong quá trình phát triển và thành công của mỗi cá nhân cũng như công cuộc xây dựng một xã hội phát triển.
Trung tâm giáo dục HP, chuyên tổ chức các chương trình giáo dục, đào tạo phù hợp với nhu cầu học tập của học viên Tuy nhiên từ sau đại dịch Covid-19, các học viên phải học tập trực tuyến tại nhà dẫn đến chất lượng đầu ra của học viên bị giảm sút, tình trạng các học viên trượt đại học gia tăng Để xác định nguyên nhân chất lượng đầu ra bị giảm sút, trung tâm đã thực hiện khảo sát các thông tin liên quan như thời gian học tập, thời gian rảnh, mức độ sức khỏe và các yếu tố môi trường khác của từng học viên, để tiến hành phân tích sâu hơn cho việc nhận biết các xu hướng và khuôn mẫu tồn tại trong quá trình học tập và phát triển của học viên Điều này sẽ giúp trung tâm hiểu rõ hơn về những vấn đề, những khó khăn mà học viên đang đối mặt, từ đó đưa ra các biện pháp cải thiện chương trình học hiệu quả và thúc đẩy sự phát triển toàn diện của các bạn học viên.
Chính vì vậy chúng em đã chọn đề tài “Ứng dụng RapidMiner để thực hiện khai phá dữ liệu trong khảo sát chất lượng học viên tại trung tâm giáo dục HP” nhằm giải quyết vấn đề trên của trung tâm.
Mục tiêu đồ án
- Tìm hiểu về ứng dụng RapidMiner và các tính năng hỗ trợ trong việc khai phá dữ liệu.
- Năm rõ được ba phương pháp cơ bản trong khai phá dữ liệu: phân lớp, gom cụm, luật kết hợp.
- Thu thập và tiền xử lý dữ liệu về điều kiện hoàn cảnh học tập của học viên tại trung tâm thông qua bộ dữ liệu “student” và “ student_regis”.
- Thực hiện phân tích và báo cáo thống kê về trực quan hóa dữ liệu để khám phá các mối quan hệ và xu hướng liên quan đến học tập và giáo dục.
- Đề xuất các giải pháp nhằm mục tiêu gia tăng chất lượng đầu ra của học viên.
Dự kiến kết quả đạt được
- Tìm hiểu và nắm được các cơ sở lý thuyết về việc khai phá dữ liệu.
- Năm rõ được cách sử dụng các công cụ, các chức năng của ứng dụng RapidMiner dành cho việc khai phá dữ liệu.
- Trình bày kết quả của việc thực hiện khai phá dữ liệu bằng các biểu đồ,bảng số liệu và báo cáo trực quan trên phần mềm RapidMiner.
CƠ SỞ LÝ THUYẾT
Giới thiệu về khai phá dữ liệu
Khai phá dữ liệu (data mining) là quá trình tính toán để tìm ra các mẫu trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ thống cơ sở dữ liệu Đây là một lĩnh vực liên ngành của khoa học máy tính Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp Ngoài bước phân tích thô, nó còn liên quan tới cơ sở dữ liệu và các khía cạnh quản lý dữ liệu, xử lý dữ liệu trước, suy xét mô hình và suy luận thống kê, …
Mục tiêu chính của khai phá dữ liệu là tìm ra thông tin hữu ích từ dữ liệu mà không cần có một mô hình trước hoặc giả định cụ thể Quá trình này có thể bao gồm việc sử dụng các thuật toán máy học, kỹ thuật thống kê, và các phương pháp khác để xác định mẫu, chuỗi, và quy luật trong dữ liệu.
Các ứng dụng của khai phá dữ liệu rất đa dạng, từ việc dự đoán xu hướng thị trường, tư vấn sản phẩm, phát hiện gian lận, đến việc tối ưu hóa quy trình sản xuất và dự đoán chuỗi cung ứng Khai phá dữ liệu cũng đóng vai trò quan trọng trong nhiều lĩnh vực như giáo dục, y tế, tài chính và marketing, giúp tạo ra những quyết định thông minh và hiệu quả.
2.1.2 Vai trò của khai phá dữ liệu trong kinh doanh
Trong lĩnh vực kinh doanh, khai phá dữ liệu (Data Mining) đóng vai trò vô cùng quan trọng bởi nó là công cụ giúp các doanh nghiệp khám phá những mẫu, xu hướng và thông tin quan trọng từ tập dữ liệu của mình Cụ thể, trong môi trường kinh doanh, khai phá dữ liệu đóng vai trò không thể phủ nhận như:
- Phát hiện Mô hình và Xu hướng: Khai phá dữ liệu hỗ trợ việc phát hiện những mô hình và xu hướng tiềm ẩn trong dữ liệu Điều này giúp các doanh nghiệp hiểu rõ hơn về khách hàng, sản phẩm và thị trường, từ đó họ có thể đưa ra các quyết định chiến lược và kinh doanh chính xác hơn.
- Dự đoán và Phân loại: Khai phá dữ liệu cung cấp khả năng dự đoán các xu hướng tương lai và phân loại khách hàng, sản phẩm hoặc dịch vụ vào các
5 nhóm tương ứng Điều này hỗ trợ quyết định về sản xuất, quảng cáo và tiếp thị một cách thông minh và hiệu quả.
- Tối ưu hóa Quy trình: Khai phá dữ liệu cũng đóng vai trò quan trọng trong việc tối ưu hóa quy trình sản xuất, đặc biệt là trong ngành công nghiệp sản xuất Nó giúp doanh nghiệp hiểu rõ hơn về các vấn đề liên quan đến sản xuất và quản lý, từ đó tìm ra các điểm yếu và đưa ra cải tiến cho quy trình sản xuất.
- Phát hiện Gian lận và Rủi ro: Khai phá dữ liệu cung cấp khả năng phát hiện các hành vi gian lận và rủi ro trong hoạt động kinh doanh Nó giúp các doanh nghiệp phát hiện các mẫu bất thường trong dữ liệu và xác định các hành vi lừa đảo hoặc nguy cơ rủi ro khác.
2.1.3 Quy trình khai phá dữ liệu
Quá trình xử lý KPDL được thực hiện theo các bước sau:
Xác định nhiệm vụ: để xác định chính xác vấn đề cần giải quyết trong lĩnh vực sử dụng Data mining, chúng ta cần tiến hành nghiên cứu cẩn thận về mục tiêu kinh doanh và khai phá dữ liệu Đầu tiên, ta cần thiết lập các mục tiêu kinh doanh rõ ràng, như là tối ưu hóa hiệu suất, tăng cường trải nghiệm khách hàng, hoặc dự đoán xu hướng thị trường Xem xét kịch bản khai phá dữ liệu hiện tại Yếu tố nguồn lực, giả định, ràng buộc và
Hình 2.1: Quy trình khai phá dữ liệu các yếu tố quan trọng khác trong đánh giá của bạn Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp
Thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật KPDL có thể hiểu được Các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),… Dữ liệu được thu thập từ nhiều nguồn dữ liệu có sẵn trong tổ chức.
Chọn thuật toán KPDL thích hợp và thực hiện việc KPDL để tìm được các mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường được biểu diễn dưới dạng các luật xếp loại, cây quyết định, luật sản xuất, biểu thức hồi quy,…).
Các mẫu này sau khi được xử lý và diễn giải phải dẫn đến những hành động có ích nào đó được đánh giá bằng một hàm lợi ích Mẫu khai thác được phải có giá trị đối với các dữ liệu mới với độ chính xác Đánh giá kết quả mẫu là giai đoạn cuối cùng trong tiến trình KPDL Trong giai đoạn này, các mẫu dữ liệu được chiết xuất bởi các phần mềm khai phá dữ liệu Không phải bất cứ mẫu nào cũng đều có ích, thậm chí còn bị sai lệch Chính vì vậy, cần phải xác định và lựa chọn những tiêu chuẩn đánh giá sao cho sẽ chiết xuất ra các tri thức cần thiết.
Kho dữ liệu
2.2.1 Kiến trúc luồng dữ liệu
Kiến Trúc Luồng Dữ Liệu (Data Flow Architecture) là một cấu hình lưu trữ dữ liệu trong hệ thống kho dữ liệu, cùng với việc sắp xếp cách dữ liệu chảy từ hệ thống nguồn thông qua các kho lưu trữ dữ liệu này đến các ứng dụng được người dùng cuối sử dụng.
Data store là một hoặc nhiều cơ sở dữ liệu hoặc tệp chứa dữ liệu của kho dữ liệu (data warehouse), được sắp xếp theo một định dạng cụ thể và tham gia vào các quy trình kho dữ liệu Các kho lưu trữ dữ liệu (data stores) là những thành phần quan trọng của kiến trúc luồng dữ liệu
Dựa vào khả năng truy cập của người dùng, có thể phân Data Store thành ba loại:
- Kho lưu trữ dữ liệu giao diện người dùng (user-facing data store): là data store có sẵn cho người dùng cuối và được truy vấn bởi người dùng cuối và ứng dụng người dùng cuối.
- Kho lưu trữ dữ liệu nội bộ (internal data store): là data store được sử dụng nội bộ bởi các thành phần kho dữ liệu để tích hợp, làm sạch, khai thác, và chuẩn bị dữ liệu, và không mở cho truy vấn bởi người dùng cuối và các ứng dụng của người dùng cuối.
- Kho lưu trữ dữ liệu kết hợp (hybrid data store): được sử dụng cho cả cơ chế kho dữ liệu nội bộ và truy vấn bởi người dùng cuối và các ứng dụng người dùng cuối.
Dựa vào định dạng dữ liệu, có thể phân Data Store của kho dữ liệu thành bốn loại:
- Vùng xử lý (stage): là nơi chứa các dữ liệu từ các nguồn khác nhau để chuẩn bị trước khi cho việc chuyển qua các vùng chứa khác trong kho dữ liệu.
- Vùng chứa dữ liệu dạng chuẩn hoá (normalized data store (NDS)): là vùng chứa dữ liệu trung gian sau khi đã được biến đổi và tích hợp từ nhiều nguồn khác nhau (được lưu ở dạng chuẩn 3: là dạng chuẩn 2 và các thuộc tính không phải là khóa phải phụ thuộc vào khóa chính).
- Vùng chứa dữ liệu hoạt động (operational data store (ODS)): là vùng chứa dữ liệu dạng lai (hybrid) giữa vùng chứa dữ liệu hoạt động và cơ sở dữ liệu chứa hoạt động nhằm mục đích nạp dữ liệu vào kho dữ liệu đầu cuối.
- Vùng dữ liệu đa chiều (dimensional data store (DDS)): là kho chứa dữ liệu người dùng cuối dưới dạng một hoặc nhiều cơ sở dữ liệu quan hệ Trong vùng này, nhằm hỗ trợ các ứng dụng, truy vấn và phân tích.
2.2.2 Kho dữ liệu và khai phá dữ liệu trong BI
Kho dữ liệu là một hệ thống lấy (retrieve) và hợp nhất (consolidate) dữ liệu theo định kỳ từ các hệ thống nguồn vào một kho dữ liệu có chiều (dimensional) hoặc kho dữ liệu đã chuẩn hóa (normalized data store). Đó là một loại quản lý dữ liệu hệ thống được thiết kế để cho phép và hỗ trợ kinh doanh thông minh hoạt động BI, đặc biệt là phân tích Data Warehouse chỉ nhằm mục đích thực hiện các truy vấn và phân tích và thường chứa một lượng lớn dữ liệu Dữ liệu trong Data Warehouse thường được lấy từ nhiều nguồn như tệp nhật ký ứng dụng và ứng dụng giao dịch.
Một kho dữ liệu được chuẩn hóa là một hoặc nhiều cơ sở dữ liệu quan hệ có ít hoặc không có sự thừa dữ liệu.
Data Warehouse tập trung và tổng hợp một lượng lớn dữ liệu từ nhiều nguồn. Khả năng phân tích Data Warehouse cho phép các tổ chức thu được những hiểu biết kinh doanh có giá trị từ dữ liệu của họ để cải thiện việc ra quyết định Theo thời gian, nó xây dựng một hồ sơ lịch sử có thể là vô giá đối với các nhà Data Science và nhà phân tích kinh doanh.
Cho dù doanh nghiệp có nhiều mảng kinh doanh được quản lý bởi các hệ thống tác nghiệp khác nhau, nhưng Kho dữ liệu là nơi đã tập hợp (tích hợp) được mọi thông tin về các mảng nghiệp vụ khác nhau để cung cấp một góc nhìn toàn diện Việc tích hợp này còn cung cấp khả năng đánh giá chéo các mảng nghiệp vụ khác nhau để đánh giá sự tương quan giữa chúng.
Một Data Warehouse điển hình thường bao gồm các yếu tố sau:
Một cơ sở dữ liệu quan hệ để lưu trữ và quản lý dữ liệu.
Giải pháp trích xuất, tải và biến đổi ELT để chuẩn bị dữ liệu cho phân tích.
Hình 2.2: Mô tả kho dữ liệu
Khả năng phân tích thống kê, báo cáo và khai thác dữ liệu.
Các công cụ phân tích khách hàng để trực quan hóa và trình bày dữ liệu cho người dùng doanh nghiệp.
Các ứng dụng phân tích khác, phức tạp hơn tạo ra thông tin có thể hành động bằng cách áp dụng khoa học dữ liệu và thuật toán trí tuệ nhân tạo AI hoặc các tính năng đồ thị và không gian cho phép nhiều loại phân tích dữ liệu hơn trên quy mô lớn
Ngôn ngữ được dùng cho kho dữ liệu là ngôn ngữ xử lý phân tích trực tuyến (OLAP – Online Analytical Processing) Đây là ngôn ngữ được tối ưu hóa cho việc truy vấn và báo cáo; tạo điều kiện cho truy vấn nghiệp vụ thông minh Và là cơ sở dữ liệu nhằm xử lý giao dịch trực tuyến (OLTP – On-line transactional processing). OLAP tạo điều kiện xử lý một tập dữ liệu lớn với thời gian tương tác được kéo dài hơn OLAP cũng cho phép người sử dụng có cái nhìn bức tranh toàn cảnh; các con số khủng hoảng từ đó tìm ra xu hướng và nhìn ra bức tranh lớn hơn Ưu điểm của kho dữ liệu:
Kho dữ liệu cho phép người dùng doanh nghiệp nhanh chóng truy cập dữ liệu quan trọng.
Cung cấp thông tin phù hợp về các hoạt động đa chức năng khác nhau Nó cũng hỗ trợ báo cáo và truy vấn đặc biệt.
Giúp tích hợp nhiều nguồn dữ liệu để giảm căng thẳng cho hệ thống sản xuất. Giảm tổng thời gian quay vòng để phân tích và báo cáo Tái cấu trúc và tích hợp giúp người dùng dễ sử dụng hơn để báo cáo và phân tích.
Tiết kiệm thời gian lấy dữ liệu của người dùng từ nhiều nguồn Kho dữ liệu lưu trữ một lượng lớn dữ liệu lịch sử.
Giúp người dùng phân tích các khoảng thời gian và xu hướng khác nhau để đưa ra dự đoán trong tương lai.
Hỗ trợ người sử dụng đưa ra những quyết định hợp lý, nhanh chóng, năng suất cao hơn, thu được lợi nhuận cao hơn…
Nhược điểm kho dữ liệu:
Các phương pháp trong khai phá dữ liệu
Là dạng phân tích dữ liệu nhằm rút trích các mô hình mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu, quá trình này gồm hai bước:
- Bước Học (giai đoạn huấn luyện): xây dựng bộ Phân lớp (classifier) bằng việc phân tích/học tập huấn luyện.
- Bước Phân lớp (classification): Phân lớp dữ liệu/đối tượng mới nếu độ chính xác của bộ Phân lớp được đánh giá là có thể chấp nhận được (acceptable).
Phân lớp trong khai phá dữ liệu là một phương pháp quan trọng được sử dụng để phân loại dữ liệu vào các nhóm hoặc lớp dựa trên các đặc điểm hoặc thuộc tính cụ thể. Đây là một công cụ mạnh mẽ trong lĩnh vực học máy và khai phá dữ liệu, nơi mà mục tiêu chính là dự đoán hoặc phân loại các dữ liệu chưa biết dựa trên những gì đã được học từ dữ liệu huấn luyện.
Phân lớp thường được thực hiện bằng cách sử dụng các thuật toán máy học như cây quyết định, máy vector hỗ trợ (SVM) hoặc mạng nơ-ron Thuật toán này sẽ dựa vào các đặc điểm của dữ liệu đầu vào để xây dựng một mô hình phân lớp, sau đó sử dụng mô hình này để dự đoán lớp của các dữ liệu mới.
Việc phân lớp có thể được áp dụng trong nhiều lĩnh vực khác nhau như nhận dạng ảnh, phân loại email (spam và không spam), dự đoán tiên đoán trong y tế, và
13 nhiều ứng dụng khác Đặc biệt, trong ngành công nghiệp và kinh doanh, phân lớp có thể được sử dụng để tạo ra các hệ thống tự động phân loại khách hàng, dự đoán hành vi tiêu dùng, và tối ưu hóa chiến lược marketing.
Các thuật toán khai phá dữ liệu dạng phân lớp:
Cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng
- Mỗi một nút trong (internal node) tương ứng với một biến.
- Đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó.
- Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đóPhương pháp gom cụm.
Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính Quá trình này được lặp lại một cách đệ quy cho mỗi tập con dẫn xuất Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật (Series Of Rules) Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tượng chưa biết (unseen data). Đặc điểm của cây quyết định: là một cây có cấu trúc, trong đó:
- Root (Gốc): Là nút trên cùng của cây
- Node nội (trong): nút trung gian trên một thuộc tính đơn (hình Oval)
- Nhánh: Biểu diễn các kết quả của kiểm tra trên nút
- Node lá: Biểu diễn lớp hay sự phân phối lớp (hình vuông hoặc chữ nhật).
Naive Bayes là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực máy học và nhiều lĩnh vực khác như trong các công cụ tìm kiếm, các bộ lọc mail.
Nguyên lý của định lý Bayes là một công cụ cơ bản trong xác suất, được sử dụng để tính xác suất của một sự kiện dựa trên kiến thức trước đó về các điều kiện liên quan đến sự kiện đó Trong bài toán phân loại, định lý Bayes được áp dụng để tính xác suất của một mẫu dữ liệu thuộc về một lớp cụ thể, dựa trên các đặc trưng của mẫu đó.
Có một số biến thể của thuật toán Naive Bayes như Multinomial Naive Bayes, Gaussian Naive Bayes và Bernoulli Naive Bayes, mỗi loại phù hợp với các loại dữ liệu khác nhau như dữ liệu rời rạc, liên tục hoặc dạng nhị phân.
Hình 2.4: Đặc điểm của cây ra quyết định
Hình 2.5: Minh họa về Naive Bayes
Một số ví dụ về cách Naive Bayes có thể được áp dụng trong thực tế:
- Phân loại Đánh giá Sản phẩm
- Nhận dạng ngôn ngữ tự nhiên
- Phát hiện Gây rối Mạng (Intrusion Detection)
Mạng Neuron nhân tạo (Artificial Neural Network- ANN) là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật, bao gồm số lượng lớn các Neuron được gắn kết để xử lý thông tin
ANN giống như bộ não con người:
- Được học bởi kinh nghiệm (thông qua huấn luyện)
- Có khả năng lưu giữ những kinh nghiệm hiểu biết (tri thức)
- Sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa biết (unseen data)
Hình 2.6: Mạng Neural Feed-Forward đa tầng
Processing Elements(PE): Các PE của ANN gọi là Neuron, mỗi Nueron nhận các dữ liệu vào (Inputs) xử lý chúng và cho ra một kết quả (output) duy nhất Kết quả xử lý của một Neuron có thể làm Input cho các Neuron khác Kiến trúc chung của một ANN gồm 3 thành phần đó là Input Layer, Hidden Layer và Output Layer.
Trong đó, lớp ẩn (Hidden Layer) gồm các Neuron, nhận dữ liệu input từ các Nueron ở lớp (Layer) trước đó và chuyển đổi các input này cho các lớp xử lý tiếp theo. Trong một ANN có thể có nhiều Hidden Layer.
Inputs: Mỗi Input tương ứng với 1 thuộc tính (attribute) của dữ liệu (patterns).
Giới thiệu về phần mềm Rapid Miner Studio
2.4.1 Tổng quan về phần mềm Rapid Miner Studio
Một số ưu điểm của RapidMiner có thể kể đến như:
- Giao diện người dùng thân thiện: RapidMiner cung cấp một giao diện người dùng dễ sử dụng và trực quan, giúp người dùng từ người mới bắt đầu đến các chuyên gia trong lĩnh vực dữ liệu đều có thể làm việc hiệu quả với công cụ này.
- Hỗ trợ đa nền tảng: RapidMiner hỗ trợ nhiều nền tảng cả Windows, MacOS và Linux, đồng thời cũng cho phép xử lý dữ liệu lớn và tính toán song song, giúp tăng hiệu suất và hiệu quả trong quá trình phân tích dữ liệu.
- Tích hợp nhiều công cụ và thuật toán: RapidMiner cung cấp một loạt các công cụ và thuật toán cho khai phá dữ liệu và học máy, bao gồm cả các công cụ dự báo, phân loại, phân cụm, hồi quy, và rất nhiều khả năng khác.
- Hỗ trợ cộng đồng mạnh mẽ: RapidMiner có một cộng đồng người dùng rộng lớn và tích cực, cung cấp tài liệu phong phú, các bài giảng, hướng dẫn và diễn đàn để người dùng có thể tìm kiếm và chia sẻ kiến thức và kinh nghiệm.
- Khả năng tích hợp dễ dàng: RapidMiner có thể dễ dàng tích hợp với các công cụ và hệ thống khác như các hệ thống quản lý cơ sở dữ liệu, công cụ lập trình, và các nền tảng phân tích dữ liệu khác.
- Miễn phí 1 năm cho đối tượng HSSV: hướng tới hoạt động học tập, RapidMiner cung cấp tất cả chức năng của phiên bản trả phí khi đối tượng người dùng là học sinh sinh viên.
Một số hạn chế của RapidMiner có thể kể đến như:
- Giới hạn của phiên bản miễn phí: Mặc dù RapidMiner cung cấp một phiên bản miễn phí, nhưng phiên bản này có các giới hạn về kích thước số dòng dữ liệu và giới hạn nhiều tính năng so với phiên bản trả phí.
- Yêu cầu nhiều tài nguyên máy tính: Xử lý dữ liệu lớn có thể đòi hỏi tài nguyên máy tính đáng kể, đặc biệt là khi sử dụng các tính năng và thuật toán phức tạp.
- Khó làm quen khi mới bắt đầu sử dụng: Mặc dù giao diện người dùng trực quan, nhưng một số tính năng và thuật toán trong RapidMiner có thể phức tạp và đòi hỏi thời gian và kinh nghiệm để học và sử dụng hiệu quả.
- Hỗ trợ khách hàng còn hạn chế: Mặc dù có cộng đồng mạnh mẽ, nhưng hỗ trợ từ nhà cung cấp có thể không đủ đáp ứng nhu cầu của một số khách hàng hoặc tổ chức lớn.
2.4.2 Cách sử dụng phần mềm
Cách cài đặt phần mềm Để cài đặt phần mềm Rapidminer người dùng cần thực hiện theo các bước sau:
Bước 1: Truy cập vào đường liên kết https://rapidminer.com/
Bước 2: Chọn vào biểu tượng của nút Download ở góc trên bên phải màn hình
Bước 3: Nếu người dùng đã có tài khoản, chỉ cần chọn vào “Sign in” để đăng nhập, ngược lại nếu người dùng chưa có tài khoản, cần thực hiện tạo tài khoản bằng cách ấn vào nút “Register” để tạo một tài khoản mới.
Hình 2.13: Sign in hoặc Register
Bước 4: Điền đầy đủ thông tin mà phần mềm yêu cầu và chọn “Register” sau khi đã điền xong thông tin để đăng ký tài khoản.
Bước 5: Truy cập vào mail mà ta dùng để đăng ký để xác nhận theo hướng dẫn.
Bước 6: Sau khi đã xác nhận thành công, trang web sẽ điều hướng tới giao diện sau đây và ta cần chọn “Downloads” để thực hiện tải về.
Hình 2.16: Giao diện điều hướng sau khi xác nhận mail
Bước 7: Lựa chọn phiên bản phù hợp với thiết bị của người dùng.
Hình 2.17: Lựa chọn phiên bản phù hợp
Bước 8: Sau khi đã tải xuống thành công, ta tiến hành click đúp vào file vừa tải về để khởi chạy Chọn “Next” để hoàn thành các bước cài đặt.
Bước 10: Chọn “Install” để tiến hành cài đặt.
Bước 11: Chọn “Finish” để hoàn thành cài đặt.
Bước 12: Sau khi cài đặt thành công, ta khởi động lại phần mềm RapidMiner Studio và thực hiện đăng nhập bằng tài khoản đã tạo trước đó để có thể sử dụng được phần mềm.
Hình 2.22: Login sau khi cài đặt thành công
Giao diện của phần mềm
Về tổng quan giao diện của phần mềm RapidMiner gồm 5 phần chính
Hình 2.23: Tổng quan giao diện
Tại phần Repository người dùng sẽ có thể mở những dataset Bao gồm các dataset có sẵn đi kèm theo phần mềm khi tải ứng dụng RapidMiner, các dataset người dùng tự import vào, các kết quả thống kê dữ liệu người dùng lưu tại máy local.
Trong RapidMiner Operators được sử dụng để thực hiện các công việc khác nhau trong quá trình xử lý dữ liệu và phân tích Các chức năng cơ bản của Operators bao gồm:
ỨNG DỤNG PHẦN MỀM RAPID MINER
Bộ dữ liệu 1
3.1.1 Mô tả bộ dữ liệu 1
Bộ dữ liệu “student” được thu thập với mục đích phân tích khả năng đậu hay trượt đại học của các học viên ở trung tâm giáo dục HP thông qua nhiều yếu tố khác nhau Với kích thước hơn 600 mẫu tin, gồm có 14 thuộc tính bao gồm các thông tin ngoại vi có liên quan đến học viên như: quy mô gia đình, khu vực sinh sống, nghề nghiệp của bố mẹ…và các yếu tố liên quan đến hành vi của học viên như: thời gian tự học, mức độ đi chơi với bạn bè, thời gian rảnh… được thu thập nhằm giúp ban lãnh đạo của trung tâm giáo dục HP có thể ứng dụng khai phá dữ liệu để đưa ra các định hướng giáo dục mới nhằm phát triển chất lượng, môi trường giáo dục cho học viên. Dưới đây là hình ảnh bộ dữ liệu và bảng chú thích về các cột thuộc tính trong bộ dữ liệu.
Bảng 3.3: Bảng mô tả bộ dữ liệu 1
STT Tên thuộc tính Tên tiếng Việt Tập giá trị
1 Std_id Mã học viên Many Values
2 Sex Giới tính Male (Nam), Female (Nữ)
4 Region Khu vực sinh sống U: Urban (Thành thị),
5 Address Địa chỉ (Tỉnh/TP) HCM
6 Famsize Quy mô gia đình GT3 (Lớn hơn 3),
LE3 (Bé hơn hoặc bằng 3)
7 Pstatus Tình trạng sống chung của bố mẹ.
A: Apart (Sống riêng), T: Together (Sống chung)
8 Fjob Công việc của bố Teacher (Giáo viên),
37 mẹ Non-teacher (Không là giáo viên)
9 Absences Số buổi nghỉ học Many values
Studytime Thời gian tự học 1 4 (1: