Giới thiệu phần mềm WEKA
Trang 1GIỚI THIỆU PHẦN MỀM
WEKA
Giáo viên hướng dẫn thực hành:
Nguyễn Ngọc Thảo
Trường Đại học Khoa học Tự nhiên
Khoa Công nghệ Thông tin
Trang 2NỘI DUNG TRÌNH BÀY
Giới thiệu phần mềm Weka
Các chức năng của phần mềm
Tìm hiểu ứng dụng Explorer
Trang 3NỘI DUNG TRÌNH BÀY
Giới thiệu phần mềm Weka
Các chức năng của phần mềm
Tìm hiểu ứng dụng Explorer
Trang 4LỊCH SỬ PHÁT TRIỂN
WEKA – Waikato Environment for
Knowledge Analysis
Là phần mềm khai thác dữ liệu, thuộc dự án nghiên cứu của đại học Waikato, New Zealand
Mục tiêu: xây dựng một công cụ hiện đại nhằm phát triển các kỹ thuật máy học và áp dụng chúng vào bài toán khai thác dữ liệu trong thực tế
Trang 5LỊCH SỬ PHÁT TRIỂN
1993 – Đại học Waikato, New Zealand, khởi động dự án, xây dựng phiên bản đầu tiên của Weka
1997 – Quyết định xây dựng lại Weka từ đầu bằng Java, có cài đặt các thuật toán mô hình hóa
2005 – Weka nhận giải thưởng SIGKDD Data Mining and Knowledge Discovery Service Award
Trang 7TRANG CHỦ WEKA
Trang chủ: http://www.cs.waikato.ac.nz/ml/weka/
Trang 8TRANG CHỦ WEKA
Thành phần nhân sự
Bài báo công bố Tài liệu tham khảo
Hướng dẫn sử dụng Các tập dữ liệu
Trang 9CÁC PHIÊN BẢN WEKA
Snapshots là các bản vá lỗi mới nhất, thường là được cập nhật
hàng đêm
Developer versions là các phiên bản thử nghiệm, hỗ trợ nhiều tính
năng mới nhưng còn chưa ổn định
Book versions là các phiên bản thể hiện những chức
năng được mô tả trong quyển sách Data Mining:
Practical Machine Learning Tools and Techniques
(2nd Edition) của Ian.H.Witten và Eibe Frank.
Trang 10NỘI DUNG TRÌNH BÀY
Giới thiệu phần mềm Weka
Các chức năng của phần mềm
Hướng dẫn sử dụng ứng dụng Explorer
Trang 12KHẢO SÁT DỮ LIỆU
Trang 13THỰC NGHIỆM MÔ HÌNH
Experimenter: là ứng dụng con cung cấp môi trường thực nghiệm
để kiểm chứng các mô hình học, so sánh với nhau để đánh giá
Trang 14KẾT NỐI THÔNG TIN
ArffViewer: là ứng dụng con trình bày nội dung tập dữ liệu có định dạng *.ARFF thành bảng dữ liệu
SqlViewer: cho phép kết nối với cơ sở dữ liệu (MySQL, PostGre…)
và truy vấn để lấy thông tin
Trang 15BIỂU DIỄN TRỰC QUAN
Weka hỗ trợ người dùng biểu diễn trực quan dữ liệu qua những dạng biểu đồ thông dụng: biểu đồ trục, cây, đồ thị, biểu đồ vùng…
Trang 16BIỂU DIỄN TRỰC QUAN
Trang 17BIỂU DIỄN TRỰC QUAN
Trang 18NỘI DUNG TRÌNH BÀY
Giới thiệu phần mềm Weka
Các chức năng của phần mềm
Tìm hiểu ứng dụng Explorer
Trang 19CÁC CHỨC NĂNG
Tiền xử lý
dữ liệu
Khai thác LKH
Gom Chọn lọc thuộc tính
Trang 20TIỀN XỬ LÝ DỮ LIỆU
Hiển thị thông tin về dữ liệu đang xét
Tập dữ liệu: tên, số mẫu, số thuộc tính
Các thuộc tính: tên, kiểu dữ liệu, giá trị thuộc tính, tỷ lệ %
Biểu đồ minh họa thông tin
Cung cấp các bộ lọc dữ liệu thông dụng, ví dụ:
ReplaceMissingValues: thay thế giá trị thiếu
Normalize: chuẩn hóa dữ liệu về đoạn [0, 1]
Discretize: rời rạc hóa dữ liệu
Trang 21TIỀN XỬ LÝ DỮ LIỆU
Trang 23KHAI THÁC LUẬT KẾT HỢP
Trang 24PHÂN LỚP
Cung cấp rất nhiều thuật tốn phân lớp, được gom thành các nhĩm dựa trên cơ sở lý thuyết hoặc chức năng
Bayes: mạng Bayes, Nạve Bayes
Hàm: SVM, các phương pháp hồi quy, hậu tuyến tính…
Cây: ID3, C4.5 (J58)…
Các phương pháp phân lớp dựa trên luật
Bagging, AdaBoost…
Trang 25PHÂN LỚP
Trang 27GOM NHÓM
Trang 28CẤU TRÚC TẬP TIN ARFF
ARFF là định dạng dữ liệu chuyên biệt của Weka, tổ chức dữ liệu
theo cấu trúc được qui định trước
Cấu trúc tập tin *.ARFF bao gồm các thành phần:
Header: chứa khai báo quan hệ, danh
sách các thuộc tính (tên, kiểu dữ liệu)
Data: gồm nhiều dòng, mỗi dòng thể hiện
giá trị của các thuộc tính cho một mẫu
HEADER
DATA
Trang 29CẤU TRÚC TẬP TIN ARFF
% This is a relation about wather
@relation weather
@attribute outlook {sunny, overcast, rainy}
@attribute temperature real
@attribute humidity real
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
Trang 30CẤU TRÚC TẬP TIN ARFF
Các kiểu dữ liệu được hỗ trợ trong ARFF bao gồm
numeric: là kiểu dữ liệu số, gồm real và integer
nominal: là kiểu dữ liệu danh sách
string: là kiểu dữ liệu dạng chuỗi
date: kiểu dữ liệu thời gian (ngày tháng năm, giờ phút giây…)
Trang 31CẤU TRÚC TẬP TIN ARFF
@relation nhanvien
@attribute hoten string
@attribute ngaysinh date "dd/MM/yy"
@attribute gioitinh {nam, nu}
@attribute hesoluong real
@data
'Nguyen Van A', 10/12/1957, nam, 1.34
'Tran Thi B', ?, nu, 1.5
Trang 32CẤU TRÚC TẬP TIN ARFF
Dòng ghi chú được bắt đầu bằng dấu %
Dữ liệu thiếu được biểu diễn bằng dấu ?
Chuỗi nếu có khoảng trắng phải đặt trong dấu nháy đơn
Các giá trị trong phần data phải tuyệt đối theo đúng thông tin đã khai báo trong header