1. Trang chủ
  2. » Công Nghệ Thông Tin

Giới thiệu phần mềm WEKA

33 2,3K 15

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 1,6 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Giới thiệu phần mềm WEKA

Trang 1

GIỚI THIỆU PHẦN MỀM

WEKA

Giáo viên hướng dẫn thực hành:

Nguyễn Ngọc Thảo

Trường Đại học Khoa học Tự nhiên

Khoa Công nghệ Thông tin

Trang 2

NỘI DUNG TRÌNH BÀY

Giới thiệu phần mềm Weka

Các chức năng của phần mềm

Tìm hiểu ứng dụng Explorer

Trang 3

NỘI DUNG TRÌNH BÀY

Giới thiệu phần mềm Weka

Các chức năng của phần mềm

Tìm hiểu ứng dụng Explorer

Trang 4

LỊCH SỬ PHÁT TRIỂN

WEKAWaikato Environment for

Knowledge Analysis

Là phần mềm khai thác dữ liệu, thuộc dự án nghiên cứu của đại học Waikato, New Zealand

Mục tiêu: xây dựng một công cụ hiện đại nhằm phát triển các kỹ thuật máy học và áp dụng chúng vào bài toán khai thác dữ liệu trong thực tế

Trang 5

LỊCH SỬ PHÁT TRIỂN

1993 – Đại học Waikato, New Zealand, khởi động dự án, xây dựng phiên bản đầu tiên của Weka

1997 – Quyết định xây dựng lại Weka từ đầu bằng Java, có cài đặt các thuật toán mô hình hóa

2005 – Weka nhận giải thưởng SIGKDD Data Mining and Knowledge Discovery Service Award

Trang 7

TRANG CHỦ WEKA

Trang chủ: http://www.cs.waikato.ac.nz/ml/weka/

Trang 8

TRANG CHỦ WEKA

Thành phần nhân sự

Bài báo công bố Tài liệu tham khảo

Hướng dẫn sử dụng Các tập dữ liệu

Trang 9

CÁC PHIÊN BẢN WEKA

Snapshots là các bản vá lỗi mới nhất, thường là được cập nhật

hàng đêm

Developer versions là các phiên bản thử nghiệm, hỗ trợ nhiều tính

năng mới nhưng còn chưa ổn định

Book versions là các phiên bản thể hiện những chức

năng được mô tả trong quyển sách Data Mining:

Practical Machine Learning Tools and Techniques

(2nd Edition) của Ian.H.Witten và Eibe Frank.

Trang 10

NỘI DUNG TRÌNH BÀY

Giới thiệu phần mềm Weka

Các chức năng của phần mềm

Hướng dẫn sử dụng ứng dụng Explorer

Trang 12

KHẢO SÁT DỮ LIỆU

Trang 13

THỰC NGHIỆM MÔ HÌNH

Experimenter: là ứng dụng con cung cấp môi trường thực nghiệm

để kiểm chứng các mô hình học, so sánh với nhau để đánh giá

Trang 14

KẾT NỐI THÔNG TIN

ArffViewer: là ứng dụng con trình bày nội dung tập dữ liệu có định dạng *.ARFF thành bảng dữ liệu

SqlViewer: cho phép kết nối với cơ sở dữ liệu (MySQL, PostGre…)

và truy vấn để lấy thông tin

Trang 15

BIỂU DIỄN TRỰC QUAN

Weka hỗ trợ người dùng biểu diễn trực quan dữ liệu qua những dạng biểu đồ thông dụng: biểu đồ trục, cây, đồ thị, biểu đồ vùng…

Trang 16

BIỂU DIỄN TRỰC QUAN

Trang 17

BIỂU DIỄN TRỰC QUAN

Trang 18

NỘI DUNG TRÌNH BÀY

Giới thiệu phần mềm Weka

Các chức năng của phần mềm

Tìm hiểu ứng dụng Explorer

Trang 19

CÁC CHỨC NĂNG

Tiền xử lý

dữ liệu

Khai thác LKH

Gom Chọn lọc thuộc tính

Trang 20

TIỀN XỬ LÝ DỮ LIỆU

Hiển thị thông tin về dữ liệu đang xét

Tập dữ liệu: tên, số mẫu, số thuộc tính

Các thuộc tính: tên, kiểu dữ liệu, giá trị thuộc tính, tỷ lệ %

Biểu đồ minh họa thông tin

Cung cấp các bộ lọc dữ liệu thông dụng, ví dụ:

ReplaceMissingValues: thay thế giá trị thiếu

Normalize: chuẩn hóa dữ liệu về đoạn [0, 1]

Discretize: rời rạc hóa dữ liệu

Trang 21

TIỀN XỬ LÝ DỮ LIỆU

Trang 23

KHAI THÁC LUẬT KẾT HỢP

Trang 24

PHÂN LỚP

Cung cấp rất nhiều thuật tốn phân lớp, được gom thành các nhĩm dựa trên cơ sở lý thuyết hoặc chức năng

Bayes: mạng Bayes, Nạve Bayes

Hàm: SVM, các phương pháp hồi quy, hậu tuyến tính…

Cây: ID3, C4.5 (J58)…

Các phương pháp phân lớp dựa trên luật

Bagging, AdaBoost…

Trang 25

PHÂN LỚP

Trang 27

GOM NHÓM

Trang 28

CẤU TRÚC TẬP TIN ARFF

ARFF là định dạng dữ liệu chuyên biệt của Weka, tổ chức dữ liệu

theo cấu trúc được qui định trước

Cấu trúc tập tin *.ARFF bao gồm các thành phần:

Header: chứa khai báo quan hệ, danh

sách các thuộc tính (tên, kiểu dữ liệu)

Data: gồm nhiều dòng, mỗi dòng thể hiện

giá trị của các thuộc tính cho một mẫu

HEADER

DATA

Trang 29

CẤU TRÚC TẬP TIN ARFF

% This is a relation about wather

@relation weather

@attribute outlook {sunny, overcast, rainy}

@attribute temperature real

@attribute humidity real

@attribute windy {TRUE, FALSE}

@attribute play {yes, no}

Trang 30

CẤU TRÚC TẬP TIN ARFF

Các kiểu dữ liệu được hỗ trợ trong ARFF bao gồm

numeric: là kiểu dữ liệu số, gồm real và integer

nominal: là kiểu dữ liệu danh sách

string: là kiểu dữ liệu dạng chuỗi

date: kiểu dữ liệu thời gian (ngày tháng năm, giờ phút giây…)

Trang 31

CẤU TRÚC TẬP TIN ARFF

@relation nhanvien

@attribute hoten string

@attribute ngaysinh date "dd/MM/yy"

@attribute gioitinh {nam, nu}

@attribute hesoluong real

@data

'Nguyen Van A', 10/12/1957, nam, 1.34

'Tran Thi B', ?, nu, 1.5

Trang 32

CẤU TRÚC TẬP TIN ARFF

Dòng ghi chú được bắt đầu bằng dấu %

Dữ liệu thiếu được biểu diễn bằng dấu ?

Chuỗi nếu có khoảng trắng phải đặt trong dấu nháy đơn

Các giá trị trong phần data phải tuyệt đối theo đúng thông tin đã khai báo trong header

Ngày đăng: 25/07/2015, 12:16

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w