1. Trang chủ
  2. » Thể loại khác

Cách sử dụng rapidminer

9 6,3K 86
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 855,45 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các xu hướng kỹ thuật số, đi kèm với việc chọn dùng rộng rãi môi trường truyền .... Trong số các công cụ khai phá văn bản nguồn mở, RapidMiner và R ... Bằng cách này, có thể hiểu tâm lý tiêu dùng cơ bản qua các hình ảnh, ...

Trang 1

ỨNG DỤNG RAPIDMINER TRONG XÂY DỰNG MÔ HÌNH QSAR

RapidMiner là phần mềm mã nguồn mở miễn phí dùng cho việc khai phá dữ liệu ứng dụng trong

xử lý, phân tích ,đánh giá và xây dựng mô hình

RapidMiner được sử dụng sau các bước tối thiểu hóa năng lượng và tính toán thông số mô tả phân

tử

Phiên bản phần mềm được sử dụng trong bài này là phiên bản RapidMiner Community Edition 5.2.003

1 Nhập dữ liệu

- Cách 1: File  Import Data

- Cách 2: Operators  Import  Data

2 Xử lý dữ liệu nhập

Data Import Wizard

Step 3: Cột Annotation, chọn giá trị cho hàng tiêu đề là Name

Step 4: Cột compound, chọn attribute là id, Cột pIC50, chọn attribute là label Bỏ chọn các cột không cần thiết

Chọn nơi lưu CSDL

3 Phân chia cơ sở dữ liệu thành tập training và tập testing

- Nhập CSDL vào Process

- Thêm Split Validation vào chuỗi, chọn split ratio là 0.8 (tập training chứa 80% số

chất trong CSDL)

- Thêm chuỗi thực thi vào trong Split Validation:

o Traning

 Thêm lệnh xuất ra file chứa tập training

 Thêm 1 model (Validation yêu cầu 1 model trong nó), trong ví dụ là Lazy Modeling k-NN

o Testing

Trang 2

 Thêm lệnh xuất ra file chứa tập testing

 Thêm Apply Model

 Thêm Performance

- Run

4 Lọc thô thông số mô tả

o Loại các thông số có hầu hết các giá trị bằng 0 (80%)

o Loại bỏ các thông số mô tả có độ lệch chuẩn 0.5

 Remove Useless Attributes, numerical min deviation: 0.5

o Loại bỏ bớt các thông số mô tả có tương quan 0.9

 Remove Correlated Attributes, correlation: 0.9

 Attribute order: random

o Loại các thông số mô tả có tương quan với pIC50 0.07

 Weight by Correlation, squared correlation

 Select by Weights, weight relation: greater, weight: 0.07

5 Chuẩn hóa lại các giá trị thông số mô tả theo tỷ lệ trong khoảng 0-1 (Normalize)

Trang 3

- Normalize, method: range transformation, max: 1, min: 0

6 Lựa chọn thông số mô tả theo thuật toán

(to be continue…)

7 Xây dựng mô hình SVM để dự đoán hoạt tính

- Tối ưu hóa các thông số cho mô hình SVM

Các giá trị cần tối ưu với SVR là C, gamma, epsilon

o Nhập dữ liệu tập training

o Thêm Optimize Parameters (Grid)

 Thêm X-Validation, number of validation: 5, samling type: shuffled sampling

 Thêm Support Vector Machine (LibSVM)

o svm-type: epsilon-SVR

o kernel type: rbf (rbf sẽ cho kết quả chính xác hơn)

o Chọn calculate confidences để tính giá trị hoạt tinh dự đoán

 Thêm Apply Model

 Thêm Performance (Regression), chọn root mean square error

 Thêm Log, chọn file lưu kết quả, chỉnh sửa Log bằng Edit List, thêm các cột C, gamma, epsilon, performance

 Chỉnh sửa Optimize Paremeters Setting

 SVMLib  C, chọn các giá trị từ 50 đến 1000 (tùy chỉnh)

 SVMLib  gamma, chọn các giá trị từ 0.001 đến 0.1 (tùy chỉnh)

Trang 4

 SVMLib  epsilon, chọn các giá trị từ 0.001 đến 0.1 (tùy chỉnh)

Lưu ý: Càng nhiều steps thì sẽ đánh giá càng lâu (tổ hợp)

o Run

o Kết quả xuất ra sẽ cho ta biết giá trị nào là tốt nhất

Trang 6

- Ta xây dựng mô hình trên tập training với các thông số đã được tối ưu

Trang 7

8 Đánh giá mô hình

- Áp dụng mô hình trên tập Testing để dự đoán hoạt tính

o Apply model trên tập Testing

o Áp dụng tương tự như tập training

Trang 8

- Đánh giá chéo mô hình sử dụng X-Validation: Có thể sử dụng phương pháp LOO hay phương pháp đánh giá 5 lần hay 10 lần

Ngày đăng: 16/01/2015, 01:04

TỪ KHÓA LIÊN QUAN

w