1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu về chế độ ăn kiêng Pima Indians Diabetes

24 878 4
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Sử Dụng Phần Mềm Weka Phân Lớp Cho Cơ Sở Dữ Liệu Về Chế Độ Ăn Kiêng Pima Indians Diabetes
Tác giả Tạ Thị Thu Hương
Người hướng dẫn Hồ Nhật Quang
Trường học Học Viện Kỹ Thuật Quân Sự
Chuyên ngành Công Nghệ Thông Tin
Thể loại Báo cáo
Định dạng
Số trang 24
Dung lượng 562,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục lục I-Giới thiệu về công cụ Weka 3 II-Mô tả bài toán 5 III-Áp dụng thuật toán phân lớp cho bài toán 6 1. Mở Weka chọn cơ sở dữ liệu Pima Indians Diabetes : 7 2.Phân lớp sử dụng cây quyết định với J48 7 2.1 Sử dụng tất cả các training cho cây 7 2.2 .Tiến hành thử nghiệm nhiều lần cây trên số lượng dữ liệu khác nhau 13 2. Kết quả chạy thuật toán theo mô hình MultilayerPerceptron của mạng Neuron (Neural network) 20 III-Đánh gía các thuật toán phân lớp 24 I-Giới thiệu về công cụ Weka • Weka là một công cụ phần mềm viết bằng Java,phục vụ lĩnh vực học máy và khai phá dữ liệu • Các tính năng chính - Một tập hợp các công cụ tiền xử lý dữ liệu,các giải thuật học máy,khai phá dữ liệu,và các phương pháp thí nghiệm đánh giá - Giao diện đồ họa(gồm cả tính năng hiển thị hóa dữ liệu) - Môi trường cho phép so sánh các giải thuật học máy và khai phá dữ liệu. • Môi trường chính là môi trường Explorer: Môi trường cho phép sửdụng tấtcảcác khảnăng của WEKA đểMôi trường cho phép sử dụng tất cả các khả năng của WEKA để khám phá

Trang 1

HỌC VIỆN KỸ THUẬT QUÂN SỰ

KHOA CÔNG NGHỆ THÔNG TIN

***********

Báo cáo môn hoc Khai phá dữ liệu

Đề tài: Sử dụng công cụ Weka khai phá bộ dữ liệu Pima Indians Diabetes với

thuật toán phân lớp

Giảng viên hướng dẫn: Hồ Nhật Quang

Họ và tên sinh viên: Tạ Thị Thu HươngLớp : Công nghệ phần mềm 6

Trang 2

Mục lục

I-Giới thiệu về công cụ Weka 3

II-Mô tả bài toán 5

III-Áp dụng thuật toán phân lớp cho bài toán 6

1 Mở Weka chọn cơ sở dữ liệu Pima Indians Diabetes : 7

2.Phân lớp sử dụng cây quyết định với J48 7

2.1 Sử dụng tất cả các training cho cây 72.2 Tiến hành thử nghiệm nhiều lần cây trên số lượng dữ liệu khác nhau 13

2 Kết quả chạy thuật toán theo mô hình MultilayerPerceptron của mạng Neuron (Neural network) 20

III-Đánh gía các thuật toán phân lớp 24

Trang 3

I-Giới thiệu về công cụ Weka

Weka là một công cụ phần mềm viết bằng Java,phục vụ lĩnh vực

học máy và khai phá dữ liệu

Các tính năng chính

- Một tập hợp các công cụ tiền xử lý dữ liệu,các giải thuật học máy,khai phá dữ liệu,và các phương pháp thí nghiệm đánh giá

- Giao diện đồ họa(gồm cả tính năng hiển thị hóa dữ liệu)

- Môi trường cho phép so sánh các giải thuật học máy và khai phá

dữ liệu.

Môi trường chính là môi trường Explorer: Môi trường cho phép sửdụng tấtcảcác khảnăng của WEKA đểMôi trường cho phép sử dụng tất cả các khả năng của WEKA để khám phá dữ liệu

Giao diện:

Trang 4

Khuôn dạng của tập dữ liệu

- Weka chỉ làm việc với các tập tin văn bản text có khuôn dạng Arff

- Dữ liệu có thể được nhập vào(imported) từ một tập tin có khuôn dang : Arff,Cvs

- Dữ liệu cũng có thể được dọc vào từ một địa chỉ UML,hoặc từ một CSDL thông qua JDBC

- Công cụ tiền xử lý dữ liệu được gọi là Filters

Trang 5

Các bộ phân lớp

Các bộphân lớp (Classifiers) của WEKA tương ứng với các mô hình dựđoán các đại lượng kiểu định danhcác mô hình dựđoán các đại lượng kiểu định danh (phân lớp) hoặccác đạilượng kiểusố(hồi quy/dựđoán

II-Mô tả bài toán

Cho dataset về Pima Indians Diabetes (Bệnh tiểu đường ở người Ấn Độ Pima)bộ

Trang 6

Giải thích:

+ Attribute là:thuộc tính

+ Domain là : Miền giá trị của thuộc tính đấy

Thuộc tính Giải thích

Preg Là số lần mang thai của người phụ nữ

Plas Nồng độ Plasma glucose là 2 giờ trong một thử

nghiệm dung nạp glucose

Insu 2-giờ huyết thanh Insulin(là hocmon protein sản sinh trong

tuyế tụy do các tế bào bê ta của biển đảo langerhans)(mu u / ml)

Mass Chỉ số khối cơ thể(Trọng lương kg / (chiều cao m)

^2)Pedi Bệnh tiểu đường phả hệ chức năng

- 768 trường hợp

 Bài toán đặt ra là phải dự đoán được đấu hiệu của bệnh tiểu đường ở phụ nữ

Ấn Độ Pima (những phụ nữ ở đây it nhất là 21 tuổi)

 Để giải quyết bài toán trên em lựa chọn thuật toán phân lớp trên bộ dữ liệu

http://sci2s.ugr.es/keel/dataset_smja.php?cod=862#sub1

III-Áp dụng thuật toán phân lớp cho bài toán

Để phân lớp cho dataset Pima Indians Diabetes em sử dụng

+ Cây quyết định là : J48

Trang 7

+Mô hình MultilayerPerceptron của mạng Neuron (Neural network)

1 Mở Weka chọn cơ sở dữ liệu Pima Indians Diabetes :

Trang 8

2.Phân lớp sử dụng cây quyết định với J48

2.1 Sử dụng tất cả các training cho cây

- Nhấn vào tab Classify chọn thuật toán sử dụng bằng cách nhấn vào nút Choose;

khi cây thư mục hiện thư mục Trees/J48:

-Sau đó sẽ được giao diện có dạng:

Trang 9

Để tiến hành trainning trên toàn bộ dữ liệu ta chọn vào tùy chọn Use tranning set rồi nhấn Start

Ta thu được kết quả hiển thị ở khung Classifier Output như sau:

Trang 10

- Nội dung như sau:

Trang 12

Correctly Classified Instances 646 84.1146 %

- Incorrectly Classified Instances 122 15.8854 %

- Kappa statistic 0.6319

- Mean absolute error 0.2383

- Root mean squared error 0.3452

- Relative absolute error 52.4339 %

- Root relative squared error 72.4207 %

- Total Number of Instances 768

- 0.664 0.064 0.848 0.664 0.745 0.888 tested_positive

- Weighted Avg 0.841 0.241 0.842 0.841 0.836 0.888

Trang 13

-+ Trường hợp phân lóp chính xác : 646 ,chiếm : 84.1146 %

+ Trường hợp phân lớp không chính xác : 122,chiếm : 15.8854 %2.2 Tiến hành thử nghiệm nhiều lần cây trên số lượng dữ liệu khác nhau

* Lần 2: trainning:95%,test:5%

Trang 14

- Kêt quả như sau:

Trang 16

=== Evaluation on test split ===

- === Summary ===

Correctly Classified Instances 33 86.8421 %

- Incorrectly Classified Instances 5 13.1579 %

- Kappa statistic 0.652

- Mean absolute error 0.2167

- Root mean squared error 0.3197

- Relative absolute error 51.9613 %

- Root relative squared error 73.8311 %

- Total Number of Instances 38

- 0.875 0.133 0.636 0.875 0.737 0.91 tested_positive

- Weighted Avg 0.868 0.127 0.894 0.868 0.875 0.91 -

+ Trường hợp phân lớp chính xác : 33,chiếm : 86.8421 %

- + Trường hợp phân lớp không chính xác : 5,chiếm : 13.1579 %

*Lần 3 : trainning:90%,test:10%

Trang 17

=== Run information ===

Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2Relation: pima

Instances: 768Attributes: 9 Preg Plas Pres Skin Insu Mass Pedi Age ClassTest mode: split 90.0% train, remainder test

=== Classifier model (full training set) ===

J48 pruned tree -

Trang 18

Size of the tree : 39

Time taken to build model: 0.03 seconds

=== Evaluation on test split ===

=== Summary ===

Correctly Classified Instances 56 72.7273 %Incorrectly Classified Instances 21 27.2727 %Kappa statistic 0.3571

Mean absolute error 0.3226Root mean squared error 0.4651Relative absolute error 73.039 %Root relative squared error 100.8669 %

Trang 19

Total Number of Instances 77

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class

0.796 0.435 0.811 0.796 0.804 0.766 tested_negative

0.565 0.204 0.542 0.565 0.553 0.766 tested_positive

+ Trường hợp phân lớp chính xác : 56,chiếm : 72.7273 %

+ Trường hợp phân lớp không chính xác : 21,chiếm : 27.2727 %

Trang 20

Time taken to build model: 0.02 seconds

=== Evaluation on test split ===

=== Summary ===

Correctly Classified Instances 289 75.2604 %

Incorrectly Classified Instances 95 24.7396 %

Kappa statistic 0.4286

Mean absolute error 0.3436

Root mean squared error 0.4411

Relative absolute error 75.4789 %

Root relative squared error 93.4559 %

Total Number of Instances 384

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.837 0.417 0.802 0.837 0.819 0.686 tested_negative 0.583 0.163 0.638 0.583 0.609 0.686 tested_positiveWeighted Avg 0.753 0.333 0.748 0.753 0.75 0.686

+ Trường hợp phân lớp chính xác : 289,chiếm : 75.2604 %

+ Trường hợp phân lớp không chính xác : 95,chiếm : 24.7396 %

2 Kết quả chạy thuật toán theo mô hình MultilayerPerceptron của mạng Neuron (Neural network)

- Kết quả thu được:

=== Run information ===

Trang 21

Scheme: weka.classifiers.functions.MultilayerPerceptron -L 0.3 -M 0.2 -N 500 -V 0 -S 0 -E 20 -H a

Test mode: split 50.0% train, remainder test

=== Classifier model (full training set) ===

Trang 22

Attrib Pres -0.6878655373924787 Attrib Skin 2.6430024717575438 Attrib Insu -7.681618576344547 Attrib Mass -11.443886914122457 Attrib Pedi -9.06985894297625 Attrib Age 1.5045413213715022Sigmoid Node 3

Inputs Weights

Threshold -7.21188784528989 Attrib Preg 0.09236982400380009 Attrib Plas -3.7367107539724587 Attrib Pres 5.522262862825767 Attrib Skin -8.478658178297112 Attrib Insu 2.3609843309271907 Attrib Mass 1.6532964816225666 Attrib Pedi 7.931341791323079 Attrib Age 0.7045111967714555Sigmoid Node 4

Inputs Weights

Threshold 0.5933901407761336 Attrib Preg -3.013442150806143 Attrib Plas -15.67762392088708 Attrib Pres -3.198449804399987 Attrib Skin 3.819216705957386 Attrib Insu 0.40088587077580534 Attrib Mass -12.640432686667568 Attrib Pedi -4.47258805795648 Attrib Age 5.635252256320591Sigmoid Node 5

Inputs Weights

Threshold -9.412100092539202 Attrib Preg -0.5246025931615751 Attrib Plas -5.205193571961104 Attrib Pres 3.0440227727148654 Attrib Skin -2.7101298748108746 Attrib Insu 10.219132116837441 Attrib Mass -3.6066262813046777 Attrib Pedi -3.3641530967629523 Attrib Age -14.98958581941248

Trang 23

Time taken to build model: 2.07 seconds

=== Evaluation on test split ===

=== Summary ===

Correctly Classified Instances 303 78.9063 %

Incorrectly Classified Instances 81 21.0938 %

Kappa statistic 0.5068

Mean absolute error 0.2515

Root mean squared error 0.3934

Relative absolute error 55.2438 %

Root relative squared error 83.3552 %

Total Number of Instances 384

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.875 0.386 0.821 0.875 0.847 0.835 tested_negative 0.614 0.125 0.709 0.614 0.658 0.835 tested_positiveWeighted Avg 0.789 0.299 0.784 0.789 0.785 0.835

Trang 24

+ Trường hợp phân lớp chính xác : 303,chiếm : 78.9063 %

+ Trường hợp phân lớp không chính xác : 81,chiếm : 21.0938 %

III-Đánh gía các thuật toán phân lớp

- Sau khi dùng Weka thực hiện phân lớp với các thuật toán ta thấy các tham

số lựa chọn ở lần chạy 2 với J48 là :

+bộ dữ liệu dùng khởi tạo cây 95 %, + bộ dữ liệu test là 5% đạt được +tỉ lệ phân lớp chính xác là 86.8421 %Cho kết quả tốt nhât.Vậy cây quyết định ở lần chạy này sẽ được sử dụng cho bất

kỳ mẫu thử nào sau này

Ngày đăng: 16/12/2013, 15:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w