1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận Khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu Abalone( bào ngư) với thuật toán phân lớp

15 1,9K 8
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka khai phá bộ dữ liệu Abalone (bào ngư) với thuật toán phân lớp
Tác giả Phan Tuấn Linh
Người hướng dẫn Hồ Nhật Quang
Chuyên ngành Khai phá dữ liệu
Thể loại Báo cáo môn học
Định dạng
Số trang 15
Dung lượng 586,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mô tả bài toánDự đoán tuổi của bào ngư từ các phép đo vật lý. Độ tuổi của bào ngư xác định thông qua việc cắt vỏ nón, nhuộm nó, và đếm số vòng qua kính hiển vi , đây một công việc nhàm chán và tốn thời gian. Các phép đo khác, được dễ dàng hơn để có được, được sử dụng để dự đoán tuổi. Thông tin chi tiết, chẳng hạn như mô hình thời tiết và vị trí (do đó thức ăn sẵn có) có thể được yêu cầu để giải quyết vấn đề.II. Các thuộc tínhCó 9 thuộc tínhTên thuộc tínhKiểu dữ liệuĐơn vị đoMô tảSex (Giới tính)nominalCon đực, cái và trứng (M, F, I ((infant))Length (Chiều dài)continuousmmĐộ dài của bào ngưDiameter (Đường kính)continuousmmĐường kínhHeight (Chiều cao)continuousmmChiều cao Whole weight (Trọng lượng toàn cơ thể)continuousgramsTrọng lượng 1 con bào ngưShucked weight continuousgramsViscera weight(trọng lượng nội tạng)continuousgramsTrọng lượng nội tạngShell weight (trọng lượng vỏ)continuousgramsTrọng lượng vỏ bào ngưRingsintegerIII. Thực nghiệm trên Weka1.Tiền xử lý dữ liệu-Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như:oFiltering Attributes: Chọn các thuộc tính phù hợp với mô hìnhoFiltering samples

Trang 1

BÁO CÁO MÔN HỌCKHAI PHÁ DỮ LIỆU

Đề tài: Dùng phần mềm Weka khai phá dữ liệu

Abalone( bào ngư) với thuật toán phân lớp

Giáo viên hướng dẫn: Hồ Nhật Quang Sinh viên: Phan Tuấn Linh

I.Mô tả bài toán

Trang 2

Dự đoán tuổi của bào ngư từ các phép đo vật lý Độ tuổi của bào ngư xác

định thông qua việc cắt vỏ nón, nhuộm nó, và đếm số vòng qua kính hiển vi , đây

một công việc nhàm chán và tốn thời gian Các phép đo khác, được dễ dàng hơn để

có được, được sử dụng để dự đoán tuổi Thông tin chi tiết, chẳng hạn như mô hình

thời tiết và vị trí (do đó thức ăn sẵn có) có thể được yêu cầu để giải quyết vấn đề

II Các thuộc tính

Có 9 thuộc tính

Tên thuộc tính Kiểu dữ liệu Đơn vị đo Mô tả

Sex

(Giới tính)

F, I ((infant)) Length

(Chiều dài)

Diameter

(Đường kính)

Height

(Chiều cao)

Whole weight

(Trọng lượng toàn

cơ thể)

continuous grams Trọng lượng 1 con bào ngư

Shucked weight continuous grams

Viscera weight

(trọng lượng nội

tạng)

continuous grams Trọng lượng nội tạng

Shell weight

(trọng lượng vỏ)

continuous grams Trọng lượng vỏ bào ngư

III Thực nghiệm trên Weka

Trang 3

1 Tiền xử lý dữ liệu

- Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như:

o Filtering Attributes: Chọn các thuộc tính phù hợp với mô hình

o Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho

mô hình

o Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường (Outlier) Transformation: Chuyển đổi dữ liệu cho phù

hợp với các mô hình như chuyển đổi dữ liệu từ numeric qua nomial hay ordinal

o Discretization (rời rạc hóa dữ liệu): Nếu bạn có dữ liệu liên tục

nhưng một vài mô hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳn hạn) thì bạn phải thực hiện việc rời rạc hóa dữ liệu

_ Khởi động Weka explorer Open file, chọn kiểu dữ liệu csv rồi chọn đường

dẫn tới file data.csv

Trang 4

Ta được tab preprocess, ta có đủ 9 thuộc tính

Trang 6

Sau khi lọc, không có thuộc tính nào bị loại bỏ

2 Phân lớp với Multilayer Perceptron

_ Vào tab Classify , Choose chọn functions, và Multilayer Perceptron

Trang 7

ta được giao diện như sau, ấn start để bắt đầu

Trang 9

Khi kết thúc ta thu được kết quả

=== Run information ===

Scheme:weka.classifiers.functions.MultilayerPerceptron -L 0.3 -M 0.2 -N

500 -V 0 -S 0 -E 20 -H a

Relation: data

Instances: 4177

Attributes: 9

Trang 10

Sex

Length

Diameter

Height

Whole

Shucked

Viscera

Shell

Rings

Test mode:10-fold cross-validation

=== Classifier model (full training set) ===

Sigmoid Node 0

Inputs Weights

Threshold -0.038592357354121996 Node 3 1.2503026495312555

Node 4 -2.4692212997323346

Node 5 -1.7251862888357923

Node 6 -1.0138432786836467

Node 7 0.1161558029627997

Sigmoid Node 1

Inputs Weights

Trang 11

Threshold -0.3585163946875619 Node 3 -1.5207205072346721

Node 4 -2.7101717279874595

Node 5 -1.54202993560056

Node 6 1.39432854009232

Node 7 0.49660040102755876

Sigmoid Node 2

Inputs Weights

Threshold -1.61816282320724

Node 3 0.1657841382577434

Node 4 2.7958808075517263

Node 5 2.8933773500356263

Node 6 -5.043460462595945

Node 7 -11.095259227784064

Sigmoid Node 3

Inputs Weights

Threshold 5.763628173510738

Attrib Length -6.006008714536174 Attrib Diameter -12.140310595334922 Attrib Height -2.9685000254464056 Attrib Whole 7.600289625115156 Attrib Shucked 8.743331130293026 Attrib Viscera -2.745866739544038

Trang 12

Attrib Shell 1.6337586415839116 Attrib Rings 0.19340800138398462 Sigmoid Node 4

Inputs Weights

Threshold -14.295822383489613 Attrib Length -6.1025536406934275 Attrib Diameter -4.817601379341468 Attrib Height -4.219670472946974 Attrib Whole -3.5927169497709075 Attrib Shucked 13.258354503898182 Attrib Viscera -3.256606733739663 Attrib Shell -5.882992971126007 Attrib Rings -15.927642224150164 Sigmoid Node 5

Inputs Weights

Threshold -29.03579126243409 Attrib Length 25.64495969905676 Attrib Diameter 6.515400530691217 Attrib Height 5.4120373141102 Attrib Whole -36.757521452343966 Attrib Shucked 4.674815253712029 Attrib Viscera -14.684452748054474 Attrib Shell 4.475305353279634

Trang 13

Attrib Rings -8.96349777874458 Sigmoid Node 6

Inputs Weights

Threshold -1.5991294080918697 Attrib Length -1.3952685583391653 Attrib Diameter 6.6299406853660106 Attrib Height 5.528509358996284 Attrib Whole 2.526036570756588 Attrib Shucked -11.058084971825656 Attrib Viscera 4.482874188700067 Attrib Shell 0.8055197508494899 Attrib Rings 0.9423477257216014 Sigmoid Node 7

Inputs Weights

Threshold -4.153894301554325

Attrib Length 3.572942494650241 Attrib Diameter 1.4193557298541073 Attrib Height 8.100045657425186 Attrib Whole 10.964670357626725 Attrib Shucked -1.6227677666763753 Attrib Viscera -2.2339001414938986 Attrib Shell -1.0379865285405265 Attrib Rings -16.76245582308338

Trang 14

Class M

Input

Node 0

Class F

Input

Node 1

Class I

Input

Node 2

Time taken to build model: 12.72 seconds

=== Stratified cross-validation ===

=== Summary ===

Correctly Classified Instances 2338 55.9732 % Incorrectly Classified Instances 1839 44.0268 % Kappa statistic 0.3338

Mean absolute error 0.3391

Root mean squared error 0.4162

Relative absolute error 76.475 %

Root relative squared error 88.4016 %

Trang 15

Total Number of Instances 4177

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class

0.571 0.366 0.474 0.571 0.518 0.67 M

0.329 0.16 0.484 0.329 0.392 0.715 F

0.771 0.145 0.716 0.771 0.743 0.892 I

Weighted Avg 0.56 0.23 0.555 0.56 0.551 0.756

=== Confusion Matrix ===

a b c < classified as

873 397 258 | a = M

725 430 152 | b = F

245 62 1035 | c = I

3 Đánh giá kết quả

Việc lựa chọn thuật toán nào để có một model tốt phụ thuộc rất nhiều yếu tố, trong đó cấu trúc của dataset có ý nghĩa quan trọng đến việc lựa chọn thuật toán

Ngày đăng: 03/12/2013, 16:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w