Mô tả bài toánDự đoán tuổi của bào ngư từ các phép đo vật lý. Độ tuổi của bào ngư xác định thông qua việc cắt vỏ nón, nhuộm nó, và đếm số vòng qua kính hiển vi , đây một công việc nhàm chán và tốn thời gian. Các phép đo khác, được dễ dàng hơn để có được, được sử dụng để dự đoán tuổi. Thông tin chi tiết, chẳng hạn như mô hình thời tiết và vị trí (do đó thức ăn sẵn có) có thể được yêu cầu để giải quyết vấn đề.II. Các thuộc tínhCó 9 thuộc tínhTên thuộc tínhKiểu dữ liệuĐơn vị đoMô tảSex (Giới tính)nominalCon đực, cái và trứng (M, F, I ((infant))Length (Chiều dài)continuousmmĐộ dài của bào ngưDiameter (Đường kính)continuousmmĐường kínhHeight (Chiều cao)continuousmmChiều cao Whole weight (Trọng lượng toàn cơ thể)continuousgramsTrọng lượng 1 con bào ngưShucked weight continuousgramsViscera weight(trọng lượng nội tạng)continuousgramsTrọng lượng nội tạngShell weight (trọng lượng vỏ)continuousgramsTrọng lượng vỏ bào ngưRingsintegerIII. Thực nghiệm trên Weka1.Tiền xử lý dữ liệu-Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể. Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như:oFiltering Attributes: Chọn các thuộc tính phù hợp với mô hìnhoFiltering samples
Trang 1BÁO CÁO MÔN HỌCKHAI PHÁ DỮ LIỆU
Đề tài: Dùng phần mềm Weka khai phá dữ liệu
Abalone( bào ngư) với thuật toán phân lớp
Giáo viên hướng dẫn: Hồ Nhật Quang Sinh viên: Phan Tuấn Linh
I.Mô tả bài toán
Trang 2Dự đoán tuổi của bào ngư từ các phép đo vật lý Độ tuổi của bào ngư xác
định thông qua việc cắt vỏ nón, nhuộm nó, và đếm số vòng qua kính hiển vi , đây
một công việc nhàm chán và tốn thời gian Các phép đo khác, được dễ dàng hơn để
có được, được sử dụng để dự đoán tuổi Thông tin chi tiết, chẳng hạn như mô hình
thời tiết và vị trí (do đó thức ăn sẵn có) có thể được yêu cầu để giải quyết vấn đề
II Các thuộc tính
Có 9 thuộc tính
Tên thuộc tính Kiểu dữ liệu Đơn vị đo Mô tả
Sex
(Giới tính)
F, I ((infant)) Length
(Chiều dài)
Diameter
(Đường kính)
Height
(Chiều cao)
Whole weight
(Trọng lượng toàn
cơ thể)
continuous grams Trọng lượng 1 con bào ngư
Shucked weight continuous grams
Viscera weight
(trọng lượng nội
tạng)
continuous grams Trọng lượng nội tạng
Shell weight
(trọng lượng vỏ)
continuous grams Trọng lượng vỏ bào ngư
III Thực nghiệm trên Weka
Trang 31 Tiền xử lý dữ liệu
- Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc original data) có thể áp dụng được (thích hợp) với các mô hình khai phá dữ liệu (data mining model) cụ thể Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như:
o Filtering Attributes: Chọn các thuộc tính phù hợp với mô hình
o Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho
mô hình
o Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường (Outlier) Transformation: Chuyển đổi dữ liệu cho phù
hợp với các mô hình như chuyển đổi dữ liệu từ numeric qua nomial hay ordinal
o Discretization (rời rạc hóa dữ liệu): Nếu bạn có dữ liệu liên tục
nhưng một vài mô hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳn hạn) thì bạn phải thực hiện việc rời rạc hóa dữ liệu
_ Khởi động Weka explorer Open file, chọn kiểu dữ liệu csv rồi chọn đường
dẫn tới file data.csv
Trang 4Ta được tab preprocess, ta có đủ 9 thuộc tính
Trang 6Sau khi lọc, không có thuộc tính nào bị loại bỏ
2 Phân lớp với Multilayer Perceptron
_ Vào tab Classify , Choose chọn functions, và Multilayer Perceptron
Trang 7ta được giao diện như sau, ấn start để bắt đầu
Trang 9Khi kết thúc ta thu được kết quả
=== Run information ===
Scheme:weka.classifiers.functions.MultilayerPerceptron -L 0.3 -M 0.2 -N
500 -V 0 -S 0 -E 20 -H a
Relation: data
Instances: 4177
Attributes: 9
Trang 10Sex
Length
Diameter
Height
Whole
Shucked
Viscera
Shell
Rings
Test mode:10-fold cross-validation
=== Classifier model (full training set) ===
Sigmoid Node 0
Inputs Weights
Threshold -0.038592357354121996 Node 3 1.2503026495312555
Node 4 -2.4692212997323346
Node 5 -1.7251862888357923
Node 6 -1.0138432786836467
Node 7 0.1161558029627997
Sigmoid Node 1
Inputs Weights
Trang 11Threshold -0.3585163946875619 Node 3 -1.5207205072346721
Node 4 -2.7101717279874595
Node 5 -1.54202993560056
Node 6 1.39432854009232
Node 7 0.49660040102755876
Sigmoid Node 2
Inputs Weights
Threshold -1.61816282320724
Node 3 0.1657841382577434
Node 4 2.7958808075517263
Node 5 2.8933773500356263
Node 6 -5.043460462595945
Node 7 -11.095259227784064
Sigmoid Node 3
Inputs Weights
Threshold 5.763628173510738
Attrib Length -6.006008714536174 Attrib Diameter -12.140310595334922 Attrib Height -2.9685000254464056 Attrib Whole 7.600289625115156 Attrib Shucked 8.743331130293026 Attrib Viscera -2.745866739544038
Trang 12Attrib Shell 1.6337586415839116 Attrib Rings 0.19340800138398462 Sigmoid Node 4
Inputs Weights
Threshold -14.295822383489613 Attrib Length -6.1025536406934275 Attrib Diameter -4.817601379341468 Attrib Height -4.219670472946974 Attrib Whole -3.5927169497709075 Attrib Shucked 13.258354503898182 Attrib Viscera -3.256606733739663 Attrib Shell -5.882992971126007 Attrib Rings -15.927642224150164 Sigmoid Node 5
Inputs Weights
Threshold -29.03579126243409 Attrib Length 25.64495969905676 Attrib Diameter 6.515400530691217 Attrib Height 5.4120373141102 Attrib Whole -36.757521452343966 Attrib Shucked 4.674815253712029 Attrib Viscera -14.684452748054474 Attrib Shell 4.475305353279634
Trang 13Attrib Rings -8.96349777874458 Sigmoid Node 6
Inputs Weights
Threshold -1.5991294080918697 Attrib Length -1.3952685583391653 Attrib Diameter 6.6299406853660106 Attrib Height 5.528509358996284 Attrib Whole 2.526036570756588 Attrib Shucked -11.058084971825656 Attrib Viscera 4.482874188700067 Attrib Shell 0.8055197508494899 Attrib Rings 0.9423477257216014 Sigmoid Node 7
Inputs Weights
Threshold -4.153894301554325
Attrib Length 3.572942494650241 Attrib Diameter 1.4193557298541073 Attrib Height 8.100045657425186 Attrib Whole 10.964670357626725 Attrib Shucked -1.6227677666763753 Attrib Viscera -2.2339001414938986 Attrib Shell -1.0379865285405265 Attrib Rings -16.76245582308338
Trang 14Class M
Input
Node 0
Class F
Input
Node 1
Class I
Input
Node 2
Time taken to build model: 12.72 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 2338 55.9732 % Incorrectly Classified Instances 1839 44.0268 % Kappa statistic 0.3338
Mean absolute error 0.3391
Root mean squared error 0.4162
Relative absolute error 76.475 %
Root relative squared error 88.4016 %
Trang 15Total Number of Instances 4177
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0.571 0.366 0.474 0.571 0.518 0.67 M
0.329 0.16 0.484 0.329 0.392 0.715 F
0.771 0.145 0.716 0.771 0.743 0.892 I
Weighted Avg 0.56 0.23 0.555 0.56 0.551 0.756
=== Confusion Matrix ===
a b c < classified as
873 397 258 | a = M
725 430 152 | b = F
245 62 1035 | c = I
3 Đánh giá kết quả
Việc lựa chọn thuật toán nào để có một model tốt phụ thuộc rất nhiều yếu tố, trong đó cấu trúc của dataset có ý nghĩa quan trọng đến việc lựa chọn thuật toán