I.Đặt vấn đề Khai phá dữ liệu là một ngành khoa học thực nghiệm. Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt. Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học. Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis. Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU. Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào. Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp, và các thuộc tính kết hợp.Cụ thể trong báo cáo này em đề cập đến giải thuật phân lớp áp dụng xác đinh lĩnh vực hoạt động của công ty dựa trên các tiêu chí như số nhân viên , tài sản , lợi nhuận , vốn lưu chuyển II.Xây dựng cơ sở dữ liệu 1.Thông tin chung của dataset % DASL file http://lib.stat.cmu.edu/DASL/Datafiles/Companies.htm % Forbes 500 Companies Sal % Reference: Forbes, 1986 % Authorization: free use % Description: Facts about companies selected from the Forbes 500 list for 1986. This is a 1/10 systematic sample from the alphabetical list of companies. The Forbes 500 includes all companies in the top 500 on any of the criteria, and thus has almost 800 companies in the list. % Number of cases: 77 % Variable Names: % Company: Company Name % Assets: Amount of assets (in millions) % Sales: Amount of sales (in millions) % Market_Value: Market Value of the company (in millions) % Profits: Profits (in millions) % Cash_Flow: Cash Flow (in millions
Trang 1I Đặt vấn đề
Khai phá dữ liệu là một ngành khoa học thực nghiệm Nó được thiết kế sao cho bạn có thể nhanh chống thử nghiệm những cách thức hiện tại trên cơ sở dữ liệu mới một cách linh hoạt.Nó cung cấp nhiều sự hỗ trợ cho toàn bộ quá trình xử lý số liệu thực nghiệm, bao gồm chuẩn bị dữ liệu đầu vào, việc ước lượng học những sơ đồ thống kê, và hình dung dữ liệu ra và kết quả của việc học Weka được phát triển bởi đại học Waikato bang New Zealand, và có tên là Waikato Environment for Knowledge Analysis Hệ thống được viết bởi java và phân phối dưới thuật ngữ GNU Nó cung cấp một giao diện tương tự cho nhiều giải thuật học khác nhau với nhiều phương thức chho quá trình xử lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào Workbenh bao gồm những phương thức chuẩn cho các vấn đề của khai phá dữ liệu như: phân lớp,hồi quy, phân nhóm, phân cụm, luật kết hợp,
và các thuộc tính kết hợp.Cụ thể trong báo cáo này em đề cập đến giải thuật phân lớp áp dụng xác đinh lĩnh vực hoạt động của công ty dựa trên các tiêu chí như số nhân viên , tài sản , lợi nhuận , vốn lưu chuyển
1 Thông tin chung của dataset
% DASL file http://lib.stat.cmu.edu/DASL/Datafiles/Companies.htm
% Forbes 500 Companies Sal
% Reference: Forbes, 1986
% Authorization: free use
% Description: Facts about companies selected from the Forbes 500 list for 1986 This is a 1/10 systematic sample from the alphabetical list of companies The Forbes 500 includes all companies in the top 500 on any of the criteria, and thus has almost 800 companies in the list.
% Number of cases: 77
% Variable Names:
% Company: Company Name
% Assets: Amount of assets (in millions)
% Sales: Amount of sales (in millions)
% Market_Value: Market Value of the company (in millions)
% Profits: Profits (in millions)
% Cash_Flow: Cash Flow (in millions)
Trang 2% Employees: Number of employees (in thousands)
% Sector: Type of market the company is associated with
2 Mô tả các thuộc tính
@RELATION relation
@ATTRIBUTE 'Company' {"AH Robins","AMR","Air Products","Allied Signal","American Electric
Power","American Savings Bank FSB","Apple Computer","Armstrong World Industries","Bally
Manufacturing","Bank South","Bell Atlantic","Brooklyn Union Gas","CBI Industries","California First Bank","Central Illinois Public Service","Cigna","Cleveland Electric Illuminating","Columbia Gas
System","Community Psychiatric Centers","Continental Telecom","Crown Cork &
Seal","Dayton-Hudson","Digital Equipment","Dillard Department Stores","Dreyfus","Eg&G","Ex-Cell-O","FW
Woolworth","First American","First Empire State","First Tennessee National","Florida
Progress","Fruehauf","General Electric","Giant Food","Great A&P Tea","H&R
Block","Halliburton","Hewlett-Packard","Hospital Corp of America","IBM","IU International","Idaho Power","Kansas Power & Light","Kroger","LTV","Liz Claiborne","Marine Corp","May Department
Stores","Mellon Bank","Mesa Petroleum","Montana Power","NCR","National City","Norstar
Bancorp","Norwest","Owens-Corning Fiberglas","PPG Industries","Pan Am","Peoples Energy","Phillips Petroleum","Public Service Co of New Mexico","Republic Airlines","San Diego Gas & Electric","Shared Medical Systems","Southeast Banking","Sovran Financial","Stop & Shop Cos","Supermarkets
General","TWA","Telex","Textron","Turner","United Financial Group","United Technologies","Valero Energy","Warner Communications","Western Air Lines","Wickes Cos"}
@ATTRIBUTE 'Assets' numeric
@ATTRIBUTE 'Sales' numeric
@ATTRIBUTE 'Market_Value' numeric
@ATTRIBUTE 'Profits' numeric
@ATTRIBUTE 'Cash_Flow' numeric
@ATTRIBUTE 'Employees' numeric
@ATTRIBUTE 'sector'
{"Communication","Energy","Finance","HiTech","Manufacturing","Medical","Other","Retail","Transportati on"}
Trang 3Trường dữ liệu Chú giải
III Phân tích yêu cầu của bài toán
Trang 4IV Tiến hành thực nghiệm trên Weka
1 Tiền xử lý dữ liệu
Tiến hành khởi chạy weka.Trong giao diện đồ họa của Weka,chọn Explorer
Trong weka lưu trữ dữ liệu bằng định dạng ARFF File ARFF bao gồm danh sách các trường, và các giá trị thuộc tính cho mỗi trường được phân cách bằng dấu phẩy Hầu hết các bảng tính và các chương trình cơ sở dữ liệu cho phép bạn chuyển dữ liệu thành một tập tin mà các giá trị của thuộc tính đều được tách nhau bằng dấu phẩy như trong định dạng của file arff.Bạn chỉ cần đưa file vào một trình soạn thảo văn bản hoặc từ bộ vi xử lý; thêm tên của tập dữ liệu bằng cách sử dụng các từ
@relation, Khai báo tên các thuộc tính bằng từ khóa @attribute, và từ khóa @data
để bắt đầu đưa dữ liệu vào Ví dụ như hình dưới đây :
Trang 5Sau khi đã tạo xong file arff thì tiến hành đọc dữ liệu vào weka
Ta thấy xuất hiện dữ liệu trên cửa số Preprocess của WEKA như sau:
2 Xây dựng cây quyết định bằng J48
- Bước đầu tiên ta sử dụng tất cả dữ liệu để trainning cho cây:
+ Nhấn vào tab Classify chọn thuật toán sử dụng bằng cách nhấn vào nút Choose; khi cây thư mục hiện thư mục Trees/J48:
Trang 6Để tiến hành trainning trên toàn bộ dữ liệu ta chọn vào tùy chọn Use tranning set rồi nhấn Start.
Ta thu được kết quả hiển thị ở khung Classifier Output như sau:
Nội dung kết quả :
=== Run information ===
Trang 7Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: relation
Instances: 79
Attributes: 8
Company
Assets
Sales
Market_Value
Profits
Cash_Flow
Employees
sector
Test mode: 10-fold cross-validation
=== Classifier model (full training set) ===
J48 pruned tree
-Employees <= 15.8
| Cash_Flow <= 83
| | Sales <= 550
| | | Assets <= 278: Medical (2.0)
| | | Assets > 278: Finance (10.0)
| | Sales > 550
| | | Assets <= 707: Medical (2.0/1.0)
| | | Assets > 707: Manufacturing (2.0)
| Cash_Flow > 83
| | Assets <= 6914
| | | Employees <= 7
| | | | Assets <= 1022: HiTech (2.0)
| | | | Assets > 1022: Energy (12.0)
| | | Employees > 7
| | | | Market_Value <= 483: Transportation (2.0)
| | | | Market_Value > 483: Other (4.0/1.0)
| | Assets > 6914: Finance (6.0)
Employees > 15.8
| Profits <= 312.7
| | Cash_Flow <= 72.5
| | | Assets <= 4418: Transportation (3.0/1.0)
| | | Assets > 4418: Finance (2.0/1.0)
| | Cash_Flow > 72.5
| | | Cash_Flow <= 456.5
| | | | Profits <= 26.6: Other (2.0)
| | | | Profits > 26.6
| | | | | Cash_Flow <= 145.7: Retail (6.0)
Trang 8| | | | | Cash_Flow > 145.7
| | | | | | Employees <= 66.2: Manufacturing (7.0/2.0)
| | | | | | Employees > 66.2: Retail (4.0)
| | | Cash_Flow > 456.5
| | | | Sales <= 4152: Communication (2.0/1.0)
| | | | Sales > 4152: Manufacturing (2.0)
| Profits > 312.7
| | Employees <= 50: Energy (3.0/1.0)
| | Employees > 50: HiTech (6.0/1.0)
Number of Leaves : 19
Time taken to build model: 0.03 seconds
=== Stratified cross-validation ===
=== Summary ===
Correctly Classified Instances 38 48.1013 %
Incorrectly Classified Instances 41 51.8987 %
Kappa statistic 0.3956
Mean absolute error 0.1244
Root mean squared error 0.3131
Relative absolute error 64.7792 %
Root relative squared error 101.0691 %
Total Number of Instances 79
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
0 0.013 0 0 0 0.435 Communication 0.667 0.063 0.714 0.667 0.69 0.858 Energy
0.647 0.065 0.733 0.647 0.688 0.817 Finance 0.375 0.099 0.3 0.375 0.333 0.677 HiTech
0.4 0.188 0.235 0.4 0.296 0.604 Manufacturing 0.25 0.04 0.25 0.25 0.25 0.598 Medical
0.286 0.042 0.4 0.286 0.333 0.5 Other
0.6 0.043 0.667 0.6 0.632 0.876 Retail
0.167 0.041 0.25 0.167 0.2 0.533 Transportation Weighted Avg 0.481 0.074 0.505 0.481 0.487 0.721
=== Confusion Matrix ===
a b c d e f g h i < classified as
Trang 90 0 0 1 1 0 0 0 0 | a = Communication
0 10 1 1 1 0 1 0 1 | b = Energy
0 2 11 0 3 1 0 0 0 | c = Finance
1 1 0 3 1 1 0 1 0 | d = HiTech
0 0 1 1 4 0 1 2 1 | e = Manufacturing
0 0 1 1 1 1 0 0 0 | f = Medical
0 1 1 1 2 0 2 0 0 | g = Other
0 0 0 1 1 0 1 6 1 | h = Retail
0 0 0 1 3 1 0 0 1 | i = Transportation
Cây quyết định :
Tóm tắt kết quả khi phân lớp:
+ Trường hợp phân lớp chính xác: 38 chiếm 48.1013%
+Trường hợp không chính xác: 41 chiếm 51.8987%
3 Tiến hành chạy thử nhiều lần cây trên số lượng dữ liệu tranning khác nhau: Lần thứ hai : Lấy 95% dữ liệu để xây dựng cây , 5% để test
Trang 10Lần thứ hai : Lấy 90% dữ liệu để xây dựng cây , 10% để test