Data mining

tài liệu công nghệ thông tin

Trang 1

Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 1

LÀM QUEN VỚI PHẦM MỀM KHAI THÁC DỮ LIỆU CLEMENTINE 12.0

1 Cửa sổ làm việc:

Hình 1.1: Cửa sổ làm việc của clementine

File: (Stream, Managers, Project, Outputs) khời tạo, mở các file có sẵn, lưu file…

Edit: Các lựa chọn undo, cắt/dán, delete, rename… trên file (stream, models, project, outputs) Insert: Thực hiện một số các thao tác trên dữ liệu (chức năng gần giống như thanh Palette) View: tắt/mở thanh công cụ, Palette, Managers, Project

Tools : một số các tùy chọn nâng cao: tạo mật khNu, quản lý các palette…

1.1 Cửa sổ chính: Stream (lưu đồ làm việc):

Là khu vực lớn nhất của cửa sổ Clementine, là nơi mà bạn sẽ xây dựng và thao tác trên dữ liệu Stream được tạo ra bằng cách giống như vẽ một lưu đồ, cách thức để khai thác dữ liệu Mỗi hoạt động được đại diện bởi một biểu tượng hoặc node, và các node liên kết với nhau trong một dòng, giống như cho dòng chảy của dữ liệu thông qua mỗi hoạt động

Bạn có thể làm việc ( thực hiện nhiều lưu đồ) cùng một lúc trong stream, hoặc mở một stream mới Trong một phiên, stream được lưu trữ trong thanh managers , ở phía trên bên phải của cửa

Trang 2

Để thêm các node vào dòng dữ liệu , kích đúp vào biểu tượng từ các Palette Nodes hoặc kéo

và thả chúng vào stream Sau đó kết nối chúng để tạo ra một dòng, đại diện cho dòng chảy của

dữ liệu

Mỗi palette nodes chứa một bộ sưu tập của các nút liên quan, sử dụng cho các giai đoạn khác nhau của các hoạt động dòng chảy, chẳng hạn như:

• Sources (nguồn): Các nút xác định nguồn dữ liệu lấy vào Clementine

• Record Ops (Tác vụ trên các dòng dữ liệu): Các nút thực hiện các hoạt động trên các dữ liệu, chẳng hạn như lựa chọn, hợp nhất, và phụ thêm

• Field Ops (Tác vụ trên các trường/biến): Các nút thực hiện các hoạt động trên các trường/biến của dữ liệu, như lọc, phát sinh các lĩnh vực mới, và xác định các kiểu dữ liệu cho các lĩnh vực nhất định

• Graphs (Đồ thị): các nút đồ họa hiển thị dữ liệu trước và sau khi thực hiện các bước khai thác

1.2.a Giới thiệu Sources nodes:

Chọn node Sources: Bạn có thể chọn một số nguồn lưu trữ dữ liệu, ví dụ ở đây bạn chọn nguồn là SPSS, bạn nhấp đúp chọn biểu tượng SPSS File kéo thả vào Stream

Hình 1.2: Chọn nguồn dữ liệu là file SPSS

Trang 3

Sau đó bạn nhấp đúp vào biều tượng để hướng dẫn đến file dữ liệu spss :

Hình 1.3: Cửa sổ khai báo nguồn dữ liệu file SPSS

Import file: Chọn đường dẫn cho file dữ liệu

Filter : mặc định sẽ chọn toàn bộ dữ liệu, bạn có thể chọn hạn chế một số biến để phục vụ cho mục đích của bạn

Types: mặc định sẽ là những gì bạn định nghĩa trên file dự liệu gốc, bạn có thể thay đổi: kiểu giá trị(types), values, missing

Khi có được dữ liệu, chọn apply rồi ok

Trang 4

Hình 1.4: cửa sổ khai báo dữ liệu file excel

Các nút nguồn Excel cho phép bạn nhập dữ liệu từ bất kỳ phiên bản của Microsoft Excel Import file: Chỉ định tên và vị trí của tập tin excel để nhập vào

Use named range: Cho phép bạn chỉ định một loạt tên của các cột được định nghĩa trong bảng tính Excel Nhấp vào nút chọn( ) để chọn từ danh sách các phạm vi có sẵn Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống Với các tên được sử dụng, vùng dữ liệu còn lại sẽ không có giá trị không thể khai thác được

Worksheet: Chỉ định worksheet được chọn vào, bằng chỉ số hay theo tên:

• Index Xác định giá trị chỉ số cho các worksheet mà bạn chọn vào, bắt đầu bằng 0 cho các bảng tính đầu tiên, 1 cho các bảng tính thứ hai, và như vậy

• Name Chỉ định tên của worksheet mà bạn chọn vào Nhấp vào nút ( ) để chọn từ danh sách các worksheet sẵn

Data range: Bạn có thể nhập dữ liệu bắt đầu với các hàng không trống đầu tiên hoặc với một phạm vi rõ ràng:

• First non-blank row: Định vị các biến không trống đầu tiên và sử dụng bắt đầu từ góc trên bên trái của vùng dữ liệu Nếu gặp một hàng trống tiếp theo, bạn có thể chọn để ngừng đọc (stop reading) hoặc chọn hàng trở lại trống để tiếp tục đọc tất cả dữ liệu vào cuối của bảng tính (return blank rows), bao gồm cả các hàng trống

• Explicit range: Cho phép bạn chỉ định một phạm vi rõ ràng của hàng hoặc cột (ví dụ,

Trang 5

A3: G178) Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống First row contains field names :Hàng đầu tiên chứa tên biến Chỉ ra rằng hàng đầu tiên trong phạm vi quy định nên được sử dụng như trường tên Nếu không được chọn, tên trường được tạo

ra tự động

Lưu ý:

Theo mặc định, với các cột (biến) chứa hai hay nhiều hơn kiểu(type) dữ liệu số và chuỗi, một trong hai giá trị đó sẽ bị mất ( không có giá trị giống như trong spss) trong Clementine không giống như Excel-Clementine không cho phép lưu trữ các loại hỗn hợp trong một biến Để tránh điều này, bạn có thể tự thiết lập các định dạng của ô văn bản trong các bảng tính Excel, tạo

ra các giá trị (bao gồm số) để đọc

1.2.b Giới thiệu Record Operations:

Các nút được sử dụng để thay đổi dữ liệu Các hoạt động này rất quan trọng trong việc hiểu

và chuNn bị dữ liệu cho khai thác dữ liệu bởi vì chúng cho phép bạn chỉnh các dữ liệu cho nhu cầu riêng của mình

The select node: chọn hoặc loại bỏ một tập hợp các dòng dữ liệu dựa trên một điều kiện cụ thể Ví dụ, bạn có thể chọn dữ liệu ở một khu vực nhất định ví dụ: tp (thành phố) =

1 (thành phố HCM) Đây là cửa sổ làm việc của nút select:

Hình 1.5: Bảng select

Trang 6

Mode: Chỉ định xem dòng dữ liệu sẽ được chọn hoặc loại trừ khi thỏa mãn điều kiện

• Include Chọn bao gồm các dòng dữ liệu đáp ứng các điều kiện lựa chọn

• Discard Chọn để loại trừ các hồ sơ đáp ứng các điều kiện lựa chọn

Condition: Hiển thị các điều kiện lựa chọn sẽ được sử dụng để kiểm tra mà bạn tự nhập vào một biểu hiện trong cửa sổ hoặc sử dụng Expression Builder bằng cách nhấn vào máy tính (Expression Builder) nút bên phải của cửa sổ

Select node cũng được sử dụng để lấy mẫu Thông thường, bạn sẽ sử dụng một nút sample cho hoạt động này Tuy nhiên, nếu điều kiện bạn muốn xác định là phức tạp hơn các thông số được cung cấp, bạn có thể tạo điều kiện riêng của bạn bằng cách sử dụng nút Select Ví dụ tp (thành phố) = 1 random(40)

the sample node :Các nút lựa chọn mẫu cho tập hợp các hồ sơ Một loạt các loại mẫu được hỗ trợ, bao gồm phân tầng, tập trung, và không ngẫu nhiên (cấu trúc) mẫu Lấy mẫu có thể hữu ích để cải thiện hiệu suất, và để chọn nhóm các hồ sơ liên quan, giao dịch để phân tích

Trang 7

Hình 1.5: Bảng sample

Sample method : simple

Mode: Chọn (bao gồm) hoặc loại trừ các hồ sơ cho các phương thức sau đây:

Chọn phương pháp lấy mẫu từ các tùy chọn sau:

• First Chọn lấy bao hồ sơ đầu tiên của dữ liệu Ví dụ, nếu kích thước mẫu tối đa được thiết lập là 10.000, bạn sẽ được 10.000 hồ sơ đầu tiên

• 1-trong-n Chọn để dữ liệu mẫu bằng cách hoặc vứt bỏ mọi kỷ lục thứ n Ví dụ, nếu n là thiết lập đến 5,các hồ sơ sẽ được lấy là 5,10, 15, 20

• Random% Chọn mẫu ngẫu nhiên một tỷ lệ phần trăm của dữ liệu Ví dụ, nếu bạn thiết lập các tỷ lệ phần trăm đến 20, thì 20% dữ liệu sẽ được chọn

The balance node: Các nút chỉnh cân bằng sự mất cân bằng trong bộ dữ liệu, vì vậy nó phù hợp với một điều kiện quy định Các chỉ thị điều chỉnh cân bằng tỷ lệ của hồ sơ mà điều kiện là đúng sự thật bởi các yếu tố quy định

The Aggregate node: Nút tổng hợp thay thế một chuỗi các hồ sơ đầu vào với tóm tắt, tổng hợp hồ sơ đầu ra

The recency, frequency, monetary (RFM):

The sort node: Xếp loại các hồ sơ tăng hoặc giảm dựa trên các giá trị của một hay nhiều tiêu chí

The merge node: Các nút Merge có nhiều hồ sơ đầu vào và tạo ra một bản ghi đầu ra duy nhất có chứa một số hoặc tất cả các lĩnh vực đầu vào Nó rất hữu ích cho việc sáp nhập dữ liệu từ nhiều nguốn khác nhau

The distinct node: Loại bỏ các hồ sơ

The append node: Các nút Thêm hồ sơ, Nó rất hữu dụng cho việc kết hợp các bộ dữ liệu với cấu trúc tương tự nhưng dữ liệu khác nhau

Trang 8

1.2.c Giới thiệu Field operations:

Sau khi thăm dò dữ liệu ban đầu, có thể bạn sẽ phải lựa chọn, sạch sẽ, hoặc xây dựng dữ liệu

để chuNn bị cho phân tích Các lĩnh vực hoạt động bảng chứa nhiều các nút hữu ích cho việc chuyển đổi này và chuNn bị

the type node: Nút xác định kiểu dữ liệu Thiết lập vai trò của các biến cho các mục đích xây dựng mô hình, xác định kiểu dữ liệu, giá trị…cho biết dữ liệu được lưu trữ như là chuỗi, số nguyên, số thực, ngày tháng, thời gian

Hình 1.5: Cửa sổ khai báo type

• Values: Bạn có thể sử dụng toàn bộ những values đã có ở file gốc bằng cách chọn Read Values, hoặc tạo mới bằng cách ở cột Values bạn chọn specify Các nhãn mà bạn chỉ định trong nút hình được hiển thị trong suốt Clementine tùy thuộc vào các lựa chọn bạn thực hiện trong các thuộc tính dòng hộp thoại

• Missing values Được sử dụng để xác định các giá trị sẽ được coi như là khoảng trắng

• Value checking Trong cột Kiểm tra, bạn có thể thiết lập các tùy chọn để đảm bảo rằng giá trị trường phù hợp với phạm vi quy định

Trang 9

the filter node: Lọai bỏ một số biến

the reclassify node: Phân loại lại nút chuyển đổi một tập các giá trị rời rạc khác Phân loại lại rất hữu dụng cho thu gọn danh mục hoặc tập hợp dữ liệu để phân tích

the bining node: Các nút Binning tự động tạo ra các lĩnh vực thiết lập mới dựa trên các giá trị của một hoặc nhiều dãy số hiện tại Ví dụ, bạn có thể chuyển đổi một lĩnh vực thu nhập quy mô vào một lĩnh vực phân loại mới có chứa các nhóm thu nhập như là độ lệch trung bình Một khi bạn đã tạo ra cho các lĩnh vực mới, bạn có thể tạo ra một nút thu được dựa trên các điểm cắt

Nếu bạn có cài đặt SPSS và được cấp phép trên máy tính của bạn, các Transform SPSS, hoặc dữ liệu chuNn bị, nút chạy một lựa chọn các lệnh cú pháp của SPSS so với các nguồn

dữ liệu trong Clementine

the Partition node Các nút phân vùng tạo ra một lĩnh vực phân vùng, trong đó chia tách các dữ liệu vào tập hợp con riêng cho việc đào tạo, thử nghiệm, và các giai đoạn xác thực của việc xây dựng mô hình

the restructure node Các nút sắp xếp chuyển đổi một lĩnh vực thiết lập hoặc cờ vào một nhóm các lĩnh vực có thể được đặt các giá trị của lĩnh vực nào khác

the transpose node:Các nút Transpose giao dịch hoán đổi các dữ liệu trong các hàng và cột để ghi lại trở thành lĩnh vực và các lĩnh vực trở thành hồ sơ

1.2.d Export node:

Cung cấp một cơ chế xuất dữ liệu trong các định dạng khác nhau để giao tiếp với các công

cụ phần mềm khác của bạn

Trang 10

Các nút xuất SPSS đầu ra dữ liệu trong SPSS Định dạng SAV Các file SAV

Clementine đặt tên biến cho một số biến kết quả tên SPSS đôi khi có thể gây ra lỗi bởi vì tên SPSS biến được giới hạn đến 64 ký tự và không thể bao gồm một số ký tự, chẳng hạn như dấu cách, dấu hiệu đồng đô la ($), và dấu gạch ngang (-) Có hai cách để điều chỉnh cho những hạn chế này:

Hình 1.5: Cửa sổ khai báo các biến được xuất ra trên file SPSS

• Bạn có thể đổi tên các lĩnh vực phù hợp với yêu cầu SPSS tên biến bằng cách chọn biểu tượng lọc/ chọn Rename for SPSS để đổi tên hoặc lọc Fields cho SPSS

Export:

Export field names Chỉ định một phương pháp xử lý tên biến và nhãn khi xuất từ

Clementine cho một SPSS file SAV

• Names and variable labels:Tên và nhãn biến Tên được xuất như tên biến SPSS, trong khi nhãn được xuất khNu như nhãn biến SPSS

• Names as variable labels: Tên là nhãn biến Chọn để sử dụng các tên trường Clementine làm nhãn biến trong SPSS Clementine cho phép ký tự trong tên trường mà không hợp lệ trong tên biến SPSS

Trang 11

Sau khi đã có đựơc những gì mong muốn chon Execute

2 Sử dụng chuột trong Clementine:

Việc sử dụng phổ biến nhất của con chuột trong Clementine bao gồm:

• Single-click Sử dụng hoặc bên phải hoặc nút chuột trái để chọn các tùy chọn từ menu, menu ngữ cảnh mở, và truy cập các điều khiển khác tiêu chuNn và tùy chọn Nhấp và giữ nút để di chuyển và kéo các nút

• Kích đúp vào Click đôi vào sử dụng nút chuột trái để đặt các nút trên khung dòng và chỉnh sửa các nút hiện có

• Trung-click Nhấp vào nút chuột giữa và kéo con trỏ để kết nối các nút trên khung dòng Nhấn đúp chuột vào nút chuột giữa để ngắt kết nối một nút Nếu bạn không có một con chuột có ba cái nút, bạn có thể giả lập tính năng này bằng cách nhấn phím Alt trong khi click và kéo chuột 3.Làm việc với Clementine là một quá trình ba bước về làm việc với dữ liệu

• Trước tiên, bạn đọc dữ liệu vào Clementine,

• Sau đó, chạy dữ liệu thông qua một loạt các thao tác,

• Và cuối cùng, gửi dữ liệu đến một đích đến

Chuỗi các hoạt động này được biết đến như một dòng dữ liệu vì dữ liệu lưu trữ từ các nguồn thông qua thao tác để có được thông tin mong muốn cuối cùng, được chuyển đến là một mô hình, biểu đồ hay kiểu dữ liệu đầu ra

4.Phân tích cụm:

Trước tiên bạn phải đọc dữ liệu, như phần giới thiệu ở trên

Và để thống nhất kiểu dữ liệu cho mô hình phân tích cụm ta chọn type (ở Filed Ops) để khai báo lại kiểu scale cho toàn bộ các biến:

Trang 12

Hình 4.1: Strean chun bị dữ liệu

Đây là bước chuNn bị cho một bộ dữ liệu đã sẵn sàng cho các yêu cầu tiếp theo của bạn

Ở một số các mô hình phân cụm, bạn thường chia dữ liệu thành hai phần, một phần thực hiện

và một phần kiểm tra, tôi giới thiệu cho bạn một node partition để làm việc này: Field Ops/ Partition, bạn chọn node Partition bò vào cửa sổ làm việc Bạn nhớ kết nối chúng lại thành một dòng chảy bằng các mũi tên nhé

Trang 13

Hình 4.2: Cửa sổ làm việc Partition

Partition field: Tên sẽ được tự động hiển thị theo lệnh được yêu cầu ở đây là Partition, bạn có thể đặt tên khác không vấn đề gì

Partitions: Train and test : bạn có thể chia mẫu làm hai thực hiện và kiểm tra

Train,test and validation : thực hiện, kiểm tra và xác nhận

Training partition size : % mẫu để thực hiện

Testing partition size : % mẫu để kiểm tra

Validation partition size : % mẫu để xác nhận

Values : bạn muốn chúng hiển thị kết quả như thế nào :

Use system-defined values : chỉ hiển thị số tương ứng ví dụ : 1 : “training”

Append labels to system-defined values hiển thị số và labels

Use labels as vaules : hiển thị labels :training

Set random seed Seed : ( vì cách lấy mẫu là ngẫu nhiên do đó, khi bạn thực hiện những lần khác nhau, hoặc trên các máy khác nhau sẽ được kết quả khác nhau và không thể so sánh được) ở đây bạn nên khai báo một số cụ thể và nhớ mãi con số này để những lần sau bạn chạy lại vẫn đạt được kết quả như lần đầu

Trang 14

Hình 4.3: Cửa sổ làm việc Partition sau khi khai báo

Thực hiện phân cụm : k-means và two Step Ở thanh Palette chọn Modeling node/ Segmentation/ chọn K-Means và Two Step

Hình 4.4: Stream với lựa chọn các node phân cụm

Trang 15

Với kỹ thuật K-Means sẽ có bản sau:

Hình 4.5: Cửa sổ K-Means

Model name: Tự hiển thị tên theo lệnh thực hiện, hoặc bạn có thể đặt tên lại cho lệnh này

“phan cum” hay tùy ý bạn

Use partitioned data: Sử dụng dữ liệu phân vùng Nếu trước đó dữ liệu của bạn đã thực hiện lệnh Partition

Number of clusters: Xác định số lượng cụm để tạo ra (Mặc định là 5), Ở đây chúng ta chọn

2

Generate distance field : khoảng cách từ mỗi quan sát (hồ sơ) đến trung tâm cụm

Show cluster proximity: Khoảng cách giữa các trung tâm cụm

Cluster label : Tên thành viên cụm, String kiểu chuỗi (ví dụ "Cluster1", "cluster2", vv), hoặc number số 1,2

Lưu ý thông thường, clementine sẽ tự động bê tất cả các biến vào phân cụm, kể cả id (thật là buồn cười nhỉ) Vì thế, bạn cần phải giới hạn số lượng biến lại Chọn Fields (ở góc dưới bên trái): Mặc định máy sẽ chọn Use type node settings, bạn sẽ chọn lại là Use custom settings/ chọn biểu tượng nhập vào sẽ xuất hiện bảng Select Fields như sau:

Trang 16

Hình 4.6: Chọn các biến vào mô hình

Bạn chọn một số biến cần thiết rồi apply/ok kết quả như sau:

Trang 17

Hình 4.7: Cửa sổ khai báo biến

Thủ tục hoàn tất chỉ cần lệnh cho máy thực hiện Execute Bạn để ý trên cửa sổ

managers/Models sẽ hiện ra kết quả bạn chỉ cần nhấp đúp vào biểu tượng, nó sẽ được đưa qua lưu đồ,và nhiệm vụ của bạn là gắn nó vào lưu đồ của mình, để xem kết quả bạn nhấp đúp vào biểu tượng trong lưu đồ:

Hình 4.7: Kết quả trung bình cụm

Trang 18

Hình 4.8: Kết quả trung bình cụm bằng hình

Tôi hi vọng là bạn đọc được thông tin từ hai bảng này Chỉ lưu ý một điểm ở hình trên cột cuối cùng hiển thị tầm quan trọng của các biến trong mô hình để có thể gắn trọng số cho biến và giúp mô hình thực hiện hiệu quả hơn, ở phần sau sẽ giới thiệu bạn biểu đồ mạng nhện

Ngoài kết quả có được từ clementine bạn cũng có thể yêu cầu xuất kết quả phân cụm qua Excel hoặc vẽ một số biểu đồ mô tả như tôi

Trang 19

Hình 4.8: Stream K-Means

Hình 4.8: Bảng mô tả kết quả phân cụm trên dữ liệu kiểm tra

Với 273 quan sát dùng làm kiểm tra có 167(150+17) quan sát phân loại đúng đạt 61,17% một tỉ lệ không cao

Kỹ thuật Two Step: Bước thực hiện khá giống với K-Means chúng ta sẽ quyết định số lượng cụm là 2:

Trang 20

Hình 4.8:Bảng Two Step

Kết quả:

Tiêu đề	Làm Quen Với Phần Mềm Khai Thác Dữ Liệu Clementine 12.0
Tác giả	Nguyễn Thảo Nguyên
Người hướng dẫn	Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM
Trường học	Đại Học Kinh Tế Thành Phố Hồ Chí Minh
Chuyên ngành	Toán – Thống Kê
Thể loại	bài viết
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	40
Dung lượng	2,31 MB