1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu Weather.nominal.arff

19 751 4
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu Weather.nominal.arff
Thể loại Tiểu luận
Định dạng
Số trang 19
Dung lượng 650 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

I. Bài toán Tìm các luật kết hợp trong cơ sở dữ liệu Weather.nominal II. Mô tả dữ liệu bài toán Dữ liệu mô tả về thời tiết gồm năm trường: - Outlook - Temperature - Play : thuộc tính phân loại - Humidity - Windy Và có 14 bản ghi dữ liệu. Dữ liệu : Đây là dữ liệu mô tả về khả năng có đến sân để chơi thể thao (tennis chẳn hạn) hay không của những người chơi thể thao phụ thuộc vào thời tiết và rút ra được các quy luật thay đổi của thời tiết. III. Giải thuật Apriori Được Agrawal đưa ra vào năm 1993, khai phá dữ liệu bằng phương pháp phát hiện các luật kết hợp là một trong các phương pháp khai thác đặc trưng đối với khai phá dữ liệu với nhiệm vụ phân tích dữ liệu trong CSDL nhằm phát hiện và đưa ra những mối liên hệ giữa các giá trị dữ liệu. Cụ thể là tìm tần số mẫu, mối kết hợp, sự tương quan hay các cấu trúc nhân quả giữa các tập đối tượng trong các CSDL giao dịch, CSDL quan hệ và những kho thông tin khác, kết quả thu được đó chính là các tập luật kết hợp. Một số khái niệm liên quan. Hạng mục (Item) : mặt hàng trong giỏ (CSDL giỏ hàng) hay một thuộc tính. Gọi I= {i1, i2,…,im} là tập hợp các hạng mục. Transaction (Giao dịch) T: T là tập các hạng mục và T  I Transaction Database (cơ sở dữ liệu giao dịch) D: tập hợp các giao dịch D = {T1, T2,…, Tn}. Ví dụ: các giao dịch giỏ hàng siêu thị: T1: {bread, cheese, milk} T2: {apple, eggs, salt, yogurt} … Tn: {biscuit, eggs, milk} Một giao dịch T gọi là hỗ

Trang 1

I Bài toán

Tìm các luật kết hợp trong cơ sở dữ liệu Weather.nominal

II Mô tả dữ liệu bài toán

Dữ liệu mô tả về thời tiết gồm năm trường:

- Outlook

- Temperature

- Play : thuộc tính phân loại

- Humidity

- Windy

Và có 14 bản ghi dữ liệu

Dữ liệu :

Đây là dữ liệu mô tả về khả năng có đến sân để chơi thể thao (tennis chẳn hạn) hay không của những người chơi thể thao phụ thuộc vào thời tiết và rút ra được các quy luật thay đổi của thời tiết

Trang 2

III Giải thuật Apriori

Đươ ̣c Agrawal đưa ra vào năm 1993, khai phá dữ liệu bằng phương pháp phát hiện các luật kết hợp là một trong các phương pháp khai thác đặc trưng đối với khai phá dữ liệu với nhiệm vụ phân tích dữ liệu trong CSDL nhằm phát hiện và đưa ra những mối liên hệ giữa các giá trị dữ liệu Cu ̣ thể là tìm tần số mẫu, mối kết

hơ ̣p, sự tương quan hay các cấu trúc nhân quả giữa các tâ ̣p đối tượng trong các CSDL giao di ̣ch, CSDL quan hê ̣ và những kho thông tin khác, kết quả thu được đó chính là các tập luật kết hợp

Một số khái niê ̣m liên quan.

Hạng mục (Item) : mặt hàng trong giỏ (CSDL giỏ hàng) hay một thuộc tính

Gọi I= {i1, i2,…,im} là tập hợp các ha ̣ng mu ̣c

Transaction (Giao dịch) T: T là tập các ha ̣ng mu ̣c và T ⊆ I

Transaction Database (cơ sở dữ liệu giao dịch) D: tập hợp các giao dịch D = {T1, T2,…, Tn}

Ví dụ: các giao dịch giỏ hàng siêu thị:

T1: {bread, cheese, milk}

T2: {apple, eggs, salt, yogurt}

Tn: {biscuit, eggs, milk}

Mô ̣t giao di ̣ch T go ̣i là hỗ trợ tâ ̣p X nếu nó chứa tất cả các ha ̣ng mu ̣c trong X, nghĩa là X ⊆ T Ký hiệu support(X) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng số các giao dịch trong D, nghĩa là:

Trang 3

Support(X)= { }

D

T X D

T∈ | ⊆

Hỗ trợ tối thiểu (minsup: minimum support) là một giá trị cho trước bởi người sử dụng Nếu tập ha ̣ng mục X có support(X) ≥ minsup thì ta nói X là một tập các khoản mục thường xuyên

Một luật kết hợp là một quan hệ có dạng X ⇒ Y, trong đó X, Y ⊆ I là các tập ha ̣ng mu ̣c (itemset) và X ∩ Y = ∅ Ở đây X (vế trái luâ ̣t) được gọi là tiền đề, Y (vế phải luâ ̣t) là mệnh đề kết quả (hê ̣ quả)

Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy (c)

Độ hỗ trợ (support) của luật kết hợp X ⇒ Y là tỷ lệ % số giao dịch có chứa cả X, Y so với tổng số giao dịch có trong cơ sở dữ liệu Đô ̣ hỗ trợ còn được coi là

đô ̣ phổ biến

Sup(X⇒Y)= support(X∪ Y)

Đô ̣ hỗ trơ ̣ tối thiểu (minsup):

- Cao: ít tâ ̣p phần tử phổ biến

ít luâ ̣t hợp lê ̣ thường xuất hiê ̣n

- Thấp: nhiều luâ ̣t hơ ̣p lê ̣ hiếm xuất hiê ̣n

Độ tin cậy (confidence) của luật X ⇒ Y là tỷ lệ % của số giao dịch có chứa

Y trong số giao dịch có chứa X (khả năng giao di ̣ch T hỗ trợ X thì cũng hỗ trợ Y) Conf(X ⇒ Y) = sup(sup(X X∪)Y)

Đô ̣ tin câ ̣y (đô ̣ ma ̣nh) thể hiê ̣n nếu vế trái xảy ra thì có bao nhiêu khả năng vế phải xảy ra

Trang 4

Đô ̣ tin câ ̣y thối thiểu (minconf):

- Cao: ít luâ ̣t nhưng tất cả “gần như đúng”

- Thấp: nhiều luâ ̣t, phần lớn rất “không chắc chắn”.

Giá tri ̣ tiêu biểu: minsup = 2% – 10%, minconf = 70% – 90%

Đi ̣nh nghĩa bài toán: Bài toán khai thác luâ ̣t kết hợp là bài toán tìm tất cả các luật dạng X ⇒ Y (X, Y ⊆ I và X ∩Y =φ) thỏa mãn độ hỗ trơ ̣ và độ tin cậy tối thiểu.

sup(X ⇒ Y ) ≥ minsup conf (X ⇒ Y ) ≥ minconf

 Một itemset là một tập hợp các item

Ví dụ: X = {milk, bread, cereal} là một itemset

 Một k-itemset là tập có k items

 Tập item phổ biến (hay tập item lớn) là tập hợp các item có độ hỗ trợ lớn hơn hay bằng minsup

 Tập item dự kiến (hay tập ứng cử viên) là tập hợp các item cần được xem xét

có phải là tập item phổ biến không

1.2.2 Giải thuật Apriori khai phá tập hạng mục phổ biến

Apriori là thuâ ̣t toán khai phá luâ ̣t kết hợp phổ biến nhất và là cơ sở để phát triển các giải thuâ ̣t khác

a Bản chất

- Dựa trên tính chất Apriori của tập phổ biến: mọi tập item phổ biến thì tất cả các tập item con của nó đều là phổ biến

Trang 5

- Tìm tất cả các tập phổ biến 1-hạng mục Sau đó là tất cả các tập phổ biến 2- hạng mục, …

+ Trong mỗi vòng lặp k, chỉ quan tâm đến những tập có chứa một số các tập phổ biến (k-1)- hạng mục

+ Tạo các tập ứng viên kích thước k-hạng mục (k - candidate itemset) từ các tập phổ biến có kích thước (k-1)-hạng mục

+ Kiểm tra độ phổ biến của các ứng viên trên CSDL và loại các ứng viên không phổ biến

b Ví du ̣:

Nhận xét thuật toán Apriori:

- Ta ̣o các tâ ̣p phổ biến thì châ ̣m (đă ̣c biê ̣t là các tâ ̣p có kích thước 2)

Trang 6

- Ta ̣o các luâ ̣t kết hợp từ các tâ ̣p phổ biến thì nhanh

- Khi ta ̣o các tâ ̣p phổ biến, ngưỡng đô ̣ hỗ trợ được sử du ̣ng

- Khi ta ̣o luâ ̣t kết hơ ̣p, ngưỡng đô ̣ tin câ ̣y được sử du ̣ng

- Tìm kiếm mức kinh nghiệm

- k = kích thước của tập item lớn nhất

- Nó phải duyệt k lần trên dữ liệu

- Không gian của tất cả các luật là hàm mũ O(2m), m:số các item trong I

Ưu điểm:

 Thuật toán chạy nhanh, dưới một số điều kiện, tất cả các luật được tìm thấy theo thời gian tuyến tính

 Co dãn trên một tập hợp lớn dữ liệu

 Việc khai phá đã khai thác được tính thưa thớt của dữ liệu và các giá trị độ

hỗ trợ nhỏ nhất cao hơn, độ tin cậy nhỏ nhất cao hơn

Hạn chế:

 Quét nhiều lần CSDL

 Số lượng các tập ứng cử viên lớn

 Tốn nhiều công sức khi tính toán độ hỗ trợ cho các tập ứng cử viên

IV Tiền xử lý dữ liệu bằng Weka

Trong qui trình khai phá dữ liệu, công việc xử lý dữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước này làm cho dữ liệu có được ban đầu qua thu thập dữ liệu (gọi là dữ liệu gốc ordinal data) có thể áp dụng

Trang 7

được (thích hợp) với các mô hình khai phá dữ liệu (data mining model)

cụ thể Các công việc cụ thể của tiền xử lý dữ liệu bao gồm những công việc như:

Filtering Attributes: Chọn các thuộc tính phù hợp với mô hình

Filtering samples: Lọc các mẫu (instances, patterns) dữ liệu cho

mô hình

Clean data: Làm sạch dữ liệu như xóa bỏ các dữ liệu bất thường

(Outlier)

Transformation: Chuyển đổi dữ liệu cho phù hợp với các mô hình

như chuyển đổi dữ liệu từ numeric qua nomial hay ordinal

Discretization (rời rạc hóa dữ liệu): Nếu bạn có dữ liệu liên tục

nhưng một vài mô hình chỉ áp dụng cho các dữ liệu rời rạc (như luật kết hợp chẳn hạn) thì bạn phải thực hiện việc rời rạc hóa dữ liệu

Trong cơ sở dữ liệu weather.nominal để tìm được các luật kết hợp bằng Weka ta phải thực hiển rời rạc hóa dữ liệu Tức là chuyển các kiểu dữ liệu trong weather.nominal về dạng kiểu dữ liệu nominal

Đầu tiên mở file: file đầu vào weather.nominal.csv

Trang 8

Khi chọn open ta được như sau:

- Xét cho thuộc tính outlook

Trang 9

Quan sát trên hình ta thấy thuộc tính outlook có kiểu dữ liệu là Nominal.

Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 Số mẫu không có giá trị trùng với mẫu khác là 0 Một bảng thống kê Dạng phi số của thuôc tính outlook

Vậy thuộc tính outlook đã rời rạc hóa

- Xét cho thuộc tính temperature

Trang 10

Quan sát hình trên ta thấy thuộc tính temperature có kiểu dữ liệu nominal.

Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 Số mẫu không có giá trị trùng với mẫu khác là 0 Một bảng thống kê Dạng phi số của thuôc tính

Vậy thuộc tính temperature đã rời rạc hóa

- Xét cho thuộc tính humidity

Trang 11

Quan sát hình trên ta thấy thuộc tính humidity có kiểu dữ liệu nominal Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 Số mẫu không có giá trị trùng với mẫu khác là 0 Một bảng thống kê Dạng phi số của thuôc tính

Vậy thuộc tính humidity đã rời rạc hóa

Trang 12

- Xét cho thuộc tính windy

Quan sát hình trên ta thấy thuộc tính windy có kiểu dữ liệu nominal Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 Số mẫu không có giá trị trùng với mẫu khác là 0 Một bảng thống kê Dạng phi số của thuôc tính

Vậy thuộc tính windy đã rời rạc hóa

Trang 13

- Xét cho thuộc tính play

Quan sát hình trên ta thấy thuộc tính play có kiểu dữ liệu nominal Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 Số mẫu không có giá trị trùng với mẫu khác là 0 Một bảng thống kê Dạng phi số của thuôc tính

Vậy thuộc tính play đã rời rạc hóa

Sau đó ta lưu dữ liệu trên dưới dạng weather.nominal.arff

Trang 14

V Tìm luật bằng Weka

Mở lại file weather.nominal.arff trên và chon associate để tìm các luật kết hợp Để tìm các luật ta sử dụng thuật toán apriori đã được giới thiệu ở trên

Trong đó :

- Associator: phương pháp khai thác luật kết hợp

• Choose: lựa chọn một phương pháp

• Textbox: thay đổi tham số cho phương pháp đã lựa chọn

Trang 15

Sử dụng giải thuật apriori để phân tích dữ liệu trong weather.nominal để phát hiện và đưa ra những mối liên hệ giữa các thuộc tính: outlook, temperature, humidyti, windy, play Mặt khác Apriori là thuâ ̣t toán khai phá luâ ̣t kết hợp phổ biến nhất và là cơ sở để phát triển các giải thuâ ̣t khác

Khi chọn thuật toán apiori xong -> kích vào Textbox để thay đổi các tham số

Trang 16

Thống tin các tham số:

- [lowerBoundMinSupport, upperBoundMinSupport] : độ phổ

biến của các tập hạng mục khai thác được sẽ nằm trong khoảng này

- MetricType: Độ đo tính lý thú của luật kết hợp, gồm có

Confidence, Lift, Leverage, Conviction

- minMetric: Các luật khai thác được sẽ có độ đo thỏa giá trị này

Trang 17

- numRule và delta: Thuật toán luôn khởi động với mức độ lý thú

mục tiêu cao nhất khi số luật đạt con số numRule, thuật toán sẽ dừng, ngược lại giá trị của minMetric sẽ giảm một lượng delta để tìm các luật có độ đo lý thú thấp hơn

- outputItemsets: kết xuất tập phổ biến trong kết quả

Vì vậy ta thiết đặt các thống số cho bài toán như sau:

Sau đó chon Start ta có được kết quả các luật được khai phá như sau:

Trang 18

10 luật được sinh ra từ dữ liệu weather.nominal được sắp xếp giảm dần theo

confidence

Luât kết hợp số 1 cho ta biết nếu quang cảnh ngoài trời u ám thì vẫn có thể chơi thể thao

Luật kết hợp số 2 cho ta biết nêu nhiệt độ lành thì độ ẩm là bình thường

Luật kết hợp số 3 cho ta biết quy luật nêu đô ẩm bình thường và không có gió thì sẽ chơi thể thao được

Luật kết hợp số 4 cho ta biết luật nếu quang cảnh ngoài trời là mưa, có người chơi thể thào thì hôm đó không có gió

Luật kết hợp thứ 5 cho ta biết quy luật nêu quang cảnh ngoài trời mưa, không

có gió vẫn có thể chơi thể thao

Luật kết hợp thứ 6 cho ta biết quy luật nếu quang cảnh ngoài trời là nắng mà không có người chơi thì hôm đó độ ẩm cao

Trang 19

Luật kết hợp thứ 7 cho ta biết quy luật nêu quảng cảnh ngoài trời là nắng, độ

ẩm cao thì sẽ không có người chơi thể thao

Luật kết hợp thứ 8 cho ta biết quy luật nếu nhiệt độ lạnh vẫn có người chơi thể thao thì hôm đó độ ẩm bình thường

Luật kết hợp thứ 9 cho ta biết quy luật nếu quang cảnh ngoài trời u ám không

có người chơi thì hôm đó có nhiệt độ cao

Luật kết hợp thứ 10 cho ta biết quy luật nếu quang cảnh ngoài trời u ám nhiệt

độ cao thì hôm đó không có gió

Ngày đăng: 16/12/2013, 15:08

HÌNH ẢNH LIÊN QUAN

Quan sát trên hình ta thấy thuộc tính outlook có kiểu dữ liệu là Nominal. Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu Weather.nominal.arff
uan sát trên hình ta thấy thuộc tính outlook có kiểu dữ liệu là Nominal. Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 (Trang 9)
Quan sát hình trên ta thấy thuộc tính temperature có kiểu dữ liệu nominal. Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu Weather.nominal.arff
uan sát hình trên ta thấy thuộc tính temperature có kiểu dữ liệu nominal. Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 (Trang 10)
Quan sát hình trên ta thấy thuộc tính humidity có kiểu dữ liệu nominal. Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu Weather.nominal.arff
uan sát hình trên ta thấy thuộc tính humidity có kiểu dữ liệu nominal. Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 (Trang 11)
Quan sát hình trên ta thấy thuộc tính windy có kiểu dữ liệu nominal. Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu Weather.nominal.arff
uan sát hình trên ta thấy thuộc tính windy có kiểu dữ liệu nominal. Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 (Trang 12)
Quan sát hình trên ta thấy thuộc tính play có kiểu dữ liệu nominal. Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 - Tiểu luận khai phá dữ liệu: Sử dụng phần mềm Weka phân lớp cho cơ sở dữ liệu Weather.nominal.arff
uan sát hình trên ta thấy thuộc tính play có kiểu dữ liệu nominal. Số mẫu thiếu giá trị trên thuộc tính đang xét là 0 (Trang 13)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w