1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu và cài đặt thuật toán phân lớp dữ liệu và ứng dụng trong phân tích kết quả học tập của sinh viên

29 833 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 446 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khai thác dữ liệu chỉ là một khâu trong qui trình Khám phá tri thức trong cơ sở dữ liệu..  Hiện nay kỹ thuật khai thác dữ liệu đang được áp dụng một cách rộng rãi tron

Trang 1

NỘI DUNG BÁO CÁO

 Giới thiệu

 Phân lớp dữ liệu và các thuật toán phân lớp dữ liệu

 Luật kết hợp và các thuật toán tìm luật kết hợp

Trang 2

GIỚI THIỆU

 Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu

ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng của việc nắm bắt và xử lý thông tin

 Khai thác dữ liệu là quá trình trích xuất các thông tin có giá trị tiềm ẩn

trong những kho dữ liệu Khai thác dữ liệu chỉ là một khâu trong qui trình Khám phá tri thức trong cơ sở dữ liệu

 Hiện nay kỹ thuật khai thác dữ liệu đang được áp dụng một cách rộng rãi

trong rất nhiều lĩnh vực kinh doanh và đời sống khác nhau như: y tế, marketing, ngân hàng, viễn thông, internet… Không ai có thể phủ định được những lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại.

Trang 3

GIỚI THIỆU

 CSDL càng lớn thì tri thức khai thác được càng nhiều, tuy nhiên với tốc

độ phát triển của công nghệ hiện nay, dữ liệu phình lên với tốc độ rất lớn, trung bình là 10% - 15% một năm, cá biệt có những CSDL lớn gấp đôi sau mỗi năm, điều này gây khó khăn không nhỏ cho việc áp dụng các phương thức khai thác dữ liệu kinh điển Các thuật toán xử lý tuần tự đôi khi không thể thực hiện trên những CSDL lớn.

 Trong những năm gần đây, việc nghiên cứu cải tiến các thuật toán tuần tự

trong khai thác dữ liệu đang là hướng được nhiều người quan tâm Việc cải tiến được thực hiện trên hai khía cạnh:

 1 Cải tiến về cấu trúc nhằm lưu trữ dữ liệu thích hợp cho các thuật

toán.

 2 Cải tiến về cách thực thi các thuật toán trên cơ sở song song hóa

dựa trên sự phát triển của công nghệ chế tạo.

Trang 4

PHÂN LỚP DỮ LIỆU

 Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các

lớp C= {C1,…,Cm}, bài toán phân lớp được phát

biểu như sau: Xác định ánh xạ f : DC sao cho với mỗi ti được quy về một lớp Cj.

 Về mặt thực chất, bài toán phân lớp chính là chia D

thành các lớp tương đương.

Trang 5

THUẬT TOÁN PHÂN LỚP DỮ LIỆU

 Phân lớp sử dụng khoảng cách

 Phân lớp theo thống kê xác suất

Trang 6

THUẬT TOÁN K-MEANS

 Do J.MacQueen giới thiệu năm 1967 trong tài liệu “J Some

Methods for Classification and Analysis of Multivariate

Observations”

 Được xếp vào 10 thuật toán tốt nhất trong Parallel Data Mining

 K-means Clustering là một thuật toán dùng trong các bài toán

phân loại/nhóm n đối tượng thành k nhóm dựa trên đặc

tính/thuộc tính của đối tượng (k n nguyên, dương)

 Về nguyên lý, có n đối tượng, mỗi đối tượng có m thuộc tính,

ta phân chia được các đối tượng thành k nhóm dựa trên các thuộc tính của đối tượng bằng việc áp dụng thuật toán này

Trang 7

THUẬT TOÁN K-MEANS

Data input:

- n objects

- k clusters Start

Initial k cluster centers

Initial k cluster centers

T F

End

Trang 8

VÍ DỤ K-MEANS

 Số nhóm k=3

 Số đối tượng cần phân chia n=9 (9 loại thuốc)

 Số thuộc tính của mỗi loại thuốc là m=2

 Cụ thể, danh mục các loại thuốc cần phân loại như sau:

Trang 9

VÍ DỤ

Kết quả lần 1:

 Với 3 điểm trung tâm ban đầu:

 Ta được:

Trang 11

 Tính toán lại điểm trung tâm từ lần lặp trước:

 Kết quả:

VÍ DỤ:

Kết quả lặp lần 3:

Trang 13

LUẬT KẾT HỢP

I.1 Luật kết hợp

 Gọi I={I1, I2,…,Im} là tập m thuộc tính riêng biệt, mỗi thuộc

tính gọi là một item Gọi D là một CSDL, trong đó mỗi bản ghi T là một giao dịch và chứa các tập item, TI

Định nghĩa 1: Một luật kết hợp là một quan hệ có dạng

XY, trong đó X, Y  I là các tập item gọi là itemsets và XY= Ở đây X được gọi là tiền đề, Y là mệnh đề kết quả

Trang 14

Định nghĩa 2: Độ hỗ trợ (support) của luật kết hợp X Y là tỷ

lệ % các giao dịch có chứa X, Y với tổng số các giao dịch có trong cơ sở dữ liệu

Định nghĩa 3: Độ tin cậy (confidence) của luật là tỷ lệ % của

số giao dịch có chứa X, Y với số giao dịch có chứa X

 Việc tìm các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất

cả các luật có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ

hỗ trợ và độ tin cậy do người sử dụng xác định trước Các

ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là minsup và

mincof.

Trang 15

LUẬT KẾT HỢP

I.1 Luật kết hợp

Ví dụ: Phân tích giỏ mua hàng

TID Items

1 Bread, Milk

2 Bread, Diaper, Beer, Eggs

3 Milk, Diaper, Beer, Coke

4 Bread, Milk, Diaper, Beer

5 Bread, Milk, Diaper, Coke

Example:

Beer }

Diaper ,

Milk

4

0 5

2

| T

|

) Beer Diaper,

, Milk

0 3

2 )

Diaper ,

Milk (

) Beer Diaper,

Trang 16

LUẬT KẾT HỢP

I.2 Một số khái niệm liên quan.

 Tập k item là tập hợp có k item

 Tập item phổ biến là tập hợp các item có độ hỗ trợ lớn

hơn hay bằng minsup

 Tập item dự kiến (tập ứng cử viên) là tập hợp các item

cần được xem xét có phải là tập item phổ biến không

Trang 17

THUẬT TOÁN TÌM LUẬT KẾT HỢP

 Thuật toán AIS

 Thuật toán SETM

 Thuật toán Apriori

 Thuật toán Eclat

Trang 18

THUẬT TOÁN APRIORI

 Ý tưởng: Tạo ra các tập phổ biến có 1 item, tập 2 items

tạo từ tập 1_item,……tập k items tạo từ tập k-1 items Xây dựng luật từ tập phổ biến k items tìm được

 Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và

độ tin cậy

 Tính chất: mọi tập item phổ biến thì tất cả các tập item

con của nó đều là phổ biến

Trang 19

THUẬT TOÁN APRIORI

Qua 2 bước:

Tạo tập item phổ biến: tạo tất cả các tập item dự kiến,

tính toán độ hỗ trợ, loại bỏ các tập dự kiến không đạt minsupp

Tạo luật kết hợp: Từ các tập con của tập phổ biến xây

dựng luật kết hợp và tính độ tin cậy của luật

Trang 20

THUẬT TOÁN APRIORI

1 Xác định các tập item phổ biến:

 Xác định các tập ứng cử viên (Ck)

 Xác định các tập phổ biến (Fk) dựa vào các tập ứng cử

viên

Trang 21

THUẬT TOÁN APRIORI

1.1 Xác định C k:

 Tìm các tập ứng cử viên 1 item

 Quét CSDL để xác định độ hỗ trợ của các tập ứng cử viên

Tại vòng thứ k (k>1), các tập ứng cử viên được xác định dựa vào các tập phổ biến đã xác định tại vòng (k-1) sử dụng hàm Apriori_gen() Sau khi xác định được các tập ứng cử viên, thuật toán quét từng giao dịch trong CSDL để xác định độ hỗ trợ của các tập ứng cử viên Quá trình xác định các tập item phổ biến sẽ kết thúc khi không xác định được thêm tập item phổ biến nào nữa

Trang 22

THUẬT TOÁN APRIORI

1.2 Nội dung hàm Apriori_gen()

+ F k-1 được kết nối với chính nó thu được C k

+ Apriori_gen() xoá tất cả các tập item từ kết quả kết nối mà có 1 số tập con (k-1) không có trong Fk-1 Sau đó nó trả về tập item phổ biến kích thước k còn lại.

Trang 23

THUẬT TOÁN APRIORI

null

Trang 24

3 e

3 c

3 b

2 a

Sup Itemset

Data base D 1-candidates

Scan D

3 e

3 c

3 b

2 a

Sup Itemset

Freq 1-itemsets

bc ae ac

ce be

ab Itemset 2-candidates

ce be bc ae ac ab Itemset

2 1 2

2 3

1 Sup Counting

Scan D

ce be bc ac Itemset

2 2

2 3

Sup

Freq 2-itemsets bce

Itemset 3-candidates

bce

Itemset

2 Sup Freq 3-itemsets

Scan D

Ví dụ tìm tập item phổ biến

Trang 25

THUẬT TOÁN APRIORI

2 Sinh các luật kết hợp từ các item phổ biến:

 Tìm tất cả các tập con không rỗng h của tập item phổ biến

f F

 Với mỗi tập con h tìm được, ta xuất ra luật dạng (h) (f-h)

nếu tỉ lệ support(f)/support(h)  mincof

Trang 26

THUẬT TOÁN APRIORI

Suppose {2,3,4} is frequent, with sup=50%

 Proper nonempty subsets: {2,3}, {2,4}, {3,4}, {2}, {3}, {4}, with

 All rules have support = 50%

Ví dụ sinh luật kết hợp

Trang 27

II Thuật toán Apriori

Trang 28

II Thuật toán Apriori

Thủ tục tìm tập ứng cử viên

Trang 29

II Thuật toán Apriori

Thủ tục loại bỏ các tập ứng cử viên không phổ biến

Ngày đăng: 19/06/2014, 21:17

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w