Tìm hiểu và cài đặt thuật toán phân lớp dữ liệu và ứng dụng trong phân tích kết quả học tập của sinh viên

Khai thác dữ liệu chỉ là một khâu trong qui trình Khám phá tri thức trong cơ sở dữ liệu..  Hiện nay kỹ thuật khai thác dữ liệu đang được áp dụng một cách rộng rãi tron

Trang 1

NỘI DUNG BÁO CÁO

 Giới thiệu

 Phân lớp dữ liệu và các thuật toán phân lớp dữ liệu

 Luật kết hợp và các thuật toán tìm luật kết hợp

Trang 2

GIỚI THIỆU

 Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu

ngày càng phát triển nhanh chóng tạo điều kiện cho các đơn vị thu thập dữ liệu nhiều hơn và tốt hơn Đặc biệt trong lĩnh vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng của việc nắm bắt và xử lý thông tin

 Khai thác dữ liệu là quá trình trích xuất các thông tin có giá trị tiềm ẩn

trong những kho dữ liệu Khai thác dữ liệu chỉ là một khâu trong qui trình Khám phá tri thức trong cơ sở dữ liệu

 Hiện nay kỹ thuật khai thác dữ liệu đang được áp dụng một cách rộng rãi

trong rất nhiều lĩnh vực kinh doanh và đời sống khác nhau như: y tế, marketing, ngân hàng, viễn thông, internet… Không ai có thể phủ định được những lợi ích to lớn mà nhờ áp dụng kỹ thuật khai phá đem lại.

Trang 3

GIỚI THIỆU

 CSDL càng lớn thì tri thức khai thác được càng nhiều, tuy nhiên với tốc

độ phát triển của công nghệ hiện nay, dữ liệu phình lên với tốc độ rất lớn, trung bình là 10% - 15% một năm, cá biệt có những CSDL lớn gấp đôi sau mỗi năm, điều này gây khó khăn không nhỏ cho việc áp dụng các phương thức khai thác dữ liệu kinh điển Các thuật toán xử lý tuần tự đôi khi không thể thực hiện trên những CSDL lớn.

 Trong những năm gần đây, việc nghiên cứu cải tiến các thuật toán tuần tự

trong khai thác dữ liệu đang là hướng được nhiều người quan tâm Việc cải tiến được thực hiện trên hai khía cạnh:

 1 Cải tiến về cấu trúc nhằm lưu trữ dữ liệu thích hợp cho các thuật

toán.

 2 Cải tiến về cách thực thi các thuật toán trên cơ sở song song hóa

dựa trên sự phát triển của công nghệ chế tạo.

Trang 4

PHÂN LỚP DỮ LIỆU

 Cho một CSDL D = {t1,t2,…,tn}, một tập hợp các

lớp C= {C1,…,Cm}, bài toán phân lớp được phát

biểu như sau: Xác định ánh xạ f : DC sao cho với mỗi ti được quy về một lớp Cj.

 Về mặt thực chất, bài toán phân lớp chính là chia D

thành các lớp tương đương.

Trang 5

THUẬT TOÁN PHÂN LỚP DỮ LIỆU

 Phân lớp sử dụng khoảng cách

 Phân lớp theo thống kê xác suất

Trang 6

THUẬT TOÁN K-MEANS

 Do J.MacQueen giới thiệu năm 1967 trong tài liệu “J Some

Methods for Classification and Analysis of Multivariate

Observations”

 Được xếp vào 10 thuật toán tốt nhất trong Parallel Data Mining

 K-means Clustering là một thuật toán dùng trong các bài toán

phân loại/nhóm n đối tượng thành k nhóm dựa trên đặc

tính/thuộc tính của đối tượng (k n nguyên, dương)

 Về nguyên lý, có n đối tượng, mỗi đối tượng có m thuộc tính,

ta phân chia được các đối tượng thành k nhóm dựa trên các thuộc tính của đối tượng bằng việc áp dụng thuật toán này

Trang 7

THUẬT TOÁN K-MEANS

Data input:

- n objects

- k clusters Start

Initial k cluster centers

T F

End

Trang 8

VÍ DỤ K-MEANS

 Số nhóm k=3

 Số đối tượng cần phân chia n=9 (9 loại thuốc)

 Số thuộc tính của mỗi loại thuốc là m=2

 Cụ thể, danh mục các loại thuốc cần phân loại như sau:

Trang 9

VÍ DỤ

Kết quả lần 1:

 Với 3 điểm trung tâm ban đầu:

 Ta được:

Trang 11

 Tính toán lại điểm trung tâm từ lần lặp trước:

 Kết quả:

VÍ DỤ:

Kết quả lặp lần 3:

Trang 13

LUẬT KẾT HỢP

I.1 Luật kết hợp

 Gọi I={I1, I2,…,Im} là tập m thuộc tính riêng biệt, mỗi thuộc

tính gọi là một item Gọi D là một CSDL, trong đó mỗi bản ghi T là một giao dịch và chứa các tập item, TI

 Định nghĩa 1: Một luật kết hợp là một quan hệ có dạng

XY, trong đó X, Y  I là các tập item gọi là itemsets và XY= Ở đây X được gọi là tiền đề, Y là mệnh đề kết quả

Trang 14

 Định nghĩa 2: Độ hỗ trợ (support) của luật kết hợp X  Y là tỷ

lệ % các giao dịch có chứa X, Y với tổng số các giao dịch có trong cơ sở dữ liệu

 Định nghĩa 3: Độ tin cậy (confidence) của luật là tỷ lệ % của

số giao dịch có chứa X, Y với số giao dịch có chứa X

 Việc tìm các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất

cả các luật có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ

hỗ trợ và độ tin cậy do người sử dụng xác định trước Các

ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là minsup và

mincof.

Trang 15

I.1 Luật kết hợp

Ví dụ: Phân tích giỏ mua hàng

TID Items

1 Bread, Milk

2 Bread, Diaper, Beer, Eggs

3 Milk, Diaper, Beer, Coke

4 Bread, Milk, Diaper, Beer

5 Bread, Milk, Diaper, Coke

Example:

Beer }

Diaper ,

Milk

4

0 5

2

| T

|

) Beer Diaper,

, Milk

0 3

2 )

Diaper ,

Milk (

) Beer Diaper,

Trang 16

I.2 Một số khái niệm liên quan.

 Tập k item là tập hợp có k item

 Tập item phổ biến là tập hợp các item có độ hỗ trợ lớn

hơn hay bằng minsup

 Tập item dự kiến (tập ứng cử viên) là tập hợp các item

cần được xem xét có phải là tập item phổ biến không

Trang 17

THUẬT TOÁN TÌM LUẬT KẾT HỢP

 Thuật toán AIS

 Thuật toán SETM

 Thuật toán Apriori

 Thuật toán Eclat

Trang 18

THUẬT TOÁN APRIORI

 Ý tưởng: Tạo ra các tập phổ biến có 1 item, tập 2 items

tạo từ tập 1_item,……tập k items tạo từ tập k-1 items Xây dựng luật từ tập phổ biến k items tìm được

 Mỗi tập item được tạo ra phải được tính toán độ hỗ trợ và

độ tin cậy

 Tính chất: mọi tập item phổ biến thì tất cả các tập item

con của nó đều là phổ biến

Trang 19

Qua 2 bước:

 Tạo tập item phổ biến: tạo tất cả các tập item dự kiến,

tính toán độ hỗ trợ, loại bỏ các tập dự kiến không đạt minsupp

 Tạo luật kết hợp: Từ các tập con của tập phổ biến xây

dựng luật kết hợp và tính độ tin cậy của luật

Trang 20

1 Xác định các tập item phổ biến:

 Xác định các tập ứng cử viên (Ck)

 Xác định các tập phổ biến (Fk) dựa vào các tập ứng cử

viên

Trang 21

1.1 Xác định C k:

 Tìm các tập ứng cử viên 1 item

 Quét CSDL để xác định độ hỗ trợ của các tập ứng cử viên

Tại vòng thứ k (k>1), các tập ứng cử viên được xác định dựa vào các tập phổ biến đã xác định tại vòng (k-1) sử dụng hàm Apriori_gen() Sau khi xác định được các tập ứng cử viên, thuật toán quét từng giao dịch trong CSDL để xác định độ hỗ trợ của các tập ứng cử viên Quá trình xác định các tập item phổ biến sẽ kết thúc khi không xác định được thêm tập item phổ biến nào nữa

Trang 22

1.2 Nội dung hàm Apriori_gen()

+ F k-1 được kết nối với chính nó thu được C k

+ Apriori_gen() xoá tất cả các tập item từ kết quả kết nối mà có 1 số tập con (k-1) không có trong Fk-1 Sau đó nó trả về tập item phổ biến kích thước k còn lại.

Trang 23

null

Trang 24

3 e

3 c

3 b

2 a

Sup Itemset

Data base D 1-candidates

Scan D

3 e

3 c

3 b

2 a

Sup Itemset

Freq 1-itemsets

bc ae ac

ce be

ab Itemset 2-candidates

ce be bc ae ac ab Itemset

2 1 2

2 3

1 Sup Counting

Scan D

ce be bc ac Itemset

2 2

2 3

Sup

Freq 2-itemsets bce

Itemset 3-candidates

bce

Itemset

2 Sup Freq 3-itemsets

Scan D

Ví dụ tìm tập item phổ biến

Trang 25

2 Sinh các luật kết hợp từ các item phổ biến:

 Tìm tất cả các tập con không rỗng h của tập item phổ biến

f F

 Với mỗi tập con h tìm được, ta xuất ra luật dạng (h) (f-h)

nếu tỉ lệ support(f)/support(h)  mincof

Trang 26

Suppose {2,3,4} is frequent, with sup=50%

 Proper nonempty subsets: {2,3}, {2,4}, {3,4}, {2}, {3}, {4}, with

 All rules have support = 50%

Ví dụ sinh luật kết hợp

Trang 27

II Thuật toán Apriori

Trang 28

Thủ tục tìm tập ứng cử viên

Trang 29

Thủ tục loại bỏ các tập ứng cử viên không phổ biến

Định dạng
Số trang	29
Dung lượng	446 KB