1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp khai phá dữ liệu dạng đóng và ứng dụng

70 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 70
Dung lượng 0,95 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Từ đó dẫn đến kết quả là sự pha trộn của kỹ thuật thống kê vào các công cụ quản trị dữ liệu không thể phân tích đầy đủ dữ liệu rộng lớn được nữa.. Luận văn cấu trúc gồm 3 chương: Chươ

Trang 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ

Trang 2

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ

Thái Nguyên - 2011

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan Luận văn “ Phương pháp khai phá dữ liệu dạng đóng

và ứng dụng” là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của

PGS.TS Ngô Quốc Tạo Toàn bộ phần mềm do chính tôi lập trình và kiểm

thử Tôi xin chịu trách nhiệm về lời cam đoan của mình

Các số liệu và thông tin sử dụng trong luận văn này là trung thực

Tác giả

Nguyễn Hồng Hải

Trang 4

MỤC LỤC

MỤC LỤC i

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT iv

DANH MỤC CÁC BẢNG v

DANH MỤC HÌNH VẼ vi

MỞ ĐẦU 1

Chương 1: TÌM HIỂU PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 3

1.2 Khai phá dữ liệu là gì 3

1.2 Ứng dụng của việc khai phá dữ liệu 3

1.3 Qui trình khai phá tri thức 4

1.3.1 Qui trình khai phá tri thức 4

1.3.2 Kiến trúc hệ thống khai phá dữ liệu 5

1.4 Các nhiệm vụ chính của khai phá tri thức 5

1.4.1 Dự đoán (predictive) 5

1.4.2 Mô tả (discriptive) 6

1.5 Ý tưởng kĩ thuật khai phá tri thức 7

1.6 Các thách thức của khai phá tri thức 7

1.7 Qui trình chuẩn bị dữ liệu 7

1.7.1 Tại sao cần chuẩn bị dữ liệu 7

1.7.2 Làm sạch dữ liệu 8

1.7.3 Chọn lọc dữ liệu 9

1.7.4 Rút gọn dữ liệu 9

1.7.5 Mã hóa dữ liệu 11

1.8 Tập phổ biến 11

1.8.1 Giới thiệu tập phổ biến 11

1.8.2 Các khái niệm cơ bản 12

1.8.2.1 Cho cơ sở dữ liệu giao dịch 12

Trang 5

1.8.2.2 Độ phổ biến và tập phổ biến 13

1.8.2.3 Tính chất của tập phổ biến 14

1.8.2.4 Tập phổ biến tối đại 14

1.8.2.5 Tập phổ biến đóng 14

1.8.2.6 Luật kết hợp 15

1.8.2.7 Mô tả bài toán luật kết hợp 15

1.9 Phân lớp dữ liệu 16

1.9.1 Định nghĩa thông qua ví dụ 16

1.9.2 Quy trình phân lớp 16

1.10 Phân cụm dữ liệu 17

1.10.1 Phân cụm là gì? 17

1.10.2 Phân biệt phân lớp và phân cụm 17

1.10.3 Ứng dụng phân cụm 18

1.10.4 Ví dụ 19

Chương 2: KHAI PHÁ TẬP PHỔ BIẾN ĐÓNG TRONG KHÔNG GIAN 2 CHIỀU VÀ KHAI PHÁ KHỐI ĐÓNG TRONG KHÔNG GIAN 3 CHIỀU 20 2.1 Tổng quan khai phá tập phổ biến đóng FCP trong không gian 2 chiều20 2.2 Mở đầu khai phá tập phổ biến đóng FCP trong không gian 2 chiều 20

2.3 Tiến hành khai phá tập phổ biến đóng FCP 22

2.3.1 Sơ lược về quá trình khai phá tập phổ biến đóng 22

2.3.2 Thuật toán C-Miner 23

2.3.2.1 Thuật toán phân cụm (thuật toán increamental k-mean) 23

2.3.2.2 Quá trình chia không gian khai phá 25

2.3.2.3 Khai phá không gian con để tìm ra tập phổ biến đóng FCPs 29 2.4 Tổng quan khai phá khối phổ biến đóng FCC trong không gian 3 chiều 32 2.5 Mở đầu khai phá khối phổ biến đóng FCC trong không gian 3 chiều 33

Trang 6

2.6 Khai phá các lát cắt đại diện 36

2.6.1 Tạo ra các dàn đại diện 38

2.6.2 Tạo ra các tập phổ biến đóng FCP 39

2.6.3 3D FCC generation by post-pruning (Chiến lược lược bỏ các khối được sinh ra không thỏa mãn) 39

2.6.4 Tính đúng đắn 41

Chương 3: CÀI ĐẶT THUẬT TOÁN VÀ ỨNG DỤNG 43

3.1 Cài đặt thuật toán trong không gian 2 chiều 43

3.2 Cài đặt ứng dụng trong không gian 2 chiều 46

3.2.1 Cơ sở dữ liệu 47

3.2.2 Các bước thực hiện 47

3.3 Cài đặt thuật toán trong không gian 3 chiều 50

3.4 Cài đặt ứng dụng trong không gian 3 chiều 55

3.4.1 Cơ sở dữ liệu 55

3.4.2 Các bước thực hiện 55

KẾT LUẬN 59

TÀI LIỆU THAM KHẢO 61

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT

Các từ viết tắt Nghĩa tiếng anh Nghĩa tiếng việt

Slices

Dàn tương đương với 1 tập các mặt cắt kết hợp với nhau

Không gian con đặc (trong bài toán đang xét: là không gian con mà tất cả các ô có giá trị là “1”

Minlen

Là ngưỡng giá trị Pattern length mà các pattern phải thỏa mãn

Minsup

Là ngưỡng giá trị support

mà các pattern phải thỏa mãn

Trang 8

DANH MỤC CÁC BẢNG

Bảng 2.1 Bảng cơ sở dữ liệu 21

Bảng 2.2 Ma trận rút gọn O‟ 26

Bảng 2.3 Lát cắt 27

Bảng 2.4 Kết quả các không gian rút gọn và không gian con 27

(minsup=3, minlen=2) 27

Bảng 2.5 FCP (minsup=3, minle=2) 32

Bảng 2.6 Ma trận O trong không gian 3 chiều 34

Bảng 2.7 Khai thác FCC (minH=minR=minC=2) 38

Trang 9

DANH MỤC HÌNH VẼ

Hình 1.1 Các bước khai phá tri thức 4

Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu 5

Hình 1.3 Minh họa phân cụm dữ liệu 18

Hình 1.4 Phân cụm các điểm trong không gian 19

Hình 1.5 Phân cụm các ngôi nhà dựa vào khoảng cách địa lý 19

Hình 2.1 Khung khai phá 22

Hình 2.2 Cây phân chia sử dụng lát cắt 28

Hình 2.3 Sai sót và dư thừa 29

Trang 10

MỞ ĐẦU

Ngày nay, cuộc cách mạng của kỹ thuật số cho phép số hóa thông tin dễ dàng và chi phí lưu trữ thấp.Với sự phát triển của phần mềm, phần cứng và trang bị nhanh hệ thống máy tính trong kinh doanh Số lượng dữ liệu khổng lồ được tập trung và lưu trữ trong cơ sở dữ liệu trên các thiết bị điện tử như: đĩa cứng, băng từ, đĩa quang, CD-ROM,… Tốc độ tăng dữ liệu quá lớn Từ đó dẫn đến kết quả là sự pha trộn của kỹ thuật thống kê vào các công cụ quản trị

dữ liệu không thể phân tích đầy đủ dữ liệu rộng lớn được nữa

Dữ liệu sau khi phục vụ cho một mục đích nào đó được lưu lại trong kho

dữ liệu và theo ngày tháng khối lượng dữ liệu được lưu trữ ngày càng lớn Trong khối lượng dữ liệu to lớn này có rất nhiều thông tin có ích mang tính tổng quát, thông tin có tính quy luật vẫn còn đang tiềm ẩn mà chúng ta chưa biết Từ khối lượng dữ liệu rất lớn cần có những công cụ tự động rút các thông tin và kiến thức có ích Một hướng tiếp cận có khả năng giúp các công

ty khai thác các thông tin có nhiều ý nghĩa từ các tập dữ liệu lớn đó là khai phá dữ liệu (Data Mining)

Với sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều hiệu quả đối với khoa học cũng như các hoạt động thực tế, trong đó khai phá

dữ liệu là một trong những lĩnh vực mang lại hiệu quả thiết thực cho con người Khai phá dữ liệu đã giúp người sử dụng thu được những tri thức hữu ích từ những cớ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác Luận văn đề cập đến các khái niệm và vấn đề cơ bản trong Khai phá tri thức và Khai phá

dữ liệu, ngoài ra luận văn còn đề cập đến phương pháp khai phá dữ liệu dạng đóng được áp dụng trong nhiều lĩnh vực thực tiễn

Trang 11

Luận văn cấu trúc gồm 3 chương:

Chương 1:

Trong chương 1 chúng ta sẽ tìm hiểu quy trình khai phá tri thức, quy trình chuẩn bị dữ liệu, và một vài phương pháp khai phá dữ liệu như: phương pháp phân lớp, phương pháp phân cụm, thuật toán k-mean

Chương 2:

Trong chương 2 chúng ta sẽ nghiên cứu phương pháp khai phá tập phổ biến đóng FCPs trong không gian 2 chiều và phương pháp khai phá khối phổ biến đóng FCCs trong không gian 3 chiều

Chương 3:

Trong chương 3 chúng ta sẽ cài đặt thuật toán ở chương 2 và cài đặt ứng dụng của thuật toán trong kinh doanh: tìm những mặt hàng được bán cùng nhau nhiều bằng phương pháp khai phá tập phổ biến đóng FCPs; tìm những mặt hàng được bán cùng nhau nhiều theo các mùa: áp dụng phương pháp khai phá khối phổ biến đóng FCCs

Luận văn này được hoàn thành dưới sự hướng dẫn tận tình của PGS.TS

Ngô Quốc Tạo, tác giả xin bày tỏ lòng biết ơn chân thành của mình đối với

thầy Tác giả xin chân thành cảm ơn các thầy, cô giáo Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên đã tham gia giảng dạy, giúp đỡ em trong suốt qúa trình học tập nâng cao trình độ kiến thức Tuy nhiên vì điều kiện thời gian và khả năng có hạn nên luận văn không thể tránh khỏi những thiếu sót Tác giả kính mong các

thầy cô giáo và bạn đóng góp ý kiến để đề tài được hoàn thiện hơn

Trang 12

Chương 1: TÌM HIỂU PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU 1.1 Khai phá dữ liệu là gì

Khai phá dữ liệu là quá trình không tầm thường của việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong cơ

sở dữ liệu

Quá trình không tầm thường: là quá trình đa xử lý

Hợp lệ: có thể chứng minh được tính đúng đắn của mô hình (mẫu) Mới lạ: không thể biết trước được

Có ích: có thể sử dụng được

Có thể hiểu được: trả về kết quả cho người dùng có thể hiểu được Mẫu tiềm ẩn: là mối quan hệ trong cơ sở dữ liệu Ví dụ: những người mua quần giầy thường mua thêm tất, và xi đánh giầy

1.2 Ứng dụng của việc khai phá dữ liệu

Ngày nay dữ liệu quá nhiều, dữ liệu lớn cả về chiều và kích thước Nhưng lại có rất ít tri thức về dữ liệu, vì phần lớn dữ liệu chưa được phân tích Vì vậy data mining ra đời giúp chúng ta có thể có được nhiều thông tin

có giá trị, có lợi cho việc ra quyết định

Một số lĩnh vực ứng dụng khai phá dữ liệu:

-Thông tin thương mại

+Phân tích thị trường mua bán

+Phân tích đầu tư

+Phát hiện gian lận

-Thông tin khoa học

Trang 13

+Thiên văn học +Cơ sở dữ liệu sinh học +Khoa học địa chất: bộ dò tìm động đất -Thông tin sản xuất

+Điều khiển và lên kế hoạch

+Quản trị mạng

+Phân tích các kết quả thực nghiệm

1.3 Qui trình khai phá tri thức

1.3.1 Qui trình khai phá tri thức

Hình 1.1 Các bước khai phá tri thức

Trang 14

Bước 1: Tích hợp dữ liệu, làm sạch dữ liệu, và chọn dữ liệu tạo nên 1 kho dữ liệu

Bước 2: Biến đổi dữ liệu thích hợp với bộ máy khai phá

Bước 3: Xác định nhiệm vụ khai phá dữ liệu và lựa chọn kĩ thuật khai phá, kết quả cho ta nguồn tri thức thô

Bước 4: Đánh giá các mẫu, dựa trên 1 số tiêu trí để tiến hành kiểm tra và lọc nguồn tri thức thu được

1.3.2 Kiến trúc hệ thống khai phá dữ liệu

Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu 1.4 Các nhiệm vụ chính của khai phá tri thức

Trang 15

Ví dụ: Một công ty viễn thông lớn gặp phải khó khăn: tỷ lệ khách hàng

bị mất hàng tháng tăng lên rất nhanh

Giải pháp thông thường: Chào mời khuyến mãi tất cả khách hàng trước khi hết hợp đồng Nhưng chi phí quá tốn kém

Giải pháp của data mining: xây dựng mô hình dự đoán những khách hàng có khả năng rời bỏ công ty Sau đó sẽ khuyến mãi cho những khách hàng này (VD: khuyến mãi điện thoại mới) Và lên kế hoạch phát triển tiếp theo nhằm đáp ứng nhu cầu của khách hàng

* Hồi qui: ánh xạ từ một mẫu dữ liệu thành một biến dự đoán trước có giá trị thực

+ Phát hiện gian lận thẻ tín dụng

+Phát hiện xâm nhập mạng trái phép

1.4.2 Mô tả (discriptive)

Xác định các mẫu mô tả dữ liệu mà con người có thể hiểu được

* Gom cụm: tìm ra tập xác định các nhóm hay các cụm để mô tả dữ liệu

Trang 16

Ví dụ: chúng ta có thể chia khách hàng thành các nhóm/cụm riêng biệt

để có thể áp dụng các biện pháp quảng cáo khác nhau một cách hiệu quả nhất (chúng ta có thể chia cụm dựa vào thông tin công việc, thu nhập…………)

* Tóm tắt: phát hiện ra một mô tả tóm tắt cho một tập con dữ liệu

* Mô hình hóa phụ thuộc: phát hiện ra mô hình mà mô tả phụ thuộc quan trọng nhất giữa các biến

1.5 Ý tưởng kĩ thuật khai phá tri thức

Kĩ thuật khai phá dữ liệu được lấy ý tưởng từ các lĩnh vực như: máy học, thống kê, nhận dạng, các thuật toán………

Kĩ thuật truyền thống không phù hợp vì:

+Kích thước của dữ liệu quá lớn +Số chiều dữ liệu lớn

+Bản chất dữ liệu không đồng nhất

1.6 Các thách thức của khai phá tri thức

Khai phá dữ liệu phức tạp để lấy thông tin phức tạp

Xử lý việc khai phá dữ liệu liên quan đến nhiều vấn đề

Vấn đề bảo mật, và tích hợp dữ liệu

Lượng thông tin quá lớn, không thể xử lý hết để lấy ra tất cả các thông tin cần thiết được

1.7 Qui trình chuẩn bị dữ liệu

1.7.1 Tại sao cần chuẩn bị dữ liệu

Dữ liệu trong thực tế có chất lượng xấu:

Trang 17

+Dữ liệu thiếu, không đầy đủ: thiếu giá trị của thuộc tính, thiếu các thuộc tính quan tâm, …

+Dữ liệu bị tạp, nhiễu: chứa lỗi, hoặc các sai biệt

(ví dụ: lương = ” -100 000”) +Dữ liệu mâu thuẫn: không có sự thống nhất trong mã hoặc tên

(ví dụ: tuổi=42, ngày sinh=03/07/1997)

Dữ liệu không có chất lượng, sẽ không thể cho kết quả khai phá tốt Quyết định đúng đắn phải dựa trên các dữ liệu chính xác Ví dụ: việc trùng lặp hoặc thiếu dữ liệu có thể dẫn tới việc thống kê không chính xác, thậm chí làm lạc lối

Kho dữ liệu cần sự tích hợp đồng nhất các dữ liệu chất lượng

1.7.2 Làm sạch dữ liệu

Làm sạch dữ liệu là vấn đề quan trọng nhất của nhà kho dữ liệu

Các nhiệm vụ của công đoạn làm sạch dữ liệu:

+Điền các giá trị còn thiếu

+Xác định các sai biệt và khử dữ liệu tạp nhiễu

+Sửa chữa các dữ liệu mâu thuẫn

-Bỏ qua các mẫu tin có giá trị thiếu: dễ nhưng không hiệu quả, đặc biệt khi tỷ lệ giá trị thiếu của thuộc tính cao

-Điền các giá trị thiếu bằng tay: không khả thi

-Điền các giá trị thiếu tự động:

+Thay thế bằng hằng số chung: ví dụ: “không biết” có thể thành lớp mới trong dữ liệu

Trang 18

+Thay thế bằng giá trị trung bình của thuộc tính

+Thay thế bằng giá trị có nhiều khả năng nhất: có thể suy ra từ cây quyết định, công thức bayesian…

1.7.3 Chọn lọc dữ liệu

Tập hợp dữ liệu từ nhiều nguồn khác nhau vào trong một cơ sở dữ liệu

+Chỉ chọn những dữ liệu cần thiết cho tiến trình khai phá dữ liệu +Loại bỏ dữ liệu dư thừa và trùng lặp

+Phát hiện và giải quyết các mâu thuẫn trong dữ liệu

Dữ liệu có thể quá lớn đối với 1 số chương trình khai phá dữ liệu:

+Tốn nhiều thời gian

+Việc khai phá dữ liệu có thể không thể thực hiện được

Rút gọn dữ liệu: dữ liệu được rút gọn (kích thước) sao cho vẫn thu được cùng (hoặc gần như cùng) kết quả phân tích

Các phương pháp:

+Tổng hợp và tổng quát hóa

Trang 19

+Giảm chiều dữ liệu +Nén dữ liệu

+Giảm số lượng +Rời rạc hóa

*Tổng hợp và tổng quát hóa

-Tổ hợp từ 2 thuộc tính (đối tượng) trở lên thành 1 thuộc tính (đối tượng)

Ví dụ: các thành phố tổng hợp vào vùng, khu vực, quốc gia……

-Tổng hợp/tổng quát dữ liệu cấp thấp vào dữ liệu cấp cao:

Giảm kích thước tập dữ liệu: giảm số thuộc tính

Tăng tính lý thú của mẫu

*Giảm chiều dữ liệu

-Chọn lựa đặc trưng (tập con các thuộc tính)

Chọn m thuộc tính từ n thuộc tính, m<=n Loại bỏ các thuộc tính không liên quan, dư thừa

Ví dụ: dùng phương pháp Heuristic để rút gọn dữ liệu:

Đầu tiên: chọn thuộc tính đơn tốt nhất Chọn tiếp thuộc tính tốt nhất trong số còn lại,…………

*Giảm số lượng

Phân chia dữ liệu vào các nhóm và lưu biểu diễn của nhóm

Phương pháp này rất hiệu quả nếu dữ liệu tập trung thành nhóm

Trang 20

+Phân cấp khái niệm: tập hợp và thay thế khái niệm cấp thấp bằng khái niệm cấp cao hơn

+Phương pháp mã hóa:

+Dữ liệu dạng số:

Chia giỏ Gom nhóm Phân đoạn tự nhiên +Dữ liệu dạng phi số:

Tạo sơ đồ phân cấp

Trang 21

Mẫu phổ biến là mẫu (tập các hạng muc, chuỗi con, cấu trúc con, đồ

thị con,…) xuất hiện thường xuyên trong tập dữ liệu

Mục đích: tìm ra hiện tượng thường xuyên xảy ra của các mẫu trong

dữ liệu

Ví dụ:

+Tìm ra những sản phẩm nào thường được mua chung?

+Người ta thường mua gì khi đi mua giầy da

+Làm thế nào để phân loại tự động văn bản

Ứng dụng:

+Áp dụng trong phân tích cơ sở dữ liệu bán hàng

+Mở rộng sang quảng cáo, thiết kế catalog, phân tích chiến lược bán hàng, chuỗi DNA

1.8.2 Các khái niệm cơ bản

1.8.2.1 Cho cơ sở dữ liệu giao dịch

Ví dụ: cho các giỏ hàng (các phiên giao dịch)

Trang 22

Tiến hành biến đổi cơ sở dữ liệu về dạng nhị phân

A: milk, B: bread, C:cereal, D: sugar, E: eggs

iijI

1.8.2.2 Độ phổ biến và tập phổ biến

Cho X là tập các hạng mục trong I, Xt

Độ phổ biến (supp) của tập các hạng mục X trong CSDL D là tỉ lệ giữa

số các giao dịch chứa X trên tổng số các giao dịch trong D

Supp(X) = count(X) / |D|

Trang 23

Tập các hạng mục phổ biến S (frequent itemsets) là tập các hạng mục

có độ phổ biến thỏa mãn độ phổ biến tối thiểu minsupp (do người dùng nhập trước)

Nếu supp(S)  minsupp thì S là tập phổ biến

1.8.2.3 Tính chất của tập phổ biến

Tất cả các tập con của tập phổ biến đều là tập phổ biến

Nếu tập con không phải là tập phổ biến thì tập bao nó (tập cha) không thể là tập phổ biến

1.8.2.4 Tập phổ biến tối đại

Tập phổ biến tối đại là tập phổ biến và không tồn tại tập nào bao nó là phổ biến

Ví dụ:

Cho minsupp = 2 ta có:

{B, C, D, E}, {A, C, D} là tập phổ biến tối đại

{B, C, D} không phải tập phổ biến tối đại Vì tập bao quanh nó {B, C,

D, E} là tập phổ biến

1.8.2.5 Tập phổ biến đóng

Tập phổ biến đóng là tập phổ biến và không tồn tại tập nào bao nó có cùng độ phổ biến như nó

Trang 24

Conf(X=>Y) = supp(XY) / supp(X)

1.8.2.7 Mô tả bài toán luật kết hợp

Cho độ phổ biến tối thiểu (minsupp) và độ tin cậy tối thiểu (minconf)

do người dùng xác định

Trang 25

Cho tập các hạng mục I={i1, i2, …… , im} và CSDL D={t1, t2, … , tn}, với ti={ii1, ii2, … , iik} và iijI

Bài toán khai phá luật kết hợp là bài toán tìm tất cả các luật dạng X=>Y (X,YI, và XY=} thỏa mãn độ phổ biến và độ tin cậy tối thiểu

Ví dụ: dự đoán tế bào khối u là lành hay ác Dự đoán khi nào sông có

1.9.2 Quy trình phân lớp

Bước 1: xây dựng mô hình

Mô tả tập các lớp xác định trước

*Tập huấn luyện: các mẫu/bộ dành cho xây dựng mô hình

*Mỗi mẫu/bộ thuộc về 1 lớp đã định nghĩa trước

*Tìm luật phân lớp, cây quyết định hoặc công thức toán mô tả lớp Bước 2: Sử dụng mô hình

Phân lớp các đối tượng chưa biết:

*Xác định độ chính xác của mô hình, sử dụng tập dữ liệu kiểm tra độc lập

Trang 26

*Độ chính xác chấp nhận được -> áp dụng mô hình để phân lớp các mẫu/bộ chưa xác định được nhãn lớp

1.10 Phân cụm dữ liệu

1.10.1 Phân cụm là gì?

Phân cụm dữ liệu là quá trình gom các đối tượng thành các cụm có ý nghĩa Các đối tượng trong cùng 1 cụm có nhiều tính chất chung và có những tính chất khác với các đối tượng ở cụm khác

Cho CSDL D={t1, t2, … , tn} và số nguyên k, phân cụm là bài toán xác định ánh xạ f: D -> {1,… , k} sao cho mỗi ti được gán vào 1 cụm kj, 1<=

j <=k

Không giống bài toán phân lớp, các cụm không được biết trước

1.10.2 Phân biệt phân lớp và phân cụm

* Phân lớp: học có giám sát

Tìm phương pháp để dự đoán lớp của mẫu mới từ các mẫu đã gán nhãn lớp (phân lớp) trước

*Phân cụm: học không có giám sát

Tìm các cụm “tự nhiên” của các mẫu chưa được gán nhãn

Trang 27

Hình 1.3 Minh họa phân cụm dữ liệu

1.10.3 Ứng dụng phân cụm

Trong xử lý ảnh (phân đoạn ảnh, rút gọn độ phân giải của ảnh)

Phân cụm các tài liệu liên quan để dễ tìm kiếm

Khoa học kinh tế (đặc biệt nghiên cứu tiếp thị)

Phân cụm các gene và protein có cùng chức năng

Phân cụm các vùng theo lƣợng mƣa

Trang 28

1.10.4 Ví dụ

Hình 1.4 Phân cụm các điểm trong không gian

Hình 1.5 Phân cụm các ngôi nhà dựa vào khoảng cách địa lý

Trang 29

CHIỀU VÀ KHAI PHÁ KHỐI ĐÓNG TRONG KHÔNG GIAN 3 CHIỀU 2.1 Tổng quan khai phá tập phổ biến đóng FCP trong không gian 2 chiều

Trong phần này chúng ta sẽ giải quyết vấn đề khai phá tập phổ biến đóng (FCPs) từ bảng dữ liệu kết hợp trong không gian 2 chiều Bảng cơ sở dữ liệu microarray thực tế thường có xấp xỉ 50% các ô nhận giá trị là “1”, các ô còn lại nhận giá trị “0”

Chúng ta sử dụng Framework, nó cho phép chúng ta khai phá tập phổ biến đóng (FCPs) từ cơ sở dữ liệu đặc một cách hiệu quả Frame work gồm 2 phần Phần 1, không gian khai phá được chia thành các không gian con nhỏ hơn,

và mỗi không gian con đều có thể khai phá độc lập Trong phần 2, mỗi không gian con được khai phá độc lập để trả về các tập phổ biến đóng Nhiệm vụ chủ yếu trong phần này là lược bỏ các tập FCPs thừa (là những tập đóng có thể được tạo ra từ không gian con khác) và FCPs lỗi (là những tập phổ biến đóng trong không gian con nhưng không là tập phổ biến đóng trong không gian gốc)

2.2 Mở đầu khai phá tập phổ biến đóng FCP trong không gian 2 chiều

Chúng ta sẽ định nghĩa một vài kí hiệu sử dụng trong bài

Cho R={r1, r2,… , rn} là 1 tập các hàng, và C={c1, c2, …., cn} là 1 tập các cột Trong bảng cơ sở dữ liệu, mỗi hàng ri chứa 1 tập các cột, và mỗi cột ci chứa 1 tập các hàng Và chúng ta sẽ sẽ thể hiện cơ sở dữ liệu bởi 1 bảng ma trận nhị phân O = n x m, các ô Oi,j tương ứng với mối quan hệ giữa hàng i và cột j; nếu Oi,j = 1 thì hàng i chứa cột j, và ngược lại Oi,j = 0 thì hàng i không chứa cột

j Trong Bảng 2.1, r3 chứa c2 và c6, kí hiệu: C(r3) = {c2, c6}; và c7 chứa r5 và r6, kí hiệu: R(c7) = {r5, r6}

Trang 30

Định nghĩa:

Column support set R(C’): cho 1 tập các cột C‟ C, tập lớn nhất các hàng chứa C‟ đƣợc gọi là column support set R(C‟)  R

Ví dụ: trong bảng 2.1, cho C‟ = {c1, c4}, ta có R(C‟) = {r4, r5, r6}, r4, r5 và

r6 cùng chứa c1 và c4, và không còn hàng nào cùng chứa cả c1 và c4 nữa

Row support set C(R’): cho 1 tập các hàng R‟ R, tập lớn nhất các cột chứa R‟ đƣợc gọi là row support set C(R‟)  C

Ví dụ: trong bảng 2.1, cho R‟ = {r1, r2}, ta có C(R‟) = {c1, c6}, c1 và c6

cùng chứa r1 và r2, và không tồn tại cột nào khác cùng chứa cả 2 hàng này

Support |R(C’)|: cho 1 tập các cột C‟, tổng số hàng trong dataset chứa C‟

đƣợc gọi là support của C‟, kí hiệu |R(C‟)|

Closed Patterns (CP): cho 1 tập các cột C‟C đƣợc gọi là khối đóng (CP) nếu không tồn tại C‟‟ thỏa mãn: C‟C‟‟ và |R(C‟)|=|R(C‟)|

Frequent closed pattern (FCP): tập các cột C‟ C đƣợc gọi là tập phổ

biến đóng nếu: (1) support của tập C‟ lớn hơn ngƣỡng support nhỏ nhất; và (2) C‟ là tập đóng

Ví dụ: cho minsup=1, tập các cột { c1, c5, c6} sẽ là tập phổ biến đóng trong bảng 2.1 khi support lớn hơn ngƣỡng minsup Tuy nhiên {c2, c3} không là

Trang 31

có |R({c1, c2, c3})| = |R({c2, c3})|

Pattern length: cho một tập phổ biến đóng, số cột chứa tập đóng được

gọi là pattern length, kí hiệu: len

Ví dụ: cho tập phổ biến đóng FCP = {c1, c2, c3}, ta có len = 3

FCP Mining: ta có 1 bảng dataset O, vấn đề của chúng ta là tìm các tập

phổ biến đóng FCPs với ngưỡng minsup, minlen của người sử dụng

2.3 Tiến hành khai phá tập phổ biến đóng FCP

2.3.1 Sơ lược về quá trình khai phá tập phổ biến đóng

Cho ma trận O là dataset gốc được khai phá Chúng ta coi O như là không gian gốc Cho MineFCP(M) là tập các tập phổ biến đóng (FCPs) được khai phá

từ không gian M Ý tưởng cơ bản của framework gồm 2 phần là: tạo ra các không gian con, và khai phá các không gian con

Hình 2.1 Khung khai phá

Trang 32

chia thành các ma trận con (không gian con) S1, S2, S3,… , St; t1

Kí hiệu: MineFCP(O) =

Phần 2, là phần khai phá các không gian con, mỗi không gian con được khai

phá để tìm ra FCPs một cách độc lập Tuy nhiên, các FCPs được khai phá từ không gian con có thể chứa các mẫu không thỏa mãn Có 2 trường hợp xảy ra: (1) FCPs được khai phá từ không gian con có thể chứa false drops – tức là mẫu

là FCP của không gian con, nhưng không phải là FCP của không gian gốc ban đầu; (2) FCPS được khai phá từ không gian con có thể bị thừa, tức là FCP tìm được trong không gian con đang xét có thể khai phá được từ không gian con khác (MineFCP(Si)  Mine FCP(Sj)  )

Kĩ thuật lược bớt các mẫu không thỏa mãn phải được triển khai để lược bỏ các mẫu không đóng trên toàn bộ không gian gốc, và mẫu thừa (redundant FCPs) Vậy các kết quả trả về sẽ là câu trả lời chính xác

2.3.2 Thuật toán C-Miner

Trong phần này, chúng ta sẽ tìm hiểu thuật toán C-Miner dựa vào liệt kê các hàng kết hợp (dựa vào các giá trị “1” của từng hàng)

2.3.2.1 Thuật toán phân cụm (thuật toán increamental k-mean)

Như chúng ta biết, thuật toán k-mean bắt đầu bằng cách chọn k cụm và chọn ngẫu nhiên k điểm là trung tâm của cụm, hoặc chọn phân hoạch ngẫu nhiên k cụm và tính trọng tâm của từng cụm này Việc chọn ngẫu nhiên k điểm làm trung tâm của cụm như đã nói ở trên có thể cho ra k kết quả khác nhau tùy vào cách chọn k điểm ban đầu Thuật toán increamental k-mean về cơ bản vẫn dựa trên thuật toán k-mean nhưng sẽ không chọn k điểm làm trọng tâm cho k cụm,

Trang 33

độ méo dạng lớn nhất và tính lại trọng tâm các cụm

Thuật toán được trình bày như sau:

Gán k=1;

Phase 1:

Bước 1: Nếu k=1 chọn bất kì một điểm làm trung tâm cụm

Nếu k>1 thêm trung tâm của cụm mới vào cụm có độ méo dạng lớn nhất

Bước 2: Gán từng điểm vào cụm có trung tâm gần điểm đang xét nhất và cập nhật lại trung tâm của cụm

Bước 3: Nếu trung tâm cụm không thay đổi, thực hiện tiếp phase-2

Nếu không, thực hiện phase 1 bước 2

Phase 2: (Tăng số cụm)

Nếu k<=giá trị ấn định số cụm (do người dùng nhập vào), thực hiện phase 1 bước 1

Nếu không, Dừng lại

Các bước của thuật toán gần giống như thuật toán k-means, tuy nhiên có điểm khác biệt đó là thuật toán cần phải tính độ biến dạng của các cụm Dựa trên độ biến dạng để chia cụm

Trang 34

D(w,x): khoảng cách giữa trung tâm w của cụm và trung tâm của không gian euclidean x

Một cụm có độ biến dạng lớn có nghĩa là trung tâm cụm có trị trí không thích hợp Việc xác định các cụm đồng nghĩa với việc xác định trung tâm của cụm Thuật toán chủ yếu tìm trung tâm cụm chính xác và xác định lại các đối tượng trong cụm

Phase 1 của thuật toán k-means chỉ khác thuật toán increament k-mean ở chỗ: không xác định trước k điểm mà tăng k từ 1 lên

Điểm khác biệt thứ 2 là chọn cụm có độ biến dạng lớn để phân thành 2 cụm

2 cụm sẽ giảm Tính lại các đối tượng objects cho các cụm và cập nhật lại trung tâm cụm Sau khi trung tâm các cụm không đổi, ta qua phase và tăng k lên 1 và quay lại phase 1 Tìm cụm có độ biến dạng lớn nhất trong các cụm và tiếp tục tách cụm thành 2 cụm mới

Thuật toán ngừng khi k bằng số cụm cần tìm

2.3.2.2 Quá trình chia không gian khai phá

Quá trình chia không gian khai phá trong thuật toán C-Miner bao gồm 3 bước:

Bước 1, các hàng tương tự nhau trong dataset gốc (matrix nhị phân O)

được nhóm lại cùng nhau bằng cách phân cụm Thuật toán phân cụm có thể áp dụng ở đây Thuật toán phân cụm sẽ thực hiện chia đôi k-1 lần Mỗi lần lặp (hoặc đệ qui) sẽ có 1 ma trận được chia thành 2 nhóm, sau đó 1 trong những nhóm còn lại sẽ được lựa chọn và chia đôi tiếp Quá trình sử lý tiếp tục cho đến khi tìm đủ số cụm mong muốn Phương pháp phân cụm dựa trên hàm lọc

Trang 35

thứ i; v và u đại diện cho 2 hàng u, v; và sim(u,v) là các hàng tương tự nhau Cụm được lựa chọn để chia nhỏ hơn được kiểm soát bởi hàm lọc trên (sim(u,v): đối tượng u và đối tượng v có tính chất tương tự nhau)

Bước 2, Các hàng trong cùng 1 cụm được kết hợp với nhau tạo thành 1 hàng

kết hợp mới, gọi là cluster-row Cho G={r1,r2,…., rq} là tập các hàng nằm trong cụm tương ứng D Cụm này có thể được thể hiện bởi ma trận D = q x m cluster-row của D: L = {l1, l2, …., lm}, được kết hợp theo luật lj = q1 ij

i d

m Giá trị của các ô trong cluster-row bằng “0” khi ô đó được kết hợp bởi tất cả các ô có giá trị bằng “0”; trường hợp còn lại nó sẽ nhận giá trị bằng “1” Sau khi phân cụm, từ ma trận O ban đầu ta tạo ra được ma trận mới O‟ = l x m, l là

số các cụm và l  n

Ví dụ: từ ma trận O ban đầu, sau khi phân cụm ta được ma trận mới O‟ như sau:

Bảng 2.2 Ma trận rút gọn O’

Bước 3, thuật toán C-Miner được áp dụng để liệt kê ra hàng đặc dựa vào

ma trận O‟ đặc để chia không gian O thành các không gian con Trong thuật toán C-Miner, độ quan trọng (the weight) của mỗi cluster-row được đo bằng tổng số các hàng tạo nên nó Vì vậy, trong suốt quá trình liệt kê cluster-row, hệ

số support của không gian con được chỉ ra bởi tổng số weight của các rows tương ứng Chúng ta chỉ ra các không gian con được sinh ra trong bước này (dựa trên O‟) gọi là compact subspace (CS) Trong khi thuật toán liệt kê các

Ngày đăng: 23/03/2021, 22:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w