1. Trang chủ
  2. » Công Nghệ Thông Tin

Giáo trình khai phá dữ liệu

141 796 7

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 141
Dung lượng 5,51 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

“Khai thác dữ liệu là quá trình không tầm thường của việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996) Một vài ví dụ minh họa ứng dụng KTDL  FBI – theo dõi tội phạm  Các công ty điện thoại  Siêu thị, trung tâm mua sắm (Walmart, Costco)  Các công ty bảo hiểm  Ngân hàng, tài chính, chứng khoán ….

Trang 1

dữ liệu (DM)

Trang 2

 Các kỹ năng giải quyết vấn đề

Thông tin liên lạc

nhtanh@fit.hcmuns.edu.vn Tel : 8354266 – 508 hoặc 803

 vào mục Hệ Hoàn chỉnh Đại Học /Khai thác

Trang 3

HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ

 Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng laptop, mang theo máy tính : thời gian 120’

 Bài tập làm cá nhân

 Nộp 1 lần trong học kỳ trên website môn học theo thông báo của GV

 Bài tập làm theo nhóm trên lớp Từ 8 - 12 SV/nhóm

Trang 4

 Các mức đánh giá :

HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ

 Sau khi thảo luận, các nhóm sẽ trình bày ý kiến, kết quả trước lớp hoặc sẽ trình bày trên giấy và nộp cho GV ngay tại lớp

 Các mức đánh giá :

C - Không đạt yêu cầu ~30% số điểm

Trang 5

em.

với nhu cầu của các em.

TÀI LIỆU THAM KHẢO

 J.Han, M.Kamber, “Data mining : Concepts & Technique”

(ppt) – http://www.cs.sfu.ca/~han/dmbookhoặc ebook tại địa chỉ http://www.selab.hcmuns.edu.vn/Elib/

 P.Tan, M Steinbach, V Kumar, “Introduction to data Mining”, 2006, -http://www-

users.cs.umn.edu/~kumar/dmbook/index.php

 Phần mềm WEKA - http://www.cs.waikato.ac.nz/ml/weka/

 Trang web đầu ngành về KTDL - Kdnuggets :

Trang 6

dữ liệu (DM)

THẾ NÀO LÀ KHAI THÁC DL

 Là quá trình lặp, không phải plug - and – play

 “Khai thác dữ liệu là quá trình không tầm thường

của việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996)

 FBI – theo dõi tội phạm

 Các công ty điện thoại

 Siêu thị, trung tâm mua sắm (Walmart, Costco)Các công ty bảo hiểm

Trang 7

 Tại sao cần Khai thác dữ liệu (KTDL)?

 Những đối tượng nào sử dụng KTDL ?

 Sử dụng KTDL ở đâu và khi nào?

Trang 8

Khía cạnh thương mại

 Khối lượng lớn dữ liệu

được thu thập và lưu trữ

o Web data, e-commerce

o Hóa đơn mua hàng tại siêu thị

/ trung tâm mua sắm

o Giao dịch ngân hàng / thẻ tin dụng

 Máy tính mạnh hơn , rẻ hơn

 Áp lực cạnh tranh rất mạnh

o Cung cấp các dịch vụ đa dạng, chất lượng tốt ( CRM – Customer Relationship Management)

Trang 9

Khía cạnh Khoa học

 Dữ liệu được thu thập

và lưu trữ với tốc độ cao(GB/h)

o Thiết bị remote sensor trên vệ tinh

o Kính thiên văn quan sát bầu trời

o Microarray tạo dữ liệu biểu diễn gien

 Các kỹ thuật truyền thống khơng đủ

khả năng làm việc với dữ liệu thơ

 KTDL cĩ thể giúp các nhà khoa học

o Phân loại và phân đoạn dữ liệu

o Xây dựng giả thuyết

6

SỰ CẦN THIẾT CỦA KTDL

 DL chứa rất nhiều thơng tin giá trị, cĩ lợi cho qui trình ra quyết định

 Khơng thể phân tích DL = tay

10 6 -10 12 bytes:

Không bao giờ có thể nhìn thấy một cách đầy đủ tập dữ liệu hoặc đưa vào bộ nhớ của máy tính

8

SỰ RA ĐỜI CỦA KTDL

Trang 10

SỰ DỤNG KTDL KHI NÀO?

Thông tin thương mại

-Phân tích thị trường và mua bán

-Phân tích đầu tư -Chấp thuận cho vay -Phát hiện gian lận

Thông tin sản xuất

- Điều khiển và lên kế hoạch

- Quản trị mạng

- Phân tích các kết qủa thực nghiệm

Thông tin khoa học

- Thiên văn học

- Cơ sở dữ liệu sinh học

- Khoa học địa chất: bộ dò tìm động đất

“Khai thác dữ liệu là quá trình khơng tầm thường của việc xác

định các mẫu tiềm ẩncĩ tính hợp lệ, mới lạ, cĩ ích và cĩ thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996)

Quá trình không tầm thường

Đa xử lý

Hợp lệ Chứng minh tính đúng Của mẫu / Mô hìnhMới lạ Không biết trướcCó ích Có thể sử dụng đượcCó thể hiểu được

Bởi con người và máy

Trang 11

KHAI THÁC DL …

 Thế nào là mẫu ?

 Những người mua quần tây thường hay mua

thêm áo sơ mi

Những người có mức tín dụng tốt thì thường

ít bị tai nạn

 Đàn ông, 37+, thu nhập : 50K-75K, -> chi

khoảng 25$-50$ cho đặt mua hàng qua

KHAI THÁC DL

What is Data Mining?

– Các tên phổ biến tại khu vực xác định của Mỹ (O’Brien, O’Rurke, O’Reilly… ở vùng Boston )

– Gom nhóm các tài liệu giống nhau thu được từ search engine dựa trên nội dung (VD: rừng nhiệt đới Amazon , Amazon.com)

What is not Data Mining?

– Tìm số điện thoại trong danh

Data Cleaning Data Integration

Trang 12

năng

Tạo ra/chọn lọc

CSDL đích

Chọn llựa kỹ thuật

điển hình và dữ liệu mẫu

Biến đổi qua

biểu điễn khác

Khử nhiễu Dữ liệu

Biến đổi giá trị

Lựa chọn phương pháp DM

Tạo các thuộc Tính dẫn xuất

Trích xuất Tri thức

Tìm thuộc tính quan trọng &Miền giá trị

Kiểm tra tri thức Tính chếTri thức Phát sinh ra câu hỏi và báo cáo

Các phương pháp cải tiến

kiểu kết hợp và lập dãy

Data cleaning & data integration Filtering

Databases

Database or data warehouse server Data mining engine Pattern evaluation Graphical user interface

Trang 13

để mô tả dữ liệu

Phát hiện ra một mô tả tóm tắt cho một tập con dữ liệu

Phát hiện ra một mô hình mà mô t ả phụ thuộc quan trọng nhất giữa các biến

Phát hiện ra những thay đổi

quan trọng nhất

trong dữ liệu

22

VÍ DỤ PHÂN LỚP

Công ty Verizon Wireless :

 Công ty cung cấp thiết bị, dịch vụ không dây lớn nhất ở Mỹ

Số lượng khách hàng : 30.3 triệu

 90% dân số Mỹ

Vấn đề :

 Tỷ lệ khách hàng bị mất cao : 2%/tháng ( 600,000 khách hàng rời bỏ/tháng)

Chi phí thay thế : hàng trăm triệu $/năm

 Chi phí trung bình cho mỗi khách hàng mới : 320$

23

VÍ DỤ PHÂN LỚP

 Giải pháp thông thường :

 Chào mời, khuyến mãi tất cả khách hàng trước khi hết hợp đồng

 Khuyến mãi, chào mời ( VD: một điện thoại mới) cho

những khách hàng có nhiều khả năng rời bỏ nhất

 Phát triển kế họach mới nhằm đáp ứng nhu cầu của khách

hàng

VÍ DỤ PHÂN LỚP

Trang 14

Bài tập theo nhóm

 Thời gian thảo luận : 15’

 Thảo luận tình huống KTDL trong nhóm và sẽ gọi 01

người đại diện cho nhóm trình bày

 Thời gian trình bày : tối đa 5’

Trình bày tình huống

Hướng giải quyết và lợi ích

 Tình huống 1 : Thị trường bán lẻ

 Nhóm : 3C, 4, G7, Miner2A, MyLove, Hoa

Dạng DL nào được thu thập

Kiểu tri thức nào ta cần biết về khách hàng

Hướng giải quyết và lợi ích

 Tình huống 2 : Quảng cáo sản phẩm

 Nhóm : K07, WOI, GIT, DataMiner, Tuấn Anh, Tran

 Gửi tờ quảng cáo sản phẩm đến tất cả các khách hàng

 Hay chỉ gửi cho 1 nhóm có chọn lọc

 Dự kiến khả năng phản hồi của khách hàng so với chi phí gửi quảng cáo

 Hướng giải quyết :

 Dùng các giao dịch thẻ tín dụng và thông tin của chủ

thẻ như thuộc tính

 Khách hàng mua cái gì, lúc nào, số lần dùng thẻ

 Gán nhãn giao dịch cũ là gian lận hay hợp lý, đúng - tạo

thành thuộc tính lớp

 Xây dựng mô hình cho lớp các giao dịch

 Dùng mô hình để khám phá gian lận trên các giao dịch thẻ

 Hướng giải quyết :

 Sử dụng dữ liệu cho sản phẩm tương tự trước đây

 Dùng quyết định {mua, không mua} làm thuộc tính lớp

 Thu thập thông tin cá nhân, cách sống và quan hệ của tất

cả các khách hàng

 Dùng các thông tin trên như là dữ liệu đầu vào để xây dựng mô hình phân lớp

Trang 15

PHÂN LỚP: ỨNG DỤNG 3

Nghiên cứu thiên văn :

Mục đích: Dự báo loại đối tượng ( ngôi sao hay thiên hà),

đặc biệt các đối tượng khó thấy dựa trên hình ảnh của kính

thiên văn

 3000 ảnh : 23040 X 23040 pixel/ảnh

Hướng giải quyết :

 Phân đoạn ảnh

 Xác định thuộc tính(đặc trưng) ảnh : 40 đặc trưng/ảnh

 Xây dựng mô hình dựa trên các đặc trưng

Nguồn: http://aps.umn.edu

PHÂN LỚP Thiên hà

31

 Gom cụm dựa trên khoảng cách Euclide trong

32

GOM CỤM : ỨNG DỤNG 1

Gom nhóm khách hàng :

 Mục đích : Chia khách hàng thành các nhóm/cụm riêng biệt để có thể áp dụng các biện pháp quảng cáo khác nhau

 Hướng giải quyết :

 Thu thập thông tin cá nhân, cách sống của tất cả các khách hàng

Xác định các cụm/nhóm khách hàng giống nhau

 Kiểm tra chất lượng của các cụm thông qua việc quan sát đặc trưng mua hàng của khách hàng trong cùng một cụm so với khách hàng khác cụm

Trang 16

GOM CỤM : ỨNG DỤNG 2

Gom cụm tài liệu :

 Mục đích: Tìm nhóm tài liệu giống nhau dựa trên các từ

quan trọng

 Hướng giải quyết :

 Xác định độ phổ biến của từ trong tài liệu Xây dựng

độ đo tương tự dựa trên độ phổ biến của các từ để gom

cụm.

Lợi ích : Trong lĩnh vực truy vấn thông tin ( IR), có

thể dùng các cụm để liên kết tài liệu mới với các tài

liệu đã gom cụm

34

Minh họa gom cụm tài liệu

3024 bài báo của LA Times

Độ đo tương tự : bao nhiêu từ thường được dùng trong các văn bản này.

35

Gom cụm DL cổ phiếu S&P 500

Quan sát sự biến động của giá cổ phiếu hàng ngày

Dữ liệu : Cổ phiếu – {UP/DOWN}

Độ đo tương tự : các sự kiện thường giống nhau trong

cùng một ngày

Discovered Clusters Industry Group

1 Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,

Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Co mm-DOW N,INTEL-DOWN,LSI-Logic -DOWN, Micron-Tech-DOWN,Te xas-Inst-Down,Te llabs-Inc-Down,

Natl-Se miconduct-DOWN,Orac l-DOWN,SGI-DOW N,

Sun-DOW N

Technology1-DOWN

2 Apple-Co mp-DOW N,Autodesk-DOWN,DEC-DOWN,

ADV-M icro-Device -DOWN,Andrew-Corp-DOWN,

A  C (50%, 66.7%)

C  A (50%, 100%)

Customer buys diaper

Customer buys both

Customer buys beer

B, E, F 40

A, D 30

A, C 20

A, B, C 10

Items bought Transaction-id

Buy diapers

on

Then

Trang 17

Khai thác LKH : ỨNG DỤNG 1

 Giả sử tìm được luật :

{Bia, }  {Khoai tây chiên}

 Khoai tây chiên là hệ quả : quyết định nên làm

gì để quảng cáo cho nó

 Bia là tiền đề : dùng để xem loại sản phẩm nào

bị ảnh hưởng nếu không bán bia nữa

 Bia và khoai tây chiên cùng xuất hiện : loại sản

phẩm nào nên bán kèm với bia để khuyến khích

Khai thác LKH : ỨNG DỤNG 2

Quản lý quầy hàng siêu thị:

Mục đích : Xác định những mặt hàng được nhiều khách hàng mua chung

Hướng giải quyết :

 Xử lý dữ liệu bán hàng để tìm mối liên hệ giữa các mặt hàng

Luật cổ điển : Nếu khách hàng mua tã giấy

và sữa thì có khả năng mua bia.

39

Khai thác LKH : ỨNG DỤNG 3

Quản lý hàng hóa:

Mục đích : Công ty bảo trì thiết bị tiêu dùng muốn

đoán trước nguyên nhân sửa chữa các sản phẩm tiêu

dùng và trang bị các xe bảo trì các bộ phận cần thiết

Trang 18

 Hồi qui tuyến tính, phi tuyến tính

 Tập thô (Rough Sets)

 Thống kê

 Mạng Bayes

 …

Trang 19

Xửửửử lý các kiểểểểu dữữữữ liệệệệu khác nhau v ớớớới mứứứức độộộộ quảảảản trịịịị khác nhau

Bảo toàn tính riêng tư

 Lý thuyết

Biểu diễn tri thức Ngôn ngữ và đại số DM Tối ưu hóa câu truy vấn DM

Các ngu ồồồồn dữữữữ liệệệệu khác nhau (Các CSDL Phân tán và thuầầầần nhấấấất, dữữữữ liệệệệu không đồồồồng bộộộộ, có nhi ễễễễu và bịịịị mấấấất mát,v.v….)

Trang 20

TẠI SAO CẦN NGHIÊN CỨU KTDL

Thảo luận và tự đưa ra câu trả lời

 Khai thác trên nhiều loại DL, thông tin

 Các loại mẫu cần khai thác

Luật kết hợp, mẫu tuần tự, phân lớp, gom nhóm, mẫu hiếm, mẫu cá biệt, sai lệch

51

TÀI LIỆU THAM KHẢO

 G Piatetsky-Shapiro, U Fayyad, and P Smith

From data mining to knowledge discovery: An

overview U.M Fayyad, et al (eds.), Advances

in Knowledge Discovery and Data Mining,

1-35 AAAI/MIT Press, 1996

 http://vi.wikipedia.org/wiki/Khai_ph%C3%A

1_d%E1%BB%AF_li%E1%BB%87u : bách

khoa toàn thư mở wikipedia

 Một số slide dùng trong bài được lấy từ các

slide của các cuốn sách về KTDL.

52

Sự phát triển của KTDL

 1989 IJCAI Workshop on Knowledge Discovery in Databases

 Knowledge Discovery in Databases (G Piatetsky-Shapiro and W

Frawley, 1991)

 1991-1994 Workshops on Knowledge Discovery in Databases

 Advances in Knowledge Discovery and Data Mining (U Fayyad,

G Piatetsky-Shapiro, P Smyth, and R Uthurusamy, 1996)

 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98)

 Journal of Data Mining and Knowledge Discovery (1997)

 ACM SIGKDD conferences từ 1998 và SIGKDD Explorations

 Nhiều hội nghị khác về KTDL

 PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), …

 ACM Transactions on KDD từ 2007

Trang 21

BÀI TẬP

1 Thế nào là khai thác dữ liệu ?

2 Các kiểu dữ liệu, thông tin nào có khả năng

được sử dụng trong qui trình KDD?

3 Cho ví dụ về việc áp dụng KTDL đem đến

thành công trong kinh doanh (ngoài các ví

dụ có trong bài giảng). Loại nhiệm vụ nào

của KTDL được sử dụng ? Họ có thể thay

bằng phương pháp truy vấn DL hay phân

tích thống kê đơn giản không ?

54

Q & A

Trang 22

2 Làm sạch dữ liệu ( data cleaning)

3 Chọn lọc dữ liệu (data selection)

4 Rút gọn dữ liệu ( data reduction)

5 Mã hoá dữ liệu

4

CÁC KIỂU DỮ LIỆU

 Dữ liệu dạng thuộc tính giá trị (Attribute-value data)

- Các kiểu dữ liệu

 số (numeric), phi số (categorical)

Trang 23

CHUẨN BỊ DỮ LIỆU

 Dữ liệu trong thực tế có chất lượng xấu

DL thiếu, không đầy đủ : thiếu giá trị của thuộc

tính, thiếu các thuộc tính quan tâm, hoặc chỉ chứa

DL mâu thuẫn: có sự không thống nhất trong mã

hoặc trong tên

o VD : Tuổi =42 , Ngày sinh = 03/07/1997; US=USA?

6

Tại sao DL có chất lượng xấu ?

 Bài tập theo nhóm : 20’ : thảo luận và viết tổng hợp

Tình huống : Bạn là người quản lý thông tin của công ty điện tử X (gồm rất nhiều chi nhánh trên toàn quốc) Bạn cần phân tích DL bán hàng của tất cả các chi nhánh

Sau khi thu thập DL từ các chi nhánh, bạn có thể gặp những vấn đề gì, ví dụ và tại sao ?

Tại sao DL trong thực tế thường có chất lượng xấu?

Np bn tng hp ý kin cho GV ( ghi rõ tên nhóm nh qui đnh ) Vit ng n g n, súc tích

dẫn tới việc thống kê không chính xác, thậm chí làm lạc lối.

Nhà kho DL cần sự tích hợp đồng nhất các

DL chất lượng

Trang 24

CHUẨN BỊ DỮ LIỆU

Làm sạch DL

o Điền các giá trị thiếu, khử DL nhiễu, xác định và loại

bỏ DL sai biệt, DL nhiễu và giải quyết DL mâu thuẫn

Chọn lọc/ Tích hợp DL

o Tổng hợp, tích hợp DL từ nhiều CSDL, tập tin khác

nhau

Biến đổi DL/ Mã hoá DL

o Chuẩn hoá và tổng hợp (aggregation)

1 Tại sao cần chuẩn bị dữ liệu ?

3 Chọn lọc dữ liệu (data selection)

4 Rút gọn dữ liệu ( data reduction)

Sửa chữa các DL mâu thuẫn

Trang 25

 Bỏ qua các mẫu tin có giá trị thiếu

Thường dùng khi thiếu nhãn của lớp ( trong phân

lớp)

Dễ, nhưng không hiệu quả, đặc biệt khi tỷ lệ giá

trị thiếu của thuộc tính cao.

 Điền các giá trị thiếu bằng tay : vô vị +

không kh ả thi

 Điền các giá trị thiếu tự động :

Thay thế bằng hằng số chung: VD : “không biết”

Có thể thành lớp mới trong DL

14

 Điền các giá trị thiếu tự động:Thay thế bằng giá trị trung bình của thuộc tính

Thay thế bằng giá trị trung bình của thuộc tính trong một lớp

Thay thế bằng giá trị có nhiều khả năng nhất : suy ra từ công thức Bayesian, cây quyết định hoặc thuật giải

Phương pháp chia giỏ (Binning) :

o Sắp xếp và chia DL vào các giỏ có cùng độ sâu depth)

(equal-o Khử nhiễu bằng giá trị TB, trung tuyến, biên giỏ,…

Gom nhóm ( Clustering) :

o Phát hiện và loại bỏ các khác biệt

Phương pháp hồi qui ( Regression) :

o Đưa DL vào hàm hồi qui

Kết hợp sự kiểm tra giữa máy tính và con người (Computer/human inspection)

o Phát hiện giá trị nghi ngờ và kiểm tra bởi con người

Trang 26

 Phương pháp rời rạc hóa : chia giỏ

(Binning)

Chia theo độ rộng ( Equal-width - khoảng cách) :

o Chia vùng giá trị thành N khoảng cùng kích thước

o Độ rộng của từng khoảng = (giá trị lớn nhất - giá

trị nhỏ nhất)/N

Chia theo độ sâu ( Equal-depth – tần suất) :

o Chia vùng giá trị thành N khoảng mà mỗi khoảng

có chứa gần như cùng số lượng mẫu

20

 Phương pháp rời rạc hóa : chia giỏ theo độ

sâu ( Equal-depth – tần suất) :

Độsâu = 4, ngoại trừ giỏ cuối cùng [64 69] [70 72] [73 81] [83 85]

Trang 27

Y1’

Trang 28

 Tự nghiên cứu trong tài liệu tham

khảo để tìm câu trả lời : Làm thế

nào để xử lý DL mâu thuẫn ?

26

NỘI DUNG

1. Tại sao cần chuẩn bị dữ liệu ?

2. Làm sạch dữ liệu ( data cleaning)

3 Chọn lọc dữ liệu (data selection)

4. Rút gọn dữ liệu ( data reduction)

 Loại bỏ DL dư thừa và trùng lặp

 Phát hiện và giải quyết các mâu thuẫn

o US=USA; customer_id = cust_number

Sử dụng siêu DL(metadata)

Trang 29

Một thuộc tính là thừa nếu nó có thể suy ra từ các

thuộc tính khác

Cùng một thuộc tính có thể có nhiều tên trong các

CSDL khác nhau

Một số mẫu tin DL bị lặp lại

Dùng phép phân tích tương quan

o r=0: X và Y không tương quan

o r>0 : tương quan thuận X↔Y

o r<0: tương quan nghịch X↔ Y 

30

Ví dụ : trọng lượng được đo bằng kg hoặc pound

Xác định chuẩn và ánh xạ dựa trên siêu dữ liệu (meta data)

31

NỘI DUNG

1 Tại sao cần chuẩn bị dữ liệu ?

2 Làm sạch dữ liệu ( data cleaning)

3 Chọn lọc dữ liệu (data selection)

5 Mã hoá dữ liệu

32

 DL có thể quá lớn đối với 1 số chương trình KTDL:

Tốn nhiều thời gian.

 Rút gọn DL : DL được rút gọn ( kích thước) sao cho

vẫn thu được cùng ( hoặc gần như cùng) kết quả

phân tích.

 Các ph ơng pháp :

Tổng hợp và tổng quát hóa Giảm chiều DL

Nén DL Giảm số lượng Rời rạc hóa

Trang 30

 Tổng hợp và tổng quát hóa

Tổ hợp từ 2 thuộc tính (đối tượng) trở lên thành

1 thuộc tính ( đối tượng)

VD : các thành phố tổng hợp vào vùng, khu

vực, nước, …

Tổng hợp/ tổng quát DL cấp thấp vào DL cấp

cao :

o Có 2 d tập con thuộc tính của d thuộc tính

o Độphức tạp tính toán quá cao

PP Heuristic

o Stepwise forward selection

o Stepwise backward elimitation

o Kết hợp cả hai

o Cây quyết định qui nạp

36

PP Heuristic - Stepwise forward

o Đầu tiên : chọn thuộc tính đơn tốt nhất

o Chọn tiếp thuộc tính tốt nhất trong số còn lại, …

o Ví dụ : tập thuộc tính ban đầu {A1,A2,A3,A4,A5,A6}

Tp rút g n ban đu={}

B1= {A1}

B2= {A1,A4}

B3= {A1,A4, A6}

Trang 31

PP Heuristic - Stepwise backward

o Đầu tiên : loại thuộc tính đơn xấu nhất

o Loại tiếp thuộc tính xấu nhất trong số còn

PP Heuristic – Cây quyt đnh qui np

o Đầu tiên : xây dựng cây quyết định

o Loại các thuộc tính không xuất hiện trên cây

o Ví dụ : tập thuộc tính ban đầu {A1,A2,A3,A4,A5,A6}

Nén có mất thông tin (lossy)

o DL không thể phục hồi lại hoàn toàn

Dùng biến đổi wavelet, phân tích thành phần cơ bản (principal component analysis-PCA), …

Trang 32

Data lossless

o Hình dáng của biểu đồ tùy thuộc vào số lượng giỏ

Ví d : Chiu dài cánh hoa ( 10 và 20 gi)

Trang 33

lại khi DL rải rác

o Rất nhiều thuật toán

gom nhóm.

46

 Giảm số lượng (tt)

PP lấy mẫu (sampling)

o Dùng tập mẫu ngẫu nhiên nhỏ hơn nhiều

SRSWR

Raw Data

48RÚT GỌN DỮ LIỆU

Raw Data Cluster/Stratified Sample

Trang 34

NỘI DUNG

1 Tại sao cần chuẩn bị dữ liệu ?

2 Làm sạch dữ liệu ( data cleaning)

3 Chọn lọc dữ liệu (data selection)

4 Rút gọn dữ liệu ( data reduction)

Rời rạc hóa :

o Biến đổi miền giá trị thuộc tính (liên tục) bằng cách chia miền giá trị thành từng khoảng Lưu nhãn của khoảng thay cho các giá trị thực.

Phân cấp khái niệm :

o Tập hợp và thay thế khái niệm cấp thấp bằng khái niệm cấp cao hơn.

o Rời rạc hoá theo entropy

o Phân đoạn tự nhiên

DL dạng phi số :

 Ví dụ :

o Chuyển đổi giá trị logic thành 1,0

o Chuyển đổi giá trị ngày tháng thành số

o Chuyển đổi các cột có giá trị số lớn thành tập các giá trị trong vùng nhỏ hơn, chẳng hạn chia chúng cho hệ số nào đó

o Nhóm các giá trị có cùng ngữ nghĩa như : Hoạt động trước CMT8 là nhóm 1; từ 01/08/45 – 31/06/54 ; nhóm 2; từ 01/07/54 – 30/4/75 là nhóm 3, …

o Thay thế giá trị của Tuổi = trẻ, trung niên, già

Trang 35

a) Khử nhiễu DL trên bằng giá trị TB của giỏ Nhận xét hiệu quả của kỹ thuật này với DL trên.

b) Có thể áp dụng các kỹ thuật nào để khử nhiễu DL ?

c) Dùng DL trên vẽ biểu đồ cùng chiều rộng width histogram) với độ rộng = 10

(equal-55

TÀI LIỆU THAM KHẢO

1 E.Rahm, H.H.Do Data cleaning : Problems

and Current Approaches IEEE bulletin of

Technical Committee on Data engineering,

Vol 23, N.4, 2000

2 J.Han, M.Kamber, Chương 2 – Data mining :

Concepts and Techniques

56

Q & A

Trang 36

LUẬT KẾT HỢP

3

NỘI DUNG

1 Gii thiu

4

GIỚI THIỆU

Mẫu phổ biến: là mẫu (tập các hạng mục, chuỗi con, cấu trúc con, đồ thị con, …) xuất hiện thường xuyên trong tập DL

– Agrawal, Imielinski, Swami – 1993 – trong ngữ cảnh bài toán tập phổ biến và luật kết hợp

Mục đích : Tìm các hiện tượng thường xuyên xảy ra trong DL

– Những sản phẩm nào thường được mua chung ? Bia và tã lót

Người ta thường mua gi tiếp theo sau khi mua máy PC ?

– Dạng DNA nào có phản ứng với công thức thuốc mới ?

Làm thế nào đề phân loại tự động văn bản Web ?

 Ứng dụng :

– Áp dụng trong phân tích CSDL bán hàng

– Mở rộng sang quảng cáo, thiết kế catalog, phân tích chiến dịch bán hàng, Web log, chuỗi DNA, …

Trang 37

 Là nền tảng cho nhiều nhiệm vụ KTDL khác :

– Phân tích luật kết hợp, mối tương quan

– Mẫu tuần tự, cấu trúc ( Vd : đồ thị con)

– Phân tích DL không gian, đa phương tiện, phụ

thuộc thời gian

– Phân loại : phân loại dựa trên luật kết hợp

– Phân tích nhóm: gom nhóm dựa trên mẫu phổ biến

– ….

6

NỘI DUNG

Biến đổi CSDL về dạng nhị phân

Trang 38

o Giao dịch (Transation) : tập các hạng mục được mua trong

một giỏ ( có TID – mã giao dịch) : (Tid, tập hạng mục)

o Giao dịch t : tập các hạng mục sao cho t I

Độphổ biến (supp) của tập các hạng mục X

trong CSDL D là tỷ lệ giữa số các giao dịch

chứa X trên tổng số các giao dịch trong D

Supp(X) = count(X) / | D |

Tập các hạng mục phổ biến S hay tập phổ biến (frequent itemsets) là tập các hạng mục

có độ phổ biến thỏa mãn độ phổ biến tối thiểu

minsupp (do người dùng xác định)

Nếu supp(S) ≥minsupp thì S - tập phổ biến

KHÁI NIỆM CƠ BẢN

Nu tp con không ph bin thì tp

bao nó (tp cha) có ph bin hay

X 3 = { PeanutButter } →supp(X 3 ) = ?; X 2 và X 3 có phổ biến ?

X 3 = {Milk}, X 4 ={Milk, Bread} →X 3 và X 4 có phổ biến ?

VÍ DỤ 1

Minsupp = 60%

Trang 39

{B, C, D, E}, {A, C, tập phổ biến tối đại {B, C, D}- không phải tập phổ biến tối đại

D}-A,C,D,F 30

B,C,D,E, 20

A,B,C,D,E 10

Items Tid

{A, B} - không phải tập phổ

biến tối đại

Minsupp=2

c, e, f 50

a, b, d, 40

a, b, d 30

a, b, c 20

a, b, c 10

Items TID

LKH th ng được đánh giá dựa trên 2 độ đo:

Độphổ biến (support) : supp (X ⇒Y ) =P (X ∪Y)

supp (X ⇒Y ) = supp(XY)

Độtin cậy (confidence) : conf (X ⇒Y ) = P(Y | X)

conf (X ⇒Y ) = supp(XY) / supp(X)

KHÁI NIỆM CƠ BẢN

Trang 40

VÍ DỤ LUẬT KẾT HỢP (VD1)

7 MÔ TẢ BÀI TOÁN KHAI THÁC LKH

Cho độ phổ biến tối thiểu (minsupp) và độ tin cậy tối thiểu (minconf) do người dùng xác định

Cho tập các hạng mục I={i1,i2,…,im} và CSDL giao dịch D={t1,t2, …, tn}, với ti={ii1,ii2, …, iik} và iij

D, B, F 30

A, B, C 20

B, C 10

Items bought Trs-id

Bài tập theo nhóm

20

KHÁI NIỆM CƠ BẢN

8 QUI TRÌNH KHAI THÁC LKH B1: Tìm tất cả các tập phổ biến ( theo ngưỡng minsupp)

B2: Tạo ra các luật từ các tập phổ biến

Đối với mỗi tập phổ biến S, tạo ra tất cả các tập con khác rỗng của S

Đối với mỗi tập con khác rỗng A của S,

o Luật A ⇒(S - A) là LKH cần tìm nếu :

 conf (A ⇒(S - A)) = supp(S) / supp(A) ≥minconf

 T bài toán khai thác LKH chuyn thành bài toán khai thác tp ph bin : độ phức

tạp tính toán cao.

...

1 Tại cần chuẩn bị liệu ?

2 Làm liệu ( data cleaning)

3 Chọn lọc liệu (data selection)

4 Rút gọn liệu ( data reduction)... chuẩn bị liệu ?

2. Làm liệu ( data cleaning)

3 Chọn lọc liệu (data selection)

4. Rút gọn liệu ( data reduction)

 Loại... định chuẩn ánh xạ dựa siêu liệu (meta data)

31

NỘI DUNG

1 Tại cần chuẩn bị liệu ?

2 Làm liệu ( data cleaning)

Ngày đăng: 22/10/2014, 13:50

HÌNH ẢNH LIÊN QUAN

HÌNH THỨC KIỂM TRA VÀ  ĐÁNH GIÁ - Giáo trình khai phá dữ liệu
HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ (Trang 3)
HÌNH THỨC KIỂM TRA VÀ  ĐÁNH GIÁ - Giáo trình khai phá dữ liệu
HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ (Trang 4)
Hình tròn and 500 - Giáo trình khai phá dữ liệu
Hình tr òn and 500 (Trang 73)
Bảng con 1 - Giáo trình khai phá dữ liệu
Bảng con 1 (Trang 79)
Bảng con 2 - Giáo trình khai phá dữ liệu
Bảng con 2 (Trang 79)
Bảng con 1 - Giáo trình khai phá dữ liệu
Bảng con 1 (Trang 80)
Bảng con 2 - Giáo trình khai phá dữ liệu
Bảng con 2 (Trang 81)
Hình cây ti m'c thích hp. - Giáo trình khai phá dữ liệu
Hình c ây ti m'c thích hp (Trang 113)
Sơ đồ hình cây - Giáo trình khai phá dữ liệu
Sơ đồ h ình cây (Trang 117)
Hình thành nhóm - Giáo trình khai phá dữ liệu
Hình th ành nhóm (Trang 122)

TỪ KHÓA LIÊN QUAN

w