1. Trang chủ
  2. » Công Nghệ Thông Tin

Giới thiệu về khai phá dữ liệu

30 318 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 295,67 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ạ p ệ„ Sự gia tăng bùng nổ của dữ liệu: Từ mức độ terabytes đến mức độ petabytes Th hậ d liệ à ồ i ủ d liệ ‰ Thu thập dữ liệu và sự tồn tại của dữ liệu „ Các công cụ thu thập dữ liệu tự

Trang 2

Nội dung môn học:

„ Giới thiệu về Khai phá dữ liệu

„ Giới thiệu về công cụ WEKA

„ Tiền xử lý dữ liệu

„ Phát hiện các luật kết hợp

„ Các kỹ thuật phân lớp và dự đoán

„ Các kỹ thuật phân lớp và dự đoán

„ Các kỹ thuật phân nhóm

2

Khai Phá Dữ Liệu

Trang 3

Tại sao cần khai phá dữ liệu? ạ p ệ

„ Sự gia tăng bùng nổ của dữ liệu: Từ mức độ terabytes đến mức độ petabytes

Th hậ d liệ à ồ i ủ d liệ

‰ Thu thập dữ liệu và sự tồn tại của dữ liệu

„ Các công cụ thu thập dữ liệu tự động, các hệ thống cơ sở dữ liệu, World Wide Web, xã hội số

‰ Các nguồn dữ liệu phong phú

„ Kinh doanh: Internet, thương mại điện tử, giao dịch thương mại, chứng khoán,…

„ Khoa học: Tín hiệu cảm biến tin sinh thí nghiệm mô

„ Khoa học: Tín hiệu cảm biến, tin sinh, thí nghiệm mô

phỏng/giả lập,…

„ Xã hội: Tin tức, máy ảnh số, các mạng xã hội

Chúng ta bị tràn ngập trong dữ liệu Nhưng lại thiếu (cần) tri

„ Chúng ta bị tràn ngập trong dữ liệu – Nhưng lại thiếu (cần) tri thức

„ Khai phá dữ liệu: Giúp tự động phân tích các tập dữ liệu rất lớn để khám phá ra các tri thức

lớn, để khám phá ra các tri thức

Trang 4

Khai phá dữ liệu – Định nghĩa p ệ ị g

„ Khai phá dữ liệu (Data mining – DM) – Khám phá tri thức

từ dữ liệu (Knowledge discovery from data)

‰ Trích rút tri thức (Knowledge extraction)

‰ Phân tích mẫu/dữ liệu (Data/pattern analysis)

‰ …

„ Khai phá dữ liệu khác với…

‰ Tìm kiếm thông tin (Information retrieval)

‰ Xử lý các câu truy vấn (SQL) đối với các cơ sở dữ liệu

4

Khai Phá Dữ Liệu

Trang 5

DM: Lịch sử phát triển ị p

„ 1989 IJCAI Workshop on Knowledge Discovery in Databases

‰ Knowledge Discovery in Databases (G Piatetsky-Shapiro and W

Frawley, 1991)

„ 1991-1994 Workshops on Knowledge Discovery in Databases

‰ Advances in Knowledge Discovery and Data Mining (U Fayyad, G g y g ( yy ,

Piatetsky-Shapiro, P Smyth, and R Uthurusamy, 1996)

„ 1995-1998 International Conferences on Knowledge Discovery in

Databases and Data Mining (KDD’95-98)

‰ Journal of Data Mining and Knowledge Discovery (1997)

„ ACM SIGKDD conferences since 1998 and (Journal) SIGKDD Explorations

„ More conferences on data mining

‰ PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), etc.

„ ACM Transactions on KDD starting in 2007

Trang 6

Các bước của quá trình KD

1 Tìm hiểu lĩnh vực của bài toán (ứng dụng)

‰ Các mục đích của bài toán, các tri thức cụ thể của lĩnh vực

2 Tạo nên (thu thập) một tập dữ liệu phù hợp

3 Làm sạch và tiền xử lý dữ liệu

4 Giảm kích thước của dữ liệu, chuyển đổi dữ liệu

‰ Xác định các thuộc tính quan trọng, giảm số chiều (số thuộc tính), biểu diễn bất biến

5 Lựa chọn chức năng khai phá dữ liệu

Tóm tắt hóa (s mmari ation) phân loại/phân lớp hồi q /d

‰ Tóm tắt hóa (summarization), phân loại/phân lớp, hồi quy/dự

đoán, kết hợp, phân cụm

6 Lựa chọn/Phát triển (các) giải thuật khai phá dữ liệu phù hợp

7 Tiến hành quá trình khai phá dữ liệu

7 Tiến hành quá trình khai phá dữ liệu

8 Đánh giá mẫu thu được và biểu diễn tri thức

‰ Hiển thị hóa, chuyển đổi, bỏ đi các mẫu dư thừa, …

9 Sử dụng các tri thức được khám phá

9 Sử dụng các tri thức được khám phá

6

Khai Phá Dữ Liệu

Trang 7

Quá trình khám phá tri thức (1)

„ Đây là cách nhìn của giới

nghiên cứu về các hệ thống dữ

liệu và kho dữ liệu

liệu và kho dữ liệu

„ Khai phá dữ liệu đóng vai trò

quan trọng trong quá trình

Trang 8

Quá trình khám phá tri thức (2)

(Han and Kamber - Data mining: Concepts and Techniques)

Mining

Data Processing

Pre- Processing

Clustering

Pattern evaluation Pattern selection Pattern interpretation Pattern visualization

„ Đây là cách nhìn của giới nghiên cứu về học máy và

Trang 9

Kiến trúc hệ thống khai phá dữ liệu

Graphical User InterfacePattern Evaluation

Knowledge

Database or Data Data Mining Engine Knowledgebase

data cleaning, integration, and selection

Warehouse Server

Database Data

Warehouse

World-Wide Web

Other Info Repositories (Han and Kamber -

Data mining: Concepts Data mining: Concepts and Techniques)

Trang 10

Khai phá dữ liệu cho kinh doanh

Data Presentation

Analyst

Data Analyst

Paper, Files, Web documents, Scientific experiments, Database Systems

(Han and Kamber - Data mining: Concepts and Techniques)

Trang 11

DM – Các lĩnh vực liên quan ự q

„ Công nghệ cơ sở dữ liệu (Database technology)

„ Giải thuật (Algorithm)

„ Thống kê (Statistics)

„ Học máy (Machine learning)

„ Nhận dạng mẫu (Pattern recognition)

„ Nhận dạng mẫu (Pattern recognition)

„ Hiển thị hóa (Visualization)

„ Tính toán hiệu năng cao (High-performance computing)

Trang 12

Phân tích dữ liệu ệ

„ Lượng dữ liệu rất lớn

‰ Các giải thuật (phân tích dữ liệu) cần phải hoạt động tốt với

những tập dữ liệu lên đến hàng terabytes hoặc thậm chí

những tập dữ liệu lên đến hàng terabytes, hoặc thậm chí

Cá l ồ dữ liệ à dữ liệ th hậ từ á ả biế

‰ Các luồng dữ liệu và dữ liệu thu nhận từ các mạng cảm biến

‰ Dữ liệu liên tục theo thời gian, dữ liệu phụ thuộc theo thời gian, chuỗi dữ liệu

‰ Dữ liệu có cấu trúc, dữ liệu dạng đồ thị, các mạng xã hội

‰ Dữ liệu có cấu trúc, dữ liệu dạng đồ thị, các mạng xã hội

‰ Các cơ sở dữ liệu hỗn tạp

‰ Dữ liệu phụ thuộc không gian/thời gian, dữ liệu đa phương tiện

„ Cần các chương trình (ứng dụng) phân tích dữ liệu mới, phức g ( g ụ g) p ệ , p tạp hơn

12

Khai Phá Dữ Liệu

Trang 13

DM – Nhiều cách nhìn (quan điểm)

„ Dữ liệu được khai phá

‰ Dữ liệu quan hệ, kho dữ liệu, dữ liệu giao dịch, luồng dữ liệu, dữ liệ h ớ đối t dữ liệ h th ộ khô i dữ liệ liê

liệu hướng đối tượng, dữ liệu phụ thuộc không gian, dữ liệu liên tục theo thời gian, dữ liệu dạng văn bản, dữ liệu đa phương tiện,

dữ liệu hỗn tạp, dữ liệu trên WWW, …

Trang 14

DM – Các cách phân biệt p ệ

„ Theo chức năng tổng quát

‰ Khai phá dữ liệu mô tả: Tìm các mẫu (mà con người có thể

‰ Khai phá dữ liệu mô tả: Tìm các mẫu (mà con người có thể

hiểu/diễn giải được) biểu diễn/mô tả dữ liệu

‰ Khai phá dữ liệu dự đoán: Sử dụng một số biến để dự đoán giá trị (chưa biết, hoặc trong tương lai) của các biến khác

„ Các cách nhìn (quan điểm) khác nhau dẫn đến các cách phân biệt khác nhau về Khai phá dữ liệu

‰ Dựa theo dữ liệu: Những kiểu dữ liệu nào được khai phá?

‰ Dựa theo tri thức: Những kiểu tri thức nào được khám phá?

‰ Dựa theo phương pháp: Những kiểu kỹ thuật nào được áp dụng?

‰ Dựa theo phương pháp: Những kiểu kỹ thuật nào được áp dụng?

‰ Dựa theo ứng dụng (bài toán): Những kiểu ứng dụng (bài toán) nào phù hợp để giải quyết?

14

Khai Phá Dữ Liệu

Trang 15

DM: Khái quát hóa q

„ Tích hợp thông tin và xây dựng các kho dữ liệu

‰ Làm sạch dữ liệu, chuyển đổi dữ liệu, tích hợp dữ liệu, và mô

hì h d liệ hiề hiề ( l i di i l d d l)

hình dữ liệu nhiều chiều (multi-dimensional data model)

„ Công nghệ khối dữ liệu (data cube)

‰ Các phương pháp hiệu quả để tính toán kết hợp nhiều chiều của

dữ liệu

‰ Xử lý phân tích trực tuyến (Online analytical processing – OLAP)

„ Mô tả khái niệm theo nhiều chiều: Sự đặc trưng và sự phân biệt

‰ Tổng quát hóa tóm tắt và tương phản các đặc tính của dữ liệu

‰ Tổng quát hóa, tóm tắt, và tương phản các đặc tính của dữ liệu

„ Vd: Các vùng khô vs các vùng ướt

Trang 16

DM: Phân tích kết hợp và tương quan

„ Các mẫu hoặc các tập mục (itemsets) thường xuyên

‰ Những mục (sản phẩm) nào thường xuyên được mua g ụ ( p ) g y ợ cùng nhau, trong siêu thị BigC?

„ Kết hợp (association), tương quan (correlation), và

nguyên nhân (causality)

‰ Ví dụ về một luật kết hợp (association rule)

„ Bánh mỳ Æ Sữa [0.5%, 75%] (độ hỗ trợ – support,

độ ti ậ fid )

độ tin cậy – confidence)

‰ Các mục kết hợp ở mức cao, thì cũng tương quan ở mức cao?

„ Làm thế nào để khám phá các mẫu (luật) như vậy trong các tập dữ liệu lớn?

16

Khai Phá Dữ Liệu

Trang 17

DM: Phân lớp và dự đốn p ự

„ Phân lớp (classification) và dự đốn (prediction)

‰ Xây dựng các mơ hình (các hàm mục tiêu) dựa trên một số ví dụ

h /h ấ l ệ

học/huấn luyện

‰ Mơ tả và phân biệt các lớp (các khái niệm) cho việc dự đốn trong tương lai

‰ Phân lớp các ví dụ mới hoặc dự đốn các giá trị kiểu số

‰ Phân lớp các ví dụ mới, hoặc dự đốn các giá trị kiểu số

„ Các phương pháp điển hình

‰ Cây quyết định (Decision tree learning), Phân lớp Nạve Bayes (Nạve Bayes classification) Máy vectơ hỗ trợ (Support vector

(Nạve Bayes classification), Máy vectơ hỗ trợ (Support vector

machine), Mạng nơ-ron nhân tạo (Artificial neural networks), Học quy nạp luật (Rule induction), Hồi quy tuyến tính (Linear

regression), …

„ Các ứng dụng điển hình

‰ Phát hiện gian lận thẻ tín dụng, quảng cáo trực tiếp (phù hợp với từng người), phân loại/dự đốn các loại bệnh, phân loại các trang g g ), p ạ ự ạ ệ , p ạ gWeb, …

Trang 18

DM: Phân cụm và phân tích ngoại lai

„ Phân cụm (Cluster analysis)

‰ Phương pháp học không giám sát (unsupervised learning) –

không có thông tin về nhãn lớp

‰ Nhóm dữ liệu lại thành các cụm (clusters)

‰ Nguyên tắc: Cực đại hóa sự tương tự giữa các đối tượng trong cùng một cụm nhưng cực tiểu hóa sự tương tự giữa các đối

cùng một cụm – nhưng cực tiểu hóa sự tương tự giữa các đối tượng khác cụm

‰ Có rất nhiều phương pháp và ứng dụng (bài toán)

„ Phân tích ngoại lai (Outlier analysis/detection)

‰ Ngoại lai (Outlier): Một đối tượng rất khác biệt với các đối tượng khác (trong một cụm)

Nhiễ ủ dữ liệ h là i lệ?

‰ Nhiễu của dữ liệu, hay là ngoại lệ?

‰ Các phương pháp: phân cụm, phân tích hồi quy, …

‰ Rất hữu ích trong các bài toán phát hiện gian lận (giả mạo), hoặc phân tích các sự kiện hiếm khi xảy ra

phân tích các sự kiện hiếm khi xảy ra

18

Khai Phá Dữ Liệu

Trang 19

DM: Phân tích xu hướng và tiến triển

„ Phân tích chuỗi (sequence), xu hướng (trend), và tiến

triển (evolution)

‰ Phân tích xu hướng và sự dịch chuyển (khỏi xu hướng)

‰ Khai phá các mẫu kiểu chuỗi (sequential patterns)

Vd: Đầu tiên mua máy ảnh số sau đó mua các thẻ nhớ SD

„ Vd: Đầu tiên mua máy ảnh số, sau đó mua các thẻ nhớ SD dung lượng lớn, …

‰ Phân tích tính chu kỳ (Periodicity analysis)

Phâ tí h h ỗi dữ liệ liê t th thời i (ti i ) à

‰ Phân tích chuỗi dữ liệu liên tục theo thời gian (time-series) và

chuỗi dữ liệu sinh học

‰ Phân tích dựa trên sự tương tự (Similarity-based analysis)

„ Khai phá các luồng dữ liệu

‰ Có thứ tự, thay đổi theo thời gian, có thể vô hạn, các luồng dữ liệu

liệu

Trang 20

DM: Phân tích mạng và cấu trúc

„ Khai phá đồ thị dữ liệu (Graph mining)

‰ Tìm ra các đồ thị con (các phần của đồ thị ban đầu), các cây (dữ liệu XML) các cấu trúc con (dữ liệu Web) thường xuyên xảy raliệu XML), các cấu trúc con (dữ liệu Web) … thường xuyên xảy ra

„ Phân tích mạng thông tin (Information network analysis)

‰ Các mạng xã hội: các tác nhân (các đối tượng, các nút) và các mối quan hệ (các cạnh)q ệ ( ạ )

„ Vd: Mạng các tác giả (học giả) trong lĩnh vực Trí tuệ nhân tạo

„ Khai phá Web (Web mining)

‰ WWW là một mạng thông tin khổng lồ: PageRank (Google)

‰ Phân tích các mạng thông tin Web

Khám phá cộng đồng Web Khai phá ý kiến (Opinion mining) Khai

„ Khám phá cộng đồng Web, Khai phá ý kiến (Opinion mining), Khai phá dữ liệu truy cập Web (usage mining)

20

Khai Phá Dữ Liệu

Trang 21

Tất cả các mẫu đều quan trọng?

„ Quá trình khai phá dữ liệu có thể sinh (phát hiện) ra hàng ngàn mẫu – Không phải tất cả các mẫu đều quan trọng

„ Các đánh giá về mức độ quan trọng của các mẫu

‰ Một mẫu là quan trọng, nếu nó: dễ hiểu đối với người dùng, vẫn đúng đối với các dữ liệu mới (ở một mức độ chắc chắn nhất

đị h) hữ d ới ẻ h ặ iú á hậ ột iả thiết à đó

định), hữu dụng, mới mẻ, hoặc giúp xác nhận một giả thiết nào đó của một người dùng

„ Các đánh giá dựa trên mục tiêu (objective) và dựa trên g ( j ) chủ quan (subjective)

‰ Dựa trên mục tiêu (objective): dựa trên sự thống kê và các cấu trúc của các mẫu

Vd: dựa trên các giá trị độ hỗ trợ (support) độ tin cậy

„ Vd: dựa trên các giá trị độ hỗ trợ (support), độ tin cậy

Trang 22

Đánh giá mức độ quan trọng của mẫu

„ Mức độ đơn giản (Simplicity)

‰ Độ dài của các luật kết hợp

‰ Độ dài của các luật kết hợp

‰ Kích thước của cây quyết định học được

„ Mức độ tin cậy (Certainty/Confidence) y ( y )

‰ Độ tin cậy (confidence) của các luật kết hợp

‰ Độ chính xác của phân lớp học được

„ Mức độ tiện ích (Utility): khả năng hữu ích của mẫu

‰ Độ hỗ trợ của các luật kết hợp

‰ Ngưỡng nhiễu đối với phân lớp học được

‰ Ngưỡng nhiễu đối với phân lớp học được

„ Tính mới mẻ (Novelty): mẫu mới, chưa bao giờ được

biết đến

22

Khai Phá Dữ Liệu

Trang 23

‰ Chúng ta có cần phải tìm tất cả các mẫu quan trọng không?g p q ọ g g

‰ Tìm kiếm vét cạn (exhaustive) vs heuristic

„ Chỉ tìm các mẫu quan trọng: Bài toán tối ưu q ọ g

‰ Một hệ thống khai phá dữ liệu có thể tìm chỉ các mẫu quan trọng?

‰ Các phương pháp

„ Trước hết cứ sinh (tìm) ra tất cả các mẫu sau đó loại bỏ đi các

„ Trước hết cứ sinh (tìm) ra tất cả các mẫu, sau đó loại bỏ đi các mẫu không quan trọng

„ (Trong quá trình khai phá dữ liệu) Chỉ sinh ra các mẫu quan trọng

Trang 24

Hiển thị các mẫu tìm được ị ợ

„ Các người dùng khác nhau, các mục đích sử dụng khác nhau sẽ yêu cầu các dạng hiển thị khác nhau đối với các

ẫ tì đ

mẫu tìm được

‰ Hiển thị bằng: các luật, các bảng, biểu đồ so sánh, …

„ Phân cấp khái niệm

„ Phân cấp khái niệm

‰ Tri thức khám phá được có thể sẽ dễ hiểu hơn khi được biểu diễn

ở mức khái quát hóa cao hơn

‰ Sự phân cấp khái niệm cho phép nhìn (xét) dữ liệu theo các cách

Trang 25

DM: Các ứng dụng tiềm năng g ụ g g

„ Phân tích dữ liệu và hỗ trợ quyết định

‰ Phân tích và quản lý thị trường

„ Quảng cáo cá nhân (target marketing), quản lý quan hệ khách hàng (CRM), phân tích giỏ hàng, bán hàng liên quan (cross-selling), phân chia thị trường

Phâ tí h à ả lý ủi

‰ Phân tích và quản lý rủi ro

„ Dự đoán, giữ khách hàng, phân tích cạnh tranh

‰ Phát hiện gian lận và phát hiện các mẫu bất thường (outliers)

„ Các ứng dụng khác

‰ Khai phá văn bản (nhóm tin – news group, email, tài liệu)

Khai phá Web

‰ Khai phá Web

‰ Khai phá dữ liệu luồng (chuỗi)

‰ Phân tích dữ liệu sinh học và tin sinh

Trang 26

Ứng dụng: Phân tích thị trường (1)

„ Nguồn của dữ liệu từ đâu?

‰ Các giao dịch sử dụng thẻ tín dụng, các thẻ khách hàng thường

xuyên, các phiếu giảm giá, các cuộc gọi phàn nàn của khách

hàng

„ Quảng cáo cá nhân (Target marketing) g ( g g)

‰ Tìm ra (xác định) những nhóm khách hàng “mẫu” có cùng các đặc điểm về sở thích, mức thu nhập, thói quen chi tiêu, …

‰ Xác định các mẫu (kiểu) chi trả/mua bán thường xuyên

„ Phân tích thị trường (Cross-market analysis)

‰ Tìm ra các mối liên kết/tương quan giữa các sản phẩm bán ra

(hoặc giữa các đợt bán hàng), để đưa ra các dự đoán

„ Lập hồ sơ khách hàng (Customer profiling)

‰ Những kiểu khách hàng nào mua những mặt hàng nào (phân

nhóm, hoặc phân loại)

nhóm, hoặc phân loại)

26

Khai Phá Dữ Liệu

Trang 27

Ứng dụng: Phân tích thị trường (2)

„ Phân tích yêu cầu khách hàng

‰ Xác định các sản phẩm phù hợp nhất cho các nhóm khách hàng

‰ Xác định các sản phẩm phù hợp nhất cho các nhóm khách hàng khác nhau

‰ Dự đoán những yếu tố nào sẽ thu hút được các khách hàng mới

„ Cung cấp những thông tin tóm tắt

‰ Các báo cáo tóm tắt theo nhiều chiều (yếu tố)

‰ Các thông tin thống kê (xu hướng dịch chuyển)

‰ Các thông tin thống kê (xu hướng, dịch chuyển)

Trang 28

Ứng dụng: Quản lý rủi ro g ụ g Q ý

„ Lập kế hoạch tài chính và đánh giá tài sản

‰ Phân tích và dự đoán luồng tiền mặt

‰ Phân tích và dự đoán luồng tiền mặt

‰ Phân tích các tuyên bố tài chính của doanh nghiệp để đánh giá tài sản

‰ Phân tích các chuỗi dữ liệu tài chính

‰ Phân tích các chuỗi dữ liệu tài chính

„ Lập kế hoạch sử dụng tài nguyên

‰ Tóm tắt và so sánh các tài nguyên và sự khai thác (sử dụng)

„ Cạnh tranh trong kinh doanh

‰ Theo dõi các đối thủ cạnh tranh trong kinh doanh và các xu

hướng của thị trường

hướng của thị trường

‰ Nhóm các khách hàng theo từng lớp, và định giá cho từng lớp

‰ Xây dựng chiến lược giá trong một thị trường cạnh tranh cao

28

Khai Phá Dữ Liệu

Ngày đăng: 03/07/2015, 15:21

TỪ KHÓA LIÊN QUAN

w