1. Trang chủ
  2. » Luận Văn - Báo Cáo

Data warehuose and data mining

36 482 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Data Warehouse & Data Mining
Tác giả Nguyễn Khoa, Vũ Đình Phong, Đoàn Thu Phương, Phạm Minh Sang, Hồ Hoàng Ánh
Người hướng dẫn Nguyễn Trần Minh Thư
Trường học Swinburne University
Chuyên ngành Công nghệ thông tin
Thể loại Bài giảng
Năm xuất bản 2009
Thành phố Melbourne
Định dạng
Số trang 36
Dung lượng 1,55 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Data warehuose and data mining

Trang 1

Data warehouse & Data mining

Trang 2

– Cách tiếp cận các vấn đề KTDL.

– Ứng dụng – Các công cụ KTDL hiện đai sử dụng trong thương mại

2 5/12/2009

Trang 3

 cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau

Trang 4

Định nghĩa Kho Dữ Liệu

Subject Oriented

Integrated

Time Variant Non Volatile

Data Warehouse

W.H.Inmon

Trang 5

Định nghĩa Kho Dữ Liệu (tt)

• Theo Pandora, Swinburn University :

– Là một phương thức cho việc kết nối dữ liệu từ nhiều hệ thống khác nhau.

– Là một điểm truy cập tập trung dữ liệu của một tổ chức

– Được trình bày ở một khuông dạng thích hợp

– Là hệ thống chỉ đọc

– Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng

• Theo Paul Lucas, IBM:

– Là một nơi lưu trữ dữ liệu đầy đủ và nhất quán consistent.

– Được tổng hợp về từ nhiều nguồn

– Được làm sẵn cho người sử dụng cuối

– Dễ hiểu

Trang 7

– Tiền tiết kiệm của khách hàng

– Các yêu sách bảo hiểm

– Đặt chỗ hành khách

7

Trang 9

Biến thời gian

• Data for January

• Data for February

• Data for March

• Data

• Warehouse

5/12/2009

Trang 10

Ổn Định

• Là lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp

• Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi

trường kho dữ liệu

– Không yêu cầu các cơ chế xử lý toàn tác, phục hồi và điều khiển tương tranh

– Chỉ yêu cầu hai thao tác trong kho dữ liệu: Nạp và truy cập dữ liệu.

10 5/12/2009

Trang 11

DW - Traditional Database

• Traditional Database

– Riêng biệt – Hiện tại – Hướng thực thể – Cập nhật thường xuyên (update) – Được chuẩn hóa

– Được mã hóa.

– Thô – Người dùng : văn phòng

• Data ware house

Trang 12

Mục đích của kho dữ liệu

• khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng

• Hỗ trợ nhân viên thực hiện tốt, hiệu quả công việc của mình, (quyết định hợp lý, nhanh, năng suất cao hơn )

• Giúp cho quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác

• Tích hợp dữ liệu từ nhiều nguồn khác nhau

Trang 13

Kiến trúc

Trang 14

14 5/12/2009

OLAP (on-line analytical processing): các phân tích phức tạp

của dữ liệu từ kho dữ liệu, OLAP sử dụng khả năng tính toán phân tán cho các phân tích, yêu cầu nhiều không gian lưu trữ

và sức mạnh xử lý cao

DSS (desion-support systems): hệ thống hỗ trợ đưa ra quyết

định có tính lãnh đạo của tổ chức, với các dữ liệu có mức độ phức tạp và quan trọng

Data mining: khám phá, tìm kiếm dữ liệu cho các kiến thức

mới không dự biết trước

Trang 16

Giới thiệu

• Khai thác dữ liệu là quá trình không tầm thường của việc xác định các mẫu tiềm ản có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996)

16 5/12/2009

• Mẫu tiềm ẩn: Là mối quan hệ trong dữ liệu

– Những người mua quần tây thì mua thêm áo sơmi

– Đàn ông mua tã lót cho em bé thường mua thêm bia

Trang 18

Sequence Discovery

Trang 19

xi, yj là những hạng mục(item) riêng biệt cho tất cả i, j.

• Đó là mối kết hợp nếu một khách hàng mua X, người đó cũng sẽ có mua

Y Hình thức LHS (left-hand side), RHS (righthand side).

• Thiết lập LHS  RHS được gọi là tập các hạng mục (itemset).

Trang 20

Luật kết hợp ( Association rule)

• LKH có dạng :

X Y, với X, Y I, và X ∩Y ={} ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} ⊂ I, và X ∩Y ={}

• Ý nghĩa : khi X có mặt thì Y cũng có mặt ( với xác suất nào đó)

• Độ Support: supp(X) = count(X)/|D|

• Nếu supp(X) >= minsupp

• LKH thường được đánh giá dựa trên 2 độ đo:

– Độ phổ biến (support) : supp (X Y ) =P (X Y) ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} ∪ Y)

• supp (X Y ) = supp(X Y) ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} ∪ Y) – Độ tin cậy (confidence) : conf (X Y ) = P(Y | X) ⇒ Y, với X, Y ⊂ I, và X ∩Y ={}

• conf (X Y ) = supp(X Y) / supp(X) ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} ∪ Y)

• Bài toán khai thác LKH là bài toán tìm tất cả các luật dạng:

X Y (X, Y I và X ∩Y = {}) ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} ⊂ I, và X ∩Y ={}

• thỏa mãn độ phổ biến và độ tin cậy tối thiểu

supp (X Y ) ≥ minsupp ⇒ Y, với X, Y ⊂ I, và X ∩Y ={}

conf (X Y ) ≥ minconf ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} 20 5/12/2009

S là tập phổ biến

Trang 21

Ví dụ

101 6:35 milk, bread cookies, juice

203 7:38 milk, juice

792 8:40 bread, cookies, coffee

• Xem xét 2 luật milk => juice và bread => juice.

– sup {milk, juice} = 50%

– sup {bread, juice} = 25%

– conf (milk  juice) = 66.7%

– conf (Bread  juice) = 50%

Trang 22

Với mọi A là tập con của Si & A khác rỗng

if(conf (A (Si - A)) >= minconf)⇒ Y, với X, Y ⊂ I, và X ∩Y ={}

thêm A vào Xreturn X

B1

B2

Trang 23

Thuật toán cơ bản dựa trên luật kết hợp

1 Kiểm tra mức độ hỗ trợ của hạng mục có chiều dài là 1, gọi là

1-itemsets, bằng cách quét toàn bộ cơ sở dữ liệu Bỏ qua

những thành phần có mức hỗ trợ thắp hơn so yêu cầu

2 Mở rộng 1-itemsets thành 2-itemsets bằng cách thêm vào một

item cho mỗi phần, để tạo ra các ứng viên hạng mục có chiều dài là 2

Kiểm tra mức hỗ trợ của các ứng viên hạng mục bằng cách quét vào cơ sở dữ liệu và loại ra những hạng mục không đáp ứng độ phổ biến

3 Lặp lại bước trên; tới bước k, các tập ứng cử viên được xác

định dựa vào các tập mục lớn đã xác định tại vòng k – 1.

4 Quá trình xác định các tập mục sẽ kết thúc khi không xác

định được thêm tập mục lớn nào nữa

Trang 24

Một số thuật toán thường gặp:

– Thuật toán Apriori (1994):

• tìm kiếm theo chiều rộng

– Thuật toán Sampling

– Thuật toán cây FP, FP-Growth(2000):

• phát triển mẫu

– Thuật toán Charm (2002):

• tìm kiếm trên CSDL dạng dọc

24 5/12/2009

Trang 25

Luật kết hợp trong Hệ phân cấp.

• Đó là những loại kết hợp đặc biệt được chú ý vì những lí do đặc biệt

• Những mối kết hợp xảy ra trong hệ thống cấp bậc của những mẫu tin Điển hình, nó có thể chia các mẫu tin trong đó hệ

phân cấp độc lập dựa trên tính chất tự nhiên của miền giá trị.– Ví dụ: thức ăn trong siêu thị những hạng mục trong cùng một tầng hay quần áo trong một tiệm đồ thể thao đều có thể được phân loại theo lớp hoặc phân lớp

Trang 26

Mối kết hợp phủ định.

• Vấn đề đây là khai thác mối kết hợp phủ định thì khó hơn so với khai thác mối kết hợp ngẫu nhiên.

• Một phủ định mối kết hợp được hiểu :”60%

khách hàng mua khoai tây chiên mà không mua nước uống” (Ở đây, 60% tương ứng với độ tin cậy dành cho luật phủ định mối kết hợp.)

26 5/12/2009

Trang 29

Khám phá các mẫu theo thời gian

• Chuỗi thời gian

• Các mẫu theo chuỗi thời

Trang 30

Khám phá các luật phân lớp

• Phân lớp : là quá trình học một chức năng để phân loại

một chủ thể cho trước thành nhiều lớp hợp lý

(var1 in range1) & (var2 in range2) & (varn in rangen)

Trang 31

Hồi qui

Trang 32

Mạng Neural

• Mạng nơron :

– Bắt nguồn từ lĩnh vực nghiên cứu trí tuệ nhân tạo

– Sử dụng phép hồi quy suy rộng

• Phân loại :

– Mạng được giám sát : thuật toán tạo ra một hàm ánh xạ dữ liệu

vào tới kết quả mong muốn.

– Mạng không được giám sát : mô hình hóa một tập dữ liệu, không

có sẵn các ví dụ đã được gán nhãn.

Trang 33

Thuật giải di truyền

• Các thuật toán di truyền dựa trên một ẩn dụ sinh học.

• Các thuật toán này xem việc học như là sự cạnh tranh trong quần thể gồm các lời giải ứng viên đang tiến

hóa của bài toán.

Trang 34

Gom nhóm & Phân Cụm

• Gom nhóm (Phân cụm) : là quá trình nhóm các đối tượng thành những nhóm/cụm/lớp có ý nghĩa Các đối tượng trong cùng một nhóm có nhiều tính chất chung và có những tính chất khác với các đối tượng ở nhóm khác

• Phân lớp : học có giám sát

• Gom nhóm : học không có giám sát

Trang 35

Các ứng dụng của KTDL

Trang 36

Q&A

Ngày đăng: 18/01/2013, 16:15

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w