Data warehuose and data mining
Trang 1Data warehouse & Data mining
Trang 2– Cách tiếp cận các vấn đề KTDL.
– Ứng dụng – Các công cụ KTDL hiện đai sử dụng trong thương mại
2 5/12/2009
Trang 3 cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau
Trang 4Định nghĩa Kho Dữ Liệu
Subject Oriented
Integrated
Time Variant Non Volatile
Data Warehouse
W.H.Inmon
Trang 5Định nghĩa Kho Dữ Liệu (tt)
• Theo Pandora, Swinburn University :
– Là một phương thức cho việc kết nối dữ liệu từ nhiều hệ thống khác nhau.
– Là một điểm truy cập tập trung dữ liệu của một tổ chức
– Được trình bày ở một khuông dạng thích hợp
– Là hệ thống chỉ đọc
– Cho phép thiết lập các báo cáo tổng hợp giữa các ứng dụng
• Theo Paul Lucas, IBM:
– Là một nơi lưu trữ dữ liệu đầy đủ và nhất quán consistent.
– Được tổng hợp về từ nhiều nguồn
– Được làm sẵn cho người sử dụng cuối
– Dễ hiểu
Trang 7– Tiền tiết kiệm của khách hàng
– Các yêu sách bảo hiểm
– Đặt chỗ hành khách
7
Trang 9Biến thời gian
• Data for January
• Data for February
• Data for March
• Data
• Warehouse
5/12/2009
Trang 10Ổn Định
• Là lưu trữ vật lý của dữ liệu được chuyển đổi từ môi trường tác nghiệp
• Cập nhật tác nghiệp của dữ liệu không xuất hiện trong môi
trường kho dữ liệu
– Không yêu cầu các cơ chế xử lý toàn tác, phục hồi và điều khiển tương tranh
– Chỉ yêu cầu hai thao tác trong kho dữ liệu: Nạp và truy cập dữ liệu.
10 5/12/2009
Trang 11DW - Traditional Database
• Traditional Database
– Riêng biệt – Hiện tại – Hướng thực thể – Cập nhật thường xuyên (update) – Được chuẩn hóa
– Được mã hóa.
– Thô – Người dùng : văn phòng
• Data ware house
Trang 12Mục đích của kho dữ liệu
• khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng
• Hỗ trợ nhân viên thực hiện tốt, hiệu quả công việc của mình, (quyết định hợp lý, nhanh, năng suất cao hơn )
• Giúp cho quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác
• Tích hợp dữ liệu từ nhiều nguồn khác nhau
Trang 13Kiến trúc
Trang 1414 5/12/2009
OLAP (on-line analytical processing): các phân tích phức tạp
của dữ liệu từ kho dữ liệu, OLAP sử dụng khả năng tính toán phân tán cho các phân tích, yêu cầu nhiều không gian lưu trữ
và sức mạnh xử lý cao
DSS (desion-support systems): hệ thống hỗ trợ đưa ra quyết
định có tính lãnh đạo của tổ chức, với các dữ liệu có mức độ phức tạp và quan trọng
Data mining: khám phá, tìm kiếm dữ liệu cho các kiến thức
mới không dự biết trước
Trang 16Giới thiệu
• Khai thác dữ liệu là quá trình không tầm thường của việc xác định các mẫu tiềm ản có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996)
16 5/12/2009
• Mẫu tiềm ẩn: Là mối quan hệ trong dữ liệu
– Những người mua quần tây thì mua thêm áo sơmi
– Đàn ông mua tã lót cho em bé thường mua thêm bia
Trang 18Sequence Discovery
Trang 19xi, yj là những hạng mục(item) riêng biệt cho tất cả i, j.
• Đó là mối kết hợp nếu một khách hàng mua X, người đó cũng sẽ có mua
Y Hình thức LHS (left-hand side), RHS (righthand side).
• Thiết lập LHS RHS được gọi là tập các hạng mục (itemset).
Trang 20Luật kết hợp ( Association rule)
• LKH có dạng :
X Y, với X, Y I, và X ∩Y ={} ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} ⊂ I, và X ∩Y ={}
• Ý nghĩa : khi X có mặt thì Y cũng có mặt ( với xác suất nào đó)
• Độ Support: supp(X) = count(X)/|D|
• Nếu supp(X) >= minsupp
• LKH thường được đánh giá dựa trên 2 độ đo:
– Độ phổ biến (support) : supp (X Y ) =P (X Y) ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} ∪ Y)
• supp (X Y ) = supp(X Y) ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} ∪ Y) – Độ tin cậy (confidence) : conf (X Y ) = P(Y | X) ⇒ Y, với X, Y ⊂ I, và X ∩Y ={}
• conf (X Y ) = supp(X Y) / supp(X) ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} ∪ Y)
• Bài toán khai thác LKH là bài toán tìm tất cả các luật dạng:
X Y (X, Y I và X ∩Y = {}) ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} ⊂ I, và X ∩Y ={}
• thỏa mãn độ phổ biến và độ tin cậy tối thiểu
supp (X Y ) ≥ minsupp ⇒ Y, với X, Y ⊂ I, và X ∩Y ={}
conf (X Y ) ≥ minconf ⇒ Y, với X, Y ⊂ I, và X ∩Y ={} 20 5/12/2009
S là tập phổ biến
Trang 21Ví dụ
101 6:35 milk, bread cookies, juice
203 7:38 milk, juice
792 8:40 bread, cookies, coffee
• Xem xét 2 luật milk => juice và bread => juice.
– sup {milk, juice} = 50%
– sup {bread, juice} = 25%
– conf (milk juice) = 66.7%
– conf (Bread juice) = 50%
Trang 22Với mọi A là tập con của Si & A khác rỗng
if(conf (A (Si - A)) >= minconf)⇒ Y, với X, Y ⊂ I, và X ∩Y ={}
thêm A vào Xreturn X
B1
B2
Trang 23Thuật toán cơ bản dựa trên luật kết hợp
1 Kiểm tra mức độ hỗ trợ của hạng mục có chiều dài là 1, gọi là
1-itemsets, bằng cách quét toàn bộ cơ sở dữ liệu Bỏ qua
những thành phần có mức hỗ trợ thắp hơn so yêu cầu
2 Mở rộng 1-itemsets thành 2-itemsets bằng cách thêm vào một
item cho mỗi phần, để tạo ra các ứng viên hạng mục có chiều dài là 2
Kiểm tra mức hỗ trợ của các ứng viên hạng mục bằng cách quét vào cơ sở dữ liệu và loại ra những hạng mục không đáp ứng độ phổ biến
3 Lặp lại bước trên; tới bước k, các tập ứng cử viên được xác
định dựa vào các tập mục lớn đã xác định tại vòng k – 1.
4 Quá trình xác định các tập mục sẽ kết thúc khi không xác
định được thêm tập mục lớn nào nữa
Trang 24Một số thuật toán thường gặp:
– Thuật toán Apriori (1994):
• tìm kiếm theo chiều rộng
– Thuật toán Sampling
– Thuật toán cây FP, FP-Growth(2000):
• phát triển mẫu
– Thuật toán Charm (2002):
• tìm kiếm trên CSDL dạng dọc
24 5/12/2009
Trang 25Luật kết hợp trong Hệ phân cấp.
• Đó là những loại kết hợp đặc biệt được chú ý vì những lí do đặc biệt
• Những mối kết hợp xảy ra trong hệ thống cấp bậc của những mẫu tin Điển hình, nó có thể chia các mẫu tin trong đó hệ
phân cấp độc lập dựa trên tính chất tự nhiên của miền giá trị.– Ví dụ: thức ăn trong siêu thị những hạng mục trong cùng một tầng hay quần áo trong một tiệm đồ thể thao đều có thể được phân loại theo lớp hoặc phân lớp
Trang 26Mối kết hợp phủ định.
• Vấn đề đây là khai thác mối kết hợp phủ định thì khó hơn so với khai thác mối kết hợp ngẫu nhiên.
• Một phủ định mối kết hợp được hiểu :”60%
khách hàng mua khoai tây chiên mà không mua nước uống” (Ở đây, 60% tương ứng với độ tin cậy dành cho luật phủ định mối kết hợp.)
26 5/12/2009
Trang 29Khám phá các mẫu theo thời gian
• Chuỗi thời gian
• Các mẫu theo chuỗi thời
Trang 30Khám phá các luật phân lớp
• Phân lớp : là quá trình học một chức năng để phân loại
một chủ thể cho trước thành nhiều lớp hợp lý
(var1 in range1) & (var2 in range2) & (varn in rangen)
Trang 31Hồi qui
Trang 32Mạng Neural
• Mạng nơron :
– Bắt nguồn từ lĩnh vực nghiên cứu trí tuệ nhân tạo
– Sử dụng phép hồi quy suy rộng
• Phân loại :
– Mạng được giám sát : thuật toán tạo ra một hàm ánh xạ dữ liệu
vào tới kết quả mong muốn.
– Mạng không được giám sát : mô hình hóa một tập dữ liệu, không
có sẵn các ví dụ đã được gán nhãn.
Trang 33Thuật giải di truyền
• Các thuật toán di truyền dựa trên một ẩn dụ sinh học.
• Các thuật toán này xem việc học như là sự cạnh tranh trong quần thể gồm các lời giải ứng viên đang tiến
hóa của bài toán.
Trang 34Gom nhóm & Phân Cụm
• Gom nhóm (Phân cụm) : là quá trình nhóm các đối tượng thành những nhóm/cụm/lớp có ý nghĩa Các đối tượng trong cùng một nhóm có nhiều tính chất chung và có những tính chất khác với các đối tượng ở nhóm khác
• Phân lớp : học có giám sát
• Gom nhóm : học không có giám sát
Trang 35Các ứng dụng của KTDL
Trang 36Q&A