“Khai thác dữ liệu là quá trình không tầm thường của việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996) Một vài ví dụ minh họa ứng dụng KTDL FBI – theo dõi tội phạm Các công ty điện thoại Siêu thị, trung tâm mua sắm (Walmart, Costco) Các công ty bảo hiểm Ngân hàng, tài chính, chứng khoán ….
Trang 1dữ liệu (DM)
Trang 2Các kỹ năng giải quyết vấn đề
Thông tin liên lạc
nhtanh@fit.hcmuns.edu.vn Tel : 8354266 – 508 hoặc 803
vào mục Hệ Hoàn chỉnh Đại Học /Khai thác
Trang 3HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ
Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng laptop, mang theo máy tính : thời gian 120’
Bài tập làm cá nhân
Nộp 1 lần trong học kỳ trên website môn học theo thông báo của GV
Bài tập làm theo nhóm trên lớp Từ 8 - 12 SV/nhóm
Trang 4Các mức đánh giá :
HÌNH THỨC KIỂM TRA VÀ ĐÁNH GIÁ
Sau khi thảo luận, các nhóm sẽ trình bày ý kiến, kết quả trước lớp hoặc sẽ trình bày trên giấy và nộp cho GV ngay tại lớp
Các mức đánh giá :
C - Không đạt yêu cầu ~30% số điểm
Trang 5em.
với nhu cầu của các em.
TÀI LIỆU THAM KHẢO
J.Han, M.Kamber, “Data mining : Concepts & Technique”
(ppt) – http://www.cs.sfu.ca/~han/dmbookhoặc ebook tại địa chỉ http://www.selab.hcmuns.edu.vn/Elib/
P.Tan, M Steinbach, V Kumar, “Introduction to data Mining”, 2006, -http://www-
users.cs.umn.edu/~kumar/dmbook/index.php
Phần mềm WEKA - http://www.cs.waikato.ac.nz/ml/weka/
Trang web đầu ngành về KTDL - Kdnuggets :
Trang 6dữ liệu (DM)
THẾ NÀO LÀ KHAI THÁC DL
Là quá trình lặp, không phải plug - and – play
“Khai thác dữ liệu là quá trình không tầm thường
của việc xác định các mẫu tiềm ẩn có tính hợp lệ, mới lạ, có ích và có thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996)
FBI – theo dõi tội phạm
Các công ty điện thoại
Siêu thị, trung tâm mua sắm (Walmart, Costco)Các công ty bảo hiểm
Trang 7Tại sao cần Khai thác dữ liệu (KTDL)?
Những đối tượng nào sử dụng KTDL ?
Sử dụng KTDL ở đâu và khi nào?
Trang 8Khía cạnh thương mại
Khối lượng lớn dữ liệu
được thu thập và lưu trữ
o Web data, e-commerce
o Hóa đơn mua hàng tại siêu thị
/ trung tâm mua sắm
o Giao dịch ngân hàng / thẻ tin dụng
Máy tính mạnh hơn , rẻ hơn
Áp lực cạnh tranh rất mạnh
o Cung cấp các dịch vụ đa dạng, chất lượng tốt ( CRM – Customer Relationship Management)
Trang 9Khía cạnh Khoa học
Dữ liệu được thu thập
và lưu trữ với tốc độ cao(GB/h)
o Thiết bị remote sensor trên vệ tinh
o Kính thiên văn quan sát bầu trời
o Microarray tạo dữ liệu biểu diễn gien
Các kỹ thuật truyền thống khơng đủ
khả năng làm việc với dữ liệu thơ
KTDL cĩ thể giúp các nhà khoa học
o Phân loại và phân đoạn dữ liệu
o Xây dựng giả thuyết
6
SỰ CẦN THIẾT CỦA KTDL
DL chứa rất nhiều thơng tin giá trị, cĩ lợi cho qui trình ra quyết định
Khơng thể phân tích DL = tay
10 6 -10 12 bytes:
Không bao giờ có thể nhìn thấy một cách đầy đủ tập dữ liệu hoặc đưa vào bộ nhớ của máy tính
8
SỰ RA ĐỜI CỦA KTDL
Trang 10SỰ DỤNG KTDL KHI NÀO?
Thông tin thương mại
-Phân tích thị trường và mua bán
-Phân tích đầu tư -Chấp thuận cho vay -Phát hiện gian lận
…
Thông tin sản xuất
- Điều khiển và lên kế hoạch
- Quản trị mạng
- Phân tích các kết qủa thực nghiệm
…
Thông tin khoa học
- Thiên văn học
- Cơ sở dữ liệu sinh học
- Khoa học địa chất: bộ dò tìm động đất
“Khai thác dữ liệu là quá trình khơng tầm thường của việc xác
định các mẫu tiềm ẩncĩ tính hợp lệ, mới lạ, cĩ ích và cĩ thể hiểu được tối đa trong CSDL” – U.Fayyad, …(1996)
Quá trình không tầm thường
Đa xử lý
Hợp lệ Chứng minh tính đúng Của mẫu / Mô hìnhMới lạ Không biết trướcCó ích Có thể sử dụng đượcCó thể hiểu được
Bởi con người và máy
Trang 11KHAI THÁC DL …
Thế nào là mẫu ?
Những người mua quần tây thường hay mua
thêm áo sơ mi
Những người có mức tín dụng tốt thì thường
ít bị tai nạn
Đàn ông, 37+, thu nhập : 50K-75K, -> chi
khoảng 25$-50$ cho đặt mua hàng qua
KHAI THÁC DL
What is Data Mining?
– Các tên phổ biến tại khu vực xác định của Mỹ (O’Brien, O’Rurke, O’Reilly… ở vùng Boston )
– Gom nhóm các tài liệu giống nhau thu được từ search engine dựa trên nội dung (VD: rừng nhiệt đới Amazon , Amazon.com)
What is not Data Mining?
– Tìm số điện thoại trong danh
Data Cleaning Data Integration
Trang 12năng
Tạo ra/chọn lọc
CSDL đích
Chọn llựa kỹ thuật
điển hình và dữ liệu mẫu
Biến đổi qua
biểu điễn khác
Khử nhiễu Dữ liệu
Biến đổi giá trị
Lựa chọn phương pháp DM
Tạo các thuộc Tính dẫn xuất
Trích xuất Tri thức
Tìm thuộc tính quan trọng &Miền giá trị
Kiểm tra tri thức Tính chếTri thức Phát sinh ra câu hỏi và báo cáo
Các phương pháp cải tiến
kiểu kết hợp và lập dãy
Data cleaning & data integration Filtering
Databases
Database or data warehouse server Data mining engine Pattern evaluation Graphical user interface
Trang 13để mô tả dữ liệu
Phát hiện ra một mô tả tóm tắt cho một tập con dữ liệu
Phát hiện ra một mô hình mà mô t ả phụ thuộc quan trọng nhất giữa các biến
Phát hiện ra những thay đổi
quan trọng nhất
trong dữ liệu
22
VÍ DỤ PHÂN LỚP
Công ty Verizon Wireless :
Công ty cung cấp thiết bị, dịch vụ không dây lớn nhất ở Mỹ
Số lượng khách hàng : 30.3 triệu
90% dân số Mỹ
Vấn đề :
Tỷ lệ khách hàng bị mất cao : 2%/tháng ( 600,000 khách hàng rời bỏ/tháng)
Chi phí thay thế : hàng trăm triệu $/năm
Chi phí trung bình cho mỗi khách hàng mới : 320$
23
VÍ DỤ PHÂN LỚP
Giải pháp thông thường :
Chào mời, khuyến mãi tất cả khách hàng trước khi hết hợp đồng
Khuyến mãi, chào mời ( VD: một điện thoại mới) cho
những khách hàng có nhiều khả năng rời bỏ nhất
Phát triển kế họach mới nhằm đáp ứng nhu cầu của khách
hàng
VÍ DỤ PHÂN LỚP
Trang 14Bài tập theo nhóm
Thời gian thảo luận : 15’
Thảo luận tình huống KTDL trong nhóm và sẽ gọi 01
người đại diện cho nhóm trình bày
Thời gian trình bày : tối đa 5’
Trình bày tình huống
Hướng giải quyết và lợi ích
Tình huống 1 : Thị trường bán lẻ
Nhóm : 3C, 4, G7, Miner2A, MyLove, Hoa
Dạng DL nào được thu thập
Kiểu tri thức nào ta cần biết về khách hàng
Hướng giải quyết và lợi ích
Tình huống 2 : Quảng cáo sản phẩm
Nhóm : K07, WOI, GIT, DataMiner, Tuấn Anh, Tran
Gửi tờ quảng cáo sản phẩm đến tất cả các khách hàng
Hay chỉ gửi cho 1 nhóm có chọn lọc
Dự kiến khả năng phản hồi của khách hàng so với chi phí gửi quảng cáo
Hướng giải quyết :
Dùng các giao dịch thẻ tín dụng và thông tin của chủ
thẻ như thuộc tính
Khách hàng mua cái gì, lúc nào, số lần dùng thẻ
Gán nhãn giao dịch cũ là gian lận hay hợp lý, đúng - tạo
thành thuộc tính lớp
Xây dựng mô hình cho lớp các giao dịch
Dùng mô hình để khám phá gian lận trên các giao dịch thẻ
Hướng giải quyết :
Sử dụng dữ liệu cho sản phẩm tương tự trước đây
Dùng quyết định {mua, không mua} làm thuộc tính lớp
Thu thập thông tin cá nhân, cách sống và quan hệ của tất
cả các khách hàng
Dùng các thông tin trên như là dữ liệu đầu vào để xây dựng mô hình phân lớp
Trang 15PHÂN LỚP: ỨNG DỤNG 3
Nghiên cứu thiên văn :
Mục đích: Dự báo loại đối tượng ( ngôi sao hay thiên hà),
đặc biệt các đối tượng khó thấy dựa trên hình ảnh của kính
thiên văn
3000 ảnh : 23040 X 23040 pixel/ảnh
Hướng giải quyết :
Phân đoạn ảnh
Xác định thuộc tính(đặc trưng) ảnh : 40 đặc trưng/ảnh
Xây dựng mô hình dựa trên các đặc trưng
Nguồn: http://aps.umn.edu
PHÂN LỚP Thiên hà
31
Gom cụm dựa trên khoảng cách Euclide trong
32
GOM CỤM : ỨNG DỤNG 1
Gom nhóm khách hàng :
Mục đích : Chia khách hàng thành các nhóm/cụm riêng biệt để có thể áp dụng các biện pháp quảng cáo khác nhau
Hướng giải quyết :
Thu thập thông tin cá nhân, cách sống của tất cả các khách hàng
Xác định các cụm/nhóm khách hàng giống nhau
Kiểm tra chất lượng của các cụm thông qua việc quan sát đặc trưng mua hàng của khách hàng trong cùng một cụm so với khách hàng khác cụm
Trang 16GOM CỤM : ỨNG DỤNG 2
Gom cụm tài liệu :
Mục đích: Tìm nhóm tài liệu giống nhau dựa trên các từ
quan trọng
Hướng giải quyết :
Xác định độ phổ biến của từ trong tài liệu Xây dựng
độ đo tương tự dựa trên độ phổ biến của các từ để gom
cụm.
Lợi ích : Trong lĩnh vực truy vấn thông tin ( IR), có
thể dùng các cụm để liên kết tài liệu mới với các tài
liệu đã gom cụm
34
Minh họa gom cụm tài liệu
3024 bài báo của LA Times
Độ đo tương tự : bao nhiêu từ thường được dùng trong các văn bản này.
35
Gom cụm DL cổ phiếu S&P 500
Quan sát sự biến động của giá cổ phiếu hàng ngày
Dữ liệu : Cổ phiếu – {UP/DOWN}
Độ đo tương tự : các sự kiện thường giống nhau trong
cùng một ngày
Discovered Clusters Industry Group
1 Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,
Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Co mm-DOW N,INTEL-DOWN,LSI-Logic -DOWN, Micron-Tech-DOWN,Te xas-Inst-Down,Te llabs-Inc-Down,
Natl-Se miconduct-DOWN,Orac l-DOWN,SGI-DOW N,
Sun-DOW N
Technology1-DOWN
2 Apple-Co mp-DOW N,Autodesk-DOWN,DEC-DOWN,
ADV-M icro-Device -DOWN,Andrew-Corp-DOWN,
A C (50%, 66.7%)
C A (50%, 100%)
Customer buys diaper
Customer buys both
Customer buys beer
B, E, F 40
A, D 30
A, C 20
A, B, C 10
Items bought Transaction-id
Buy diapers
on
Then
Trang 17Khai thác LKH : ỨNG DỤNG 1
Giả sử tìm được luật :
{Bia, } {Khoai tây chiên}
Khoai tây chiên là hệ quả : quyết định nên làm
gì để quảng cáo cho nó
Bia là tiền đề : dùng để xem loại sản phẩm nào
bị ảnh hưởng nếu không bán bia nữa
Bia và khoai tây chiên cùng xuất hiện : loại sản
phẩm nào nên bán kèm với bia để khuyến khích
Khai thác LKH : ỨNG DỤNG 2
Quản lý quầy hàng siêu thị:
Mục đích : Xác định những mặt hàng được nhiều khách hàng mua chung
Hướng giải quyết :
Xử lý dữ liệu bán hàng để tìm mối liên hệ giữa các mặt hàng
Luật cổ điển : Nếu khách hàng mua tã giấy
và sữa thì có khả năng mua bia.
39
Khai thác LKH : ỨNG DỤNG 3
Quản lý hàng hóa:
Mục đích : Công ty bảo trì thiết bị tiêu dùng muốn
đoán trước nguyên nhân sửa chữa các sản phẩm tiêu
dùng và trang bị các xe bảo trì các bộ phận cần thiết
Trang 18Hồi qui tuyến tính, phi tuyến tính
Tập thô (Rough Sets)
Thống kê
Mạng Bayes
…
Trang 19Xửửửử lý các kiểểểểu dữữữữ liệệệệu khác nhau v ớớớới mứứứức độộộộ quảảảản trịịịị khác nhau
Bảo toàn tính riêng tư
Lý thuyết
Biểu diễn tri thức Ngôn ngữ và đại số DM Tối ưu hóa câu truy vấn DM
Các ngu ồồồồn dữữữữ liệệệệu khác nhau (Các CSDL Phân tán và thuầầầần nhấấấất, dữữữữ liệệệệu không đồồồồng bộộộộ, có nhi ễễễễu và bịịịị mấấấất mát,v.v….)
Trang 20TẠI SAO CẦN NGHIÊN CỨU KTDL
Thảo luận và tự đưa ra câu trả lời
Khai thác trên nhiều loại DL, thông tin
Các loại mẫu cần khai thác
Luật kết hợp, mẫu tuần tự, phân lớp, gom nhóm, mẫu hiếm, mẫu cá biệt, sai lệch
51
TÀI LIỆU THAM KHẢO
G Piatetsky-Shapiro, U Fayyad, and P Smith
From data mining to knowledge discovery: An
overview U.M Fayyad, et al (eds.), Advances
in Knowledge Discovery and Data Mining,
1-35 AAAI/MIT Press, 1996
http://vi.wikipedia.org/wiki/Khai_ph%C3%A
1_d%E1%BB%AF_li%E1%BB%87u : bách
khoa toàn thư mở wikipedia
Một số slide dùng trong bài được lấy từ các
slide của các cuốn sách về KTDL.
52
Sự phát triển của KTDL
1989 IJCAI Workshop on Knowledge Discovery in Databases
Knowledge Discovery in Databases (G Piatetsky-Shapiro and W
Frawley, 1991)
1991-1994 Workshops on Knowledge Discovery in Databases
Advances in Knowledge Discovery and Data Mining (U Fayyad,
G Piatetsky-Shapiro, P Smyth, and R Uthurusamy, 1996)
1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98)
Journal of Data Mining and Knowledge Discovery (1997)
ACM SIGKDD conferences từ 1998 và SIGKDD Explorations
Nhiều hội nghị khác về KTDL
PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE) ICDM (2001), …
ACM Transactions on KDD từ 2007
Trang 21BÀI TẬP
1 Thế nào là khai thác dữ liệu ?
2 Các kiểu dữ liệu, thông tin nào có khả năng
được sử dụng trong qui trình KDD?
3 Cho ví dụ về việc áp dụng KTDL đem đến
thành công trong kinh doanh (ngoài các ví
dụ có trong bài giảng). Loại nhiệm vụ nào
của KTDL được sử dụng ? Họ có thể thay
bằng phương pháp truy vấn DL hay phân
tích thống kê đơn giản không ?
54
Q & A
Trang 222 Làm sạch dữ liệu ( data cleaning)
3 Chọn lọc dữ liệu (data selection)
4 Rút gọn dữ liệu ( data reduction)
5 Mã hoá dữ liệu
4
CÁC KIỂU DỮ LIỆU
Dữ liệu dạng thuộc tính giá trị (Attribute-value data)
- Các kiểu dữ liệu
số (numeric), phi số (categorical)
Trang 23CHUẨN BỊ DỮ LIỆU
Dữ liệu trong thực tế có chất lượng xấu
DL thiếu, không đầy đủ : thiếu giá trị của thuộc
tính, thiếu các thuộc tính quan tâm, hoặc chỉ chứa
DL mâu thuẫn: có sự không thống nhất trong mã
hoặc trong tên
o VD : Tuổi =42 , Ngày sinh = 03/07/1997; US=USA?
6
Tại sao DL có chất lượng xấu ?
Bài tập theo nhóm : 20’ : thảo luận và viết tổng hợp
Tình huống : Bạn là người quản lý thông tin của công ty điện tử X (gồm rất nhiều chi nhánh trên toàn quốc) Bạn cần phân tích DL bán hàng của tất cả các chi nhánh
Sau khi thu thập DL từ các chi nhánh, bạn có thể gặp những vấn đề gì, ví dụ và tại sao ?
Tại sao DL trong thực tế thường có chất lượng xấu?
Np bn tng hp ý kin cho GV ( ghi rõ tên nhóm nh qui đnh ) Vit ngn g n, súc tích
dẫn tới việc thống kê không chính xác, thậm chí làm lạc lối.
Nhà kho DL cần sự tích hợp đồng nhất các
DL chất lượng
Trang 24CHUẨN BỊ DỮ LIỆU
Làm sạch DL
o Điền các giá trị thiếu, khử DL nhiễu, xác định và loại
bỏ DL sai biệt, DL nhiễu và giải quyết DL mâu thuẫn
Chọn lọc/ Tích hợp DL
o Tổng hợp, tích hợp DL từ nhiều CSDL, tập tin khác
nhau
Biến đổi DL/ Mã hoá DL
o Chuẩn hoá và tổng hợp (aggregation)
1 Tại sao cần chuẩn bị dữ liệu ?
3 Chọn lọc dữ liệu (data selection)
4 Rút gọn dữ liệu ( data reduction)
Sửa chữa các DL mâu thuẫn
Trang 25Bỏ qua các mẫu tin có giá trị thiếu
Thường dùng khi thiếu nhãn của lớp ( trong phân
lớp)
Dễ, nhưng không hiệu quả, đặc biệt khi tỷ lệ giá
trị thiếu của thuộc tính cao.
Điền các giá trị thiếu bằng tay : vô vị +
không kh ả thi
Điền các giá trị thiếu tự động :
Thay thế bằng hằng số chung: VD : “không biết”
Có thể thành lớp mới trong DL
14
Điền các giá trị thiếu tự động:Thay thế bằng giá trị trung bình của thuộc tính
Thay thế bằng giá trị trung bình của thuộc tính trong một lớp
Thay thế bằng giá trị có nhiều khả năng nhất : suy ra từ công thức Bayesian, cây quyết định hoặc thuật giải
Phương pháp chia giỏ (Binning) :
o Sắp xếp và chia DL vào các giỏ có cùng độ sâu depth)
(equal-o Khử nhiễu bằng giá trị TB, trung tuyến, biên giỏ,…
Gom nhóm ( Clustering) :
o Phát hiện và loại bỏ các khác biệt
Phương pháp hồi qui ( Regression) :
o Đưa DL vào hàm hồi qui
Kết hợp sự kiểm tra giữa máy tính và con người (Computer/human inspection)
o Phát hiện giá trị nghi ngờ và kiểm tra bởi con người
Trang 26Phương pháp rời rạc hóa : chia giỏ
(Binning)
Chia theo độ rộng ( Equal-width - khoảng cách) :
o Chia vùng giá trị thành N khoảng cùng kích thước
o Độ rộng của từng khoảng = (giá trị lớn nhất - giá
trị nhỏ nhất)/N
Chia theo độ sâu ( Equal-depth – tần suất) :
o Chia vùng giá trị thành N khoảng mà mỗi khoảng
có chứa gần như cùng số lượng mẫu
20
Phương pháp rời rạc hóa : chia giỏ theo độ
sâu ( Equal-depth – tần suất) :
Độsâu = 4, ngoại trừ giỏ cuối cùng [64 69] [70 72] [73 81] [83 85]
Trang 27Y1’
Trang 28Tự nghiên cứu trong tài liệu tham
khảo để tìm câu trả lời : Làm thế
nào để xử lý DL mâu thuẫn ?
26
NỘI DUNG
1. Tại sao cần chuẩn bị dữ liệu ?
2. Làm sạch dữ liệu ( data cleaning)
3 Chọn lọc dữ liệu (data selection)
4. Rút gọn dữ liệu ( data reduction)
Loại bỏ DL dư thừa và trùng lặp
Phát hiện và giải quyết các mâu thuẫn
o US=USA; customer_id = cust_number
Sử dụng siêu DL(metadata)
Trang 29Một thuộc tính là thừa nếu nó có thể suy ra từ các
thuộc tính khác
Cùng một thuộc tính có thể có nhiều tên trong các
CSDL khác nhau
Một số mẫu tin DL bị lặp lại
Dùng phép phân tích tương quan
o r=0: X và Y không tương quan
o r>0 : tương quan thuận X↔Y
o r<0: tương quan nghịch X↔ Y
30
Ví dụ : trọng lượng được đo bằng kg hoặc pound
Xác định chuẩn và ánh xạ dựa trên siêu dữ liệu (meta data)
31
NỘI DUNG
1 Tại sao cần chuẩn bị dữ liệu ?
2 Làm sạch dữ liệu ( data cleaning)
3 Chọn lọc dữ liệu (data selection)
5 Mã hoá dữ liệu
32
DL có thể quá lớn đối với 1 số chương trình KTDL:
Tốn nhiều thời gian.
Rút gọn DL : DL được rút gọn ( kích thước) sao cho
vẫn thu được cùng ( hoặc gần như cùng) kết quả
phân tích.
Các ph ơng pháp :
Tổng hợp và tổng quát hóa Giảm chiều DL
Nén DL Giảm số lượng Rời rạc hóa
Trang 30Tổng hợp và tổng quát hóa
Tổ hợp từ 2 thuộc tính (đối tượng) trở lên thành
1 thuộc tính ( đối tượng)
VD : các thành phố tổng hợp vào vùng, khu
vực, nước, …
Tổng hợp/ tổng quát DL cấp thấp vào DL cấp
cao :
o Có 2 d tập con thuộc tính của d thuộc tính
o Độphức tạp tính toán quá cao
PP Heuristic
o Stepwise forward selection
o Stepwise backward elimitation
o Kết hợp cả hai
o Cây quyết định qui nạp
36
PP Heuristic - Stepwise forward
o Đầu tiên : chọn thuộc tính đơn tốt nhất
o Chọn tiếp thuộc tính tốt nhất trong số còn lại, …
o Ví dụ : tập thuộc tính ban đầu {A1,A2,A3,A4,A5,A6}
• Tp rút g n ban đu={}
B1= {A1}
B2= {A1,A4}
B3= {A1,A4, A6}
Trang 31PP Heuristic - Stepwise backward
o Đầu tiên : loại thuộc tính đơn xấu nhất
o Loại tiếp thuộc tính xấu nhất trong số còn
PP Heuristic – Cây quyt đnh qui np
o Đầu tiên : xây dựng cây quyết định
o Loại các thuộc tính không xuất hiện trên cây
o Ví dụ : tập thuộc tính ban đầu {A1,A2,A3,A4,A5,A6}
Nén có mất thông tin (lossy)
o DL không thể phục hồi lại hoàn toàn
Dùng biến đổi wavelet, phân tích thành phần cơ bản (principal component analysis-PCA), …
Trang 32Data lossless
o Hình dáng của biểu đồ tùy thuộc vào số lượng giỏ
Ví d : Chiu dài cánh hoa ( 10 và 20 gi)
Trang 33lại khi DL rải rác
o Rất nhiều thuật toán
gom nhóm.
46
Giảm số lượng (tt)
PP lấy mẫu (sampling)
o Dùng tập mẫu ngẫu nhiên nhỏ hơn nhiều
SRSWR
Raw Data
48RÚT GỌN DỮ LIỆU
Raw Data Cluster/Stratified Sample
Trang 34NỘI DUNG
1 Tại sao cần chuẩn bị dữ liệu ?
2 Làm sạch dữ liệu ( data cleaning)
3 Chọn lọc dữ liệu (data selection)
4 Rút gọn dữ liệu ( data reduction)
Rời rạc hóa :
o Biến đổi miền giá trị thuộc tính (liên tục) bằng cách chia miền giá trị thành từng khoảng Lưu nhãn của khoảng thay cho các giá trị thực.
Phân cấp khái niệm :
o Tập hợp và thay thế khái niệm cấp thấp bằng khái niệm cấp cao hơn.
o Rời rạc hoá theo entropy
o Phân đoạn tự nhiên
DL dạng phi số :
Ví dụ :
o Chuyển đổi giá trị logic thành 1,0
o Chuyển đổi giá trị ngày tháng thành số
o Chuyển đổi các cột có giá trị số lớn thành tập các giá trị trong vùng nhỏ hơn, chẳng hạn chia chúng cho hệ số nào đó
o Nhóm các giá trị có cùng ngữ nghĩa như : Hoạt động trước CMT8 là nhóm 1; từ 01/08/45 – 31/06/54 ; nhóm 2; từ 01/07/54 – 30/4/75 là nhóm 3, …
o Thay thế giá trị của Tuổi = trẻ, trung niên, già
Trang 35a) Khử nhiễu DL trên bằng giá trị TB của giỏ Nhận xét hiệu quả của kỹ thuật này với DL trên.
b) Có thể áp dụng các kỹ thuật nào để khử nhiễu DL ?
c) Dùng DL trên vẽ biểu đồ cùng chiều rộng width histogram) với độ rộng = 10
(equal-55
TÀI LIỆU THAM KHẢO
1 E.Rahm, H.H.Do Data cleaning : Problems
and Current Approaches IEEE bulletin of
Technical Committee on Data engineering,
Vol 23, N.4, 2000
2 J.Han, M.Kamber, Chương 2 – Data mining :
Concepts and Techniques
56
Q & A
Trang 36LUẬT KẾT HỢP
3
NỘI DUNG
1 Gii thiu
4
GIỚI THIỆU
Mẫu phổ biến: là mẫu (tập các hạng mục, chuỗi con, cấu trúc con, đồ thị con, …) xuất hiện thường xuyên trong tập DL
– Agrawal, Imielinski, Swami – 1993 – trong ngữ cảnh bài toán tập phổ biến và luật kết hợp
Mục đích : Tìm các hiện tượng thường xuyên xảy ra trong DL
– Những sản phẩm nào thường được mua chung ? Bia và tã lót
–Người ta thường mua gi tiếp theo sau khi mua máy PC ?
– Dạng DNA nào có phản ứng với công thức thuốc mới ?
–Làm thế nào đề phân loại tự động văn bản Web ?
Ứng dụng :
– Áp dụng trong phân tích CSDL bán hàng
– Mở rộng sang quảng cáo, thiết kế catalog, phân tích chiến dịch bán hàng, Web log, chuỗi DNA, …
Trang 37Là nền tảng cho nhiều nhiệm vụ KTDL khác :
– Phân tích luật kết hợp, mối tương quan
– Mẫu tuần tự, cấu trúc ( Vd : đồ thị con)
– Phân tích DL không gian, đa phương tiện, phụ
thuộc thời gian
– Phân loại : phân loại dựa trên luật kết hợp
– Phân tích nhóm: gom nhóm dựa trên mẫu phổ biến
– ….
6
NỘI DUNG
Biến đổi CSDL về dạng nhị phân
Trang 38o Giao dịch (Transation) : tập các hạng mục được mua trong
một giỏ ( có TID – mã giao dịch) : (Tid, tập hạng mục)
o Giao dịch t : tập các hạng mục sao cho t ⊆I
Độphổ biến (supp) của tập các hạng mục X
trong CSDL D là tỷ lệ giữa số các giao dịch
chứa X trên tổng số các giao dịch trong D
Supp(X) = count(X) / | D |
Tập các hạng mục phổ biến S hay tập phổ biến (frequent itemsets) là tập các hạng mục
có độ phổ biến thỏa mãn độ phổ biến tối thiểu
minsupp (do người dùng xác định)
Nếu supp(S) ≥≥minsupp thì S - tập phổ biến
KHÁI NIỆM CƠ BẢN
Nu tp con không ph bin thì tp
bao nó (tp cha) có ph bin hay
X 3 = { PeanutButter } →→supp(X 3 ) = ?; X 2 và X 3 có phổ biến ?
X 3 = {Milk}, X 4 ={Milk, Bread} →→X 3 và X 4 có phổ biến ?
VÍ DỤ 1
Minsupp = 60%
Trang 39{B, C, D, E}, {A, C, tập phổ biến tối đại {B, C, D}- không phải tập phổ biến tối đại
D}-A,C,D,F 30
B,C,D,E, 20
A,B,C,D,E 10
Items Tid
{A, B} - không phải tập phổ
biến tối đại
Minsupp=2
c, e, f 50
a, b, d, 40
a, b, d 30
a, b, c 20
a, b, c 10
Items TID
LKH th ng được đánh giá dựa trên 2 độ đo:
Độphổ biến (support) : supp (X ⇒⇒Y ) =P (X ∪∪Y)
supp (X ⇒⇒Y ) = supp(X∪Y)
Độtin cậy (confidence) : conf (X ⇒⇒Y ) = P(Y | X)
conf (X ⇒⇒Y ) = supp(X∪Y) / supp(X)
KHÁI NIỆM CƠ BẢN
Trang 40VÍ DỤ LUẬT KẾT HỢP (VD1)
7 MÔ TẢ BÀI TOÁN KHAI THÁC LKH
Cho độ phổ biến tối thiểu (minsupp) và độ tin cậy tối thiểu (minconf) do người dùng xác định
Cho tập các hạng mục I={i1,i2,…,im} và CSDL giao dịch D={t1,t2, …, tn}, với ti={ii1,ii2, …, iik} và iij
D, B, F 30
A, B, C 20
B, C 10
Items bought Trs-id
Bài tập theo nhóm
20
KHÁI NIỆM CƠ BẢN
8 QUI TRÌNH KHAI THÁC LKH B1: Tìm tất cả các tập phổ biến ( theo ngưỡng minsupp)
B2: Tạo ra các luật từ các tập phổ biến
Đối với mỗi tập phổ biến S, tạo ra tất cả các tập con khác rỗng của S
Đối với mỗi tập con khác rỗng A của S,
o Luật A ⇒⇒(S - A) là LKH cần tìm nếu :
conf (A ⇒⇒(S - A)) = supp(S) / supp(A) ≥≥minconf
T bài toán khai thác LKH chuyn thành bài toán khai thác tp ph bin : độ phức
tạp tính toán cao.
...1 Tại cần chuẩn bị liệu ?
2 Làm liệu ( data cleaning)
3 Chọn lọc liệu (data selection)
4 Rút gọn liệu ( data reduction)... chuẩn bị liệu ?
2. Làm liệu ( data cleaning)
3 Chọn lọc liệu (data selection)
4. Rút gọn liệu ( data reduction)
Loại... định chuẩn ánh xạ dựa siêu liệu (meta data)
31
NỘI DUNG
1 Tại cần chuẩn bị liệu ?
2 Làm liệu ( data cleaning)