Act On ± what it has learned to make customers more profitable Ĉ͋ xây GQJ P͙L quan K͏ YͣL khách hàng, các công ty F̯Q SK̫L EL͇W :... .,ɻ175Ò&+ʃ7+͐1*.7'/ 7,Ç8%,ɿ8 Data Warehouse Data cl
Trang 2¾ Áp OF F̩QK tranh ṶW P̩QK
o Cung FҩS các GӏFK Yө ÿD GҥQJ FKҩW OѭӧQJ WӕW ( CRM ±
Customer Relationship Management)
Trang 46Ͱ&ɣ17+,ɻ7&ͦ$.7'/
¾ DL FKͱD ṶW QKL͉X thông tin giá
WU͓ có OͫL cho qui trình ra TX\͇W
Trang 5Thông tin thương mại
-Phân tích thị trường và mua bán
-Phân tích đầu tư -Chấp thuận cho vay -Phát hiện gian lận g
Thông tin sản xuất
- Điều khiển và lên kế hoạch
- Quản trị mạng
- Phân tích các kết qủa thực nghiệm
g Thông tin khoa học
- Thiên văn học
- Cơ sở dữ liệu sinh học
- Khoa học địa chất: bộ dò tìm động đất
g
Thông tin cá nhân
Trang 6Customer Relationship Management (CRM)
Customer Relationship
Management (CRM)
1. Notice ± what its customers are doing
2. Remember ± what it and its customers have
done over time
3. Learn ± from what it has remembered
4. Act On ± what it has learned to make customers
more profitable
Ĉ͋ xây GQJ P͙L quan K͏ YͣL khách hàng, các công
ty F̯Q SK̫L EL͇W :
Trang 7³7UDQVDFWLRQ´'DWD
'ӵDWUrQFiFGӳOLӋXJLDRGӏFK
³7UDQVDFWLRQ´'DWD
Trang 97+ɻ1¬2/¬.7'/
³Khai thác Gӳ OLӋX là quá trình khơng W̯P WK˱ͥQJ FͯD YL͏F xác
ÿ͓QK các PүX WLӅP ҭQ cĩ tính KͫS O͏, PͣL O̩, cĩ ích và cĩ
WK͋ KL͋X ÿ˱ͫF W͙L ÿD trong &6'/´ ± U.Fayyad, «(1996)
Quá trình không tầm thường
Đa xử lý
Hợp lệ
Chứng minh tính đúng Của mẫu / Mô hình Mới lạ Không biết trước
Có ích Có thể sử dụng được
Có thể hiểu được
Bởi con người và máy
18
.+$,7+È&'/«
z Là PӕL quan KӋ trong Gӳ OLӋX ví Gө QKѭ :
thêm áo Vѫ mi
z 1KͷQJ QJ˱ͥL cĩ PͱF tín GͭQJ W͙W thì WK˱ͥQJ
ít E͓ tai Q̩Q.
z ĈjQ ơng, 37+, thu QKұS : 50K-75K, -> chi
NKRҧQJ 25$-50$ cho ÿһW mua hàng qua
catalog
Trang 11Chọn llựa kỹ thuật
điển hình và dữ liệu mẫu
Biến đổi qua
biểu điễn khác
Khử nhiễu Dữ liệu
Biến đổi giá trị
Lựa chọn phương pháp DM
Tạo các thuộc Tính dẫn xuất
Trích xuất Tri thức
Tìm thuộc tính quan trọng &Miền giá trị
Kiểm tra tri thức
Tính chế Tri thức
Phát sinh ra câu hỏi và báo cáo Các phương pháp cải tiến kiểu kết hợp và lập dãy
Trang 12.,ɻ175Ò&+ʃ7+͐1*.7'/
7,Ç8%,ɿ8
Data Warehouse
Data cleaning & data integration Filtering
Databases
Database or data warehouse server
Data mining engine Pattern evaluation
Graphical user interface
Trang 13&È&1+,ʃ09ͤ&+Ë1+&ͦ$.7'/
26
z 'ӵ ÿRiQ (Predictive) :
z 6͵ GͭQJ P͡W vài EL͇Q ÿ͋ G báo giá WU͓ FK˱D EL͇W KR̿F
giá WU͓ W˱˯QJ lai FͯD các EL͇Q khác
Trang 149Ë'ͤ3+Æ1/͚3
z Công ty cung FҩS WKLӃW Eӏ GӏFK Yө không dây OӟQ
z Chi phí thay WK͇ : hàng WUăP WUL͏X $QăP
z Chi phí trung bình cho PӛL khách hàng PӟL : 320$
Trang 15z KX\ӃQ mãi, chào PӡL (VD: PӝW ÿLӋQ WKRҥL PӟL cho
QKӳQJ khách hàng có QKLӅX NKҧ QăQJ UӡL Eӓ QKҩW
z PhátWULӇQ NӃ KӑDFK PӟL QKҵP ÿiS ӭQJ nhu FҫX FӫD khách
Training Data:
Customer characteristics &
cell phone usage behavior
Model/Pattern
Trang 16 Khách hàng mua cái gì, lúc nào, V͙ O̯Q dùng WK̓
z Gán nhãn giao GӏFK FNJ là gian OұQ hay KӧS lý, ÿ~QJ - WҥR
thànhWKXӝF tính OӟS
z XâyGӵQJ mô hình cho OӟS các giao GӏFK
z Dùng mô hình ÿ͋ khám phá gian O̵Q trên các giao G͓FK WK̓
z 6ӱ GөQJ Gӳ OLӋX cho VҧQ SKҭP WѭѫQJ Wӵ WUѭӟF ÿk\
z DùngTX\ӃW ÿӏQK {mua, không mua} làm WKXӝF tính OӟS
z Thu WKұS thông tin cá nhân, cách VӕQJ và quan KӋ FӫD WҩW
Fҧ các khách hàng
z Dùng các thông tin trên QKѭ là Gӳ OLӋX ÿҫX vào ÿӇ xây
GӵQJ mô hình phân OӟS
Trang 17*20&ͤ0ͨ1*'ͤ1*
z 0ͭF ÿtFK : Chia khách hàng thành các QKyPFөP riêng
ELӋW ÿӇ có WKӇ áp GөQJ các ELӋQ pháp TXҧQJ cáo khác nhau
z +˱ͣQJ JL̫L TX\͇W :
z Thu WKұS thông tin cá nhân, cách VӕQJ FӫD WҩW Fҧ các
khách hàng
z Xác ÿ͓QK các FͭPQKyP khách hàng JL͙QJ nhau
z .LӇP tra FKҩW OѭӧQJ FӫD các FөP thông qua YLӋF quan
sát ÿһF WUѭQJ mua hàng FӫD khách hàng trong cùng
PӝW FөP so YӟL khách hàng khác FөP
Trang 18*20&ͤ0ͨ1*'ͤ1*
z 0ͭF ÿtFK : Tìm nhóm tài OLӋX JLӕQJ nhau GӵD trên các Wӯ
quanWUӑQJ
z +˱ͣQJ JL̫L TX\͇W :
z Xác ÿӏQK ÿӝ SKә ELӃQ FӫD Wӯ trong tài OLӋX Xây GӵQJ
ÿӝ ÿR WѭѫQJ Wӵ GӵD trên ÿӝ SKә ELӃQ FӫD các Wӯ ÿӇ gom
FөP.
z /ͫL ích : Trong OƭQK YF truy Y̭Q thông tin (IR), có WK͋
dùng các FͭP ÿ͋ liên N͇W tài OL͏X PͣL YͣL các tài OL͏X
ÿm gom FͭP
*RPFͥP'/F͕SKLɼX6 3
Quan sát Vӵ ELӃQ ÿӝQJ FӫD giá Fә SKLӃX hàng ngày
'ͷ OL͏X : &͝ SKL͇X ± {UP/DOWN}
Ĉӝ ÿR WѭѫQJ Wӵ : các Vӵ NLӋQ WKѭӡQJ JLӕQJ nhau trong
cùngPӝW ngày
Discovered Clusters Industry Group
1 Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Co mm-DOW N,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N,
Trang 20.KDLWKiF/.+ͨ1*'ͤ1*
z 4XҧQ lý hàng hóa:
z 0ͭF ÿtFK : Công ty EҧR trì WKLӃW Eӏ tiêu dùng PXӕQ
ÿRiQ WUѭӟF nguyên nhân VӱD FKӳD các VҧQ SKҭP tiêu
dùng và trang Eӏ các xe EҧR trì các Eӝ SKұQ FҫQ WKLӃW
ÿӇ JLҧP WKLӇX Vӕ OҫQ ÿӃQ nhà khách hàng
z +˱ͣQJ JL̫L TX\͇W :
z;ӱ lý Gӳ OLӋX trên các GөQJ Fө và Eӝ SKұQ ÿm
yêu FҫX trong các OҫQ VӱD WUѭӟF ÿӇ tìm các PүX
Trang 23z Developing a Unifying Theory of Data Mining
z Scaling Up for High Dimensional Data and High Speed Data
Streams
z Mining Sequence Data and Time Series Data
z Mining Complex Knowledge from Complex Data
z Data Mining in a Network Setting
z Distributed Data Mining and Mining Multi-agent Data
z Data Mining for Biological and Environmental Problems
z Data-Mining-Process Related Problems
z Security, Privacy and Data Integrity
z Dealing with Non-static, Unbalanced and Cost-sensitive Data
Trang 24z 'ҥQJ DL nào ÿѭӧF thu WKұS 6ӱ GөQJ QKLӋP Yө nào FӫD KTDL ?
z Các thông tin nào ta FҫQ ELӃW YӅ khách hàng
Trang 26/XұW NӃW KӧS PүX WXҫQ Wӵ phân OӟS gom
nhóm, PүX KLӃP PүX cá ELӋW, sai OӋFK
6ͱSKiWWULʀQFͧD.7'/
1989 IJCAI Workshop on Knowledge Discovery in Databases
Knowledge Discovery in Databases (G Piatetsky-Shapiro and W.
Frawley, 1991)
1991-1994 Workshops on Knowledge Discovery in Databases
Advances in Knowledge Discovery and Data Mining (U Fayyad,
G Piatetsky-Shapiro, P Smyth, and R Uthurusamy, 1996)
1995-1998 International Conferences on Knowledge Discovery in
Databases and Data Mining ''¶95-98)
Journal of Data Mining and Knowledge Discovery (1997)
ACM SIGKDD conferences Wͫ 1998 và SIGKDD Explorations
1KLɾX K͙L QJKʈ khác Yɾ KTDL
PAKDD (1997), PKDD (1997), SIAM-Data Mining (2001), (IEEE)
ICDM (2001), «
ACM Transactions on KDD Wͫ 2007
Trang 277¬,/,ӊ87+$0.+Ҧ2
¾ G Piatetsky-Shapiro, U Fayyad, and P Smith From data
mining to knowledge discovery: An overview U.M.
Fayyad, et al (eds.), Advances in Knowledge Discovery
and Data Mining, 1-35 AAAI/MIT Press, 1996
¾ http://vi.wikipedia.org/wiki/Khai_ph%C3%A1_d%E1
%BB%AF_li%E1%BB%87u : bách khoa toàn WKѭ
Pӣ wikipedia
¾ J.Han, M.Kamber, &KѭѫQJ 1 ± Data mining :
Concepts and Techniques
¾ P.-N Tan, M Steinbach, V Kumar, &KѭѫQJ 1
-Introduction to Data Mining
3 Cho ví Gө WKӵF WӃ YӅ YLӋF áp GөQJ KTDL ÿHP ÿӃQ
thành công trong kinh doanh (ngoài các ví Gͭ có
trong bài JL̫QJ).
¾ *ӧL ý : Bài toán WăQJ doanh thu FӫD WKӏ WUѭӡQJ bán Oҿ.
Bài toán xâyGӵQJ NӃ KRҥFK TXҧQJ cáo và NKX\ӃQ mãi
¾ /RҥL DL nào ÿѭӧF thu WKұS ? /RҥL QKLӋP Yө nào FӫD
KTDL ÿѭӧF Vӱ GөQJ ? Có WKӇ thay EҵQJ SKѭѫQJ pháp
truyYҩQ DL hay phân tích WKӕQJ kê ÿѫQ JLҧQ không ?
Trang 29&È&&Ð1*9,ʃ&&ɣ1/¬0
4 &KX́Q Eͣ bài 2 : Qui trình FKX́Q Eͣ
DL
FKѭѫQJ 2 : các YҫQ ÿӅ khi làm YӟL
z Cách WKΉF KL͟Q :
58
...z Distributed Data Mining and Mining Multi-agent Data
z Data Mining for Biological and Environmental Problems
z Data- Mining- Process Related...
Streams
z Mining Sequence Data and Time Series Data
z Mining Complex Knowledge from Complex Data
z Data Mining in a Network Setting... integration Filtering
Databases
Database or data warehouse server
Data mining engine Pattern evaluation
Graphical