C h u ’O'ng 2 : Khai phá d ữ liệu và học máy Trình bày các khái niệm về khai phá dữ liệu và học máy Chương 3 : Hàm hạt nhân Trình bày khái niệm về hàm hạt nhân, trình bày về không gian đ
Trang 1«
MỘT SỐ KỸ THUẬT VECTOR TỤA (SVM) TRONG
Ngành : Công nghệ thông tinChuyên ngành : Hệ thống Thông tin
Mằ sổ : 60 48 05
LUẬN VĂN THẠC s ĩ
NGƯỜI HƯỚNG DẢN KHOA HỌC : PGS.TSKH Bùi Công Cường
■JAi HỌC QUỐC GIA HÀ NÔI
; rung tâmthO ng tin thư viện
Hà Nội - 2008
Trang 2LỜI CAM Đ O A N 1
LỜI CẢM Ơ N 2
C Á C TỪ V I Ế T T Ắ T , T H U Ậ T N G Ữ 6
C Á C H ÌN H V Ẽ 6
CHƯƠNG 1 : MỘT SỐ KIẾN THÚC CHUẨN B Ị 10
1.1 Bài toán tối ưu 10
1.1.1 Bài toán qui hoạch tuyến tín h 10
/ ỉ ỉ ỉ Dạng chính tắc 1Ị Ị ỉ ỉ 2 Dạng chaân tắc / /
1.1.2 Qui hoạch tuyến tính đổi ngẫu 12
1.2 Biểu diễn dữ liệu 14
1.2.1 Dữ liệu huấn luyện 14
1.2.2 Không gian hữu hạn chiều 14
1.2.3 Một thuật toán nhận dạng mẫu đơn g i ả n 15
1.2.4 Một số khái niệm trong lý thuyết học thổng k ê 18
1.2.4 ỉ Không gian v c 19
1.2.4.2 Mối liên hệ giữa lý thuvểt học thống kê và SVM 20
1.3 Phưoìig pháp phân tích thành phần chính (PC A ) 20
1.3.1 Đ ộ lệ ch c h u ẩ n 20
1.3.2 Phương sai 21
1.3.3 Vector riêng, giá trị riêng 22
1.3.4 Phương pháp phân tích thành phần chính 23
MỤC LỤC
Trang 3CHƯƠNG 2 : KHAI PHÁ DỮ LIỆU VÀ HỌC MÁY 28
2.1 Khái niêm hoc 28• •
2.1.1 Qúa trình h ọ c 28
2.2 Máy h ọ c 29
2.2.1 Quy trình của máy học 30
2.2.1.1 Học có th à y 30
2.2.1.2 Học không có th à y 31
2.2 ỉ 3 Học có thày một p h ầ n S ỉ 2.3 Khai phá dữ liệu 32
2.3.1 Cấu trúc của một hệ thống khai phá dừ liệ u 32
2.3 ỉ ì X ử lý dữ liệu 32
2.3.2 Các bài toán chính trong khai phá dữ liệ u 33
2.3.2.1 Phân lớp và phán cụ m 33
2 3 2 2 Tim ra các luật 34
2.3.3 Một số phương pháp tính dùng trong khai phá dừ liệu 35
2.4 Sự giống và khác nhau giữa khai phá dữ liệu và máy học 35
C H U O N G 3 36
HÀM HẠT N H Â N 36
3.1 Tích vô hướng các đặc trưng 36
3.1.1 Đặc trưng đơn 36
3.1.2 H à m h ạ t n h â n 37
3.1.3 Hàm hạt nhân đa th ứ c 37
3.2 Biểu diễn sự đồng dạng trong không gian tuyến tính 39
3.2.1 Các hạt nhân xác định dương 39
3.2.2 Tái lập ánh xạ hạt nhân 40
3.2.3 Tái lập không gian hạt nhân H ilbert 42
3.2.4 Ánh xạ hạt nhân Mercer 43
3.3 Các hạt nhân thưòng đưọc sử dụng 45
Trang 4C H Ư Ơ N G 4 46
P H Ư Ơ N G PHÁP V E C T O R TỰA (SVM ) 46
4.1 Phân chia bằng siêu p h ắn g 46
4.2 Vai trò cùa lề trong siêu phẳng 47
4.3 Siêu phẳng tối ưu - Phân lóp tuyến tín h 49
4.3.1 Đánh giá lỗi 50
4.3.2 Bài toán qui hoặch toàn phươne của tìm lề phân lớp tối ư u 51
4.4 Phân lóp phi tuyến bằng vector t ự a 51
4.5 Siêu phẳng vói lề m ề m 54
4.6 Phấn lóp trong truòìig họp có nhiều l ớ p 60
4.6.1 Chiến lược Một-đỐi-Phần còn lại (One Versus the Rest) 60
4.6.2 Chiến lược so sánh theo cặp (hay còn gọi là một đối m ộ t) 61
CHƯONG 5 : MỘT SÓ ỦNG DỤNG CỦA KỲ THUẬT VECTOR TựA 62 5.1 Phấn loai văn b ả n 62■
5.2 Nhận d ạn g ả n h 64
5.2.1 Phân lớp độc lập 64
5.2.2 Phân lớp với ảnh màu 65
5.3 Nhận dạng chữ số viết tay 66
5.4 Tin-sinh học (Bio-lnform atỉcs) 67
5.4.1 Phát hiện protein tương đồng , 67
C H Ư Ơ N G 6 : CÀI Đ Ậ T T H Ử N G H I Ệ M 69# *
6.1 Nhận d ạng ảnh khuôn m ặt n g ư ờ i 69
6.1.1 Xây dựng không gian đặc trưng 70
6.1.2 Huấn luyện và nhận dạng 72
6.2 Xây dựng hệ thống nhận dạng 74
KÉT LUẬN 76
TÀI LIỆU TH A M K H Ả O 77
Trang 5(ORL Cambridge Olivetti Research Lab
PCA Principal Components Analysis
1RBF Radial Basic Function
SVM Support Vector Machines
v c Vapnik Chervonenkis
CÁC HÌNH VẼ
Hình 1.1 Phân lớp trong đơn g iả n 17
Hình 1.2 : Hai hàm huấn luyện cho kết quả khác nhau trên dữ liệu kiểm tra 18
Hình : 1.3 v c của các đường thẳng có hướng 20
trong không gian 2 chiều (R2) là 3 20
Hình 1.4 Ý nghĩa hình học của PC A 27
Hình 2.1 : Sơ đồ của Bloom 29
Hình 2.2 : Thuật toán học có thày : Cây quyết định, Mạng nơron, Vector tựa 31
Hình 2.3 : Thuật toán học không có thày : Phân c ụ m 31
Hình 3.1 Ví dụ về phân lớp nhị phân khi ánh xạ sang không gian đặc trưng 38
Hình 3.2 Minh hoạ mối liên hệ giữa ánh xạ đặc trưng với hạt nhân 40
Hình 4.1 Một siêu phẳng phân lớp các đối tượng thành hai lớp 46
Hình 4.2 Siêu phẳng dạng chính tắc 47
Hình 4.3 Vỉ dụ phân lớp trong không gian 2 chiều 48
Hình 4.4 : Ví dụ : Bằng cách ánh xạ không gian dữ liệu phi tuyến đầu v à o 52
Hình 4.5 : Ví dụ về SVMs trong không gian phi tu y ế n 53
Hình 4.6 : P-SVC với V = 0 1 (trên-trái)đến V = 0 8 (dưới-phải) 57
Hình 6.1 : Ảnh của một người trong dữ liệu ảnh O R L 71
Hình 6.2 Phân lớp sử dụng cây phân lớp nhị p h â n 73
Hình 6.3 Phân nhiều lớp với sổ lớp là 4 73
Hình 6.4 Các dữ liệu huấn luyện 74
Hình 6.5 : Dừ liệu kiếm tra và các kết nhận dạng 75
C Á C TỪ VIẾT TẮT, THUẬT NGŨ
Trang 6Trong thời gian gần đây, công nghệ thông tin đã góp phần quan trọng vào
sự phát triển kinh tế, giáo dục và làm thav đổi xã hội, tạo ra những khái niệm, quan niệm mới trong nhiều lĩnh vực, tác động đến tất cả các cá nhân, tổ chức trong xã hội Công nghệ thông tin đà làm xoá mờ khoảng cách về địa lý, giúp con người ờ khắp nơi trên thế giới, ở tất cả các nền văn hoá có thế dễ dàng trao đổi, chia sẻ thông tin Chính vì nhừng tiện ích vô cùng thân thiện cùa nó nên cộng đồng tham gia vào việc sử dụng, phát triển công nghệ thông tin là rất rộng lớn, không kể tuổi tác, nahề nghiệp, tôn giáo, vùng miền, Chúng ta đã được chứng kiến sự phát triên nhir vũ bão của công nghệ thông tin trong nhừng năm vừa qua, từ bộ vi xử lý tới các hệ thổna lưu trữ cũng đã phải phát triển nhanh chóng đế đáp ứng được khối lượng thông tin khổng lồ; các thông tin này không nằm một chỗ mà nó luôn được luân chuyển, bổ sung, cập nhật bởi người sử dụng
Với khối lượng thông tin lớn đến như vậy, liệu con người chúng ta có cảm thấy quá tái, ngập chìm trong biên thông tin, không thế chọn lựa được những thông tin quan trọng, gần với nhu cầu sử dụng của minh nhất Điều đó có nghĩa
là chúng ta có quá nhiều thông tin, nhưng điều chúng ta thực sự cần đó là tri thức,là kiến thức có được qua sự tổng hợp, phân tích, thống kê từ các kho thông tin đó Đe tìm ra được tri thức trong một kho thông tin khổng lồ thì chúng ta cần phải có các phương pháp khái phá các lượng thông tin đó Cùng chính vì lý do
đó mà trong thời gian gần đây, nghành khai phá dừ liệu được rất nhiều người quan tâm và nghiên cứu
Trong luận vãn tốt nghiệp cao học tại trường Đại học công nghệ - Đại học quốc gia Hà Nội, tôi thực hiện đề tài “M ột sổ kỹ th u ậ t vector tựa (SVM) trong
khai phá dữ liệu và ứng dụng vào nhận dạng”
• Lý do chọn đề tài
Trong khai phá dừ liệu và học máy, yếu tố quyết định đến độ chính xác trong các dự đoán là khả năng phân lớp tốt Kỹ thuật vector tựa được đánh giá là có khả năng phân lớp rất tốt, đặc biệt là các bài toán phân lớp phi tuyến Hiện nay đã có nhiều ứng dụng được xây dựng dựa trên kỹ thuật vector tựa và cho kết quả rất khả quan
• Mục đích, đổi tư ợ n g , phạm vi nghiên cứu
MỞ ĐẦU
Trang 7Nghiên cứu phần cơ sở, lý thuvết chung của kv thuật vector tựa, nghiên cứu một sổ kỹ thuật vector tựa cụ thể Nghiên cửu các phương pháp sử dụng kv thuật vector tựa trong nhận dạng mẫu, đặc biệt là nhận dạng khuôn mặt Đưa ra các giải pháp nhàm tăng cường tốc độ tính toán,
độ chính xác cho phương pháp vector tựa
• Ý nghĩa khoa học và thực tiễn
Đây là một trong các phương pháp phân lớp hiện đại, có thể áp dụng cho nhiều bài toán phàn lớp hiện nay
Với giới hạn những đổi tượng, vấn đề tìm hiểu và nghiên cứu như trên,
i uận v ăn bao gồm 6 c h ư ơ n g :
C h ư ơ n g 1 : M ột số kiến thức chuẩn bị
Giới thiệu các khái niệm về quy hoạch tuyến tính, lý thuyết học thống kê,
và các khái niệm ban đầu về kỹ thuật vector tựa, cũng như mối liên hệ giữa lý thuyết thống kê và kỹ thuật vector tựa
C h u ’O'ng 2 : Khai phá d ữ liệu và học máy
Trình bày các khái niệm về khai phá dữ liệu và học máy
Chương 3 : Hàm hạt nhân
Trình bày khái niệm về hàm hạt nhân, trình bày về không gian đặc trưng, trình bày về sử dụng hạt nhân trong kỹ thuật vector tựa
Chương 4 : Phương pháp vector tựa (SVM)
Trình bày các nội dung cơ bản của phương pháp vector tựa Tập trong đi sâu vào các kỹ thuật vector tựa hay được sử dụng hiện nay
C hương 5 : M ột số ứng dụng của SVM
Phân tích, xây dựng bài toán nhận dạng khuôn mặt bàng kỹ thuật vector tựa Lựa chọn phương pháp phân tích thành phần chính (PCA) để trích rút đặc trưng của khuôn mặt, xây dựng cờ sở dữ liệu ảnh mặt để kiểm tra khả năng hoạt động của các kỹ thuật vector tựa
C hương 6 : Cài đ ặ t th ử nghiệm
Trang 8Cài đặt thử nghiệm hệ thống nhận dạng khuôn mặt người để kiểm tra khả năng phân lớp của kỹ thuật vector tựa.
Kết luân
Đánh giá hiệu quả của phương pháp vector tựa cũng như đưa ra các hướng cài tiến, các ứng dụng có thể áp dụng kỹ thuật vector tựa
Trang 9CHƯƠNG 1 : MỘT SÓ KIẾN TH ÚC CHUẨN BỊ 1.1 Bài toán tối ưu.
Bài toán tối ưu là bài toán tìm nghiệm tối ưu (cho một hàm mục tiêu nào
đó) trono, số các phương án (nghiệm) chấp nhận thuộc miền V cho trước.
1.1.1 Bài toán qui hoạch tuyến tính
Qui hoạch tuyến tính là một trong những lớp bài toán tối ưu quan trọng nhất vả được ứng dụng rồng rãi trong thực tiền Qui hoạch tuyến tính là bài toán tìm cực tiểu (hay cực đại) của một hàm tuyến tính f(x) trên một khúc lồi D c
Rn được xác định bơi một hệ phương trình hay bất phương trình tuyến tính cho trước
Bài toán này có dạng : Tìm các vector x= (x/, x 2, sao cho
tro n g đ ó a;j,bj,Cj là các h ằ n g số ch o trước.
Trong bài toán trên, f được gọi là hàm mục tiêu, mỗi hệ thức (1.1) - (1.4) được gọi là các ràng buộc Mồi ràng buộc (1.1) - (1.3) gọi là một ràng buộc chính (dạng đẳng thức hay bất đẳng thức), mồi ràng buộc X j> 0 hay Xj < 0 gọi là một ràng buộc về dấu
Điểm X=(X],X2 xn) c Rn thoá mân mọi ràng buộc của bài toán gọi là một
điểm chấp nhận được hay một phương án Tập hợp tất cả các phương án, ký hiệu là D, gọi là miền ràng buộc hay miền chấp nhận được Một phương án đạt cực tiểu của hàm mục tiêu gọi là một phương án tối ưu hay một lời giải của bài toán đã cho
Bài toán có ít nhất một phương án tối ưu gọi là bài toán có lời giải Bài toán không có phươna, án (miền ràng buộc rồng D = 0 ) hoặc có phương án nhưng không có phương án tối ưu, do hàm mục tiêu giám vô hạn (bài toán tìm min) hoặc tăng vô hạn (bài toán tìm max) gọi là bài toán không có lời giải
Trang 10Các ràng buộc chính của bài toán được sắp xếp theo thứ tự; trước hết
là c á c r à n g b u ộ c < rồi đ ế n các ràn g b u ộ c > v à sau c ù n g ỉà các ràn g
buộc =
m J là số ràng buộc <, m2 là sổ ràng buộc >, m là tổng số các ràng
b u ộ c c h ín h , n là biến số c ủ a bài to án , nỊ là số rà n g b u ộ c Xj > 0, n 2 là
số ràng buộc X j< 0 (có thể ri|=0, n2=0) Nếu không có các ràng buộc
< thì mj=0, không có các ràng buộc > thì m2, không có ràng buộc =
Trang 110-(A là ma trận m X n gôm các hệ sô ờ vê trái ràng buộc chính, Aj là
vector cột thứ j của ma trận A tương ứng với biến Xj, b là vector các hệ số
vector các ẩn số, 0 là vector không Tất cả các vector này đều là vector
cột)
Với các ký hiệu trên, bài toán qui hoạch tuyến tính chính tac được viết lại dưới dạng (với b > 0)
min { f(x)=<c,x> : Ax = b, X > 0 } hay max { f(x)=<c,x> : Ax = b, X > 0 }
(<c,x> là tích vô hướng của hai vector c và x)Bài toán quy hoạch tuyến tính chuẩn tẳc có dạng (không đòi hỏi b > 0)
m in { f(x ) = < c ,x > : A x > b, X > 0 } hay m a x { f(x )= < c ,x > : A x < b, X > 0 }
1.1.2 Qui hoạch tuyến tính đối ngẫu.
Đổi ngẫu là một phương pháp mà ứng với mỗi bài toán qui hoạch tuyến tính đã cho (gọi là bài toán gốc), ta có thể thiết lập một bài toán quy hoạch tuyến tính khác (gọi là bài toán đối ngẫu) sao cho từ lời giải của bài toán này ta
có thể thu được thông tin về lời giải của bài toán kia Vì thế, đôi khi đế có được lời giải của một bài toán tỏ ra khó khăn, thì việc chuvến sang bài toán đối ngẫu giúp ta có được lời giải thuận tiện hơn nhiều Hơn thế, khi phân tích đồng thời
cả hai bài toán gổc và bài toán đổi ngẫu ta có thể rút ra được các kết luận sâu sắc cả về mặt toán học lẫn ý nghĩa thực tiễn
Cho một qui hoạch tuyến tính, kỷ hiệu (P), dưới dạng chuẩn :
(P) f(x)=C iX |+ c2X2+ + c nx n —» m in
với các ràng buộc
I aMxi + ai2x2 + .+ ainxn > bj , i= l,2, ,m
I Xj > 0 , j= l,2 , ,n ,
Trang 12trong đó ay, bị, Cj là các hệ số cho trước; x=(xl,x2, ,xn) G Rn là vector
ở đây y = ( y i y 2v » y n ) e Rn là vector biến cần tìm Ta có nhận xét :
• Các ràng buộc chính trong qui hoạch ban đầu (ta gọi là qui hoạch gốc hay bài toán gốc) tương ứng một - một với các biến trong bài toán đối ngẫu (mà ta sè gọi là các biến đối ngẫu), trong khi các biến trong qui hoạch gốc (biến gốc) sẽ tương ứng một - một với các ràng buộc chính trong bài toán đối ngẫu
• Các hệ số ờ vế phải với ràng buộc chính trong bài toán gốc trờ thành các
hệ sổ mục tiêu trong bài toán đối ngẫu, còn các hệ số mục tiêu trong bài toán gổc trở thành các hệ số ở vế phải ràng buộc chính trong bài toán đối ngẫu
• Bài toán gốc tính min thì bài toán đổi ngẫu tính max (và ngược lại)
• Cả hai bài toán (P) và (Q) đều có dạng chuẩn; mọi ràng buộc đều là các
bất đẳng thức (> đối với bài toán tìm min, < đối với bài toán tìm max) và
mọi biến đều không âm
Dùng ký hiệu vector và ma trận, ta có thể viết :
f(x)=<c,x> —> min g(y)=<b,y> —> max
(A1 là ma trận chuyển vị của ma trận A, <a,b> là tích vô hướng của hai
vector a và b)
Trang 131.2.1 Dữ liệu huấn luyện
Giả sử ta có các đối tượng được chia thành hai lớp, cho một đổi tượno; mới và ta phải xem đối tượng đó thuộc về lớp nào Bài toán trên có thể tổng
q u á t h o á th à n h :
( x 1(y , ) , , ( x m,y m) e X X { - 1 , 1 }
Trong đó X là tập khác rỗng các mẫu Xj (còn gọi là các đầu vào, mẫu, quan sát), còn y, được gọi là các nhãn, đầu ra Không mất tính tổng quát ta chỉ xem xét hai giá trị của nhãn là +1 và - 1 , đó là trường hợp nhận dạng mẫu
hay phân lớp nhị phân Khi đó, sau khi huấn luyện qua các dữ liệu huấn luyện ta cỏ thế tồng quát quá cho các dừ liệu chưa gắn nhãn, tức là ta dự
đoán X E X thuộc về lớp nào {+1,-1}
Với sự chuyển đổi dừ huấn luyện vào đê dự đoán đầu ra trong { + 1,-1} đã làm cho bài toán trở nên đơn giản hơn nhiều Do vậy chúng ta cần có các phép biến đồi dừ liệu của tập dừ liệu huấn luyện
Xét phép biến đổi
k : X X X -» E (.x , x ') *-> /c (x ,x ')
với hai mẫu X v à x ’ qua phép biển đổi ta có sổ thực thể hiện sự liên quan
của X và x \ với k là đổi xứng (k (x ,x ’)= k (x ’,x) với mọi x ,x ’G M) thì k
được gọi là một hạt nhân
1.2.2 Không gian hữu hạn chiều
Xét l i , V 0 Tích trực tiếp của I L v ằ V :
Trong trường hợp V — V — IRn, ta xét tích vô hướng của hai vector
1.2 Biểu diễn dữ liêu
= f [ * ,
i= 1
< x , y > = > [X ị y i
Trang 14v ề mặt hình học, tích vô hướng của hai vector chính là cosine của góc tạo thành của hai vector đó Dựa vào đó ta có thể tính được chuẩn của vector* theo công thức sau :
||x || = v < x x >
1.2.3 Không gian đặc trưng
Việc chuyển được không gian đặc trưng lên một không gian ơclit giúp ta có được hình dung về mặt hình học cũng như có thể tính được góc, độ dài, khoảng cách Tuy nhiên, nó cũng đặt ra một số vấn đề sau :
• Đe có thể tính toán trong không gian thì ta phải biểu diễn các mẫu
dưới dạng vector trong một không gian ĨC qua ánh xạ :
<p : X -> Oi
X H+ X : = 4>(X )
• Nếu như mẫu đã nằm trong không gian , thì chúng ta vẫn muốn tìm kiếm cách đối sánh tổng quát hơn bằng phép ánh xạ o
Trong cả hai trường hợp trên, ta đều gọi K là không gian đặc trưng, X là
không gian đặc trưng qua <l> chúng ta được :
• Có cách thức so sánh trong không gian tích của J-C
• Ta có thế có các biểu diễn hình học, sử dụng đại số tuyến tính và giải tích hình học để giải quyết bài toán máy học
• Có nhiều cách để chọn ánh xạ 4> nên có nhiều cách so sánh
1.2.3 Một thuật toán nhận dạng mẫu đơn giản
Giả sử, dữ liệu của chúng nằm trong không gian tích K , do đó
chúng ta có thể tính được các khoảng cách trong không gian đó, ý tưởng chính của thuật toán là gán một mẫu thuộc vào một lớp mà gần với trung bình của lớp đó hơn
Trang 15c + = ~ ĩi{i\yi=+1} x i ( 1 - 6 )
c - + ~ ^ 1 7 S { i | y i=_ j } x i ( 1 - 7 )
Trong đó m+ và m là số lượng các mẫu có nhãn là âm và dương, và hai lớp này đều không rỗng Điểm RÌữa hai lớp C+ và c là điểm c:=(c+ + c.)/2 Đe
biết xem X thuộc về lớp nào thì ta kiếm tra xem góc tạo thành giữa vector x-c và
vector w xem có nhỏ hơn n/2 hay không Ta có :
y = sgn < (x - c), w >
= sgn < (x - (c+ + c _ ) /2 ) ,(c+ + c_) >
= s g n ( < x , c + > - < x , c _ > + b) (1.8)Gọi b là lề, ta có
6 = i ( | c _ | 2 - |c+ | 2), (1.9)
Do |Ịx|| = v < x x > ncn khi b triệt ticu tức là khoảng cách trung bình
của hai lớp đến gốc toạ độ là bàng nhau Từ (1.8) ta có một siêu phẳng, gồm các điểm thoả mãn các điều kiện của một đẳng thức tuyển tính Trừ (1.6) và (1.7) cho ( 1 8) ta có hàm quyết định :
Trướ c tiên, ta tính trung binh mẫu của hai lớp
Và lề b thành :
Trang 16Hình ỉ I Phân lớp trong đơn gián
Khi b=0 ta có trường hợp đặc biệt, bài toán trở thành bài toán phân lớp theo phương pháp thống kê Khi đó, k sê trở thành hàm xác suất khi một biến không thav đổi
Khi đó, với một sổ mẫu X, thì nhãn được xác định bằng giá trị lớn hơn
trong hai giá trị p , (x) và p.(x)
ĐẠI H Ọ C Q U O C G I A H A N Ộ I
t r u n g Tâm JHÔNG TIN THU VIỆN
V l c / -'M A 6
Trang 17Xác định mức độ rủi ro trong phân lóp
í 2.4 Một số khái niệm trong lý thuyết học thống kê
Hình 1.2 : Hai hàm huấn luyện cho kết quả khác nhau trên dữ liệu kiềm tra
Trong ví dụ phân lớp như trong hình trên, với tập dừ liệu huấn luyện là ba điếm (được khoanh tròn) và ba tập dữ liệu kiểm tra (trên trục x) Ta thấy cả hai hàm f(x) và g(x) đều cho kết quả tốt trên tập dữ liệu huấn luyện, nhung với các
dự đoán trong tập dữ liệu kiểm tra thi hai hàm cho các kết quả khác nhau Do
đó, nếu chỉ dựa trên các dữ liệu huấn luyện thì chúng ta không thể nào xác định được hàm phân lớp nào là tốt Một hàm f nếu có thể phân lớp tốt trên các dữ liệu kiểm tra tức là f có tính tổng quát hoá tốt
Một quan sát (Y X) , bị chi phối bởi một xác suất p (xác suất tiên nghiệm
chưa biết) Ở đây, c h ú n g ta chấp n h ận giả thiết rằ n g tập h u ấ n luyện bao gồm N biến ngẫu nhiên được sinh ra theo p : (X],Yi), ,(Xn,Yn) Từ đó người ta đưa
ra định nghĩa “mức độ tổng quát hóa” của một luật f là xác suất mà lu ậ t/s in h ra một lồi trên một ví dụ mới (ví dụ mới được sinh ra theo phân phổi p ), ta viết lại
điều này dưới dạng:
R(/)=p(/rx>* Y)
R(/)=0 là độ rủi ro của bộ phân lớp / Nếu R(/)=0 có nghĩa / sẽ không sinh ra một lồi phân lớp nào trên một quan sát mới, hay nó có một khả năng tống quát hóa tốt
Với một tập huấn luyện s, bộ phân lớp / ta có thể quan sát được Remp(/), nhưng không thể quan sát được R(/) Trực giác cho thấy trong nhiều trường họp Rcmp(/) nhỏ thì R(/) cũng nhỏ Vì vậy nhiều giải thuật học cố gắng tìm kiếm một luật với Rcmp(/) nhỏ với hi vọng rằng R(/) cũng sẽ nhỏ Theo luật số lớn, với một luật xác định/ độ rủi ro thực nghiệm Remp(/) dần hội tụ đến R(/) khi dữ liệu huấn luyện lớn, do đó Rcmp(/) là một chỉ số tốt cho R(/)
Trang 18Một giai thuật học chọn luật với độ rủi ro thực nghiệm trên tập huấn luyện
là thấp nhất, nói cách khác, chọn luật / được định nghĩa như sau :
Remp ( / ) = inf Rcmp( / )Phương pháp này thườníĩ là phương pháp cực tiểu rủi ro thực nghiệm
( E:RM) Nói cách khác, mục tiêu cua giải thuật học là tìm ra luật có khả năng
tổng quát hóa tốt nhất, hay tìm luật thỏa mân
R ( D = inf R.(/*)Mối liên hệ giữa R(f) và R(/* ) là kết quả chính của ]ý thuyết học thống kê
• Số lượng quan sát N trong tập huấn luyện phải đủ lớn
• Số chiều v c của tập luật tiềm năng phải đủ nhò
Thì độ rủi ro của một luật được chọn f không khác nhiều so với độ rủi ro tốt nhất
Xét các hàm f (x): R - » { + t ,- l }, có 21 cách để gán nhãn cho / điểm Nếu
với mồi một cách gán nhãn ta đều có thể tìm thấy một thành phần của tập hợp
ự(x)} mà nhận dạng chính xác cách gán nhãn này Khi đó tập hợp của / điểm được nói là bị phá vỡ bởi tập hợp các hàm ịf(x)} Chiều v c của [f(x)} là số lớn
Trang 19nhât của các điêm dừ liệu mà có thê bị phá vờ bời nó Chiêu vc của các siêu phẳng tronạ không gian Rn là thường là n+1.
Hình : 1.3 v c của các đường thẳng cỏ hưởng
trong không gian 2 chiều (R2) là 3.
Tóm lại, đóng góp chính của lý thuyết học thống kê cho việc thiết kế một
giải thuật là xác định tầm quan trọng của tập các luật F mà thuật toán có thể lựa
chọn
1.2.4.2 Mối liên hệ giữa lý thuyết học thống kê và SVM
Từ nhừng kết quả chính của lý thuyết học thống kê, tư tưởng chủ đạo của SVM là tăng khả năng tổng quát hóa tốt bằng cách kiểm soát chiều v c ở đây, tồn tại hai mục tiêu đổi nghịch nhau trong việc thiết kế một giải thuật học:
• Chọn F càng phong phú càng tốt để đảm bảo rằng tồn tại ít nhật một phần
tử trong F có rủi ro nhỏ nhất.
• Chọn F càng nhỏ, đơn giản càng tốt để rủi ro của luật được chọn gần với
rủi ro của luật tốt nhất
1.3 Phương pháp phân tích thành phần chính (PCA)
1.3.1 Đô lêch chuẩn• •
Trong thống kê, khái niểm lấy mẫu là rất quan trọng Bằng việc lấy mẫu,
ta có thề có được các độ đo gần như giống với độ đo trên toàn tập dừ liệu mà ta
Trang 20đã lấy mầu Giả sử, x lt e X là tập dừ liệu mẫu, khi đó giá trị trung bìnhmầu được tính theo công thức sau :
- I L i Xi
nGiá trị trung bình mẫu không chứa đựng nhiều thông tin về tập mẫu, có thế có hai tập mẫu có sự phân bố dữ liệu khác nhau nhưng vẫn có giá trị trung bình mầu giống nhau Do đó chúng ta cần có giá trị độ lệch chuấn (Standard Deviation) để đo sự phân bổ dữ liệu, độ lệch chuẩn thể hiện khoảng cách trung bình từ trung bình mẫu đến một điểm dừ liệu
s =
( n - l )1.3.2 P htrong sai
Phương sai (variance) cũng ià một công cụ đế đo độ phân tán của dữ liệu trong tập mẫu :
hệ giữa các chiều dừ liệu với giá trị trung bình mẫu Do đó chúng ta sử dụng hàm hiệp phương sai (covariance) để so sánh giữa hai chiều dữ liệu trong không gian nhiều chiều Ví dụ, trong không gian ba chiều (x,y,x), bằng cách sử dụng hàm hiệp phương sai chúng ta có thể xem xét sự phân bố dữ liệu trong các chiều (x,y),(x,z) và (y,z), giá trị của hàm hiệp phương sai giữa (x,x), (y,y) và (z,z) cũng chính là giá trị hiệp phương sai tương úm trên x,y và z Hàm hiệp phương sai được tính theo công thức sau :
Trang 211.3.3 Vector riêng, giá trị riêng
Xét một toán tử tuyển tính / trong không gian Mn với các vector cơ sở :
= [0 1 0]r (giá trị 1 nằm tại vị trí thứ i, i=l, ,n) Toán tử tuyến tính này
sẽ được biểu diễn bới một ma trận vuông T kích thước n*n Nếu tồn tại một đại
lượng vô hướng X và một vector X (x^O), sao cho thoả mãn điều kiện :
Khi đó X được gọi là giá trị riêng của f, và vector X được gọi là vector
riêng của f hay của T, ứng với trị riêng X Ma trận T với kích thước nxn sẽ có tối
đa n trị riêng và n vector riêng tương ứng Một ma trận T khả nghịch sẽ có đủ n trị riêng và n vector riêng tương ứng
~"''y các giá trị hàm hiệp phương sai khác nhau Tập hợp tất các giá trị hiệp phương sai của không gian N chiều ta có ma trân hiệp phương sai
f(x)=Xx
Trang 22Nếu tồn tại một cơ sờ trong không gian E n sao cho ma trận T biểu diễn trong cơ sở đó có dạng chéo ( các phần tử không nằm trên đường chéo có giá trị bàng 0 ) thì ma trận đó sẽ được chéo hoá.
Giả sử c là ma trận các vector cơ sớ mới{ej} được biếu diễn trong cơ sở ỉ(Cj} Ớ đây, ma trận T được chuyển từ cơ sở {ej} sang cơ sở mới {iij} nên ma trận chuyển đối từ cơ sở { e j } sang {Uj} cũng là c Nếu T chéo hoá tức ỉà tồn tại
m a trận c khả nghịch (tức c tạo được một cơ sở trong R n ) sao cho :
c ó dạng chéo
Neu ta có c là một ma trận có các cột là các vector cơ sở đà được chuấn
hoá của không gian R n thì CT = c - 1 , từ (1.35) ta suy ra :
Do đó ta có thể tìm được ma trận c để chéo hoá một ma trận T bàng cách tìm ra các vector riêng của ma trận T, lúc đó các cột của vector c là vector riêng của T
1.3.4 Phương pháp phân tích thành phần chính
Khi giải bài toán nhận dạng các mẫu ta phải làm việc với các không gian
dừ liệu nhiều chiều Nhằm cải thiện khả năng chạy của thuật toán, chúng ta sẽ ánh xạ không gian dừ liệu nhiều chiều sang một không gian khác ít chiều hơn :
Phương pháp PCA cho phép chúng ta ánh xạ tuyến tính các dữ liệu từ không gian dữ liệu nhiều chiều sang không gian dữ liệu ít chiều hơn
Trang 23bị = + t 12a 2 H - h t i „ a N b2 — ^ 21^1 + ^22a 2 + " ’ -*■ ^2na N
trong đó I7lf v 2, , 17/v là cơ sở trong không lỉian N chiều
■ Với dữ liệu trontì không gian K chiều, ta có thể biểu diễn như sau :
X = b xu x + b2u 2 + — h bKu N
trong đó u lt u 2, , UK là cơ sở trong không gian K chiều
Gọi X là vector trong không gian N chiều, X là một vector trong không gian K chiều thỉ trung bình bình phương lỗi (MSE) là ||x — X II khi thực hiện
đổi sao cho lồi là nhỏ nhất Các vector riêng được gọi là vector “tốt” nhất tương ứng với giá trị riêng lớn nhất và được gọi ỉà thành phần chính - “principal components”
Các bước trong phương pháp giảm số chiều dữ liệu trong không gian dừ
liệu nhiều chiều :
Giả sử X J , X2, , X M là các vector có kích thước Nx 1
Trang 24— ' s ' i> 0 '
m Z j " nn=l
Do c là đối xứng nên u x > u 2 > > UN tạo thành một sở, tức với bất kỳ
một vector X nào đều có thể viết dưới dạng một tổ hợp tuyến tính của
vector riêng :
N
X — X — biUị + b2u 2 + ••• + bKu N = bịUi
1=1 6) Tiến hành việc giảm số chiều bàng cách chỉ giừu lại K trị riêng lớn nhất
Trang 25' b i • I V
Từ hình 1.4 minh hoạ cho ý nghĩa hình học của PC A ta có thể thấy :
■ PCA chiếu dữ liệu theo chiều mà dữ liệu b iế n thiên nhiều nhất
■ Các hướng được xác định bới vector giá trị riêng của ma trận hiệp phương sai mà giá trị riêng lớn nhất
■ Độ lớn của giá trị riêng phụ thuộc vào sự biến thiên của dữ liệu dọc theo hướng của vector riêng
■ Vector gốc X có thể được xây dựng lại bằng cách sử dụng các thành phần
Trang 26Hình 1.4 Ỷ nghĩa hình học của PC A
Chú ý : Khi sổ lượng mầu m trong tập dừ liệu X nhỏ hơn nhiều so với số chiều
N, thì thay vì tính trực tiếp các vector riêng từ ma trận hiệp phương sai c , ta có thẻ tính các vector riêng theo các bước sau :
■ Tính ma trận C ’ kích thước mxm :
C ’=Yr Y
Trong đó Y nMn=[xi,x2, ,xra]
■ Tính M vector riêng errij và các giá trị riêng tương ứng của ma trận c \ Chọn các vector riêng có giá trị riêng lớn nhất
■ Chiểu các vector riêng M chiều về không gian n chiều của các mẫu Xj theo công thức :
Trang 27C H Ư Ơ N G 2 : KHAI PHÁ D Ữ LIỆU VÀ H Ọ C MÁY
2.1 Khái nicm hoc• •
Ngàv nay, có khá nhiều định nghĩa về “học” Một trong những định nghĩa
mà ta sừ dụng trong cuộc sống hằng ngày và mọi người đều biết, đó là
"Học là quá trình lĩnh hội kiến thức, kỹ năng, quan điềm hay các nguyên tẳc thông qua việc học tập, kình nghiệm hay truyền đạt Kết quả cùa việc học có thể dẫn đến sự thay đôi trong hành vi đã tồn tại trước đó hay một cá thể cỏ thê hình thành những tri thức mới hay thay đổi trí thức đã có trước đó (các tri thức khái niệm như : quan điểm, nguyên tẳc) Học là quả trình phụ thuộc vào kinh nghiệm và m ất nhiều thời iĩian để thay đối một hành vi tiềm năng Hành vi tiềm năng miêu tả khả năng của một hành vi mà mội cá nhán cỏ thể có (không phái hành vi thực tể) trong m ột hoàn cảnh cụ thê đê đạt đến một mục đích nào đó Nhưỉĩg chi có kha năng tiềm năng đỏ là chưa đu, nếu con người đókhông thường xuyên học thì tri thức sẽ càng ngày càng mờ nhạt và thậm chỉ là mất hẳn ” -
Wikipea
2.1.1 Q ua trìn h học
Ọuy trình học đơn giản nhất là sự bắt chước, một có nhân lặp lại các hành động đã quan sát được trước đỏ (vd : Cười) Trong phân loại của Bloom, quá trình học được chia thành sáu mức khác nhau, trong đó kiến thức là mức thấp nhất của việc nhận thức trong khi khả năng đánh giá là mức cao nhất
Trang 28Hình 2.1 : Sơ đồ của Bloom
• Kiến thức : Bộ nhớ lưu trừ các đối tượng đã được học trước đó như là : sự thật, khái niệm, các khái niệm cơ sở và các câu trả lời cho khái niệm đó
• Nhận thức : Sự hiểu biết các sự thật và các ý tưởng bàng cách sắp xếp, so sánh, diễn dịch, diễn giải và mô tả
• ứ n g dụng : Là cá c h vận dụng kiển thức để giải quyết một vấn đề
• Phân tích : Là sự kiểm chúng và phân chia thông tin thành các phần nhó hơn theo cách xác định nguyên nhân hay lý do
• Tổng hợp : Là cách đánh giá thông tin theo một cách mới bằng cách kết hợp các thành phần nhỏ để tạo nên một khuôn mẫu hay giải pháp mới
• Đánh giá : Là trình bày và bảo vệ ý kiến dựa trên việc xem xét thông tin, đánh giá sự phù hợp và chất lượng công việc
2.2 Máy học
Bắt đầu từ khái niệm học trong sinh học, đã có nhiều nghiên cứu cổ gấng
mô phỏng qúa trình học của con người cho máy tính và tạo nên một lĩnh vực mới trong khoa học, đó là máy học Tại sao chúng ta lại cố gắng dạy cho máy tính biết học ? Thực tế là máy tính có thể làm một số công việc mà nếu như để cho con người bình thường làm thì phải mất đến hàng năm Và dường như máy tính có thế làm bất cứ những gì mà chúng ta muốn Nhưng thực tể đã chỉ ra ràng rất nhiều vấn đề không thể giải được nếu chỉ sử dụng các thuật toán thông thường, ví dụ như việc nhận dạng ký tự, nhận dạng m ẫu, Con người có thế dễ dàng phân biệt được các chữ cái trong bảng chừ cái, tập hợp các chữ cái thành các từ có nghĩa Trong khi đó, máy tính nhìn nhận các chữ cái là các dãy số 0 và
1 , và không hiểu được ngữ nghĩa.
Trang 29Với máy học, sau quá trình huấn luyện, máy tính có thể phân biệt được các ký tự Trên thực tế, kỹ thuật máy học mới chỉ đạt đến ba mức đầu tiên trongmẽ.
2.2.1 Quy trìn h ciia máy học
Máy học có thể phân chia thành các lớp như sau :
dự báo giá trị qua hàm quyết định với biến đầu vào hợp lệ sau khi đã huấn luyện qua một số dừ liệu trong tập dữ liệu huấn luyện
Các thuật toán chính thường gặp trong học có thày là : Mạng nơron, thuật toán láng giềng gần nhất, cây quyết định, vector tựa,
Trang 30Hình 2.2 : Thuật toán học cỏ thày : Cây quyết định, Mạng nơron, Vector tựa
2.2.1.2 Học không có thày
Học không có thày hay còn gọi là học không giám sát, tức là trong tập dữ liệu chỉ có dữ liệu đầu vào mà chưa biết kết quả đầu ra Kết quả của học không giám sát phụ thuộc vào từng tình huống cụ thể và từng bài toán cụ thể, đôi khi rất khó để tổng quát hoá thành mô hình toán học Học không có thày được coi là
là việc đánh giá các quá trình phát sinh từ dữ liệu đầu vào
Hình 2.3 : Thuật toán học không có thày : Phân cụm
2.2.1.3 Học có thày m ột phần
Học có thày một phần là kỹ thuật học máy sử dụng dữ liệu trong đó gồm các thành phần dữ liệu đã được gán nhãn và các thành phần dữ liệu chưa được gán nhãn Nhiều nhà nghiên cứu đã cho rằng các dữ liệu không có nhãn nếu có thêm một sổ ít các dừ liệu được gán nhãn thì sẽ làm cho kết quả của việc học được cải thiện một cách đáng kể Đe có tập dừ liệu được gán nhãn đầy đủ thì ta cần có các nhân viên đánh nhãn bằng tay Do đó, có thể vì lý do kinh tế hay vì khổi lượng công việc quá nhiều mà việc gắn nhãn có thể không được đầy đủ Khi đó, học cỏ thày một phần sẽ phát huy được thế mạnh của nó
Trang 31Như chúng ta đã biết, với sự phát triển nhanh chóng cúa công nghệ thông tin, các hệ thống thông tin đã phải lưu trữ một khối lượng thông tin khổng lồ Để
sử dụng hiệu quả khối lượng thông tin này chúng ta phải có những phương pháp quản lý, khai thác tốt, nếu không chúng chỉ đơn thuần là nơi lưu trữ thông tin ờ
trạ n h thái “tĩnh” Ngày nay, với các kỹ thuật trong khai phá dừ liệu và máy học chúng ta có thể trích xuất ra những thông tin hữu ích mà chúng ta chưa biết
Cũng bởi vì đây là một bộ môn khoa học mới nên hiện nay có khá nhiều định nghĩa về khai phá dừ liệu và máy học Giáo sư Tom Mitchell đã đưa ra định nghĩa của khai phá dữ liệu như sau “Khai phá dữ liệu là việc sử dụng dữ liệu lịch sứ đế khám phá ra các qui tắc và cải thiện các quyết định trong tương lai” Theo cách tiếp cận gần với các ứng dụng hơn, tiến sĩ Fayyad đã định nghĩa
“Khai phá dữ liệu thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất thông tin ẩn, trước đây ta chưa biết đến và các thông tin này có ích dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dừ liệu” Chúng ta có thế coi, khai phá dữ liệu là một quá trình học tri thức mới từ những dừ liệu đã thu thập được
Các ứng dụng của khai phá dữ liệu vượt ra khỏi lĩnh vực khoa học máy tính và trí tuệ nhân tạo và đã được áp dụng trong thương mại, công nghiệp Sự hiệu quả của khai phá dữ liệu đă được chứng minh qua các ứng dụng về phân tích thị trường, phát hiện lồi, dự doán bệnh,
2.3.1 Cấu trúc của một hệ thống khai phá d ữ liệu
Hiện nay, có nhiều cách để phân loại các nhiệm vụ của một hệ thống khai phá dữ liệu Nếu theo một qui trình xử lý của một hệ thống khai phá dữ liệu thì các nhiệm vụ chính của hệ thống bao gồm các bước :
Trang 32liệu, xử lý các dữ liệu còn thiếu, Công việc xử lý dữ liệu có chức năng cơ bản nhất là giảm số chiều của không gian tìm kiếm, giảm không gian lưu trữ dừ liệu, nâng cao khả năng khai phá dữ liệu Đe đạt được các mục tiêu trong bước xử lý
dừ liệu thì chúng ta phải đi qua hai bước chính : trích chọn đặc trưng và lựa chọn các đặc trưng
Trong trích chọn đặc trưng, các phương pháp biến đổi phi tuyến hay được
sử dụng là : Phân tích theo hàm phân biệt tuyến tính (LDA - Linear Discriminant Analysis), Phân tích thành phần chính (PCA - Principal Components Analysis) Các phương pháp biến đổi phi tuyến thường hiệu quả khi xử lý các bài toán phi tuyến Tuy nhiên, các phương pháp nàv cùng thêm vào các dừ liệu không mong muốn trong khi chuyển biến đổi dừ liệu, cũng như không có khả năng chuyển đổi ngược lại Và các thông tin học được từ việc áp dụng phương pháp biến đổi phi tuyến trong một không gian đặc trưng không thể chuyển đổi sang không gian đặc trưng tiếp theo
Sau khi trích chọn được các đặc trung, chúng ta phải tiến hành việc lựa chọn các tập đặc trưng tốt nhất để tiến hành các bước tiếp theo của khai phá dừ liệu như phân lớp, phân cụm , Các phương pháp chọn đặc trưng có thể được phân thành hai loại chính :
• Sắp xếp theo mức quan trọng của đặc trưng hay tập đặc trưng
• Sử dụng các thuật toán tìm kiếm
Ngày nay, chúng ta cũng thường gặp các hệ thống có sử dụng thuật toán
di truyền (GA) để lựa chọn các đặc trưng
2.3.2 Các bài toán chính trong khai phá dữ liệu
2.3.2.1 Phân lớp và p h â n cụm
Phân lớp và phân cụm là hai bài toán khá gần nhau Một lớp có thể hiểu là một tập các mẫu dữ liệu có sự tương tự nhau, hay có quan hệ gần nhau và được gán một nhãn để phân biệt với các lớp khác Một cụm có thể hiểu là một tập hợp các đối tượng có cùng các đặc trưng
Cho tnrớc một tập các lớp dữ liệu đã gắn nhãn, hệ thống phải đưa ra dự đoán cho một đối tượng xem nó có thể nằm trong lớp nào Ví dụ, tập dữ liệu các thông tin cá nhân của những người có thẻ tín dụng trong ngân hàng được sử dụng để phân lớp một khách hàng mới xem họ có thể nằm trong lớp khách hàng
Trang 33nào Hav với các thông tin vê tuôi, trình độ học vân, mức lương hệ thông khai phá dừ liệu sè sử dụng các kỹ thuật phân cụm đê đưa ra các nhóm khách hàne nhàm phục vụ cho chiến lược kinh doanh sau này.
Nói chung, việc phân cụm có thể làm việc với tập dữ liệu chưa được gán nhân Một số phưang pháp phân lớp có thổ sử dụng phương pháp phân cụm đế phân cụm dừ liệu thành các cụm dừ liệu nhỏ, trước khi tiến hành phân lớp, ví dụ như mạng nơron RBF
2.3.2.2 Tìm ra các luât
Quá trình tỉm ra các luật là quá trình tìm ra cách biểu diễn dữ liệu theo cách có thể diễn giải được dựa trên các tri thức thu lượm được từ tập dừ liệu Đối với một người khai thác thông tin, họ mong muốn biết được tại sao lại có các kết quả phân lớp như thế, điều gì đang diễn ra trong không gian dừ liệu đa chiều, đặc trưng nào ảnh hưởng lớn đến các kết quả của quá trình khai phá đừ liệu, Ví dụ, một miêu tả súc tích một phản ứng của thị trường có tác dụng rất hCru ích cho việc đưa ra quyết định của nhà đầu tư
Một bộ phân lớp sau quá trình học từ tập dữ liệu huấn luyện sẽ có được tri thức biếu hiện là các trọng sổ phân lớp, ví dụ như các trọng sổ trong mạng nơron Tuy vậy, rất khó khăn khi phải diễn giải các trọng số đó thành các kiến thức theo cách suy nghĩ hằng ngày Do đó, người ta thường sử luật IF-THEN để biểu diễn các giá trị thông tin trong tập dừ liệu
Bài toán tìm ra các luật có thể chia thành hai nhóm chính như sau
• Tìm ra mối quan hệ giừa các thuộc tính của dữ liệu đầu vào và các nhãn đầu ra của các lóp trong tập dừ liệu được gán nhãn
• Luật kết hợp : Tìm ra quan hệ giừa các thuộc tính trong một lớp dữ liệu (có thể chưa được gán nhãn) Luật kết hợp thường được sử dụng để đưa ra quan hệ giữa các mục trong một giao dịch dữ liệu
‘X => Y ’ , trong đó X,Y là tập các mục tin, thì ‘X => Y ’ có thể hiểu là nếu một giao dịch T e D có X, thì giao dịch đó cũng sẽ có
z (D tập giao dịch dừ liệu) Một tham số điều kiện khả năng p
dùng đề đánh giá độ tin cậy của luật Ví dụ : “Một khách hàng khi
mua bơ thì cũng sẽ mua bánh mỳ với xác xuất là p ”.
Trang 34Với miền đầu vào X có thể chỉ là một tập họp các đổi tượng riêng biệt
3.1 Tích vô hưổĩig các đặc trưng
3.1.1 Đặc trung đơn
Ta xét X là tập con các vector trong R n (N 6 N) có thể xây dựng được
tích vô hướng dạng chính tắc Giả sử X e X , trong đó có d chiều mang nhiều
thông tin nhất (nên ta gọi là đặc trưng đơn) :
Trong đó j lt £ {1, Đối với bài toán nhận dạng mẫu, các mẫu
được tiền xử lý bằng cách ánh xạ vào không gian đặc trưng jhf với tất cả d thành
Trang 35• Mạng nơron Perceptron nhiều lớp
• Mạng nơron mờ
• Mạng nơron RBF
• Vector tựa (SVM)
• Thuật toán di truyền
2.4 Sự giống và khác nhau giữa khai phá dữ liệu và máy học
Có cùng mục tiêu là “học từ dừ liệu”, các thuật toán trong máy học đóng một vai trò nòng cốt trong khai phá dữ liệu Tuy nhiên, các thuật toán nàv cần được phát triển để phù hợp với các yêu cầu và những thách thức mới của khai phá dừ liệu
Một trong những thách thức đó là mức độ nhiễu cao trong dữ liệu của khai phá dừ liệu, tiêu chuẩn có thế giải quyết bài toán với độ nhiễu của dữ liệu cao trớ thành một trong nhừng tiêu chuấn quan trọng nhất để đánh giá một hệ thống khai phá dừ liệu
Thách thức tiếp theo đối với khai phá dừ liệu là kích thước dữ liệu cần xử
lý ngày càng lớn Các thuộc tính trong máy học cũng như số lượng các đối tượng dữ liệu thường ít hon nhiều so với khai phá dữ liệu Khai phá dữ liệu có thể phái xử lý một khối lượng khổng lồ, thường ở múc TB (hàng ngàn GB), do vậy thời gian xử lý là rất dài
Hơn thế nữa, các thuật toán máy học thường sử dụng bộ nhớ trong để tính toán, lưu trừ, xử lý dữ liệu Dù cho kích thước của bộ nhớ trong của máy tính đã đươc tăng lên đáng kể, nhưng điều đó cũng chằng thể theo kịp sự tăng lên về kích thước của dừ liệu Chính vi thế, các kỹ thuật như xác suất, lấy mẫu, xử lý song song đang được áp dụng để các hệ thống khai phá dữ liệu có thể đáp ứng được với các bài toán thực tế
Mọi phát triển trong khai phá dữ liệu đều nhằm đến các ứng dụng cụ thể
và các đặc tính dừ liệu cụ thể trong các ứng dụng đó, trong khi máy học thường tập trung vào xử lý tri thức dạng lý hiệu và ở mức khái niệm
2.3.3 Một số phương pháp tính dùng trong khai phá dữ liệu
Trang 36Là các kha năng chọn ra d đặc trưng và là số chiều của không gian K
Với không gian các ảnh đầu vào có kích thước 16x]6, và cần chọn ra 5 đặc trung đơn thì có khoảng Ỉ0U) khả năng.
Để có thế giải cảc bài toán có dừ liệu nhiều chiều thì việc ánh sang các không gian tuyến tính gặp nhiều khó khăn Do vậy, để tính tích vô hướng trong
không gian R N mà không cần phải ánh xạ thì ta dùng hàm hạt nhân
3.1.3 Hàm hat nhân đa thức
M ệnh đề 3.1: Cho Cđ để ánh xạ X E R N sang vector CẬx), d là d đặc
trưng đơn có thứ tự của X Khi đó, hạt nhân tương ứng để tính tích vô hướng của các vector đã được ánh xạ bởi C/ là :
Ký hiệu Cd thể hiện ánh xạ đặc trưng, còn ký hiệu 4>d để thể hiện ánh xạ
không tính đến thứ tự của các đặc trưng Lấy phần phần bù của số lần xuất hiện
Trang 37giống nhau các đặc trưng đơn trong Cd bằng cách lấy căn bậc hai sổ lần xuất
hiện giong nhau các đặc trưng đơn, và từ (3.10) ta có :
Nếu như trong (3.3), tất cả các jị chỉ khác nhau ờ một giá trị, thì hệ số của đại lượng đó trong được tính bàng Ví dụ, với ta có :
Hình 3 ! Ví dụ về phán lớp nhị phân khi ảnh xạ sang không gian đặc truvg
Giả sử, trong không gian đầu vào (a) biên quyết định có hình ellipse Nhiệm vụ của bài toán phân lớp là đi tìm biên quyết định dựa trên các dừ liệu huấn luyện gồm có hai lớp (lớp khoanh tròn và lớp gạch chéo) Khi dùng ánh xạ phi tuyến
để ánh xạ sang không gian đặc trưng (b), hình elíp sẽ thành một siêu phẳng song
song với ZỊ (nên các điểm dữ liệu đều nằm trên mặt (z/ ,z2)) Qua hạt nhân đa
thức (3.11),(3.12) việc tính tính vô hướng trong không gian ba chiều qua hàm hạt nhân mà không phải tính ánh xạ
Trang 383.2 Biếu diễn sự đồng dạng trong không gian tuyến tính
3.2.1 Các hạt n h ân xác định dư ơ n g
Định nghĩa 3.3 : (Ma trận Gram) Cho hàm k : X 2 —> K (K = <c hoặc K = E và các mầu X ị , e X , ma trận K kích thước m X/W có các phần tử
đươc gọi là ma trận Gram (hay ma trận hạt nhân ) của k với X ị , , x m
Địch nghĩa 3.4 (Ma trận xác định dương) Ma trận phức K kích thước m thoảmãn
i j đirơc gọi là xác định dương Tương tự, ma trận thưc K kích thước m * m thoả
mãn (3.15) với VCj e E, được gọi là xác định dương
Địah nghĩa 3.6 (Hạt nhân xác định dương) Cho tập X khác rồng Hàm k trên
X X X với V m € E X tạo thành một ma trân Gram xác địnhdương gọi là hạt nhân xác định dương Thông thường, chúng ta gọi ngắn gọn làmệt hạt nhân
Chú ý : Một hàm k tạo thành một toán tử T k qua
(Tk) 0 0 = Ị k ( x , x ' ) f ( x ' ) d x ' ( 3 1 5 )
X
đuực gọi là hạt nhân của T k
Các hạt nhân có thể coi là các tích vô hướng được tổng quát hoá, do đó moi tích vô hướng là một hạt nhân Một tính chất quan trong của tích vô hướng
là bất đẳng thức Cauchy, vậy nên đổi với hạt nhân cũng có tính chất này :
Mệnh đề 3.7 : Neu k là một hạt nhân xác định dương, và x lt x 2 G X thì :