Nhiệm vụ khai phả dữ liệu nói chưng, cũng như nghiên cửu các thuật toán phân lớp nói riêng trở nên ngày cảng bức thiết và đồng vai trò trung tâm trong việc giải quyết vắc bài toán cụ t
Trang 1
ĐẠI HỌC QUOC GIA HA NOL TRUONG ĐẠI HỌC CÔNG NGITỆ
HOÀNG VĂN TRÌU
TÌM HIỂU PHƯƠNG PHÁP TÌM THUỘC TỈNH TÓI ƯU
NHẰM TĂNG THỆU QUÁ PHẦN TICIT TRONG PITAN
TÍCH DỮ LIỆU LỚN
LUAN VAN TIIAC S¥ - NGÀNH CÔNG NGITỆ TIIONG TIN
Trang 2
DAI HOC QUOC GIA HA NOI
TRƯỜNG ĐẠI HỌC CÔNG NGITE
TOÀNG VĂN TRÌU
TÌM HIỂU PHƯƠNG PHÁP TÌM THUỘC TÍNH TÓI
ƯU NHẰM TĂNG HIỆU QUÁ PHẦN TICII TRONG PIIAN
TÍCH DỮ LIỆU LỚN
Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mêm
Mã Số: 60480103
LUẬN VĂN THẠC SỸ - NGÀNH CÔNG NGIIỆ TIIGNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYÊN HÀ NAM
HA NOI - 2015
Trang 3Lời cam đoan
Tôi xin cam đoan luận văn “ Tìm hiểu phương pháp tim thuộc tính tối
xu nhằm (ăng hiệu quả phân tích trang nhân tích dữ liệu lớn ” là công hình
nghiên cờu của riêng tôi Các số liệu, kết quả được trình bay trong luận văn lá
hoàn toàn trung thực Tôi đã trích dẫn đẩy đủ các tải liệu tham khảo, công trình nghiên cứu liên quan Ngoại trừ các tài liệu tham khảo này, luận văn hoàn toán
là công việc của riêng tôi
Luận văn được hoàn thành trong thời gian tôi là học viền tại Khoa Công nghé Thong tn, Trudug Dan học Công nghệ, Đại học Quốc gia Hà Nội
Hà Nội, ngày 31 tháng 08 năm 2013
lHạc viên
Tloang Van Trìu
Trang 4Loi cam on
Lai diu Hiến, tôi xim gửi lời cằm ơn và lòng biết ơn sâu sắc nhất tới
PGS.TS Kguyển Hà Nam đã lận tỉnh hướng dẫn tôi trong suốt quá uình thực
tiện luận vẫn tốt nghiệp
Tôi chân thành cảm ơn anh nghiên cứu sinh 1à Văn Sang và anh nghiên cứu sinh Lữ Dãng Nhạc đã tận tỉnh chỉ báo trong quá trình thực hiện luận văn
Tôi cảm ơn những người bạn trong nhôm nghiên cửu của PQS.T8 Nguyễn
Hà Nam đã luôn bêu tôi chía số những kinh nghiệm trong học tập cũng như
trong cuộc sống,
Tôi chân thành cảm ơn các thấy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập và nghiên cứu tại trường Dại học Công Nghệ
Tôi xi gứi lời cảm ơn tới các bạn trong lớp cao học KI9 đã ủng hộ,
khuyên khích tôi trong suốt quá trình học tập tại trường
Tôi xim chân thanh cam ont
TIà Nội, ngày 31 tháng 0 năm 2015
Họư viên
Hoang Văn Trìu
Trang 5Chương l Giới thiệu Khai phá đữ liệu 0 2S 22021 3
1.1 Téng quan Khai pha dit Hid - 3 1.3 Tổng quan trích chọn thuộc tính, wd
2.3, Ket hudin a7
Chương 2 Họ thuật toán k-Láng giêng gắn nhất và Thuật toán Di truyền 8
3.1 Ta thuật toán &-Làng giẳng gắn nhất 8
3.1.3 Tuaậi toán Lưng giẳng giần nbdt (NN) § 3.1.3 Thuậi toàn k-Láng giằng gân nhật (KG coi WD 2.1.4, Thuật taảm Dinh trong <4 k-Lang giéng grin nhdt (WENN) 10 3.1.5 Thuậi loàn Hàm nhân k-Lang giéng gan nbdt (Kernel k-NN} 15 2.2, Thes@i botiea Di tryin (GA) acess sessesee sssesestiensen siiveevensimasesssmnanesenases £8
Chương 3 Mê hình GÀ Kemel &-NN va két quả thực nghiệm -26
3.1.1 Kiển trite GA_Kertel KANN coccssssssssssessesesensesesies ssssiuieieauaneasevasessaesee 2B
3.2.2, MOI irvong tec ABR esses eseveisaneieenanateinanimennsaain: 2D
3.3.2 Kết quả chạy trém BG dit WE ÂTC€H€, nuoc 33
3.3.3 Kết quả chạy trén b6 dit liu DLBCL Diffuse large B-cell bamphona 0.0000 37
Trang 6Danh mục hình vẽ
1.1: Quá trình phát biện tr thức trong cơ sở dữ liệu
TTình 1.2 : Tướng tiếp cận Filter -
Hình 1.3 : Hướng tiếp cận Wrapper
Tình 2.1: Ví dụ về thuật toán KMN
Tlinh 2.2: Vi du vé thuat toan WENN
Himh 2.3 : Cae thanh phan efia thnal toan GA
Tlinh 2.4 : Các toán tứ của thuật toán GA
Tình 3.1 :Mô hình thuật toán GA_Kemel k-NN
Trang 7Danh muc bang
Bang 2.2: Mét sé ham nhan hay được dùng HH reeun re 16 Bang 3.1: Danh sách tên hàm cải dat thuat toan GA_Kemel k-NN 32
Bang 3.2: Tổng quan các bộ đữ liệu sử dụng 33
Bang 3.3: Tém tit 46 chinh xdc GA Kemel k-NN va GA RF trén Arcene 34 Bảng 3.4: Số thuộc tinh trich ton GA_Kernel k-NN va GA_RF trén Aicene 35 Tảng 3.5: Dộ chính xác GA Kemel k-NN va céng bé trén Arcene 136 Bảng 3.6 Tóm tắt độ chính xác GA_ Kemel k-NN và GA_RF trên DLBCL 38 Đảng 3.7: Số thuộc tinh trích chọn GA Kemel k-KN và GA RE trên DLBCL, 39 Bang 3.8: Dộ chính xác GA Kemel k-NN vá công bổ trên DLBCL 140
Trang 8Danh mục viết tắt
3 | Genetic Algoritins_Kemel &Nearest Neighbors | GA_Kemel k-NN
4 | Genetic Alorithms Random Forest GA RF
5 | Weighted & Nearest Neighbors WENN
7 | Keimel &-Nearest Neighbor Kernel 4-NN
9 | Proximity Measure - Support Vector Machine | Rfprox-SVM
Trang 9
Giới thiệu
Khoa học kỹ thuật phát triển, đi cùng với nó là sự phát triển không ngừng
của đữ liệu về kích thước và chúng loại Nhiệm vụ khai phả dữ liệu nói chưng,
cũng như nghiên cửu các thuật toán phân lớp nói riêng trở nên ngày cảng bức
thiết và đồng vai trò trung tâm trong việc giải quyết vắc bài toán cụ thể, Thực tế cho thấy, chúng ta chỉ có thể tìm ra một số thuật toản phù hợp với một số loại dit Tiêu cụ thể và bị giới hạn về kích thước đữ liệu Kết quả của tmật toán plụu thuộc
rất nhiễu váo việc xử lý đứ liệu thô Trong khai phá đữ liêu, phương pháp trích
chọn đồng vai trò quan trọng trong tiên xử lý số liệu, đặc biệt đổi với ngành tin
sinh học, xử lý đữ liệu âm thanh, hình ảnh, đử liêu mạng xã hội Đặc điểm chung của những lĩnh vực này là kích thước rất lon (hang trim, hang tram nghìn
thuộc tính) nhưng chỉ một số ít thuộc tính có giá trị đùng để phân tích Trích
chọn thuộc tính giúp tìm ra các thuộc tỉnh có ích, loại bỏ các thuộc tính dư thừa
Phương pháp tác động trực tiếp đến kết quá của thuật toán như tăng tốc độ xử lý,
cải thiện dữ liệu, tăng hiệu xuất khai phá
Thuật toán k-Láng giéng gan nhat (ANN) [10] la mét trong những kỹ thuật
cơ bản, dơn giản và trực giác nhất trong lĩnh vực phân tích thống kê Bộ phân lớp dựa trêu thuật loáu #NMN là một bộ học lười (azy learuer), không cản thực hiện quá trình học cho mô hình Nó cầu sử dụng lắt vã cáo đổi tượng dữ liệu trong tập tan chiếu để ra quyết định gán nhấu lớp cho một quan sắt mới Thực nghiệm cho thấy, thuật toán kNN đơn giãn, nhưng thường cho kết quá khả tết Tuy nhiên hiệu quả của thuật toán hạn chế đo nên tảng xây đựng dựa trên đữ
liệu tuyến tính Dễ có thể áp dựng thuật toán này vào đữ liệu phi tuyến, đã có nhiều nghiên cửu ứng dựng các kỹ thuật khác nhau để có thẻ biến đổi đữ liệu tuyển tính thành đỡ liệu phi tuyển Tưởng tiếp cận trong luận văn này là sứ dựng một phép biến đổi từ không gian ban đâu sang một không gian mới sau đó áp
dụng thuật toán #MN, Việc tính toán rên không gian phi tuyển là công việc của
thuật toán Hảm nhân & Láng giéng gan nhat (Kemel - k Nearest Neighbor)
I2]
Thuật toản Di truyền (GA) [1] là kỹ thuật tìm kiểm tối ưu ngẫu ohién
phỏng theo quá trình thích nghĩ tiển hóa của các quản thể sinh vật Tư tưởng của
Thuật toán GA là mô phỏng sự phát triển tự nhiên, kế thừa và đấu tranh sinh tồn
Trang 10bà
của sinh vật Thực tế chỉ có những sinh vậi Nêu tục tiên hóa để thích nghỉ với hoàn cảnh sẽ tên tại và phát triển GA xét đến toàn bộ các lời giải bằng cách,
trước tiên chọn tập các lời giải sau đó loại bỏ những lời giải không thích hợp và
chọn những lời giải thích hẹp hơn để tiến hành lai ghép và đột biến nhằm mục
dich tạo ra nhiều lời giải mới có độ thích nghỉ ngáy cảng cao GA giúp tim ra lời
giải tối ưu hay tốt nhất trong điều kiện thời gian và không gian cho phép
Trong luân văn này tôi đưa ra một cách tiếp cân mới kết hợp thuật toan
GA va Kerel 2-NN theo mé hinh Wrapper GA gulp fim ra cde lập thuộc tính
va Kernel &-NN tra vé két qua ofa ham mwue tiéu trong GA Hay oi mdt cach khác, GA đã chọn một tập thuộc tỉnh được cơi là tỐI nhất trong quần thể các
thuộc tính, tập thuộc tỉnh tốt được hiểu trong ngĩt cảnh hiện tại là các thuộc tính
được trích chọn giúp phân lớp tốt nhất đựa trên kết quả của hàm tính khoảng,
cảch trong thuật toản Kemel &-NX GA đã giúp tăng độ chính xác phân lớp nhờ
việc tôi tra đữ liệu đầu vào cho thuật toàn Kernel š-NN
Nội dung của luận văn được chua thành các chương như sau:
Chương 1: Giới thiệu Khai phá dữ liệu
Chương 2: Cơ sở lý thuyết
Chương 3: Mô hình GA Eernel &-NN và kết quả thực nghiệm
Xết luận: Tóm lược kết quả đạt được của luận văn
Trang 11Chương 1 Giới thiệu khai phá dữ liện
1.1 Tổng quan Khai phá dữ liệu
Thai phá đữ liệu là một khái niệm ra đời cuối những năm 80 của thế kỹ
trước, Nó bao hàm một loạt các kỹ thuột nhằm phát hiện các thông tin cỏ giả trị
tiểm ấn trong đữ liệu lớn Vẻ bán chất, khai phá dữ liệu liên quan đền việc phan
tich các dữ liệu và sứ dụng các kỹ thuật để tìm ra cóc mẫu hình có tính chính quy trong tap dữ liệu Năm 1989, Fayyad, Piatestsky-Shapiro va Smyth đã
dùng khải miệm phát hiện lí thức trong cơ sở dữ hu (Knowledge Discovery in Database — KDD) để chỉ toàn bộ quá trình phát liện các trí thức
có Ích từ rác tập dữ liệu lớn [11] Trong đó, khai phá dữ liêu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các xấu hay các mô hình từ đứ liệu
Ở một góc độ nào đó, khái niệm khai phá để liệu và khai phá trí thức
nhiều khi được coi là một Tuy nhiên, nêu xét kỹ thì khai phá đữ liệu chỉ là
xuột khẩu quan trọng trong khai phá trí thức Một quá trình phát hiện trị thức
trong cơ sở đữ liệu bao gôm các guai đoạn chính sau :
(1) Làm sạch dữ liệu (Dala Cleaning): Khử nhiều và các dữ liệu mâu thuẩn,
(3) Tích hợp dữ liệu (Data Integration) K& hop nhidu nguén dir héu khác
nhau
(3) Lựa chon dit ligu (Data Selection): Chất lọc lẫy những đỡ liệu liên quan
điến nhiệm vụ phần tích sau này
(4) Biển dỗi dữ liệu (Data Trangformaiion): Biển dỗi dữ liệu thụ được về
đảng thích hợp cho quá trình khái phá
(S) Khai phá dữ liệu Oala Miming): Sử dụng những phương pháp thông
minh để khai thác đữ liệu nhằm thu được các mẫu mong muốn
(6) Danh giá kết qué (Pattern Evaluation): Sit dung các độ do để đánh giá
kết quá thu được
() Biểu didn tri thize Knowledge Presentation): Sir dumg cae công cụ biểu diễn trực quan để biểu điển những trị thức khai phá được cho người
dùng,
Trang 12SH Tà có Hệ 5 Lo hoe ,
Quá trình này có thể được lấp lại nhiều lẫn, muội bay nhiều giai đoạm trước có
Thế được lắp lại dựa trên phản hỗi từ kết quả của các giai doan sau
+ t : ị Đánh giá và
Tình 1.1: Quá trình phát hiện tri thức trong cơ sở đữ liệu
Một số phương pháp khai phá dữ liệu tiêu biểu:
% Phan lop (Classification) : Kira thác một hàm đã được huấu luyện
trước đề phân loại một dối tượng dữ liệu vào một trong các lớp được
định nghữa trước
* Hồi qui (fegression) : Khai thác một hàm đã được huấn luyện trước
để ánh xạ một đổi tương dữ liệu thành một giả trị thực là kết quả dự
báo
# Phân cụm (Cfustzring) : Giải quyết vẫn để tìm kiếm, phát hiện số
lượng hữu hạn các cựm mô tả một tập hợp đữ liệu ban đâu không có
nhấn Đó là quá trình tim cách nhóm các đối tượng đã cho vào các
cụm, sao cho cáo đối tượng trong cứng một cụm tương tự nhau (similar), và các đối tượng khác cụm thì không tương tự nhau
(dissimilar)
Trang 134 Tổng hựp (Summarization) : Qua bình bao gầm các phương pháp để
tìm một mô tâ xủe tích cho một tập (hoặc một tập con) đữ liệu + Mé hinh héa rang bude (Dependency Modeling) : Tim một mỗ hình cục bộ mô tả các Tang buéc quan trong gitra cáo biến hoặc giữa các giá
trị của một đặc trưng trong một tập dử liện hoặc trong một phân của
có ích đẳng thời không được quá tốn kém chỉ phi tài nguyên và thời gian Công
đoạn trích chon nhằm tìm ra thuộc tính đại diện phủ hợp yêu cầu phân tích, loại
bö thuộc tính dư thừa, thuộc tính nhiễu, tăng hiệu suất vá kết quả khai phá đữ
liệu Có rất niuêu phương pháp và các hướng tiếp cận khác nhau, tựu chủng lại
déu hướng đếu mục tiêu :
« Tăng tốc độ thuật toán
©_ Giảm không gian lưu trữ dữ liệu
© Tang két quả phân lớp, đoáu nhận
«œ_ Giúp biểu diễn, mình họa dữ liệu đễ dàng hơn
Để đánh giá độ tết của một tập con đặc trưng phụ thuộc vào yêu cầu cụ thể
ki phân tích dữ liệu, mọi cổng việc trong toản bộ quá trình cũng đều hướng
mục tiêu đạt được yêu câu cụ thể trên Vẻ cơ bản chủng †a cở thể phân loại các
phương pháp trích chọn theo hai cách tiếp cận khác nhau là Filter và Wrapper
được trình bảy trong cáo tải Hệu [3, 13] Lược đỗ thực hiên [3] được giản hóa
trong lai hình vẽ đưới đây
Trang 14Theo mỏ hình Pilter, các thuộc tính được chọn độc lập với thuật toán khai phá
dữ liệu Ngược lại, mồ hinh Wrapper các thuộc tính được chọn phụ thuộc theo một nghĩa nào đó với thuật toán khai phá dữ liệu
Tìm kiếm thuộc tính ` Thuật toán phan lép
“Tập thuộc tinh Đánh giá kết quả (Kiểm chứng)
‘Thude tinh phn lop
“Hình 1.3 : Hướng tiếp can Wrapper
Mô hình Filer đánh giá mỗi cá thể bằng một vải tiêu chuẩn hay độ đó nảo đó, rồi chọn ra lập con các thuộc tính được đánh giá cøo nhái Nhìi
clang, Eiler cơi tiến Bình của bích chọn thuộc tính như tiến trình thực thì
trước, san đỏ mới sử đụng thuật toán để phân lớp
Mô hình Wrapper sử đụng một thuật toán tìm kiếm để đánh giả tập con các
thuée tỉnh coi như là một nhóm hon là một cả thể riêng lẻ Cốt lõi củø mô hình
Wrapper là một thuật toán máy học cụ thể Nò đánh giá độ tốt của những tập
con đặc trưng tùy theo độ chính xác học của tập con, điều nảy xác định thông qua một tiêu chí nào đó Những thuật toán tìm kiểm cũng sử dụng hàm đánh
giá kinh nghiệm (heuristics) để hướng dẫn việc tìm kiếm lập trung vào các đổi tượng cỏ triển vọng
Công việc cần thực hiện trong thuật toán trích chọn bao gồm
Trang 15<a
- Phương pháp để sinh ra tập thuộc tỉnh đặc trưng : (Có thể hiểu tương ứng,
với các chiến lược tìm kiểm) Đầu ra của bộ sinh sẽ xác định thuật toản trích
chọn đặc trưng Có hai chiên lược để sinh tập con
& Đẩy đủ (Complete) : Áp đụng chiến lược tim kiểm vét can dé sinh tập con Di với hấu hết các hệ thông máy thực, chiến lược này
khêng phủ hợp đo đổi hỏi tài nguyên quả lớn
s* Kinh nghiệm (Ileuristically) : Dễ giám bớt không gian tìm kiểm, kết
quá thu được ở mức chấp nhận được, chiến lược sinh tập con đặc
trưng dựa vào kmh nghiệm nào đó, có ba kỹ thuật diễn hình là lựa
chon tién (Forward Selection), luge bé hii (Backward Elimination)
va hea chon hai hiring (Bi— direction Selection),
- Định nghĩu hàm đánh giá : (đưa ra eae tidu chi dé od thé xae dink mdi thuộc
tinh hay nhóm thuộc tỉnh lá tốt hay không tố), Bồ đánh giá của những mô hình
thuật toán khác nhan là khác nhau Bộ đánh giá mỏ hình Filfer thường là các hàm đánh giá, trong khi mô hình Wrapper là độ học chính xác đạt được bi quả
trình thực thi thuật toán học máy điều khiến trên hệ thống học
Tlam đánh giá : hàm đánh giả thường đừng như xắp xỉ chất lượng
(Approxination Quality}, dé quan trong (Feature Importance), trọng
sé cua thudc tinh (Feature Weight) Hoc chinh xac : mé hinh Wrapper, dé ligu chia ngdu nhiên thành hai
tập, tập huần luyện và tập kiểm tra Độ chính xác đạt được tiong trường hợp nảy là giá trị ngẫu nhiên Đề tăng cường độ ôn định mô
lủnh Wrapper chúng te thường sử dụng kỹ thuật kiểu tra chéo (Cross
Vahdalion)
- óc lượng hằm đánh giá đó : kiểm chứng lại xem hàm dar gia o uc sur
phủ hợp và hiệu quả với bộ dữ liệu không
2.3 Kết luận
Trích chọn thuộc tính giúp tìm ra những đặc trưng tốt nhất, đồng thời loại
hỗ nhiễu, giảm bớt chiều trong đữ liệu Hai mô hình phả biến trang phương
pháp trích chọn thuộc tính đặc trưng là Filter và Wrapper Mỗi mô hình đếu cỏ
những ưa điểm và nhược điểm riêng Tủy từng yêu câu và trường hợp cụ thể mà
ta od thé ap dụng một trong hai mô hình này
Trang 16Chương 2 Ilọ thuật toán 4-Lang giéng gan nhat và Thuật
toán Di truyền
2.1 Họ thuật toán k-Lang giéng gần nhất
2.1.1 Khái niệm
Nếu không cò cái ngẫu nhiền đi cùng với cải tất nhiên, khoa học thống kê
sẽ không ra đời Một trong những nhiệm vụ cơ bản của thống kê là di ước lượng
cái chắc chắn tương đổi trong cái không chắc chẩn (bat định) Để làm việc với cái không chắc chấn này, thống kẻ chủ yêu dựa vào khải mệm về khoảng cách
Từ việo tính toán khoảng cách cáu điểm, tính độ lệch chuẩn, phương sai của biển
ngấu nhiên cho đến cáo nông gụ xa hơn là cáu công cụ phần tích tương quan, phương sai, phân tích các yếu tố (tạm dich tir factor analysis), phân tích các
Thành phần trọng yéu (tam dịch từ principal component analysis), phân tích cụm
(tem địch từ cluster analysis) đều dựa trên khái niệm khoảng cách
Ngoài ra khoảng cách cũng không chỉ đơn gián là độ dài đường, nỗi điểm
nay tới điểm kia, là sụ xa và gân như thỏng thường vẫn dùng, khoảng cách con
có khoảng cách giàu nghèo, khoảng cách học vấn nhìn chung khoảng cách còn nên dược hiểu rộng hơn như là sự khác biệt (difference), đổi khi còn được
xưm là lỗi (enor) Sự khác biệt ấy thê tiện cững không giống nhau tủy theo đơn
vị đo, không ghm, cách thức đo, tỉnh định lượng hay ước lượng thống kê Theo
tôi, khoảng cách là khái mệm có thể xem lá cốt lõi của nhiều chủ đẻ như lầm
kiểm, phân loại, nhận dạng
2.1.2 Thuật toán Láng giềng gần nhất (NN)
Thuật toán Táng giểng gần nhất (NN) là một trong những thuật toán đâu tiên duoc ding đề tìm lời giải cho bài toán người bảng hàng, Bài toán được đưa
ra đầu tiên năm 1930 và là một trong những bải toán được nghiên cứu sâu nhật trong tối ưu hỏa (tiếng anh : Travelling salesman problem) Bài toán được phat
biểu như sau : Cho trước một danh sách các thánh phỏ và khoáng cách giữa chung, tim chủ trình ngắn nhất thăm mỗi thành phố đứng một lần Trong khoa học máy tính, bài toán người bán hàng là một vẫn để cơ bản và có rất nhiều ứng dụng, phương pháp tực tiếp nhằm tìm ra lời giải phố biển là kiểm tra tật cả ắc
Trang 17tổ hợp Tuy nhiền, trên thực tế phương pháp này không khả thí bởi, nếu lấy mẫu chỉ gém 20 thành phỏ thì sẽ có gần 60,8 triệu tí phép so sánh để tim ra hành
trình có lợi nhất Thuật toán NN thường cho kết quả chênh lệch trong phạm vi
20% so với đường đi tối ưu
Các bước của thuật toán
Thước 1: Chọn một nút bất kỳ làm nút xuất phát và đầy là nút biện lành
Tiước 2 : Đánh đấu nút hiện hành đã được đi qua
Bước 3 : Tìm một nút chưa đi qua có khoảng cách đến nút hiện hành là
ngắn nhất, đánh đâu nút này là mút hiện hành mới
Bước 4: Nếu chưa đi qua tất cã các mút thì quay lại bước 2
Thứ tự mà các mùt được đi qua chính là kết quả của thuật toân Diễn đễ
nhận thấy, một quan sat (observation) sẽ gán nhãn lớp một đối tượng quan sát trong lập tham chiếu có nét tương déng (khoảng cách gần nhật) với đối tượng
đó Độ tương tự giữa các đổi tượng đữ liệu được quyết định dựa vào một hàm
do Khoang cach
2.1.3 Thuật tuán &-Láng giềng gin nhat (ANN)
Thuật toán k-TLáng giống gần nhất (ENN) [10] là một mở rộng đầu tiên của phương pháp trên, và thường được sử dụng rộng rãi trong Thực tế Ở day không
chỉ tham chiên đến một làng giểng gần nhất mà xét dén & lang giếng gần nhật
trong lập tham chiếu của đổi lượng cân gản nhấn Điều này giúp ảnh hường hợp một đối tượng quan sát kỳ đị (nhiễu) trong tập tham chiến quyết định nhãn
lớp Tham số & do người dùng lựa chọn Nhãn lớp được gan cho đối tượng là lớp chiếm đại đa số trong tập & láng giéng vừa xác định
Mức độ cục bộ của phương pháp nảy phụ thuộc vào tham số & Với & = 1,
ứng với thuật toán Láng guêng gần nhất cơ bản, cho mức độ cục bộ tối đa Với k
„ kéo theo một kết quả gản nhãn duy nhất chơ mọi đối tượng quan sát mới, nhấn lớp xuất hiện nhiều nhất trong tập thưan chiếu sẽ luôn được chọn
Bồ phân lớp dựa trên thuật toán & láng giêng gắn nhất là một bộ học hười
(lazy learer), không cần thực hiện quá trinh học cho mô hình Nó cân sử dụng
tất cả các đối tượng dư liệu trong tập tham chiếu để ra quyết định gan nhãn lớp cho mét quan sát mới Dễ tỉnh toán khoảng cách, chúng ta thuờng sứ dụng một
Trang 1810
trong các hảm tính khoảng cách sau ; ham Euclidean, ham Minkowski va ham Mahalanobis
Ví dụ minh họa thuật toán KNN : trong một không gian quan sát k=5, cản
gán nhãn cho đổi tượng x (hình tròn 2), xét các đối tượng thuộc hai lớp, minh họa lớp dương (+) là hình tròn có dẫu công và lớp âm là hình tròn cỏ dầu trừ (-)
Hinh 2.1: Vi du vé thuat toén KNN’
Trong 5 lang gieng gần nhất của đôi tượng cần phân lớp x có ba đổi tượng quan
sát thuộc lớp âm (-), và hai đối tượng quan sát thuộc lớp dương (+) Như vậy x
sẽ được gắn nhãn lả lớp âm (-)
2.1.4 Thuật toán Đánh trọng số &-Láng giềng gần nhất (W&NN)
Thuật toán Đánh trong số &-Láng giêng gần nhật (WANN) [7] cai tién thuat
toán ENN theo ý tưởng : các láng giềng ở gần đối tượng quan sát mới x phải có vai trỏ quan trọng hơn so với các láng giêng ở xa trong việc quyết định nhãn lớp
của x Trong thuật toán kNN thi ca & láng giéng gan nhất của x đều cỏ vai trỏ ảnh
hưởng như nhau, đủ độ tương tự giữa từng thành viên trong chúng so với x có
thể khác xa nhau Đề phản ánh độ quan trọng khác nhau của các láng giẻng gần
nhất của x, các giả trị khoảng cách từ chủng đến x cần được biển đổi thành các trọng số Theo đỏ, môi láng giềng của x sẽ được gản cho một giả trị trọng số, giả trị này sẽ được dùng trực tiếp đề quyết định nhãn lớp cho x
Trang 19Hàm /(@) phải thỏa mãn các tính chất sau:
«Ổ #J>0Vde€R
© fd) dat gid tr ome dai khi d= 0
© 2 là hàm giảm nghiêm ngặt với ¿ › =o Tức /ÿdj) < /Jd;) Vd, >
Tên hàm Công thức tương ứng
Trang 2012
Các hàm trọng số trong Bằng 21 đều có tập xác dinh 14 [0, 1], va để tránh trường hop giả trị trọng sở của một láng giềng nào đỏ bằng 0 (khỉ đ = 1), tức láng giếng đó hoàn toàn không có vai trò gì trong việc quyết định nhãn lớp của
đổi tượng quan sát x, thì giá trị của đ cần được chuẩn hóa để xác định trong khoảng [0, 1] WÈNN thực hiện điều này bằng cách sử dụng giá trị khoảng cách của láng giéng gan nhất thủ (Etl) khi chuẩn hỏa các khoảng cách của # láng
Trong đó: d(x,x¿ạ) là khoảng cách từ láng piểng thứ ï đến x
(2, X¢.41)) 14 khoding edch từ lắng giềng thứ k1 đến x
£ > 0 là một hằng số có giá trị rất nhỏ được đảng để đảm bảo
D(x,xq@) <1 Néu không dimg £ thì trong trường hợp mệt trong sé k lang giềng gần nhất của x có khoảng cách đến x bằng với láng giếng gần nhất thứ (+1) thì khoảng cách sau khi chuẩn hỏa của nỏ sẽ bằng 1 Dẫn đến trọng số của
nó sé bang 0 nếu đừng với một số hàm trọng sé trong Bang 2.1 ở trên
Với cách chuẩn hoa nhy trén thi ta sé dam bảo Đ(x,x¿)} c[0,1) Ví Và
như vậy ta có thê sử dựng được bắt kỳ hàm trọng số nào trong Bảng 2.1
Sau khi xác định các độ đo tương tự cho các quan sát trơng tập tham chiéu, mỗi đối tượng quan sát mới x sẽ được phân vào lớp z có tổng các trọng số lớn
nhất:
max, (> (F(0(220)) He = 2) @2
1
1, cond = true Trong đề: 1(eond) =| vont a fate
Trang 2113
Gõ thể coi hai thuật tod ENN va NN | cac trường hợp đặc biết của thuật
toán WÈNN Ta có kết quả của thuật toán kÑM nếu chọn sứ dựng hàm trọng số Rectangular Và có kết quả của thuật toán NN nếu chọn # = 1, với mọi lựa chon
của hàm trọng số
Mục đích chính của phương pháp này là xây dựng được một kỹ thuật trong,
đỏ đạt tới một cấp độ tương đổi
ENIX thủ việc chọn sai giá trị của k sẽ dẫn đến tỉ lệ phân lớp sai lớn Số lượng các
táng giểng gần nhất hoờn toàn được Ẩn đã với việc sử dụng các Họng số: nến k cỏ
lập với việc hựa chọn giả trị tham số É, với
giá trị quá lớn, nó sẽ tự động được điều chỉnh xuống một giá bị thấp hơn Trong trưởng hợp này, một số nhỏ các láng giéug có lrọng số lớn sẽ lên át các láng giéng khác
- Thuật toán W&NN được mô tả tổng quan ở dưới đây:
Bước 1: Dặi L = {Œ, x;), ? = 1, , m } là tập tham chiếu chứa các đối
tượng quan sát x, với nhãn lớp tương ứng y„ Giá sứ ta củn phán
đoán nhãn lớp „ của một đối tượng quan sốt mới x
Thước 2: Tìm &~| lãng giểng gắn nhất của x dựa vào mội hàm khoảng cách
d(x, x) O day dùng hàm khoảng cách Minkowski
1
4
;
Bước 3: Sử dụng công thức (2.1) để chuẩn hóa khoảng cách từ x đến & lang
giống gầu nhất của nó
Tước 4: Sử dung mat trong số các hàm trọng số để biến đổi các khoảng,
cach chuan Dj thanh cdc gia trị trọng số:
Bước §: Chon lớp có tổng các trọng số lớn nhất đề gần nhãn cho x:
Trang 22Hinh 2.2: Vi du vé thudt ton WKNN
Trong Hinh 2.2 trén ta thay cac lang giéng gan nhất của đổi tượng quan sat can phản đoán lớp x thuộc về hai lớp: lớp duong (+), va lop am (-) Gia str sau khi tinh toan khoang cach ta tim duge 5 lang giéng gan nhat ctia x như trên, trong đó có 3 đổi tượng thuộc về lớp âm (-) và 2 đổi tượng thuộc vẻ lớp đương (+) Giả sử các trọng số của từng lang giêng cỏ giả trị tính được như trên hình
vẽ
Ta có:
Tổng trọng số của lớp dương là: 0.73 + 0.71 = 1.44
Trang 2315
Tổng trọng số của lớp âm là: 0.33 + 0.34 + 0.35 = 1.02
Nhu vay x sẽ được phan đoàn thuộc về lớp dương (†) ví lớp này có tổng
trọng số lớn nhất
Qua vi du nay ia thdy có sự khác biệt rõ ràng trong kết quả phản đoán của
WENN và KNN Nếu sử dụng bộ phân lớp &NN thì z sẽ dược phán đoản thuộc về
lop am (-} vì đây là lớp cludm dai đa số trong 5 láng giểng gần nhật của x
Nếu sử dụng bộ phân lớp W#NN thì x có kết quả ngược lại
2.1.5 Thuật tuán Ilàm nhân š-Láng giềng gần nhất (Kernel š-NN)
- Tổng quan
“Thuật toan ANN đã cho kết quả tốt trong nhiều bài toàn thực tế Tuy nhiên,
với cáo bài toán chạy trên dữ liệu phi tuyển phức tạp, nơi đữ liệu phân bỏ tương
đối tùy ý, nó thường cho kết quả khá tôi Từ thực trạng đó, năm 2002, nhóm tác
gid Kar Yu, Liang Ji, va Xucgong Zhang, tiển cân theo hướng sử dụng liàm nhân
(Kemsl) để cải tiến độ chính xác của thuật toản #NN trên không gian phi tuyển [12] Về bản chất Kemel ¿NN dùng một hàm phi tuyển anh xa các mẫu dữ liệu trong không gi bạn dầu sang muội không giảm đặu trưng mới, rồi thực hiện thuật toán NN tiên không gian đặc nung mai dé Điểm mẫu chết của phương,
pháp uày là dựa vào việc sử dựng một hàm nhân để tỉnh phép nhận trong (trmei
produet) của các vectơ là ảnh của các mẫu đữ liệu ban dau qua phép ảnh xa Nêu
chọn được một hàm nhân phù hợp thì hiệu quả của thuật toán ANN cé thé duoc
cải thiện đáng kế
Ta xét trưởng hợp ảnh xạ một không gian n-chiều sang một không gian đặc
trưng zm-chiều như sau:
anh xe đặc trung
xu esq) ——>Œ) = (04(E),«.Øm(%)),x € Sy W(X) E Sp
Trong đỏ 3; lả không gian m-chiều ban đầu và 52 là không gian đặc trưng mới có
mechidu, x la một veclo tùy ý trong S, yx) la vecto tuong tng trong $2 Ú là
Trang 24K(x, y) = GX), YON) (2.6) Trong đó (j(),t0(y)} biểu điễn phép nhân trong của (x) va p(y), K(x, y) la xột hàm của x và y
Việc định nghĩa một hàm nhân như công thức (2.6) ở trên dẫn đến phép nhân trong trong không gian đặc trưng mới có thể được tỉnh mà không cân thực
sự thực hiện phép ảnh xạ tử Ba hàm nhân được ¡nô tá trong Báng 2.2 dưới đây thường được sử dụng rộng rãi
Bảng 2.2: Một số hàm nhân hay được dùng
Trong đỏ p,ø, a, 8 là các tham xố có thể điều chỉnh được
- Nguyên lý hoạt động
Trong thuật toán ENN truyén thống, một hảm đo khoảng cách chuẩn như
Xhoáng cách Euelidean thường được sử dụng Hằng cách định nghĩa lại hàm đo,
ta có thể sử dựng phương pháp hảm nhân để áp dụng vào thuật toan ANN Phương pháp sử dụng hàm nhân dựa trên một thực tế là ta cản phái tính phép
nhân trong giữa các vectơ là ảnh của các mẫu đữ liệu ban đầu qua phép ánh xạ
Do phép nhận trong chỉ tính được ong không gian Hilbert, nên ta chỉ quan lâm
đến cic ham đo khoảng cách chuẩn trong không gián Hilben Không gian
THIbert một đạng tổng quái hóa của không gian Buelidsan mà không bị giới hạn
vé van để hữu hạn chiêu Đó là một không gian có tích vô hưởng, nghĩa là trong
đó có khái niệm về khoảng cách và gỏe
Khoảng cách chuẩn đ(x,y) giữa 2 vectơ x và y là
Trang 25Như vậy khoảng, cách chuẩn trong khỏng gian đắc trưng mởi có thể được
tính bằng cách sử dựng mét ham nhân va cáo vectơ đữ liệu trong không gian m&u ban đầu mà không cân xác định và thực hiện phép ảnh xe ;ở Sau khi xác
định được hàm đo khoảng cách ở công thức (28), ta có thể dễ đàng thực hiện
thuật toán ENN trên không gian đặc trưng mới
- Dữ liệu và việc tính nhép nhân trung (inner nroduc
Con người mô tả thế giới đưới dạng thông tin, thông tìn cần được hm trữ
và xử lý để đem lại tri thức Bản chất thông tin là nhiều chiểu nên vector và ma
trận ra đời để hã trợ cho quả trình tiếp nhận, trao đổi thông tin của con người Ví
dụ : để mô tả vị trí một điểm trên một đường thẳng, ta chỉ cần một giá trị khoảng cách của điểm đó đến một điểm được chợn làm gốc, lúc này ta chỉ cần một vector có một phân tử Nếu điểm đỏ nằm trên một mặt phẳng, ta cần có một hệ
trục toa dé (gdm hai truc x va y) va vi trí điểm đã cho được xác định dựa trên
khoảng cách của nó đến hai trục tọa độ đỏ Lúc này fa cần một vector hai chiều (có hai phần tử) để mô tả vị trí một điểm trên một mặt phẳng Mở rộng, để mé ta xuột điểm Irong không gian la cần một vector ba chiểu (có ba phần tử) Suy rồng
đúng để chứa thông tin nhiều chiều theo nhu câu thực tế đặt ra
Ma trận có thể được coi là một dãy gồm nhiều “hàng” vector nồi tiếp nhau
trong đó mỗi hàng đại điện cho một đối tượng nao đó Theo ví dụ trên có thể là
nhiều người khác nhau Do đó một ma trận có thể chứa thống tin của nhiều
Trang 2618
người được khảo sát, thông tin mỗi người được lưu trơng một hàng và nuôi thông
số mô tả được hm trong một cột Sau khi “mô Iä" thông tin của các đổi tượng và
“hưu trữ” chúng bằng các vector và ma trận, việc tiếp theo là con người cân “xử
lý” có gắng tìm kiếm mối liên hệ giữa các vector và ma trận đó
Để diễn tá một mỗi quan hệ tuyến tính nảo đó giữa một veclor (biểu diễn
thông tìn cúa một đối tượng bằng n chiều) với một veotor khác (biếu diễn thông tìn của một đối tượng khác bằng m chiểu), người ta dùng môi ma trận có n hang
và mm cột Trang nhiều trường hợp hai đổi tượng có số chiều bằng hau va ta cd xột mã trận vuông để biểu điển mốt quan hệ tuyển tỉnh giữa chúng, Giả sử mi tiên vuông Á đại điện cho một phép biến đổi tuyến tính nào đó, nếu ta tim duoc một vector sao cho biển đổi tuyển tính của ma trận A lên vector đó không làm thay đổi chiếu, chỉ thay đổi độ lớn của vector đó, vector ứng với độ lớn thay đổi
đó được gọi là veotor riêng và trị riêng tương ứng, Độ lớn của trị riêng có mới
quan hệ tương ứng với khoảng cách Một ma trận m x n có thể biểu điển n biến ngẫu nhiên trong đó mỗi biển ta có m mẫu được quan sát Từ lý thuyết trên ta hoàn toán có thể tính tính phép nhân trong (mmer produet) của các vectơ trên
không gian đặc trưng mới
2.2 Thuật toán Di truyền (GA)
2.2.1 Giớithiệu
Thuật toán Di truyền (GA) hình thành dựa trên quan niêm cho rằng : guá
trình tiễn hóa và chọn lọc tự nhiền là hoàn háo nhất, hợp lý nhất và tự nó đã mang lĩnh tối tu [2] Quan niệm nảy được xom như một tiên để đúng chưa chứng mình được nhưng phủ hợp thực tế khách quan Quá trình tiên hỏa tối ưu ở chỗ, thể hệ san sau bao giờ cũng tết hơn, hoàn Hiện hơn thể hệ hước Sự tiến
hóa được hình thành từ hai quả tùh cơ bản là sinh sên và chọn lọc tự nhiền
Trong suốt quá trình phát triển của tiến hóa tự nhiên, các thể hệ mới không, ngững được sinh ra, không ngừng thay đôi để thay thế bổ sung cho thế hệ cũ
Thay đổi nào phát triển hơn, thích ừng tốt hơn với môi trưởng sẽ tổn tại ngược
lại sẽ bị đào thái Thực tế sự thay đổi môi trường là động lực thúc đẫy quá trình:
tiến hóa, đồng thời tiến hóa cững tác động ngược trở lại để thay đối môi trường