Luận văn tìm hiểu phương pháp tìm thuộc tính tối Ưu nhằm tăng hiệu quả phân tích trong phân tích dữ liệu lớn

Nhiệm vụ khai phả dữ liệu nói chưng, cũng như nghiên cửu các thuật toán phân lớp nói riêng trở nên ngày cảng bức thiết và đồng vai trò trung tâm trong việc giải quyết vắc bài toán cụ t

Trang 1

ĐẠI HỌC QUOC GIA HA NOL TRUONG ĐẠI HỌC CÔNG NGITỆ

HOÀNG VĂN TRÌU

TÌM HIỂU PHƯƠNG PHÁP TÌM THUỘC TỈNH TÓI ƯU

NHẰM TĂNG THỆU QUÁ PHẦN TICIT TRONG PITAN

TÍCH DỮ LIỆU LỚN

LUAN VAN TIIAC S¥ - NGÀNH CÔNG NGITỆ TIIONG TIN

Trang 2

DAI HOC QUOC GIA HA NOI

TRƯỜNG ĐẠI HỌC CÔNG NGITE

TOÀNG VĂN TRÌU

TÌM HIỂU PHƯƠNG PHÁP TÌM THUỘC TÍNH TÓI

ƯU NHẰM TĂNG HIỆU QUÁ PHẦN TICII TRONG PIIAN

TÍCH DỮ LIỆU LỚN

Ngành: Công nghệ thông tin

Chuyên ngành: Kỹ thuật phần mêm

Mã Số: 60480103

LUẬN VĂN THẠC SỸ - NGÀNH CÔNG NGIIỆ TIIGNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYÊN HÀ NAM

HA NOI - 2015

Trang 3

Lời cam đoan

Tôi xin cam đoan luận văn “ Tìm hiểu phương pháp tim thuộc tính tối

xu nhằm (ăng hiệu quả phân tích trang nhân tích dữ liệu lớn ” là công hình

nghiên cờu của riêng tôi Các số liệu, kết quả được trình bay trong luận văn lá

hoàn toàn trung thực Tôi đã trích dẫn đẩy đủ các tải liệu tham khảo, công trình nghiên cứu liên quan Ngoại trừ các tài liệu tham khảo này, luận văn hoàn toán

là công việc của riêng tôi

Luận văn được hoàn thành trong thời gian tôi là học viền tại Khoa Công nghé Thong tn, Trudug Dan học Công nghệ, Đại học Quốc gia Hà Nội

Hà Nội, ngày 31 tháng 08 năm 2013

lHạc viên

Tloang Van Trìu

Trang 4

Loi cam on

Lai diu Hiến, tôi xim gửi lời cằm ơn và lòng biết ơn sâu sắc nhất tới

PGS.TS Kguyển Hà Nam đã lận tỉnh hướng dẫn tôi trong suốt quá uình thực

tiện luận vẫn tốt nghiệp

Tôi chân thành cảm ơn anh nghiên cứu sinh 1à Văn Sang và anh nghiên cứu sinh Lữ Dãng Nhạc đã tận tỉnh chỉ báo trong quá trình thực hiện luận văn

Tôi cảm ơn những người bạn trong nhôm nghiên cửu của PQS.T8 Nguyễn

Hà Nam đã luôn bêu tôi chía số những kinh nghiệm trong học tập cũng như

trong cuộc sống,

Tôi chân thành cảm ơn các thấy, cô đã tạo cho tôi những điều kiện thuận lợi để tôi học tập và nghiên cứu tại trường Dại học Công Nghệ

Tôi xi gứi lời cảm ơn tới các bạn trong lớp cao học KI9 đã ủng hộ,

khuyên khích tôi trong suốt quá trình học tập tại trường

Tôi xim chân thanh cam ont

TIà Nội, ngày 31 tháng 0 năm 2015

Họư viên

Hoang Văn Trìu

Trang 5

Chương l Giới thiệu Khai phá đữ liệu 0 2S 22021 3

1.1 Téng quan Khai pha dit Hid - 3 1.3 Tổng quan trích chọn thuộc tính, wd

2.3, Ket hudin a7

Chương 2 Họ thuật toán k-Láng giêng gắn nhất và Thuật toán Di truyền 8

3.1 Ta thuật toán &-Làng giẳng gắn nhất 8

3.1.3 Tuaậi toán Lưng giẳng giần nbdt (NN) § 3.1.3 Thuậi toàn k-Láng giằng gân nhật (KG coi WD 2.1.4, Thuật taảm Dinh trong <4 k-Lang giéng grin nhdt (WENN) 10 3.1.5 Thuậi loàn Hàm nhân k-Lang giéng gan nbdt (Kernel k-NN} 15 2.2, Thes@i botiea Di tryin (GA) acess sessesee sssesestiensen siiveevensimasesssmnanesenases £8

Chương 3 Mê hình GÀ Kemel &-NN va két quả thực nghiệm -26

3.1.1 Kiển trite GA_Kertel KANN coccssssssssssessesesensesesies ssssiuieieauaneasevasessaesee 2B

3.2.2, MOI irvong tec ABR esses eseveisaneieenanateinanimennsaain: 2D

3.3.2 Kết quả chạy trém BG dit WE ÂTC€H€, nuoc 33

3.3.3 Kết quả chạy trén b6 dit liu DLBCL Diffuse large B-cell bamphona 0.0000 37

Trang 6

Danh mục hình vẽ

1.1: Quá trình phát biện tr thức trong cơ sở dữ liệu

TTình 1.2 : Tướng tiếp cận Filter -

Hình 1.3 : Hướng tiếp cận Wrapper

Tình 2.1: Ví dụ về thuật toán KMN

Tlinh 2.2: Vi du vé thuat toan WENN

Himh 2.3 : Cae thanh phan efia thnal toan GA

Tlinh 2.4 : Các toán tứ của thuật toán GA

Tình 3.1 :Mô hình thuật toán GA_Kemel k-NN

Trang 7

Danh muc bang

Bang 2.2: Mét sé ham nhan hay được dùng HH reeun re 16 Bang 3.1: Danh sách tên hàm cải dat thuat toan GA_Kemel k-NN 32

Bang 3.2: Tổng quan các bộ đữ liệu sử dụng 33

Bang 3.3: Tém tit 46 chinh xdc GA Kemel k-NN va GA RF trén Arcene 34 Bảng 3.4: Số thuộc tinh trich ton GA_Kernel k-NN va GA_RF trén Aicene 35 Tảng 3.5: Dộ chính xác GA Kemel k-NN va céng bé trén Arcene 136 Bảng 3.6 Tóm tắt độ chính xác GA_ Kemel k-NN và GA_RF trên DLBCL 38 Đảng 3.7: Số thuộc tinh trích chọn GA Kemel k-KN và GA RE trên DLBCL, 39 Bang 3.8: Dộ chính xác GA Kemel k-NN vá công bổ trên DLBCL 140

Trang 8

Danh mục viết tắt

3 | Genetic Algoritins_Kemel &Nearest Neighbors | GA_Kemel k-NN

4 | Genetic Alorithms Random Forest GA RF

5 | Weighted & Nearest Neighbors WENN

7 | Keimel &-Nearest Neighbor Kernel 4-NN

9 | Proximity Measure - Support Vector Machine | Rfprox-SVM

Trang 9

Giới thiệu

Khoa học kỹ thuật phát triển, đi cùng với nó là sự phát triển không ngừng

của đữ liệu về kích thước và chúng loại Nhiệm vụ khai phả dữ liệu nói chưng,

cũng như nghiên cửu các thuật toán phân lớp nói riêng trở nên ngày cảng bức

thiết và đồng vai trò trung tâm trong việc giải quyết vắc bài toán cụ thể, Thực tế cho thấy, chúng ta chỉ có thể tìm ra một số thuật toản phù hợp với một số loại dit Tiêu cụ thể và bị giới hạn về kích thước đữ liệu Kết quả của tmật toán plụu thuộc

rất nhiễu váo việc xử lý đứ liệu thô Trong khai phá đữ liêu, phương pháp trích

chọn đồng vai trò quan trọng trong tiên xử lý số liệu, đặc biệt đổi với ngành tin

sinh học, xử lý đữ liệu âm thanh, hình ảnh, đử liêu mạng xã hội Đặc điểm chung của những lĩnh vực này là kích thước rất lon (hang trim, hang tram nghìn

thuộc tính) nhưng chỉ một số ít thuộc tính có giá trị đùng để phân tích Trích

chọn thuộc tính giúp tìm ra các thuộc tỉnh có ích, loại bỏ các thuộc tính dư thừa

Phương pháp tác động trực tiếp đến kết quá của thuật toán như tăng tốc độ xử lý,

cải thiện dữ liệu, tăng hiệu xuất khai phá

Thuật toán k-Láng giéng gan nhat (ANN) [10] la mét trong những kỹ thuật

cơ bản, dơn giản và trực giác nhất trong lĩnh vực phân tích thống kê Bộ phân lớp dựa trêu thuật loáu #NMN là một bộ học lười (azy learuer), không cản thực hiện quá trình học cho mô hình Nó cầu sử dụng lắt vã cáo đổi tượng dữ liệu trong tập tan chiếu để ra quyết định gán nhấu lớp cho một quan sắt mới Thực nghiệm cho thấy, thuật toán kNN đơn giãn, nhưng thường cho kết quá khả tết Tuy nhiên hiệu quả của thuật toán hạn chế đo nên tảng xây đựng dựa trên đữ

liệu tuyến tính Dễ có thể áp dựng thuật toán này vào đữ liệu phi tuyến, đã có nhiều nghiên cửu ứng dựng các kỹ thuật khác nhau để có thẻ biến đổi đữ liệu tuyển tính thành đỡ liệu phi tuyển Tưởng tiếp cận trong luận văn này là sứ dựng một phép biến đổi từ không gian ban đâu sang một không gian mới sau đó áp

dụng thuật toán #MN, Việc tính toán rên không gian phi tuyển là công việc của

thuật toán Hảm nhân & Láng giéng gan nhat (Kemel - k Nearest Neighbor)

I2]

Thuật toản Di truyền (GA) [1] là kỹ thuật tìm kiểm tối ưu ngẫu ohién

phỏng theo quá trình thích nghĩ tiển hóa của các quản thể sinh vật Tư tưởng của

Thuật toán GA là mô phỏng sự phát triển tự nhiên, kế thừa và đấu tranh sinh tồn

Trang 10

bà

của sinh vật Thực tế chỉ có những sinh vậi Nêu tục tiên hóa để thích nghỉ với hoàn cảnh sẽ tên tại và phát triển GA xét đến toàn bộ các lời giải bằng cách,

trước tiên chọn tập các lời giải sau đó loại bỏ những lời giải không thích hợp và

chọn những lời giải thích hẹp hơn để tiến hành lai ghép và đột biến nhằm mục

dich tạo ra nhiều lời giải mới có độ thích nghỉ ngáy cảng cao GA giúp tim ra lời

giải tối ưu hay tốt nhất trong điều kiện thời gian và không gian cho phép

Trong luân văn này tôi đưa ra một cách tiếp cân mới kết hợp thuật toan

GA va Kerel 2-NN theo mé hinh Wrapper GA gulp fim ra cde lập thuộc tính

va Kernel &-NN tra vé két qua ofa ham mwue tiéu trong GA Hay oi mdt cach khác, GA đã chọn một tập thuộc tỉnh được cơi là tỐI nhất trong quần thể các

thuộc tính, tập thuộc tỉnh tốt được hiểu trong ngĩt cảnh hiện tại là các thuộc tính

được trích chọn giúp phân lớp tốt nhất đựa trên kết quả của hàm tính khoảng,

cảch trong thuật toản Kemel &-NX GA đã giúp tăng độ chính xác phân lớp nhờ

việc tôi tra đữ liệu đầu vào cho thuật toàn Kernel š-NN

Nội dung của luận văn được chua thành các chương như sau:

Chương 1: Giới thiệu Khai phá dữ liệu

Chương 2: Cơ sở lý thuyết

Chương 3: Mô hình GA Eernel &-NN và kết quả thực nghiệm

Xết luận: Tóm lược kết quả đạt được của luận văn

Trang 11

Chương 1 Giới thiệu khai phá dữ liện

1.1 Tổng quan Khai phá dữ liệu

Thai phá đữ liệu là một khái niệm ra đời cuối những năm 80 của thế kỹ

trước, Nó bao hàm một loạt các kỹ thuột nhằm phát hiện các thông tin cỏ giả trị

tiểm ấn trong đữ liệu lớn Vẻ bán chất, khai phá dữ liệu liên quan đền việc phan

tich các dữ liệu và sứ dụng các kỹ thuật để tìm ra cóc mẫu hình có tính chính quy trong tap dữ liệu Năm 1989, Fayyad, Piatestsky-Shapiro va Smyth đã

dùng khải miệm phát hiện lí thức trong cơ sở dữ hu (Knowledge Discovery in Database — KDD) để chỉ toàn bộ quá trình phát liện các trí thức

có Ích từ rác tập dữ liệu lớn [11] Trong đó, khai phá dữ liêu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các xấu hay các mô hình từ đứ liệu

Ở một góc độ nào đó, khái niệm khai phá để liệu và khai phá trí thức

nhiều khi được coi là một Tuy nhiên, nêu xét kỹ thì khai phá đữ liệu chỉ là

xuột khẩu quan trọng trong khai phá trí thức Một quá trình phát hiện trị thức

trong cơ sở đữ liệu bao gôm các guai đoạn chính sau :

(1) Làm sạch dữ liệu (Dala Cleaning): Khử nhiều và các dữ liệu mâu thuẩn,

(3) Tích hợp dữ liệu (Data Integration) K& hop nhidu nguén dir héu khác

nhau

(3) Lựa chon dit ligu (Data Selection): Chất lọc lẫy những đỡ liệu liên quan

điến nhiệm vụ phần tích sau này

(4) Biển dỗi dữ liệu (Data Trangformaiion): Biển dỗi dữ liệu thụ được về

đảng thích hợp cho quá trình khái phá

(S) Khai phá dữ liệu Oala Miming): Sử dụng những phương pháp thông

minh để khai thác đữ liệu nhằm thu được các mẫu mong muốn

(6) Danh giá kết qué (Pattern Evaluation): Sit dung các độ do để đánh giá

kết quá thu được

() Biểu didn tri thize Knowledge Presentation): Sir dumg cae công cụ biểu diễn trực quan để biểu điển những trị thức khai phá được cho người

dùng,

Trang 12

SH Tà có Hệ 5 Lo hoe ,

Quá trình này có thể được lấp lại nhiều lẫn, muội bay nhiều giai đoạm trước có

Thế được lắp lại dựa trên phản hỗi từ kết quả của các giai doan sau

+ t : ị Đánh giá và

Tình 1.1: Quá trình phát hiện tri thức trong cơ sở đữ liệu

Một số phương pháp khai phá dữ liệu tiêu biểu:

% Phan lop (Classification) : Kira thác một hàm đã được huấu luyện

trước đề phân loại một dối tượng dữ liệu vào một trong các lớp được

định nghữa trước

* Hồi qui (fegression) : Khai thác một hàm đã được huấn luyện trước

để ánh xạ một đổi tương dữ liệu thành một giả trị thực là kết quả dự

báo

# Phân cụm (Cfustzring) : Giải quyết vẫn để tìm kiếm, phát hiện số

lượng hữu hạn các cựm mô tả một tập hợp đữ liệu ban đâu không có

nhấn Đó là quá trình tim cách nhóm các đối tượng đã cho vào các

cụm, sao cho cáo đối tượng trong cứng một cụm tương tự nhau (similar), và các đối tượng khác cụm thì không tương tự nhau

(dissimilar)

Trang 13

4 Tổng hựp (Summarization) : Qua bình bao gầm các phương pháp để

tìm một mô tâ xủe tích cho một tập (hoặc một tập con) đữ liệu + Mé hinh héa rang bude (Dependency Modeling) : Tim một mỗ hình cục bộ mô tả các Tang buéc quan trong gitra cáo biến hoặc giữa các giá

trị của một đặc trưng trong một tập dử liện hoặc trong một phân của

có ích đẳng thời không được quá tốn kém chỉ phi tài nguyên và thời gian Công

đoạn trích chon nhằm tìm ra thuộc tính đại diện phủ hợp yêu cầu phân tích, loại

bö thuộc tính dư thừa, thuộc tính nhiễu, tăng hiệu suất vá kết quả khai phá đữ

liệu Có rất niuêu phương pháp và các hướng tiếp cận khác nhau, tựu chủng lại

déu hướng đếu mục tiêu :

« Tăng tốc độ thuật toán

©_ Giảm không gian lưu trữ dữ liệu

«œ_ Giúp biểu diễn, mình họa dữ liệu đễ dàng hơn

Để đánh giá độ tết của một tập con đặc trưng phụ thuộc vào yêu cầu cụ thể

ki phân tích dữ liệu, mọi cổng việc trong toản bộ quá trình cũng đều hướng

mục tiêu đạt được yêu câu cụ thể trên Vẻ cơ bản chủng †a cở thể phân loại các

phương pháp trích chọn theo hai cách tiếp cận khác nhau là Filter và Wrapper

được trình bảy trong cáo tải Hệu [3, 13] Lược đỗ thực hiên [3] được giản hóa

trong lai hình vẽ đưới đây

Trang 14

Theo mỏ hình Pilter, các thuộc tính được chọn độc lập với thuật toán khai phá

dữ liệu Ngược lại, mồ hinh Wrapper các thuộc tính được chọn phụ thuộc theo một nghĩa nào đó với thuật toán khai phá dữ liệu

Tìm kiếm thuộc tính ` Thuật toán phan lép

“Tập thuộc tinh Đánh giá kết quả (Kiểm chứng)

‘Thude tinh phn lop

“Hình 1.3 : Hướng tiếp can Wrapper

Mô hình Filer đánh giá mỗi cá thể bằng một vải tiêu chuẩn hay độ đó nảo đó, rồi chọn ra lập con các thuộc tính được đánh giá cøo nhái Nhìi

clang, Eiler cơi tiến Bình của bích chọn thuộc tính như tiến trình thực thì

trước, san đỏ mới sử đụng thuật toán để phân lớp

Mô hình Wrapper sử đụng một thuật toán tìm kiếm để đánh giả tập con các

thuée tỉnh coi như là một nhóm hon là một cả thể riêng lẻ Cốt lõi củø mô hình

Wrapper là một thuật toán máy học cụ thể Nò đánh giá độ tốt của những tập

con đặc trưng tùy theo độ chính xác học của tập con, điều nảy xác định thông qua một tiêu chí nào đó Những thuật toán tìm kiểm cũng sử dụng hàm đánh

giá kinh nghiệm (heuristics) để hướng dẫn việc tìm kiếm lập trung vào các đổi tượng cỏ triển vọng

Công việc cần thực hiện trong thuật toán trích chọn bao gồm

Trang 15

<a

- Phương pháp để sinh ra tập thuộc tỉnh đặc trưng : (Có thể hiểu tương ứng,

với các chiến lược tìm kiểm) Đầu ra của bộ sinh sẽ xác định thuật toản trích

chọn đặc trưng Có hai chiên lược để sinh tập con

& Đẩy đủ (Complete) : Áp đụng chiến lược tim kiểm vét can dé sinh tập con Di với hấu hết các hệ thông máy thực, chiến lược này

khêng phủ hợp đo đổi hỏi tài nguyên quả lớn

s* Kinh nghiệm (Ileuristically) : Dễ giám bớt không gian tìm kiểm, kết

quá thu được ở mức chấp nhận được, chiến lược sinh tập con đặc

trưng dựa vào kmh nghiệm nào đó, có ba kỹ thuật diễn hình là lựa

chon tién (Forward Selection), luge bé hii (Backward Elimination)

va hea chon hai hiring (Bi— direction Selection),

- Định nghĩu hàm đánh giá : (đưa ra eae tidu chi dé od thé xae dink mdi thuộc

tinh hay nhóm thuộc tỉnh lá tốt hay không tố), Bồ đánh giá của những mô hình

thuật toán khác nhan là khác nhau Bộ đánh giá mỏ hình Filfer thường là các hàm đánh giá, trong khi mô hình Wrapper là độ học chính xác đạt được bi quả

trình thực thi thuật toán học máy điều khiến trên hệ thống học

Tlam đánh giá : hàm đánh giả thường đừng như xắp xỉ chất lượng

(Approxination Quality}, dé quan trong (Feature Importance), trọng

sé cua thudc tinh (Feature Weight) Hoc chinh xac : mé hinh Wrapper, dé ligu chia ngdu nhiên thành hai

tập, tập huần luyện và tập kiểm tra Độ chính xác đạt được tiong trường hợp nảy là giá trị ngẫu nhiên Đề tăng cường độ ôn định mô

lủnh Wrapper chúng te thường sử dụng kỹ thuật kiểu tra chéo (Cross

Vahdalion)

- óc lượng hằm đánh giá đó : kiểm chứng lại xem hàm dar gia o uc sur

phủ hợp và hiệu quả với bộ dữ liệu không

2.3 Kết luận

Trích chọn thuộc tính giúp tìm ra những đặc trưng tốt nhất, đồng thời loại

hỗ nhiễu, giảm bớt chiều trong đữ liệu Hai mô hình phả biến trang phương

pháp trích chọn thuộc tính đặc trưng là Filter và Wrapper Mỗi mô hình đếu cỏ

những ưa điểm và nhược điểm riêng Tủy từng yêu câu và trường hợp cụ thể mà

ta od thé ap dụng một trong hai mô hình này

Trang 16

Chương 2 Ilọ thuật toán 4-Lang giéng gan nhat và Thuật

toán Di truyền

2.1 Họ thuật toán k-Lang giéng gần nhất

2.1.1 Khái niệm

Nếu không cò cái ngẫu nhiền đi cùng với cải tất nhiên, khoa học thống kê

sẽ không ra đời Một trong những nhiệm vụ cơ bản của thống kê là di ước lượng

cái chắc chắn tương đổi trong cái không chắc chẩn (bat định) Để làm việc với cái không chắc chấn này, thống kẻ chủ yêu dựa vào khải mệm về khoảng cách

Từ việo tính toán khoảng cách cáu điểm, tính độ lệch chuẩn, phương sai của biển

ngấu nhiên cho đến cáo nông gụ xa hơn là cáu công cụ phần tích tương quan, phương sai, phân tích các yếu tố (tạm dich tir factor analysis), phân tích các

Thành phần trọng yéu (tam dịch từ principal component analysis), phân tích cụm

(tem địch từ cluster analysis) đều dựa trên khái niệm khoảng cách

Ngoài ra khoảng cách cũng không chỉ đơn gián là độ dài đường, nỗi điểm

nay tới điểm kia, là sụ xa và gân như thỏng thường vẫn dùng, khoảng cách con

có khoảng cách giàu nghèo, khoảng cách học vấn nhìn chung khoảng cách còn nên dược hiểu rộng hơn như là sự khác biệt (difference), đổi khi còn được

xưm là lỗi (enor) Sự khác biệt ấy thê tiện cững không giống nhau tủy theo đơn

vị đo, không ghm, cách thức đo, tỉnh định lượng hay ước lượng thống kê Theo

tôi, khoảng cách là khái mệm có thể xem lá cốt lõi của nhiều chủ đẻ như lầm

kiểm, phân loại, nhận dạng

2.1.2 Thuật toán Láng giềng gần nhất (NN)

Thuật toán Táng giểng gần nhất (NN) là một trong những thuật toán đâu tiên duoc ding đề tìm lời giải cho bài toán người bảng hàng, Bài toán được đưa

ra đầu tiên năm 1930 và là một trong những bải toán được nghiên cứu sâu nhật trong tối ưu hỏa (tiếng anh : Travelling salesman problem) Bài toán được phat

biểu như sau : Cho trước một danh sách các thánh phỏ và khoáng cách giữa chung, tim chủ trình ngắn nhất thăm mỗi thành phố đứng một lần Trong khoa học máy tính, bài toán người bán hàng là một vẫn để cơ bản và có rất nhiều ứng dụng, phương pháp tực tiếp nhằm tìm ra lời giải phố biển là kiểm tra tật cả ắc

Trang 17

tổ hợp Tuy nhiền, trên thực tế phương pháp này không khả thí bởi, nếu lấy mẫu chỉ gém 20 thành phỏ thì sẽ có gần 60,8 triệu tí phép so sánh để tim ra hành

trình có lợi nhất Thuật toán NN thường cho kết quả chênh lệch trong phạm vi

20% so với đường đi tối ưu

Các bước của thuật toán

Thước 1: Chọn một nút bất kỳ làm nút xuất phát và đầy là nút biện lành

Tiước 2 : Đánh đấu nút hiện hành đã được đi qua

Bước 3 : Tìm một nút chưa đi qua có khoảng cách đến nút hiện hành là

ngắn nhất, đánh đâu nút này là mút hiện hành mới

Bước 4: Nếu chưa đi qua tất cã các mút thì quay lại bước 2

Thứ tự mà các mùt được đi qua chính là kết quả của thuật toân Diễn đễ

nhận thấy, một quan sat (observation) sẽ gán nhãn lớp một đối tượng quan sát trong lập tham chiếu có nét tương déng (khoảng cách gần nhật) với đối tượng

đó Độ tương tự giữa các đổi tượng đữ liệu được quyết định dựa vào một hàm

do Khoang cach

2.1.3 Thuật tuán &-Láng giềng gin nhat (ANN)

Thuật toán k-TLáng giống gần nhất (ENN) [10] là một mở rộng đầu tiên của phương pháp trên, và thường được sử dụng rộng rãi trong Thực tế Ở day không

chỉ tham chiên đến một làng giểng gần nhất mà xét dén & lang giếng gần nhật

trong lập tham chiếu của đổi lượng cân gản nhấn Điều này giúp ảnh hường hợp một đối tượng quan sát kỳ đị (nhiễu) trong tập tham chiến quyết định nhãn

lớp Tham số & do người dùng lựa chọn Nhãn lớp được gan cho đối tượng là lớp chiếm đại đa số trong tập & láng giéng vừa xác định

Mức độ cục bộ của phương pháp nảy phụ thuộc vào tham số & Với & = 1,

ứng với thuật toán Láng guêng gần nhất cơ bản, cho mức độ cục bộ tối đa Với k

„ kéo theo một kết quả gản nhãn duy nhất chơ mọi đối tượng quan sát mới, nhấn lớp xuất hiện nhiều nhất trong tập thưan chiếu sẽ luôn được chọn

Bồ phân lớp dựa trên thuật toán & láng giêng gắn nhất là một bộ học hười

(lazy learer), không cần thực hiện quá trinh học cho mô hình Nó cân sử dụng

tất cả các đối tượng dư liệu trong tập tham chiếu để ra quyết định gan nhãn lớp cho mét quan sát mới Dễ tỉnh toán khoảng cách, chúng ta thuờng sứ dụng một

Trang 18

10

trong các hảm tính khoảng cách sau ; ham Euclidean, ham Minkowski va ham Mahalanobis

Ví dụ minh họa thuật toán KNN : trong một không gian quan sát k=5, cản

gán nhãn cho đổi tượng x (hình tròn 2), xét các đối tượng thuộc hai lớp, minh họa lớp dương (+) là hình tròn có dẫu công và lớp âm là hình tròn cỏ dầu trừ (-)

Hinh 2.1: Vi du vé thuat toén KNN’

Trong 5 lang gieng gần nhất của đôi tượng cần phân lớp x có ba đổi tượng quan

sát thuộc lớp âm (-), và hai đối tượng quan sát thuộc lớp dương (+) Như vậy x

sẽ được gắn nhãn lả lớp âm (-)

2.1.4 Thuật toán Đánh trọng số &-Láng giềng gần nhất (W&NN)

Thuật toán Đánh trong số &-Láng giêng gần nhật (WANN) [7] cai tién thuat

toán ENN theo ý tưởng : các láng giềng ở gần đối tượng quan sát mới x phải có vai trỏ quan trọng hơn so với các láng giêng ở xa trong việc quyết định nhãn lớp

của x Trong thuật toán kNN thi ca & láng giéng gan nhất của x đều cỏ vai trỏ ảnh

hưởng như nhau, đủ độ tương tự giữa từng thành viên trong chúng so với x có

thể khác xa nhau Đề phản ánh độ quan trọng khác nhau của các láng giẻng gần

nhất của x, các giả trị khoảng cách từ chủng đến x cần được biển đổi thành các trọng số Theo đỏ, môi láng giềng của x sẽ được gản cho một giả trị trọng số, giả trị này sẽ được dùng trực tiếp đề quyết định nhãn lớp cho x

Trang 19

Hàm /(@) phải thỏa mãn các tính chất sau:

«Ổ #J>0Vde€R

Tên hàm Công thức tương ứng

Trang 20

12

Các hàm trọng số trong Bằng 21 đều có tập xác dinh 14 [0, 1], va để tránh trường hop giả trị trọng sở của một láng giềng nào đỏ bằng 0 (khỉ đ = 1), tức láng giếng đó hoàn toàn không có vai trò gì trong việc quyết định nhãn lớp của

đổi tượng quan sát x, thì giá trị của đ cần được chuẩn hóa để xác định trong khoảng [0, 1] WÈNN thực hiện điều này bằng cách sử dụng giá trị khoảng cách của láng giéng gan nhất thủ (Etl) khi chuẩn hỏa các khoảng cách của # láng

Trong đó: d(x,x¿ạ) là khoảng cách từ láng piểng thứ ï đến x

(2, X¢.41)) 14 khoding edch từ lắng giềng thứ k1 đến x

£ > 0 là một hằng số có giá trị rất nhỏ được đảng để đảm bảo

D(x,xq@) <1 Néu không dimg £ thì trong trường hợp mệt trong sé k lang giềng gần nhất của x có khoảng cách đến x bằng với láng giếng gần nhất thứ (+1) thì khoảng cách sau khi chuẩn hỏa của nỏ sẽ bằng 1 Dẫn đến trọng số của

nó sé bang 0 nếu đừng với một số hàm trọng sé trong Bang 2.1 ở trên

Với cách chuẩn hoa nhy trén thi ta sé dam bảo Đ(x,x¿)} c[0,1) Ví Và

như vậy ta có thê sử dựng được bắt kỳ hàm trọng số nào trong Bảng 2.1

Sau khi xác định các độ đo tương tự cho các quan sát trơng tập tham chiéu, mỗi đối tượng quan sát mới x sẽ được phân vào lớp z có tổng các trọng số lớn

nhất:

max, (> (F(0(220)) He = 2) @2

1

1, cond = true Trong đề: 1(eond) =| vont a fate

Trang 21

13

Gõ thể coi hai thuật tod ENN va NN | cac trường hợp đặc biết của thuật

toán WÈNN Ta có kết quả của thuật toán kÑM nếu chọn sứ dựng hàm trọng số Rectangular Và có kết quả của thuật toán NN nếu chọn # = 1, với mọi lựa chon

của hàm trọng số

Mục đích chính của phương pháp này là xây dựng được một kỹ thuật trong,

đỏ đạt tới một cấp độ tương đổi

ENIX thủ việc chọn sai giá trị của k sẽ dẫn đến tỉ lệ phân lớp sai lớn Số lượng các

táng giểng gần nhất hoờn toàn được Ẩn đã với việc sử dụng các Họng số: nến k cỏ

lập với việc hựa chọn giả trị tham số É, với

giá trị quá lớn, nó sẽ tự động được điều chỉnh xuống một giá bị thấp hơn Trong trưởng hợp này, một số nhỏ các láng giéug có lrọng số lớn sẽ lên át các láng giéng khác

- Thuật toán W&NN được mô tả tổng quan ở dưới đây:

Bước 1: Dặi L = {Œ, x;), ? = 1, , m } là tập tham chiếu chứa các đối

tượng quan sát x, với nhãn lớp tương ứng y„ Giá sứ ta củn phán

đoán nhãn lớp „ của một đối tượng quan sốt mới x

Thước 2: Tìm &~| lãng giểng gắn nhất của x dựa vào mội hàm khoảng cách

d(x, x) O day dùng hàm khoảng cách Minkowski

1

4

;

Bước 3: Sử dụng công thức (2.1) để chuẩn hóa khoảng cách từ x đến & lang

giống gầu nhất của nó

Tước 4: Sử dung mat trong số các hàm trọng số để biến đổi các khoảng,

cach chuan Dj thanh cdc gia trị trọng số:

Bước §: Chon lớp có tổng các trọng số lớn nhất đề gần nhãn cho x:

Trang 22

Hinh 2.2: Vi du vé thudt ton WKNN

Trong Hinh 2.2 trén ta thay cac lang giéng gan nhất của đổi tượng quan sat can phản đoán lớp x thuộc về hai lớp: lớp duong (+), va lop am (-) Gia str sau khi tinh toan khoang cach ta tim duge 5 lang giéng gan nhat ctia x như trên, trong đó có 3 đổi tượng thuộc về lớp âm (-) và 2 đổi tượng thuộc vẻ lớp đương (+) Giả sử các trọng số của từng lang giêng cỏ giả trị tính được như trên hình

vẽ

Ta có:

Tổng trọng số của lớp dương là: 0.73 + 0.71 = 1.44

Trang 23

15

Tổng trọng số của lớp âm là: 0.33 + 0.34 + 0.35 = 1.02

Nhu vay x sẽ được phan đoàn thuộc về lớp dương (†) ví lớp này có tổng

trọng số lớn nhất

Qua vi du nay ia thdy có sự khác biệt rõ ràng trong kết quả phản đoán của

WENN và KNN Nếu sử dụng bộ phân lớp &NN thì z sẽ dược phán đoản thuộc về

lop am (-} vì đây là lớp cludm dai đa số trong 5 láng giểng gần nhật của x

Nếu sử dụng bộ phân lớp W#NN thì x có kết quả ngược lại

2.1.5 Thuật tuán Ilàm nhân š-Láng giềng gần nhất (Kernel š-NN)

- Tổng quan

“Thuật toan ANN đã cho kết quả tốt trong nhiều bài toàn thực tế Tuy nhiên,

với cáo bài toán chạy trên dữ liệu phi tuyển phức tạp, nơi đữ liệu phân bỏ tương

đối tùy ý, nó thường cho kết quả khá tôi Từ thực trạng đó, năm 2002, nhóm tác

gid Kar Yu, Liang Ji, va Xucgong Zhang, tiển cân theo hướng sử dụng liàm nhân

(Kemsl) để cải tiến độ chính xác của thuật toản #NN trên không gian phi tuyển [12] Về bản chất Kemel ¿NN dùng một hàm phi tuyển anh xa các mẫu dữ liệu trong không gi bạn dầu sang muội không giảm đặu trưng mới, rồi thực hiện thuật toán NN tiên không gian đặc nung mai dé Điểm mẫu chết của phương,

pháp uày là dựa vào việc sử dựng một hàm nhân để tỉnh phép nhận trong (trmei

produet) của các vectơ là ảnh của các mẫu đữ liệu ban dau qua phép ảnh xa Nêu

chọn được một hàm nhân phù hợp thì hiệu quả của thuật toán ANN cé thé duoc

cải thiện đáng kế

Ta xét trưởng hợp ảnh xạ một không gian n-chiều sang một không gian đặc

trưng zm-chiều như sau:

anh xe đặc trung

xu esq) ——>Œ) = (04(E),«.Øm(%)),x € Sy W(X) E Sp

Trong đỏ 3; lả không gian m-chiều ban đầu và 52 là không gian đặc trưng mới có

mechidu, x la một veclo tùy ý trong S, yx) la vecto tuong tng trong $2 Ú là

Trang 24

K(x, y) = GX), YON) (2.6) Trong đó (j(),t0(y)} biểu điễn phép nhân trong của (x) va p(y), K(x, y) la xột hàm của x và y

Việc định nghĩa một hàm nhân như công thức (2.6) ở trên dẫn đến phép nhân trong trong không gian đặc trưng mới có thể được tỉnh mà không cân thực

sự thực hiện phép ảnh xạ tử Ba hàm nhân được ¡nô tá trong Báng 2.2 dưới đây thường được sử dụng rộng rãi

Bảng 2.2: Một số hàm nhân hay được dùng

Trong đỏ p,ø, a, 8 là các tham xố có thể điều chỉnh được

- Nguyên lý hoạt động

Trong thuật toán ENN truyén thống, một hảm đo khoảng cách chuẩn như

Xhoáng cách Euelidean thường được sử dụng Hằng cách định nghĩa lại hàm đo,

ta có thể sử dựng phương pháp hảm nhân để áp dụng vào thuật toan ANN Phương pháp sử dụng hàm nhân dựa trên một thực tế là ta cản phái tính phép

nhân trong giữa các vectơ là ảnh của các mẫu đữ liệu ban đầu qua phép ánh xạ

Do phép nhận trong chỉ tính được ong không gian Hilbert, nên ta chỉ quan lâm

đến cic ham đo khoảng cách chuẩn trong không gián Hilben Không gian

THIbert một đạng tổng quái hóa của không gian Buelidsan mà không bị giới hạn

vé van để hữu hạn chiêu Đó là một không gian có tích vô hưởng, nghĩa là trong

đó có khái niệm về khoảng cách và gỏe

Khoảng cách chuẩn đ(x,y) giữa 2 vectơ x và y là

Trang 25

Như vậy khoảng, cách chuẩn trong khỏng gian đắc trưng mởi có thể được

tính bằng cách sử dựng mét ham nhân va cáo vectơ đữ liệu trong không gian m&u ban đầu mà không cân xác định và thực hiện phép ảnh xe ;ở Sau khi xác

định được hàm đo khoảng cách ở công thức (28), ta có thể dễ đàng thực hiện

thuật toán ENN trên không gian đặc trưng mới

- Dữ liệu và việc tính nhép nhân trung (inner nroduc

Con người mô tả thế giới đưới dạng thông tin, thông tìn cần được hm trữ

và xử lý để đem lại tri thức Bản chất thông tin là nhiều chiểu nên vector và ma

trận ra đời để hã trợ cho quả trình tiếp nhận, trao đổi thông tin của con người Ví

dụ : để mô tả vị trí một điểm trên một đường thẳng, ta chỉ cần một giá trị khoảng cách của điểm đó đến một điểm được chợn làm gốc, lúc này ta chỉ cần một vector có một phân tử Nếu điểm đỏ nằm trên một mặt phẳng, ta cần có một hệ

trục toa dé (gdm hai truc x va y) va vi trí điểm đã cho được xác định dựa trên

khoảng cách của nó đến hai trục tọa độ đỏ Lúc này fa cần một vector hai chiều (có hai phần tử) để mô tả vị trí một điểm trên một mặt phẳng Mở rộng, để mé ta xuột điểm Irong không gian la cần một vector ba chiểu (có ba phần tử) Suy rồng

đúng để chứa thông tin nhiều chiều theo nhu câu thực tế đặt ra

Ma trận có thể được coi là một dãy gồm nhiều “hàng” vector nồi tiếp nhau

trong đó mỗi hàng đại điện cho một đối tượng nao đó Theo ví dụ trên có thể là

nhiều người khác nhau Do đó một ma trận có thể chứa thống tin của nhiều

Trang 26

18

người được khảo sát, thông tin mỗi người được lưu trơng một hàng và nuôi thông

số mô tả được hm trong một cột Sau khi “mô Iä" thông tin của các đổi tượng và

“hưu trữ” chúng bằng các vector và ma trận, việc tiếp theo là con người cân “xử

lý” có gắng tìm kiếm mối liên hệ giữa các vector và ma trận đó

Để diễn tá một mỗi quan hệ tuyến tính nảo đó giữa một veclor (biểu diễn

thông tìn cúa một đối tượng bằng n chiều) với một veotor khác (biếu diễn thông tìn của một đối tượng khác bằng m chiểu), người ta dùng môi ma trận có n hang

và mm cột Trang nhiều trường hợp hai đổi tượng có số chiều bằng hau va ta cd xột mã trận vuông để biểu điển mốt quan hệ tuyển tỉnh giữa chúng, Giả sử mi tiên vuông Á đại điện cho một phép biến đổi tuyến tính nào đó, nếu ta tim duoc một vector sao cho biển đổi tuyển tính của ma trận A lên vector đó không làm thay đổi chiếu, chỉ thay đổi độ lớn của vector đó, vector ứng với độ lớn thay đổi

đó được gọi là veotor riêng và trị riêng tương ứng, Độ lớn của trị riêng có mới

quan hệ tương ứng với khoảng cách Một ma trận m x n có thể biểu điển n biến ngẫu nhiên trong đó mỗi biển ta có m mẫu được quan sát Từ lý thuyết trên ta hoàn toán có thể tính tính phép nhân trong (mmer produet) của các vectơ trên

không gian đặc trưng mới

2.2 Thuật toán Di truyền (GA)

2.2.1 Giớithiệu

Thuật toán Di truyền (GA) hình thành dựa trên quan niêm cho rằng : guá

trình tiễn hóa và chọn lọc tự nhiền là hoàn háo nhất, hợp lý nhất và tự nó đã mang lĩnh tối tu [2] Quan niệm nảy được xom như một tiên để đúng chưa chứng mình được nhưng phủ hợp thực tế khách quan Quá trình tiên hỏa tối ưu ở chỗ, thể hệ san sau bao giờ cũng tết hơn, hoàn Hiện hơn thể hệ hước Sự tiến

hóa được hình thành từ hai quả tùh cơ bản là sinh sên và chọn lọc tự nhiền

Trong suốt quá trình phát triển của tiến hóa tự nhiên, các thể hệ mới không, ngững được sinh ra, không ngừng thay đôi để thay thế bổ sung cho thế hệ cũ

Thay đổi nào phát triển hơn, thích ừng tốt hơn với môi trưởng sẽ tổn tại ngược

lại sẽ bị đào thái Thực tế sự thay đổi môi trường là động lực thúc đẫy quá trình:

tiến hóa, đồng thời tiến hóa cững tác động ngược trở lại để thay đối môi trường

Tiêu đề	Tìm Hiểu Phương Pháp Tìm Thuộc Tính Tối Ưu Nhằm Tăng Hiệu Quả Phân Tích Trong Phân Tích Dữ Liệu Lớn
Tác giả	Hoang Van Trieu
Người hướng dẫn	PGS.TS. Nguyen Ha Nam
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Kỹ thuật phần mềm
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2015
Thành phố	Hà Nội

Định dạng
Số trang	52
Dung lượng	1,04 MB