Luận văn nghiên cứu xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp Đối với dữ liệu Đa chiều

* Chon lua thuộc tinh Feature Selection: Chon lwa thuée tinh 14 vie chon ra một tập thuộc tính cơn từ tập thuộc tỉnh ban đầu sao cho các tập thuộc tính con này thể thể luện tốt nhật clr

Trang 1

NGHIÊN CỨU, XÂY DỰNG PHƯƠNG PHÁP TRÍCH

CHON THUOC TINH NHAM LAM TANG HIEU QUA

PHÂN LỚP DÓI VỚI DỮ LIEU DA CHIEU

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HA NOL, 2012

Trang 2

ĐẠI HỌC QUOC GIA HA KOI TRUONG DAI HOC CONG NGHE

DONG THI NGỌC LAN

NGHIEN CUU, XAY DUNG PHUONG PHAP TRICH

CHỌN THUỘC TÍNH NIÄM LÀM TĂNG HIỆU QUA

PHAN LOP DOI VỚI DỮ LIỆU ĐA CHIẾU

Ngành: Công nghệ thông tin

Chuyên ngành: Công nghệ phần mềm

Mã số: 60 48 10

LUẬN VĂN THẠC SĨ CÔNG NGHE THONG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Hà Nam

HA NOL, 2012

Trang 3

CHƯƠNG 1: TONG QUAN VỀ KHAI PHÁ DE EB VA TRICTI CIION THUOC TENT

1.1 Giải thiện khai phá đữ liệu và trích chọn thuộc tính -

1.3 Phương pháp lựa chọn thuộc tÍưi sec

1.3.1 Tim kiếm ccoonenhenihieiieiinereo

1.3.2 Đánh gjá cceeirerrrririririririrriie

1.3.3 Các mô tình lựa chọn thuậc tỉnh

14.1 Tim kiểm toàn bộ

1.4.2 Tìm kiểm theo kinh nghiệm 2

2.2 Phương pháp Bootstrap va Bagging

2.2.1 Phương pháp Toetstrap |29] cseererrirrrreee

2.3.2 Phương pháp Bagpjing [29] set

2.3 Thuật toán Ranlom Forati co neiirrrrrriie

2.4 Một sô đặc

2.4.2 Thuộc tinh quan trọng

2.5 Giái thuật đi truyển |32| ceeeirirrrrrrrrree

2.5.1 Giới nộ

2.5.2 Nội đung, giải thuật đi truyễn

CHƯƠNG 3: PHƯƠNG PHÁP ĐỂ XU¿

Trang 4

34 Nội đung phương pháp để xuất

3.5 Hoạt động của hệ thông đê xuất

3.4 Sơ để khối phương pháp để xuất ieiiiieieeei

CHUONG 4: THỰC NGHIÊM VÀ ĐÁNH GIÁ

4.1 Mỗi trường thực nghiệm - series

4.3.2 Rộ đữ liện nng thu ruột kết Golem Tnmmo

4.3.2.1 Mô tả đữ liện cu hhHhhHHheHuhedeeererde

Trang 5

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT

KDD Knowledge Discovery in Database

OOB Out- of- Bag

tt Thuéc tinh

Trang 6

Băng 4 11 kết quã đoán nhận củz RF khi chey 20 dn trên Colon Tumor vOt «6 edy ln lượt bằng 100,300,500,

Bằng 4.14 Thời giơn (phút) trung bình,nhỗ nh:

Tumør với số cây lẫn lượt bằng 100, 300,500 5B

Bang 4.15 Két qud dodn nhan clio RF khi chay 20 lan trén Colon Tumor tdi ưu với số cây lẫn lượt bằng

Bing 4.18 Thồi ginn trung bình, nhổ nhất lên nhắt khí huần luyện và kiểm ra RF 20 ln trên Colon Tumør tối

Trang 7

Hình 2.3 Các bước trong Random rarest(3j

Hình 2.4.1 Sử dựng OO8 ước lượng lỗi[7)

Hình 3.1: Mô hình đề xuất theo phương pháp wrappEr

Hình 3.3: Kiên trúc cơ bẫn củo hệ tnd

Hình 3 5: Mồ tả kiểm chững chéo(22] " +

Hình 3 6: Sơ đỗ khối phương phúp để xuất Xe

Hình 41 Thôi gian lựn chọn được bộ thuậc tính môi về độ phù hợp củo bộ thuậc tính mới

Hình 42 Biểu đỖ so sánh kết quá chạy RE 20 lẦn trên bộ dữ liêu mới vờ bộ dữ liệu han đầu với số cây bằng

100 "2

Hình 43 Biểu đỗ so sảnh thôi gian chạy trung bình cứu 20 lân chạy RE trên bộ dữ liệu mỗi vờ bộ dữ liệu hơn

đu vời số cây bẲng 100,300,500,800,1000 vee

Hình 4.9 Thời gian iyo chon duce b6 thude tinh mot ee

Hinh 4.10 Két qué chay RF 20 lẫn trên bộ thuộc tính Colon Tumor: than dy vb sou Bhi uta vot SB 'cây là 100

Hình 4 14 Biểu đỗ so sánh thời gian huấn luyễn trung bình cúu 20 lẫn chạy 8£ trên bộ dữ liệu Colon Tumaor

mới và bồ dữ liệu Calon Tumor ban đẫu với số cây bằng 100,300,500 6a

Hình 4 15 Biễu đỗ sơ sánh thồf gian kiểm trợ trung bình cứa 20 lẪn chạy RF trên hộ dữ liệu Colan Tumor mót

về bộ dữ liệu Colan Turar ban đầu vớt sổ cây bẲng 100,300,500 si

Trang 8

MODAU

+ Lido chon dé tai

Ngày nay, trong xu hướng hội nhập qué thời đại thông lin bing nd, chimg ta

đang “ngập lụt" trong đữ liệu nhưng lại “đói” về trí thức, cho nên vẫn để tin học hoá

và hiện đại hoá công nghệ thống tin ở nước ta ngày càng trở nên cập thiết và mang tỉnh

thời đại Mệt trong các vân đề cấp thiết đó là làm sao phan tích và xử lý một khối

lượng thông tin không lễ liên tục được cập nhật để đáp ứng các yêu câu về phát triển mọi mặt văn hoá, kính tế, chỉnh trị, xã hội của đất nước Vi ly do đỏ mà việc chon được các thuộc tỉnh đặc trưng nhằm tăng hiệu quả phân lớp đối với đỡ liệu đa chiều

dang là một xu thế tắt yêu nhằm giải quyết vẫn đề chất lọc ra những thông tin hữu ích thay chất lọc trì thức từ khối dữ liệu khổng lỗ mà chúng ta có

Hiện nay phần lớn các thuật toản phân lớp đã phát triển chỉ có thể giải quyết được

một lượng số liệu giới hạn cũng như một độ phức tạp dữ liệu biết trước Trong khi đó

nhờ sự phát Hiển mạnh mẽ của khoa học kỹ thuật khối lượng đữ liệu mã chứng la thú

thập được ngày cảng phong phủ và đã dạng Hơn nữa tuy thuộc vào lừng loại đữ Hiệu

và ứng đựng cụ thể mà mỗi thuật toán có độ tốt xâu không giống nhau Các nghiên cứu cho thay có rất nhiều hướng cải tiến các thuật toán phân lớp như áp dụng các thuật

toán kết hợp (ensemble method), các thuật toán đựa vào phương pháp nhân (kernel- based method), hoặc áp dụng các phương pháp trích chọn thuộc tỉnh (feature

extraction/ selection method) Trong các phương pháp kể trên phương pháp trích chọn

đử liệu Hướng tiếp cận này làm tăng hiệu năng thu nhận tri thức trong các nganh ni

tin sinh, xứ lý dữ liệu web, xứ lý tiếng nói, hinh ánh, Phương pháp trích chọn có một

số ưu điểm nỏi trội sau: Thứ nhất, phương pháp này giúp giảm số lượng các thuộc tính

của dữ liệu, điều này giúp giám thời gian tỉnh toản của thuật toán phân lớp Thứ hai,

luận văn đã chọn đề tài “Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính

nhằm làm tăng hiệu quả phân lớp đổi với đữ Hệu đa chiều” với mong muốn tìm

hiểu và nghiên cửu về lĩnh vực này

« Mục tiêu nghiên cứu

Mục tiêu của để tài là nhằm nghiên cứu vả tim các phương pháp trích chọn thuộc tinh - một công việc quan trọng trong việc chuẩn bị và xứ lý số liệu trong khai

Trang 9

phá đữ liệu Dựa vào đó xây đựng mỏ hình lựa chọn thuộc tính tối ưu giúp giảm kích

cỡ của dữ liệu theo hướng chỉ giữ lại các thuộc tính đặc trưng, loại bỏ những thuộc

tính không liên quan vả những thuộc tỉnh nhiễu nhằm tăng tốc các thuật toán phần lớp cải thiện chất lượng đữ liệu và vi vậy sẽ tăng hiệu suất của việc khai phá đữ liệu

«_ Đấi tượng, phạm vỉ, phương pháp nghiễn cứu

Đối tượng nghiên cứu của luận vẫn là tìm hú:

thuộc tính Bài toán được phát biểu như sau: dối với bộ số liệu lớn thu được gồm hàng tram dén hảng nghìn bản ghi và mỗi bản gÌn lại gồm hàng nghìn các thuộc tính Các

bản ghỉ được phân thành các kứp cho trước Yêu đất ra là tìm các thuộc tỉnh hữu

ích, tối uu nhất, loại ra các thuộc tính íL lên quan để vẫn đâm bảo việc phân lớp đúng,

các bản ghỉ Luận văn di sau nghiên cứu giải thuật di truyền [32] và thuật toán Random Forest [8] Tur tim hiểu đó, luận văn đề xuất một thuật toán tựa giải thuật di truyền với mong muốn thuật toán đề xuất lụa chọn được các thuộc tính hữu ích để nâng cao kết quả dự doàn cửa các thuật toán phân lớp cụ thể là thuật toán Random Forest

Trình bảy nội dung chính cỗa thuật toán phần lớp sử dựng trong luận vấn

là thuật toán Random Forest

Chương 3:

Trinh bảy phương pháp để xuất và hướng giải quyết của luận văn

o Chương 4:

Trinh bảy quá trình thực nghiệm va danh giá kết quả thực nghiệm

o Kết luận: Phản này trình bảy những vấn để đã được giải quyết trong luận văn, những vẫn để còn tên tại và hướng giải quyết trong thời gian

TỚI

°

Trang 10

CHƯƠNG 1: TONG QUAN VE KHAT PHA DU LIEU VA TRICH CHON

THUỘC TÍNH

1.1 Giới thiệu khai phá dữ liệu và trích chọn thuộc tính

Khai phá đữ liệu là một khái niệm ra đời từ những cuối những năm 80 của thê

kỷ trước Né bao hàm một loạt các kỹ thuật nhằm phát hiện các thông tin có giá trị

tiếm Ấn trong tập các đữ liệu lớn Về bản chất, khai phá đữ liệu liên quan đến việc phân tịch các đữ liệu và sử dụng các kỹ thuật để tim ra các quy luật trong tập dữ liệu

Năm 1989, l'ayyad, Piatestsky-Shapiro va Smyth đã dùng khái niệm Phát hiện trị thức

trong cơ sở đữ liệu (Knowledge Discovery in Database KDD) [14] dé chí toản bộ

quá trình phát hiện các trí thức có ích từ các tập dữ liệu lớn Trong dó, khai phá dữ liệu

là một bước đặc biệt quan trọng trong toán bộ quá trình, sử dụng các giải thuật đặc biệt

để cluết xuất ra các đặc trưng từ đữ liệu [1 4)

Trong khai phá đử liệu thi phương pháp trích chọn thuộc tính đồng một vai trà

quan trọng trong tiên xử lý số liệu Phương pháp trích chọn sẽ giúp giám kích sỡ của

không gian dữ liệu đặc trung, loại bố những thuộc tính không liên quan vá những,

thuộc tỉnh nhiều Phương pháp này có ánh huớng ngay lập tức dến các ứng dụng như

xuất khai phá đữ liệu, kiểm soát được kết quả cửa thuật toan

Các kĩ thuật khai phá đữ liệu thường được chia thành 2 nhỏm chính:

-_ Kĩ thuật khai phá đữ liệu mẻ tả: có nhiệm vụ mô tả về cáo tính chất hoặc các

đặc tính chung của đữ liệu trong CSDL hiện có Các kĩ thuật nảy gôm có:

phan cum (chistering), tom tit (summerization), trực quan hoa (visuatiztion),

phân tích sự phát triển và dé léch (Evolution and deviation analyst), phan

tích lui két hop (association rules}

-_ Kĩ thuật khai phá đữ liêu dự đoán có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên đữ liệu hiện thỏi Các kĩ thuật này gồm cỏ: phân lớp

(classification), hdi quy (regression)

Tuy nhiên, luân văn lập trung tìm hiểu 3 nhiệm vụ chính sau [12

Giám chiều đi liệu: Giám chiều đữ liệu là việc làm giám chiều của không gian tìm

kiểm dữ liệu, giảm chỉ phí thu thập và luu nữ đữ Hiệu, nâng cao hiệu quá của việc khai

phá đữ hệu và làm đơn giản hóa các kết quả khai phá đữ liệu Trong rhiệm vụ làm

giảm chiều dữ liệu chứng Is uằn phản biệt Hai khải nhiệm gau:

«© Trích chọn thuộc tính (Featre Exiraction): Trích chín thuộc tĩnh là việc tim ra

tuột tập thuộc tính mới từ lập thuộc tính ban đầu nhằm nâng cao hiệu suất tỉnh

chính xác phân lớp Các kỹ thuật trích chọn thuộc tính thưởng liên

quan đến các phép biến đổi phi tuyển (non-linear) Linear discriminant analysis

toán va

Trang 11

(LDA) và principal components analysis (PCA) là hai kỳ thuật phố biến dùng trong trích chọn thuộc tỉnh

* Chon lua thuộc tinh (Feature Selection): Chon lwa thuée tinh 14 vie chon ra

một tập thuộc tính cơn từ tập thuộc tỉnh ban đầu sao cho các tập thuộc tính con này thể thể luện tốt nhật clrức năng của một hệ thông quy nạp, chẳng hạn như

ỗ một tập con thuộc tính tối ưu thường là

giảm chiêu đữ liệu vì các kết quả đựa trên các thuộc tính được chon lựa từ tập

thuệc tinh ban đầu thường để đàng lý giải hơn so với một tập cáo thuộc tinh được biển đổi từ tập thuộc tính ban đảu

trẻ Tuy nhiền, chọn lựa thuộc tỉnh lại được sử dụng rộng rấi trong

Trích chọn luật: Trích chọn luật tìm kiểm và đưa ra dữ liệu bằng cách tắt cả

các đữ liệu được đua ra đựa trên các suy chẩn/cáo quyết dink ma cde suy điễn/Quyết

định này được xây đựng từ các trị thức thu thận được từ đữ liệu đó Dối với người sử

dụng các kết quả của khai phá dữ liệu họ chỉ mong muốn có một cách giải thích đơn

giàn là tại sao có cáo kết quả phân lớp đó, thuộc tỉnh nào ảnh hưởng đến kết quả khai

phả dữ liệu Tuy nhiên, bằng các tham số phân lớp rất khó để có thể diễn giái các trì thức đỏ theo cách mà người sử dụng có thé dé đàng hiểu dược, Do dó, việc tìm ra các

tuật TF-THEN nhằm đưa ra các thông tín có giá trị là một cách diễn giải đơn giãn và để

tiểu nhật đối với người sử dụng

Có thể phân loại chọn luật thành hai kiểu chính Một kiểu liên quan đến việc tìm

ra môi quan hệ giữa các thuộc tính đầu vào và các lớp nhăn ở dau ra trong tap dit

liệu đã được gán nhấn Kiểu chọn luật còn lại là việc khai phá các luật quan hệ (association rule), đây là việc tìm ra các mỗi quan hệ giữa cáo thuộc tính trong tập

hệ giữa các đối lượng trong dũ liêu phiên Khai phá

dụng để phân tích hánh vỉ khách hàng trang siêu thị Ví dụ một khách bàng mua bơ

címg sẽ mưa bảnh mỉ với một xác suất nhật, định nào đỏ

Khai phá đữ liệu thường được xem như là một giai đoạn trong chu trình phát biện tri thức và khai phá đữ liệu Các giai đoạn khác trong chu trình này bao gồm: a)

Trang 12

Kho đữ liệu, b) chọn lựa các dữ liệu đích, c) lam sach dit ligu, 4) gidm chiéu dit liệu, e) chợn lựa mô hình phù hợp, 0 khai phá đữ liệu, g) nhận xét và trinh bay kết

qua, h) kiém tra các kết quả có được Một cách đơn giản có thể hiểu như sau: kho đữ liệu cho phép đữ liệu được thư thập 1È nhiều nguồn dữ liệu khảo nhau và ở rhiền đỉnh dang khác nhau và nguồn đữ liệu nảy được sử đụng trong một ứng dụng cụ thể, chọn lựa các đữ liệu đích nhằm tạo ra một đữ liêu cụ thể đùng cho ứng dụng,

làm sạch số liệu nhằm loại bỏ nhiễu và các giá trị bất thường, giẫm chiều dit hệu

nhằm chuyển đử liệu thành một đựng dữ liệu phủ hợp với ứng dụng, chọn lựa ruô bình là chọn một giải thuật phù hợp, khai phá đữ bệu nhằm lim ra ode thong tin oan

quan tâm, nhận xét và trình bảy kết quả là việc giải thích các kết quả có được, kiểm

ra các kết quả có dược là việc chuyển các kết quả thành một đạng có thể kiểm lra lại

và sử dụng lại [37]

Néu xem xél ede quá Irình của chủ trình khai phá đữ hiệu trong ngữ cảnh của

chọn lựa thuộc tính, chúng cỏ thể dược tông hợp thành 4 bước cơ bản sau [12, 10,

28, 23]: 1) Kho dit ligu (Data warehousing) - dit liéu tir các nguồn khác nhau được tổng hợp, lưu trữ lại, 2)Tisn xử lý (Pre-processing) (các bước b, e, và d) chon hia các dữ liệu phủ hợp cho một từng dụng cụ thể, 3) Khai phá dữ liệu (Data rning) (các

bude e va f) mộtgiải thuật phai phá dữ liệu được chọn lựa và áp dụng trên bộ số

liệu thu được ở bước 2, 4) Liậu xứ lý (Post-processing) (các bước g và h) Các trí

thức thu được từ bước 3 đước chọn lựa, nhỏm sao cho chúng có thể dễ đàng hiểu,

và sử dụng,

1.2 Lựa chọn thuộc tính và bài toán phân lớp

Nhiệm vụ cơ bản của việc phân lớp là phân chia một tập các đối lượng thành n-hữa

thuộc tính được đại diễn bởi một tập các thuộc tính — giá trị Với một lập dữ liệu bao

gồm một tập các đổi tượng đã được phản lớn (thường gọi là tập tập huân), nhiệm vụ

đặt ra là từ tập huản luyện cho trước xây đựng một bộ phân lớp cho các đữ liệu tương,

tự Vẫn để đặt ra đối với bài toán phân lớp là số lượng các thuộc tính có thể rất lớn do

những lý do sau

« Dữ liệu dược thu thập không dơn giản chỉ phục vụ cho một tác nghiệp cụ thé chẳng hạn như khai phả dữ liệu Do dò, dối với một ửng dụng cụ thể bộ đữ liệu

có thể có rất nhiều các thuộc tỉnh thừa hoặc không phủ hợp

« Đôi khi thậm chỉ nếu chúng ta biết các thuộc tinh dược thiết kế cho một tác

nghiệp cu thé (hi thuge tính rào là thuộc tỉnh có liên quan thường không được

biết Điển nảy là đo bân chât của nghiên cứu Chúng ta tiên hành thực nghiệm và

Trang 13

thu thập số liêu vi chúng ta muốn biết nhiều hơn lĩnh vực mnà chúng ta muén tim hiểu và chủng ta thông thường không có một ÿ niệm chính xác vẻ các thuộc tính cần thiết Do đỏ, chúng ta phải tìm các thuộc tính cần thiết nhiều nhất má chúng,

ta co thể nghĩ đến thậm chỉ chủng có thể lá các thuộc tính dư thòa hoặc không liên quan Chúng ta chỉ có thẻ biết dược thuộc tính nào là liên quan sau khi chúng,

ta nghiên cửu bộ số liêu dã được thu thập

Môi lắc nghiệp có thể yêu cầu dữ Hệu lừ nhiều nguồn khác nhau Nêu đữ liệu từ

mỗi nguồn là lớn thị san khi nối các nguồn dữ liêu trên chúng ta sẽ dó một bộ dữ liêu khẳng lẻ Kên chúng ta biết được các thuộc tính liên quan thì chúng ta só thê

giải quyết được vân đề trên nhưng trên thục tế chúng ta thường không biết trước

các thuộc tính nào là thuộc tính liên quan

Các thuộc tính không liên quan hoặc thừa có thẻ có những ảnh hướng tiêu cực dỗi

với các giải thuật phân lớp vì những lí đo sau: Có nhiều thuộc tính thường có nghĩa là

cân nhiều thực thể, vì vậy chúng ta cần đảm bảo các ràng buộc thống kê giữa các thực

thé trong các lớp lá khác nhau Các thuộc tính/dữ liệu thừa hoặc không liên quan có

thể là nguyên nhân dẫn đến việc hợc của giải thuật không được chính xác Thêm vào

đó, với sự có mặt của dữ liệu thừa hoặc đữ liện không liên quan có thể làm cho bộ

phân lớp trở lên phức tạp hơn Diễu nảy sẽ gây ra những khỏ khăn không cân thiết cho chung ta trong việc diễn giải các kết quả học được từ tập huấn luyện Sử dụng lựa chọn thuộc tỉnh trong phân lớp cho ta những lợi thế sau:

Dữ liệu ít hơn do đó giải thuật phan lớp có the học nhanh hơn,

Độ chính xác cao hơn đo đó bộ phân lớp có thể cho những kết quả phân lớp Lốt;

2 ết quả đơn giãn hơn do đỏ các kết quả này có thể liều được dé dang hơn:

Ít thuộc tính hơn do đó trong các vòng thu thập số liệu sau, nêu có thế chỉng ta

có thể tiết kiêm được nhiều nguẫn lực đe việc loại bổ các thuộc tính thừa và

khêng liên quan

'Trong các phản tiếp theo chủng ta sẽ di sâu váo tìm hiểu các phương pháp để lựa

chọn thuc tính

1.3 Phương pháp lựa chọn thuộc tính

Quá trình làm giảm bớt số chiêu của mẫu và theo đó còn gọi là nén tập dữ liên,

thông qua trích chọn đặc trưng (trích chọn thuộc tính và lựa chọn thuộc tỉnh) là bước

co bản nhất trong việc tiên xử lý đữ liệu Lựa chọn thuộc tính có thể coi là một phần vốn có của trích chọn thuộc tính vi đụ như phương pháp phân tích thành phần cơ bản hoặc thậm chỉ lả một thiết kế xứ lý thuật toàn vị dụ như trong thiết kế cây quyết định

Tuy nhiên, lựa chọn thuộc tỉnh thường là một bước cò lập riêng, biệt trong xuột chuối các xử lý [14]

Trang 14

Có thể định nghĩa lụa chọn thuộc tính là một quá trình tìm ra M thuộc tính từ tập

N thuộc tính ban đầu, như vậy phái xác định tiêu chuẩn lựa chọn thuộc tính [19] Theo

cách này, kích cỡ của không gian đặc trưng được rút ngắn tối đa theo một tiêu chuẩn định lượng nhất định Khi kich cỡ của một lĩnh vực được mớ rộng, số phần tử của tập

N sẽ tăng lên, vỉ vậy viêc tìm ra một tập dại điện tốt nhất thường gắp khó khăn và có nhiều văn đề liên quan đến tập dược chọn Nhm chung, một thuật toán lựa chọn gồm 4 bước cơ bản: Sinh tập con, lượng giá tập cơn, kiểm tra điều kiện đừng và xác nhận kết

qua

Quả trình sinh tập con là một thú tạc tìm kiểm, về cơ bán nó sinh ra những tập cơn dùng cho việc lượng giá Gọi N là số các dại diện (đặc trưng) của tập dữ liệu gốc ban dầu, thủ tổng số các tập con có thể dược sinh ra sẽ lá 2 2P tập này sẽ liệt kế toán

bộ các tập cơn của không gian tìm kiểm Mỗi lập cơn được sinh ra bằng thuật loan cin

được lượng giá trị bằng một tiêu chuẩn lượng giá trị nhất định và được sơ sánh với tập

cơn tốt nhất đã tìm được trước ná Nếu không có điều kiện đừng phù hợp, thuật toán này có thể sẽ chạy đến khi duyệt hết các tập con trong không gian tìm kiếm Diễn kiện

đùng của một quá trình sinh phải rai vào một trong số các trường hợp sau

- Toàn hộ các phần Lữ của tập hợp đều được chọn

- Các phản tử chưa chọn bị lặp lại

- Sinh thêm một lập con nữa cũng không cho kết quã lốt hơn

- Dã chọn đủ số tập con thoả mãn điều kiện tiêu chuẩn

Tập con tốt nhật được chọn ra phải được lượng giá trong những trường hợp khác nhau và nó cùng với tập gốc phải biểu diễn được với dữ liệu thực tế

Lựa chọn các thuộc tỉnh cỏ thể tiến hành theo hai cách: cách thứ nhất là xếp loại các thuộc tinh theo mét tiéu chuan nao dé vả lây ra k thuộc tinh dầu tiên, đo đó cách nảy là đựa vào ngưỡng để chọn thuộc lính Cách thứ hai là chọn ra tập con nhỏ nhất

mà không làm giảm đi quả tình hợc, do đó với cách này tụ động xác định số lượng,

nh

thuộc

Lựa chọn thuộc tỉnh có thẻ dựa vào các mồ hình, các chiến lược tìm kiểm, thước

do chất lượng thuộc tỉnh và ước lượng, Có ba loại mô hình như Filter, Wrapger, và Embedded

Các chiến lược tìm kiếm bao gồm: mở rộng, thu nhỏ, động, nhánh cận, ngẫu nhiên LƯớc lượng của việc chọn lựa thuộc tính bao gồm hai nhiệm vụ: một là so sánh

hai giai doạn: trước và sau khi lựa chọn thuộc tinl+ Hai là sơ sảnh hai thuật toán lựa chon thuge tinh [2]

Tóm lại lựa chợn thuộc tình được xem như là sự tổng hợp của ba thánh phần chính phương pháp tìm kiếm, kỹ thuật đánh giá, chọn lựa mô hình Hình 1.1 đưới đây thế

hiện lựa chọn thuộc tính theo 3 thành phần nói trên [19]

Trang 15

Đánh giá

Đo lường thông tin

Đo lường phụ thuộc

Đo lường khoảng cách

Chiến lược tìm kiếm

Lua chon thuộc tính có thể được xem như là một van dé tim kiểm, trong đó mỗi

bước trong không gian tìm kiêm xác định ra một tập con thuộc tỉnh liên quan Giả sử

ta có một tập dữ liệu với 3 thude tinh (Ay, Ay, As), Mot mang nhị phần ma mỗi thanh

phân của mảng được thiết lập là 1 nều thuộc tỉnh có chỉ số tương ứng trong mảng nhị

phân được chọn Nêu mảng cỏ giá tri (1, 1, 1) có nghĩa là cả 3 thuộc tỉnh được chọn vả

(1, 0, 0) có nghĩa lả chỉ thuộc tính A; được chọn Do đó, sẽ có tất cả 2Ÿ tập con có thê

có, trong đó N lả số lượng thuộc tỉnh của tập đữ liệu Trong trường hợp có 3 thuộc tính

sẽ có tắt cả 8 trạng thái (tập con) Một tập con tôi ưu thường nằm đâu đỏ giữa điểm

đầu và điểm cuối cây Câu hỏi đặt ra ở đây là: Chúng ta nên bắt đầu tìm kiểm từ đầu Vân đề sẽ rất đơn giản néu không gian tìm kiếm nhỏ Tuy nhiên, trên thực tế không gian tìm kiểm thường rất lớn (2), bắt đầu từ câu hỏi “Đâu là điểm tìm kiếm phủ hợp?”

sẽ xuất hiện các câu hỏi khác “Chiên lược tìm kiểm phủ hợp là gì” Trên thực tế chiên

lược tìm kiếm lại bị ảnh hưởng bởi hướng tìm kiểm.

Trang 16

Giả sử ban dau chúng ta chưa có một khải niệm cụ thế não về tập thuộc tính tôi tru trong không gian tìm kiếm, thì sẽ không có sự khác biệt trong việc xác định điểm xuất phat nên bắt đâu từ đâu (một tập rễng hay một tập đủ các thuộc tính), Đo đỏ, đối với phần lớn các vẫn dé trong tim kiém thị thời gian trung bình để tim ra tập con tối ưu

giữa các hướng tìm kiếm khác nhau không cỏ sự khác biệt Tuy nhiên, hưởng tìm kiến: lại có mới liên hệ chặt chế trong việc tao ra tập con thuộc tỉnh Môi chiến lược lim

kiểm là tìm ra tập con lối wu bãi dâu lừ một tập rồng các thuộc tính (Vi du: Sequential Forward Generation), phương pháp còn lại là tìm ra tập con tôi tmi bằng cách lần hượt loại bô các thuộc tính ít quan trọng tit mét tap đủ các thuộc tính ban đầu (Vi du

Sequential Backward Generation)

1.3.2 Đánh giá

Tất cả các chiến lược tìm kiểm đến có nhu cầu đánh giá một thuộc tính hoặc một

tập con thuộc tỉnh để xác định thuộc tính“ập cơn đó là tốt hay không tốt Việc đánh giá này thưởng là phức tạp và có nhiều cách đánh giá Ví dụ, đành giá có thể được do

lường theo những khia cạnh: các thuộc tính được chọn lựa có làm tăng độ chính xác

của bộ phân lớp hay không và các thuộc tính dược chọn lựa có giúp làm đơn giên quá trình học bay không Su đây là một số độ do thường được sử dụng trong lựa chọn thuệc tính

a Dệ đo thông tin

Thông tín là một cách đo luờng độ không ỗn định của người nhận tín khi một

người nhận tất cã các tin nhắn Nêu người nhận tỉn biết được tin nhắn nao dang dén thi

sự ngạc nhiên (meertainty) của người đỏ sẽ thấp Trong trường hop anh ta hoàn toàn không biết tin nhắn nào đang đến, chúng ta giả sử rằng tắt có các tin nhắn có xác suất

đến bằng nhau, thì sự ngạc nhiên của anh ta đổi với tin nhắn đỏ là cao Trong ngữ cảnh của phân lớp, các tỉa nhẫn là các lớp Giá sử L là một hàm do hường độ không én định của lớp, nều U cỏ giả trị lớn có nghĩa là mức độ không Gn dink cao

bị Độ đo khoảng cách

Kiểu dộ do này cũng dược biết đến như là độ đo khác biệt hoặc dộ do phân biệt

Độ đo nay duge thục biện thông qua việc đo khoảng cách giữa các hàm xác suất điều

kiện lớp Ví dụ đối với trường hợp có 2 lớp, DỢO là khoảng cách giữa POX|cj) và PXIc;), luật đảnh giá thuộc tính xây đựng dựa trên khoảng cach DCX) ndi ring, trong hai thuộc tính X và Y thuộc tính X được chọn nếu DCX) > D(Y) Mục đích của việo

chon lựa này là ta cố gắng tim ra cáo thuộc tính sao cho hai lớp được phân chia (Khoảng cách giữa 2 lớp) là xa nhất có thể được

ø Độ đo phụ thuộc

Đệ đỏ này cũng được biết đến như là độ đo raổi quan hệ, độ đo mối liên hệ Dộ

do này dược thiết kế để lượng hóa mỗi quan hệ giữa hai biển bằng việc nếu biết dược

Trang 17

giá trì mệt biển ta có thế dự đoán được giá trị của biến còn lại Trong đánh giá thuộc tinh, thay bằng việc kiểm tra một thuộc tính thay đổi thông tin thu thập được hoặc thay đổi ky vọng xác suất lớp như thế nào, thì chủng ta sẽ xem xét một thuộc tính liên hệ với một lớp như thẻ nào (mạnh hay yếu) Gọi R(X) là đo lưởng phụ thuộc giữa thuộc

tỉnh X và lớp C, ta chợn thuộc tình X dựa trên dợ lường phụ thuộc với thuộc tính Y

tiêu RỢK) > R(Ý) Nói một cách khác, chúng ta chọn thuộc tính có xuúi liên hè chặt chế

với lớp Ở hơn Nếu X và Ở là độc lập thống kế thì giữa X và Y sẽ không có môi liên

hệ và viếc leai bô thuộc tính X sẽ không làm ảnh hướng đến việc phân lớp các thuộc

tỉnh còn lại Nêu mỗi giá trị của thuộc tính % cá mồi liên hệ với một giá trị của lớp C, chúng ta kỷ vọng răng RQ©) sẽ có giá trị cực đại và thuộc tỉnh X được chọn thuộc về

lớp C

1.3.3 Các mô hình lựa chọn thuộc tính

Về cơ bản cỏ thể phản loại các phương pháp lựa chọn thuộc tính theo các cách tiếp cận

khác nhau là Filter , Wrapper và Embeddsd |16| Các mô hình này dược trình bảy chỉ

tiết trong lài liệu [16,5]

Cách sử dụng đơn giản nhất của chọn lựa thuộc tình là sứ dụng độ chính xác của bộ phân lớp như một độ đo hiệu quả của bộ phân lớp Nếu mục địch của chúng ta là để cực tiêu hỏa tý lệ lỗi của phản lớp và chỉ phi do lường đổi với mỗi thuộc tỉnh lá như

nhau thủ sử dụng độ chính xác dụ bảo của lớp như một tiêu chỉ do lường hiệu quả là rất khả thí Do vậy, chúng lu nên xây dựng một bộ phân lớp với mục đích là để có được

độ chính xác dự bảo cao nhất có thể, san dé chon lua cde Huộc tính được sử đựng bởi

bộ phân lớp như là các thuộc tính tôi ưu Mã hình này được gọi là mô hình Wrapper

Ngoài phương pháp đo lường trực tiếp ở trên, cũng có một phương pháp đo lường hiệu

quá không trực tiếp khác, chủ yếu dựa trên độ đo khoảng cách và độ đo thông tim trong,

việc chọn lựa thuộc tính Mô hình được xây dựng theo cách nảy được gọi là mô hình Filter

a Mé hinh Fitler

Trong ngữ cảnh của khai phá dữ liệu thi thông thường bộ dữ liệu rất lớn và không,

thể ding trực tiếp một bộ phân lớp dé phân lớp đữ liệu cho bộ dữ Hệu đỏ Do dỏ,

chúng la an sử dụng một số phương pháp liên xử lý (pre-processimg) đối với bộ dữ

Tiệu trước khi áp đụng phân lớp bộ đế liệu đỏ, Dưới đây, chúng In số xem xéi mô hinh: chọn lựa thuộc tỉnh Filter Các giai đoạn của mỏ hình Filter được thể hiên trong hình 1.2[16] đuới đây.

Trang 18

“pdũ lậu ban đh| tÌ Bộ sinh thuộc tính Topas Các đo lưỡng Đácdn ượng ><đfmeml3 77 a>

re me “ˆ Giai đoạn 4

Tap dữ lộu | I Sở

huận luyện

+ Giai đoạn 2

— a Kiémtra fe Giải thugt hoc fe

dung bat kỳ một giải thuật học náo ở giai đoạn này, Giai đoạn 2 — Giai đoạn này tương,

tự như giai đoạn 2 trong mô hình Wrapper, một bộ phân lớp học cáo trí thức thông qua

các thuộc tính được chọn lựa trên bộ đữ liệu huẳn luyện và được kiểm tra lại trên bộ

dữ liệu kiểm tra

Mô hình chọn lựa thuộc tính Eiller có một số đặc điểm sau: Mô hình mày không chịu ảnh hưởng của một giải thuật học cụ thể, (không áp đụng giải thuật học trong giai đoạn 1) nhưng lại chịu ảnh hưởng của bản chất bộ dữ liệu (sử dụng cáo đo lường trên bộ đữ liệu) Do đó, các thuộc tính được chọn lựa sau đó có thể được sử dụng cho các giải

thuật học khác nhau, Cac dộ do như thông tin, khoảng cách, dộc lập hoặc dé ding nhat

thường có chủ phí “rê” hơn so với do lường dộ chính xác của một lớp, vì vậy phương,

pháp Eilter có thể cho ra tập thuộc tính được chợn lựa nhanh hơn; và do tỉnh chất giản

don của các đô đo cũng như độ phức tạp thời gian cửa các đô đo này thường là thấp,

các bộ dữ liệu kích cỡ

niên phương pháp Eiller có thể được sử dụng trong việc xử lý

lớn Tuy nhiên, các thuộc tính được chọn lựa bởi phương pháp Fitler không cho phép

các giải thuật học hiệu chỉnh lại các sai số (đo nó chợn lựa thuộc tính đựa trên một số tiêu chí của bộ dữ liệu mả không dựa trên độ chính xác của kết quả học) cho nên kết

quả của phân lớp dõi khi có dộ chính xác không, cao

b Mô hình Wrapper

Mối quan tâm chỉnh của khai phá dữ liệu là thu được độ chính xác dự đoán cao Vấn để chính ở dây là làm thế nào chúng ta có thể cải thiên dược hiệu quả phân lớp dựa trên những tri thức hợc dược từ đữ liễu Một trong các phương pháp nhằm cai thiện

liệu quả phân lớp là thông qua chợn hựa thuộc tinh, vì (hông qua chọn lựa thuộc tính

chủng ta sẽ có tập đứt liệu tốt hơn cho phân lớp Nêu chúng ta có thế chọn được các

Trang 19

thuộc tính liền quan và loại bỏ các thuậc tính nhiễu thi chúng ta có thế nâng cao hiệu quã phân lớp mà cụ thể là nâng cao độ chính xác của bộ phân lớp [16]

Mô hình chọn lựa thuộc tỉnh Wrapper có thể giúp chúng ta thực hiện được những,

mong muốn trên Hình 1.3 [16] đưới đây thể hiện mô hình Wrapper

thuộc tính tốt nhất được chon lua, va dược kiểm tra lại bằng một bộ đữ hiệu kiểm tra

Khi các tập con thuộc tính được tạo ra một cách hệ thông (hướng tìm kiểm), đối với

mỗi tập con thuộc tính sẽ cá một bộ phân lớp được tạo ra từ đữ liện bao gồm các thuộc

tính đã được chọn lựa Dộ chỉnh xác của bộ phân lớp được phú lại trong mỗi lẫn thứ

nghiệm vả tập cơn thuộc tỉnh với độ chỉnh xác cao nhất sẽ được giữ lại Khi quá trinh chọn lựa kết thúc, tập con thuộc tỉnh với độ chính xác cao nhất sẽ được chọn Giai

doan 2 là quá trình học và kiểm tra thông thudng, trong giai đoạn này chúng tá sẽ có

độ chỉnh xác dự báo trên bộ dữ liệu kiểm bra

Dộ chính xác trớc tính của một bộ phân lớp trên dữ liệu tập huấn cá thể không phản ánh đúng độ chính xác trên bộ đữ liệu kiểm tra Do đó, vẫn để đặt ra ở đây là làm thé nao dễ có dude ước lượng dộ chỉnh xác tốt nhất trên các bộ đờ liệu kiểm tra Một trong, những cách làm phố biến lä sử dụng kiểm clrửng chéo (cross validation)

c Mé hinh Embedded

M6 hinh cudi cing 14 Embedded [5, 11, 25 ] Mô hình này khác với hai mô hình trén & céch ma module Iya chon thude tink va module hoc tuong tic véinhau Mé hinh Embedded là sự tích hợp, nhúng kỹ thuật lựa chọn thuộc tinh vào trong, quá trình xây

Trang 20

dựng mồ hình học Module lựa chọn thuộc tỉnh và module hoc duoc lang vac nhau

LUmbedded cũng sử dụng kết quả của mobule học đề đánh giá mức độ quan trong của các thuộc tính tuy nhiên nó sử dụng ngay các tính chất bên trong của thuật toán học chủ không chi dựa vào kết quá Dẻ thực hiện được mô bình embedded người phát triển cân tìm hiểu cầu trúc của thuật toán học, xác định các tham số có thể sử dụng cho việc

dánh giá mức độ quan trọng cửa thuộc tính Nói cách khác, các thuộc tính được xếp hang ngay trong quá trình thực thì của việc học, không phải sau khi việc học hoàn

thành như thuật toán Wrapper Thực nghiệm cho thây, trong nhiêu trường hợp

Embedded mang lại hiệu quả cao hơn hai mô hinhưên, đồng thời có thời gian thực thí

Các thuật toán lựa chọn thuộc tỉnh được xét đưới góc đô chiến lược tim kiém

tảo được sử dụng trong giải thuật đó: Tìm kiếm toàn bộ, Tìm kiểm theo kinh nghiệm

va Tim kiém xác suất Ngoài ra chủng ta cũng nghiên cửa một vài phương pháp khác:

phương pháp trọng số thuộc tỉnh (feature weighting method), phuong pháp lai (hybrid method) va phuong phap lén din (incremental method) Các thuậi toàn nảy dược trình bảy chỉ Hết trong các tải hệu |5, 15, 17, 25]

phức tạp thời gian của giãi thuật khi kiểm tra độ ổn đỉnh, giải thuật Focus cân tạo ra XŒ) tập con nhằm mục dich tim ra tập con m thuộc tính bẻ nhất thỏa mãn tiêu chí

én đính Khi in không nhỏ (Ví dụ nẽN2), thì của phí thời gian chạy giải thuật là rất

lớn Dưới đây là giả mã của phương pháp Focus [17]

Focus

Tnput:F — all featnre in đata Dự

U - incons:stexcy rate as evaluation meansure

Trang 21

b Phương pháp AAB

Duge Liu dua ra nim 1998, ABB là viết tắt của cụm từ automated Branch and Bound

algoritim |17| Chữ tự động (autormatcd) ở dây có nghĩa là cận (bound) dược xác dịnh một cách tự động, điển này không giỏng như giải thuật nhánh và cận cỗ ¢

ân phải được xác định trước

Giải thuật ABB bắt đầu với một tập tất cá các thuộc tính, AHRE thực hiện chiến lược tim kiểm theo chiều rộng Tại mỗi bước giải thuật lần lượt loại bó một thuộc tính

ào có thế được loại bồ rà vẫn thôa mãn trên

cho đến khi không pởn một thuộc lính

chi độ én định ABB thực hiện việc mỗ rộng không gian tìm kiếm cũng giống như là

việc cắt tỉa một cây Một nhánh bị “tia” khi nó không thế phát triển thêm được nữa do việc vi phạm tiêu chí ổn định Khi một nhánh không thế phát triển thêm được nữa thì

gốc của nhánh có thế là một trong những “ứng cử viên” cho kêt quả của giải thuật

Cuối củng, một tập với số lượng các thuộc tính nhỏ nhất được chọn lụa nếu nó thóa

xuãn tiêu chí đo lưỡng U

Ga11(8, DỊ ABBIS,D}

For each feature x in 9 {

#ngue (G, S2) 1 Waile net Empsy(Oi {

Trang 22

1.4.2 ‘Tim liếm theo kinh nghiệm

Có rất nhiều phương pháp chọn lựa thuộc tính theo kinh nghiệm Nhìn chung, cdc phương pháp nay déu lả sự đánh di việc tìm ra một tập con tốt nhất, với việc tìm ra

TnỘt lập cơm lỗi có thé b nhận được ở chừng mực nảo đó nhưng có thời gian thực

tiện nhanh hơn Mặc đủ, mục đích của các phương pháp tim kiểm theo kinh nghiệm

vẫn là tìm ra một tập con tối tu

Phương pháp đơn giản nhất trong các phương pháp tìm kiểm theo kinh nghiệm là

“trích” ra một bộ phân lớp và thực hiện việc chọn lựa các thuộc tính bằng cách sử dụng bộ phân lớp được tạo ra trước đó Dưới đây là giả mã của phương pháp tìm kiểm theo kinh nghiệm Wrap] [17]

Wrapl

Input :x - features

LA — learning alqorithn Initialize :set S-{} /* scores selected teatures*/

Trong phương pháp Wrapl, từ một tập dữ liệu N thuộc tính chúng ta áp đụng,

một giải thuật học trên bộ đữ liệu đó nhằm tìm ra một bộ phân lớp (các tham số) có kết quả phân lớp tốt nhất Sau dỏ, áp dụng bộ phân lớp này dỗi với tất cá cáo thuộc tính trong bộ dữ liệu cản phân lớp

1.4.3 Tìm kiểm xác suất

Có thể nói rằng các phương pháp xác suất là kết quả của việc các nhà nghiên cứu tiếp tục theo duỏi mục đích tìm kiếm tập con tối ưu mả không muốn thực hiện việc

tìm kiểm toán bộ trong không gian tìm kiêm, Không giống như bai phương phúp tìm

kiểm theo kinh nghiệm và tìm kiểm toàn bộ được trình bảy ở trên, các thuộc tính

khéng tuần tự được loại bỏ/thêm vàc từ một tập các thuộc tính cho trước Phương pháp tìm kiểm theo xác suất cho phép tìm kiểm các tập con thuộc tính mà ở đó các lập cơn này được tạo ra một cách ngầu nhiên, Trong nội dung nav ching ta sé tim hiểu 2 phương pháp tim kiếm theo xác suất là (a) Phương pháp LVT (Las Vegas algorihm

for Filter feature selection) va (b) LVW (Las Vegas algorithm for Wrapper feature selection) |5|

(a) Phuong phap LVF

Phương pháp LVE dược Liu và Setiono dưa ra vào năm 1996, phương pháp LVF bao

gồm một thủ Le cô thẻ lạo ra lạo ra các lận cơn thuộc tinh md cach ngau olién va mot

Trang 23

thủ te nhằm đánh giá xem mỗi tập con được tạo ra có thỏa mãn tiêu chuân chon ha

Kết quả của hai thủ tục trong giải thuật T.VE là một lập con thuộc tính tối ưa Đo

lường được sử dụng để đánh giá trong T.VF là tỹ lệ lỗi không én dink Gnconsistency) Giải thuậtT,VF này có hai tham sẻ quan trọng đó là: Tỷ lệ lỗi của đữ liệu khi sử đụng, tắt cá các thuộc tỉnh, số lượng tối đa các tập can thuộc tính được tạo ra ngẫu nhiên

earners Nos gian tim kiếm thì maxTries 2Ÿ x p%

Trang 24

(b) Phuong phap LVW

LVE là một giải thuật tương đổi đơn giãn Diễu này cũng có nghĩa là nó có thể

đễ dàng thay đổi được Chủng ta có thể thay đổi một trong hai thú thục Nếu chủng ta thay đổi thủ tục tạo ra ngẫu nhiên các tập con thuộc tính cing có nghĩa là

chúng ta sẽ khỏng có được giải thuật từn kiếm ngẫu nhiên Do dó, chúng ta chỉ có

thể thay đối thủ tục dánh giá nếu chúng ta vẫn muốn phương pháp nảy thuộc vào nhóm các phương pháp chọn lựa thuộc tính dựa trên xác suất GHả sử rằng chúng ta

quyết định sử dụng độ chỉnh xác tróc lượng của bộ phần lớp như một tiêu chí đo lưởng, chúng ta có phương pháp LVW Giả mã của phương pháp LVW được thé hiện đưới đây [5]

Ssrancomget (seed)

A=estimate (D, 5, LA]

SE LAP Age en)

= Boot A LES} /*L is reivit: alizedt/

L=append(8, 1}

end

‘Trong phuong pháp LVW các phương pháp thông kế được áp dụng nhằm ước

tỉnh độ chính xác của bộ phân lớp GHá trị maxTrics trong LWW dược xác dịnh tương,

tự như rong LVF Tuy ntién, dé chạy giải thuật hợc (LA) có thể phải thiết lập một vai tham số khác theo yêu cầu của giãi thuật học Hăm cstimale() được sử dụng trong,

LVW thay vì ham CalUQ trong LVE, có nhiều cách để thực hiển ham estimate() va

mãi cách có thế đua ra những kết quả chọn lựa thuộc tính khác nhau Một điểm khác

nhau nữa trong hai phương pháp này là LVF sử đụng tỷ lệ lỗi như một đo lường đánh giá, trong khi đó LVW sử dụng độ chính xác của bộ phân lớp như một đo lường đánh giá

Trang 25

1.4.4 Phương pháp trọng số thuộc tỉnh

Một trong những phương pháp tiêu biểu nằm trơng nhóm

ác phương pháp

trọng số thuộc Linh là Reliel Phương pháp này được để xuất bởi Kira va Rendell

vào năm 1992[25], mục đích ban đầu của phương pháp là nhằm giải quyết mat van đẻ Thực tế trang phản lớp là mỗi tương tác quan giữa cáo thuộc tính (một vải thuậc tinh

phụ thuộc lẫn nhau trong việc xác định lớp cúa thực thể) Relisf chọn lựa các thuộc

tính dựa vào sự tương quan thống kẻ Mặc dủ mọc dich của Relief vẫn lả chọn lựa thuộc tỉnh nhưng Relief không tạo ra các tập con thuộc tỉnh, và kiểm tra các điều kiện

ràng buộc của các lập con nảy như gị

nằm gan lẫn nhau Do đó, hai hàng xóm gần nhau nhất (mỗi thực thé thuộc về một

lớp khác nhau) đổi với mệt thực thế () được đưa ra, một lả near-bit (H) và một lả

near-miss (J) Về ý tướng, một thuộc tính là liên quan nếu giá trị của nó là tương tự

giữa 1 và near-hit, và khác biệt giữa L vả near-rniss Trên thực tế việc kiểm tra này có

thé được thực hiện bằng cách tỉnh khoảng cách tôi một giả trị thuộc tính: khoảng cách này nên là bé nhất đối vơi I và H và lớn nhất dối với I và I Khoảng cách của mỗi giá lrị thuộc tính đối với mỗi thực thể được lấy ra ngẫu nhiên được tổng hợp trong véc tơ w (weight), véc to nay có số chiếu băng sổ hượng thuộc tính Những

thuộc tính liên quan là những thuộc tỉnh có giá trị vector w vượt quá ngưỡng tương

quanr Ngưỡng tương quan này có thế được xác định bằng cách sử dụng phương

pháp thông kê để ước lượng khoảng Cỡ mẫu m có thể biến đổ: và mnột giá trị m lớn hơn có nghĩa là có một ước lượng xếp xí tin cậy hơn

Dưới đây là thể hiện giả mã của phương pháp Relief]25 J

Input: x - features

m murber of instances sampled

7 adjustable relevance threshcid

initialize: w= 0

for 1 | tam

bagin randorlv select an instance i

findnearest_hit Il and rearest_misa J

Trong giả mã của phương pháp Relisf ở trên, hàm điẾQ tính sự khoảng cách giữa

các giá trị của một sẻ thuộc tính với hai thực thể Dồi với các thuộc tính rời rạc, giá

Trang 26

trị khoảng cách nảy nhận cả giá trị l và 0 (1 nếu các giá trị là khác biệt và 0 nêu

các giả trị là như nhau), tuy nhiên đổi với các thuộc tính liên tục thí giá trị khoảng, cách nhận giá trị trong khoảng [-1;1]

Phương pháp Relief có thể ủng dụng được với cả dữ liệu rời rạc và đữ liệu liên tục Tuy nhiên phương pháp cũng có một sẻ nhược diễm đó là: (1) không hiệu quả

đối với đữ liệu chứ có hai lớp, (2) không “nhạy” với các đữ liệu thừa |5, 25]

1.4.5 Phương pháp lai

Các chiến lược tìm kiếm khác nhau yên cầu số hượng các tải nguyên khác nhau

và cũng cho các kết quả khác nhau Ý tưởng cho sự xuất hiện của phương pháp lai

thang tin gì vẻ số hượng thuộc tính liên quan chứng ta lại cần tới sự kết hợp của cả

hai phương pháp — phương pháp lai Một phương pháp lai khác là việc kết hợp LVF va ABB, phuong phap này được đặt tên là QBB (quiek Branch and Bound) [25] Phương pháp nảy chạy giái thuật LVE với số lần xác định, sau đó sứ dụng cáo tập con được chọn tử việc thực hiện giải thuật LVF như là đầu vào của giái thuật

LVF Nhu chimg ta đã biết, nêu T.VF chạy lâu hơn (nhiều lần chạy) có nghĩa là

được các tập con thuộc tính tốt hơn, cho tới kiú chúng 1a fim được lập con Lỗi ưa

Tuy nhiên, số lượng các tập oon được chọn lựa cũng nhỏ hơn khi LVF chạy nhiều

lần hơn Một mặt chứng ta muốn giãm số lượng cáo thuộc tính trong mỗi tập con(cáo tập con nay là kết quả của việc chạy giải thuật LVF), một mat chúng ta muốn số

lượng các tập con nảy không quá bẻ do đỏ chủng ta có thể giám thiểu nguy cơ mất các tập cơn tối ưu Vì thế chúng ta cân tim ra một “điểm chuyển” tốt để cân bằng,

giữn hai yếu lễ ở trên điều nảy cũng có nghĩa la QBB có £

anh chồng tìm ra các

tập con lỗi tu với xác suất cao

Dưới dây mình họa giả nnš của giải thuật QBB|25]

QBB

Input:num the cunicer cf loop in LVT

van allowed inconsistency rate

Trang 27

mây tinh cũng như lốc độ tính toán Do đó cần thiết phải có một giải pháp xử lý đổi

với vân để đặt ra này Một câu hẻi đặt ra là liệu chứng ta có thực sự cần quá nhiều đĩ liệu cho mỗi phương pháp chẹn lựa thuộc tỉnh để chọn ra cáo thuộc tính liên quan? Hay là chúng ta chỉ cần xứ lý với lượng dữ liệu it hơn? Câu trá lời cho câu hỏi này

vấn còn nhiều tranh luận Chúng ts sử dụng tý lệ lỗi như một ví dụ cụ thể chúng,

ta tỉnh toán tý lệ lỗi chung, cho một bộ dữ liệu là H, thí bắt kỳ một việc giám chiều dữ

liệu nủo cũng sẽ dẫn đến một sự tôi ưm tuy nhiên có thể dẫn đến sự sai lệch trong tỷ lê

lỗi Một mặt chúng ta gặp vấn đề đối với dữ liệu có kích cỡ quá lớn, do đó chúng ta muốn giảm dit hiệu tới một kích cũ phủ hợp Mặt khác chúng ta lại cần tất cả các

đứ liệu hiện có để đo lường chất hượng của các thuộc tỉnh được chọn lựa

Chúng ta biết rằng chỉ một vài phân trong bộ bộ dữ liện lớn có thế đại điện

cho toàn bộ bộ đữ liệu trong một chừng mực nào đó Tuy nhiên, câu hồi đặt ra ở

đây là phần nào trong bệ đữ liệu và độ lớn của phân đây là bao nhiêu thì phủ hợp

‘Thay vi việc tìm kiếm chỉnh xác phản dữ hiệu nảy, chúng ta có thể ngẫu nhiên chọn lựa một phần p nào đỏ, sau đỏ sứ dụng phần này để tìm một tập con thuộc tính thỏa mãn các tiêu chí dánh gia nao dé Sau đó kiểm chứng tập con nảy tén phan con lai của bộ đữ liêu (toàn bộ bỏ đữ liêu trừ đi phần dữ liệu lấy ra) Có hai khả năng có thể, (1) Tap con thỏa mãn các tiêu chi đánh giá trên phần còn lại của đở liệu Điều này

có nghĩa là nhiệm vụ đã hoàn thành: và (2) Có một vài tiêu chí đánh giá chưa được

thôa mãn trên phân còn lại của đứ liệu Điêu này có nghĩa lả phần dữ liệu mà chúng,

ta lẫy ra ở trên chưa phải là phần đứt liệu mmả chứng ta mong muốn Nếu gặp phải

khả năng thứ hai chúng ta có thể giải quyết như sau: Thêm đử liệu từ bộ dữ liệu ban đầu vào bộ dữ liệu đã chọn ở trên và thực hiện lại việc chọn lựa thuộc tính trên bộ

đữ liệu này Quá trình này sẽ đừng lại khi tất cả các tiêu chí dánh giá dược thỏa mãn

Thêm một câu hỏi ở đây đó là giá trị của p bao nhiêu la phù hợp Một cách trực quan, kicl cỡ của p không nên quả †o cũng như quá nhỏ, Nếu kich cỡ của p quả nhỏ, thỉ ngay sau lần thứ nghiệm dâu tiên sẽ có rất nhiều tiêu chỉ dành giả chưa dược thöa mãn 2o dỏ, sẽ thực hiện việc thêm các thực thẻ từ bộ dữ liệu còn lại váo p va

có thể điều này dan đến kích cỡ của p sẽ lớn gần bằng kích cỡ của bộ đữ liệu ban

vẫn phải đương đầu với vấn để quá tải đữ liệu cộng với một vải

đánh giá có thể chưa được thỏa mãn Một cách đơn giản có thể giải quyết được

việc này đó là chọn p thee tỷ lệ % của bộ đữ liệu, ví dụ chọn p=10%, hoặc một

Trang 28

cách khác là chọn p tý lệ với số lượng thuộc tính của bộ đữ liệu Một tỷ lệ %4 phủ

hợp được xác định thông qua tiến hảnh thực nghiệm Y tưởng về việc chọn lụa đữ liệu được thể hiện trong giải thuật được đặt tên là LIV được Lưi và Seiono để xuất

và năm 1998[17, 15, 25]

LVI

Input:axtries -lke mexiaum number of lucps

- - the inconsistency weasvre

bo - pS of b chosen randemiy Initialize :Di=D-D;

leop

Stye=LVT (Dor ¥e §)

if (Ca_Lncon i Sry, D1! Dp, inconData) <y)

return (Srv!

Ty append {incenNazay Dat

Dy=remeve {incenDaza, Dy)

enc of lecp Output : Sim

'Trong giấi thuật này hàm CallNcon tra lai gia tri của tý lệ lỗi và các đữ liệu

không phủ hợp trong inconData

Trang 29

CHƯƠNG 2: THUẬT TOÁN RANDOM FOREST VÀ GIẢI

THUAT DI TRUYEN

2.1 Giới thiệu thuật toán Random Forest

Random Forest (rimg ngau nhiên) [6, 7, 8, 18, 24, 29] là phương phân lớp thuộc

tinh được phát triển bởi Leo Breiman tại đại hoe California, Berkeley Breiman cũng đồng thời là đồng tác gia ctia phttong phap CART (Classification and Regression

Trees)[9] được đánh giá lả một trong 10 phương pháp khai phá dữ liêu kinh điển Random Forest (RF) được xây dưng dựa trên 3 thành phân chính là: (1) CART, (2) học

toan bộ hội đồng các chuyên gia, kết hợp các mô hình, vả (3) tổng hop bootstrap

(bagging), Về ban chat RF str dung kỹ thuật có tên gọi là bagging Kỹ thuật này cho

phép lựa chọn một nhỏm nhỏ các thuộc tỉnh tại mỗi nút của cây phân lớp đẻ phân chia

thành các mức tiếp theo Do đỏ, RE cỏ khả năng phân chia không gian tìm kiếm rất lớn thành các không gian tìm kiểm nhỏ hơn, nhờ thẻ thuật toán có thẻ thực hiện việc phân

RE sử dụng công thức Gini [9, 29] như là một hàm điều kiện đẻ tính toản việc

phân chia cây tại mỗi nút Số lượng cây lả không hạn chẻ vả không sử dụng bắt cứ kỹ

thuật nào đề hạn chế việc mở rộng cay [1]

Hiện nay, Random Forest đang được sử dụng khá phổ biên bởi những điểm vượt trội của nó so với các thuật toán khác: xử lý được với đữ liệu cỏ số lượng các thuộc tinh

lớn, có khả năng ước lượng được độ quan trọng của các thuộc tính, thường có độ chính

Trang 30

xác cao hơn, quá trình học nhanh Trong Random Eorest, mỗi nođe trong cây chi chon một tập nhỏ các thuộc tỉnh để quyết định một lần phân chia, cơ chế nảy lảm cho RI" thực thị với tập dữ liệu có số lượng thuộc tỉnh lớn trong thời gian nhanh hơn nhiều các thuật toán khác Chủng ta có thể chí định số lượng các thuộc tính được dùng cho mỗi

lan phan chia, gia tri mặc định là sqrt(p) chơ thuật toán phản lớp, và

toán hỗi quy, với p là số lượng lất cả các thuộc tính Các cây lớn nhất có thể sẽ dược tạo ra và không bị cắt xén Số lượng các cây con dimg dé tao nén cây tổng thể

được đất đủ lớn để đâm bảo tất cã các thuộc tính déu được sử dụng một số lần Việc lua chon số lượng các cây phụ thuộc vào số lượng các thuộc tính, số lượng cây quá lớn hoặc quả nhỏ đều làm giảm độ chính xác của mô hình cây tổng thể Node gốc của các cây sử dụng một tập hợp các mẫu gọi lá mẫu boct-strapp để xây dụng cây Lất cả

các mẫu cỏn lại, được gọi là mẫu out-of-bag dung cho việc tính toàn mic độ hiệu quá

của thuật toán Thông thưởng các mẫu out-of-bag chiếm một phần ba tổng số mẫu

Việc sử dụng ước lượng out-of-bag giúp quản lý tỉ lệ lỗi, đô mạnh và mồi liên hệ giữa các thuộc tính

2.2 Phuong phap Bootstrap va Bagging

2.2.1 Phuong php Bootstrap [29]

Tà một phương pháp rất nỗi Géng trong thông kê được giới thiệu bởi Bradley Elron

vào năm 1979 Phương pháp này chủ yêu dùng để ước lượng lỗi chuẩn (standard

errors), độ lệch (bias) và tính toán khoảng tin cậy (confidence interval) cho các tham

số Phương pháp này được thục hiện như sau: Tử một quân thê ban đầu lấy ra một mẫu

L = (x1, x2, xn) g4m n thành phản, tỉnh toán các tham số mong muốn Trong các bude tiếp theo lặp lại b lẳn việc tạo ra mẫu Lb cũng gồm n phân từ từ L bằng cách lấy lại mẫu với sự thay thế các thành phản trong mẫu ban dâu sau đó tính toán các tham số mong muốn Hình 23129 dưới đây thể hiện một ví dụ sử dụng phương pháp

boolstrap trong việc linh toán giá trị trung bình

0.0.22 3.12) Mean=4.13

Tình 2.2.1 Vĩ dụ về phương pháp bootstrap] 29}

2.2.2 Phuong phap Bagging [29]

Phương pháp nảy được xem như lả một phương pháp tổng hợp kết qua có được

tù cáo bootsirap, Tu tưởng chỉnh của phương pháp nảy như sau Cho môi tập huần

Trang 31

luyén D={(xi, yi): i=1,2, n} va gia str chimg ta mudn có một một dự đoán nảo đó đối

với biến x

Một mẫu gồm l3 tập đữ liệu, mỗi tập đề liệu gồm n phần tử được chọn lựa ngẫu nhiên tir D véi sy thay thế (giống như bootstrap) Do 45 B=(D1, D2, „ D3) trồng giống

như là một tập các tập huần luyện được nhân ban;

Tập huấn một máy hoặc một mê hình đối với mỗi tập IDb (b=1, 2, T) vả lần lượt thu thập các kết quả dự báo có được trên mỗi tập Dh,

Kết quả tổng hop cuối cùng được tính loán bằng cách trưng bình hoa (regression) hoặc thông qua số phiêu bầu nhiều nhất

Dưới đây là thể hiện chỉ tiết của phương pháp bagging

Xây dựng B boostrap eda 1 ký kiệu: L1, 1⁄3, .1.B;

Áp dụng giải thuật học cho mỗi Lb (b=1:13) để có tính toán dự doan hb

Goi Th — TÀIb là các điểm dữ liệu không xuất hiện trong Lb (out of bag points)

Đổi với mỗi điểm dữ liệu x, chủng ta sẽ quan sát giả trị y tương ứng va tinh toàn các

dy doan F0), FA) HO)

Tỉnh toán trung bình du doan Ox)

Ước lương sai lệch (bias) và phương sai (variance)

Một phâm lớp tổng hợp có thể xem như ruột xấp xỉ tới giá trị trung bình tưực sự của £'

có được bằng cách thay đếi các phân bố xác suật p với cac bootstrap

Bagaing lâm việc tốt với các giải thuật học khéng, én dinh (neutral networks, Decision

trees va Regression trees, Subset selection in logistic/linear Regression) Tuy nhién

bagging cling cé thé lam giam dộ chính xác của các giải thuật học ổn dinh (K-nearest

neighbors) (do sut thay déi trong dữ liệu của tập huấn luyện)

2.3 Thuật toán Random ForesL

Trong Randem Forest [8], kết quả của việc phát triển một tập hợp các cây sẽ làm cải thiện một cách đáng kể độ chính xác phân lớp, mỗi cây trong tap hợp sẽ “bỏ

Trang 32

phiếu” cho lớp phổ biển nhật Đế phát triển các tập hợp cây nảy thông thường các véc

tơ ngẫu nhiên được tạo ra, các véc tơ này sẽ chị phối sự phát triển của mỗi cây trong

các tập nói trên Dồi với cảy thứ k trong tập các cây, mnột véc tơ ngẫu nhiên @k được tạo ra, véc tơ này độc lập với cáo véc tơ được tạo ra trước đó Ø1, @2, , @k-I nhưng

sự phân bó của các véc tơ này là tương tự nhau Một cây được phát triển dựa vào tập tập huấn và véc tơ @k kết quả là được một phan lop bfx, Ok) wong do x la vée to dau vào Sau khi một số lượng lớn các cây được lạo ra các cây mày “bỏ phiếu” cho lớp pho

biển nhất Chúng ta gọi những quá trình này là ranđom forest

Ranđom forest được định nghĩa như sau [7]: Mật ranđom forest là một phân lớp bao gồm một tập các phân lớp có câu trúc cây (hớc, Øk), k=l, trong đó {@k} là những

véc tơ độc lập, tương tự nhau được phân bỏ một cách ngầu nhiên và mỗi cây sẽ bố một

phiểu bảu cho lớp phổ biển nhất ở véc tơ đầu vào x

' tưởng chính của giải thuật Random Forest:

+ _ Ở mỗi lần phân chia cây một tập ngău nhiên m thuộc tính dược lấy ra và chỉ

mm thuệc tính nảy tham gia vào việc phân chia cây Thêng thường m =./p

hoặc p3 trong đó p là tổng số cáo thuộc tính

Đi lôi với tuổi cây phái " iy phái triển triển dựa trên một mẫu booslrap, dựa Ú a boost t tỷ cửa các

phân tử không uuộc vào bootstrap là được kiểm soái Tỹ lệ lỗi này được

gọi là tỷ lệ lỗi “out-o£ bag” (OOT)

Mô tã thuật toán RE: [8 ]

1 Chọn T là số lượng các cây thanh phân sẽ được xây đựng,

2 Chọn m là số lượng các thuộc tinh sẽ được dùng dé phân chia tai mdi node của cây, m thường nhỏ hơn p rất nhiều, p là tông số các thuộc tính Giá trị ra được giờ không đổi trong suốt quả trinh dựng cây,

3 Dựng T cây quyết định Trong đó mỗi cây dược hình thành như sau

4) Xây đụng tập mẫu khéi ding ( bootstrap ) với n mẫu, hùnh thành Lis việc hoán vị tập các nấu ban đầu Mỗi cây sẽ được dựng từ tập khỏi động này

b) Khi xây dựng cay, tai mdi node sé chọn ra m thuộc tính, và sử đựng m thuộc tính này đề tim ra cách phân chia tốt nhất,

e) Mỗi cây được phát triển lớn nhất có thể vá không bị cắt xén

4 Sau khi xây dựng được Random I'orest, để phân lớp cho đổi tượng T, thu thập kết quả phản lớp déi tượng nảy trên tất cả các cây quyết dịnh và sử dụng kết quả được chọn nhiều nhất làm kết quả cuối cùng của thuật toán Tỉ lệ lỗi của cây tổng thé phụ thuộc vào độ mạnh của từng cây quyết định thành phần và mỗi quan hệ qua lai

giữa các cây đỏ

Hình vẽ 2.33] đưới đây thế hiện các bước trong Random Rorest Đề phân lớp một đối tượng mới Random Rorest căn cử vào số phiếu má các cây trong rừng bỏ cho đổi tượng đỏ thuộc về lớp nào

Trang 33

Tập dữ liệu học:

imran tử, nthuộc tị inh)

Hình 2.3 Các bước trong Random Porest[3]

Quá trình học của Random Forest bao gồm việc sử dụng ngầu nhiên giá trị đầu vào, hoặc kết hợp các giá trị đó tại mỗi node trong quá trình dựng từng cây quyết định

Trong đó Random Forest cỏ một số thuộc tính mạnh như{8]

(1) Độ chính xác của RE tương đôi cao

(2) Thuật toán giải quyết tốt các bài toán có nhiều dữ liệu nhiều

(3) Thuật toán chạy nhanh hơn so với bagging

(4) Có những sự ước lượng nội tại như độ chỉnh xác của mô hình phỏng đoán hoặc độ mạnh và liên quan giữa các thuộc tính

(5) Dễ dàng thực hiện song song

(6) Tuy nhiên đề đạt được các tỉnh chất mạnh trên, thời gian thực thị của thuật

toán khá lâu và phải sử dụng nhiều tài nguyên của hệ thông

Tỉnh chất thứ 4 được quan tâm rât nhiều vả là tỉnh chất được sử dụng đề giải

quyết bài toán trích chọn thuộc tỉnh Sau khi thực hiện học sẽ thu được một đanh sách các thuộc được xếp hạng dựa theo một trong hai tiêu chí, Tiêu chỉ thử nhất là thu được sau quá trình kiêm tra độ chính xác sử dụng các mẫu out-of-bag Tiêu chí thứ hai là mức độ dây đặc tại các node khi phân chúa thuộc thuộc tính, và được tính trung bình

trên tất cả các cây

Qua những tìm hiểu trên vẻ giải thuật RE ta có nhận xét rằng RF là một phương pháp phân lớp tốt do: (1) Trong RF cae sai s6 (variance) dugc giảm thiêu do kết quả của RE

được tổng hợp thông qua nhiều bộ học (learner), (2) Việc chọn ngâu nhiên tại mỗi

bước trong RF sé lam giảm mỗi tương quan (correlation) giữa các bộ phân lớp trong,

việc tổng hợp các kết quả

Trang 34

Ngoài ra, chủng ta cũng thây rằng lỗi chung của một rừng các cây phân lớp phụ thuộc

vào lỗi riêng của từng cây trong rừng cũng như mỗi tương quan giữa các cây

2.4 Một số đặc điểm của RF

2.4.1OOB

Nhắc lại ở trên khi tập mẫu được rút ra từ một tập huần luyện của một cây với

sự thay thé (bagging), thi theo ước tính có khoảng 1⁄3 các phần từ không có nằm trong, mẫu nảy [7] Điều này có nghĩa lả chỉ có khoảng 2/3 các phản tử trong tập huấn luyện

tham gia vào trong các tính toán của chủng ta, và 1⁄3 các phần tử nảy được gọi là dữ

liệu out-of-bag Dữ liệu out-of-bag được sử dụng đề ước lượng lôi tạo ra từ việc kết

hợp các kết quả từ các cây tổng hợp trong random forest cũng như dùng để tước tính độ

quan trong thudc tinh (variable important)

Trong random forest OOB được tính như sau: Giả sử cỏ một phương pháp cho

việc xây dựng một bộ phân lớp từ bất kỷ tập huấn luyện nào Cho một tập huan luyện

T ban đầu, sử dụng phương phap bootstrap xay dựng được tập huân luyện Tk, sau do xây dựng các bộ phân lớp h(x, Tk) và sử dụng các bộ phân lớp nảy “bỏ phiêu” đề xây dựng một tập tham số dự bảo Đối với mỗi cặp y, x trong tập huân luyện, việc tổng hợp các lá phiếu chi được thực hiện trên những bô phan lớp đối với những tap Tk

không chửa y, x Chúng ta gọi tính toán trên là out-of-bag classifier Sir dung dit ligu

out-of-bag đề ước tỉnh tỷ lệ lỗi trong RF lả việc tỉnh toán tỉ lệ lỗi của out-of-bag, classifier trén tap huân luyên Tk Cách tính trên có thể được hiểu một cách đơn giản

như sau: Gửi các “đôi tượng” trong OOB xuống cây và “đêm” số các dự đoán đúng, ta

gọi kết quả của tính toản nảy la ROOB

Hình 2.4.1[7] dưới đây thể hiện sử dụng dữ liệu OOB để ước lượng lỗi trong RF

Mẫu Bootstrapped Miu oon

Hình 2.4.1 Sử dụng OOB trớc lượng lôi[7]

Trang 35

3GB, lần lượt “gửi” các giá trị này xuống cây và “đếm” số các dự đoán đúng ta gọi việc tính toản nảy đối với thuộc tính là Rperm

Lộ quan trọng thuộc tính được tỉnh như sau:

Trong trường hợp giả trị của thuộc tỉnh quan trọng trên mỗi cây là độc lập thì

chủng ta có thể tính được lỗi chuan (standard error) cla ROOB — Rperm

Ngoài độ quan wong thuộc tính, trong RF cũng cầu chú ý đến dộ quan trọng

GIRI (GINT impertzm) Chỉ số GTNI tại nút N được định nghữa là tổng bình phương,

xác suất mỗi lớp tại nút N [28] Chỉ số GINI được tính như sau:

1

7

Trong đó p(wj) là là xác suất của lớp wj có mặt lại lớp Ñ Điều này cũng có

nghĩa là nếu trong tật cả các trường hợp tại nút N chỉ rơi vào một lớp duy nhật, thì giá trị chỉ số GTNI tại nút N bằng 0

Trong một số giải thuật như CART, SLIQ va RI chi sé GINI được sứ dụng như

lả mệt tiêu chỉ để phân nhánh trong cây Các giải thuật này , cực tiêu hỏa giá trị

chi sé GIN tại nút dựa váo việc phân nhánh trong cây theo công thức sau [8]:

cũ các cây dưa ra một độ quan trọng thuộc tỉnh nhanh, và điểu nảy là rất đẳng nhất với

đo lường độ quan trọng hoán vị [28]

Trong chương tiếp theo luận văn để xuất một mô hình học máy nhằm tăng hiệu

quả các thuật toàn phân lớp nói chung và của giải thuật RE nói riêng,

2.5 Giải thuật di truyền [32]

tối ưu hàm, xử lý ảnh, bái toán hành trình nguời bản hàng, nhận dang hệ thống và điều

khiến Thuật toán di truyền cũng như các thưật toán tiên hóa nói chung, hình thành đựa

trên quan niệm cho rắng, quá trình tiến hóa tự nhiền là quá trình hoàn hảo nhật, hợp lý nhất và tự nó đã mang tính tối ưu Quan niệm nảy có thể xem như một tiên để đứng, không chứng minh được, nhưng phủ hợp với thực tế khách quan Quả trình tiến hóa

Trang 36

thể hiện tính tối ưu ở chỗ, thê hệ sau bao giờ cững tốt hơn (phát triển hơn, hoàn thiện hơn) thể hệ trước bởi tỉnh kế thừa và đầu tranh sinh tên [2]

2.5.2 Nội dung giải thuật di truyền

giả thuyết trên đữ liệu huần luyện này Nếu tác vụ là học chiến lược chơi cờ, độ thích: nạhi cỏ thể lả số ván thẳng của chiến lược này khi đấu với các chiến lược khác trong, quần thể hiện tại

Mặc dù các thuật giải đi truyền được thực hiện thay đổi theo bài loán cụ thể, nhưng

sau: Thuật

chúng chia s@ chung cấu trúc tiên bì hoạt động bằng cách cập nhật

liên tục tập giả thuyết — được gọi là quần thế Ở mỗi lần lặp, tắt cả các cá thể trong quan thế được ước lượng tương ứng với hàm thích nghỉ Rồi quản thé mdi được Tạo ra

‘bang cách lựa chọn có xác suất các cả thể thích nghỉ tắt nhật từ quân thể hiện tại Một

số trong những cả thể được chọn được đưa nguyên ven vào quản thể kế tiếp Những cả thể khác được đừng lâm cơ sở để tạo ra các cá thể con bằng cách áp dụng các tác động,

di truyền: fai ghép và dội hiển

Nội dung của giải thuật đi truyền mẫu được phát biểu như sau [32]

GA (Fitness, Fimess_threshold, p, r, m)

{ 1J Fitmess: hàm gán thang điểm ước lượng cho một giả thuyết

jj Fitness_ threshnid: Ngưỡng xác định tiểu chuẩn dừng giải thuật tỉm kiếm

!] p: Số cá thể trong quần thể giả thuyết

Jit: Phân số cả thé trong quần thể được áp dụng toán tử lai phép ở mỗi bước,

Jjm: Tỉ lệ cá thể bị đột biển

ø _ Khởi tạo quần thể: P € Tạo ngẫu nhiên g cá thể giả thuyết

ø _ Ước lượng: Ứng với mỗi h trong P, tỉnh Fimess(h}

= while [max Fitness(h)] < Fitness_threshold do

cặp giả thuyết từ quần thé P, theo Pr(hi)

đã tính ở bước trên Ứng với mỗi cặp <hụ, ha>, tạo ra hai con bằng cách áp dựng toán tử lai ghép Thêm tất các các cơn vao Ps

2 Lai ghép: chọn lọc theo xác suất

Trang 37

3 Đột biến: Chọn m% cá thể của P; với xác suất cho mỗi cá thể là như nhau Ứng với mỗi cá thể biển đổi mật bit được chọn ngẫu nhiên trong cách thể hiện của nó

4 Cập nhật: P< P;

5 Ước lượng: Ứng với mỗi h trong P, tính Fiuness(h)

«_ Trả về già thuyết trong P có độ thích nghỉ cao nhất

Quản thế gồm n cá thé Ở mỗi lần lặp, quân thể kẻ tiếp Py duoc hình thành từ việo

lua chon theo xác suất các giả thuyết hiện tại theo độ thích nghỉ của chúng và bằng,

cách thêm vào các giả thuyết mới Các giả thuyết mới được tạo ra bằng cach ap dung

toán tử lai ghép cho cặp giả thuyết thích nghị nhất và bằng cách tạo ra các đột biến điểm đơn trong thẻ hệ giá thuyết kết quả Quả trình nay được lặp cho đến khi các giả thuyết thích hợp được phát hiện

Một thuật giải di ruyền mầu duge mé (4 6 trên, các dâu vào cho thuật giải nay bao

gồm ham tính độ thích nghỉ để tính hạng cho các giả thuyết ứng cử, một giá trị ngưỡng

được định nghữa cấp độ thích nghỉ có thé chap nhận để kết thúc thuật giải, kích thước quân thế, và cáo tham số qu iếp được tạo ra như thể nào: phần quấn thể bị thay thể ở mỗi thế hệ và tỉ lê đột biên

Luu y trong thuật giái này, ở mỗi bước lặp qua vóng lặp chính tạo ra một thế hệ mới các giả thuyết dựa vào quản thể hệ hiện tại Trước tiên, một số gid thuyết được chon từ quân thể hiện tại để đưa vảo thể hệ kế tiếp Những giá thuyết nảy được chon

theo xác suất từ quần thể hiện tại, sử dụng hảm xác suất được định nghĩa ở trên Sau khi các cá thể mới được tạo ra từ hoạt động lai ghép này, quần thê thể hệ mới bây giờ

có đủ số lượng thành viên mong muốn Lúc này, một phân số zw nảo đó các cả thể nảy

dược chọn một cách ngẫu nhiên vả tất cả các đội biển ngấu nhiên được thực hiện để

thay dồi các cá thể này

Tiêu đề	Luận văn nghiên cứu xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều
Tác giả	Dong Thi Ngoc Lan
Người hướng dẫn	PGS. TS. Nguyen Ha Nam
Trường học	Đại học Quốc Gia Hà Nội
Chuyên ngành	Công nghệ Thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2012
Thành phố	Hà Nội

Định dạng
Số trang	74
Dung lượng	1,78 MB