* Chon lua thuộc tinh Feature Selection: Chon lwa thuée tinh 14 vie chon ra một tập thuộc tính cơn từ tập thuộc tỉnh ban đầu sao cho các tập thuộc tính con này thể thể luện tốt nhật clr
Trang 1NGHIÊN CỨU, XÂY DỰNG PHƯƠNG PHÁP TRÍCH
CHON THUOC TINH NHAM LAM TANG HIEU QUA
PHÂN LỚP DÓI VỚI DỮ LIEU DA CHIEU
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HA NOL, 2012
Trang 2
ĐẠI HỌC QUOC GIA HA KOI TRUONG DAI HOC CONG NGHE
DONG THI NGỌC LAN
NGHIEN CUU, XAY DUNG PHUONG PHAP TRICH
CHỌN THUỘC TÍNH NIÄM LÀM TĂNG HIỆU QUA
PHAN LOP DOI VỚI DỮ LIỆU ĐA CHIẾU
Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10
LUẬN VĂN THẠC SĨ CÔNG NGHE THONG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Nguyễn Hà Nam
HA NOL, 2012
Trang 3
CHƯƠNG 1: TONG QUAN VỀ KHAI PHÁ DE EB VA TRICTI CIION THUOC TENT
1.1 Giải thiện khai phá đữ liệu và trích chọn thuộc tính -
1.3 Phương pháp lựa chọn thuộc tÍưi sec
1.3.1 Tim kiếm ccoonenhenihieiieiinereo
1.3.2 Đánh gjá cceeirerrrririririririrriie
1.3.3 Các mô tình lựa chọn thuậc tỉnh
14.1 Tim kiểm toàn bộ
1.4.2 Tìm kiểm theo kinh nghiệm 2
2.2 Phương pháp Bootstrap va Bagging
2.2.1 Phương pháp Toetstrap |29] cseererrirrrreee
2.3.2 Phương pháp Bagpjing [29] set
2.3 Thuật toán Ranlom Forati co neiirrrrrriie
2.4 Một sô đặc
2.4.2 Thuộc tinh quan trọng
2.5 Giái thuật đi truyển |32| ceeeirirrrrrrrrree
2.5.1 Giới nộ
2.5.2 Nội đung, giải thuật đi truyễn
CHƯƠNG 3: PHƯƠNG PHÁP ĐỂ XU¿
Trang 4
34 Nội đung phương pháp để xuất
3.5 Hoạt động của hệ thông đê xuất
3.4 Sơ để khối phương pháp để xuất ieiiiieieeei
CHUONG 4: THỰC NGHIÊM VÀ ĐÁNH GIÁ
4.1 Mỗi trường thực nghiệm - series
4.3.2 Rộ đữ liện nng thu ruột kết Golem Tnmmo
4.3.2.1 Mô tả đữ liện cu hhHhhHHheHuhedeeererde
Trang 5DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT
KDD Knowledge Discovery in Database
OOB Out- of- Bag
tt Thuéc tinh
Trang 6
Băng 4 11 kết quã đoán nhận củz RF khi chey 20 dn trên Colon Tumor vOt «6 edy ln lượt bằng 100,300,500,
Bằng 4.14 Thời giơn (phút) trung bình,nhỗ nh:
Tumør với số cây lẫn lượt bằng 100, 300,500 5B
Bang 4.15 Két qud dodn nhan clio RF khi chay 20 lan trén Colon Tumor tdi ưu với số cây lẫn lượt bằng
Bing 4.18 Thồi ginn trung bình, nhổ nhất lên nhắt khí huần luyện và kiểm ra RF 20 ln trên Colon Tumør tối
Trang 7Hình 2.3 Các bước trong Random rarest(3j
Hình 2.4.1 Sử dựng OO8 ước lượng lỗi[7)
Hình 3.1: Mô hình đề xuất theo phương pháp wrappEr
Hình 3.3: Kiên trúc cơ bẫn củo hệ tnd
Hình 3 5: Mồ tả kiểm chững chéo(22] " +
Hình 3 6: Sơ đỗ khối phương phúp để xuất Xe
Hình 41 Thôi gian lựn chọn được bộ thuậc tính môi về độ phù hợp củo bộ thuậc tính mới
Hình 42 Biểu đỖ so sánh kết quá chạy RE 20 lẦn trên bộ dữ liêu mới vờ bộ dữ liệu han đầu với số cây bằng
100 "2
Hình 43 Biểu đỗ so sảnh thôi gian chạy trung bình cứu 20 lân chạy RE trên bộ dữ liệu mỗi vờ bộ dữ liệu hơn
đu vời số cây bẲng 100,300,500,800,1000 vee
Hình 4.9 Thời gian iyo chon duce b6 thude tinh mot ee
Hinh 4.10 Két qué chay RF 20 lẫn trên bộ thuộc tính Colon Tumor: than dy vb sou Bhi uta vot SB 'cây là 100
Hình 4 14 Biểu đỗ so sánh thời gian huấn luyễn trung bình cúu 20 lẫn chạy 8£ trên bộ dữ liệu Colon Tumaor
mới và bồ dữ liệu Calon Tumor ban đẫu với số cây bằng 100,300,500 6a
Hình 4 15 Biễu đỗ sơ sánh thồf gian kiểm trợ trung bình cứa 20 lẪn chạy RF trên hộ dữ liệu Colan Tumor mót
về bộ dữ liệu Colan Turar ban đầu vớt sổ cây bẲng 100,300,500 si
Trang 8MODAU
+ Lido chon dé tai
Ngày nay, trong xu hướng hội nhập qué thời đại thông lin bing nd, chimg ta
đang “ngập lụt" trong đữ liệu nhưng lại “đói” về trí thức, cho nên vẫn để tin học hoá
và hiện đại hoá công nghệ thống tin ở nước ta ngày càng trở nên cập thiết và mang tỉnh
thời đại Mệt trong các vân đề cấp thiết đó là làm sao phan tích và xử lý một khối
lượng thông tin không lễ liên tục được cập nhật để đáp ứng các yêu câu về phát triển mọi mặt văn hoá, kính tế, chỉnh trị, xã hội của đất nước Vi ly do đỏ mà việc chon được các thuộc tỉnh đặc trưng nhằm tăng hiệu quả phân lớp đối với đỡ liệu đa chiều
dang là một xu thế tắt yêu nhằm giải quyết vẫn đề chất lọc ra những thông tin hữu ích thay chất lọc trì thức từ khối dữ liệu khổng lỗ mà chúng ta có
Hiện nay phần lớn các thuật toản phân lớp đã phát triển chỉ có thể giải quyết được
một lượng số liệu giới hạn cũng như một độ phức tạp dữ liệu biết trước Trong khi đó
nhờ sự phát Hiển mạnh mẽ của khoa học kỹ thuật khối lượng đữ liệu mã chứng la thú
thập được ngày cảng phong phủ và đã dạng Hơn nữa tuy thuộc vào lừng loại đữ Hiệu
và ứng đựng cụ thể mà mỗi thuật toán có độ tốt xâu không giống nhau Các nghiên cứu cho thay có rất nhiều hướng cải tiến các thuật toán phân lớp như áp dụng các thuật
toán kết hợp (ensemble method), các thuật toán đựa vào phương pháp nhân (kernel- based method), hoặc áp dụng các phương pháp trích chọn thuộc tỉnh (feature
extraction/ selection method) Trong các phương pháp kể trên phương pháp trích chọn
đử liệu Hướng tiếp cận này làm tăng hiệu năng thu nhận tri thức trong các nganh ni
tin sinh, xứ lý dữ liệu web, xứ lý tiếng nói, hinh ánh, Phương pháp trích chọn có một
số ưu điểm nỏi trội sau: Thứ nhất, phương pháp này giúp giảm số lượng các thuộc tính
của dữ liệu, điều này giúp giám thời gian tỉnh toản của thuật toán phân lớp Thứ hai,
luận văn đã chọn đề tài “Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính
nhằm làm tăng hiệu quả phân lớp đổi với đữ Hệu đa chiều” với mong muốn tìm
hiểu và nghiên cửu về lĩnh vực này
« Mục tiêu nghiên cứu
Mục tiêu của để tài là nhằm nghiên cứu vả tim các phương pháp trích chọn thuộc tinh - một công việc quan trọng trong việc chuẩn bị và xứ lý số liệu trong khai
Trang 9phá đữ liệu Dựa vào đó xây đựng mỏ hình lựa chọn thuộc tính tối ưu giúp giảm kích
cỡ của dữ liệu theo hướng chỉ giữ lại các thuộc tính đặc trưng, loại bỏ những thuộc
tính không liên quan vả những thuộc tỉnh nhiễu nhằm tăng tốc các thuật toán phần lớp cải thiện chất lượng đữ liệu và vi vậy sẽ tăng hiệu suất của việc khai phá đữ liệu
«_ Đấi tượng, phạm vỉ, phương pháp nghiễn cứu
Đối tượng nghiên cứu của luận vẫn là tìm hú:
thuộc tính Bài toán được phát biểu như sau: dối với bộ số liệu lớn thu được gồm hàng tram dén hảng nghìn bản ghi và mỗi bản gÌn lại gồm hàng nghìn các thuộc tính Các
bản ghỉ được phân thành các kứp cho trước Yêu đất ra là tìm các thuộc tỉnh hữu
ích, tối uu nhất, loại ra các thuộc tính íL lên quan để vẫn đâm bảo việc phân lớp đúng,
các bản ghỉ Luận văn di sau nghiên cứu giải thuật di truyền [32] và thuật toán Random Forest [8] Tur tim hiểu đó, luận văn đề xuất một thuật toán tựa giải thuật di truyền với mong muốn thuật toán đề xuất lụa chọn được các thuộc tính hữu ích để nâng cao kết quả dự doàn cửa các thuật toán phân lớp cụ thể là thuật toán Random Forest
Trình bảy nội dung chính cỗa thuật toán phần lớp sử dựng trong luận vấn
là thuật toán Random Forest
Chương 3:
Trinh bảy phương pháp để xuất và hướng giải quyết của luận văn
o Chương 4:
Trinh bảy quá trình thực nghiệm va danh giá kết quả thực nghiệm
o Kết luận: Phản này trình bảy những vấn để đã được giải quyết trong luận văn, những vẫn để còn tên tại và hướng giải quyết trong thời gian
TỚI
°
Trang 10CHƯƠNG 1: TONG QUAN VE KHAT PHA DU LIEU VA TRICH CHON
THUỘC TÍNH
1.1 Giới thiệu khai phá dữ liệu và trích chọn thuộc tính
Khai phá đữ liệu là một khái niệm ra đời từ những cuối những năm 80 của thê
kỷ trước Né bao hàm một loạt các kỹ thuật nhằm phát hiện các thông tin có giá trị
tiếm Ấn trong tập các đữ liệu lớn Về bản chất, khai phá đữ liệu liên quan đến việc phân tịch các đữ liệu và sử dụng các kỹ thuật để tim ra các quy luật trong tập dữ liệu
Năm 1989, l'ayyad, Piatestsky-Shapiro va Smyth đã dùng khái niệm Phát hiện trị thức
trong cơ sở đữ liệu (Knowledge Discovery in Database KDD) [14] dé chí toản bộ
quá trình phát hiện các trí thức có ích từ các tập dữ liệu lớn Trong dó, khai phá dữ liệu
là một bước đặc biệt quan trọng trong toán bộ quá trình, sử dụng các giải thuật đặc biệt
để cluết xuất ra các đặc trưng từ đữ liệu [1 4)
Trong khai phá đử liệu thi phương pháp trích chọn thuộc tính đồng một vai trà
quan trọng trong tiên xử lý số liệu Phương pháp trích chọn sẽ giúp giám kích sỡ của
không gian dữ liệu đặc trung, loại bố những thuộc tính không liên quan vá những,
thuộc tỉnh nhiều Phương pháp này có ánh huớng ngay lập tức dến các ứng dụng như
xuất khai phá đữ liệu, kiểm soát được kết quả cửa thuật toan
Các kĩ thuật khai phá đữ liệu thường được chia thành 2 nhỏm chính:
-_ Kĩ thuật khai phá đữ liệu mẻ tả: có nhiệm vụ mô tả về cáo tính chất hoặc các
đặc tính chung của đữ liệu trong CSDL hiện có Các kĩ thuật nảy gôm có:
phan cum (chistering), tom tit (summerization), trực quan hoa (visuatiztion),
phân tích sự phát triển và dé léch (Evolution and deviation analyst), phan
tích lui két hop (association rules}
-_ Kĩ thuật khai phá đữ liêu dự đoán có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên đữ liệu hiện thỏi Các kĩ thuật này gồm cỏ: phân lớp
(classification), hdi quy (regression)
Tuy nhiên, luân văn lập trung tìm hiểu 3 nhiệm vụ chính sau [12
Giám chiều đi liệu: Giám chiều đữ liệu là việc làm giám chiều của không gian tìm
kiểm dữ liệu, giảm chỉ phí thu thập và luu nữ đữ Hiệu, nâng cao hiệu quá của việc khai
phá đữ hệu và làm đơn giản hóa các kết quả khai phá đữ liệu Trong rhiệm vụ làm
giảm chiều dữ liệu chứng Is uằn phản biệt Hai khải nhiệm gau:
«© Trích chọn thuộc tính (Featre Exiraction): Trích chín thuộc tĩnh là việc tim ra
tuột tập thuộc tính mới từ lập thuộc tính ban đầu nhằm nâng cao hiệu suất tỉnh
chính xác phân lớp Các kỹ thuật trích chọn thuộc tính thưởng liên
quan đến các phép biến đổi phi tuyển (non-linear) Linear discriminant analysis
toán va
Trang 11(LDA) và principal components analysis (PCA) là hai kỳ thuật phố biến dùng trong trích chọn thuộc tỉnh
* Chon lua thuộc tinh (Feature Selection): Chon lwa thuée tinh 14 vie chon ra
một tập thuộc tính cơn từ tập thuộc tỉnh ban đầu sao cho các tập thuộc tính con này thể thể luện tốt nhật clrức năng của một hệ thông quy nạp, chẳng hạn như
ỗ một tập con thuộc tính tối ưu thường là
giảm chiêu đữ liệu vì các kết quả đựa trên các thuộc tính được chon lựa từ tập
thuệc tinh ban đầu thường để đàng lý giải hơn so với một tập cáo thuộc tinh được biển đổi từ tập thuộc tính ban đảu
trẻ Tuy nhiền, chọn lựa thuộc tỉnh lại được sử dụng rộng rấi trong
Trích chọn luật: Trích chọn luật tìm kiểm và đưa ra dữ liệu bằng cách tắt cả
các đữ liệu được đua ra đựa trên các suy chẩn/cáo quyết dink ma cde suy điễn/Quyết
định này được xây đựng từ các trị thức thu thận được từ đữ liệu đó Dối với người sử
dụng các kết quả của khai phá dữ liệu họ chỉ mong muốn có một cách giải thích đơn
giàn là tại sao có cáo kết quả phân lớp đó, thuộc tỉnh nào ảnh hưởng đến kết quả khai
phả dữ liệu Tuy nhiên, bằng các tham số phân lớp rất khó để có thể diễn giái các trì thức đỏ theo cách mà người sử dụng có thé dé đàng hiểu dược, Do dó, việc tìm ra các
tuật TF-THEN nhằm đưa ra các thông tín có giá trị là một cách diễn giải đơn giãn và để
tiểu nhật đối với người sử dụng
Có thể phân loại chọn luật thành hai kiểu chính Một kiểu liên quan đến việc tìm
ra môi quan hệ giữa các thuộc tính đầu vào và các lớp nhăn ở dau ra trong tap dit
liệu đã được gán nhấn Kiểu chọn luật còn lại là việc khai phá các luật quan hệ (association rule), đây là việc tìm ra các mỗi quan hệ giữa cáo thuộc tính trong tập
hệ giữa các đối lượng trong dũ liêu phiên Khai phá
dụng để phân tích hánh vỉ khách hàng trang siêu thị Ví dụ một khách bàng mua bơ
címg sẽ mưa bảnh mỉ với một xác suất nhật, định nào đỏ
Khai phá đữ liệu thường được xem như là một giai đoạn trong chu trình phát biện tri thức và khai phá đữ liệu Các giai đoạn khác trong chu trình này bao gồm: a)
Trang 12Kho đữ liệu, b) chọn lựa các dữ liệu đích, c) lam sach dit ligu, 4) gidm chiéu dit liệu, e) chợn lựa mô hình phù hợp, 0 khai phá đữ liệu, g) nhận xét và trinh bay kết
qua, h) kiém tra các kết quả có được Một cách đơn giản có thể hiểu như sau: kho đữ liệu cho phép đữ liệu được thư thập 1È nhiều nguồn dữ liệu khảo nhau và ở rhiền đỉnh dang khác nhau và nguồn đữ liệu nảy được sử đụng trong một ứng dụng cụ thể, chọn lựa các đữ liệu đích nhằm tạo ra một đữ liêu cụ thể đùng cho ứng dụng,
làm sạch số liệu nhằm loại bỏ nhiễu và các giá trị bất thường, giẫm chiều dit hệu
nhằm chuyển đử liệu thành một đựng dữ liệu phủ hợp với ứng dụng, chọn lựa ruô bình là chọn một giải thuật phù hợp, khai phá đữ bệu nhằm lim ra ode thong tin oan
quan tâm, nhận xét và trình bảy kết quả là việc giải thích các kết quả có được, kiểm
ra các kết quả có dược là việc chuyển các kết quả thành một đạng có thể kiểm lra lại
và sử dụng lại [37]
Néu xem xél ede quá Irình của chủ trình khai phá đữ hiệu trong ngữ cảnh của
chọn lựa thuộc tính, chúng cỏ thể dược tông hợp thành 4 bước cơ bản sau [12, 10,
28, 23]: 1) Kho dit ligu (Data warehousing) - dit liéu tir các nguồn khác nhau được tổng hợp, lưu trữ lại, 2)Tisn xử lý (Pre-processing) (các bước b, e, và d) chon hia các dữ liệu phủ hợp cho một từng dụng cụ thể, 3) Khai phá dữ liệu (Data rning) (các
bude e va f) mộtgiải thuật phai phá dữ liệu được chọn lựa và áp dụng trên bộ số
liệu thu được ở bước 2, 4) Liậu xứ lý (Post-processing) (các bước g và h) Các trí
thức thu được từ bước 3 đước chọn lựa, nhỏm sao cho chúng có thể dễ đàng hiểu,
và sử dụng,
1.2 Lựa chọn thuộc tính và bài toán phân lớp
Nhiệm vụ cơ bản của việc phân lớp là phân chia một tập các đối lượng thành n-hữa
thuộc tính được đại diễn bởi một tập các thuộc tính — giá trị Với một lập dữ liệu bao
gồm một tập các đổi tượng đã được phản lớn (thường gọi là tập tập huân), nhiệm vụ
đặt ra là từ tập huản luyện cho trước xây đựng một bộ phân lớp cho các đữ liệu tương,
tự Vẫn để đặt ra đối với bài toán phân lớp là số lượng các thuộc tính có thể rất lớn do
những lý do sau
« Dữ liệu dược thu thập không dơn giản chỉ phục vụ cho một tác nghiệp cụ thé chẳng hạn như khai phả dữ liệu Do dò, dối với một ửng dụng cụ thể bộ đữ liệu
có thể có rất nhiều các thuộc tỉnh thừa hoặc không phủ hợp
« Đôi khi thậm chỉ nếu chúng ta biết các thuộc tinh dược thiết kế cho một tác
nghiệp cu thé (hi thuge tính rào là thuộc tỉnh có liên quan thường không được
biết Điển nảy là đo bân chât của nghiên cứu Chúng ta tiên hành thực nghiệm và
Trang 13
thu thập số liêu vi chúng ta muốn biết nhiều hơn lĩnh vực mnà chúng ta muén tim hiểu và chủng ta thông thường không có một ÿ niệm chính xác vẻ các thuộc tính cần thiết Do đỏ, chúng ta phải tìm các thuộc tính cần thiết nhiều nhất má chúng,
ta co thể nghĩ đến thậm chỉ chủng có thể lá các thuộc tính dư thòa hoặc không liên quan Chúng ta chỉ có thẻ biết dược thuộc tính nào là liên quan sau khi chúng,
ta nghiên cửu bộ số liêu dã được thu thập
Môi lắc nghiệp có thể yêu cầu dữ Hệu lừ nhiều nguồn khác nhau Nêu đữ liệu từ
mỗi nguồn là lớn thị san khi nối các nguồn dữ liêu trên chúng ta sẽ dó một bộ dữ liêu khẳng lẻ Kên chúng ta biết được các thuộc tính liên quan thì chúng ta só thê
giải quyết được vân đề trên nhưng trên thục tế chúng ta thường không biết trước
các thuộc tính nào là thuộc tính liên quan
Các thuộc tính không liên quan hoặc thừa có thẻ có những ảnh hướng tiêu cực dỗi
với các giải thuật phân lớp vì những lí đo sau: Có nhiều thuộc tính thường có nghĩa là
cân nhiều thực thể, vì vậy chúng ta cần đảm bảo các ràng buộc thống kê giữa các thực
thé trong các lớp lá khác nhau Các thuộc tính/dữ liệu thừa hoặc không liên quan có
thể là nguyên nhân dẫn đến việc hợc của giải thuật không được chính xác Thêm vào
đó, với sự có mặt của dữ liệu thừa hoặc đữ liện không liên quan có thể làm cho bộ
phân lớp trở lên phức tạp hơn Diễu nảy sẽ gây ra những khỏ khăn không cân thiết cho chung ta trong việc diễn giải các kết quả học được từ tập huấn luyện Sử dụng lựa chọn thuộc tỉnh trong phân lớp cho ta những lợi thế sau:
Dữ liệu ít hơn do đó giải thuật phan lớp có the học nhanh hơn,
Độ chính xác cao hơn đo đó bộ phân lớp có thể cho những kết quả phân lớp Lốt;
2 ết quả đơn giãn hơn do đỏ các kết quả này có thể liều được dé dang hơn:
Ít thuộc tính hơn do đó trong các vòng thu thập số liệu sau, nêu có thế chỉng ta
có thể tiết kiêm được nhiều nguẫn lực đe việc loại bổ các thuộc tính thừa và
khêng liên quan
'Trong các phản tiếp theo chủng ta sẽ di sâu váo tìm hiểu các phương pháp để lựa
chọn thuc tính
1.3 Phương pháp lựa chọn thuộc tính
Quá trình làm giảm bớt số chiêu của mẫu và theo đó còn gọi là nén tập dữ liên,
thông qua trích chọn đặc trưng (trích chọn thuộc tính và lựa chọn thuộc tỉnh) là bước
co bản nhất trong việc tiên xử lý đữ liệu Lựa chọn thuộc tính có thể coi là một phần vốn có của trích chọn thuộc tính vi đụ như phương pháp phân tích thành phần cơ bản hoặc thậm chỉ lả một thiết kế xứ lý thuật toàn vị dụ như trong thiết kế cây quyết định
Tuy nhiên, lựa chọn thuộc tỉnh thường là một bước cò lập riêng, biệt trong xuột chuối các xử lý [14]
Trang 14Có thể định nghĩa lụa chọn thuộc tính là một quá trình tìm ra M thuộc tính từ tập
N thuộc tính ban đầu, như vậy phái xác định tiêu chuẩn lựa chọn thuộc tính [19] Theo
cách này, kích cỡ của không gian đặc trưng được rút ngắn tối đa theo một tiêu chuẩn định lượng nhất định Khi kich cỡ của một lĩnh vực được mớ rộng, số phần tử của tập
N sẽ tăng lên, vỉ vậy viêc tìm ra một tập dại điện tốt nhất thường gắp khó khăn và có nhiều văn đề liên quan đến tập dược chọn Nhm chung, một thuật toán lựa chọn gồm 4 bước cơ bản: Sinh tập con, lượng giá tập cơn, kiểm tra điều kiện đừng và xác nhận kết
qua
Quả trình sinh tập con là một thú tạc tìm kiểm, về cơ bán nó sinh ra những tập cơn dùng cho việc lượng giá Gọi N là số các dại diện (đặc trưng) của tập dữ liệu gốc ban dầu, thủ tổng số các tập con có thể dược sinh ra sẽ lá 2 2P tập này sẽ liệt kế toán
bộ các tập cơn của không gian tìm kiểm Mỗi lập cơn được sinh ra bằng thuật loan cin
được lượng giá trị bằng một tiêu chuẩn lượng giá trị nhất định và được sơ sánh với tập
cơn tốt nhất đã tìm được trước ná Nếu không có điều kiện đừng phù hợp, thuật toán này có thể sẽ chạy đến khi duyệt hết các tập con trong không gian tìm kiếm Diễn kiện
đùng của một quá trình sinh phải rai vào một trong số các trường hợp sau
- Toàn hộ các phần Lữ của tập hợp đều được chọn
- Các phản tử chưa chọn bị lặp lại
- Sinh thêm một lập con nữa cũng không cho kết quã lốt hơn
- Dã chọn đủ số tập con thoả mãn điều kiện tiêu chuẩn
Tập con tốt nhật được chọn ra phải được lượng giá trong những trường hợp khác nhau và nó cùng với tập gốc phải biểu diễn được với dữ liệu thực tế
Lựa chọn các thuộc tỉnh cỏ thể tiến hành theo hai cách: cách thứ nhất là xếp loại các thuộc tinh theo mét tiéu chuan nao dé vả lây ra k thuộc tinh dầu tiên, đo đó cách nảy là đựa vào ngưỡng để chọn thuộc lính Cách thứ hai là chọn ra tập con nhỏ nhất
mà không làm giảm đi quả tình hợc, do đó với cách này tụ động xác định số lượng,
nh
thuộc
Lựa chọn thuộc tỉnh có thẻ dựa vào các mồ hình, các chiến lược tìm kiểm, thước
do chất lượng thuộc tỉnh và ước lượng, Có ba loại mô hình như Filter, Wrapger, và Embedded
Các chiến lược tìm kiếm bao gồm: mở rộng, thu nhỏ, động, nhánh cận, ngẫu nhiên LƯớc lượng của việc chọn lựa thuộc tính bao gồm hai nhiệm vụ: một là so sánh
hai giai doạn: trước và sau khi lựa chọn thuộc tinl+ Hai là sơ sảnh hai thuật toán lựa chon thuge tinh [2]
Tóm lại lựa chợn thuộc tình được xem như là sự tổng hợp của ba thánh phần chính phương pháp tìm kiếm, kỹ thuật đánh giá, chọn lựa mô hình Hình 1.1 đưới đây thế
hiện lựa chọn thuộc tính theo 3 thành phần nói trên [19]
Trang 15Đánh giá
Đo lường thông tin
Đo lường phụ thuộc
Đo lường khoảng cách
Chiến lược tìm kiếm
Lua chon thuộc tính có thể được xem như là một van dé tim kiểm, trong đó mỗi
bước trong không gian tìm kiêm xác định ra một tập con thuộc tỉnh liên quan Giả sử
ta có một tập dữ liệu với 3 thude tinh (Ay, Ay, As), Mot mang nhị phần ma mỗi thanh
phân của mảng được thiết lập là 1 nều thuộc tỉnh có chỉ số tương ứng trong mảng nhị
phân được chọn Nêu mảng cỏ giá tri (1, 1, 1) có nghĩa là cả 3 thuộc tỉnh được chọn vả
(1, 0, 0) có nghĩa lả chỉ thuộc tính A; được chọn Do đó, sẽ có tất cả 2Ÿ tập con có thê
có, trong đó N lả số lượng thuộc tỉnh của tập đữ liệu Trong trường hợp có 3 thuộc tính
sẽ có tắt cả 8 trạng thái (tập con) Một tập con tôi ưu thường nằm đâu đỏ giữa điểm
đầu và điểm cuối cây Câu hỏi đặt ra ở đây là: Chúng ta nên bắt đầu tìm kiểm từ đầu Vân đề sẽ rất đơn giản néu không gian tìm kiếm nhỏ Tuy nhiên, trên thực tế không gian tìm kiểm thường rất lớn (2), bắt đầu từ câu hỏi “Đâu là điểm tìm kiếm phủ hợp?”
sẽ xuất hiện các câu hỏi khác “Chiên lược tìm kiểm phủ hợp là gì” Trên thực tế chiên
lược tìm kiếm lại bị ảnh hưởng bởi hướng tìm kiểm.
Trang 16Giả sử ban dau chúng ta chưa có một khải niệm cụ thế não về tập thuộc tính tôi tru trong không gian tìm kiếm, thì sẽ không có sự khác biệt trong việc xác định điểm xuất phat nên bắt đâu từ đâu (một tập rễng hay một tập đủ các thuộc tính), Đo đỏ, đối với phần lớn các vẫn dé trong tim kiém thị thời gian trung bình để tim ra tập con tối ưu
giữa các hướng tìm kiếm khác nhau không cỏ sự khác biệt Tuy nhiên, hưởng tìm kiến: lại có mới liên hệ chặt chế trong việc tao ra tập con thuộc tỉnh Môi chiến lược lim
kiểm là tìm ra tập con lối wu bãi dâu lừ một tập rồng các thuộc tính (Vi du: Sequential Forward Generation), phương pháp còn lại là tìm ra tập con tôi tmi bằng cách lần hượt loại bô các thuộc tính ít quan trọng tit mét tap đủ các thuộc tính ban đầu (Vi du
Sequential Backward Generation)
1.3.2 Đánh giá
Tất cả các chiến lược tìm kiểm đến có nhu cầu đánh giá một thuộc tính hoặc một
tập con thuộc tỉnh để xác định thuộc tính“ập cơn đó là tốt hay không tốt Việc đánh giá này thưởng là phức tạp và có nhiều cách đánh giá Ví dụ, đành giá có thể được do
lường theo những khia cạnh: các thuộc tính được chọn lựa có làm tăng độ chính xác
của bộ phân lớp hay không và các thuộc tính dược chọn lựa có giúp làm đơn giên quá trình học bay không Su đây là một số độ do thường được sử dụng trong lựa chọn thuệc tính
a Dệ đo thông tin
Thông tín là một cách đo luờng độ không ỗn định của người nhận tín khi một
người nhận tất cã các tin nhắn Nêu người nhận tỉn biết được tin nhắn nao dang dén thi
sự ngạc nhiên (meertainty) của người đỏ sẽ thấp Trong trường hop anh ta hoàn toàn không biết tin nhắn nào đang đến, chúng ta giả sử rằng tắt có các tin nhắn có xác suất
đến bằng nhau, thì sự ngạc nhiên của anh ta đổi với tin nhắn đỏ là cao Trong ngữ cảnh của phân lớp, các tỉa nhẫn là các lớp Giá sử L là một hàm do hường độ không én định của lớp, nều U cỏ giả trị lớn có nghĩa là mức độ không Gn dink cao
bị Độ đo khoảng cách
Kiểu dộ do này cũng dược biết đến như là độ đo khác biệt hoặc dộ do phân biệt
Độ đo nay duge thục biện thông qua việc đo khoảng cách giữa các hàm xác suất điều
kiện lớp Ví dụ đối với trường hợp có 2 lớp, DỢO là khoảng cách giữa POX|cj) và PXIc;), luật đảnh giá thuộc tính xây đựng dựa trên khoảng cach DCX) ndi ring, trong hai thuộc tính X và Y thuộc tính X được chọn nếu DCX) > D(Y) Mục đích của việo
chon lựa này là ta cố gắng tim ra cáo thuộc tính sao cho hai lớp được phân chia (Khoảng cách giữa 2 lớp) là xa nhất có thể được
ø Độ đo phụ thuộc
Đệ đỏ này cũng được biết đến như là độ đo raổi quan hệ, độ đo mối liên hệ Dộ
do này dược thiết kế để lượng hóa mỗi quan hệ giữa hai biển bằng việc nếu biết dược
Trang 17giá trì mệt biển ta có thế dự đoán được giá trị của biến còn lại Trong đánh giá thuộc tinh, thay bằng việc kiểm tra một thuộc tính thay đổi thông tin thu thập được hoặc thay đổi ky vọng xác suất lớp như thế nào, thì chủng ta sẽ xem xét một thuộc tính liên hệ với một lớp như thẻ nào (mạnh hay yếu) Gọi R(X) là đo lưởng phụ thuộc giữa thuộc
tỉnh X và lớp C, ta chợn thuộc tình X dựa trên dợ lường phụ thuộc với thuộc tính Y
tiêu RỢK) > R(Ý) Nói một cách khác, chúng ta chọn thuộc tính có xuúi liên hè chặt chế
với lớp Ở hơn Nếu X và Ở là độc lập thống kế thì giữa X và Y sẽ không có môi liên
hệ và viếc leai bô thuộc tính X sẽ không làm ảnh hướng đến việc phân lớp các thuộc
tỉnh còn lại Nêu mỗi giá trị của thuộc tính % cá mồi liên hệ với một giá trị của lớp C, chúng ta kỷ vọng răng RQ©) sẽ có giá trị cực đại và thuộc tỉnh X được chọn thuộc về
lớp C
1.3.3 Các mô hình lựa chọn thuộc tính
Về cơ bản cỏ thể phản loại các phương pháp lựa chọn thuộc tính theo các cách tiếp cận
khác nhau là Filter , Wrapper và Embeddsd |16| Các mô hình này dược trình bảy chỉ
tiết trong lài liệu [16,5]
Cách sử dụng đơn giản nhất của chọn lựa thuộc tình là sứ dụng độ chính xác của bộ phân lớp như một độ đo hiệu quả của bộ phân lớp Nếu mục địch của chúng ta là để cực tiêu hỏa tý lệ lỗi của phản lớp và chỉ phi do lường đổi với mỗi thuộc tỉnh lá như
nhau thủ sử dụng độ chính xác dụ bảo của lớp như một tiêu chỉ do lường hiệu quả là rất khả thí Do vậy, chúng lu nên xây dựng một bộ phân lớp với mục đích là để có được
độ chính xác dự bảo cao nhất có thể, san dé chon lua cde Huộc tính được sử đựng bởi
bộ phân lớp như là các thuộc tính tôi ưu Mã hình này được gọi là mô hình Wrapper
Ngoài phương pháp đo lường trực tiếp ở trên, cũng có một phương pháp đo lường hiệu
quá không trực tiếp khác, chủ yếu dựa trên độ đo khoảng cách và độ đo thông tim trong,
việc chọn lựa thuộc tính Mô hình được xây dựng theo cách nảy được gọi là mô hình Filter
a Mé hinh Fitler
Trong ngữ cảnh của khai phá dữ liệu thi thông thường bộ dữ liệu rất lớn và không,
thể ding trực tiếp một bộ phân lớp dé phân lớp đữ liệu cho bộ dữ Hệu đỏ Do dỏ,
chúng la an sử dụng một số phương pháp liên xử lý (pre-processimg) đối với bộ dữ
Tiệu trước khi áp đụng phân lớp bộ đế liệu đỏ, Dưới đây, chúng In số xem xéi mô hinh: chọn lựa thuộc tỉnh Filter Các giai đoạn của mỏ hình Filter được thể hiên trong hình 1.2[16] đuới đây.
Trang 18
“pdũ lậu ban đh| tÌ Bộ sinh thuộc tính Topas Các đo lưỡng Đácdn ượng ><đfmeml3 77 a>
re me “ˆ Giai đoạn 4
Tap dữ lộu | I Sở
huận luyện
+ Giai đoạn 2
— a Kiémtra fe Giải thugt hoc fe
dung bat kỳ một giải thuật học náo ở giai đoạn này, Giai đoạn 2 — Giai đoạn này tương,
tự như giai đoạn 2 trong mô hình Wrapper, một bộ phân lớp học cáo trí thức thông qua
các thuộc tính được chọn lựa trên bộ đữ liệu huẳn luyện và được kiểm tra lại trên bộ
dữ liệu kiểm tra
Mô hình chọn lựa thuộc tính Eiller có một số đặc điểm sau: Mô hình mày không chịu ảnh hưởng của một giải thuật học cụ thể, (không áp đụng giải thuật học trong giai đoạn 1) nhưng lại chịu ảnh hưởng của bản chất bộ dữ liệu (sử dụng cáo đo lường trên bộ đữ liệu) Do đó, các thuộc tính được chọn lựa sau đó có thể được sử dụng cho các giải
thuật học khác nhau, Cac dộ do như thông tin, khoảng cách, dộc lập hoặc dé ding nhat
thường có chủ phí “rê” hơn so với do lường dộ chính xác của một lớp, vì vậy phương,
pháp Eilter có thể cho ra tập thuộc tính được chợn lựa nhanh hơn; và do tỉnh chất giản
don của các đô đo cũng như độ phức tạp thời gian cửa các đô đo này thường là thấp,
các bộ dữ liệu kích cỡ
niên phương pháp Eiller có thể được sử dụng trong việc xử lý
lớn Tuy nhiên, các thuộc tính được chọn lựa bởi phương pháp Fitler không cho phép
các giải thuật học hiệu chỉnh lại các sai số (đo nó chợn lựa thuộc tính đựa trên một số tiêu chí của bộ dữ liệu mả không dựa trên độ chính xác của kết quả học) cho nên kết
quả của phân lớp dõi khi có dộ chính xác không, cao
b Mô hình Wrapper
Mối quan tâm chỉnh của khai phá dữ liệu là thu được độ chính xác dự đoán cao Vấn để chính ở dây là làm thế nào chúng ta có thể cải thiên dược hiệu quả phân lớp dựa trên những tri thức hợc dược từ đữ liễu Một trong các phương pháp nhằm cai thiện
liệu quả phân lớp là thông qua chợn hựa thuộc tinh, vì (hông qua chọn lựa thuộc tính
chủng ta sẽ có tập đứt liệu tốt hơn cho phân lớp Nêu chúng ta có thế chọn được các
Trang 19thuộc tính liền quan và loại bỏ các thuậc tính nhiễu thi chúng ta có thế nâng cao hiệu quã phân lớp mà cụ thể là nâng cao độ chính xác của bộ phân lớp [16]
Mô hình chọn lựa thuộc tỉnh Wrapper có thể giúp chúng ta thực hiện được những,
mong muốn trên Hình 1.3 [16] đưới đây thể hiện mô hình Wrapper
thuộc tính tốt nhất được chon lua, va dược kiểm tra lại bằng một bộ đữ hiệu kiểm tra
Khi các tập con thuộc tính được tạo ra một cách hệ thông (hướng tìm kiểm), đối với
mỗi tập con thuộc tính sẽ cá một bộ phân lớp được tạo ra từ đữ liện bao gồm các thuộc
tính đã được chọn lựa Dộ chỉnh xác của bộ phân lớp được phú lại trong mỗi lẫn thứ
nghiệm vả tập cơn thuộc tỉnh với độ chỉnh xác cao nhất sẽ được giữ lại Khi quá trinh chọn lựa kết thúc, tập con thuộc tỉnh với độ chính xác cao nhất sẽ được chọn Giai
doan 2 là quá trình học và kiểm tra thông thudng, trong giai đoạn này chúng tá sẽ có
độ chỉnh xác dự báo trên bộ dữ liệu kiểm bra
Dộ chính xác trớc tính của một bộ phân lớp trên dữ liệu tập huấn cá thể không phản ánh đúng độ chính xác trên bộ đữ liệu kiểm tra Do đó, vẫn để đặt ra ở đây là làm thé nao dễ có dude ước lượng dộ chỉnh xác tốt nhất trên các bộ đờ liệu kiểm tra Một trong, những cách làm phố biến lä sử dụng kiểm clrửng chéo (cross validation)
c Mé hinh Embedded
M6 hinh cudi cing 14 Embedded [5, 11, 25 ] Mô hình này khác với hai mô hình trén & céch ma module Iya chon thude tink va module hoc tuong tic véinhau Mé hinh Embedded là sự tích hợp, nhúng kỹ thuật lựa chọn thuộc tinh vào trong, quá trình xây
Trang 20dựng mồ hình học Module lựa chọn thuộc tỉnh và module hoc duoc lang vac nhau
LUmbedded cũng sử dụng kết quả của mobule học đề đánh giá mức độ quan trong của các thuộc tính tuy nhiên nó sử dụng ngay các tính chất bên trong của thuật toán học chủ không chi dựa vào kết quá Dẻ thực hiện được mô bình embedded người phát triển cân tìm hiểu cầu trúc của thuật toán học, xác định các tham số có thể sử dụng cho việc
dánh giá mức độ quan trọng cửa thuộc tính Nói cách khác, các thuộc tính được xếp hang ngay trong quá trình thực thì của việc học, không phải sau khi việc học hoàn
thành như thuật toán Wrapper Thực nghiệm cho thây, trong nhiêu trường hợp
Embedded mang lại hiệu quả cao hơn hai mô hinhưên, đồng thời có thời gian thực thí
Các thuật toán lựa chọn thuộc tỉnh được xét đưới góc đô chiến lược tim kiém
tảo được sử dụng trong giải thuật đó: Tìm kiếm toàn bộ, Tìm kiểm theo kinh nghiệm
va Tim kiém xác suất Ngoài ra chủng ta cũng nghiên cửa một vài phương pháp khác:
phương pháp trọng số thuộc tỉnh (feature weighting method), phuong pháp lai (hybrid method) va phuong phap lén din (incremental method) Các thuậi toàn nảy dược trình bảy chỉ Hết trong các tải hệu |5, 15, 17, 25]
phức tạp thời gian của giãi thuật khi kiểm tra độ ổn đỉnh, giải thuật Focus cân tạo ra XŒ) tập con nhằm mục dich tim ra tập con m thuộc tính bẻ nhất thỏa mãn tiêu chí
én đính Khi in không nhỏ (Ví dụ nẽN2), thì của phí thời gian chạy giải thuật là rất
lớn Dưới đây là giả mã của phương pháp Focus [17]
Focus
Tnput:F — all featnre in đata Dự
U - incons:stexcy rate as evaluation meansure
Trang 21b Phương pháp AAB
Duge Liu dua ra nim 1998, ABB là viết tắt của cụm từ automated Branch and Bound
algoritim |17| Chữ tự động (autormatcd) ở dây có nghĩa là cận (bound) dược xác dịnh một cách tự động, điển này không giỏng như giải thuật nhánh và cận cỗ ¢
ân phải được xác định trước
Giải thuật ABB bắt đầu với một tập tất cá các thuộc tính, AHRE thực hiện chiến lược tim kiểm theo chiều rộng Tại mỗi bước giải thuật lần lượt loại bó một thuộc tính
ào có thế được loại bồ rà vẫn thôa mãn trên
cho đến khi không pởn một thuộc lính
chi độ én định ABB thực hiện việc mỗ rộng không gian tìm kiếm cũng giống như là
việc cắt tỉa một cây Một nhánh bị “tia” khi nó không thế phát triển thêm được nữa do việc vi phạm tiêu chí ổn định Khi một nhánh không thế phát triển thêm được nữa thì
gốc của nhánh có thế là một trong những “ứng cử viên” cho kêt quả của giải thuật
Cuối củng, một tập với số lượng các thuộc tính nhỏ nhất được chọn lụa nếu nó thóa
xuãn tiêu chí đo lưỡng U
Ga11(8, DỊ ABBIS,D}
For each feature x in 9 {
#ngue (G, S2) 1 Waile net Empsy(Oi {
Trang 221.4.2 ‘Tim liếm theo kinh nghiệm
Có rất nhiều phương pháp chọn lựa thuộc tính theo kinh nghiệm Nhìn chung, cdc phương pháp nay déu lả sự đánh di việc tìm ra một tập con tốt nhất, với việc tìm ra
TnỘt lập cơm lỗi có thé b nhận được ở chừng mực nảo đó nhưng có thời gian thực
tiện nhanh hơn Mặc đủ, mục đích của các phương pháp tim kiểm theo kinh nghiệm
vẫn là tìm ra một tập con tối tu
Phương pháp đơn giản nhất trong các phương pháp tìm kiểm theo kinh nghiệm là
“trích” ra một bộ phân lớp và thực hiện việc chọn lựa các thuộc tính bằng cách sử dụng bộ phân lớp được tạo ra trước đó Dưới đây là giả mã của phương pháp tìm kiểm theo kinh nghiệm Wrap] [17]
Wrapl
Input :x - features
LA — learning alqorithn Initialize :set S-{} /* scores selected teatures*/
Trong phương pháp Wrapl, từ một tập dữ liệu N thuộc tính chúng ta áp đụng,
một giải thuật học trên bộ đữ liệu đó nhằm tìm ra một bộ phân lớp (các tham số) có kết quả phân lớp tốt nhất Sau dỏ, áp dụng bộ phân lớp này dỗi với tất cá cáo thuộc tính trong bộ dữ liệu cản phân lớp
1.4.3 Tìm kiểm xác suất
Có thể nói rằng các phương pháp xác suất là kết quả của việc các nhà nghiên cứu tiếp tục theo duỏi mục đích tìm kiếm tập con tối ưu mả không muốn thực hiện việc
tìm kiểm toán bộ trong không gian tìm kiêm, Không giống như bai phương phúp tìm
kiểm theo kinh nghiệm và tìm kiểm toàn bộ được trình bảy ở trên, các thuộc tính
khéng tuần tự được loại bỏ/thêm vàc từ một tập các thuộc tính cho trước Phương pháp tìm kiểm theo xác suất cho phép tìm kiểm các tập con thuộc tính mà ở đó các lập cơn này được tạo ra một cách ngầu nhiên, Trong nội dung nav ching ta sé tim hiểu 2 phương pháp tim kiếm theo xác suất là (a) Phương pháp LVT (Las Vegas algorihm
for Filter feature selection) va (b) LVW (Las Vegas algorithm for Wrapper feature selection) |5|
(a) Phuong phap LVF
Phương pháp LVE dược Liu và Setiono dưa ra vào năm 1996, phương pháp LVF bao
gồm một thủ Le cô thẻ lạo ra lạo ra các lận cơn thuộc tinh md cach ngau olién va mot
Trang 23thủ te nhằm đánh giá xem mỗi tập con được tạo ra có thỏa mãn tiêu chuân chon ha
Kết quả của hai thủ tục trong giải thuật T.VE là một lập con thuộc tính tối ưa Đo
lường được sử dụng để đánh giá trong T.VF là tỹ lệ lỗi không én dink Gnconsistency) Giải thuậtT,VF này có hai tham sẻ quan trọng đó là: Tỷ lệ lỗi của đữ liệu khi sử đụng, tắt cá các thuộc tỉnh, số lượng tối đa các tập can thuộc tính được tạo ra ngẫu nhiên
earners Nos gian tim kiếm thì maxTries 2Ÿ x p%
Trang 24(b) Phuong phap LVW
LVE là một giải thuật tương đổi đơn giãn Diễu này cũng có nghĩa là nó có thể
đễ dàng thay đổi được Chủng ta có thể thay đổi một trong hai thú thục Nếu chủng ta thay đổi thủ tục tạo ra ngẫu nhiên các tập con thuộc tính cing có nghĩa là
chúng ta sẽ khỏng có được giải thuật từn kiếm ngẫu nhiên Do dó, chúng ta chỉ có
thể thay đối thủ tục dánh giá nếu chúng ta vẫn muốn phương pháp nảy thuộc vào nhóm các phương pháp chọn lựa thuộc tính dựa trên xác suất GHả sử rằng chúng ta
quyết định sử dụng độ chỉnh xác tróc lượng của bộ phần lớp như một tiêu chí đo lưởng, chúng ta có phương pháp LVW Giả mã của phương pháp LVW được thé hiện đưới đây [5]
Ssrancomget (seed)
A=estimate (D, 5, LA]
SE LAP Age en)
= Boot A LES} /*L is reivit: alizedt/
L=append(8, 1}
end
‘Trong phuong pháp LVW các phương pháp thông kế được áp dụng nhằm ước
tỉnh độ chính xác của bộ phân lớp GHá trị maxTrics trong LWW dược xác dịnh tương,
tự như rong LVF Tuy ntién, dé chạy giải thuật hợc (LA) có thể phải thiết lập một vai tham số khác theo yêu cầu của giãi thuật học Hăm cstimale() được sử dụng trong,
LVW thay vì ham CalUQ trong LVE, có nhiều cách để thực hiển ham estimate() va
mãi cách có thế đua ra những kết quả chọn lựa thuộc tính khác nhau Một điểm khác
nhau nữa trong hai phương pháp này là LVF sử đụng tỷ lệ lỗi như một đo lường đánh giá, trong khi đó LVW sử dụng độ chính xác của bộ phân lớp như một đo lường đánh giá
Trang 251.4.4 Phương pháp trọng số thuộc tỉnh
Một trong những phương pháp tiêu biểu nằm trơng nhóm
ác phương pháp
trọng số thuộc Linh là Reliel Phương pháp này được để xuất bởi Kira va Rendell
vào năm 1992[25], mục đích ban đầu của phương pháp là nhằm giải quyết mat van đẻ Thực tế trang phản lớp là mỗi tương tác quan giữa cáo thuộc tính (một vải thuậc tinh
phụ thuộc lẫn nhau trong việc xác định lớp cúa thực thể) Relisf chọn lựa các thuộc
tính dựa vào sự tương quan thống kẻ Mặc dủ mọc dich của Relief vẫn lả chọn lựa thuộc tỉnh nhưng Relief không tạo ra các tập con thuộc tỉnh, và kiểm tra các điều kiện
ràng buộc của các lập con nảy như gị
nằm gan lẫn nhau Do đó, hai hàng xóm gần nhau nhất (mỗi thực thé thuộc về một
lớp khác nhau) đổi với mệt thực thế () được đưa ra, một lả near-bit (H) và một lả
near-miss (J) Về ý tướng, một thuộc tính là liên quan nếu giá trị của nó là tương tự
giữa 1 và near-hit, và khác biệt giữa L vả near-rniss Trên thực tế việc kiểm tra này có
thé được thực hiện bằng cách tỉnh khoảng cách tôi một giả trị thuộc tính: khoảng cách này nên là bé nhất đối vơi I và H và lớn nhất dối với I và I Khoảng cách của mỗi giá lrị thuộc tính đối với mỗi thực thể được lấy ra ngẫu nhiên được tổng hợp trong véc tơ w (weight), véc to nay có số chiếu băng sổ hượng thuộc tính Những
thuộc tính liên quan là những thuộc tỉnh có giá trị vector w vượt quá ngưỡng tương
quanr Ngưỡng tương quan này có thế được xác định bằng cách sử dụng phương
pháp thông kê để ước lượng khoảng Cỡ mẫu m có thể biến đổ: và mnột giá trị m lớn hơn có nghĩa là có một ước lượng xếp xí tin cậy hơn
Dưới đây là thể hiện giả mã của phương pháp Relief]25 J
Input: x - features
m murber of instances sampled
7 adjustable relevance threshcid
initialize: w= 0
for 1 | tam
bagin randorlv select an instance i
findnearest_hit Il and rearest_misa J
Trong giả mã của phương pháp Relisf ở trên, hàm điẾQ tính sự khoảng cách giữa
các giá trị của một sẻ thuộc tính với hai thực thể Dồi với các thuộc tính rời rạc, giá
Trang 26trị khoảng cách nảy nhận cả giá trị l và 0 (1 nếu các giá trị là khác biệt và 0 nêu
các giả trị là như nhau), tuy nhiên đổi với các thuộc tính liên tục thí giá trị khoảng, cách nhận giá trị trong khoảng [-1;1]
Phương pháp Relief có thể ủng dụng được với cả dữ liệu rời rạc và đữ liệu liên tục Tuy nhiên phương pháp cũng có một sẻ nhược diễm đó là: (1) không hiệu quả
đối với đữ liệu chứ có hai lớp, (2) không “nhạy” với các đữ liệu thừa |5, 25]
1.4.5 Phương pháp lai
Các chiến lược tìm kiếm khác nhau yên cầu số hượng các tải nguyên khác nhau
và cũng cho các kết quả khác nhau Ý tưởng cho sự xuất hiện của phương pháp lai
thang tin gì vẻ số hượng thuộc tính liên quan chứng ta lại cần tới sự kết hợp của cả
hai phương pháp — phương pháp lai Một phương pháp lai khác là việc kết hợp LVF va ABB, phuong phap này được đặt tên là QBB (quiek Branch and Bound) [25] Phương pháp nảy chạy giái thuật LVE với số lần xác định, sau đó sứ dụng cáo tập con được chọn tử việc thực hiện giải thuật LVF như là đầu vào của giái thuật
LVF Nhu chimg ta đã biết, nêu T.VF chạy lâu hơn (nhiều lần chạy) có nghĩa là
được các tập con thuộc tính tốt hơn, cho tới kiú chúng 1a fim được lập con Lỗi ưa
Tuy nhiên, số lượng các tập oon được chọn lựa cũng nhỏ hơn khi LVF chạy nhiều
lần hơn Một mặt chứng ta muốn giãm số lượng cáo thuộc tính trong mỗi tập con(cáo tập con nay là kết quả của việc chạy giải thuật LVF), một mat chúng ta muốn số
lượng các tập con nảy không quá bẻ do đỏ chủng ta có thể giám thiểu nguy cơ mất các tập cơn tối ưu Vì thế chúng ta cân tim ra một “điểm chuyển” tốt để cân bằng,
giữn hai yếu lễ ở trên điều nảy cũng có nghĩa la QBB có £
anh chồng tìm ra các
tập con lỗi tu với xác suất cao
Dưới dây mình họa giả nnš của giải thuật QBB|25]
QBB
Input:num the cunicer cf loop in LVT
van allowed inconsistency rate
Trang 27mây tinh cũng như lốc độ tính toán Do đó cần thiết phải có một giải pháp xử lý đổi
với vân để đặt ra này Một câu hẻi đặt ra là liệu chứng ta có thực sự cần quá nhiều đĩ liệu cho mỗi phương pháp chẹn lựa thuộc tỉnh để chọn ra cáo thuộc tính liên quan? Hay là chúng ta chỉ cần xứ lý với lượng dữ liệu it hơn? Câu trá lời cho câu hỏi này
vấn còn nhiều tranh luận Chúng ts sử dụng tý lệ lỗi như một ví dụ cụ thể chúng,
ta tỉnh toán tý lệ lỗi chung, cho một bộ dữ liệu là H, thí bắt kỳ một việc giám chiều dữ
liệu nủo cũng sẽ dẫn đến một sự tôi ưm tuy nhiên có thể dẫn đến sự sai lệch trong tỷ lê
lỗi Một mặt chúng ta gặp vấn đề đối với dữ liệu có kích cỡ quá lớn, do đó chúng ta muốn giảm dit hiệu tới một kích cũ phủ hợp Mặt khác chúng ta lại cần tất cả các
đứ liệu hiện có để đo lường chất hượng của các thuộc tỉnh được chọn lựa
Chúng ta biết rằng chỉ một vài phân trong bộ bộ dữ liện lớn có thế đại điện
cho toàn bộ bộ đữ liệu trong một chừng mực nào đó Tuy nhiên, câu hồi đặt ra ở
đây là phần nào trong bệ đữ liệu và độ lớn của phân đây là bao nhiêu thì phủ hợp
‘Thay vi việc tìm kiếm chỉnh xác phản dữ hiệu nảy, chúng ta có thể ngẫu nhiên chọn lựa một phần p nào đỏ, sau đỏ sứ dụng phần này để tìm một tập con thuộc tính thỏa mãn các tiêu chí dánh gia nao dé Sau đó kiểm chứng tập con nảy tén phan con lai của bộ đữ liêu (toàn bộ bỏ đữ liêu trừ đi phần dữ liệu lấy ra) Có hai khả năng có thể, (1) Tap con thỏa mãn các tiêu chi đánh giá trên phần còn lại của đở liệu Điều này
có nghĩa là nhiệm vụ đã hoàn thành: và (2) Có một vài tiêu chí đánh giá chưa được
thôa mãn trên phân còn lại của đứ liệu Điêu này có nghĩa lả phần dữ liệu mà chúng,
ta lẫy ra ở trên chưa phải là phần đứt liệu mmả chứng ta mong muốn Nếu gặp phải
khả năng thứ hai chúng ta có thể giải quyết như sau: Thêm đử liệu từ bộ dữ liệu ban đầu vào bộ dữ liệu đã chọn ở trên và thực hiện lại việc chọn lựa thuộc tính trên bộ
đữ liệu này Quá trình này sẽ đừng lại khi tất cả các tiêu chí dánh giá dược thỏa mãn
Thêm một câu hỏi ở đây đó là giá trị của p bao nhiêu la phù hợp Một cách trực quan, kicl cỡ của p không nên quả †o cũng như quá nhỏ, Nếu kich cỡ của p quả nhỏ, thỉ ngay sau lần thứ nghiệm dâu tiên sẽ có rất nhiều tiêu chỉ dành giả chưa dược thöa mãn 2o dỏ, sẽ thực hiện việc thêm các thực thẻ từ bộ dữ liệu còn lại váo p va
có thể điều này dan đến kích cỡ của p sẽ lớn gần bằng kích cỡ của bộ đữ liệu ban
vẫn phải đương đầu với vấn để quá tải đữ liệu cộng với một vải
đánh giá có thể chưa được thỏa mãn Một cách đơn giản có thể giải quyết được
việc này đó là chọn p thee tỷ lệ % của bộ đữ liệu, ví dụ chọn p=10%, hoặc một
Trang 28cách khác là chọn p tý lệ với số lượng thuộc tính của bộ đữ liệu Một tỷ lệ %4 phủ
hợp được xác định thông qua tiến hảnh thực nghiệm Y tưởng về việc chọn lụa đữ liệu được thể hiện trong giải thuật được đặt tên là LIV được Lưi và Seiono để xuất
và năm 1998[17, 15, 25]
LVI
Input:axtries -lke mexiaum number of lucps
- - the inconsistency weasvre
bo - pS of b chosen randemiy Initialize :Di=D-D;
leop
Stye=LVT (Dor ¥e §)
if (Ca_Lncon i Sry, D1! Dp, inconData) <y)
return (Srv!
Ty append {incenNazay Dat
Dy=remeve {incenDaza, Dy)
enc of lecp Output : Sim
'Trong giấi thuật này hàm CallNcon tra lai gia tri của tý lệ lỗi và các đữ liệu
không phủ hợp trong inconData
Trang 29CHƯƠNG 2: THUẬT TOÁN RANDOM FOREST VÀ GIẢI
THUAT DI TRUYEN
2.1 Giới thiệu thuật toán Random Forest
Random Forest (rimg ngau nhiên) [6, 7, 8, 18, 24, 29] là phương phân lớp thuộc
tinh được phát triển bởi Leo Breiman tại đại hoe California, Berkeley Breiman cũng đồng thời là đồng tác gia ctia phttong phap CART (Classification and Regression
Trees)[9] được đánh giá lả một trong 10 phương pháp khai phá dữ liêu kinh điển Random Forest (RF) được xây dưng dựa trên 3 thành phân chính là: (1) CART, (2) học
toan bộ hội đồng các chuyên gia, kết hợp các mô hình, vả (3) tổng hop bootstrap
(bagging), Về ban chat RF str dung kỹ thuật có tên gọi là bagging Kỹ thuật này cho
phép lựa chọn một nhỏm nhỏ các thuộc tỉnh tại mỗi nút của cây phân lớp đẻ phân chia
thành các mức tiếp theo Do đỏ, RE cỏ khả năng phân chia không gian tìm kiếm rất lớn thành các không gian tìm kiểm nhỏ hơn, nhờ thẻ thuật toán có thẻ thực hiện việc phân
RE sử dụng công thức Gini [9, 29] như là một hàm điều kiện đẻ tính toản việc
phân chia cây tại mỗi nút Số lượng cây lả không hạn chẻ vả không sử dụng bắt cứ kỹ
thuật nào đề hạn chế việc mở rộng cay [1]
Hiện nay, Random Forest đang được sử dụng khá phổ biên bởi những điểm vượt trội của nó so với các thuật toán khác: xử lý được với đữ liệu cỏ số lượng các thuộc tinh
lớn, có khả năng ước lượng được độ quan trọng của các thuộc tính, thường có độ chính
Trang 30xác cao hơn, quá trình học nhanh Trong Random Eorest, mỗi nođe trong cây chi chon một tập nhỏ các thuộc tỉnh để quyết định một lần phân chia, cơ chế nảy lảm cho RI" thực thị với tập dữ liệu có số lượng thuộc tỉnh lớn trong thời gian nhanh hơn nhiều các thuật toán khác Chủng ta có thể chí định số lượng các thuộc tính được dùng cho mỗi
lan phan chia, gia tri mặc định là sqrt(p) chơ thuật toán phản lớp, và
toán hỗi quy, với p là số lượng lất cả các thuộc tính Các cây lớn nhất có thể sẽ dược tạo ra và không bị cắt xén Số lượng các cây con dimg dé tao nén cây tổng thể
được đất đủ lớn để đâm bảo tất cã các thuộc tính déu được sử dụng một số lần Việc lua chon số lượng các cây phụ thuộc vào số lượng các thuộc tính, số lượng cây quá lớn hoặc quả nhỏ đều làm giảm độ chính xác của mô hình cây tổng thể Node gốc của các cây sử dụng một tập hợp các mẫu gọi lá mẫu boct-strapp để xây dụng cây Lất cả
các mẫu cỏn lại, được gọi là mẫu out-of-bag dung cho việc tính toàn mic độ hiệu quá
của thuật toán Thông thưởng các mẫu out-of-bag chiếm một phần ba tổng số mẫu
Việc sử dụng ước lượng out-of-bag giúp quản lý tỉ lệ lỗi, đô mạnh và mồi liên hệ giữa các thuộc tính
2.2 Phuong phap Bootstrap va Bagging
2.2.1 Phuong php Bootstrap [29]
Tà một phương pháp rất nỗi Géng trong thông kê được giới thiệu bởi Bradley Elron
vào năm 1979 Phương pháp này chủ yêu dùng để ước lượng lỗi chuẩn (standard
errors), độ lệch (bias) và tính toán khoảng tin cậy (confidence interval) cho các tham
số Phương pháp này được thục hiện như sau: Tử một quân thê ban đầu lấy ra một mẫu
L = (x1, x2, xn) g4m n thành phản, tỉnh toán các tham số mong muốn Trong các bude tiếp theo lặp lại b lẳn việc tạo ra mẫu Lb cũng gồm n phân từ từ L bằng cách lấy lại mẫu với sự thay thế các thành phản trong mẫu ban dâu sau đó tính toán các tham số mong muốn Hình 23129 dưới đây thể hiện một ví dụ sử dụng phương pháp
boolstrap trong việc linh toán giá trị trung bình
0.0.22 3.12) Mean=4.13
Tình 2.2.1 Vĩ dụ về phương pháp bootstrap] 29}
2.2.2 Phuong phap Bagging [29]
Phương pháp nảy được xem như lả một phương pháp tổng hợp kết qua có được
tù cáo bootsirap, Tu tưởng chỉnh của phương pháp nảy như sau Cho môi tập huần
Trang 31luyén D={(xi, yi): i=1,2, n} va gia str chimg ta mudn có một một dự đoán nảo đó đối
với biến x
Một mẫu gồm l3 tập đữ liệu, mỗi tập đề liệu gồm n phần tử được chọn lựa ngẫu nhiên tir D véi sy thay thế (giống như bootstrap) Do 45 B=(D1, D2, „ D3) trồng giống
như là một tập các tập huần luyện được nhân ban;
Tập huấn một máy hoặc một mê hình đối với mỗi tập IDb (b=1, 2, T) vả lần lượt thu thập các kết quả dự báo có được trên mỗi tập Dh,
Kết quả tổng hop cuối cùng được tính loán bằng cách trưng bình hoa (regression) hoặc thông qua số phiêu bầu nhiều nhất
Dưới đây là thể hiện chỉ tiết của phương pháp bagging
Xây dựng B boostrap eda 1 ký kiệu: L1, 1⁄3, .1.B;
Áp dụng giải thuật học cho mỗi Lb (b=1:13) để có tính toán dự doan hb
Goi Th — TÀIb là các điểm dữ liệu không xuất hiện trong Lb (out of bag points)
Đổi với mỗi điểm dữ liệu x, chủng ta sẽ quan sát giả trị y tương ứng va tinh toàn các
dy doan F0), FA) HO)
Tỉnh toán trung bình du doan Ox)
Ước lương sai lệch (bias) và phương sai (variance)
Một phâm lớp tổng hợp có thể xem như ruột xấp xỉ tới giá trị trung bình tưực sự của £'
có được bằng cách thay đếi các phân bố xác suật p với cac bootstrap
Bagaing lâm việc tốt với các giải thuật học khéng, én dinh (neutral networks, Decision
trees va Regression trees, Subset selection in logistic/linear Regression) Tuy nhién
bagging cling cé thé lam giam dộ chính xác của các giải thuật học ổn dinh (K-nearest
neighbors) (do sut thay déi trong dữ liệu của tập huấn luyện)
2.3 Thuật toán Random ForesL
Trong Randem Forest [8], kết quả của việc phát triển một tập hợp các cây sẽ làm cải thiện một cách đáng kể độ chính xác phân lớp, mỗi cây trong tap hợp sẽ “bỏ
Trang 32phiếu” cho lớp phổ biển nhật Đế phát triển các tập hợp cây nảy thông thường các véc
tơ ngẫu nhiên được tạo ra, các véc tơ này sẽ chị phối sự phát triển của mỗi cây trong
các tập nói trên Dồi với cảy thứ k trong tập các cây, mnột véc tơ ngẫu nhiên @k được tạo ra, véc tơ này độc lập với cáo véc tơ được tạo ra trước đó Ø1, @2, , @k-I nhưng
sự phân bó của các véc tơ này là tương tự nhau Một cây được phát triển dựa vào tập tập huấn và véc tơ @k kết quả là được một phan lop bfx, Ok) wong do x la vée to dau vào Sau khi một số lượng lớn các cây được lạo ra các cây mày “bỏ phiếu” cho lớp pho
biển nhất Chúng ta gọi những quá trình này là ranđom forest
Ranđom forest được định nghĩa như sau [7]: Mật ranđom forest là một phân lớp bao gồm một tập các phân lớp có câu trúc cây (hớc, Øk), k=l, trong đó {@k} là những
véc tơ độc lập, tương tự nhau được phân bỏ một cách ngầu nhiên và mỗi cây sẽ bố một
phiểu bảu cho lớp phổ biển nhất ở véc tơ đầu vào x
' tưởng chính của giải thuật Random Forest:
+ _ Ở mỗi lần phân chia cây một tập ngău nhiên m thuộc tính dược lấy ra và chỉ
mm thuệc tính nảy tham gia vào việc phân chia cây Thêng thường m =./p
hoặc p3 trong đó p là tổng số cáo thuộc tính
Đi lôi với tuổi cây phái " iy phái triển triển dựa trên một mẫu booslrap, dựa Ú a boost t tỷ cửa các
phân tử không uuộc vào bootstrap là được kiểm soái Tỹ lệ lỗi này được
gọi là tỷ lệ lỗi “out-o£ bag” (OOT)
Mô tã thuật toán RE: [8 ]
1 Chọn T là số lượng các cây thanh phân sẽ được xây đựng,
2 Chọn m là số lượng các thuộc tinh sẽ được dùng dé phân chia tai mdi node của cây, m thường nhỏ hơn p rất nhiều, p là tông số các thuộc tính Giá trị ra được giờ không đổi trong suốt quả trinh dựng cây,
3 Dựng T cây quyết định Trong đó mỗi cây dược hình thành như sau
4) Xây đụng tập mẫu khéi ding ( bootstrap ) với n mẫu, hùnh thành Lis việc hoán vị tập các nấu ban đầu Mỗi cây sẽ được dựng từ tập khỏi động này
b) Khi xây dựng cay, tai mdi node sé chọn ra m thuộc tính, và sử đựng m thuộc tính này đề tim ra cách phân chia tốt nhất,
e) Mỗi cây được phát triển lớn nhất có thể vá không bị cắt xén
4 Sau khi xây dựng được Random I'orest, để phân lớp cho đổi tượng T, thu thập kết quả phản lớp déi tượng nảy trên tất cả các cây quyết dịnh và sử dụng kết quả được chọn nhiều nhất làm kết quả cuối cùng của thuật toán Tỉ lệ lỗi của cây tổng thé phụ thuộc vào độ mạnh của từng cây quyết định thành phần và mỗi quan hệ qua lai
giữa các cây đỏ
Hình vẽ 2.33] đưới đây thế hiện các bước trong Random Rorest Đề phân lớp một đối tượng mới Random Rorest căn cử vào số phiếu má các cây trong rừng bỏ cho đổi tượng đỏ thuộc về lớp nào
Trang 33Tập dữ liệu học:
imran tử, nthuộc tị inh)
Hình 2.3 Các bước trong Random Porest[3]
Quá trình học của Random Forest bao gồm việc sử dụng ngầu nhiên giá trị đầu vào, hoặc kết hợp các giá trị đó tại mỗi node trong quá trình dựng từng cây quyết định
Trong đó Random Forest cỏ một số thuộc tính mạnh như{8]
(1) Độ chính xác của RE tương đôi cao
(2) Thuật toán giải quyết tốt các bài toán có nhiều dữ liệu nhiều
(3) Thuật toán chạy nhanh hơn so với bagging
(4) Có những sự ước lượng nội tại như độ chỉnh xác của mô hình phỏng đoán hoặc độ mạnh và liên quan giữa các thuộc tính
(5) Dễ dàng thực hiện song song
(6) Tuy nhiên đề đạt được các tỉnh chất mạnh trên, thời gian thực thị của thuật
toán khá lâu và phải sử dụng nhiều tài nguyên của hệ thông
Tỉnh chất thứ 4 được quan tâm rât nhiều vả là tỉnh chất được sử dụng đề giải
quyết bài toán trích chọn thuộc tỉnh Sau khi thực hiện học sẽ thu được một đanh sách các thuộc được xếp hạng dựa theo một trong hai tiêu chí, Tiêu chỉ thử nhất là thu được sau quá trình kiêm tra độ chính xác sử dụng các mẫu out-of-bag Tiêu chí thứ hai là mức độ dây đặc tại các node khi phân chúa thuộc thuộc tính, và được tính trung bình
trên tất cả các cây
Qua những tìm hiểu trên vẻ giải thuật RE ta có nhận xét rằng RF là một phương pháp phân lớp tốt do: (1) Trong RF cae sai s6 (variance) dugc giảm thiêu do kết quả của RE
được tổng hợp thông qua nhiều bộ học (learner), (2) Việc chọn ngâu nhiên tại mỗi
bước trong RF sé lam giảm mỗi tương quan (correlation) giữa các bộ phân lớp trong,
việc tổng hợp các kết quả
Trang 34Ngoài ra, chủng ta cũng thây rằng lỗi chung của một rừng các cây phân lớp phụ thuộc
vào lỗi riêng của từng cây trong rừng cũng như mỗi tương quan giữa các cây
2.4 Một số đặc điểm của RF
2.4.1OOB
Nhắc lại ở trên khi tập mẫu được rút ra từ một tập huần luyện của một cây với
sự thay thé (bagging), thi theo ước tính có khoảng 1⁄3 các phần từ không có nằm trong, mẫu nảy [7] Điều này có nghĩa lả chỉ có khoảng 2/3 các phản tử trong tập huấn luyện
tham gia vào trong các tính toán của chủng ta, và 1⁄3 các phần tử nảy được gọi là dữ
liệu out-of-bag Dữ liệu out-of-bag được sử dụng đề ước lượng lôi tạo ra từ việc kết
hợp các kết quả từ các cây tổng hợp trong random forest cũng như dùng để tước tính độ
quan trong thudc tinh (variable important)
Trong random forest OOB được tính như sau: Giả sử cỏ một phương pháp cho
việc xây dựng một bộ phân lớp từ bất kỷ tập huấn luyện nào Cho một tập huan luyện
T ban đầu, sử dụng phương phap bootstrap xay dựng được tập huân luyện Tk, sau do xây dựng các bộ phân lớp h(x, Tk) và sử dụng các bộ phân lớp nảy “bỏ phiêu” đề xây dựng một tập tham số dự bảo Đối với mỗi cặp y, x trong tập huân luyện, việc tổng hợp các lá phiếu chi được thực hiện trên những bô phan lớp đối với những tap Tk
không chửa y, x Chúng ta gọi tính toán trên là out-of-bag classifier Sir dung dit ligu
out-of-bag đề ước tỉnh tỷ lệ lỗi trong RF lả việc tỉnh toán tỉ lệ lỗi của out-of-bag, classifier trén tap huân luyên Tk Cách tính trên có thể được hiểu một cách đơn giản
như sau: Gửi các “đôi tượng” trong OOB xuống cây và “đêm” số các dự đoán đúng, ta
gọi kết quả của tính toản nảy la ROOB
Hình 2.4.1[7] dưới đây thể hiện sử dụng dữ liệu OOB để ước lượng lỗi trong RF
Mẫu Bootstrapped Miu oon
Hình 2.4.1 Sử dụng OOB trớc lượng lôi[7]
Trang 353GB, lần lượt “gửi” các giá trị này xuống cây và “đếm” số các dự đoán đúng ta gọi việc tính toản nảy đối với thuộc tính là Rperm
Lộ quan trọng thuộc tính được tỉnh như sau:
Trong trường hợp giả trị của thuộc tỉnh quan trọng trên mỗi cây là độc lập thì
chủng ta có thể tính được lỗi chuan (standard error) cla ROOB — Rperm
Ngoài độ quan wong thuộc tính, trong RF cũng cầu chú ý đến dộ quan trọng
GIRI (GINT impertzm) Chỉ số GTNI tại nút N được định nghữa là tổng bình phương,
xác suất mỗi lớp tại nút N [28] Chỉ số GINI được tính như sau:
1
7
Trong đó p(wj) là là xác suất của lớp wj có mặt lại lớp Ñ Điều này cũng có
nghĩa là nếu trong tật cả các trường hợp tại nút N chỉ rơi vào một lớp duy nhật, thì giá trị chỉ số GTNI tại nút N bằng 0
Trong một số giải thuật như CART, SLIQ va RI chi sé GINI được sứ dụng như
lả mệt tiêu chỉ để phân nhánh trong cây Các giải thuật này , cực tiêu hỏa giá trị
chi sé GIN tại nút dựa váo việc phân nhánh trong cây theo công thức sau [8]:
cũ các cây dưa ra một độ quan trọng thuộc tỉnh nhanh, và điểu nảy là rất đẳng nhất với
đo lường độ quan trọng hoán vị [28]
Trong chương tiếp theo luận văn để xuất một mô hình học máy nhằm tăng hiệu
quả các thuật toàn phân lớp nói chung và của giải thuật RE nói riêng,
2.5 Giải thuật di truyền [32]
tối ưu hàm, xử lý ảnh, bái toán hành trình nguời bản hàng, nhận dang hệ thống và điều
khiến Thuật toán di truyền cũng như các thưật toán tiên hóa nói chung, hình thành đựa
trên quan niệm cho rắng, quá trình tiến hóa tự nhiền là quá trình hoàn hảo nhật, hợp lý nhất và tự nó đã mang tính tối ưu Quan niệm nảy có thể xem như một tiên để đứng, không chứng minh được, nhưng phủ hợp với thực tế khách quan Quả trình tiến hóa
Trang 36thể hiện tính tối ưu ở chỗ, thê hệ sau bao giờ cững tốt hơn (phát triển hơn, hoàn thiện hơn) thể hệ trước bởi tỉnh kế thừa và đầu tranh sinh tên [2]
2.5.2 Nội dung giải thuật di truyền
giả thuyết trên đữ liệu huần luyện này Nếu tác vụ là học chiến lược chơi cờ, độ thích: nạhi cỏ thể lả số ván thẳng của chiến lược này khi đấu với các chiến lược khác trong, quần thể hiện tại
Mặc dù các thuật giải đi truyền được thực hiện thay đổi theo bài loán cụ thể, nhưng
sau: Thuật
chúng chia s@ chung cấu trúc tiên bì hoạt động bằng cách cập nhật
liên tục tập giả thuyết — được gọi là quần thế Ở mỗi lần lặp, tắt cả các cá thể trong quan thế được ước lượng tương ứng với hàm thích nghỉ Rồi quản thé mdi được Tạo ra
‘bang cách lựa chọn có xác suất các cả thể thích nghỉ tắt nhật từ quân thể hiện tại Một
số trong những cả thể được chọn được đưa nguyên ven vào quản thể kế tiếp Những cả thể khác được đừng lâm cơ sở để tạo ra các cá thể con bằng cách áp dụng các tác động,
di truyền: fai ghép và dội hiển
Nội dung của giải thuật đi truyền mẫu được phát biểu như sau [32]
GA (Fitness, Fimess_threshold, p, r, m)
{ 1J Fitmess: hàm gán thang điểm ước lượng cho một giả thuyết
jj Fitness_ threshnid: Ngưỡng xác định tiểu chuẩn dừng giải thuật tỉm kiếm
!] p: Số cá thể trong quần thể giả thuyết
Jit: Phân số cả thé trong quần thể được áp dụng toán tử lai phép ở mỗi bước,
Jjm: Tỉ lệ cá thể bị đột biển
ø _ Khởi tạo quần thể: P € Tạo ngẫu nhiên g cá thể giả thuyết
ø _ Ước lượng: Ứng với mỗi h trong P, tỉnh Fimess(h}
= while [max Fitness(h)] < Fitness_threshold do
cặp giả thuyết từ quần thé P, theo Pr(hi)
đã tính ở bước trên Ứng với mỗi cặp <hụ, ha>, tạo ra hai con bằng cách áp dựng toán tử lai ghép Thêm tất các các cơn vao Ps
2 Lai ghép: chọn lọc theo xác suất
Trang 373 Đột biến: Chọn m% cá thể của P; với xác suất cho mỗi cá thể là như nhau Ứng với mỗi cá thể biển đổi mật bit được chọn ngẫu nhiên trong cách thể hiện của nó
4 Cập nhật: P< P;
5 Ước lượng: Ứng với mỗi h trong P, tính Fiuness(h)
«_ Trả về già thuyết trong P có độ thích nghỉ cao nhất
Quản thế gồm n cá thé Ở mỗi lần lặp, quân thể kẻ tiếp Py duoc hình thành từ việo
lua chon theo xác suất các giả thuyết hiện tại theo độ thích nghỉ của chúng và bằng,
cách thêm vào các giả thuyết mới Các giả thuyết mới được tạo ra bằng cach ap dung
toán tử lai ghép cho cặp giả thuyết thích nghị nhất và bằng cách tạo ra các đột biến điểm đơn trong thẻ hệ giá thuyết kết quả Quả trình nay được lặp cho đến khi các giả thuyết thích hợp được phát hiện
Một thuật giải di ruyền mầu duge mé (4 6 trên, các dâu vào cho thuật giải nay bao
gồm ham tính độ thích nghỉ để tính hạng cho các giả thuyết ứng cử, một giá trị ngưỡng
được định nghữa cấp độ thích nghỉ có thé chap nhận để kết thúc thuật giải, kích thước quân thế, và cáo tham số qu iếp được tạo ra như thể nào: phần quấn thể bị thay thể ở mỗi thế hệ và tỉ lê đột biên
Luu y trong thuật giái này, ở mỗi bước lặp qua vóng lặp chính tạo ra một thế hệ mới các giả thuyết dựa vào quản thể hệ hiện tại Trước tiên, một số gid thuyết được chon từ quân thể hiện tại để đưa vảo thể hệ kế tiếp Những giá thuyết nảy được chon
theo xác suất từ quần thể hiện tại, sử dụng hảm xác suất được định nghĩa ở trên Sau khi các cá thể mới được tạo ra từ hoạt động lai ghép này, quần thê thể hệ mới bây giờ
có đủ số lượng thành viên mong muốn Lúc này, một phân số zw nảo đó các cả thể nảy
dược chọn một cách ngẫu nhiên vả tất cả các đội biển ngấu nhiên được thực hiện để
thay dồi các cá thể này