Nghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học đề tài NCKH QG 08 01

Dữ liệu danh sách các thuộc tinh phản lớpHình 1: Hướng tiếp cận filter các thuộc tính được chọn độc lâp với thuật toán khai phá dữ liệu [1 ] Dữ liệu kiểm tra Tập các Uìuộc tính lựa ctìọ

Trang 2

Mục lụca ■

Mục lụ c i

Danh mục hinh v ẽ ii

Danh mục bảng b iể u iii

Danh sách cán bộ tham gia thực hiện đề tài V Sum m ary vi

Tóm tắt các kết quả chính của đề tà i viii

1 Tên đề t à i viii

1 Chủ trì đề t à i viii

2 Những kết (^uả ch ín h viii

a Ket quả về khoa h ọ c viii

b Ket quả phục vụ thực tế viii

c Ket quả đào tạ o ix

d Kết quả nâng cao tiềm lực khoa học ix

e Tình hình sử dụng kinh phí ix

Nội dung của đề t à i 1

1 Đặt vấn đ ề 1

2 Giới thiệu về trích chọn nội d u n g 2

3 Phương pháp đề xuất 4

4 Ket quả thực nghiệm 11

4.1 Dữ liệu M ad elo n 11

4.1.3 Nhận x é t 15

4.2 Bộ dữ liệu Colon T u rm o 16

4.2.1 Mô tả bộ dữ liệu Colon Tiirm o 16

4.2.2 Kết quả thực nghiệm với bộ dữ liệu Colon Turmo 16

4.2.3 Nhận x é t T 20

KẾT LUẬN 21

Tài liệu tham k h ả o 23

Trang 3

Danh mục hình vẽ ■

Hình 1: íiướng tiếp cận filter (các thuộc tính được chọn độc lập với thuật toán khai

phá dữ liệu) [1 ] 3Hình 2; Hướng tiếp cận vvrapper (các thuộc tính được chọn phụ thuộc theo một

nghĩa nào đó vóã thuật toán khai phá dữ liệu) [1 ] 3Hình 3; Ba cách tiếp cận cơ bản của trích chọn nội dung Phần tô màu xám cho biết

các thành phần mà hướng tiếp cận đó sử dụng để đưa ra kết quả cuối c ù n g 4

H ình 4: Mô hình học máy đề xuất dựa trên thuật toán Random P o rest 5

H ình 5: So sánh kết quả thực nghiệm giữa RF và RP_CT trên dữ liệu học (trái) và

trên dữ liệu kiểm chứng ( phải) qua 501ần chạy thừ với số cây trong

R F=100 12

H ình 6: So sánh kết quả thực nghiệm giữa RF và RP_CT trên dữ liệu học (trái) và

trên dữ liệu kiểm chứng ( phải) qua 501ần chạy thử với số cây ư-ong

R F=150 13

H ình 7: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (ưái) và

trên dữ liệu kiểm chứng ( phải) qua 501ần chạy thừ với số cây trong

R F=200 14

H ình 8: So sánh kết quả thực nghiệm giữa RF và RF CT trên dữ liệu học (trái) và

trên dữ liệu kiểm chứng ( phải) qua 50 lần chạy thừ với số cây trong

R f= 2 5 0 15

H ình 9: So sánh kết quả tíiực nghiệm giữa RF và RF_CT trên dữ liệu Colon Tunno

qua 20 lần chạy ứiử với số cây trong Rp=800 17

H ình 10: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo

qua 20 lần chạy ứiử với số cây trong RF=1100 18Hình 11: So sánh kết quả thực nghiệm giừa RF và RF_CT trên dữ liệu Colon Turmo

qua 20 flần chạy thử với số cây trong RF=1400 19

H ình 12: So sánh kết quả thực nghiệm giữa RF và RP_CT trên dữ liệu Colon Turmo

qua 20 lần chạy thử với số cây trong RF=1700 20

Trang 4

Danh mục bảng biểu

B ảng 1: Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học và trên dữ liệu

kiêm chứng qua 50 lần chạy thử với số cây trong RF= 100 11

B ảng 2: Mức tiêu tốn thòã gian nhiều hơn để thực hiện thuật toán cùa RF_CT so với

Rp trên dữ liệu Madelon qua 50 lần chạy thừ với số cây trong R F=100 12Bảng 3: Kết quả thực nghiệm giữa RF và RF_CT trên dữ ỉiệu học và trên dữ liệu

kiêm chứng qua 50 lần chạy thừ với số cây trong RF=150 12Bảng 4: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với

Rp ừên dữ liệu Madelon qua 50 lần chạy thừ với số cây trong R F=150 13

kiểm chứng qua 50 lần chạy thử với số cây trong Rp=200 13

B ảng 6: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với

RF trên dữ liệu Madelon qua 50 lần chạy thừ với số cây trong R p=200 14

kiêm chứng qua 501ần chạy thừ với số cây trong Rp=250 14

B ảng 8: Mức tiêu tốn ứiàd gian nhiều hơn để thực hiện thuật toán của RF_CT so với

RF trên dữ liệu Madelon qua 50 lần chạy thử với số cây trong R p=250 15Bảng 9; So sánh m ột số kết quả dự đoán sử dụng bộ số liệu Colon Turmo 16Bảng 10: Kết quả ứiực nghiệm giữa Rp và RP_CT trên dữ liệu Colon Turmo qua 20

lần chạy thử với số cây trong R F=800 17Bảng 11: Độ tiêu tốn thời gian nhiều hom để thực hiện thuật toán của RP_CT so với

RF trên dữ liệu Colon Turmo qua 20 lần chạy thừ với số cây trong RF=800 17 Bảng 12: Kết quả tíiực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20

lần chạy thử với số cây trong RF= 1100 18Bảng 13: Độ tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với

RF trên dữ liệu Colon Turmo qua 20 lần chạy thừ với số cây trong

R F=1100 18Bảng 14: Ket quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20

lần chạy thử với số cây trong RF=1400 19Bảng 15: Độ tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với

RF trên dữ liệu Colon Turmo qua 20 lần chạy thử với số cây trong

R F=1400 19Bảng 16: Kct quả thực nghiệm giữa RF và ííi^ CT trên dữ liệu Colon Turmo qua 20

lần chạy thừ với số cây trong RF=1700 20

Trang 5

Bảng 17: Độ tiêu tốn thời gian nhiều hơn đế thực hiện thuật toán của RF_CT so với

R f trên dữ liệu Colon 'í urmo qua 20 lần chạy thừ với siố cây trong

R F=1700 20Bảng 18: So sánh một số kết quả dự đoán sử dụng bộ số liệu Colion T u rm o 21

Trang 6

Danh sách cán bộ tham gia ỉhực hiện đề tài

Trang 7

Tóm tắt các kết quả chính của đề tài

1 Tên đề tài

T iến g V iệt:

Nghiên cứu phưom g p h á p lựa chọn các thuộc tính đặc trưng để ph á triên thuật toán hiệu quả nhằm p hâ n lớp số liệu lớn đặc biệt trong tin sinh học Tiếng Anh:

Studying Peature selection m ethods fo r developing the effective algorithm

to classịỷỳ the high dim ension data especially in Bioinformatic

M ã số: Q G 0 8 0 1

1 Chủ trì đề tài

N gười ch ủ trì: T S N g u y ễ n H à N am

C ơ qu an c ô n g tác: T rư ờ n g Đ ại học C ông nghệ, Đại học Q uốc gia H à N ội

Đ ịa chỉ: 144 Đ ư ờ n g X u ân T h ủ y , c ầ u Giấy, H à Nội

• 01 bài b áo k h o a học ở tạp chí Đ H Quốc G ia H à Nội, số 1

• 02 bài b áo k h o a họ c đ ă n g ở hội nghị quốc tế K SE tổ chức tại H à N ội, Iháng 9 /20 0 9

b Kết quả phục vụ thực tế

C h ú n g tôi đã hoàn thành chư ơng trình m ô phỏng thuật toán phân lớp dựa trên tìm đặc trư n g tối ưu của dữ liệu đầu vào thông qua lối ưu hàin nhân C ác kết q u ả nghiên cứu của đề tài cho thấy, phương pháp do chúnẹ tôi đề nghị và cài đặt có khả năng phân lớp tốt hơn so với thuật toán ban đầu P h ư ơ n g p háp này có khả năng m ờ rộng khả năng học bằng cách thêm

Trang 8

Nội dung của đề tài

1 Đặt vấn đề

T rong lĩnh vự c ngh iên cứ u về khai phá dữ liệu nói chung cũng như trong nghiên cứ u về các th u ậ t toán phân lóp nói riêng, vấn đề xử lý dữ liệu lớn ngày càng trở th àn h v ấn đề cấp th iết và đ ó n g vai trò chủ đạo trong việc giải quyết các bài toán th ự c tế P h ần lớn các th u ật toán phân lớp đã phát triển chỉ có thể giải quyết được với m ộ t lư ợ n g số liệu giới hạn cũng như với m ột độ phức tạp dữ liệu biết trước T ro n g khi đó lượ ng dữ liệu m à chúng ta thu thập được ngày càng trở nên pho n g p h ú và đa d ạng n h ờ các sự phát triển m ạnh mẽ của khoa học kỹ thuật Mặc dù rất nhiều th u ật to án p h â n lớp dựa trên nhiều nền tảng lý thuyết khác nhau

đã được p h á t triển v à ứ n g d ụ n g từ rất lâu, nhưng thực tể cho thấy kết quả phụ thuộc rất n h iề u vào đ ặc tín h d ữ liệu cũ n g như khả năng xử lý dữ liệu thô của từng nhóm n g h iên cứu M ộ t đ iều h iể n n h iên là với mỗi phương pháp chỉ có thể đáp ứng

và xử lý tố t trê n m ộ t v ài d ữ liệu v à ứ n g dụng cụ thể nào đó N gày nay với sự trợ giúp của các h ệ th ố n g tự đ ộ n g h ó a v à các hệ thống trợ giúp càng ngày càng tinh vi hơn, khối lư ợ n g d ữ liệu cần p h ả i x ử lý tăng với m ột tốc độ chóng mặt N gười la ước đoán rằ n g lư ợ n g th ô n g tin trên to àn cầu tăng gấp đôi sau k hoảng hai năm và theo đó số lư ợ n g cũ n g n h ư k íc h c ỡ củ a các cơ sở dữ liệu (C SD L ) cũng tăng lên một cách n h a n h chóng

Trong k h a i p h á d ữ liệu th ì p h ư ơ n g pháp trích chọn đóng m ột vai trò quan trọng để trích ch ọ n v à ch u ẩn bị dữ liệu H ướng tiếp cận này làm tăng hiệu năng thu nhận tri th ứ c tro n g các n g àn h n h ư tin sinh, xử lý dữ liệu w eb, xử lý tiếng nói, hình ảnh với đ ặc tín h là có rấ t n h iều th u ộ c tích (vài trăm cho đến vài trăm ngàn thuộc tính) n h ư n g th ư ờ n g chỉ có m ộ t số lượng tirorng đối nhỏ các m ẫu dùng để huấn luyện (th ư ờ n g là v ài trăm ) Phưomg pháp trích chọn sẽ giúp giảm kích cỡ của không gian d ữ liệu, loại bỏ n h ữ n g th u ộ c tín h không liên quan và nh ữ n g thuộc tính nhiễu P h ư ơ n g p h áp n ày có ản h h ư ở n g ngay lập tức đến các ứng dụng như tăng tốc

độ của th u ậ t toán k hai p h á d ữ liệu, cải thiện chất lượng dữ liệu và vì vậy tăng hiệu suất khai p h á d ữ liệu, kiểm so át được kết quả cùa thuật toán Phư ơng pháp này được giới th iệu từ n h ữ n g năm 1970 tron g các tài liệu về xác suất thống kê, học máy và khai phá d ừ liệu [1-7] T ro n g thời gian gần đây, cànạ ngày càng có nhiều

Trang 9

nhà nghiên cứu tìm cách áp dụng liirớng tiếp cận trích chọn đặc trưng nhằm làm tăng hiệu năng củ a các kỹ thuật phân tích số liệu và trích lọc thông tin Đặc biệt trong các ứ ng d ụ n g m à lượng dữ liệu quá lớn ảnh hưởng tcri tốc độ cũng như chất lượng của k ết quả p h ân tích số liệu Trong nghiên cứu náy, chúng tôi hướng tới việc tìm hiểu m ộ t số kỹ th u ật nhằm giảm chiểu dữ liệu nhằm tăn g hiệu năng phân tích, dự báo d ự đoán.

2 Giới thiệu về trích chọn nội dung

V iệc b óc tách các th u ộ c tính đặc trưng thông thường bao gồm hai phần là xây dựng các th u ộ c tín h v à lự a chọn các thuộc tính đặc trưng có ich cho m ột nhiệm vụ

cụ thể nào đó X ây d ự n g bộ các thuộc tính là m ột công việc rất quan trọng trong việc xử lý số liệu K h i x ây dựng d ữ liệu chúng ta cần phải đảm bảo không để m ất nhiều th ô n g tin q u á cũ n g n h ư không quá tốn kém về mặt chi phí Phần thứ hai, là chủ đề ch ín h củ a đ ề tài này , có m ục tiêu tìm ra những thuộc tính đại diện cho đối tượng, loại b ỏ n h ữ n g th u ộ c tính thừa và gây nhiễu nhằm tăng hiệu suất của các thuật toán k h ai p h á d ữ liệu C ó rất nhiều phương pháp cũng n h ư hướ ng tiếp cận khác nhau b a o g ồ m các p h ư ơ n g pháp kinh điển [1-3] với bộ dữ liệu tưofng đối nhỏ

và các h ư ớ n g tiế p cận h iện đại [5-7] Tuy vậy chúng đều có m ột số các yêu cầu chung như sau:

1 G iảm d ữ liệu cần lưu trữ và tăng tốc độ của thuật toán (tính toán trên dữ liệu đ ó )

2 G iảm b ộ th u ộ c tín h n h ằm tiết kiệm không gian lưu trữ

3 T ăn g c ư ờ n g h iệ u q u ả th u ật toán: nhằm thu được tỷ lệ dự đoán đúng cao hơn

4 Có k iến th ứ c v ề d ữ liệu: thu được các tri thức về dữ liệu thông qua các

p h ư ơ n g p h á p bó c tá ch d ữ liệu để có thể tạo ra hay biểu diễn dữ liệu dễ dàng hơn

v ề cơ b ản ch ú n g ta có th ể phân loại các phương pháp trích chọn theo 2 cách tiếp cận k h ác n h au là filter/w rapper, được trình bày kỹ trong các tài liệu [1, 2] Lược đồ th ự c h iện củ a h ai cách tiếp cận này được giản lược hóa trong hình vẽ 1 và

2 dưới đây

Trang 10

Dữ liệu danh sách các thuộc tinh phản lớp

Hình 1: Hướng tiếp cận filter (các thuộc tính được chọn độc lâp với thuật toán khai phá

dữ liệu) [1 ]

Dữ liệu

kiểm tra

Tập các Uìuộc tính lựa ctìọn

T ìm kiếm các

Đánh giá các kết quả

Đ á n h giá các thuộc tính

Tặp các Tinh toán thuộc tinh các giả lựa chọn _ thiét

T h u ậ t toán phân lớp

Dử liệu huán luyẻn

Tập các thuộc tinh

Thuặt toán phân lớp (Kiém chứ ng)

Thuật toán phân lớp (Dự đ oán)

Đánh glá két quả

H ình 2; Hướng tiếp cận wrapper (các thuộc tính được chọn phụ thuộc theo một nghĩa

nào đó với thuật toán kliai phá dữ liệu) [1]

Đ ể hoàn th à n h đ ư ợ c các th u ật toán trích chọn nội dung chúng ta cần phải thực hiện m ột số c ô n g v iệc sau:

1 P h ư ơ n g p h áp đ ể sinh ra tập th u ộ c tính đặc trưng (có thể hiểu tương ứng với c ác ch iến lược tìm kiếm )

2 Đ ịn h n g h ĩa c ác h / hàm đánh g iá (đưa ra các tiêu chí để có thể xác định

m ộ t th u ộ c tín h h ay nhóm th uộ c tính là tốt hay không tổt)

3 ư ớ c lư ợ n g h àm đánh giá đó (kiểm chứng lại xem hàm đánh giá có thục

sự p h ù h ợ p v à h iệu q u ả với bộ d ữ liệu không)

Trang 11

(âiiuirô \ relevonce R«l«vance \

In conlext \ Featur» subset relevance ', Pertoimonce \leoniino \%

Heirlsdc 0f ronrard sílectkMV^-^ \

ỵ siochasUc SMrch backward »liininatlon

itochasec Mdrch tMClnmrd alMiiatton^

ExDaustlve March Sliigl« fN(ur« ranking

F«atur0 s u b s e t g e n e ra tlo n , s e a rc h

( c ) ElllllO*ll.lc-< 1 I l l c t l n - n i s

H ình 3: Ba cách tiếp cận cơ bản của trích chọn nội dung Phần tô màu xám cho biết các

thành phần mà hướng tiếp cận đó sừ dụng để đưa ra kết quả cuối cùng

H ình v ẽ 3 th ể h iệ n sự khác nhau g iữ a các cách tiếp cận P ilter, W ra p p er v à

E m bedded [8] H ai p h ư ơ n g p háp (a) v à (b) đ ã đ ư ợ c m ô tả k ỹ tro n g các tài liệu [1, 2] Phư ơng p h áp (c) tư ơ n g đổi g iố n g cách tiếp cận (b) chỉ có điểm k hác b iệ t là nó ghép p hần sinh tập th u ộ c tính vào p h ần đánh giá tro n g khi h u ấn luyện

3 Phương pháp đề xuất

T rong p h ần này ch ú n g tôi đề xuất m ộ t p h ư ơ n g p h áp h ọ c m áy nhằm tă n g hiệu quả phân lóp của giải th u ật RF N ội d ung chủ yếu cùa p h ư ơ n g p h áp học m áy m à

Trang 12

chúng tôi để x u ất d ự a vào độ chính xác của việc kiểm chứng chéo (crossvalidation) g iữ a các tập d ữ liệu trong bộ dữ liệu và độ quan trọ n g thuộc tính của mỗi thuộc tính tập dữ liệu tập huấn M ô hình đề xuất được chi tiết trong hình 4 bao gồm 3 giai đoạn ch ín h đư ợ c phân cách bởi 3 đường nét đứt;

- Pha 1: K h ở i tạo các g iá tri

- Pha 2: T h ự c h iện việc đánh giá các thuộc tính và loại bỏ các thuộc tính thừa

d ự a trên h àm đ án h giá, kết quả là tập nhỏ nhất các thuộc tính đặc trưng cho

bộ d ữ liệu th e o kỹ th u ật học m áy đã lựa chọn

- Pha 3: T h ự c hiện việc kiểm tra, phân loại những dữ liệu chưa được gán nhãn

1

H ìn h 4: Mô hình học máy đề xuất dựa trên thuật toán Random Porest

Phương p h áp h ọc m áy n h àm tăng hiệu quả phân lớp của giải th u ật được đề xuất dưới đây đ ư ợ c th am khảo từ bài báo: Ha-Nam N guyen et all, “Peatiire Elimination A pproach B a sed on Random Forest fo r Cancer Dỉagnosis ”, M ICAI

2006: A d v an ces in A rtificial Intelligence, V olum e 4293/2006 T ro n g bài báo này tác giả để x u ấ t giải th u ật “ D yn am ic Peature Eliinination base on R F ” (DEF-R1^"') Giải thuật g ồ m 4 b ư ớ c đư ợ c trình bày dưới đây [12]

Trang 13

B ư ớ c I : Sử d ụ n g N -fo ld cross validation, sư dụng giải thuật RF như là giải thuật học trên tập d ữ liệu tập huấn.

B ư ớ c 2: x ế p h ạn g tất cà các thuộc tính theo tiêu chí xếp hạng r / trong

đó i= l, ,n , n là số các th u ộ c tính

B ư ớ c 3: Loại bỏ th u ộ c tính bằng cách sử dụng tiêu chí xếp hạng thuộc tính

có đ ư ợ c ở b ư ớ c hai kết hợp với độ chính xác kiểm chứng khi chạy giải

th u ật trên tập con m ới (tập con có được từ việc loại bỏ thuộc tính ở trên)

B ư ớ c 4: Q uay lại b ư ớ c 1 cho tới khi kết quả phân lớp thỏa m ãn m ột số tiêu

chí đề ra

Trong b ư ớ c m ột của giải th uật đã sự sử dụng kỹ thuật N -fold cross validation trên bộ dữ liệu sẵn có, và sử dụng RF như là một giải thuật học trên tập dữ liệu tậphuấn Tại lần k iểm c h ứ n g ch éo thứ j ta được một tập hợp gồm (Fj

Trong b ư ớ c hai củ a giải th u ật, từ những kết quả thu được từ bước m ột tác giả

đề xuất tiêu chí xếp h ạ n g các th u ộ c tính Đ ây là bước quan trọng nhất trong việc cải tiến hiệu q u ả p h â n lớp củ a R F Trong tiêu chí xếp hạng cho m ỗi thuộc tính được xây dựng tro n g b ư ớ c hai sẽ được xử dụng như một tiêu chí chính cho việc loại bỏ các th u ộ c tín h d ư th ừ a hay thuộc tính không tưomg quan trọng trong bước

ba của giải thuật:

+ íTrone, đó, là số lượng các tập con khi sử dụng kỹ thuật N -fold crossvalidation; Fij là giá trị củ a chỉ số G IN I; , 4' là kết quả dự đoánchính xác từ việc chạy giải th u ật R F trên dữ liệu học và dữ liệu kiểm chứng; 8 là một số thực, có giá trị rất nhỏ, nhằm m ục đích xử lý trong trường hợp giá trị của

bằng giá trị cùa •-‘T' ^ thì p; s ẽ c 5 giá trị hợp lệ

Trong đó - - í ,4 •’ ' được tính như sau:

Trang 14

M arina Sokolova và cộng s ự trình bày k h á chi tiết tro n g [13].

Tuy n h iên , ch ú n g tôi n hận thấy rằn g n ếu tro n g trư ờ n g h ợ p d ữ liệu đ ư ợ c y êu cầu phân th àn h n h iều lớp và số luợ n g c á c đối tư ợ n g th u ộ c m ỗ i lớ p k h ô n g n h ư nhau, hay nói m ột cách k h ác là tỉ lệ các đố i tư ợ n g th u ộ c v ề m ỗ i lớp tro n g bộ số liệu là k h ô n g n h ư n hau (tro n g th ố n g kê g iá trị n ày cũng đ ư ợ c gọ i là trọ n g số (vveight)), thì cô n g th ứ c trên có th ể ch ư a p h ả n ánh đ ư ợ c h ết m ứ c đ ộ c h ín h x ác của giải thuật M ộ t c ách đ ơ n giản , n ếu số lư ợ n g đối tư ợ n g th u ộ c m ỗ i lớp k h ác n h au thì giải thuật có th ể có n h ữ n g k ế t q u ả d ự báo v ớ i độ ch ín h xác k h á c n h a u trê n m ỗi lớp

C ông th ứ c tín h tiê u c h í x ếp h ạ n g m à tác g iả đề x u ấ t ở ư ê n , th e o tíieo tôi có thể chưa p h ản án h h ết m ứ c độ q u an trọ n g củ a m ỗ i th u ộ c tín h ữ o n g m ỗi lớp

T ừ n h ữ n g n h ận x ét trên , ch ú n g tô i đề x u ấ t m ộ t cách th ứ c n h ằ m tín h tiêu chí xếp hạng th u ộ c tín h đ ư ợ c tố t hơn, từ đó sẽ cải th iện đư ợ c h iệ u q u ả c ủ a th u ậ t toán

C ách thực h iện n h ư sau:

T rong b ư ớ c m ộ t ch ú n g ta sử d ụ n g k ỹ th u ậ t N -fo ld cross v a lid a tio n trê n bộ d ữ liệu sẵn có, và sử d ụ n g R F n h ư là m ộ t giải th u ậ t h ọc trên tậ p d ữ liệu tậ p huấn T ạilần kiểm ch ứ n g ch éo th ứ j ta đ ư ợ c m ộ t tập h ợ p g ồ m (Fj

T rong đó:

■ F j là độ quan trọng thuộc tỉnh (chi sổ GINI).

■ ■ là độ chính xác kết quả khi g iả i thuật học trên bộ dữ liệu tập huấn đổi với lớp k.

d ữ liệu kiểm chứng đ ối với lớp k.

■ 4 :• đ ư ợ c tính n h ư sau:

Trang 15

:!r:< ỵr J >í; ' r.’’’ i7 í.:: i7 '.ỹV

'I rong bư ớ c hai củ a p h ư ơ n g pháp m áy học, từ n h ữ n g k ết q uả th u đ ư ợ c từ bước một ch ú n g ta đề x u ất xây d ự n g m ột tiêu chí xếp hạng các th u ộ c tính

T h eo lý th u y ết B ay es cũng như cách th ứ c phân lớp N a tv ie B ay es đ ư ợ c trình bày ở trên tôi có n h ận đ ịnh sau:

• V ới g iả định rằn g các lớp là độ c lập th ố n g kê với n h au , nếu ch ú n g ta xem tấ t cả các th u ộ c tính đư ợ c p h ân v ào m ộ t lóp k bất kỳ từ m ộ t giải

th u ậ t p h ân lớp n ào đó là m ộ t tập m ẫu, tập m ẫu này g ồ m các đối tư ợ n g

n h ận m ộ t tro n g hai g iá trị “ T ” v à “F ” C ác th u ộ c tính đ ư ợ c p h â n lớp

đ ú n g n h ận g iá trị “T ” và n g ư ợ c lại thì n h ận g iá trị “ F ” , n h ư trìn h bày ởtrên ,4 là x ác su ất của các đối tư ợ n g n h ận g iá trị “ T ” , th eo B ay es đây

chính là P(A\ ỉc j, P (A \ ỈC, ) = /4

• C ũ n g th eo B ay es hậu xác su ất P(C;|-Y) = ^ ( 1 ) , tu y nhiên

tro n g trư ờ n g h ợ p p h â n lớp đối tư ợ n g , với g iả th iế t các lớp đ ộ c lập thố n g

k ê với n h au n ên có x ác su ất b àn g n h au nói m ộ t cách k h ác ta có P (C j) =

P (C2) = = P(Cn) T h êm v ào đó, do v iệc p h â n m ộ t đối tư ợ n g b ất kỳ

v à o m ộ t lớp đ ư ợ c th ự c h iện h o àn to àn đ ộ c lập n ên x ác su ất p h â n m ộ t

đố i tư ợ n g v ào m ộ t lớp tro n g m ẫ u cũ n g n h ư nh au D o đó, ta có th ể bỏ

q u a h ay yếu tố tro n g công th ứ c (1 ) ở trên , d o v ậy P k C i'X) = P Ù 'Ỉ C ;).

T a chỉ cần x é t PiX^C, 1 m à P(A 1C ) = n r : = i P Í V j C ) T h e o đó, h ậu xác

su ất ở đây h ay x ác su ất p h ân lớp đ ú n g củ a m ộ t giải th u ậ t p h ân lớp (độ

ch ín h x ác c ủ a giải th u ậ t p h ân lớp) là P^I- = 0 - = !^“-

• N ếu sử d ụ n g độ ch ín h xác cùa giải th u ật p h â n lớp th u ộ c tính n h ư là m ột yếu tố tro n g v iệc đánh giá m ứ c độ quan trọ n g củ a m ộ t th u ộ c tín h , thì việc ư ớ c iư ợ n g độ ch ín h xác củ a giải th u ậ t sẽ ảnh h ư ở n g rất lớn đ ến kết

q uả đ án h giá N eu ch ú n g ta đ ư a ra các ước lư ợ n g k h ô n g th ậ t ch ín h xác

về độ ch ín h xác củ a giải thuật v à sử d ụ n g n ó n h ư là m ộ t y ếu tố trong

Trang 16

x ếp h ạn g thu ộ c tín h thì kết quả xép h ạn g sẽ không tốt Thêm vào đó, ta lại sử d ụ n g k ết q u ả xếp hạng n ày n h ư m ộ t tiêu chí để loại bỏ các thuộc tính thừ a h o ặc k h ô n g liên quan thì việc loại bỏ các thuộc tính này đôi khi là loại bỏ nhầm

• N ế u áp d ụ n g B ay es để tính độ ch ín h xác của giải thuật chúng ta có thể tận dụng đ ư ợ c ưu điểm của B ay es là cho độ chính xác cao với sai số nhỏ D o đó, khi sử d ụ n g độ ch ín h x ác củ a giải thuật như m ột tham số tro n g v iệc đ án h giá m ứ c độ q u an trọ n g của thuộc tính sẽ cho kết quả

h ọ c trê n từ iig lớ p c ù a tập d ữ liệu tập huấn:

Đ ộ c h ín h x ác tru n g b ìn h của giải th u ậ t đối v ớ i các lớp d ữ liệu của tập dữ liệu k iểm c h ứ n g đ ư ợ c tín h n h ư là tíc h c ủ a đ ộ chính xác giải th uật trên

từ n g lớp c ủ a tậ p d ữ liệu k iểm chứng:

• T iêu chí xếp h ạ n g th u ộ c tín h i , đ ư ợ c tính như sau:

Trong đó, j= l, ,n là số lư ợ n g các tập con khi sử dụng kỹ thuật N -fold cross validalion; Fjj là giá trị củ a chỉ số G IN I; ^4' và / í l à các tính toán

Trang 17

được thực h iện trên các kết quả thu được, aÌ 4 i , từ việc chạy giảithuật R p.

T hành p h ần đ ầu củ a công thức tính xếp h ạn g cho th u ộ c tính i, Fjj, có giá trị giảm dần đối với m ỗi th u ộ c tính trên tất cả các cây tro n g rừ n g khi ch ú n g ta thực hiện giải th u ậ t h ọc R F trên d ữ liệu N ếu g iá trị chỉ số Fịj, càn g g iảm có ng h ĩa là thuộc tính n ày c àn g có xếp h ạn g tốt T hành phần th ứ hai tro n g cô n g th ứ c x ếp hạng thể hiện ch ú n g ta m o n g m u ố n giải th u ật sẽ có độ c h ín h x ác cao, n ếu h iệu sô

J càn g nh ỏ có n g h ĩa là độ ch ín h x ác của giải th u ậ t càn g cao,giải thuật c àn g tốt T h êm v ào đó, ch ú n g ta tính độ c h ín h x ác tru n g b ình của giảithuật trên m ộ t b ộ d ữ liệu cụ thể, b ằn g cô n g th ứ c Ẫ, ;• sẽ p h ản ánh độchính xác c ủ a g iải th u ậ t trên b ộ sổ liệu k h á ch q u an h ơ n , do trê n th ự c th ế số lượng thuộc tính đ ư ợ c p h â n v à o m ỗi lớp có th ể k h ác nhau

T ro n g trư ờ n g h ợ p = 0, h a y g iá trị củ a b ằn g g iá

trị của thì F. ,, việc n ày đ ư ợ c x ử lý th ô n g q u a v iệc lập ữ ìn h

T ro n g b ư ớ c b a c ủ a m ô h ìn h h ọc m áy, ch ú n g ta sử d ụ n g ch iến lư ợ c lư ợ c b ỏ lùi (backvvard e lim in a tio n ap p ro ach ) để loại b ỏ th u ộ c tín h T iêu chí đ ể loại b ỏ th u ộ c tính tro n g c h iến lư ợ c lo ại b ỏ n ày là sự k ế t h ợ p củ a tiê u ch í x ếp h ạ n g th u ộ c tín h

prcnk- ỳ c h ín h x ác k iể m ch ứ ng T ro n g g iả i th u ậtnày th u ộ c tín h có g iá trị n h ỏ n h ất sẽ bị loại b ỏ trư ớ c S au đó c h ạy giải th u ậ t R p trên tập dữ liệu cò n lại, độ ch ín h xác kiểm ch ứ n g sẽ q u y ế t đ ịn h tậ p d ữ liệu m ới có được chấp n h ậ n n h ư m ộ t ứ n g v iên đại diện cho các th u ộ c tín h tro n g b ộ d ữ liệu cũ hay không T ro n g trư ờ n g hợp, n ếu độ chính xác k iểm ch ứ n g nh ỏ h ơ n độ ch ín h xác của tập con đ ư ợ c c h ọ n lự a trư ớ c đó, giải th u ật sẽ th ử loại bỏ các th u ộ c tín h khác dựa vào xếp h ạ n g th u ộ c tính

Toán tử loại bỏ dần th u ộ c tính để tìm m ộ t tập con m ớ i tốt h ơ n tập co n được xây dựng trư ớ c đó, sẽ d ừ n g lại bất cứ khi nào khi độ c h ín h x ác k iểm ch ứ n g cùa tập con mới tố t h ơ n độ ch ín h x ác của tập con đ ư ợ c xây d ự n g trư ớ c đó G iải th u ậ t sẽ dừng lại khi k h ô n g cò n th u ộ c lín h để tạo ra tập con m ới h o ặc k h ô n g tìm đư ợ c tập

Trang 18

có độ chính xác kiểm ch ứ n g tốt hơn, và tập con hiện có đư ợ c xem là tập con tốt nhất của giải thuật N ếu k h ô n g, giải thuật sẽ quay trở lại b ư ớ c m ột.

4 Kết quả thực nghiệm

4 1 1 M ô tả b ộ d ữ liệ u M a d e lo n

M adelon là b ộ d ữ liệu đư ợ c sử d ụ n g tro n g hội th ảo “ S e v e n tee n th A nnual

C onference on N eu ral In fo rm atio n P ro cessin g S y ste m s” [14] Đ ây là bộ dữ liệu được tạo ra n h ằm m ục đ ích để kiểm ch ứ n g các th u ật to án đ ư ợ c trìn h b ày tro n g hội thảo B ộ d ữ liệu M ad e lo n g ồm 2000 bản ghi, m ỗi bản ghi g ồm 500 th u ộ c tính (2000 X 500) C ác bản ghi tro n g bộ d ữ liệu đ ư ợ c p h ân th à n h h ai lớp đ ư ợ c ký hiệu

là -1 và +1, bộ d ữ liệu M ad e lo n được ch ia th à n h 2 tập d ữ liệu con: (1 ) T ập huấn luyện, (2) T ập k iểm ch ứ n g C ác g iá trị th u ộ c tín h củ a b ộ d ữ liệu M ad e lo n đều là các số n g u y ê n dư ơ ng

Trang 19

Hình 5: So sánh kết quả thực nghiệm giữa RF và RF CT trên dữ liệu học (trái) và trên dữ liệu

kiểm chứng ( phải) qua 501ần chạy thử với sô cây trong RF=100

Bảng 2: Mức tiêu tốn thời gian nhiều hom để thực hiện thuật toán của RF_CT so với Rp

/-Irý f « 1 iHii m 1 Am r V M A r Ar o TT-— 1f\f\

SỔ cây trom RF=1S0

chứng qua 50 lần chạy tíiử với số Cíly ừong RF=150

Trang 20

0 3

0.2 0.1 0

H ình 6: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (trái) và trên dữ

liệu kiểm chứng ( phải) qua 501ần chạy thử với sô cây trong RF=150

Bảng 4: Mức tiêu tốn thời gian nhiều hom để thực hiện thuật toán của RP_CT so với Rp trên dữ liệu Madelon qua 50 lần chạy thử vói số câ^' ữong RF=150

Giá trị nhỏ nh at G iá trị lớn nhất

Sổ căv trone RF=200

Bảng 5: Kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học và trên dữ liệu kiểm

chứng qua 50 lần chạy thử với sc cây trong RF=200

Trang 21

0.2 0.1 0

Hình 7: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu học (trái) và trên dữ

liệu kiểm chứng ( phải) qua 501ần chạy thử với số cây trong RF=200

Bảng 6: Mức tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RP_CT so với RF

\X_J_I CA là _ 1 DC—nnn

số cây trone RF=250

Bảng 7: Kết quả thực nghiệm giữa Rp và RF_CT trên dữ liệu học và trên dữ liệu kiêm

Trang 22

0.2 0.1 0

RF • RF_CT

Hình 8: So sánh kết quả ứiực nghiệm giữa RF và RP_CT trên dữ liệu học (trái) và trên dữ

liệu kiểm chứng ( phải) qua 50 lần chạy thừ với số cây trong RF=250

Bảng 8: Mức tiêu tốn thòã gian nhiều hơn để thực hiện thuật toán của RP_CT so với RF ^ 1 -^ m X J I í-/^ tX 1 .1 » _Ạ_ !

4.1.3 Nhận xét

T ừ các kết quả ứiực nghiệm trên đối với bộ dữ liệu M ad elo n e chúng ta có nhận xét rằng phươ ng pháp học m áy được đề xuất ở trên cho k ết quả tư ơ n g đối khả quan Phương pháp cho k ết quả tỷ lệ dự đoán chính xác cao hơn hẳn so với phương pháp RF ban đàu, frên cả dữ liệu học và dữ liệu k iểm chứng Đổi với bộ

dữ liệu M adelon ở trên, trung bình sau 50 lần thử nghiệm tỷ lệ dự đoán chính xác trung bình của p hư ơ ng pháp R F_C T cao hơn độ chính xác củ a R F xấp xỉ khoảng 13% (trên cả dữ liệu học kiểm chứng) Với số lượng cây tro n g R F đủ lớn phưomg pháp cũng thể hiện tính ổn định tốt hơn RF, độ lệch chuẩn giảm xấp xỉ 3% so với

RF điều này có nghĩa là biên độ dao động của phươ ng ph áp đề xu ất nhỏ hơn RF, cũng có nghĩa là tính ổn định của phương pháp tốt hơn RF B ảng 9 dưới đây so sánh kết quả của R F _C T với m ột số phương pháp phân lớp thuộc tính khác sử dụng bộ dữ liệu M adelone So sánh kết quả dự đoán cùa R F_C T với m ột số phương pháp phân lớp khác cũng cho kết quả khá tốt B ảng 9 thể hiện so sánh kết quả dự đoán của C T_R F so với một số phương pháp khác[15]

Trang 23

B ảng 9: So sánh một số kết quá dụ doán sử dụng bộ số liệu Colon Turmo

v ề chi phí th ờ i g ian củ a RP_CT so với RF trong thực nghiệm trên bộ dữ liệu

M adelone T a th ấ y rằ n g ch i p h í thời gian cũng không phải là vấn đề đáng lưu tâmtrong trư ờ n g họrp n ày, tro n g th ự c nghiệm trên trong trường hợp x ấu nh ất gặp phải,

ta cũng chỉ ph ải ư ả tìiêm k h o ả n g 10,5 phút (ừưòmg hợp NT=^200) T ru n g bình thời gian phải trả th ê m khi th ự c h iện R F_C T so với RF trong thực ng hiệm trên, trong trường hợp xấu n h ập g ặ p p h ả i cũng chỉ nhiều hơn khoảng 6,6 phút T heo tôi, đây

là m ột kết q u ả tư ơ n g đ ố i k h ả quan

4.2 Bộ dữ liệu Colon Turmo

4.2.1 Mô tả bộ dữ liệu Colon Turmo

C olon T u rm o là b ộ d ữ liệu được sử dụng tương đối phổ biến tro n g các thực nghiệm liên q u a n đ ến tríc h ch ọ n ứiuộc tính B ộ dữ liệu gồm 2000 g en es được chọn lựa từ 6500 g en es, thu th ậ p tò 62 bệnh nhân ung thư (2000 X 62) T ro n g số 62 m ẫu của bộ dữ liệu C o lo n T u rm o có 40 mẫu được lấy từ những khối u của bệnh nhân ung thư, 22 m ẫu đ ư ợ c lấy từ nhữ ng phần “khỏe m ạnh” khác của bệnh nhân Giá trị của các th u ộ c tín h (g e n e s) tro n g dữ liệu đều được thể hiện dưới dạn g số thực

4.2.2 Kết quả thực nghiệm với bộ dữ liệu Colon Turmo

C ách th ự c h iệ n đối v ớ i b ộ dữ liệu C olon Turm o tương tự n h ư đối với bộ dữ liệu M adelon D irới đây, trìn h bày kết quả thực nghiệm trên bộ dữ liệu Colon Turm o qua 20 lần ch ạy th ử , với tham số số cây (num ber o f trees) c ủ a giải thuật RF lần lượt là 800, 1100, 1400 v à 1700

Trang 24

số cãy trons RF^800

Bảng 10; Kết quả thực nghiệm giữa RF và RF c 1' Irên dữ liệu Colon Turmo qua 20 lần

chạy thử với số cây trong RF=800

H ình 9: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20

lần chạy ứiử với số cây ữong Rp=800

Bảng 11: Độ tiêu tốn tìiời gian nhiều hơn để thực hiện thuật toán của RP_CT so với Rp

Trang 25

sổ cây írons RF=I 100

chạy thừ với sô cây trong R F=1100

H inh 10: So sánh kết quả thực nghiệm giữa Rp và RF_CT trên dữ liệu Colon Turmo qua 20

lần chạy thử với số cây trong RF=1100

Bảng 13: Độ tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF

T r u n g bình Đ ộ lệch chuẩn G iá trị nhỏ nhất G iá trị lóti nhất

Trang 26

số cãv trons RF=1400

chạy thử với sô cây trong RF=14 00

0.2

0,1 0

Hình 11: So sánh kết quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20

flần chạy thử với số cây trong Rp=1400

Bảng 15: Độ tiêu tốn thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF

' I n ^ A Ã « / 4 - •-<k D t ? — 1 Á f \ f \

Trang 27

s ố cây trons R F = 1 700

B ảng 16: Ket quả thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20 lần

trên dữ liêu Colon

n thời gian nhiều hơn để thực hiện thuật toán của RF_CT so với RF 'urm o qua 20 lần chạy thử với số cây trong RF=1700

0.2

0.1 0

RF ■RF CT

H ình 12: So sánh kết quà thực nghiệm giữa RF và RF_CT trên dữ liệu Colon Turmo qua 20

lân chạy thử với sô cây trong RF=1700

4.2.3 Nhận xét

K ết qu ả th ự c n g h iệm c ủ a phưong pháp học m áy đề xuất cũ n g thể trên bộ dữ liệu C olon T u rm o cho k ế t q u ả tốt hơn so với phương pháp RF nguyên bản Độ chính xác tru n g bìn h dự đ o á n củ a phương pháp học máy đề xuất cao hơn độ chính xác trung bình d ự đoán củ a RF khoảng 10%, tính ổn định của phương pháp

Trang 28

RF_C r cũ n g tốt hom hẳn R F ban đầu (độ lệch chuấn của R F_C T nhỏ hơn độ lệch chuẩn của RF).

So sánh kết q u ả d ự đ oán của phương pháp đề xuất với phương pháp ban đầu, cũng n hư m ộ t số p h ư ơ n g ph áp phân lớp khác trên bộ dữ liệu C olon T urm o, cho thấy p h ư ơ n g p h áp đề x u ất cho kết quả tương đối tốt Bảng 18 dưới đây ỉà kết quả

dự đoán củ a m ộ t số p h ư ơ n g pháp phân lớp trên bộ dữ liệu C olon T u rm o [12]:

Báng 18: So sánh một số kết quả dự đoán sử dụng bộ số liệu Colon Turmo

KÉT LUẬN

T rong k h u ô n k h ổ củ a đ ề tài này chúng tôi đã tìm hiểu cơ sở lý th u y ế t v à m ột sổ thuật to án áp d ụ n g giải bài to á n trích chọn thuộc tính phù hợp bằng cách giảm chiều d ữ liệu T ô i đ ã tậ p tru n g tìm hiểu kỹ về thuật toán R andom P o rest, phưomg pháp ph ân lớp R F _ D E F C h ú n g tôi đã đề xuất ra m ột phương pháp p h ân lớp

(R F_C T) đ ư ợ c cải tiến từ p h ư ơ n g pháp R F_D EF nhằm tăng hiệu qu ả phân lớp, đặc biệt đối với các lớp m à số lượng các đối tượng giữa các lớp là k h ô n g cân bằng nhau N h ữ n g k ế t q u ả th ự c n g h iệm trên hai bộ dữ liệu M adelon và C o lo n T urm o cho thấy p h ư ơ n g p h á p R F _ C T thể hiện độ chính xác và tính ổn định tố t hơn so với thuật toán R an d o m P o rest, cũ n g như phương pháp DFE-RF

Tuy nhiên, b ên cạn h n h ữ n g ưu điểm này phương pháp cũng tồn tại m ột số hạn chế sau:

• C hi phí thời gian cho phương pháp R F_C T là lớn hơn kh á nhiều so với

RF và D P E -R P R F là một phương pháp phân lớp tốt đổi với các nhiệm

Trang 29

vụ phân lớp th u ộc tính với sô lượng tính lớn, 'l’uy nhiên, đê chọn lựa

g iữ a R F _ C T hay RF hay D I'Í>R F khi thực hiện m ột nhiệm vụ phân lớp

th u ộ c tính, ch ủ n g ta cũng nên cân nhắc ưu liên độ chính xác dự đoán

c ủ a giải th u ậ t hay ưu tiên cho thời gian thực hiện nhiệm vụ

• R F_C T đ ư ợ c xây dựng dựa trên phư ơng pháp RF nguyên bản và cải tiến

từ p h ư ơ n g p h áp D FE-R F, nên phương pháp cũng không tránh được các

n h ư ợ c đ iểm củ a phương pháp RF nguyên bản: không “n h ạy ” đối với

th u ộ c tín h k h ô n g liên quan (iư elevant), tốc độ tính toán chậm , sử dụng

n h iều bộ n h ớ do việc phải lưu trữ các cây,

• P h ư ơ n g p h áp ch ư a được kiểm nghiệm trên các bộ dữ liệu lớn, đa lớp và

p h ứ c tạp, do đó chúng ta cũng chưa thấy được những hạn chế có thể

x u ất h iện k h i p h ư ơ ng pháp được kiểm nghiệm trên những bộ dữ liệu này

• K ế t q u ả d ự đ o á n của giải thuật vẫn chưa thực sự tốt

Đ ể giải q u y ế t n h ữ n g m ặ t còn hạn chế của phươ ng pháp R F_C T được đề xuất ở trên tro n g th ờ i g ian tớ i ch ú n g tôi sẽ chú trọng tìm hiểu, cải tiến nhằm tăng tốc độ phân ló p c ủ a giải th u ật Đ ồ n g thời, chúng tôi cũng sẽ tiến hành thử nghiệm phưong p h á p trên n h iề u b ộ d ữ liệu khác nhau nhằm đánh giá độ “nhạy” của phươ ng p h á p đối với từ n g loại dữ liệu cụ thể Q ua đó, có thể đóng góp thêm m ột chọn lự a ch o các n h à p h á t triển ứiig dụng khi phát triển các ứng dụng liên quan đến phân lớp d ữ liệu

Trang 30

13.B ern h ard S c h ổ k o p f , A lexandcr 1 Smola.; l.carning vvith K ernels: Suppoil

V ector M ach in es, R egularization, Optim i/atioii, and B eyond (A daptive

C o m pu tatio n and M ac h in e Leam ing), M IT press, 2002

14 N C ristianin i and J Shavve-Taylor.: An introduction to S upport V ector

M ach ines an d o th e r kern el-b ased learning methods, C am bridge, 2000

15.B reim an, L.: R an d o m forest, M achine Learning, vol 45 (2001) pages: 5-32

16 u A lon, N B ark ai, D N otterm an, K Gish, s Ybarra, D M ack, and A

L evine.: B ro ad P a tte m s o f Gene Expression Revealed by C lustering A nalysis

o f T u m o r and N o rm a l Colon Tissues Probed by O ligonucleotide A ưays,

P ro ceed in g s o f N a tio n al A cadem y o f Sciences o f the U nited States o f

A m erican, vol 96, pp 6745-6750, 1999

17 C hen, X u e-w en : G en e Selection for C ancer Classification ư s in g B ootstrapped

G enetic A lg o rith m s a n d Support V ector M achines, IEEE C o m p u ter Society

B io in fo rm atics C o n fe re n c e (2003) pages: 504

IS N g u y e n , H -N , O h n , S -Y , Park, J., and Park, K.-S.: C om b in ed K em el

P u nctio n A p p ro a c h in S V M for D iagnosis o f Cancer, Proceedings o f the First

In tern atio n al C o n fe re n c e on N atural C om putation (2005)

Trang 31

HỘI THẢO QUỐC GIA LẦN THỨ 12

MỘT SỖ VÃN ĐỀ CHỌN LỌC CÚA CÔNG NGHỆ THÔNG n N VÀTRUYÊN THÔNG

Chủ đề:

Plnt Hiện Tri Ittc Tỉ Dỉ Liệii

TÓM TẤT BÁO CÁO

B iên H ò a , 5 -6 /0 8 /2 0 0 9r

Trang 32

*Viện Công nghệ ìhông tin, **CĐ Sư phạm Quảng Trị, **Đfí Duy Tân

Một trong những vấn đề các nhà nghiên cứu quan tâm khi giải quyết bài toán ẩn các tập

mục nhạy cảm là giảm các hiệu ứng phụ (ẩn nhầm các tập mục không nhạy cảm) và giảm

sô lân truy cập CSDL Báo cáo giới thiệu một hưómg tiêp cận mới là hướng tiêp cận

maxmin H ướng tiếp cận m axm in cố gắng giải quyết vấn đề thứ nhất, giảm tối đa hiệu ứng

phụ khi thực hiện việc ân tập mục nhạy cảm Hướng tiêp cận này dựa trên lý thuyêt biên

thay đôi đê tìm ra các giao tác để ẩn tập mục nhạy cảm sao cho ít tác động đến biên nhất,

chính vì thế cũng ít gây ra các hiệu ứng phụ nhất

ÁNH XẠ ĐÓ NG TRONG LÝ THUYÉT c ơ DỮ LIỆU QUAN HỆ

N guyễn X u ân H uy*, Lương Nguyễn H oàng Hoa**

*Viện Công nghệ thông tin, **Cục Công nghệ Tin học nghiệp vụ- Bộ Công An

N hiều kết quả lý tìiuyết cơ sờ dữ liệu dựa trên khái niệm ánh xạ đóng như một toán tử

lậỊ) tương ứng giữa các tập con của tập hữu hạn cho trước ửioả các tiên đề phản xạ, đồng

biến và luỹ đăng Báo cáo trinh bày tổng quát hoá một sô vấn đê lý thuỵêt cơ sờ dữ liệu theo

ngôn ngữ của ánh xạ đóng và ứng dụng ngôn ngữ ánh xạ đóng ừong vân đê này

Nội dung chính của báo cáo bao gồm; khái niệm về ánh xạ đóng, phát biểu và chứng

minh các phép toán cơ bản của ánh xạ đóng, tập các điêm bât động của ánh xạ đóng như

một giàn các tập con với phép toán giao các tập, khả năng vận dụng ngôn ngữ ánh xạ đóng

để có được các kết quả về khoá, phản khoá, bao đóng, tách

ÁP D Ụ N G G IẢ I T H U Ậ T D I TRUYỀN M Ờ C H O V IỆC XÂY D ự N G

HỆ C ơ SỞ TRI TH Ứ C CỦA ĐIÈU KHIỂN TÓI ư u

Trần M ạnh Iliấn, Trần Thị Ngân

Khoa Công nghệ thông tin - Đại học Thái NguyênCác tri thức tíiu được trong quá t ì n h khai phá dữ liệu thường không đảm bảo các đặc

tnrag cơ bản của như: tính m êm dẻọ, tírứi đầy đủ, tính phù hợp và tính toàn vẹn của các

tri tìiức đầu vào của các hệ điều khiển tối ưu Đã có một số bài viết đưa ra một số phương

?háp đê xây dựng các hệ cơ sờ tri thức mờ cho các hệ điều khiển tối ưu Trong bài này

chúng tôi giới thiệu m ột phương pháp tiêp cận để xây dựng hệ cơ sở tri thức bằng việc sử

dụng giải thuật di truyên mờ

ÁP D ỤNG P H Ư Ơ N G P H Á P T R ÍC H CHỌN TH U Ộ C TÍNH PHÙ HỢ P

ĐỂ NÂNG C A O H IỆ U Q U Ả PHÂN LỚ P KHI KH A I PHÁ DỬ L IỆ Ìl

T rầ n PhưoTig Nhung, Nguyễn Hà NamKhoa CN TT - ĐH Công Nghệ - ĐHQG Hà Nội Chúng tôi ứng dụng kỹ thuật chọn lựa tập các thuộc tính có ích trong bài toán trích

chọn đê nhằm cải thiện hiệu quả phân lóp dữ liệu; đâỵ được xem là nền tảng cho hệ thổng

:huân đoán bệnh ung thư Hệ Ihổng này sẽ được huấn luyện với tập dữ liệu về các bệnh

nhân có từ trước và khi có dữ liệu của bệnh nhân mới, hệ thống sẽ t\r động đưa ra

\

chuẩn Minimí Algorit phân ló toán di liệu phi thực ng

ưu tập tlTi

ẢNH

HệDivision

v à o -n h i phương f giá sự ản đường và BERtíiec

Lê H u)

Các cáo như; p cần phải d người ta d quan trọnị mệnh đề 1 nghiên cm

C Á C Đ

Lê Thị

*Ti-ung Tìm kiếm c

Trang 33

chuẩn đoán người đó có bị -bệnh hay khônệ? Chúng tôi sử dụng phưong pháp phân lóp Minimax Probability M achine (MPM) kêt hợp cùng thuật toán di truyên (Genetic Algorithm) để xây dựng hệ thống này Với mục đích làm tăng độ chính xác của quá trình phân lớp dữ liệu và giảm thời gian huấn luyện của bộ phân lóp, chúng tôi sừ dụng thuật toán di truyền để lựa chọn tập thuộc tính t ố t nhất của tập dừ liệu ban đầu nhằm tìm ra bộ dữ liệu phù hợp nhất cho đầu vào của bộ phân lóp Minimax Probability Machine Kết quả thực nghiệm đã chứng minh răng phương pháp phân lóp sử dụng thuật toán di truyên đê tôi

ưu tập thuộc tính cho kêt quả tôt hơn phương pháp truyên thông

Từ khóa: Genetic Algorithm, Minimax Probability Machine, phân lớp

ẢNH HƯỞNG CỦA S ư DỊCH TẦN DOPPLER VÀ PHA ĐINH ĐA ĐƯỜNG

LẾN HỆ THÓNG MIMO - OFDM

Mai Văn Lập

Bộ môn Đ iện tử - Trường Đại học Dân lập Hải Phòng

Hệ thống M IM O - OFDM (M ultiple Input Multiple Output - Orthogonal Prequency Division M ultiplexing) kết hợp được cả các ưu điểm của hệ đa sóng mang và hệ nhiều lôi vào - nhiêu lối ra, do đó nó là m ột ứng cử viên sáng giá cho hệ thông thông tin 4G Dựa trên phương pháp ước đoán kênh dùng chuỗi dân đường, chúng tôi nghiên cứu và đua ra đánh giá sự ảnh hường chất lượnậ hệ thông MIMO - OFDM tronậ trường hợp môi tmờng đa đường và nguôn phát - nguôn thu di động Qua mô phỏng băng Matlab cho ứiây đô thị BER ứieo SNR có sự thay đổi khi độ dịch tan khác nhau và đa đường khác nhau

' k i s

BÁO CÁO ĐỘ N G V À CÁC MỆNH ĐỀ LỌC DỬ LIỆU

Lê Huy Thập*, Đặng H ữu Đạo*, Nguyễn Minh T\iấn*, LuTi Thị Bích Hương

*Viện Công nghệ thông tin, **ĐH Sư phạm Hà Nội 2Các báo cáo động sử dụng rất nhiều mệnh đề logic để tạo ra các đối tượng trong báo cáo như: phần đầu, phân thân và phân cuôi của báo cáo Các thông tin vê các đôi tượng này cần phải được xác lập một cách đầy đủ, chính xác và đúng thời điểm , để làm việc đó, người ta dùng các câu lệnh SQL: SELECT, FIND, SEEK, SEARCH, tuy nhiên phân quan trọng nhất trong các câu lệnh này là phân điêu kiện (CONDITION) tìm kiêm, đó là mệnh đề logic - mà theo lý ứiuyết có thể chuyển về mệnh đề chuẩn hội mà chúng ta sẽ nghiên cứu frong bài báo này

CÁC ĐẶC TRƯ NG TRÍCH CHON CHO TÌM KIẾM ĐÓI TƯỢNG TRONG

CÁC HỆ THÓNG GIẨM SÁT THÔNG QUA CAMERA

Lê Thị L an * , A lain B oucher**, M onique Thonnat***, Prancois Brém ond

Trang 34

Áp dụng p h ư o n g pháp trích chọn thuộc tính phù hợp để nâng cao hiệu quả phân lóp khi khai phá dũ’ liệu

T r ầ n P h ư ơ n g N h u n g , N g u y ễ n H à N a m

p ia n o 18 3 @ g m a il.c o rn , namnỉi.^Aiui.edu.vn Khoa Công N ghệ Thông Tin, Đại học Công Nghệ, Đại học Quổc Gia Hà Nội, Việt Nam

Tóm tắ t: Tôi sẽ ứng dụng kỹ thuật chọn lựa tập các thuộc tính có ích trong bài toán trích chọn để nhằm cải thiện hiệu quả phân lớp dữ liệu; đây được xem là nền tảng cho hệ thống chuẩn đoán bệnh ung thư Hệ thống này sẽ được huấn luyện với tập dữ liệu về các bệnh nhân có từ trước và khi có dữ liệu của bệnh nhân mới, hệ thống sẽ tự động đưa ra chuẩn đoán người đó có bị bệnh hay không? Tôi sử dụng phương pháp phân lớp Minimax Probability M achine (M PM ) kết hợp cùng thuật toán di truyền (Genetic Algorithm) để xây dựng hệ thống này V ới mục đích làm tăng độ chính xác của quá trình phân lớp dữ liệu và giảm thời gian huấn luyện của bộ phân lớp, tôi sử dụg thuật toán di truyền để lựa chọn tập thuộc tính tốt nhất của tập dữ liệu ban đầu nhằm tìm ra bộ dữ liệu phù hợp nhất cho đầu vào của bộ phân lớp Minimax Probability Machine Kết quả thực nghiệm đã chứng minh rằng phương pháp phân lớp sử dụng thuật toán di truyền để tối UII tập thuộc tính cho kết quả tốt hơn phưomg pháp truyền thống

T ừ khóa: Genetic Algoritíim , Mũiimax Probability Machine, phân lớp

I G iớ i th iệ u

Bước quan trọng đầu tiên trong việc xây dựng mô hình dự đoán là làm sao chọn được tập giá trị đầu vào thích hợp Hầu hết các kỹ thuật khai phá dữ liệu hiện nay đều không đạt hiệu quả cao với tập dữ liệu có số chiều lớn, độ chính xác và hiệu quả truy vấn giảm nhanh chóng khi số chiều của dữ liệu tăng lên Ngoài ra, việc thu thập dữ liệu cũng tốn nhiều thời gian, công sức và tiền bạc, nhưng trên thực tế số chiều bên trong dữ liệu cần sử dọg là nhỏ Việc chọn lựa dữ liệu thích hợp làm đầu vào cho mô hình dự đoán sẽ giúp đưa ra kết quả có tính chính xác cao và giúp tối ưu thời gian thực hiện công việc

Trích chọn thuộc tính phù hợp thực sự là lý tưởng trong lựa chọn tập con đặc trưng tối

UTi từ một tập ứng cử mô tả khái niệm mục tiêu trong hệ thống học Trích chọn thuộc tính phù hợp (Peature Seỉection) là phương pháp chọn ra một tập cơn tot nhất từ tập các đặc

1

Trang 35

(rưng đầu vào hằng cách loại ho nhữnịỊ đặc trưng cỏ rál ít hay không có thông tin dự đoán [6][7] Nó có vai trò quan trọng trong việc chuấn bị và lựa chọn tập dữ liệu cho quá

trình khai phá dữ liệu Phương pháp này làm giảm kích cỡ của không gian đặc trưng, loại

bỏ dư thừa hay nhiễu của dữ liệu, rtr đó có thể tìm chính xác những tập con đặc trưng có khả năng dự đoán Điều này giúp cải thiện đáng kề hiệu quà thu được trong các mô hình phân lớp và dự đoán

Theo ý tưởng trên, trong bài toán cụ thể là chuẩn đoán bệnh ung thư tôi sẽ áp dụng thuật toán di truyền (G enetic Algorithm) và phương pháp phân lớp minimax probability machine để xây dựng một mô hình chuẩn đoán bệnh, ở bước đầu tiên, tôi sử dụg thuật toán di truyền để giải quyết vấn đề tối ưu tập thuộc tính từ dữ liệu ban đầu Bước thứ hai, phương pháp phân lớp M PM sẽ thực hiện quá trình phân lớp với tập thuộc tính đã được chọn lọc để đưa ra kết luận bệnh nhân đó có khả năng bị ung thư hay không?

II K iế n t h ứ c c ơ b ả n

I Thuật toán di truyền (Geneíic Algorithm)

Thuật toán di truyền là thuật toán tối ưu ngẫu nhiên dựa trên cơ chế chọn lọc tự nhiên

và tiến hóa di truyền [20].

Bài toán dành cho G A là tìm kiếm trên không gian các giả thuyết ứng cừ để xác định già thuyết tốt nhất T rong G A “giả thuyết tốt nhất” được xem là một giả ứiuyết tối ưu hóa một đại lượng sổ được định nghĩa trước cho bài toán sắp tới, được gọi là độ thích nghi của giả thuyết Thuật toán hoạt động bằng cách cập nhật liên tục giả thuyết - được gọi là quần thể ở mỗi lần lặp, tất cả các cá thể trong quần thể được ước lượng tương ứng với hàm thích nghi Rồi quần thể m ới được tạo ra bàng lựa chọn có xác suất các cá ứiể thích nghi tốt nhất tà quần thể hiện tại M ột số trong những cá thể được chọn được đưa nguyên vẹn vào quần thể kế tiếp, những cá thể khác được dùng làm cơ sờ để tạo ra các cá thể con bằng cách áp dụng các tác động di truyền là lai ghép và đột biển

Bảng I Thuật giải di truyền mẫu [20]

GA (Pitness, Fitness_threshold, p, r, m)

{ / / Pitness: hàm gán thang điểm ước lượng cho một giả thuyết.

/ / F itn es s_ th re sh o ld : Nguững xác định tiêu chuẩn dừng giài thuật tìm kiếm.

/ / p: Số cá thể trong quần thể giả thuyết.

/ / r: Phân số cá thể trong quần thể được áp dụng toán tử lai ghép ớ mỗi bước.

/ / m: Ti lệ cá thể bị đột biến.

• Khởi tạo quần thể; p < r Tạo ngẫu nhiên p cá thê’ giả thuyẽt

• ước lượng: ứng với mỗi h trong p, tính Fitness(h)

Trang 36

w hile [max Fitness(h)] < Fitness_threshold do

3 Đ | t biến: Chọn m % cá thể của Ps với xác suãt cho mỗi cá thế là như nhau, ứng với moi cá thể biẽn đổi một bit đưỢc chọn ngẫu nhiên trong cách thể hiện của nó.

4 Cập nhật: p ^ Ps

5 ước lượng: ứng với mỗi h trong p, tính Fitness(h)

Trả về giả thuyết trong p có độ thích nghỉ cao nhất.

}

Các giả thuyết trong GA thường được thể hiện dưới dạng chuỗi các bit, để chúng có thể dễ dàng được thực hiện bởi các toán tử di truyền là đột biến và lai ghép [14]

Toán từ lai ghép tạo ra hai con tà chuỗi cha bàng cách sao chép các bit được chọn lựa

tờ mỗi cha Bit ở vị trí / trong mỗi con được sao chép từ bit ở vị trí i của một trong hai cha

Chọn lựa cha nào phân phối bit cho vị trí / được quyết định bởi them vào một chuỗi mặt

nạ lai ghép

Toán từ đột biến tạo ra những thay đổi ngẫu nhiên nhỏ cho chuỗi bit bằng cách chọn

một bit ở vị frí ngẫu nhiên rồi thay đổi giá trị của nó

2 Minimax probabiỉity machine (MPM)

Minimax probability machìne xây dựng một hàm phần lớp bằng việc cố gắng cực tiểu

hóa (Mini) xác suất phân lớp sai của các điểm dữ liệu tương lai trong trưÒTig hợp tồi tệ nhất (Max) dựa vào tất cả các lựa chọn có thể của điều kiện phân lớp với kỳ vọng và ma trận covariance cho trước

Giả sử hai vector ngẫu nhiên X, y đại diện cho hai lớp điểm dữ liệu với kỳ vọng và ma

trận covariance là {x, s ' i } và {ỹ, z với .V, ĩ , y , V e và s X , ỵ y €

Nhiệm vụ của MPM là tìm một siêu phẳng tối ưu:

c J z - b { a , z € R ''\a - o.b e R)

3

Trang 37

Dể phân biệt dữ liệu làm hai lớp với khả năng tốt nhất dựa trên tất cả các phân bố có

kỳ vọng và ma trận covariance Công thức toán học của mô hình ban đâu là [16]:

Theo kết quả của Bertsim as và Sethuraman [1] ta có:

sup P r {fi\v > b} -77:, vởi d ' = ịn f (v - ỹ) > (.)’ - v) (1.3)

1 + d - a ‘ y í b • ^ y

Với a là cận dưới của độ chính xác của phân lớp điểm dữ liệu tương lai hay gọi là độ

chính xác trường hợp xấu nhất Nếu ũ ^ z > b thì điểm dữ liệu tương lai z sẽ được phân vào lớp X, ngựợc lại được phân vào lớp Y

Việc phân lớp những điểm dữ liệu mới được thực hiện bởi việc tính toán

CI. và K, tương ứng là những giá trị tối ưu của a và K [16] Giá trị tối ưu của b được cho

bởi:

! -

I -Ố = a lx - í ữ T ^ = «r.v - K, Ịứr V íỉ, vói

A v íỉ + V O Ỉ S y í ỉ

Ta sử dng một hàm kernel để đưa không gian gốc về một không gian đặc biệt, ở đó

dữ liệu là tuyến tính, khi đó việc phân lớp sẽ được thực hiện trên không gian đặc biệt đó, chiểu tới một không gian đặc biệt qua ánh xạ sau — hàm kemel

KÌZ^^,Z'.) = (pizịy<p(z-.) thỏa mãn điều kiện Mercer (điều kiện để một hàm là Kernel)

[21].

Khi đó dữ liệu được ánh xạ:

,v - <p(,vjũ ( ^ , ^ 0 ( x ) )

— Iự(v)n (ọCy),'^ ọ i y } )

Trang 38

Trong đó { V;}ị!ị'j^ và là những tập huấn luyện củ a các lớp tương ứng với X và y.

việc tim ra siêu phẳng trong R ' được cho bởi rr v"'' ' ' = (Tỉ, cp ( ‘^) Ễ và ố E /?.Khi đó việc phân lớp điểm dữ liệu mới được thực hiện bằng cách đánh giá:

siíy/ỉ(íĩr(f"(r^^f.„.) - i).) = sígìi Ị y - à.

Nếu giá trị này bằng +1 khi đó e X, ngược lại thì e Y.

III P h ư ơ n g p h á p đ ề n g h ị

Genetic Algorithm được áp dụng để tối ưu hóa đầu vào cho bộ phân lớp Minimax Probability M achine, nhằm tăng hiệu năng và tính chính xác của quá trình phân lớp Dữ liệu cùa chúng ta bao gồm « cột số liệu sẽ được mô tả dưới dạng một vector nhị phân

01 110 11101 có độ dài ứng với số thuộc tính và có ý nghĩa như sau: 0 là không chọn cột

đó, còn 1 là chọn cột có sổ thứ tự tương ứng Cách biểu diễn này sẽ mô tà được bộ dữ liệu với số cột được iựa chọn theo một thứ tự ngẫu nhiên Một chuỗi nhị phân được coi là một chromosome trong ứiuật toán di truyền Tiếp đó, việc tìm các chuỗi nhị phân này được thực hiện thông qua các phép toán của GA như chọn lọc, lai ghép và đột biến dựa trên hàm mục tiêu là M inim ax Probability Machine hay Minimax Probability Machine dùng

để tính toán giá trị thích nghi (ĩitness function) cho GA Với tập thuộc tính được coi là tối

un, chúng ta sẽ sử dụng phương pháp phân lớp Minimax Probability Machine để chuẩn

đoán bệnh nhân đó ứiuộc về lớp bị bệnh hay không bị bệnh và so sánh kết quả phân lớp với kết quả thực tế nhằm đánh giá mức độ tốt của hệ thống

Dữ liệu sừ dụng để đánh giá và kiểm thừ mô hình là một bộ dữ liệu phi tuyến về bệnh ung thư Bộ dữ liệu bao gồm 311 hàng và 120 cột, trong đó cột cuối cùng là nhãn Nó có hai lớp nhãn, ký hiệu nhãn +1 tương úng với bệnh nhân không bị bệnh và nhãn -1 là bị bệnh ung thư N hư vậy, bộ dữ liệu có 311 phần tử và mỗi phần từ có 119 thuộc tính Trong đó, bộ dữ liệu Test chiếm 30% dữ liệu gốc, bộ dữ liệu Train chiếm 70% dữ liệu gốc Tiếp tục chia theo d ữ liệu Train thành hai phần trong đó dữ liệu Validation chiếm 30% bộ dữ liệu Train và 70% còn lại của dữ liệu Train là Training set

5

Trang 39

Chromosome tốt nhất

M PM đã tối ưu

Kếl quả

l^hán lởp

Hình 1 Mô hình kết hợp thuật toán di truyền và phương pháp phân lớp MPM.

Việc đánh giá mô hình được thực hiện theo các bước sau:

• Bước 1: Bộ dữ liệu gốc được chia làm 2 phần gồi dữ liệu Train chiếm 70% dữ

liệu ban đầu và dữ liệu Test chiếm 30% dữ liệu ban đầu Thực hiện phân lớp bằng

MPM trên bộ dữ liệu đã được chia như trên kết quả phân lớp của MPM trên bộ

dữ liệu gốc

• Bước 2: Sừ dụng bộ dữ liệu Train chiếm 70% bộ dữ liệu gốc (trong đó dữ liệu Validation chiếm 30% dữ liệu Train) để thực hiện quá trình trích chọn thuộc tính bằng GA

• Bước 3: Với đầu vào là chromosome tốt nhất vừa tìm được và bộ dữ liệu Test chiếm 30% dữ liệu gốc -ỳ tập dữ liệu mới là bộ dữ liệu giảm chiều để làm đầu vào

cho bộ phân lớp MPM

• Bước 4: Chạy bộ phân lớp MPM với tập dữ liệu là giảm chiều Bộ dữ liệu giảm chiều cũng được chia làm 2 phần với tỷ lệ như phân chia 70% là Training và 30% Test để thực hiện phân lớp -> kết quả phân lớp của bộ dữ liệu giảm chiều

Trang 40

Lặp lại bước 2 đến 4 nhiều lần với những diêu kiện dừng ớ bước 2 là “sô thê hệ (G enerations)” để thu được sổ liệu phục vụ cho quá trình phân tích.

Kết quả của quá trình đánh giá được biểu diễn bởi bảng sau:

Bảng 2 Ket quả kiêm ihử mô hình

T ỷ lệ đúng trong

h u ấn luyện

Tỷ lệ đúng trong kiểm tra

Sô lượng thuộc tính

Phươngsai

T ỷ lệ đ ú n g c ù a tậ p h u ấ n luyện K ết quà của tập kiếm tra

Hĩnh 2 So sảnh kết quả ph â n lớp trung bình trong 4 trường hợp kiểm thừ và kết quả phân

lớp cùa dữ liệu góc.

- 1

Định dạng
Số trang	89
Dung lượng	41,93 MB