Nguyễn Hà Nam Năm bảo vệ: 2011 Abstract: Tổng quan về bài toán cần giải quyết: khai phá dữ liệu và trích chọn thuộc tính, lựa chọn thuộc tính và bài toán phân lớp, Phương pháp dự kiến
Trang 1Áp dụng máy học để tìm ra các đặc trưng tối
ưu trong các bài toán xử lý số liệu lớn
Ngô Thùy Linh
Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: TS Nguyễn Hà Nam
Năm bảo vệ: 2011
Abstract: Tổng quan về bài toán cần giải quyết: khai phá dữ liệu và trích chọn thuộc
tính, lựa chọn thuộc tính và bài toán phân lớp, Phương pháp dự kiến thực hiện Trình bày một số kỹ thuật lựa chọn thuộc tính: Phương pháp lựa chọn thuộc tính, một số thuật toán lựa chọn thuộc tính Phân tích cơ sở lý thuyết thuật giải di truyền và mạng nơron nhân tạo: Thuật toán di truyền, mạng nơron nhân tạo Kết hợp giải thuật di truyền và mạng nơron để giảm chiều số liệu: Giới thiệu, kiến trúc hệ thống, hoạt động
của hệ thống
Keywords: Bài toán; Giải thuật di truyền; Mạng nơron nhân tạo; Hệ thống thông tin;
Khai phá dữ liệu
Content
GIỚI THIỆU BÀI TOÁN
Ngày nay nhờ sự phát triển mạnh mẽ của khoa học kỹ thuật mà sự tích lũy dữ liệu xảy ra với tốc độ bùng nổ, lượng thông tin lưu trữ trên các thiết bị điện tử không ngừng tăng lên Số lượng các bản ghi cũng như kích thước từng bản ghi được thu thập rất nhanh và lớn gây khó khăn trong việc lưu trữ và xử lý thông tin vì các thuật toán phân lớp đã phát triển chỉ có thể giải quyết được với một lượng số liệu giới hạn cũng như với độ phức tạp dữ liệu biết trước Người ta đã đưa ra các giải pháp để giải quyết vấn đề này như: xử lý song song, tìm ra các mẫu đặc trưng, tìm ra các thuộc tính đặc trưng Hướng nghiên cứu của luận văn là tìm ra các thuộc tính đặc trưng của bộ số liệu ban đầu hay còn gọi là lựa chọn thuộc tính (feature selection) Bài toán được mô tả như sau: dữ liệu chúng ta thu được được lưu lại trong bảng thông tin hai chiều, gồm hàng trăm các bản ghi, mỗi bản ghi lại có hàng trăm, đến hàng nghìn các thuộc tính Các bản ghi được phân chia vào các lớp cho trước Yêu cầu đặt ra ở đây là tìm
ra các thuộc tính tối ưu nhất mà vẫn đảm bảo việc phân lớp đúng của các bản ghi
NỘI DUNG LUẬN VĂN
Luận văn sử dụng giải thuật di truyền (GA) kết hợp với mạng nơron nhân tạo (NN) để giải quyết bài toán Về cơ bản người ta phân loại các phương pháp lựa chọn thuộc tính theo hai cách tiếp cận khác nhau là wrapper và filter Ở đây luận văn sử dụng GA như là cách tiếp cận theo mô hình wrapper để tìm ra các thuộc tính tối ưu, loại bỏ các thuộc tính dư thừa Theo mô
Trang 2đoạn 2 học và kiểm tra, bộ phân lớp sẽ học các tri thức từ dữ liệu của tập huấn luyện thông qua tập các thuộc tính tốt nhất được chọn và được kiểm tra lại bằng tập dữ liệu kiểm tra Mô hình luận văn sử dụng gồm hai phần chính: phần 1 sử dụng giải thuật di truyền kết hợp với mạng nơron nhân tạo để tìm ra bộ thuộc tính tốt nhất, phần 2 dùng mạng nơron Back propagation để đánh giá chất lượng hệ thống Dữ liệu ban đầu được phân chia thành tập dữ liệu huấn luyện và tập dữ liệu kiểm tra Khi cho tập dữ liệu huấn luyện qua phần 1 nhờ GA sinh ra các tập con của bộ thuộc tính ban đầu, ở đây mạng nơron được dùng làm hàm mục tiêu của giải thuật di truyền, để tính độ thích nghi của mỗi cá thể trong quần thể hay là độ phù hợp của mỗi bộ thuộc tính trong mỗi vòng lặp của giải thuật di truyền đối với hệ thống đó Kết thúc phần 1, bộ thuộc tính nào có độ phù hợp cao nhất sẽ được chọn Tiếp đến là thực hiện phần 2, lấy các bản ghi của dữ liệu huấn luyện với các thuộc tính vừa được chọn ở phần 1 để huấn luyện mạng nơron Sau khi huấn luyện xong, lấy các bản ghi của tập dữ liệu kiểm tra cũng với các thuộc tính tìm được ở phần 1 để cho kết quả dự đoán Luận văn thực hiện thử nghiệm trên hai bộ dữ liệu có trên thực tế là: bộ dữ liệu Stomach Cancer mô tả thông tin về gen của một số bệnh nhân bị ung thư dạ dày và bệnh nhân bình thường, bộ dữ liệu thứ hai là Lung Cancer mô tả thông tin về gen của bệnh nhân ung thư phổi Kết quả của hai thực nghiệm cho thấy số thuộc tính của bộ thuộc tính tốt nhất tìm được dao động xung quanh một nửa số thuộc tính của bộ dữ liệu ban đầu Để tìm ra bộ thuộc tính tối ưu có số lượng nhỏ hơn, luận văn đề xuất phương án cải tiến như sau: hạn chế số thuộc tính đầu ra theo tỷ lệ 0.1, 0.2, 0.3, 0.4, 0.5 Để làm được việc này, ta ép số thuộc tính ở đầu ra sau giai đoạn đột biến của giải thuật di truyền theo tỷ lệ cho trước Sau đó tiến hành kiểm tra 20 lần trên số thuộc tính tìm được theo các tỷ lệ trên Bộ thuộc tính nào cho giá trị trung bình cao nhất và độ lệch chuẩn thấp nhất thì bộ thuộc tính đó sẽ được chọn Tiếp theo so sánh kết quả thực nghiệm của hướng cải tiến đề xuất mới này với kết quả thực nghiệm của phương pháp ban đầu Từ đây rút ra nhận xét là phương pháp cải tiến là khả thi và cho kết quả cao hơn phương pháp chưa cải tiến
Cụ thể số thuộc tính tìm được nhỏ hơn, thời gian huấn luyện và kiểm tra nhanh hơn, đồng thời kết quả dự đoán cao hơn phương pháp nguyên gốc
KẾT LUẬN
Luận văn đã tìm hiểu về một số phương pháp lựa chọn thuộc tính Trình bày phương pháp cụ thể để giải quyết bài toán là kết hợp giải thuật di truyền và mạng nơron nhân tạo Cơ sở lý thuyết về GA và NN được trình bày kỹ trong luận văn Sau cùng luận văn đề xuất phương án cải tiến và thực hiện các thực nghiệm trên hai bộ dữ liệu khác nhau có trên thực tế Kết quả cho thấy phương án cải tiến đề xuất cho kết quả dự đoán tốt và cao hơn phương pháp chưa cải tiến Hướng nghiên cứu tiếp theo của luận văn là tìm hiểu một số thuật toán phân lớp khác mạng nơron, như cây quyết định hay phương pháp hỗ trợ véc tơ (SVM),… Tiến hành thực nghiệm trên một số bộ dữ liệu khác nữa Tìm hiểu phương pháp tối ưu các tham số của mạng nơron nhân tạo hoặc sử dụng mạng nơron động thay thế mạng nơron tĩnh để giảm bớt thời gian thực hiện của hệ thống
References
Tài liệu Tiếng Việt
[1] Nguyễn Đình Thúc, Lập trình tiến hóa, Nhà xuất bản giáo dục, 2001
[2] Đinh Mạnh Tường, Trí Tuệ Nhân Tạo, Nhà Xuất Bản Khoa học Kỹ Thuật, 2003
Tài liệu Tiếng Anh
Trang 3[1] Huan Liu and Hiroshi Motoda, Computational Methods of Feature Selection, Chapman &
Hall/CRC, 2008
[2] YongSeog Kim and Filipppo Meczenc, Feature Selection in Data Mining, 2005
[3] Jacek Jarmulak and Susan Craw, Genetic Algorithms for Feature Selection and
Weighting, IJCAI 99 workshop, 1999
[4] Jihoon Yang and Vasant Honavar, Feature Subset Selection Using a Genetic Algorithm,
Artifical Intelligence Research Group
[5] Krzysztof J.Cios, Witold Deddrycz, Roman W.Swiniarski, Lukasz A.Kurgan, Data
Mining A Knowledge Discovery Approach, Springer, 2007
[6] Luis Carlos Molina et at, Feature Selection for Algorithms: A Survey and Experimental
Evaluation, 2000
[7] Ron Kohavi and George H John, Wrapper for Feature Subset Selection, AIJ special
issuse on relevance, 1996
[8] Chin-Teng Lin, C.S George Lee, (1996), Neural Fuzzy Systems: A neuro-Fuzzy
Synergism to Intelligent Systems, Prentice-Hall International, Inc
[9] Sancho Salcedo –Sanz etc, Feature Selection via Genetic Optimization, 2000
[10] Padhraic Smyth, Cross-Validation Methods, CS 175, Fall 2007
[11] Ha Nam Nguyen, Syng Yup Ohn, A Learning Algorithm based for Searching Optimal
Combined Kernal Function in Support Vector Machine, 2005
[12] Translation of Microarray Data into Clinically Relevant Cancer Diagnostic Tests Using
Gege Expression Ratios in Lung Cancer And Mesothelioma, Cancer Research, 2002