1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƯNG

25 596 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 490 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tại sao phải giảm chiều dữ liệu• Năm 1997 một số lĩnh vực sử dụng hơn 40 thuộc tính đặc trưng • Năm 2003 hầu hết các bài báo cho thấy các lĩnh vực đã sử dụng 102 tới 104 biến variable •

Trang 1

ĐỀ CƯƠNG NGHIÊN CỨU SINH

NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ

DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH

CHỌN THUỘC TÍNH ĐẶC TRƯNG

Ngành : Công nghệ thông tin

Chuyên ngành : Hệ thống thông tin

Người thực hiện : ThS Hà Văn Sang

Người hướng dẫn : TS Nguyễn Hà Nam

ĐẠI HỌC QUỐC GIA HÀ NỘI

ĐẠI HỌC CÔNG NGHỆ

Trang 2

Nội dung

1 Đặt vấn đề

2 Nội dung đề cương

3 Dự kiến kế hoạch triển khai

4 Tài liệu tham khảo

Trang 3

1 Đặt vấn đề

• Khai phá dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có.

• Tuy nhiên, một kho (tập) dữ liệu lớn có thể chứa lượng

dữ liệu lên đến terabytes

• Sư gia tăng của các tập dữ liệu lớn trong nhiều lĩnh

vực đặt ra thách thức cho Data mining

• Không chỉ tập dữ liệu lớn mà còn các kiểu dữ liệu mới:

– Data stream trên Web

– Mạng xã hội

– Hệ thống sinh học

Trang 4

Tại sao phải giảm chiều dữ liệu

• Năm 1997 một số lĩnh vực sử dụng hơn 40 thuộc tính đặc trưng

• Năm 2003 hầu hết các bài báo cho thấy các lĩnh vực đã sử dụng 102 tới 104 biến (variable)

• Các kĩ thuật học máy và khai phá dữ liệu có thể không

hiệu quả với dữ liệu có số chiều lớn

• Giảm chiều dữ liệu:

– là việc làm giảm chiều của không gian tìm kiếm dữ liệu

– giảm chi phí thu thập và lưu trữ dữ liệu

– nâng cao hiệu quả của việc khai phá dữ liệu

– làm đơn giản hóa các kết quả khai phá dữ liệu

Trang 5

Tiến trình

Trang 6

Phương pháp giảm chiều dữ liệu

Để giảm chiều:

Lựa chọn đặc trưng (Feature Selection)

Trích chọn đặc trưng (Feature Extraction)

Trang 7

Tình hình nghiên cứ về trích chọn

• Trong nước:

– Nghiên cứu chưa nhiều

– Mới chỉ có một số bài báo và luận văn thạc sĩ nghiên cứu

về trích chọn thuộc tính đặc trưng

• Trên thế giới:

– Bắt đầu nghiên cứ từ cuối những năm 1997

– Đến năm 2003 có các bài báo liên quan trong lĩnh vực học máy Special issue on “Variable Selection”: Journal of

Machine Learning Research, Vol 3 Issue 7/8 (10/2003)– Những năm gần đây đã có nhiều tổ chức, hội thảo nghiên cứu về lĩnh vực này

Trang 8

Vấn đề đặt ra

• Số lượng thuộc tính lớn theo cấp số nhân làm cho:

– Việc tính toán cũng như lưu trữ gặp khó khăn

– Việc nghiên cứu trong nước về lĩnh vực giảm chiều và trích chọn đặc trưng chưa nhiều

• Trong luận văn thạc sỹ với đề tài: “Nghiên cứu và ứng dụng

một số mô hình học máy trong việc hỗ trợ đánh giá rủi ro tài chính” của mình, số liệu chứng khoán tăng lên hàng ngày làm

cho hiệu suất học giảm, độ chính xác dự báo chưa cao

• Từ những lí do như đã trình bày, tôi xin chọn đề tài:

NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH CHỌN THUỘC

TÍNH ĐẶC TRƯNG

Trang 9

2 Nội dung đề cương

2.1 Mục tiêu nghiên cứu

2.2 Nội dung nghiên cứu

2.3 Phương pháp nghiên cứu

2.4 Ý nghĩa khoa học

2.5 Dự kiến kết quả nghiên cứu

2.6 Định hướng nghiên cứu

2.7 Những bước tiếp cận và đã làm được

Trang 10

2.1 Mục tiêu nghiên cứu

• Tìm hiểu một vài kỹ thuật học máy như mạng

nơ ron, SVM, RandomForest, CART

• Tìm cách áp dụng kỹ thuật trích chọn đặc trưng

để giảm số thuộc tính trong quá trình học

• Tăng hiệu năng của các phương pháp học máy

sử dụng phương pháp trích chọn thuộc tính

trong khai phá tri thức từ phân tích khối lượng

dữ liệu khổng lồ

Trang 11

2.2 Nội dung nghiên cứu

1) Nghiên cứu khái niệm cơ bản về trích chọn thông tin:

• Giới thiệu sơ lược về lý thuyết sử dụng cho trích chọn như information gain, heuristic search, ranking methods…

2) Nghiên cứu các thuật toán thuật toán trích chọn:

• Tìm hiểu các phương pháp trích chọn đang được áp dụng hiện nay như filter, wrapper, embedded methods Đánh giá điểm mạnh, yếu của từng phương pháp

3) Nghiên cứu xây dựng thuật toán và áp dụng trong quá trình học máy:

• Từ việc đánh giá điểm mạnh của các phương pháp trích

chọn đang áp dụng, ta nghiên cứu xây dựng thuật toán bằng cách cải tiến và kết hợp các phương pháp đã có để tăng

hiệu năng của các phương pháp học máy

Trang 12

Tiến trình trích chọn đặc trưng

Trang 13

Phân loại

Trang 14

2.3 Phương pháp nghiên cứu

• Đề tài sẽ kết hợp phương pháp nghiên cứu lý

thuyết với kết quả thực nghiệm

• Nghiên cứu tổng hợp các kết quả đã công bố

trước đây để tìm ra các ưu nhược điểm

• Từ đó đề xuất và áp dụng phương pháp mới, kiểm chứng bằng thực nghiệm và đánh giá so sánh.

• Áp dụng giải pháp đề xuất vào ứng dụng thực tế

và đánh giá hiệu quả của cách tiếp cận đề nghị

cho ứng dụng cụ thể

Trang 15

– cho tham số ước lượng đáng tin cậy hơn

– giảm chi phí tính toán và bộ nhớ sử dụng

– nâng cao hiệu suất học và cung cấp kết quả tốt hơn

– Ngoài ra, đề tài sẽ đóng góp về phương diện lí thuyết cho việc nghiên cứu trong nước

– Có thể trở thành một chủ đề hay để giảng dạy trong lĩnh vực khai phá dữ liệu

Trang 16

2.5 Dự kiến kết quả nghiên cứu

• Luận án sẽ tập hợp và trình bày đầy đủ phần tổng

quan cũng như các giải pháp đề xuất để nâng cao hiệu quả của thuật toán

• Dự kiến kết quả của đồ án bao gồm 2 đến 3 bài báo đăng ở tạp chí chuyên ngành hoặc hội nghị quốc tế

• Ứng dụng thuật toán đề xuất và lĩnh vực khai phá dữ liệu tài chính

Trang 17

2.6 Các nghiên cứu liên quan

• Lựa chọn đặc trưng là một chủ đề nghiên cứu với ý

nghĩa thiết thực trong nhiều lĩnh vực:

– như thống kê, nhận dạng mẫu, học máy

– khai phá dữ liệu (bao gồm khai phá Web, khai phá văn bản, xử

lý hình ảnh)

• Một số hướng nghiên cứu trên thế giới:

– Semi-supervised Feature Selection via Spectral Analysis

– Sparse Linear Discriminant Analysis

– A Knowledge-Oriented Framework for Gene Selection

– Linear Dimensionality Reduction for Multi-label Classification

Trang 18

Hướng nghiên cứu trong tương lai

• Sẽ tiếp tục là lĩnh vực nghiên cứu được nhiều người quan tâm

• Một số hướng nghiên cứu trong tương lai:

– Trích chọn đặc trưng cho dữ liệu có chiều cực lớn

– Knowledge oriented sparse learning

– Explanation-based feature selection (EBFS)

Trang 19

2.7 Những bước tiếp cận và đã làm được

• Trong 3 năm học tập và nghiên cứu tại Đại học Công nghệ tôi đã có những kiến thức căn bản và nâng cao

về khai phá dữ liệu đặc biệt là trong lĩnh vực xử lí dữ liệu lớn.

• Kết quả là tôi đã bảo vệ thành công luận văn thạc sĩ trong lĩnh vực khái phá dữ liệu với tên đề tài là:

“NGHIÊN CỨU VÀ ỨNG DỤNG MỘT SỐ MÔ

HÌNH HỌC MÁY TRONG VIỆC HỖ TRỢ ĐÁNH GIÁ RỦI RO TÀI CHÍNH”

Trang 20

2.7 Những bước tiếp cận và đã làm

được

• Trải qua 6 năm giảng dạy và nghiên cứu, trong lĩnh vực

hệ thống thông tin kinh tế, tôi đã trực tiếp tham gia các phần việc như:

• Nghiên cứu và giảng dạy các môn học liên quan đến kĩ thuật lập trình, tìm kiếm…

• Nghiên cứu về khai phá dữ liệu trong lĩnh vực tài chính

• Viết một số bài báo và kỉ yếu khoa học, tham gia hội

nghị, hội thảo khoa học trong Ngành.

Trang 21

2.7 Những bước tiếp cận và đã làm

được

• Trong thời gian gần đây tôi đã tích cực tìm kiếm các tài liệu, bài báo, sách liên quan tới vấn đề trích chọn đặc trưng.

• Tìm kiếm được dữ liệu và các thuật toán mới nhất

Trang 22

3 Dự kiến kế hoạch triển khai

• Thời gian nghiên cứu dự kiến: 3 năm

Trang 23

3 Dự kiến kế hoạch triển khai

• Năm thứ hai:

– Đề xuất phương pháp thuật toán cũng như tiến hành các

chứng minh, kiểm nghiệm nhỏ để đảm bảo tính đúng đắn của hướng nghiên cứu

– Đề xuất phương pháp và thuật toán cải tiến

– Viết báo cáo về các kết quả thu được đăng trên các hội nghị

và tạp chí chuyên ngành

• Năm thứ ba:

– Xây dựng sơ đồ thực nghiệm và đánh giá kết quả

– Viết và bảo vệ luận án.

Trang 24

Tài liệu tham khảo

• Guyon, I & Elisseeff, A An introduction to variable and feature selection Journal of Machine Learning Research, 2003, 3, 1157-1182

• Dy, J G & Brodley, C E Feature Selection for Unsupervised Learning J Mach Learn Res., MIT Press, 2004, 5, 845-889

• He, X.; Cai, D & Niyogi, P Weiss, Y.; Schölkopf, B & Platt, J (ed.)

Laplacian Score for Feature Selection Advances in Neural Information

Processing Systems 18, MIT Press, 2005

• Zhao, Z & Liu, H Semi-supervised Feature Selection via Spectral

Analysis Proceedings of SIAM International Conference on Data Mining (SDM), 2007

• Xu, Z.; Jin, R.; Ye, J.; Lyu, M R & King, I Discriminative

semi-supervised feature selection via manifold regularization IJCAI' 09:

Proceedings of the 21th International Joint Conference on Artificial

Intelligence, 2009

• Saeys, Y.; Inza, I & Larrañaga, P A review of feature selection techniques

in bioinformatics Bioinformatics, 2007, 23, 2507-2517

Trang 25

Tài liệu tham khảo

• Barak Chizi, Dimension Reduction and Feature Selection, 2005.

• Zenglin Xu, Rong Jin, Jieping Ye, Michael R Lyu, and Irwin King

Discriminative semi-supervised feature selection via manifold

regularization In IJCAI' 09: Proceedings of the 21th International Joint Conference on Artificial Intelligence, 2009

• Zheng Zhao, Advancing Feature Selection Research - ASU Feature

Selection Repository , 2010.

• Lei Yu, Chris Ding, and Steven Loscalzo Stable feature selection via

dense feature groups In Proceedings of the 14th ACM SIGKDD

International Conference on Knowledge Discovery and Data Mining, 2008

Ngày đăng: 05/02/2015, 09:59

HÌNH ẢNH LIÊN QUAN

HÌNH HỌC MÁY TRONG VIỆC HỖ TRỢ ĐÁNH  GIÁ RỦI RO TÀI CHÍNH” - NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƯNG
HÌNH HỌC MÁY TRONG VIỆC HỖ TRỢ ĐÁNH GIÁ RỦI RO TÀI CHÍNH” (Trang 19)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN