1. Trang chủ
  2. » Công Nghệ Thông Tin

Tìm hiểu về Data Mining pps

5 346 2
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 86,16 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nĩ bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thơng tin cĩ giá trị tiềm ẩn trong các tập dữ liệu lớn.. Thật ra, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử d

Trang 1

Thành viên nhĩm:

1 Lâm long hậu DTH082043

2 Dương văn phim DTH082056

3 Hồ hồi hận DTH0820

4 Nguyền chí tính DTH082060

5 Nguyễn quang sơn DTH072222

Tìm hiểu về Data Mining

I.TĨM T Ắ T:

Khai phá dữ liệu (Data mining) là một khái niệm ra đời vào những năm cuối của thập kỷ

80 Nĩ bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thơng tin cĩ giá trị tiềm ẩn trong các tập dữ liệu lớn Thật ra, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các

kỹ thuật để tìm ra các mẫu hình cĩ tính chính quy trong tập dữ liệu Hay nĩ cịn là một quá trình trích xuất thơng tin cĩ mối quan hệ hoặc cĩ mối tương quan nhất định từ một kho dữ liệu lớn (cực lớn) nhằm mục đích dự đốn các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thơng tin hữu ích mà bình thường khơng thể nhận diện được

Ứng dụng của nĩ rất đa dạng và rộng tới, từ marketing, chống gian lận, giảm giá thành

sản xuất, tăng doanh thu, phân tích hành vi sử dung người dùng internet để phục vụ đúng nhu cầu, đúng đối tượng hay ứng dụng hỗ trợ ra quyết định, nghiên cứu khoa học đến việc chống khủng bố v.v

Các cơng cụ, kỹ thuật data mining cĩ thể trả lời các câu hỏi mà các cơng cụ truyền thống

địi hỏi rất nhiều thời gian cần thiết để cĩ thể giải đáp được (thậm chí các cách truyền thống

khơng thể giải được) Nĩ cĩ thể tìm thấy được những thơng tin cực kỳ hữu ích mà rất dễ bị bỏ qua hoặc khơng xem xét đến để cĩ thể dự đốn những xu thế/hành động xảy ra trong tương lai

Quá trình khai phá dữ liệu là quá trình phát hiện mẫu trong đĩ giải thuật khai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây phân lớp, hồi quy, phân nhĩm, v.v…

II.GIỚI THIỆU:

Sự phát triển của cơng nghệ thơng tin và việc ứng dụng cơng nghệ thơng tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã

được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên Họ lưu trữ các dữ liệu này vì

cho rằng trong nĩ ẩn chứa những giá trị nhất định nào đĩ Tuy nhiên, theo thống kê thì chỉ cĩ

Trang 2

một lượng nhỏ của những dữ liệu này (khoảng từ 5% ñến 10%) là luôn ñược phân tích, số còn lại

họ không biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì ñó quan trọng ñã bị bỏ qua sau này có lúc cần ñến nó Mặt khác, trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc ñộ nhanh

ñể trợ giúp việc ra quyết ñịnh và ngày càng có nhiều câu hỏi mang tính chất ñịnh tính cần phải

trả lời dựa trên một khối lượng dữ liệu khổng lồ ñã có Với những lý do như vậy, các phương

pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngày càng không ñáp ứng ñược thực tế ñã làm phát triển một khuynh hướng kỹ thuật mới ñó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu Với những ưu ñiểm ñó, khai phá dữ liệu ñang ñược áp dụng một cách rộng rãi trong nhiều lĩnh vực kinh doanh và ñời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet… Kỹ thuật phát hiện tri thức và khai phá dữ liệu ñã và ñang ñược

nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này tương ñối còn mới mẻ tuy nhiên cũng ñang ñược nghiên cứu và dần ñưa vào ứng dụng

III PHƯƠNG PHÁP NGHIÊN CỨU :

Quá trình xử lý khai phá dữ liệu bắt ñầu bằng cách xác ñịnh chính xác vấn ñề cần giải

quyết Sau ñó sẽ xác ñịnh các dữ liệu liên quan dùng ñể xây dựng giải pháp Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu

có thể hiểu ñược Về lý thuyết thì có vẻ rất ñơn giản nhưng khi thực hiện thì ñây thực sự là một quá trình rất khó khăn, gặp phải nhiều vướng mắc như: các dữ liệu phải ñược sao ra nhiều bản, quản lý các tệp dữ liệu, phải lặp ñi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay

ñổi),… Sẽ là quá cồng kềnh với một giải thuật khai phá dữ liệu nếu phải truy cập vào toàn bộ nội

dung của cơ sở dữ liệu và làm những việc như trên Mặt khác ñiều này cũng không cần thiết Có rất nhiều các giải thuật khai phá dữ liệu thực hiện dựa trên những thống kê tóm tắt khá ñơn giản của cơ sở dữ liệu, khi mà toàn bộ thông tin trong cơ sở dữ liệu là quá dư thừa ñối với mục ñích của việc khai phá dữ liệu cũng giống như các bạn hãy hình dung thử quá trình tìm kiếm của Google, nó tìm kiếm rất thông minh và nhanh chóng ñó là ưu ñiểm của quá trình xử lý này

Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá

dữ liệu ñể tìm ñược các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa ñó (thường thì ñược biểu diễn dưới dạng các luật xếp loại, cây quyết ñịnh, phát sinh luật, biểu thức hồi quy,…) Ta hãy hình dung nó ñược thực hiện tuần tự như sơ ñồ sau ñây :

Trang 3

ðầu tiên nĩi đến các phương pháp ta phải kể đến những phương pháp sau :

1 Phương pháp quy nạp :

Phương pháp quy nạp suy ra các thơng tin được sinh ra từ cơ sở dữ liệu Cĩ nghĩa

là nĩ tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ khơng phải bắt đầu với các tri thức

đã biết trước Các thơng tin mà phương pháp này đem lại là các thơng tin hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu Phương pháp này liên quan

đến việc tìm kiếm các mẫu trong cơ sở dữ liệu Ngồi ra khi nĩi quy nạp thì phải nĩi đến sử dụng cây quyết định và tạo luật

2 Cây quyết định và luật :

Cây quyết định: Cây quyết định là một mơ tả tri thức dạng đơn giản nhằm phân

các đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị cĩ thể của các thuộc tính, các lá miêu tả các lớp khác nhau Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng với giá trị của thuộc tính của đối tượng tới lá

Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu cĩ ý nghĩa về

mặt thống kê Các luật cĩ dạng Nếu P thì Q với P là mệnh đề đúng với phần dữ liệu trong

cơ sở dữ liệu, Q là mệnh đề dự đốn Ví dụ ta cĩ một mẫu phát hiện được bằng phương pháp tạo luật: Nếu giá 1 cân táo thấp hơn 5000 đồng thì số lượng táo bán ra sẽ tăng 5% Những luật như thế này được sử dụng rất rộng rãi trong việc miêu tả tri thức trong hệ chuyên gia Chúng cĩ thuận lợi là dễ hiểu đối với người sử dụng Cho đến nay, đã cĩ rất nhiều giải thuật suy diễn sử dụng các luật và cây quyết định được áp dụng trong máy học

và trong thống kê

3 Các phương pháp phân lớp và hồi quy phi tuyến:

Trang 4

phương pháp này bao gồm một họ các kỹ thuật dự đốn để làm cho các kết hợp tuyến tính và phi tuyến của các hàm cơ bản (hàm sygmoid, hàm spine, hàm mành, hàm đa thức) phù hợp với các kết hợp của các giá trị biến vào Các phương pháp thuộc loại này như mạng neuron truyền thẳng, phương pháp mành thích nghi,…

do các nhà khoa học (Freidman 1989, Cheng & Titterington 1994, Elder & Pregibon)

4 Mạng neuron:

Mạng neuron là một tiếp cận tính tốn mới liên quan đến việc phát triển các cấu trúc tốn học với khả năng lọc Các phương pháp là kết quả của việc nghiên cứu mơ hình học của hệ thống thần kinh con người Mạng neuron cĩ thể đưa ra ý nghĩa từ các

dữ liệu phức tạp hoặc khơng chính xác và cĩ thể được sử dụng để chiết xuất các mẫu

và phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác khơng thể phát hiện được.Khi đề cập đến khai thác dữ liệu, người ta thường

đề cập nhiều đến mạng neuron Tuy mạng neuron cĩ một số hạn chế gây khĩ khăn

trong việc áp dụng và triển khai nhưng nĩ cũng cĩ những ưu điểm đáng kể Một trong

số những ưu điểm phải kể đến của mạng neuron là khả năng tạo ra các mơ hình dự

đốn cĩ độ chính xác cao, cĩ thể áp dụng được cho rất nhiều loại bài tốn khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhĩm, mơ

hình hố, dự báo các sự kiện phụ thuộc vào thời gian,…

Các yếu tố cần phải xác định khi thiết kế mạng neuron :

- Mơ hình mạng

- Mạng cần cĩ bao nhiêu nút

- Khi nào thì việc học dừng để tránh bị quá tải

Ngồi ra cịn các yếu tố quan trọng khác khi xây dựng mạng nueron

5 Thuật giải di truyền:

Giải thuật di truyền, nĩi theo nghĩa rộng là mơ phỏng lại hệ thống tiến hố trong tự nhiên, chính xác hơn đĩ là các giải thuật chỉ ra tập các cá thể được hình thành, được ước lượng và biến đổi như thế nào Nĩ được sử dụng rất rộng rãi trong việc tối ưu hố các kỹ thuật khai phá dữ liệu

Trên đây chỉ là một số kỹ thuật phổ biến được sử dụng trong DataMining Ngồi ra cịn một số kỹ thuật nữa mà nhĩm chưa đề cập tới

IV KẾT QUẢ DỰ KIẾN :

Nhờ sự ra đời của DataMining mà đã cĩ nhiều mơ hình thơng minh đã ra

đời như robot thơng minh cĩ khả năng tự động dị tìm Trong tương lai lĩnh vực

Data Mining sẽ khơng cịn mới mẽ đối với việt nam, đồng thời sẽ ra đời hàng loạt các cổ máy siêu nhiên ở việt nam cũng như trên thế giới, nĩ cĩ khả năng làm những điều mà chỉ cĩ trong mơ con người mới làm được

Trang 5

V KẾT LUẬN :

Bài viết này mới chỉ là bước ñầu ñể chúng ta hiểu thêm về DataMining, thật ra thì

nó vẫn còn khá sơ xài, còn khá chung chung chưa chi tiết lắm Nhưng nó cũng ñủ ñể các bạn hiểu ñược một phần nào ñó về Data Mining và những ứng dụng tầm quan trọng của

Bên cạnh ñó, như ñã trình bày như trên chúng ta thấy có rất nhiều các phương pháp khai phá dữ liệu Mỗi phương pháp có những ñặc ñiểm riêng phù hợp với một lớp các bài toán với các dạng dữ liệu và miền dữ liệu với xu hướng phát triển không ngừng của thời ñại, ñể có một sản phẩm như mong muốn không phải là khó Tuy nhiên ñể tồn tại ñược thì chúng ta cần có những sản phẩm có những tính năng thông minh làm thõa mãn nhu cầu của người dùng Tất cả ñiều này chúng ta phải kể ñến công lao to lớn của Data Mining Ngoài ra còn nói thêm, ở Việt nam chúng ta hầu như lĩnh vực này chưa

ñược ứng dụng rộng rãi lắm một lý do ñơn giản ñó là sản phẩm của chúng ta chưa có quy

mô chưa lớn, lưu trữ còn nhỏ hẹp Trong tương lai không xa Data Mining sẽ trở nên phổ biến ở Việt nam, và sẽ có những sản phẩm xứng tầm với các sản phẩm trên thế giới

VI TÀI LIỆU THAM KHẢO :

1 http://en.wikipedia.org/wiki/Data_mining

2 Ebook.edu.vn

3 Ddth.com

4 ứng dụng và khai thác dữ liệu của (ths Nguyễn hoàng Tú Anh)

5 Một số nguồn khác…

Ngày đăng: 30/07/2014, 13:21

TỪ KHÓA LIÊN QUAN

w