1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori

30 787 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 476,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các phương pháp phát hiện luật nhằm tìm ra sự phụthuộc giữa các tính chất của các đối tượng hay các thuộc tính trong cơ sở dữ liệu.. Qua môn học công nghệ tri thức và ứng dụng, người viế

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÀI TIỂU LUẬN MÔN: CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG

ỨNG DỤNG DATA MINING TÌM LUẬT KẾT HỢP

THEO THUẬT TOÁN APRIORI

Tp.HCM, Tháng 10/2014

1.1.1.1.1.1.1.1

MSSV: CH1201051

H tên: Di p Thanh Nguyên ọ tên: Diệp Thanh Nguyên ệp Thanh Nguyên

L p: Cao h c khóa 7 ớp: Cao học khóa 7 ọ tên: Diệp Thanh Nguyên

MSSV: CH1201051

H tên: Di p Thanh Nguyên ọ tên: Diệp Thanh Nguyên ệp Thanh Nguyên

L p: Cao h c khóa 7 ớp: Cao học khóa 7 ọ tên: Diệp Thanh Nguyên MSSV: CH1301118

Họ tên: Nguyễn Ngọc Vọng

Trang 2

LỜI NÓI ĐẦU

Khai phá dữ liệu (Data mining) là ngành khoa học đang ngày được quan tâm nghiêncứu và phát triển do những ứng dụng thiết thực mà nó mang lại Khai phá dữ liệu là phầncốt lõi của phát hiện tri thức, trong khai phá dữ liệu phát hiện các luật là một trong nhữngnội dung cơ bản và phổ biến nhất Các phương pháp phát hiện luật nhằm tìm ra sự phụthuộc giữa các tính chất của các đối tượng hay các thuộc tính trong cơ sở dữ liệu

Qua môn học công nghệ tri thức và ứng dụng, người viết đã được tìm hiểu về thuậttoán Apriori tìm luật kết hợp dựa theo ngưỡng minsup và minconf, trong đó có thế ứngdụng vào các bài toán khảo sát các thị trường tiêu dùng về các mặt hàng trên hệ thống siêuthị, nhà sách,… Vì thế, người viết muốn đưa thuật toán Apriori vào việc tìm ra các luật kếthợp theo một số mẫu dữ liệu thu thập được

Nhân đây, xin gửi lời cảm ơn chân thành đến GS.TSKH Hoàng Văn Kiếm trường

Đại học Công Nghệ Thông Tin đã tận tình giảng dạy, hướng dẫn để người viết hiểu thêm

và hoàn thành tiểu luận này

Trang 3

NHẬN XÉT CỦA GIẢNG VIÊN

Trang 4

MỤC LỤC

LỜI NÓI ĐẦU 1

NHẬN XÉT CỦA GIẢNG VIÊN 2

MỤC LỤC 3

Phần 1 CƠ SỞ LÝ THUYẾT KHAI PHÁ DỮ LIỆU 5

1.1 Khai phá dữ liệu 5

1.1.1 Tổng quan về khai phá dữ liệu 5

1.1.2 Nhiệm vụ của khai phá dữ liệu 6

1.1.2.1 Phân cụm, phân loại, phân nhóm, phân lớp 6

1.1.2.2 Khai phá luật kết hợp 6

1.1.2.3 Lập mô hình dự báo 6

1.1.2.4 Phân tích sự tiến hoá 6

1.1.2.5 Hồi quy 7

1.1.2.6 Phân nhóm 7

1.1.2.7 Mô hình phụ thuộc 7

1.1.2.8 Dò tìm biến đổi và phát hiện độ lệch 7

1.1.3 Các dạng dữ liệu có thể khai phá 7

1.1.4 Quá trình khai phá dữ liệu 8

1.1.5 Các thành phần khai phá dữ liệu 9

1.1.6 Một số phương pháp khai phá 10

1.1.6.1 Phương pháp quy nạp 10

1.1.6.2 Cây quyết định 10

1.1.6.3 Luật kết hợp 10

1.1.6.4 Phân lớp, phân loại dữ liệu 12

1.1.6.5 Phương pháp dựa trên mẫu 12

1.1.6.6 Mô hình phụ thuộc dựa trên đồ thị xác suất 13

1.1.6.7 Khái quát dữ liệu 13

Trang 5

1.1.6.8 Khai thác dữ liệu dựa trên văn bản 13

1.1.6.9 Mạng neural 13

1.1.6.10 Giải thuật di truyền 14

Phần 2 LUẬT KẾT HỢP VÀ THUẬT TOÁN APRIORI 16

2.1 Khái niệm về luật và luật kết hợp 16

2.1.1 Hệ luật dẫn 16

2.1.2 Định nghĩa luật kết hợp 16

2.2 Một số tính chất của tập mục phổ biến và luật kết hợp 18

2.2.1 Một số tính chất với tập mục phổ biến 18

2.2.2 Một số tính chất với luật kết hợp 19

2.3 Thuật toán Apriori 20

2.3.1 Giới thiệu 20

2.3.2 Nguyên tắc 20

2.3.3 Mô tả thuật toán 21

2.3.4 Mã giả 21

2.3.5 Ví dụ minh họa 22

2.3.5.1 Ví dụ 1 22

2.3.5.2 Ví dụ 1 24

Phần 3 CHƯƠNG TRÌNH DEMO 26

3.1 Giao diện chương trình 26

3.2 Sử dụng chương trình 26

3.3 Xây dựng lớp Apriori 26

3.4 Xây dựng LargeItemSet 27

KẾT LUẬN 29

TÀI LIỆU THAM KHẢO 30

Trang 6

Phần 1 CƠ SỞ LÝ THUYẾT KHAI PHÁ DỮ LIỆU

1.1 Khai phá dữ liệu

1.1.1 Tổng quan về khai phá dữ liệu

Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông tin

có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu (CSDL),kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuậtngữ khác có ý nghĩa tương tự như: khai phá tri thức từ CSDL (knowledge mining fromdatabases), trích lọc dữ liệu (knowledge extraction), phân tích dữ liệu/mẫu (data/patternanalysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging) Nhiều ngườicoi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong CSDL(Knowledge Discovery in Databases – KDD) là như nhau Tuy nhiên, trên thực tế, khaiphá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri thức trong CSDL

Sau đây là một số quan niệm về khai phá dữ liệu (KPDL):

 KPDL là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ kho

dữ liệu khổng lồ

 KPDL được định nghĩa như một quá trình phát hiện mẫu trong dữ liệu Quátrình này có thể là tự động hay bán tự động, song phần nhiều là bán tự động.Các mẫu được phát hiện thường hữu ích theo nghĩa: các mẫu mang lại chongười sử dụng một lợi thế nào đó, thường là lợi thế về kinh tế

 KPDL giống như quá trình tìm ra và mô tả mẫu dữ liệu Dữ liệu như là mộttập hợp của các vật hay sự kiện, còn đầu ra của quá trình KPDL như là những

dự báo của các vật hay sự kiện mới

 KPDL được áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch, cơ sở dữ liệukhông gian, cũng như các kho dữ liệu phi cấu trúc, mà điển hình là WorldWide Web

Trang 7

1.1.2 Nhiệm vụ của khai phá dữ liệu

Trong mọi hoạt động sản xuất, kinh doanh thì yếu tố thành công luôn đặt lên hàngđầu Giờ đây KPDL đã và đang trở thành một trong những hướng nghiên cứu chính củalĩnh vực khoa học máy tính và công nghệ tri thức Do đó có thể coi mục đích chính củaquá trình KPDL là một mô tả và dự đoán mà các mẫu KPDL phát hiện đều được nhằm vàomục đích này.Để đạt được mục tiêu chính trên, nhiệm vụ cơ bản nhất của KPDL là:

1.1.2.1 Phân cụm, phân loại, phân nhóm, phân lớp

Nhiệm vụ là trả lời câu hỏi là một dữ liệu mới thu thập được sẽ thuộc về nhóm

nào? Quá trình này thường được thực hiện một cách tự động

1.1.2.2 Khai phá luật kết hợp

Nhiệm vụ là phát hiện những mối quan hệ giống nhau về cấu trúc của các bản ghigiao dịch Luật kết hợp X=>Y có dạng tổng quát là : Nếu một giao dịch đã sở hữu các tínhchất X, thì đồng thời nó cũng sở hữu các tính chất Y, ở một mức độ nào đó Khai phá luậtkết hợp được hiểu theo nghĩa: biết trước các tính chất X, thì sẽ biết được các tính chất Y lànhững tính chất nào?

1.1.2.3 Lập mô hình dự báo

Bao gồm 2 nhiệm vụ hoặc là phân nhóm dữ liệu vào một hay nhiều lớp dữ liệu đãxác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở dữ liệu để dự báo sựxuất hiện (hoặc không xuất hiện) của các trường khác

1.1.2.4 Phân tích sự tiến hoá

Phân tích sự tiến hoá thực hiện việc mô tả và mô hình hoá các qui luật hay khuynh hướngcủa những đối tượng mà ứng xử của chúng thay đổi theo thời gian Phân tích sự tiến hoá

có thể bao gồm cả đặc trưng hoá, phân biệt, tìm luật kết hợp, phân lớp hay phân cụm dữliệu liên quan đến thời gian, phân tích dữ liệu theo chuỗi thời gian, sánh mẫu theo chu kì

và phân tích dữ liệu dựa trên tính tương tự

Trang 8

1.1.2.7 Mô hình phụ thuộc

Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến Các mô hình phụthuộc tồn tại dưới hai mức: mức cấu trúc của mô hình xác định các biến nào là phụ thuộccục bộ vào nhau và mức định lượng của một mô hình xác định độ mạnh của sự phụ thuộctheo một thước đo nào đó

1.1.2.8 Dò tìm biến đổi và phát hiện độ lệch

Tập trung vào khai thác những thay đổi đáng kể nhất trong dữ liệu từ các giá trịchuẩn hoặc được đo trước đó

1.1.3 Các dạng dữ liệu có thể khai phá

Do KPDL được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu khác nhau được chấp nhậptrong KPDL Dưới đây là một số kiểu dữ liệu điển hình:

CSDL quan hệ : Là các CSDL tác nghiệp được tổ chức theo mô hình dữ liệu quan hệ

( như Oracle, IBM, DB2, MS SQL, v.v )

CSDL đa chiều : Là kho dữ liệu được tập hợp và chọn lọc từ nhiều nguồn dữ liệu khác

nhau Dạng dữ liệu này có mang tính lịch sử (có thuộc tính thời gian) và chủ yếu phục vụcho quá trình phân tích cũng như là khai phá tri thức nhằm hỗ trợ quá trình ra quyết định

CSDL dạng giao dịch: Là một dạng CSDL tác nghiệp, nhưng các bản ghi thường là các

giao dịch Dạng dữ liệu này phổ biến trong lĩnh vực thương mại và ngân hàng, ví dụ: dữliệu về các giao dịch thanh toán của ngân hàng,v.v

Dữ liệu không gian và thời gian : Là dạng dữ liệu có tích hợp thuộc tính về không gian(ví

dụ: dữ liệu về bản đồ) hoặc thời gian (ví dụ: dữ liệu về thị trường chứng khoán)

Trang 9

CSDL quan hệ-hướng đối tượng : Là dạng CSDL lai giữa hai mô hình quan hệ và hướng

đối tượng

CSDL đa phương tiện : Dữ liệu âm thanh, hình ảnh, phim ảnh, text và web v.v Dạng dữ

liệu này hiện đang khá phổ biến trên Internet do sự ứng dụng rộng rãi của nó

1.1.4 Quá trình khai phá dữ liệu

Quá trình KPDL là công việc khảo sát thăm dò thông tin dữ liệu, trích chọn tri thức,thu thập thông tin, thậm chí là duyệt và tìm kiếm dữ liệu Tuy nhiên, các nhà thống kê thì

có quan điểm cho rằng KPDL là một quá trình phân tích và đánh giá để thăm dò, dự đoán

và ước lượng một lượng các thông tin dữ liệu với mục đích phát hiện ra các mẫu tin thíchhợp hoặc là các mối quan hệ thuộc tính giữa các yếu tố hay các biến cố và cuối cùng là tíchhợp các kết quả thu được bằng cách áp dụng các hệ số mẫu đã xác định cho các phần dữliệu mới phát hiện Từ đó đưa ra các hoạt động liên quan đến kết quả thu được

Quá trình khai phá dữ liệu được thể hiện qua mô hình sau:

Hình 1.1 Quá trình khai phá dữ liệu

Xác định nhiệm vụ : Là việc xác định chính xác và rõ ràng vấn đề cần giải quyết.

Xác định dữ liệu liên quan: Để xây dựng giải pháp

Thu thập và tiền xử lý dữ liệu liên quan: Thành dạng sao cho thuật toán KPDL có

thể hiểu được

Chọn thuật toán KPDL: Cho phù hợp và thực hiện KPDL nhằm tìm được các mẫu

cần quan tâm và biểu diễn chúng dưới dạng có ý nghĩa

Mẫu : Là kết quả của quá trình KPDL, tức là hiểu và sử dụng tri thức đã tìm được

Thu thập và tiền xử lý DL

Thống kê Tóm tắt

Dữ liệu trực tiếp

Giải thuật khai phá DL

Mẫu

Trang 10

1.1.5 Các thành phần khai phá dữ liệu

Từ các mẫu tìm kiếm được, chúng ta dự đoán những giá trị chưa biết hoặc nhữnggiá trị trong tương lai Và tập trung mô tả vào việc tìm kiếm các mẫu mô tả dữ liệu làm saocho con người có thể hiểu được Muốn làm được tốt các công việc đó chúng ta dựa vàomột số công việc sau:

Biểu diễn mô hình: Là việc dùng một ngôn ngữ nào đó để mô tả các mẫu hay mô

hình có thể khai phá được Nếu mô tả quá hạn chế thì sẽ không thể học được hoặc sẽkhông thể có các mẫu tạo ra được mô hình chính xác cho dữ liệu Nhưng nếu mô hình quálớn thì càng làm tăng mức độ nguy hiểm do bị học quá và làm giảm khả năng dự đoán các

dữ liệu chưa biết Như thế sẽ làm cho việc tìm kiếm càng trở nên phức tạp hơn cũng nhưviệc hiểu được mô hình càng khó khăn hơn

Đánh giá mô hình: là việc đánh giá, ước lượng các mô hình chi tiết có thể đáp ứng

được các tiêu chuẩn của quá trình xử lý và phát hiện tri thức, có dự báo chính xác haykhông, có thoả mãn cơ sở logic hay không Việc đánh giá độ chính xác phải dựa trên đánhgiá chéo Đánh giá chất lượng liên quan đến độ chính xác dự đoán, tính mới lạ, tính hữuích, khả năng hiểu được phù hợp với các mô hình Cả hai phương pháp logic và thống kêchuẩn có thể sử dụng trong mô hình kiểm định này

Phương pháp tìm kiếm: gồm hai thành phần: tìm kiếm tham số: thuật toán phải tìm

kiếm các tham số trong phạm vi các tiêu chuẩn đánh giá mô hình để tối ưu hoá, đưa ra các

dữ liệu quan sát được và biểu diễn mô hình đã định, tìm kiếm mô hình: giống như một

vòng lặp qua phương pháp tìm kiếm tham số, miêu tả mô hình bị thay đổi tạo nên một họcác mô hình Với mỗi miêu tả mô hình, phương pháp tìm kiếm tham số được áp dụng đểđánh giá chất lượng mô hình Các phương pháp tìm kiếm mô hình sử dụng thuật tìm kiếmheuristic vì kích thước của không gian các mô hình có thể ngăn cản các tìm kiếm tổng thể

Chọn mẫu dữ liệu: là một giai đoạn rất quan trọng trong kỹ thuật nhận dạng và

KPDL Trong xác suất thống kê nhiều chiều có một phần tương tự như thế, đó là tìm cácthuộc tính hay các chỉ tiêu chính cần phân tích nhận dạng của một vec-tơ hay một bộ giátrị thuộc tính nhiều chiều Sau khi chọn mẫu ta thu được một tập con hay một nhóm dữ

Trang 11

liệu của tập các biến thuộc tính đầu vào sau khi đã loại bỏ đi các thuộc tính ít quan trọng,thuộc tính thừa Từ đó thu thập và kết hợp thành bộ véctơ thuộc tính mẫu.

1.1.6 Một số phương pháp khai phá

1.1.6.1 Phương pháp quy nạp

Có hai kỹ thuật chính để thực hiện công việc này đó là suy diễn và quy nạp Suy

diễn: nhằm rút ra thông tin là kết quả lôgic của các thông tin trong CSDL dựa trên một dãy

các sự kiện chính để suy ra các tri thức mới từ các tri thức đã có Kỹ thuật suy diễn để thu

được mẫu chi tiết thường sử dụng các luật suy diễn Quy nạp: suy ra các thông tin được

sinh ra dựa trên CSDL hoặc các kho dữ liệu đã có Phương pháp quy nạp là tự tìm kiếm,tạo mô hình, mẫu và sinh ra tri thức cấp cao diễn tả các đối tượng trong CSDL, liên quantrực tiếp đến các mẫu tìm được trong CSDL Trong KPDL quy nạp được sử dụng để tạocây quyết định và luật

1.1.6.2 Cây quyết định

Ở đây ta quan tâm đến cây quyết định quy nạp được dùng trong việc “học” tri thứcthông qua phân tích cây Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phâncác đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gắn nhãn là tên cácthuộc tính, các cạnh được gắn các giá trị có thể của các thuộc tính, các lá miêu tả các lớpkhác nhau Các đối tượng được phân theo lớp các đường đi trên cây, qua các cạnh tươngứng với giá trị của thuộc tính

1.1.6.3 Luật kết hợp

Là luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt thống kê

Các luật có dạng: Nếu P thì Q; với P là mệnh đề đúng với một miền dữ liệu nào đó trong

kho dữ liệu và Q là mệnh đề sẽ dự đoán Phương pháp này nhằm phát hiện ra các luật kếthợp giữa các thành phần trong CSDL Mẫu đầu ra của thuật toán KPDL là tập luật kết hợptìm được

Cho một lược đồ R={A1,A2, ,Ap } với các thuộc tính có miền giá trị {0,1} và mộtquan hệ r trên R Một luật kết hợp trên quan hệ r được mô tả như sau: X=>B với X  R và

B  R\X Cho W  R, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng tỷ lệ

Trang 12

giữa các hàng trong r có giá trị 1 tại mỗi cột Khi đó tần số xuất hiện và độ tin cậy của luật

X =>B trong r được định nghĩa như sau:

Tần số xuất hiện  =s(X  {B},r)

Độ tin cậy  =s(X  {B},r)\s(X,r)

Với X gồm nhiều thuộc tính và B là giá trị không cố định

Nhiệm vụ của việc phát triển các luật kết hợp là phải tìm được tất cả các luật X=>Bsao cho tần số xuất hiện của nhỏ hơn ngưỡng  cho trước và độ tin cậy của luật không nhỏhơn ngưỡng  cho trước

Khi thiết kế dữ liệu dùng cho kỹ thuật luật kết hợp cần phải lưu ý để giảm thiểu sốlượng các thuộc tính đầu vào bởi không gian tìm kiếm các luật sẽ tăng theo hàm mũ của sốlượng các thuộc tính đầu vào

Thuật toán tìm các luật kết hợp được bắt đầu bằng việc tìm tất cả các tập thườngxuyên xuất hiện Tập thường xuyên xuất hiện là các tập thoả mãn tần số xuất hiện lớn hơnngưỡng tần số được xác định trước Các luật kết hợp sẽ được tạo ra bằng cách ghép dầncác tập thuộc tính dựa trên mức độ thường xuyên

Một vấn đề quan tâm phải đề cập đến là độ đo của luật: đó là độ hỗ trợ và độ tincậy Chúng phản ánh sự hữu ích và sự chắc chắn của luật đã khai phá Đặc biệt các luật kếthợp được coi là đáng quan tâm nếu chúng thỏa mãn cả hai ngưỡng độ hỗ trợ cực tiểu và độtin cậy cực tiểu Những ngưỡng này thường do người dùng hoặc do các chuyên gia xácđịnh

Ví dụ: phân tích một CSDL kinh doanh bán hàng của công ty máy tính về chiếnlược kinh doanh và bán máy vi tính,máy in trong tương lai:

“Máy vi tính=>máy in ”{Độ hỗ trợ 20%, độ tin cậy 80%}

Với ví dụ này, có thể hiểu độ hỗ trợ 20% có nghĩa là 20% của tất cả các tác vụ đãphân tích chỉ ra rằng người mua máy vi tính và mua máy in có tỷ lệ đã được mua là cùngnhau Còn độ tin cậy 80% có nghĩa là 80% người mua máy vi tính bao giờ cũng có tỷ lệlớn mua máy in

Trang 13

Nhược điểm của phương pháp này là sự gia tăng nhanh chóng khối lượng tính toán

và các thông số Tuy nhiên với sự phát triển nhanh chóng và mạnh mẽ của phần cứng thìcác vấn đề này cũng được khắc phục

1.1.6.4 Phân lớp, phân loại dữ liệu

Cho phép ta sắp xếp các thực thể với một số thuộc tính giống nhau vào một lớpchung Công việc này giống việc phân loại nhưng có điểm khác biệt là chưa có sự địnhnghĩa các lớp từ trước Các phương pháp này rất có ích trong giai đoạn đầu của quá trìnhnghiên cứu khi ta biết rất ít về đối tượng cần nghiên cứu, nó là tiền đề để tiến hành cácphương pháp khác về KDD

Nhiệm vụ của phân lớp là tìm ra được một hàm để ghép một đối tượng dữ liệu vàomột lớp trong một số lớp nào đó Ta thấy rằng rất khó để tách lớp một cách hoàn toàn bằngmột đường biên rạch ròi có dạng đường thẳng Ngân hàng rất muốn sử dụng các miền đãđược phân lớp để có thể đi đến quyết định một cách tự động về việc liệu có tiếp tục chokhách tiếp tục vay nữa hay không

Có nhiều phương pháp phân lớp, phương pháp nổi tiếng nhất là phương pháp K lâncận Giả sử muốn chia các đối tượng ban đầu thành K lớp Lựa chọn K trung tâm ngẫunhiên bất kỳ trong không gian các đối tượng Sau đó tiến hành:

- Chia các dữ liệu thành K nhóm gần nhất với một trong các trung tâm Khoảngcách giữa các điểm với các trung tâm sẽ xác định chúng có thuộc K hay không

- Xác định lại các trung tâm mới bằng cách tính lại giá trị trung bình của các biếnphụ thuộc, tất nhiên các trung tâm mới sẽ khác trung tâm cũ Phương pháp K lân cận sẽlàm việc tốt nếu bản chất của dữ liệu là có thể phân loại Tuy nhiên nó khó áp dụng vớimột số tình huống phức tạp, ví dụ như: Phân bố hai hình xoắn ngược chiều nhau

1.1.6.5 Phương pháp dựa trên mẫu

Là việc sử dụng các mẫu miêu tả từ cơ sở dữ liệu tạo nên một mô hình dự đoán cácmẫu mới bằng cách rút ra các thuộc tính tương tự như các mẫu đã biết trong mô hình Các

kỹ thuật bao gồm phân lớp theo láng giềng lân cận, các giải thuật hồi quy (Dasarathy

Trang 14

1991) và các hệ thống suy diễn dựa trên tình huống (case - based reasoning) (Kolodner1993).

1.1.6.6 Mô hình phụ thuộc dựa trên đồ thị xác suất

Các mô hình xác định sự phụ thuộc xác suất giữa các sự kiện thông qua các liên hệtrực tiếp theo các cung đồ thị (Peal 1988: Whittaker 1990) Ở dạng đơn giản nhất, môhình này xác định những biến nào phụ thuộc trực tiếp vào nhau Những mô hình này chủyếu được sử dụng với các biến có giá trị rời rạc hoặc phân loại

1.1.6.7 Khái quát dữ liệu

Khái quát dữ liệu bao gồm một số phương pháp nhằm tìm ra một mô tả tóm tắt chomột tập con của dữ liệu Một ví dụ đơn giản là tạo ra bảng giá trị trung bình và độ lệchchuẩn cho tất cả các trường Các phương pháp phức tạp hơn được hình thành từ việc rútcác luật tóm tắt, các kỹ thuật suy diễn đa dạng và phát hiện các phụ thuộc hàm giữa cácbiến

1.1.6.8 Khai thác dữ liệu dựa trên văn bản

Phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn bản không địnhdạng Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập tình báo Khai phá dữliệu dạng văn bản đã được sử dụng để phân tích câu trả lời cho các câu hỏi mở trong khảosát thị trường, tìm kiếm các tài liệu phức tạp

1.1.6.9 Mạng neural

Là một kỹ thuật phát triển dựa trên cấu trúc toán học với khả năng học trên mô

hình hệ thần kinh con người

Mạng neural có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác và

có thể được sử dụng để chiết xuất các mẫu và phát hiện xu hướng quá phức tạp mà conngười cũng như các kỹ thuật máy tính khác không thể phát hiện được

Một trong những ưu điểm phải kể đến của mạng neural là khả năng tạo ra các môhình dự đoán do có độ chính xác cao, có thể áp dụng được cho rất nhiều các loại bài toán

Trang 15

khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phânnhóm, mô hình hoá, dự báo

Mẫu chiết xuất bằng mạng neural được thể hiện ở các nút đầu của mạng Mạngneural sử dụng các hàm số chứ không sử dụng các hàm biểu tượng để tính mức tích cựccủa các nút đầu ra và cập nhật các trọng số của nó

Đặc điểm của mạng neural là không cần gia công dữ liệu nhiều trước khi bắt đầuquá trình học như các kỹ thuật khác Tuy nhiên để có thể sử dụng mạng neural có hiệu quảcần phải xác định các yếu tố khi thiết kế mạng như:

- Mô hình mạng là gì?

- Mạng cần có bao nhiêu nút?

- Khi nào thì việc học dừng?

Ngoài ra còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý dữ liệu trướckhi đưa vào mạng neural để mạng có thể hiểu được

Mạng neural được đóng gói với những thông tin trợ giúp của các chuyên gia đángtin cậy và được các chuyên gia đảm bảo các mô hình này làm việc tốt Sau khi học mạngđược coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được học

1.1.6.10Giải thuật di truyền

Đây là phương pháp không chỉ phục vụ KPDL mà còn phục vụ nhiều bài toán

khác, ví dụ như bài toán tối ưu hoặc lập lịch Tư tưởng của thuật toán là áp dụng quy luậtcủa sự chọn lọc tự nhiên Người ta mô phỏng tập hợp dữ liệu ban đầu bằng ký tự nhị phân

và gọi là những quần thể xuất phát, bằng các thao tác lai ghép, đột biến chúng ta biến đổiquần thể gene trong quần thể là không thay đổi Một hàm thích nghi được xây dựng để xácđịnh mức độ thích nghi của quần thể theo các giai đoạn Quá trình tiến hoá làm cho cácquần thể thích nghi ngày càng cao Về mặt lý thuyết giải thuật di truyền cho người ta lờigiải tối ưu toàn cục (khác với phương pháp mạng Neural) Tuy nhiên, người ta cũng hạnchế lời giải với một mức độ thích nghi nào đó để hạn chế số lượng các bước xây dựng cácquần thể

Ngày đăng: 20/05/2015, 08:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] GS.TSKH Hoàng Kiếm, Bài giảng cao học môn học cơ sở tri thức và ứng dụng, ĐHKHTN-TPHCM Sách, tạp chí
Tiêu đề: Bài giảng cao học môn học cơ sở tri thức và ứng dụng
[2] Lê Hoài Bắc, Bài giảng về khám phá tri thức và khai thác dữ liệu – tìm luật kết hợp theo mục đích người dùng, Đại học Quốc gia TP. Hồ Chí Minh, 2002 Sách, tạp chí
Tiêu đề: Bài giảng về khám phá tri thức và khai thác dữ liệu – tìm luật kết hợptheo mục đích người dùng
[3] Đỗ Phúc, Nghiên cứu và phát triển một số thuật giải, mô hình ứng dụng khai thác dữ liệu (data mining). Luận án tiến sĩ toán học, Đại học Quốc gia TP.Hồ Chí Minh, 2002 Sách, tạp chí
Tiêu đề: Nghiên cứu và phát triển một số thuật giải, mô hình ứng dụng khai thác dữliệu (data mining)
[4] D.Phuc, H. Kiem, Discovering the binary and fuzzy association rules from database , In proc of Int’l ConfAfss2000, Tsukuba, Japan, pp 981-986, 2000 Sách, tạp chí
Tiêu đề: Discovering the binary and fuzzy association rules from database
Tác giả: D.Phuc, H. Kiem
Nhà XB: Int’l ConfAfss2000
Năm: 2000
[5]GS.TSKH Hoàng Kiếm, TS. Đỗ Văn Nhơn, Th.sĩ Đỗ Phúc, Giáo trình Các hệ cơ sở tri thức, Đại Học Quốc Gia TPHCM, 2002 Sách, tạp chí
Tiêu đề: Giáo trình Các hệ cơ sở trithức

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Quá trình khai phá dữ liệu - Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG Ứng dụng data mining tìm luật kết hợp theo thuật toán Apriori
Hình 1.1 Quá trình khai phá dữ liệu (Trang 9)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w