1. Trang chủ
  2. » Công Nghệ Thông Tin

công nghệ xử lý dữ liệu

45 198 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 45
Dung lượng 236,22 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ngày nay các lĩnh vực khoa học kỹ thuật đang ngày một phát triển mạnh mẽ. Đặc biệt là ngành khoa học máy tính rất phát triển, nó được ứng dụng rất nhiều trong các lĩnh vực khác nhau của cuộc sống như: Giáo dục, Y tế, Kinh tế, Khoa học, Xây dựng. Ngành khoa học này đã trở thành một phần không thế thiếu được trong cuộc sống hàng ngày của con người.Việc dùng các phương tiện tin học để tổ chức và khai thác các cơ sở dữ liệu đã được phát triển từ những năm 60. Đặc biệt trong những năm gần đây vai trò của máy tính trong việc lưu trữ và xử lý thông tin ngày càng trở nên quan trọng. Bên cạnh đó các thiết bị thu thập dữ liệu tự động tương đối phát triển đã tạo ra những kho dữ liệu khổng lồ. Với sự phát triển mạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông, người ta đã xây dựng các hệ thống thông tin nhằm tự động hoá mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng lên không ngừng vì ngay từ các các giao dịch đơn giản nhất như một cuộc điện thoại, kiểm tra sức khỏe, sử dụng thẻ tín dụng, đều được ghi vào trong máy tính. Cho tới nay con số này đã trở lên khổng lồ, bao gồm các cơ sở dữ liệu, thông tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài khoản vay, sử dụng vốn,…Vấn đề đặt ra là làm thế nào để xử lý khối lượng thông tin cực lớn như vậy để phát hiện ra các tri thức tiềm ẩn trong nó.Để làm được điều đó người ta đã sử dụng quá trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in DatabaseKDD). Nhiệm vụ của KDD là từ dữ liệu sẵn có phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện cũng như tìm ra những xu hướng phát triển và các xu hướng tác động lên chúng. Các kỹ thuật cho phép ta lấy được các tri thức từ cơ sở dữ liệu sẵn có đó được gọi là kỹ thuật khai phá dữ liệu (Data Mining).Từ những lý do đó chúng em đã tìm hiểu về chuyên đề “Tìm hiểu luật kết hợp trong khai phá dữ liệu”. Nhằm phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu thông tin, hoạt động có tính chính quy trong tập dữ liệu mà người sử dụng mong muốn, đồng thời để áp dụng vào bài toán quản lý bán hàng.

Trang 1

MỤC LỤC

DANH MỤC HÌNH iii

LỜI CẢM ƠN iv

PHẦN MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 2

1.1 Khai phá dữ liệu 2

1.1.1 Các quan niệm về khai phá dữ liệu 2

1.1.2 Khám phá tri thức và khai phá dữ liệu 2

1.1.3 Kiến trúc của một hệ thống khai phá dữ liệu 4

1.1.4 Các loại dữ liệu được khai phá 5

1.1.5 Nhiệm vụ của khai phá dữ liệu 5

1.2 Một số phương pháp khai phá dữ liệu thông dụng 7

1.2.1 Phương pháp luật kết hợp 7

1.2.2 Phương pháp cây quyết định 7

1.2.3 Phương pháp k - Mean 7

1.3 Một số ứng dụng của khai phá dữ liệu 8

1.3.1 Phân tích dữ liệu gen và sinh học y học 8

1.3.2 Phân tích dữ liệu tài chính 9

1.3.3 Dịch vụ bán lẻ 9

1.3.4 Công nghiệp viễn thông 10

1.4 Các khuynh hướng và thách thức trong khai phá dữ liệu 10

CHƯƠNG 2 LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 13

2.1 Bài toán dẫn đến việc khai phá dữ liệu 13

2.2 Khai phá luật kết hợp 13

Trang 2

2.2.1 Một số khái niệm cơ bản 13

2.2.2 Cách khai phá luật kết hợp 17

2.2.3 Các tiêu chuẩn để phân loại luật kết hợp 18

2.3 Một số thuật toán phát hiện luật kết hợp 19

2.3.1 Thuật toán AIS 19

2.3.2 Thuật toán SETM 20

2.3.3 Thuật toán Apriori 22

2.3.4 Thuật toán FP - Growth 27

CHƯƠNG 3 CHƯƠNG TRÌNH MINH HỌA LUẬT KẾT HỢP BẰNG THUẬT TOÁN APRIORI 30

3.1 Phát biểu bài toán 30

3.2 Minh họa bài toán 30

PHẦN KẾT LUẬN 33

TÀI LIỆU THAM KHẢO 34

Trang 3

DANH MỤC HÌNH

Hình 1.1 Kiến trúc của hệ thống khai phá dữ liệu 4

Hình 1.2 Mẫu kết quả với phương pháp cây quyết định 7

Hình 1.3 Phân cụm các đối tượng k-Mean 8

Hình 2.1 Các bước thực hiện của thuật toán AprioriTID 26

Hình 2.2 Thời gian xử lý mỗi bước quét của thuật toán Apriori và AprioriTID 27

Hình 3.1 Kết quả chương trình áp dụng thuật toán apriori 32

Trang 4

LỜI CẢM ƠN

Chúng em xin được bày tỏ lòng cảm ơn sâu sắc tới thầy giáoThS Nghiêm Văn Hưng đã tận tình hướng dẫn và giúp đỡ, tạo mọiđiều kiện thuận lợi về tài liệu và phương tiện để chúng em hoànthành chuyên đề này

Chúng em xin chân thành cảm ơn các thầy cô giáo trong khoaCông nghệ thông tin đã giúp đỡ và truyền đạt nhiều kiến thức liênquan đến chuyên đề, và đóng góp nhiều ý kiến quý báu, kịp thời.Chúng em xin chân thành cảm ơn!

TM NHÓM SINH VIÊN

Trần Văn Cường

Trang 5

PHẦN MỞ ĐẦU

Ngày nay các lĩnh vực khoa học kỹ thuật đang ngày một pháttriển mạnh mẽ Đặc biệt là ngành khoa học máy tính rất pháttriển, nó được ứng dụng rất nhiều trong các lĩnh vực khác nhau củacuộc sống như: Giáo dục, Y tế, Kinh tế, Khoa học, Xây dựng Ngànhkhoa học này đã trở thành một phần không thế thiếu được trongcuộc sống hàng ngày của con người.Việc dùng các phương tiện tinhọc để tổ chức và khai thác các cơ sở dữ liệu đã được phát triển từnhững năm 60 Đặc biệt trong những năm gần đây vai trò của máytính trong việc lưu trữ và xử lý thông tin ngày càng trở nên quantrọng Bên cạnh đó các thiết bị thu thập dữ liệu tự động tương đốiphát triển đã tạo ra những kho dữ liệu khổng lồ Với sự phát triểnmạnh mẽ của công nghệ điện tử tạo ra các bộ nhớ có dung lượnglớn, bộ xử lý tốc độ cao cùng với các hệ thống mạng viễn thông,người ta đã xây dựng các hệ thống thông tin nhằm tự động hoámọi hoạt động kinh doanh của mình Điều này đã tạo ra một dòng

dữ liệu tăng lên không ngừng vì ngay từ các các giao dịch đơn giảnnhất như một cuộc điện thoại, kiểm tra sức khỏe, sử dụng thẻ tíndụng, đều được ghi vào trong máy tính Cho tới nay con số này đãtrở lên khổng lồ, bao gồm các cơ sở dữ liệu, thông tin khách hàng,

dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tàikhoản vay, sử dụng vốn,…Vấn đề đặt ra là làm thế nào để xử lýkhối lượng thông tin cực lớn như vậy để phát hiện ra các tri thứctiềm ẩn trong nó

Để làm được điều đó người ta đã sử dụng quá trình phát hiệntri thức trong cơ sở dữ liệu (Knowledge Discovery in Database-KDD) Nhiệm vụ của KDD là từ dữ liệu sẵn có phải tìm ra nhữngthông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện cũngnhư tìm ra những xu hướng phát triển và các xu hướng tác độnglên chúng Các kỹ thuật cho phép ta lấy được các tri thức từ cơ sở

Trang 6

dữ liệu sẵn có đó được gọi là kỹ thuật khai phá dữ liệu (DataMining).

Từ những lý do đó chúng em đã tìm hiểu về chuyên đề “Tìm

hiểu luật kết hợp trong khai phá dữ liệu” Nhằm phân tích các

dữ liệu và sử dụng các kỹ thuật để tìm ra những mẫu thông tin,hoạt động có tính chính quy trong tập dữ liệu mà người sử dụngmong muốn, đồng thời để áp dụng vào bài toán quản lý bán hàng

Trang 7

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 Khai phá dữ liệu

1.1.1 Các quan niệm về khai phá dữ liệu

Khai phá dữ liệu là tập hợp các thuật toán nhằm chiết xuấtnhững thông tin có ích từ kho dữ liệu khổng lồ

Khai phá dữ liệu được định nghĩa như một quá trình phát hiệnmẫu trong dữ liệu Quá trình này có thể là tự động hay bán tựđộng, song phần nhiều là bán tự động Các mẫu được phát hiệnthường hữu ích theo nghĩa: các mẫu mang lại cho người sử dụngmột lợi thế nào đó, thường là lợi thế về kinh tế

Khai phá dữ liệu giống như quá trình tìm ra và mô tả mẫu dữliệu Dữ liệu như là một tập hợp của các vật hay sự kiện, còn đầu

ra của quá trình khai phá dữ liệu như là những dự báo của các vậthay sự kiện mới

Khai phá dữ liệu được áp dụng trong các cơ sở dữ liệu quan

hệ, giao dịch, cơ sở dữ liệu không gian, cũng như các kho dữ liệuphi cấu trúc, mà điển hình là World Wide Web

Khám phá tri thức là quá trình nhận biết các mẫu hoặc các môhình trong dữ liệu với các tính chất: Đúng đắn, mới, khả ích và cóthể hiểu được Khai phá dữ liệu là một bước trong quá trình khámphá tri thức bao gồm các thuật toán khai phá dữ liệu chuyên dùngdưới một số quy định về hiệu quả tính toán chấp nhận được để tìm

ra các mẫu và các mô hình trong dữ liệu

1.1.2 Khám phá tri thức và khai phá dữ liệu

Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưutrữ dữ liệu ngày càng phát triển tạo điều kiện cho các đơn vị thuthập dữ liệu tốt hơn Đặc biệt trong lĩnh vực kinh doanh, các doanhnghiệp đã nhận thức được tầm quan trọng của việc nắm bắt và xử

Trang 8

các chiến lược kinh doanh kịp thời mang lại những lợi nhuận to lớncho doanh nghiệp của mình Tất cả lí do đó khiến cho các cơ quan,đơn vị và doanh nghiệp đã tạo ra một lượng dữ liệu khổng lồ cỡGigabyte thậm chí là Terabyte cho riêng mình.

Khi lưu trữ các dữ liệu khổng lồ như vậy thì chúng ta thấy rằngchắc chắn chúng phải chứa những giá trị nhất định nào đó Tuynhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệunày (khoảng từ 5% đến 10%) là luôn được phân tích, số còn lại họkhông biết sẽ phải làm gì hoặc có thể làm gì với chúng nhưng họvẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợ rằng sẽ có cái gì

đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác,trong môi trường cạnh tranh, người ta ngày càng cần có nhiềuthông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngàycàng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựatrên một khối lượng dữ liệu khổng lồ đã có Với những lý do nhưvậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyềnthống ngày càng không đáp ứng được thực tế đã làm phát triểnmột khuynh hướng kỹ thuật mới đó là Kỹ thuật phát hiện tri thức

và khai phá dữ liệu (KDD - Knowledge Discovery and Data Mining).Thông thường chúng ta coi dữ liệu như một dãy các bit, hoặccác số và các ký hiệu, hoặc các “đối tượng” với một ý nghĩa nào đókhi được gửi cho một chương trình dưới một dạng nhất định Chúng

ta sử dụng các bit để đo lường các thông tin và xem nó như là các

dữ liệu đã được lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu

để đặc trưng một cách cơ bản cho dữ liệu Chúng ta có thể xem trithức như là các thông tin tích hợp, bao gồm các sự kiện và các mốiquan hệ giữa chúng Các mối quan hệ này có thể được hiểu ra, cóthể được phát hiện, hoặc có thể được học Nói cách khác, tri thức

có thể được coi là dữ liệu có độ trừu tượng và tổ chức cao

Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhậnbiết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp

Trang 9

thức, mới, khả ích, và có thể hiểu được Còn khai thác dữ liệu làmột bước trong qui trình phát hiện tri thức gồm có các thuật toánkhai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quảtính toán chấp nhận được để tìm ra các mẫu hoặc các mô hìnhtrong dữ liệu Nói một cách khác, mục đích của phát hiện tri thức

và khai phá dữ liệu chính là tìm ra các mẫu và/hoặc các mô hìnhđang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuấtbởi hàng “núi” dữ liệu

Nhiều người coi khai phá dữ liệu và khám phá tri thức trong cơ

sở dữ liệu là như nhau Tuy nhiên trên thực tế, khai phá dữ liệu chỉ

là một bước thiết yếu trong quá trình phát hiện tri thức trong cơ sở

dữ liệu

Như vậy, mục đích của khám phá tri thức và khai phá dữ liệu

là tìm ra các mẫu hoặc mô hình đang tồn tại trong các cơ sở dữliệu nhưng vẫn còn bị khuất bởi số lượng dữ liệu khổng lồ

1.1.3 Kiến trúc của một hệ thống khai phá dữ liệu

Như đã trình bày ở trên, khai phá dữ liệu là một giai đoạntrong quá trình phát hiện tri thức từ số lượng lớn dữ liệu lưu trữtrong các cơ sở dữ liệu, kho dữ liệu hoặc các nơi lưu trữ khác Bướcnày có thể tương tác lẫn nhau giữa người sử dụng hoặc cơ sở trithức, những mẫu đáng quan tâm được đưa cho người dùng hoặclưu trữ như là tri thức mới trong cơ sở tri thức

Trang 10

Hình 1.1.3.a.1 Kiến trúc của hệ thống khai phá dữ liệu

Kiến trúc của hệ thống khai phá dữ liệu có các thành phần nhưsau:

- Cơ sở dữ liệu, kho dữ liệu: Đó là một hoặc tuyển tập các cơ

sở dữ liệu, kho dữ liệu Các kỹ thuật làm sạch dữ liệu, tích hợp, lọc

dữ liệu có thể thực hiện trên dữ liệu

- Cơ sở dữ liệu hoặc kho dữ liệu phục vụ: Là kết quả lấy dữ liệu

có liên quan trên cơ sở khai phá dữ liệu của người dùng

- Cơ sở tri thức: Đó là lĩnh vực tri thức được sử dụng để hướngdẫn việc tìm hoặc đánh giá các mẫu kết quả thu được

- Mô tả khai phá dữ liệu: Bao gồm tập các modul chức năng đểthực hiện các nhiệm vụ mô tả đặc điển, kết hợp, phân lớp, phâncụm dữ liệu…

- Đánh giá mẫu: Thành phần này sử dụng các độ đo và tươngtác với modul khai phá dữ liệu để tập trung vào tìm các mẫu quantâm

Trang 11

- Giao diện người dùng: Đây là modul giữa người dùng và hệthống khai phá dữ liệu Cho phép người dùng tương tác với hệthống trên cơ sở những truy vấn hay tác vụ, cung cấp thông tincho việc tìm kiếm.

1.1.4 Các loại dữ liệu được khai phá

Do Data mining được ứng dụng rộng rãi nên có thể làm việcvới rất nhiều kiểu dữ liệu khác nhau Sau đây là một số dang dữliệu điển hình: CSDL quan hệ, CSDL đa chiều (multidimentionalstructures, data warehouse), CSDL dạng giao dịch, CSDL quan hệhướng đối tượng, dữ liệu không gian và thời gian, dữ liệu chuổi thờigian, CSDL đa phương tiện, dữ liệu text và web…

1.1.5 Nhiệm vụ của khai phá dữ liệu

Các bài toán liên quan đến khai phá dữ liệu về bản chất là cácbài toán thống kê Điểm khác biệt giữa các kỹ thuật khai phá dữliệu và các công cụ phục vụ tính toán thống kê mà chúng ta đãbiết là ở khối lượng cần tính toán Một khi dữ liệu đã trở nên khổng

lồ thì những khâu như: thu thập dữ liệu, tiền xử lý và xử lý dữ liệuđều đòi hỏi phải được tự động hóa Tuy nhiên ở công đoạn cuốicùng, việc phân tích kết quả sau khi đã khai phá dữ liệu vẫn luôn

là công việc của con người

Do là một lĩnh vực đa ngành, khai phá dữ liệu thu hút các lĩnhvực khoa học khác như trí tuệ nhân tạo, cơ sở dữ liệu, hiển thị dữliệu, marketing, toán học, vận trù học, tin sinh học, nhận dạngmẫu, tính toán thống kê …

Điều mà khai phá dữ liệu có thể làm rất tốt là phát hiện ranhững giả thuyết mạnh trước khi sử dụng những công cụ tính toánthống kê Mô hình dự báo sử dụng kỹ thuật phân cụm (Crustering)

để chia nhóm các sự vật, sự kiện sau đó rút ra các luật nhằm tìm

ra đặc trưng cho mỗi nhóm và cuối cùng đề nghị một mô hình Ví

dụ, những bạn đọc đăng ký dài hạn của một tạp chí có thể phân

Trang 12

nhóm dựa theo nhiều tiêu chí khác nhau (lứa tuổi, giới tính, thunhập…), sau đó tạp chí căn cứ vào đặc trưng riêng của từng nhóm

để đề ra mức phí thu trong năm sao cho phù hợp nhất

Chúng ta thấy, những nhiệm vụ cơ bản nhất của khai phá dữliệu là:

Phân cụm, phân loại, phân nhóm, phân lớp Nhiệm vụ là trả lờicâu hỏi: Một dữ liệu mới thu thập sẽ thuộc về nhóm nào? Quá trìnhnày thường được thực hiện một cách tự động

Khai phá luật kết hợp Nhiệm vụ là phát hiện ra những mốiquan hệ giống nhâu của các bản ghi giao dịch Luật kết hợp X =>

Y có dạng tổng quát là: Nếu một giao dịch đã sở hữu các tính chất

X thì đồng thời nó cũng sở hữu các tính chất Y, ở một mức độ nào

đó Khai phá luật kết hợp được hiểu theo nghĩa: Biết trước các tínhchât X, vậy các tính chất Y là những tính chất nào?

Lập mô hình dự báo, bao gồm hai nhiệm vụ: Hoặc là phânnhóm dư liệu vào một hay nhiều lớp dữ liệu đã xác định từ trước,hoặc là sử dụng các trường đã cho trong một cơ sở dữ liệu để dựbáo sự xuất hiện (hoặc không xuất hiện) của các trường hợp khác.Phân tích đối tượng ngoài cuộc: Một cơ sở dữ liệu có thể có thểchứa các đối tượng không tuân theo mô hình dữ liệu Các đối tượng

dữ liệu như vậy gọi là các đối tượng ngoài cuộc Hầu hết cácphương pháp khai phá dữ liệu đều coi các đối tượng ngoài cuộc lànhiễu và loại bỏ chúng Tuy nhiên trong một số ứng dụng, chẳnghạn như phát hiện nhiễu thì sự kiện hiếm khi sảy ra lại được chú ýhơn những gì thường xuyên gặp phải Sự phân tích dữ liệu ngoàicuộc được coi như là phai phá các đối tượng ngoài cuộc Một sốphương pháp được ứng dụng để phát hiện đối tượng ngoài cuộc:

Sử dụng các hình thức kiểm tra mang tính thống kê trên cơ sở mộtphân phối dữ liệu hay một mô hình xác suất cho dữ liệu, dùng các

độ đo khoảng cách mà theo đó các đối tượng có một khoảng cáchđáng kể đến cụm bất kỳ khác được coi là đối tượng ngoài cuộc,

Trang 13

dùng các phương pháp dựa trên độ lệch để kiểm tra sự khác nhautrong những đặc trưng chính của các nhóm đối tượng.

Phân tích sự tiến hóa: Phân tích sự tiến hóa thực hiện việc mô

tả và mô hình hóa các quy luật hay khuynh hướng của những đốitượng mà ứng xử của chúng thay đổi theo thời gian Phân tích sựtiến hóa có thể bao gồm cả đặc trưng hóa, phân biệt, tìm luật kếthợp, phân lớp hay phân cụm dữ liệu liên quan đến thời gian, phântích dữ liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ vàphân tích dữ liệu dựa trên tính tương tự

1.2 Một số phương pháp khai phá dữ liệu thông dụng

1.2.1 Phương pháp luật kết hợp

Một trong những chủ đề phổ biến của khai phá dữ liệu là khaiphá luật kết hợp Mục đích của khám phá luật kết hợp là xác địnhmối quan hệ, sự kết hợp giữa các item trong một CSDL lớn Luậtkết hợp là một luật dạng X => Y, với X, Y là tập các item Mộtluật kết hợp được gọi là mạnh, nếu nó thoả độ hỗ trợ và thoả độ tincậy tối thiểu

Có nhiều thuật toán để khai phá luật kết hợp theo từng loạiluật Một trong những thuật toán thường gặp nhất là thuật toánApriori Chúng tôi sẽ trình bày chi tiết các thuật toán AIS, SETM,Apriori, FP - growth, … trong các chương sau

1.2.2 Phương pháp cây quyết định

Cây quyết định là một mô tả tri thức dạng đơn giản nhằmphân các đối tượng dữ liệu thành một số lớp nhất định

Các nút của cây được gán nhãn là tên các thuộc tính, các cạnhđược gán các giá trị có thể của các thuộc tính, các lá mô tả các lớpkhác nhau Các đối tượng được phân lớp theo các đường đi trêncây, qua các cạnh tương ứng với các giá trị của thuộc tính của đốitượng tới lá Hình 1.2 mô tả một mẫu đầu ra có thể của quá trình

Trang 14

khai phá dữ liệu dùng phương pháp cây quyết định với tập dữ liệukhách hàng xin vay vốn.

Hình 1.2.2.a.1 Mẫu kết quả với phương pháp cây quyết

định 1.2.3 Phương pháp k - Mean

Phân cụm cũng là một trong những chủ đề được quan tâmnhiều trong nghiên cứu khai phá dữ liệu Có nhiều phương phápđược sử dụng trong phân cụm, phương pháp k-Mean được coi làcác kỹ thuật cơ bản của phân cụm

Với phương pháp này sẽ chia tập có n đối tượng thành k cụmsao cho các đối tượng trong cùng một cụm thì giống nhau, các đốitượng khác cụm thì khác nhau

Đầu tiên chọn k đối tượng ngẫu nhiên, mỗi đối tượng đại diệncho tâm của cụm (cluster mean or center) Dựa vào khoảng cáchgiữa tâm cụm với mỗi đối tượng còn lại, gán mỗi đối tượng vào mộtcụm mà nó giống nhau nhất Sau đó, tính tâm mới của mỗi cụm.Quá trình được lặp lại cho đến khi hàm tiêu chuẩn hội tụ (criterionfunction converges) Chẳng hạn sử dụng hàm tiêu chuẩn: , với p làmột điểm đại diện một đối tượng cho trước và mi là tâm của cụm

Ví dụ: Phân cụm các đối tượng trong không gian thành 3 cụm(k=3)

Trang 15

Hình 1.2.3.a.1 Phân cụm các đối tượng k-Mean

Với đối tượng được đánh dấu cộng (+) là tâm cụm

1.3 Một số ứng dụng của khai phá dữ liệu

1.3.1 Phân tích dữ liệu gen và sinh học y học

Khai phá dữ liệu đã trở thành một công cụ mạnh và đóng gópthiết thực vào việc phân tích gen theo các cách sau:

Nghiên cứu tương tự và so sánh các chuỗi gen: Một trongnhững nghiên cứu quan trọng trong phân tích gen là nghiên cứutương tự và so sánh các chuỗi gen Các chuỗi gen được cô lập từcác mô bệnh và khoẻ có thể được so sánh với nhau để nhận dạngnhững khác biệt giữa hai lớp gen

Phân tích kết hợp: Nhận dạng các chuỗi gen cùng xảy ra, phântích kết hợp có thể được sử dụng giúp chúng ta xác định các loạigen thường kết hợp với nhau để gây nên bệnh

Phân tích hướng đi: Liên kết các gen ở các giai đoạn khácnhau của quá trình phát triển bệnh, nếu một chuỗi hoạt động củacác gen ở những giai đoạn khác nhau của bệnh được xác định, thì

có thể giúp chúng ta chế tạo ra các dược phẩm can thiệp vào từnggiai đoạn của bệnh Do đó, có thể đạt được cách điều trị bệnh hiệuquả

Trang 16

1.3.2 Phân tích dữ liệu tài chính

Dữ liệu tài chính nhận được tương đối hoàn chỉnh, đáng tin cậy

và chất lượng cao làm thuận lợi cho việc phân tích dữ liệu, khaiphá dữ liệu một cách hệ thống Các ứng dụng của khai phá dữ liệuvào lĩnh vực tài chính là:

Dự đoán trả tiền vay và phân tích chính sách tín dụng khách

hàng: Dự đoán trả tiền vay và phân tích chính sách tín dụng khách

hàng là vấn đề quan trọng đối với việc kinh doanh của ngân hàng

Có nhiều yếu tố (chẳng hạn: tỉ lệ trả trên thu nhập, mức thu nhập,mức học vấn, vùng dân cư, lịch sử tín dụng,…) có thể ảnh hưởngmạnh hoặc yếu đến việc thực hiện trả tiền vay và sự đánh giá mức

độ tín nhiệm khách hàng Các phương pháp khai phá dữ liệu nhưlựa chọn đặc trưng, xếp hạng các thuộc tính liên quan có thể giúpxác định các yếu tố quan trọng và loại bỏ những yếu tố không liênquan Do đó, ngân hàng có thể điều chỉnh chính sách cho vay đốivới những khách hàng mà trước đây ngân hàng đã từ chối nhưngnay tỉ mạo hiểm đối với họ là thấp dựa vào các phân tích trên

Phát hiện các tội phạm tài chính: Để phát hiện việc chuyểntiền bất chính vào ngân hàng và các tội phạm tài chính, việc tíchhợp thông tin từ các CSDL khác nhau (CSDL giao dịch ngân hàng,CSDL về lịch sử tội phạm) là rất quan trọng Sau khi có dữ liệu tổnghợp, chúng ta có thể dựa trên các công cụ của khai phá dữ liệu đểphát hiện ra các mẫu khác thường

1.3.3 Dịch vụ bán lẻ

Dịch vụ bán lẻ là một trong những lĩnh vực ứng dụng của khaiphá dữ liệu Một lượng dữ liệu khổng lồ đã và đang được thu thậpngày càng tăng, đặc biệt với sự gia tăng về sự tiện lợi, lợi ích vàtính phổ biến của việc kinh doanh trên Web, thương mại điện tử

Dữ liệu bán lẻ cung cấp một kho dữ liệu phong phú cho việc khaiphá dữ liệu

Trang 17

Khai phá dữ liệu bán lẻ có thể giúp chúng ta xác định đượchành vi mua hàng của khách hàng, phát hiện những mẫu muahàng của người dùng, những khuynh hướng mua hàng.

Thiết kế các chiến dịch kinh doanh: Giữ khách hàng - Phân tíchlòng trung thành của khách hàng: Lòng trung thành của kháchhàng và khuynh hướng mua hàng có thể được phân tích một cách

hệ thống

1.3.4 Công nghiệp viễn thông

Công nghiệp viễn thông đã phát triển nhanh từ các dịch vụđiện thoại cục bộ và điện thoại đường dài cho đến các dịch vụtruyền thông khác như voice, fax, image, e-mail, truyền dữ liệuWeb, các giao lộ dữ liệu khác Tích hợp viễn thông, mạng máy tính,internet, các phương tiện truyền thông khác đã và đang được thựchiện Điều này tạo ra một yêu cầu lớn về khai phá dữ liệu để giúphiểu thêm việc kinh doanh, xác định các mẫu viễn thông, chặnđứng các hoạt động lừa dối nhằm tạo điều kiện sử dụng các tàinguyên tốt hơn và nâng cao được chất lượng dịch vụ

Phân tích nhu cầu: Dữ liệu viễn thông là các dữ liệu đa chiềuđích thực, với các chiều như: giờ gọi, thời gian gọi, vị trí ngườigọi, vị trí người được gọi, kiểu cuộc gọi Phân tích đa chiều đốivới các dữ liệu kiểu này có thể giúp xác định nhu cầu và hành vicủa các nhóm người dùng, từng vùng…Từ đó cung cấp cácdịch vụ, thiết bị phù hợp hơn

Phân tích các mẫu gian lận và xác định các mẫu khác thường:Việc xác định những người dùng gian lận tiềm năng và những mẫu

sử dụng không điển hình là rất quan trọng Những mẫu này có thểđược khám phá bởi phân tích đa chiều, phân tích phân cụm, phântích phần tử ngoài cuộc

Trang 18

1.4 Các khuynh hướng và thách thức trong khai phá dữ liệu

Việc phát triển các hệ thống, phương pháp khai phá hiệu quả,kiến trúc môi trường khai phá dữ liệu tích hợp và ứng dụng kỹthuật khai phá dữ liệu vào các bài toán lớn là một nhiệm vụ quantrọng đối với các nhà nghiên cứu, các nhà phát triển ứng dụng Dướiđây là những khuynh hướng trong khai phá dữ liệu phản ánh cácthách thức này

Mở rộng ứng dụng: Trước đây các ứng dụng khai phá dữ liệuchỉ tập trung vào việc giúp đỡ các nhà kinh doanh đạt được vấn đềcạnh tranh Khi khai phá dữ liệu trở thành phổ biến hơn, nó được

sử dụng ngày càng tăng trong các lĩnh vực khác như: Sinh học yhọc, tài chính, viễn thông

Phương pháp khai phá dữ liệu uyển chuyển: Khác với cácphương pháp phân tích dữ liệu truyền thống, khai phá dữ liệu ngàynay phải có thể xử lý một lượng lớn dữ liệu một cách hiệu quả,tương tác Vì lượng lớn dữ liệu đang được thu thập tiếp tục tăngnhanh nên việc thiết kế các thuật toán uyển chuyển cho phép khaiphá dữ liệu được tích hợp và riêng biệt là trở nên rất cần thiết Mộthướng quan trọng cải tiến hiệu quả của quá trình khai phá dữ liệu

có sự tương tác của người dùng là khai phá dựa trên các ràngbuộc Nó cho phép người dùng đưa ra các điều khiển và các ràngbuộc bổ sung để hướng định hướng hệ thống khai phá dữ liệutrong việc phát hiện những mẫu đáng quan tâm

Tích hợp khai phá dữ liệu với các hệ CSDL, các hệ kho dữ liệu,

hệ CSDL Web: Các hệ CSDL, hệ kho dữ liệu, WWW đã trở thành các

hệ xử lý thông tin chủ đạo Việc tích hợp khai phá dữ liệu với cácmôi trường xử lý thông tin là một vấn đề cần thiết Một kiến trúc lýtưởng cho một hệ khai phá dữ liệu là một hệ kết hợp chặt chẽ vớicác hệ kho dữ liệu và CSDL Quản lý giao dịch, xử lý truy vấn, xử lýphân tích trực tuyến, khai phá phân tích trực tuyến nên được tíchhợp vào trong một khung hợp nhất Điều này sẽ đảm bảo tính

Trang 19

tiện ích dữ liệu, linh động, uyển chuyển và thực thi cao của khaiphá dữ liệu.

Khai phá Web: Ngày nay, với một lượng khổng lồ thông tin trênWeb vai trò quan trọng của Web đối với xã hội, việc khai phá nộidung Web sẽ trở thành bài toán quan trọng và đáng quan tâmtrong vấn đề khai phá dữ liệu

An toàn và bảo mật thông tin trong khai phá dữ liệu: Với sựtăng nhanh của việc sử dụng các công cụ khai phá dữ liệu, mạngmáy tính, mạng viễn thông, một vấn đề quan trọng đang đối mặtvới khai phá dữ liệu là an toàn và bảo mật thông tin Cho nên cácphương pháp được phát triển sau này phải đảm bảo được vấn đềnày, mà vẫn tạo điều kiện thuận lợi cho việc truy cập và khai pháthông tin hoàn hảo

Trang 20

CHƯƠNG 2 LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 2.1 Bài toán dẫn đến việc khai phá dữ liệu

Bài toán giở mua hàng trong siêu thi: Giả sử chúng ta có rấtnhiều mặt hàng, ví dụ như “bánh mì, sữa, bơ…” Khách hàng đisiêu thị sẽ bỏ vào giỏ mua hàng của họ một mặt hàng nào đó, vàchúng ta muốn tìm hiểu các khách hàng thường mua những mặthàng nào, thậm chí chúng ta không cần biết khách hàng là ai Nhàquản lý dùng những thông tin này để điều chỉnh việc nhập hàng vềsiêu thị, hay đơn giản là để bố trí sắp xếp các mặt hàng gần nhau,hoặc bán các mặt hàng đó theo một gói hàng, giúp cho khách đỡmất công tìm kiếm

Bài toán này hoàn toàn có thể áp dụng trong các lĩnh vựckhác Ví dụ: Giỏ hàng = Văn bản Mặt hàng = Từ Khi đó, những từhay đi cùng nhau sẽ giúp ta nhanh chóng tìm ra các lối diễn đạt,hay các khái niệm có mặt trong văn bản

Giỏ hàng = Văn bản Mặt hàng = Câu Khi đó, những văn bản

có nhiều câu giống nhau giúp phát hiện ra sự đạo văn, hay những

“website đúp” (mirror website)

Khai phá luật kết hợp được môt tả như sự tương quan của các

sự kiện xuất hiện thường xuyên một các đồng thời Nhiệm vụ chínhcủa khai phá luật kết hợp là phát hiện ra các tập con cùng xuấthiện trong một khối lượng giao dịch lớn của một cơ sở dữ liệu chotrước Nói cách khác, thuật toán khai phá luật kết hợp cho phéptạo ra các luật mô tả các sự kiện xảy ra đồng thời (một cáchthường xuyên) như thế nào Các thuật toán này trải qua 2 pha: phađầu là đi tìm các sự kiện xảy ra thường xuyên, pha hai là tìm luật

Trang 21

2.2 Khai phá luật kết hợp

2.2.1 Một số khái niệm cơ bản

a Luật kết hợp

Cho I = {i1, i2, …im } là tập hợp của m tính chất riêng biệt Giả

sử D là CSDL, với các bản ghi chứa một tập con T các tính chất (cóthể coi như T  I), các bản ghi đều có chỉ số riêng Một luật kết hợp

là một mệnh đề kéo theo có dạng X → Y, trong đó X, Y  I, thỏamãn điều kiện X  Y =  Các tập hợp X và Y được gọi là các tậphợp tính chất (itemset) Tập X gọi là nguyên nhân, tập Y gọi là hệquả [1]

Có 2 độ đo quan trọng đối với luật kết hợp: Độ hỗ trợ (support)

và độ tin cậy (confidence), được định nghĩa như phần dưới đây

b Độ hỗ trợ

* Định nghĩa 1

Độ hỗ trợ của một tập hợp X trong cơ sở dữ liệu D là tỷ số giữacác bản ghi T  D có chứa tập X và tổng số bản ghi trong D (hay làphần trăm của các bản ghi trong D có chứa tập hợp X), ký hiệu làsupport(X) hay supp(X) (support sẽ tự sinh ra khi cài thuật toán)

Ta có: 0 ≤ supp(X) ≤ 1 với mọi tập hợp X

* Định nghĩa 2

Độ hỗ trợ của một luật kết hợp X → Y là tỷ lệ giữa số lượng cácbản ghi chứa tập hợp X  Y, so với tổng số các bản ghi trong D - Kýhiệu supp(X → Y)

Trang 22

Khi chúng ta nói rằng độ hỗ trợ của một luật là 50%, có nghĩa

là coc 50% tổng số bản ghi chứa X  Y Như vậy, độ hỗ trợ mang ýnghĩa thống kê của luật

Trong một số trường hợp, chúng ta chỉ quan tâm đến nhữngluật có độ hỗ trợ cao (Ví dụ như luật kết hợp xét trong cửa hàngtạp phẩm) Nhưng cũng có trường hợp, mặc dù độ hỗ trợ của luậtthấp, ta vẫn cần quan tâm (ví dụ luật kết hợp liên quan đếnnguyên nhân gây ra sự đứt liên lạc ở các tổng đài điện thoại)

c Độ tin cậy [1]

* Định nghĩa 1

Độ tin cậy của một luật kết hợp X → Y là tỷ lệ giữa số lượngcác bản ghi trong D chứa X  Y với số bản ghi trong D có chứa tậphợp X Ký hiệu độ tin cậy của một luật là conf(r) Ta có 0 ≤ conf(r)

Nói rằng độ tin cậy của một luật là 90%, có nghĩa là có tới90% số bản ghi chứa X chứa luôn cả Y Hay nói theo ngôn ngữ xácsuất là: “ Xác suất có điều kiện để sảy ra sự kiện Y đạt 85%” Điềukiện ở đây chính là: “Xảy ra sự kiện X”

Như vậy, độ tin cậy của luật thể hiện sự tương quan(correlation) gữa X và Y Độ tin cậy đo sức nặng của luật, và người

ta hầu như chỉ quan tâm đến những luật có độ tin cậy cao Một

Ngày đăng: 09/06/2018, 20:38

TỪ KHÓA LIÊN QUAN

w