1. Trang chủ
  2. » Luận Văn - Báo Cáo

ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG

77 688 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 77
Dung lượng 3,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRẦN ĐỨC QUỲNH ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA HỌC SINH TRƯỜNG TRUNG CẤP NGHIỆP VỤ & CÔNG NGHỆ HẢI PHÒNG LUẬN VĂN THẠC SĨ KỸ THUẬT NGÀNH: CÔ

Trang 1

BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC ĐÀO TẠOTRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

KS TRẦN ĐỨC QUỲNH

ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA HỌC SINH TRƯỜNG TRUNG CẤP NGHIỆP VỤ &

CÔNG NGHỆ HẢI PHÒNG

LUẬN VĂN THẠC SĨ KỸ THUẬT

HẢI PHÒNG – 2015

Trang 2

BỘ GIAO THÔNG VẬN TẢI BỘ GIÁO DỤC ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM

KS TRẦN ĐỨC QUỲNH

ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA HỌC SINH TRƯỜNG TRUNG CẤP NGHIỆP VỤ &

CÔNG NGHỆ HẢI PHÒNG

LUẬN VĂN THẠC SĨ KỸ THUẬT

NGÀNH: CÔNG NGHỆ THÔNG TIN; MÃ SỐ: 60480201

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

Người hướng dẫn: TS Trần Thị Hương

HẢI PHÒNG – 2015

Trang 4

LỜI CẢM ƠN

Luận văn này được hoàn thành, trước hết em xin chân thành cảm ơn TS.Trần Thị Hương, đã hướng dẫn em về việc chuẩn bị các kiến thức tổng quan và cácphương pháp nghiên cứu đề tài ứng dụng khai phá dữ liệu và khám phá tri thức.Đồng thời em cũng gửi lời cám ơn đến các thày cô và các bạn trong cùng khóahọc, vì đã cùng trao đổi, chia sẻ thông tin và các kiến thức liên quan để em có điềukiện nghiên cứu và hoàn thành đề tài khoa học của mình

Đối với em, đây là những kiến thức mang tính chất vừa tổng quan vừa sâurộng, do còn nhiều hạn chế về trình độ hiểu biết và năng lực của bản thân, cũngnhư các tài liệu tham khảo và thời gian có hạn, mặc dù đã cố gắng làm việc, nghiêncứu tích cực nhưng đề tài của em cũng không thể tránh được những sai sót và còn

có những vấn đề chưa được hoàn thiện

Kính mong được sự góp ý và chỉ dẫn tận tình của thầy cô, cùng các bạn để

đề tài của em được hoàn thiện hơn

Em xin trân trọng cảm ơn.

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng các thông tin trích dẫn trong luận văn đều đã được chỉ rõ nguồn gốc

Ngày tháng 9 năm 2015

TÁC GIẢ

Trang 6

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN ii

MỤC LỤC iii

DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU v

DANH MỤC CÁC HÌNH vi

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT PHÂN CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU DATAMINING 6

1.1 Khai phá dữ liệu và phát hiện tri thức 6

1.1.1 Khai phá dữ liệu 6

1.1.2 Quá trình khám phá tri thức 7

1.1.3 Khai phá dữ liệu và ứng dụng 8

1.1.4 Các kỹ thuật áp dụng trong khai phá dữ liệu 8

1.1.5 Những chức năng chính của khai phá dữ liệu 10

1.1.6 Ứng dụng của khai phá dữ liệu 12

1.2 Một số kỹ thuật phân cụm dữ liệu 13

1.2.1 Khái niệm và mục tiêu của phân cụm dữ liệu 13

1.3 Những kỹ thuật phân cụm dữ liệu 17

1.3.1 Phương pháp phân cụm phân hoạch (Partitioning Methods) 17

1.3.2 Phương pháp phân cụm phân cấp (Hierarchical Methods) 18

1.3.3 Phương pháp phân cụm dựa trên mật độ (Density-Based Methods) 19

1.3.4 Phương pháp phân cụm dựa trên lưới (Grid-Based Methods) 20

1.3.6 Phương pháp phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods) 22

1.4 Một số thuật toán phân cụm dữ liệu 23

1.4.1 Các thuật toán phân cụm phân hoạch 23

1.4.2 Các thuật toán phân cụm phân cấp 28

1.4.3 Các thuật toán phân cụm dựa trên mật độ 31

Trang 7

1.4.4 Các thuật toán phân cụm dựa vào lưới 35

1.4.5 Các thuật toán phân cụm dựa trên mô hình 39

CHƯƠNG 2 THIẾT KẾ HỆ THỐNG 41

2.1 Tổng quan về cơ sở cần nghiên cứu 41

2.1.1 Cơ sở dữ liệu của giáo viên và học sinh sinh viên 41

2.1.2 Việc phân tích và đánh giá kết quả học tập của học sinh 41

2.2 Thực trạng về việc phân tích và đánh giá kết quả học tập của học sinh 42

2.3 Khảo sát hệ thống thực tế 44

2.4 Phân tích và thiết kế hệ thống 46

2.5 Cơ sở dữ liệu 54

CHƯƠNG 3 XÂY DỰNG HỆ THỐNG THỬ NGHIỆM 56

3.1 Giải pháp xây dựng hệ thống 56

3.2 Yêu cầu khi cài đặt thuật toán 61

3.3 Giao diện chính của chương trình 62

3.4 Kết luận và hướng phát triển 63

3.4.1 Các kết quả đạt được trong luận văn 64

3.4.2 Kiến nghị hướng phát triển 65

KẾT LUẬN VÀ KIẾN NGHỊ……… … 66

TÀI LIỆU THAM KHẢO 68

Trang 8

DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÝ HIỆU

KPDL Khai phá dữ liệu (Datamining)

KDD - Knowledge discovery and Datamining (Kỹ thuật phát hiện

tri thức và khai phá dữ liệu )

Trang 9

DANH MỤC CÁC HÌNH

1.2 Các lĩnh vực liên quan đến khám phá tri thức trong CSDL 8

1.4 Mối quan hệ giữa hệ thống CSDL và hệ thống khai KPDL 13

1.14 Các thiết lập để xác định ranh giới các cụm ban đầu 24

1.16a,b Tâm cụm có phần tử ngoại lai, không có phần tử ngoại lại 26

1.18 Ví dụ các bước cơ bản của thuật toán AGNES 29

1.20 Hình dạng các cụm được khám phá bởi thuật toán DBSCAN 322.1 Mô hình mạng LAN của hể thống quản lý CSDL 45

2.3 Sơ đồ use case đặc tả chức năng của hệ thống 47

2.6 Sơ đồ minh họa cập nhật thông tin học sinh 51

2.8 Sơ đồ minh họa cập nhật thông tin môn học 512.9 Sơ đồ minh họa cập nhật thông tin điểm học tập 52

2.11 Các table sử dụng trong chương trình Sơ đồ use case đặc tả

chức năng của hệ thống

55

Trang 10

Ngày nay, lượng dữ liệu đang ngày càng tăng lên khiến cho chúng ta bị ngậptrong khối dữ liệu khổng lồ đó, nhưng những dữ liệu thực sự có giá trị thì lại nằmtrong chính khối dữ liệu đó Do vậy, khai phá dữ liệu (Data mining) ra đời để giúp

ta chọn lọc được những thông tin có giá trị từ khối dữ liệu thô khổng lồ ta nhậnđược

Vậy khai phá dữ liệu có thể hiểu đơn giản là quá trình chọn lọc hay khai phátri thức từ một khối dữ liệu lớn

Khai phá dữ liệu cần sử dụng kiến thức từ nhiều ngành và nhiều lĩnh vực khácnhau như thống kê, trí tuệ nhân tạo, CSDL, tính toán song song,…Đặc biệt, nó rấtgần gũi với lĩnh vực thống kê, sử dụng các phương pháp thống kê để mô hình hóa

dữ liệu và phát hiện các mẫu

Tổng quan của khai phá dữ liệu có thể dùng để:

Cung cấp tri thức, hỗ trợ ra quyết định dựa trên số liệu dựa thống kê

Dự báo tình hình căn cứ các số liệu được xử lý bằng thuật toán

Khái quát dữ liệu dưới dạng mô hình, sơ đồ luồng, sơ đồ thực thể…

Ngoài ra, ứng dụng của khai phá dữ liệu vô cùng đa dạng, có thể dùng trong: Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chínhcủa một công ty dựa trên báo cáo tài chính; dựa vào dữ liệu về thị trường chứngkhoán để dự đoán được giá cổ phiếu; phát hiện gian lận…

Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định

Trong Y học: dựa vào mối liên hệ giữa các triệu chứng để chẩn đoán bệnh vàhướng điều trị

Trang 11

Mạng viễn thông: phân tích các cuộc gọi điện thoại để dự đoán hành vi ngườidùng nhằm nâng cao chất lượng dịch vụ.

Bán hàng: phân tích các mặt hàng để dự đoán nhu cầu người dùng để đưa rahướng phát triển đúng cho nhà sản xuất…

Ngoài ra, khai thác dữ liệu còn ứng dụng vào trong rất nhiều lĩnh vực khácnhau của đời sống giúp đưa ra những giải pháp hiệu quả cho các vấn đề nan giảicủa đời sống Trong đó thuật toán k-mean là một lựa chọn phù hợp với mục tiêunghiên cứu

Phân cụm đặc biệt hiệu quả khi ta không biết về thông tin của các cụm, hoặckhi ta quan tâm tới những thuộc tính của cụm mà ta chưa biết hoặc biết rất ít nhữngthông tin đó Phân cụm được coi như một công cụ độc lập để xem xét phân bố dữliệu, làm bước tiền xử lý cho các thuật toán khác

Phân cụm dữ liệu là một trong những kỹ thuật để khai thác dữ liệu có hiệuquả Phân cụm dữ liệu đã được ứng dụng trong nhiều lĩnh vực khác nhau như: kinh

tế, bảo hiểm, quy hoạch đô thị, nghiên cứu về địa chất…

Theo các nghiên cứu cho thấy thì hiện nay chưa có một phương phápphân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúccụm dữ liệu Hơn nữa, các phương pháp phân cụm cần có cách thức biểu diễncấu trúc của các cụm dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tươngứng một thuật toán phân cụm phù hợp Vì vậy phân cụm dữ liệu vẫn đang làmột vấn đề khó và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọnvẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với dữ liệuhỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng là mộttrong những thách thức lớn trong lĩnh vực khai phá dữ liệu

Lĩnh vực giáo dục là ngành có khối lượng dữ liệu khá lớn, cần phân tích đểđưa ra các chiến lược phát triển phù hợp thì thực sự chưa được khai thác có hiệuquả Hiện tại, bản thân đang làm việc tại ban tuyển sinh thuộc phòng đào tạo củatrường, nên nhận thấy việc phân tích, đánh giá kết quả học tập của học sinh là rấtcần thiết, để từ đó đề xuất các biện pháp nhằm nâng cao chất lượng giáo dục

Trang 12

chuyên nghiệp Đó là lí do em chọn đề tài : “Ứng dụng Khai phá dữ liệu trong việcphân tích, đánh giá kết quả học tập của học sinh trường Trung cấp nghiệp vụ vàcông nghệ Hải Phòng”

Mục đích của việc đánh giá kết quả học tập của học sinh là giúp “thúc đẩyhọc sinh rèn luyện, học tập không ngừng tiến bộ” còn làm thông tin, và tiền đề choviệc “điều chỉnh việc thực hiện chương trình giáo dục chuyên nghiệp hiện hành vàtạo cơ sở thực tiễn cho việc phát triển chương trình giáo dục chuyên nghiệp tiếptheo” Đây là một vấn đề mà nhà trường, ngành giáo dục và toàn xã hội đang rấtquan tâm

2 Mục tiêu và nhiệm vụ của đề tài

2.2 Nhiệm vụ

Để đạt được mục tiêu đã nêu luận văn sẽ tập trung vào 3 nhiệm vụ chính:Nghiên cứu cơ sở lý thuyết, các phương pháp, các thuật toán, mô hình, công

cụ đã được sử dụng để khai phá dữ liệu có sẵn

Nghiên cứu đề xuất giải pháp nhằm xây dựng hệ thống phân tích, đánh giá kếtquả học tập của học sinh trường trung cấp nghiệp vụ và công nghệ Hải Phòng.Xây dựng hệ thống và thử nghiệm giải pháp

3 Đối tượng và Phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Điểm học sinh trường Trung cấp nghiệp vụ và công nghệ Hải Phòng

- Các vấn đề về khai phá dữ liệu

Trang 13

3.2 Phạm vi nghiên cứu

- Tiến hành khảo sát và nghiên cứu dữ liệu điểm của học sinh trường Trungcấp nghiệp vụ và công nghệ Hải Phòng

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu được sử dụng trong luận văn là nghiên cứu tài liệu

và thu thập dữ liệu Đã tiến hành thu thập tài liệu từ nhiều nguồn khác nhau như:giáo trình, các bài báo, các đề tài nghiên cứu khoa học, luận văn đã được đánh giácao và những tài liệu khác có liên quan đến vấn đề này, nhằm đưa ra những thôngtin cần thiết phục vụ nghiên cứu Đã tiến hành thu thập dữ liệu điểm của học sinhtại trường chuyên nghiệp phục vụ cho việc nghiên cứu và triển khai hệ thống thửnghiệm

5 Mục đích và ý nghĩa của đề tài

- Tìm ra những đối tượng học sinh có kết quả tốt trong nhiều kỳ để kịp thờikhen thưởng động viên, và có phương án xử lý kịp thời những đối tượng học sinh

có kết quả kém, nhằm rút ra kinh nghiệm và bổ sung vào phương hướng cũng nhưnhiệm vụ từng năm học

5.2 Ý nghĩa khoa học và thực tiễn

Về khoa học: Cung cấp cái nhìn tổng quan về phát hiện tri thức, áp dụng các

kỹ thuật khai phá dữ liệu trên cơ sở dữ liệu điểm của học sinh Phát hiện ra tìnhhình học tập của học sinh để giúp lãnh đạo Nhà trường có những nhận định cụ thể

và các giải pháp để công tác dạy và học đảm bảo chất lượng

Về thực tiễn: Qua đề tài này tác giả muốn làm rõ tình hình học tập của họcsinh trường Trung cấp nghiệp vụ và công nghệ Hải Phòng, thông qua đó chỉ ra

Trang 14

những nhóm đối tượng học sinh có nhóm kết quả cao, thấp, trung bình… ứng vớitừng nhóm môn học, đồng thời phân loại và từ đó đưa ra những giải pháp mangtính thực tiễn giúp cho lãnh đạo nhà trường có thêm cơ sở khoa học để nâng caochất lượng học tập trong học sinh sinh viên của trường, nhằm đưa trường ngàycàng phát triển và nâng cao thương hiệu, là địa chỉ đào tạo tin cậy

Đưa ra dự báo về việc đánh giáchất lượng đào tạo của nhà trường

Có một cái nhìn khái quát hóa về đào tạo và quản lý đào tạo.

7 Bố cục của luận văn

Chương 1 Tổng quan về khai phá dữ liệu và kỹ thuật phân cụm dữ liệutrong khai phá dữ liệu Datamining

- Giải pháp xây dựng hệ thống

- Yêu cầu khi cài đặt thuật toán

- Kết luận

- Kiến nghị

Trang 15

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ KỸ THUẬT PHÂN CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU

DATAMINING 1.1 Khai phá dữ liệu và phát hiện tri thức

1.1.1 Khai phá dữ liệu

Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tintrong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồngnghĩa với lượng dữ liệu đã được các cơ quan đơn vị thu thập và lưu trữ ngày mộttích luỹ nhiều lên Việc lưu trữ các dữ liệu này kỳ vọng trong nó ẩn chứa những giátrị nhất định nào đó Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những

dữ liệu này (khoảng từ 10% đến 15%) là luôn được phân tích đánh giá, số dữ liệucòn lại không biết sẽ phải xử lý ra sao hoặc và có thể làm gì với chúng, tuy nhiênvẫn tiếp tục thu thập rất tốn kém với ý nghĩ rằng có thông tin nào đó quan trọng bị

bỏ qua sau này có lúc sẽ cần đến Một vấn đề đặt ra là làm thế nào để tổ chức, khaithác những khối lượng dữ liệu khổng lồ và đa dạng đó được?

KPDL là một lĩnh vực mới được nghiên cứu, nhằm tự động khai thác thôngtin, tri thức mới hữu ích, tiềm ẩn từ những CSDL lớn cho các đơn vị, tổ chức,doanh nghiệp,… từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranhcho các đơn vị, tổ chức này Các kết quả nghiên cứu khoa học cùng những ứngdụng thành công trong KDD ( Knowledge discovery and Datamining) cho thấyKPDL là một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và có nhiềutriển vọng, đồng thời có ưu thế hơn hẵn so với các công cụ tìm kiếm phân tích dữliệu truyền thống Hiện nay, KPDL đã ứng dụng ngày càng rộng rãi trong n hi ểulĩnh vực như thương mại, tài chính, y học, viễn thông, sinh học,…

Các kỹ thuật chính được áp dụng trong lĩnh vực KPDL hầu hết được thừa

kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống

kê và tính toán hiệu năng cao,

Như vậy ta có thể khái quát hóa khái niệm KPDL là một quá trình tìmkiếm, phát hiện các tri thức mới, hữu ích, tiềm ẩn trong CSDL lớn

Trang 16

KDD (Knowledge discovery and Datamining) là mục tiêu chính của KPDL,

do vậy hai khái niệm KPDL và KDD (Knowledge discovery and Datamining) đượccác nhà khoa học trên hai lĩnh vực xem là tương đương với nhau Tuy nhiên, nếuphân chia một cách chi tiết thì KPDL là một bước chính trong quá trình KDD(Knowledge discovery and Datamining)

1.1.2 Quá trình khám phá tri thức

Quá trình khám phá tri thức được phân chia thành 5 bước cơ bản như sau:

Hình 1.1 Quá trình khám phá tri thức

Quá trình KPDL có thể chia thành các công đoạn sau:

Trích chọn dữ liệu: Đây là bước trích chọn những tập dữ liệu cần được khai phá từ

các tập dữ liệu lớn ban đầu theo một số tiêuchí nhất định

Tiền xử lý dữ liệu: Đây là bước làm sạch dữ liệu (xử lý những dữ liệu không

đầy đủ, nhiễu, không nhất quán, ), rút gọn dữ liệu (sử dụng hàm nhóm và tínhtổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, ), rời rạc hóa

dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phânkhoảng, ) Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và đượcrời rạc hóa

Biến đổi dữ liệu: Đây là bước chuẩn hóa và làm mịn dữliệu để đưa dữ liệu về dạng

thuận lợi nhất nhằm phục vụ quá trình khai phá ở bước sau

Khai phá dữ liệu: Đây là bước áp dụng những kỹ thuật phân tích (như các kỹ

thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những mẫu thông

Trang 17

tin, những mối liên hệ đặc biệt trong dữ liệu Đây được xem là bước quan trọng vàtốn nhiều thời gian nhất của toàn quá trình KDD.

Đánh giá và biểu diễn tri thức: Những mẫu thông tin và mối liên hệ trong dữ

liệu đã được khám phá ở bước trên được biến đổi và biểu diễn ở một dạng gầngũi với người sử dụng như đồ thị, bảng biểu, luật, Đồng thời bước này cũngđánh giá những tri thức khám phá được theo những tiêu chí nhất định

1.1.3 Khai phá dữ liệu và ứng dụng

Khai phá dữ liệu có nhiều ứng dụng trong thực tế, chẳng hạn như:

- Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính và

dự báo giá của các loại cổ phiếu trong thị trường chứng khoán Danh mục vốn vàgiá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận,

- Điều trị y học và chăm sóc y tế: một số thông tin về chuẩn đoán bệnh lưu trongcác hệ thống quản lý bệnh viện Phân tích mối liên hệ giữa các triệu chứng bệnh,chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, )

- Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố

- Textmining và Webmining: Phân lớp văn bản, các trang Web, tóm tắt văn bản,

- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìmkiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene di truyền,

- Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự

cố mạng, chất lượng dịch vụ,

1.1.4 Các kỹ thuật áp dụng trong khai phá dữ liệu

KDD (Knowledge discovery and Datamining) là một lĩnh vực liên ngành

Hình 1.2 Các lĩnh vực liên quan đến khám phá tri thức trong CSDL

Khám phá tri thức

Các nguyên tắc khác

Công nghệ cơ

Trang 18

Trên quan điểm của học máy, thì các kỹ thuật trong KPDL, bao gồm:

Học có giám sát: Là quá trình gán nhãn lớp cho các phần tử trong CSDL dựa

trên một tập các ví dụ huấn luyện và các thôngtin về nhãn lớp đã biết

Học không có giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp

hay cụm dữ liệu tương tự nhau mà chưa biết trước các thông tin về lớp hay tập các

ví dụ huấn luyện

Học nửa giám sát: Là quá trình phân chia một tập dữ liệu thành các lớp dựa trên

một tập nhỏ các ví dụ huấn luyện và các thông tin về một số nhãn lớp đã biếttrước

+ Nếu căn cứ vào lớp các bài toán cần giải quyết, thì KPDL bao gồm các

kỹ thuật áp dụng sau:

Phân lớp và dự báo: Xếp một đối tượng vào một trong những lớp đã biết trước

Ví dụ như phân lớp các dữ liệu bệnh nhân trong hồ sơ bệnh án Hướngtiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định,mạng nơron nhân tạo, Phân lớp và dự báo còn được gọi là học có giám sát

Luật kết hợp: Là dạng luật biểu diễn tri thức ở dạng khá đơn giản Ví dụ: “50%

nữ giới vào siêu thị nếu mua phấn thì có tới trên 40% trong số họ sẽ mua thêm sảnphẩm son phấn” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, yhọc, công nghệ thông tin- sinh, tài chính và thị trường chứng khoán,

Phân tích chuỗi theo thời gian: Tương tự như khai phá luật kết hợp nhưng có thêm

tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiều trong lĩnhvực tài chính kế toán và thị trường chứng khoán vì nó có tính dự báo khá cao

Phân cụm: Xếp các đối tượng theo từng cụm dữ liệu tự nhiên Phân cụm còn

được gọi là học không có giám sát

Mô tả và tóm tắt khái niệm: Thiên về mô tả, tổng hợp và tóm tắt khái niệm, chẳng

hạn như tóm tắt một văn bản text

Do KPDL được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu

dữ liệu khác nhau Dưới đây là một số dạng dữ liệu điển hình: Dữ liệu quan hệ,

dữ liệu đa chiều, dữ liệu dạng giao dịch, dữ liệu quan hệ - hướng đối tượng, dữ

Trang 19

liệu không gian và thời gian, dữ liệu chuỗi thời gian, dữ liệu đa phương tiện, dữliệu văn bản và Web,…

1.1.5 Những chức năng chính của khai phá dữ liệu

Hai mục tiêu chính của KPDL chính là mô tả và dự báo Dự báo là dùngmột số biến hoặc trường trong CSDL để dự đoán ra các giá trị chưa biết hoặc sẽ cócủa các biến quan trọng khác Việc mô tả tập trung vào tìm kiếm các mẫu mà conngười có thể hiểu được để mô tả dữ liệu Trong lĩnh vực KDD, mô tả được quantâm nhiều hơn dự báo, nó ngược với các ứng dụng học máy và nhận dạng mẫu màtrong đó việc dự báo thường là mục tiêu chính Trên cơ sở mục tiêu chính củaKPDL, các chức năng chính của KDD gồm có:

- Mô tả lớp và khái niệm: Dữ liệu có thể được kết hợp trong lớp và khái

niệm Giả sử, trong kho dữ liệu bán hàng thiết bị tin học, các lớp mặt hàng baogồm máy tính, máy quét, máy in,…và khái niệm khách hàng bao gồm kháchhàng mua bán buôn và khách hàng mua lẻ Việc mô tả lớp và khái niệm là rấthữu ích cho giai đoạn tổng hợp số liệu, tóm lược và chính xác hoá Mô tả lớp vàkhái niệm được bắt nguồn từ đặc trưng hoá dữ liệu và phân biệt dữ liệu Đặc trưnghoá dữ liệu là quá trình tổng hợp những đặc tính hoặc các thành phần chung củamột lớp dữ liệu mục tiêu Phân biệt dữ liệu là so sánh lớp dữ liệu mục tiêu vớinhững lớp dữ liệu đối chiếu khác Lớp dữ liệu mục tiêu và các lớp đối chiếu là

do người dùng chỉ ra và tương ứng với các đối tượng dữ liệu nhận được nhờ truyvấn

- Phân lớp và dự báo: Phân lớp là quá trình tìm kiếm một tập các mô hình

hoặc chức năng mà nó được mô tả và phân biệt nó với các lớp hoặc khái niệmkhác Các mô hình này nhằm mục đích dự báo về lớp của một số đối tượng Việcxây dựng mô hình dựa trên sự phân tích một tập các dữ liệu được huấn luyện

có nhiều dạng thể hiện mô hình như luật phân lớp (IF-THEN), cây quyết định,công thức toán học hay mạng nơron, Sự phân lớp được sử dụng để dự đoánnhãn lớp của các đối tượng trong dữ liệu Do vậy trong nhiều ứng dụng, người tamong muốn dự đoán những giá trị bị khuyết nào đó Thông thường đó là trường

Trang 20

hợp dự đoán các giá trị của dữ liệu kiểu số(numberic) Trước khi phân lớp và

dự báo, có thể cần thực hiện phân tích thích hợp để xác định và loại bỏ cácthuộc tính không tham gia vào quá trình phân lớp và dự báo

- Phân cụm: Không giống như phân lớp và dự báo, phân cụm tập trung

phân tích các đối tượng dữ liệu khi chưa biết nhãn của lớp Mặt khác, nhãn lớpkhông tồn tại trong suốt quá trình huấn luyện dữ liệu, nó phân cụm có thể được sửdụng để đưa ra nhãn của lớp Sự phân cụm thực hiện nhóm các đối tượng dữ liệutheo nguyên tắc sau: Các đối tượng nằm trong một nhóm thì giống nhau hơn sovới các đối tượng khác nhóm Mỗi cụm được tạo thành có thể được coi nhưmột lớp các đối tượng mà các luật được lấy ra từ đó Dạng của cụm được hìnhthành theo một cấu trúc phân cấp của các lớp mà với mỗi lớp là một nhóm các sựkiện tương tự nhau

- Phân tích các đối tượng ngoại lai: Một CSDL có thể chứa các đối

tượng không tuân theo mô hình dữ liệu Các đối tượng như thế được gọi là đốitượng ngoại lai Hầu hết các phương pháp KPDL đều coi các đối tượng ngoại lai

là nhiễu và loại bỏ chúng Tuy nhiên trong một số ứng dụng, ví dụ như phát hiệnnhiễu, thì sự kiện hiếm khi xảy ra có vẻ được chú ý hơn những gì thườngxuyên gặp phải Sự phân tích dữ liệu ngoại lai được coi là sự khai phá các đốitượng ngoại lai Một số phương pháp được sử dụng để phát hiện đối tượng ngoạilai: sử dụng các test (kiểm thử) mang tính thống kê trên cơ sở một phân phối

dữ liệu hay một mô hình xác suất thống kê cho dữ liệu, dùng các độ đo khoảngcách mà theo đó các đối tượng có một khoảng cách đáng kể đến cụm bất kì khácđược coi là đối tượng ngoại lai, dùng các phương pháp dựa trên độ lệch đểcheck (kiểm tra) sự khác nhau trong những đặc trưng chính của các nhóm đốitượng đó

- Phân tích sự tiến hoá: Phân tích sự tiến hoá là thực hiện việc mô tả và mô

hình hoá các qui luật hay khuynh hướng của những đối tượng mà hành vi của nóthay đổi với thời gian Phân tích sự tiến hoá có thể bao gồm cả đặc trưng hoá,phân biệt, tìm luật kết hợp, phân lớp hay PCDL liên quan đến thời gian, phân

Trang 21

tích dữ liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ và phân tích dữ liệu dựatrên độ tương tự.

1.1.6 Ứng dụng của khai phá dữ liệu

KPDL là một lĩnh vực đã và đang được quan tâm cũng như ứng dụng rấtrộng rãi Một số ứng dụng điển hình trong KPDL có thể liệt kê như sau: Phân tích

dữ liệu và hỗ trợ ra quyết định, điều trị trong y học, khai phá Web, công nghệ sinh, tài chính kế toán và thị trường chứng khoán, bảo hiểm,

tin-Thương mại: Để phân tích dữ liệu bán hàng và thị trường, phân tích đầu tư, phát

hiện việc gian lận, chứng thực hóa khách hàng, hay dự báo xu hướng phát triển,

Thông tin sản xuất: Trong điều khiển, lập kế hoạch, hệ thống quản lý, phân tích

thử nghiệm, khảo sát,

Thông tin khoa học: Dự báo thời tiết, bão lụt, động đất, tin - sinh học,

Cho đến nay các hệ quản trị CSDL đã đ ư ợ c tích hợp những modul đểKPDL như SQL Server, Oracle, đến năm 2007 Microsoft đã cung cấp sẵn công

cụ KPDL tích hợp trong cả MS-Word, MS-Excel,

Hình 1.3 Trực quan hóa kết quả KPDL trong Oracle

Trang 22

Hình 1.4 Mối quan hệ giữa hệ thống CSDL và hệ thống khai phá dữ liệu

1.2 Một số kỹ thuật phân cụm dữ liệu

1.2.1 Khái niệm và mục tiêu của phân cụm dữ liệu

1.2.1.1 Phân cụm dữ liệu là gì?

Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, pháthiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệulớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định

Phân cụm dữ liệu là sự phân chia một tập cơ sở dữ liệu lớn thành cácnhóm dữ liệu mà trong đó các đối tượng tương tự như nhau Trong mỗi nhóm,một số chi tiết có thể không được chú trọng đến để đổi lấy dữ liệu đơn giảnhóa

Hay nói cách khác, ta có thể hiểu “Phân cụm dữ liệu là quá trình tổ chứccác đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều tương tự

Trang 23

(Similar) nhau theo một tính chất nào đó, những đối tượng không tương tự(Dissimilar) nhau về tính chất sẽ ở nhóm khác”.

Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhautrong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm làtương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tươngđồng

Phân cụm dữ liệu là một điển hình của phương pháp học không có thầy.Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải địnhnghĩa trước các mẫu dữ liệu huấn luyện Do đó, có thể coi phân cụm dữ liệu làmột cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ

Mặt khác, phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử

lí cho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, cótác dụng trong việc phát hiện ra các cụm

Như vậy, phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầuthành các cụm dữ liệu sao cho các đối tượng trong một cụm “tương tự” (Similar)với nhau và các đối tượng trong các cụm khác nhau sẽ “không tương tự”(Dissimilar) với nhau Số các cụm dữ liệu được phân chia ở đây có thể đượcxác định trước theo kinh nghiệm hoặc có thể được tự động xác định

Điều này được làm rõ với một ví dụ như sau:

Hình 1.5 Ví dụ về phân cụm dữ liệu

Trang 24

Trong trường hợp này, chúng ta dễ dàng xác định được 5 cụm dựa vào các

dữ liệu đã cho; các tiêu chí “tương tự” để phân cụm trong trường hợp này làkhoảng cách: hai hoặc nhiều đối tượng thuộc nhóm của chúng được “đóng gói”theo một khoảng cách nhất định Điều này được gọi là phân cụm dựa trên khoảngcách

Một kiểu khác của phân cụm dữ liệu là phân cụm dữ liệu dựa vào kháiniệm: hai hay nhiều đối tượng thuộc cùng nhóm nếu có một định nghĩa khái niệmchung cho tất cả các đối tượng trong đó Nói cách khác, đối tượng của nhóm phảiphù hợp với nhau theo miêu tả các khái niệm đã được định nghĩa, không phảitheo những biện pháp đơn giản tương tự

1.2.1.2 Các mục tiêu của phân cụm dữ liệu

Mục tiêu của phân cụm dữ liệu nhằm mục đích xác định các nhóm nội tạibên trong một bộ dữ liệu không có nhãn Nhưng vấn đề quyết định là cái gì tạothành một cụm tốt Hay vấn đề đặt ra là làm thế nào để quyết định cái gì đã tạo nênmột phân cụm dữ liệu tốt ? Nó có thể được hiển thị rằng không có tiêu chuẩn tuyệtđối “tốt nhất” mà sẽ là độc lập với mục đích cuối cùng của phân cụm dữ liệu Do

đó, mà người sử dụng phải cung cấp một tiêu chuẩn, và như vậy mà kết quả củaphân cụm dữ liệu sẽ phù hợp với nhu cầu của họ cần Giả sử, chúng ta có thể quantâm đến việc tìm kiếm đối tượng đại diện cho các nhóm đồng nhất trong “các cụm

tự nhiên” và mô tả thuộc tính không biết của chúng trong việc tìm kiếm các nhómhữu ích và phù hợp hoặc trong việc tìm kiếm các đối tượng bất thường trong dữliệu (cá biệt, ngoại lệ, nhiễu)

Trang 25

Hình 1.6 Ví dụ phân cụm các đối tượng dựa trên khoảng cách

Một vấn đề thường được đề cập trong phân cụm là hầu hết các dữ liệu cầncho phân cụm đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xáchoặc thiếu thoog tin, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữliệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sang giai đoạn phân tíchcụm dữ liệu Nhiễu ở đây được hiểu là các đối tượng dữ liệu không chính xác,không tường minh hoặc là các đối tượng dữ liệu bị khuyết thiếu thông tin vềmột số thuộc tính Một trong các kỹ thuật xử lí nhiễu phổ biến là việc thaythế giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tươngứng Ngoài ra, dò tìm đối tượng ngoại lai cũng là một trong những hướngnghiên cứu rất quan trọng trong phân cụm, chức năng của nó là xác định mộtnhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệu trong cơ sở dữliệu, tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc mô hình dữliệu nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của phân cụm

Hình 1.7 Ví dụ phân cụm các ngôi nhà dựa trên kích cỡ

Theo các nghiên cứu đến thời điểm hiện nay thì chưa có một phương phápphân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc

cơ sở dữ liệu Hơn nữa, đối với các phương pháp phân cụm cần có cách thức biểudiễn cấu trúc của cơ sở dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có

Trang 26

tương ứng một thuật toán phân cụm phù hợp Vì vậy, phân cụm dữ liệu vẫnđang là một vấn đề khó và mở, vì nó phải giải quyết nhiều vấn đề cơ bản mộtcách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với

dữ liệu hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu và đây cũng làmột trong những thách thức lớn trong lĩnh vực khai phá dữ liệu

1.3 Những kỹ thuật phân cụm dữ liệu

Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trongthực tiễn, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khámphá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật phân cụm cóthể phân loại theo các phương pháp tiếp cận chính như sau : phân cụm phân họach(Partitioning Methods); phân cụm phân cấp (Hierarchical Methods); phân cụm dựatrên mật độ (Density-Based Methods); phân cụm dựa trên lưới (Grid-BasedMethods); phân cụm dựa trên mô hình phân cụm (Model-Based ClusteringMethods) và phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods)

1.3.1 Phương pháp phân cụm phân hoạch (Partitioning Methods)

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử tạo thành k nhómcho đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là cácđặc trưng được lựa chọn trước Phương pháp này là tối ưu cho việc tìm các cụmhình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộcvào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan

hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc

có quan hệ là xa nhau so với mỗi điểm khác Tuy vậy, phương pháp này không thể

xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc Cácthuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưutoàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phânhoạch có thể được Chính vì lẽ đó, trên thực tế thường đi tìm giải pháp tối ưu cục

bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượngcủa cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như

Trang 27

vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụngchiến lược ăn tham (Greedy) để tìm kiếm nghiệm.

Điển hình trong phương pháp tiếp cận theo phân cụm phân họach là cácthuật toán như: K_means, K-medoids, CLARA (Clustering Large Applications),CLARANS (Clustering Large Applications based on RAndomized Search)

1.3.2 Phương pháp phân cụm phân cấp (Hierarchical Methods)

Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệuđang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạnghình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếpcận phổ biến của kỹ thuật này đó là: hòa nhập nhóm, thường được gọi là tiếp cận(Bottom-Up); phân chia nhóm, thường được gọi là tiếp cận (Top-Down)

- Phương pháp “dưới lên” (Bottom - up) : Phương pháp này bắt đầu với mỗi

đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhómcác đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm củahai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòanhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điềukiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn thamtrong quá trình phân cụm

Hình 1.8 Các chiến lược phân cụm phân cấp

- Phương pháp “trên xuống” (Top - Down) : Bắt đầu với trạng thái là tất cả

các đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụmđược tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đócho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn.Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm

Điển hình trong phương pháp tiếp cận theo phân cụm phân cấp là các thuậttoán như : AGNES (Agglomerative Nesting), DIANA (Divisive Analysis), BIRCH(1996), CHAMELEON (1999)

Trang 28

Thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụmphân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương phápphân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phânhoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu cổ điển, hiện đã

có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổbiến trong khai phá dữ liệu

1.3.3 Phương pháp phân cụm dựa trên mật độ (Density-Based Methods)

Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật

độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó

Trong cách tiếp cận này, khi một dữ liệu đã xác định nó tiếp tục được pháttriển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớnhơn một ngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độcủa các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệuvới hình thù bất kỳ Kỹ thuật này có thể khắc phục được các phần tử ngoại lai hoặcgiá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rấtkhó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phân cụm

Hình 1.9 Ví dụ về phân cụm theo mật độ (1)

Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên mật độ là cácthuật toán như : DBSCAN(KDD’96), DENCLUE (KDD’98),…

Trang 29

Hình 1.10 Ví dụ về phân cụm theo mật độ (2)

1.3.4 Phương pháp phân cụm dựa trên lưới (Grid-Based Methods)

Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trêncấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cholớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thànhcác ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làmviệc với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu.Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúngkhông trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu đa chiều

mà phương pháp phân phân cụm dựa trên mật độ không giải quyết được Ưu điểmcủa phương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh và độc lập với sốđối tượng dữ liệu trong tập dữ liệu ban đầu

Hình 1.11 Cấu trúc phân cụm dựa trên lưới

Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên lưới là cácthuật toán như : STING (a STatistical INformation Grid approach) bởi Wang,

Tầng 1 Tầng i-1 Tầng i

Trang 30

Chatterjee và Zhang (1998), CLIQUE (Clustering In QUEst) bởi Agrawal,Gehrke, Gunopulos, Raghavan (1998)

1.3.5 Phương pháp phân cụm dựa trên mô hình (Model-Based Clustering

Methods)

Phương này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hìnhsao cho khớp với dữ liệu là tốt nhất Chúng có thể sử dụng chiến lược phân cụmphân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giảđịnh về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra cácphân hoạch

Hình 1.12 Ví dụ về phân cụm dựa trên mô hình

Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với

mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phânphối xác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp

Exicitatory Connections

Trang 31

cận chính: mô hình thống kê và mạng nơron Phương pháp này gần giống vớiphương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệtnhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắtđầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho cáccụm.

Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên mô hình làcác thuật toán như : EM, COBWEB, CLASSIT, AutoClass (Cheeseman and Stutz,1996)

1.3.6 Phương pháp phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods)

Sự phát triển của phân cụm dữ liệu không gian trên cơ sở dữ liệu lớn đãcung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầuhết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định cácràng buộc trong thế giới thực cần phải được thỏa mãn trong quá trình phân cụm

Để phân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cầnđược thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trongthuật toán phân cụm

Hiện nay, các phương pháp phân cụm trên đã và đang được phát triển và ápdụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu đượcphát triển trên cơ sở của các phương pháp đó như:

 Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánhnghiên cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưngchúng chỉ áp dụng cho các dữ liệu có thuộc tính là con số

 Phân cụm khái niệm: Kỹ thuật này được phát triển áp dụng cho dữ liệu hạngmục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lí

 Phân cụm mờ: Sử dụng kỹ thuật mờ để phân cụm dữ liệu Các thuật toánthuộc loại này chỉ ra lược đồ phân cụm thích hợp với tất cả các hoạt động đời sốnghàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn

 Phân cụm mạng Kohonen: Loại phân cụm này dựa trên khái niệm của các

Trang 32

mạng nơron Mạng Kohonen có tầng nơron vào và các tầng nơron ra Mỗi nơroncủa tầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào kết nốivới tất cả các nơron của tầng ra Mỗi liên kết được gắn liền với một trọng số nhằmxác định vị trí của nơron ra tương ứng.

Phân chia thẳng Phân lớp

Phần tử xác suất của các nhóm Cây phân lớp

g a c i e d k b j f h

Hình 1.13 Các cách mà các cụm có thể đưa ra 1.4 Một số thuật toán phân cụm dữ liệu

1.4.1 Các thuật toán phân cụm phân hoạch

Cho trước một cơ sở dữ liệu với n đối tượng hay các bộ dữ liệu, một phươngpháp phân chia được xây dựng để chia dữ liệu thành k phần, mỗi phần đại diện chomột cụm k ≤ n Đó là phân loại dữ liệu vào trong k nhóm, chúng thoả các yêu cầusau : (1) Mỗi nhóm phải chứa ít nhất một đối tượng; (2) Mỗi đối tượng phải thuộc

về chính xác một nhóm (yêu cầu thứ 2 được nới lỏng trong kỹ thuật phân chiacụm mờ)

Có rất nhiều thuật toán phân hoạch như : means (MacQueen 1967), medoids (Kaufman và Rousseew 1987), PAM (Partition Around Medoids),CLARA (Clustering Large Applications), CLASA (Clustering Large Applicationsbased on Simulated Annealing)

k-1.4.1.1 Thuật toán k-mean

d c

b

e

h j

a

d

d c

b e

h j

Trang 33

Thuật toán này dựa trên độ đo khoảng cách của các đối tượng dữ liệu đếnphần tử là trung tâm của cụm chứa nó.

Seed 2 Seed 3

Xn

Seed 1

X1

Hình 1.14 Các thiết lập để xác định ranh giới các cụm ban đầu

Thuật toán k-means lấy tham số đầu vào là k và phân chia một tập n đốitượng vào trong k cụm để cho kết quả độ tương đồng trong cụm là cao trong khi độtương đồng ngoài cụm là thấp Độ tương đồng cụm được đo khi đánh giá giá trịtrung bình của các đối tượng trong cụm, nó có thể được quan sát như là “trọngtâm” của cụm

Giải thuật xử lý như sau: trước tiên nó lựa chọn ngẫu nhiên k đối tượng, mỗiđối tượng đại diện cho một trung bình cụm hay tâm cụm Đối với những đối tượngcòn lại, mỗi đối tượng sẽ được ấn định vào một cụm mà nó giống nhất dựa trênkhoảng cách giữa đối tượng và trung bình cụm Sau đó sẽ tính lại trung bình cụmmới cho mỗi cụm Xử lý này sẽ được lặp lại cho tới khi hàm tiêu chuẩn hội tụ.Bình phương sai số thường dùng làm hàm tiêu chuẩn hội tụ, định nghĩa như sau :

(1.1)với x là điểm trong không gian đại diện cho đối tượng cho trước, mi là trung bìnhcụm Ci (cả x và mi đều là đa chiều) Tiêu chuẩn này cố gắng cho kết quả k cụmcàng đặc, càng riêng biệt càng tốt

Trang 34

Xn

X1

Hình 1.15 Tính toán trọng tâm của các cụm mới

Thuật toán k-means bao gồm các bước cơ bản sau :

+ Đầu vào : Số cụm k và hàm E

(1.2)

+ Đầu ra : Các cụm C[i] (1 ≤ i ≤ k) với hàm tiêu chuẩn E đạt giá trị tối thiểu.

Begin

Bước 1 : Khởi tạo

Chọn ngẫu nhiên k tâm {m j } k

j=1 ban đầu trong không gian Rd (d là số chiềucủa dữ liệu) Mỗi cụm được đại diện bằng các tâm của cụm

Bước 2: Tính toán khoảng cách

(1.3)Đối với mỗi điểm xi(1 ≤ i ≤ n), tính toán khoảng cách của nó tới mỗi trọngtâm mj(1 ≤ j ≤ k) Sau đó tìm trọng tâm gần nhất đối với mỗi điểm và nhóm chúngvào các nhóm gần nhất

Bước 3: Cập nhật lại trọng tâm

Đối với mỗi 1≤ j ≤ k, cập nhật trọng tâm cụm mj bằng cách xác định trung bìnhcộng các vectơ đối tượng dữ liệu

Trang 35

Bước 4: Gán lại các nhóm các đối tượng vào nhóm gần nhất dựa trên trọng tâm của nhóm.

+ Điều kiện dừng:

Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi

End.

Thuật toán k-means được chứng minh là hội tụ và có độ phức tạp tính toán

là O(tkn) với t là số lần lặp, k là số cụm, n là số đối tượng của tập dữ liệu vào.Thông thường k<<n và t<<n thường kết thúc tại một điểm tối ưu cục bộ

Tuy nhiên, nhược điểm của k-means là còn rất nhạy cảm với nhiễu và các phần

tử ngoại lai trong dữ liệu Hơn nữa, chất lượng phân cụm dữ liệu của thuật toán means phụ thuộc nhiều vào các tham số đầu vào như: số cụm k và k trọng tâm khởitạo ban đầu Trong trường hợp các trọng tâm khởi tạo ban đầu mà quá lệch so với cáctrọng tâm cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp, nghĩa là cáccụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế

k-Trên thực tế chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào,giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khácnhau rồi sau đó chọn giải pháp tốt nhất

1.4.1.2 Thuật toán PAM

Giải thuật k-means rất nhạy với các phần tử ngoại lai, do vậy mộtđốitượng giá trị cực lớn về cơ bản sẽ làm thay đổi tâmcụm và có thể làmméomóphân bổ của dữ liệu

Tâm cụm không có phần tử ngoại lai Tâm cụm khi có phần tử ngoại lai

Ý tưởng của k-medodis thay vì lấy giá trị trung bình của các đối tượngtrong cụm như một điểm tham khảo, k-medoids lấy một đối tượng đại diện trongcụm, gọi là medoid, nó là điểm đại diện được định vị trung tâm nhất trong cụm

Trang 36

Do vậy, phương pháp phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểuhoá tổng các độ không tương động giữa mỗi đốitượng với điểm tham khảotương ứng của nó, điểm này thiết lập nên cơ sở của phương pháp k-mediods.

Giải thuật PAM, đây là giải thuật phân cụm kiểu k-mediods Nó tìm k cụmtrong n đối tượng bằng cách trước tiên tìm một số đối tượng đại diện (medoid)cho mỗi cụm Tập các medoid ban đầu được lựa chọn tuỳ ý Sau đó nó lặp lạicác thay một trong số các medoid bằng một trong số những cái không phảimedoid miễn là tổng khoảng cách của kết quả phân cụm được cải thiện

Giải thuật thử xác định k phần phân chia cho n đối tượng sau khi lựa chọnđược k-medoids ban đầu, giải thuật lặp lại việc thử để có một sự lựa chọn các medoidtốt hơn bằng cách phân tích tất cả các cặp đối tượng có thể để một đối tượng làmedoid và đối tượng kia thì không phải Phép đo chất lượng phân cụm được tính chomỗi sự kếthợp như vậy Lựa chọn các điểm tốt nhất trong một lần lặp được chọn với

tư cách là các medoid cho lần lặp tiếp theo

Độ phức tạp cho một lần lặp đơn là O(k(n - k)2), với độ phức tạp như trênkhông thich hợp cho phân cụm dữ liệu có số lượng n lớn và số cụm cần chia là nhiều

Thuật toán PAM bao gồm các bước cơ bản sau :

Đầu vào : Số cụm k và một cơ sở dữ liệu chứa n đối tượng.

Đầu ra : Một tập k cụm đã tối thiểu hoá tổng các độ đo không tương đồng của

tất cả các đối tượng tới medoid gần nhất của chúng

Bắt đầu

1, Chọn tuỳ ý k đối tượng giữ vai trò là các medoid ban đầu

2, Repeat

3, Ấn định mỗi đối tượng vào cụm có medoid gần nó nhất

4, Tính hàm mục tiêu (tổng các độ đo tương đồng của tất cả các đối tượngtới medoid gần nhất cùa chúng)

5, Đổi medoid x bằng một đối tượng y nếu như việc thay đổi này làmgiảm hàm mục tiêu

6, Until : không có sự thay đổi nào

Trang 37

Kết thúc

Khi có sự hiện diện của nhiểu và các phần tử ngoại lai, phương pháp medoids mạnh hơn k-means bởi so với giá trị trung bình (mean), medoid ít bị ảnhhưởng hơn bởi các phần tử ngoại lai hay các giá trị ở rất xa khác nữa Tuy nhiên,

m-xử lý nó tốn thời gian hơn so với thuật toán K-means

1.4.2 Các thuật toán phân cụm phân cấp

1.4.2.1 Thuật toán AGNES

Phương pháp phân cụm AGNES là kỹ thuật kiểu tích tụ AGNES bắt đầu ởngoài với mỗi đối tượng dữ liệu trong các cụm riêng lẻ Các cụm được hòa nhậptheo một số loại của cơ sở luật, cho đến khi chỉ có một cụm ở đỉnh của phân cấp,hoặc gặp điều kiện dừng Hình dạng này của phân cụm phân cấp cũng liênquan đến tiếp cận bottom-up bắt đầu ở dưới với các nút lá trong mỗi cụm riêng lẻ

và duyệt lên trên phân cấp tới nút gốc, nơi tìm thấy cụm đơn cuối cùng với tất cảcác đối tượng dữ liệu được chứa trong cụm đó

Thuật toán AGNES bao gồm các bước cơ bản sau :

Bước 1: Mỗi đối tượng là một nhóm

Bước 2: Hợp nhất các nhóm có khoảng cách giữa các nhóm là nhỏ nhất(Single Link)

Bước 3: Nếu thu được nhóm “toàn bộ” thì dừng, ngược lại quay lại bước 2

Hình 1.17 Các bước cơ bản của AGNES

Ví dụ : Sử dụng thuật toán AGNES để phân cụm thi các trường trong nội đôthành phố Hải Phòng thông qua Single Link

Trang 38

Bước 1 Bước 2a

Hình 1.18 Ví dụ các bước cơ bản của thuật toán AGNES

1.4.2.2 Thuật toán DIANA

DIANA thực hiện đối lập với AGNES DIANA bắt đầu với tất cả các đốitượng dữ liệu được chứa trong một cụm lớn và chia tách lặp lại, theo phân loạigiống nhau dựa trên luật, cho đến khi mỗi đối tượng dữ liệu của cụm lớn đượcchia tách hết Hình dạng của cụm phân cấp cùng liên quan đế tiếp cận top-downbắt đầu tại mức đỉnh nút gốc, với tất cả các đối tượng dữ liệu, trong một cụm, vàduyệt xuống các nút lá dưới cùng nơi tất cả các đối tượng dữ liệu từng cái đượcchứa trong cụm của chính mình

Trong mỗi phương pháp của hai phương pháp, có thể số các cụm dẫn tới các mức khác nhau trong phân cấp bằng cách duyệt lên hoặc xuống cây Mỗi mức

có thể khác nhau số các cụm và tất nhiên kết quả cũng khác nhau

Ngày đăng: 16/04/2016, 13:50

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Hoàng Anh Tú Giáo trình “Khai thác dữ liệu và ứng dụng” 2009 (Đại học KHTN Tp Hồ Chí Minh) Sách, tạp chí
Tiêu đề: Khai thác dữ liệu và ứng dụng
[2] An Hồng Sơn Luận văn thạc sĩ “Nghiên cứu một số phương pháp phân cụm mờ và ứng dụng” 2008 (Đại học Thái Nguyên) Sách, tạp chí
Tiêu đề: Nghiên cứu một số phương pháp phân cụm mờvà ứng dụng
[3] Vũ Lan Phương “Nghiên cứu và cài đặt một số giải thuật phân cụm phân lớp”2006 (Đại học Bách Khoa hà Nội).Tiếng Anh Sách, tạp chí
Tiêu đề: Nghiên cứu và cài đặt một số giải thuật phân cụm phân lớp
[4] Andrew Moore: “K-mean and Hierarchical Clustering – Tutorial Slides” Nov 2001 http://www-2.cs.cmu.edu/~awm/tutorials/kmeans.html Sách, tạp chí
Tiêu đề: K-mean and Hierarchical Clustering – Tutorial Slides
[5] Dr. Osmar R.Zaiane “Principples of knowledge discovery in databases” Fall 2001 (University of Alberta) Sách, tạp chí
Tiêu đề: Principples of knowledge discovery in databases
[6] Patrick André Pantel “Clustering by Committee” Thesis Doctor of Philosophy, Spring 2003 (University of Alberta), 15 – 25p Sách, tạp chí
Tiêu đề: Clustering by Committee

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Quá trình khám phá tri thức - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.1. Quá trình khám phá tri thức (Trang 15)
Hình 1.3. Trực quan hóa kết quả KPDL trong Oracle - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.3. Trực quan hóa kết quả KPDL trong Oracle (Trang 20)
Hình 1.4. Mối quan hệ giữa hệ thống CSDL và hệ thống khai phá dữ liệu - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.4. Mối quan hệ giữa hệ thống CSDL và hệ thống khai phá dữ liệu (Trang 21)
Hình 1.5. Ví dụ về phân cụm dữ liệu - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.5. Ví dụ về phân cụm dữ liệu (Trang 22)
Hình 1.10. Ví dụ về phân cụm theo mật độ (2) - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.10. Ví dụ về phân cụm theo mật độ (2) (Trang 28)
Hình 1.9. Ví dụ về phân cụm theo mật độ (1) - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.9. Ví dụ về phân cụm theo mật độ (1) (Trang 28)
Hình 1.11. Cấu trúc phân cụm dựa trên lưới - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.11. Cấu trúc phân cụm dựa trên lưới (Trang 29)
Hình 1.17. Các bước cơ bản của AGNES - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.17. Các bước cơ bản của AGNES (Trang 37)
Hình 1.18. Ví dụ các bước cơ bản của thuật toán AGNES - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.18. Ví dụ các bước cơ bản của thuật toán AGNES (Trang 38)
Hình 1.19. Các bước cơ bản của DIANA - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.19. Các bước cơ bản của DIANA (Trang 39)
Hình 1.20. Hình dạng các cụm được khám phá bởi thuật toán DBSCAN - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 1.20. Hình dạng các cụm được khám phá bởi thuật toán DBSCAN (Trang 41)
Hình 2.1. Mô hình mạng Lan của hệ thống quản lý cơ sở dữ liệu GV và  HSSV - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 2.1. Mô hình mạng Lan của hệ thống quản lý cơ sở dữ liệu GV và HSSV (Trang 54)
Hình 2.2. Mô hình hệ thống tự động phân tích đánh giá kết quả học tập - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 2.2. Mô hình hệ thống tự động phân tích đánh giá kết quả học tập (Trang 55)
Hình 2.3. Sơ đồ use case đặc tả chức năng của hệ thống - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 2.3. Sơ đồ use case đặc tả chức năng của hệ thống (Trang 56)
Hình 2.4. Sơ đồ luồng dữ liệu mức khung cảnh - ỨNG DỤNG KHAI PHÁ dữ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ kết QUẢ học tập của học SINH TRƯỜNG TRUNG cấp NGHIỆP vụ và CÔNG NGHỆ hải PHÒNG
Hình 2.4. Sơ đồ luồng dữ liệu mức khung cảnh (Trang 58)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w