Khoảng cách giữa các tập mờ trong phân cụm dữ liệu nhờ SOM thử nghiệm phân cụm sinh viên

Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai phá dữ liệu, tiến hành lựa chọn các phương pháp khai phá phù hợp với dữ liệu có được và tách ra các tri thức cần thi

Trang 1

LỜI CẢM ƠN

Trước hết, tôi xin gửi lời cảm ơn chân thành nhất tới thầy Nguyễn Tân

Ân, người đã hướng dẫn, tận tình chỉ bảo, giúp đỡ tôi hoàn thành luận văn tốt nghiệp này

Tôi xin chân thành cảm ơn tất cả các thầy cô giáo trường Đại học Sư phạm Hà Nội, những người đã cung cấp cho tôi những kiến thức quý báu, cảm ơn Bộ môn Khoa học Máy tính và khoa Công nghệ Thông tin trường ĐHSP Hà Nội đã tạo những điều kiện tốt nhất để tôi có thể học tập và nghiên cứu

Tôi xin chân thành cảm ơn các đồng nghiệp trong phòng Thiết bị - Công nghệ và Ban giám hiệu trường Cao đẳng Sơn La đã tạo mọi điều kiện giúp tôi hoàn thành tốt nhiệm vụ học tập

Mặc dù đã có gắng hoàn thành luận văn với tất cả sự nỗ lực của bản thân, nhưng luận văn vẵn còn những thiếu sót Kính mong nhận được sự góp ý của các thầy cô và các bạn

Tôi xin chân thành cảm ơn!

Hà Nội, ngày tháng năm 2011

Tác giả

Nguyễn Thu Huyền

Trang 2

MỤC LỤC

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục đích nghiên cứu 2

3 Nhiệm vụ nghiên cứu 3

4 Phương pháp nghiên cứu 3

5 Nội dung đề tài: 3

CHƯƠNG I PHÂN CỤM DỮ LIỆU 4

1.1 Khai phá dữ liệu: 4

1.1.1 Xác định vấn đề 4

1.1.2 Thu thập và tiền xử lý 4

1.1.3 Khai phá dữ liệu 5

1.1.3.1 Nhận định công việc 7

1.1.3.2 Nhận định dữ liệu 8

1.1.3.3 Chuẩn bị dữ liệu 8

1.1.3.4 Mô hình 10

1.1.3.5 Đánh giá 10

1.1.3.6 Triển khai 11

1.2 Phân cụm dữ liệu 11

1.2.1 Giới thiệu 11

1.2.2 Các yêu cầu của phân cụm 12

1.2.3 Các kiểu dữ liệu 14

1.2.4 Một số phương pháp phân cụm dữ liệu 15

1.2.4.1 Phương pháp phân cụm phân hoạch 15

1.2.4.2 Phương pháp phân cụm phân cấp 16

1.2.4.3 Phương pháp phân cụm dựa trên mật độ 17

1.2.4.4 Phương pháp phân cụm dựa trên lưới 18

1.2.4.5 Phương pháp phân cụm dựa trên mô hình 18

1.2.4.6 Phân cụm dữ liệu mờ 19

CHƯƠNG 2 PHÂN CỤM DỮ LIỆU NHỜ SOM 21

2.1 Mạng Nơron nhân tạo 21

Trang 3

2.2 Sơ đồ tự tổ chức (Self Organizing Map - SOM) 25

2.2.1 Thuật toán cơ sở 25

2.2.2 Các biến thể của SOM 27

2.2.3 Các thuật toán liên quan 29

2.2.4 Phân tích dữ liệu sử dụng SOM 31

2.2.4.1 Lượng tử hoá 31

2.2.4.2 Phép chiếu 33

2.2.4.3 Lợi ích và rủi ro 34

2.2.4.4 Độ co dãn 35

2.3 Sử dụng SOM trong khai phá dữ liệu 37

2.3.1 Sự chuẩn bị 39

2.3.2 Nhận định dữ liệu 40

2.3.3 Sự minh hoạ 40

2.3.4 Tính trực quan của SOM 43

2.3.5 Sự phân nhóm và sự tổng kết 48

CHƯƠNG III KHOẢNG CÁCH GIỮA CÁC TẬP MỜ 58

3.1 Khoảng cách 58

3.2 Lý thuyết mờ 58

3.2.1 Giới thiệu: 58

3.2.2 Định nghĩa tập mờ 59

3.2.3 Quan hệ mờ 59

3.2.3.1 Khái niệm về quan hệ mờ 59

3.2.3.2 Các phép toán trên quan hệ mờ 59

3.2.4 Những phép toán trên tập mờ 60

3.3 Một số khoảng cách thường gặp 61

3.3.1 Khoảng cách Hamming 61

3.3.1.1 Trường hợp tập thông thuờng 62

3.3.1.2 Trường hợp tập mờ 62

3.3.2 Khoảng cách Ơclid 66

3.3.2.1 Trường hợp tập thông thường 66

3.3.2.2 Trường hợp tập mờ: 66

3.3.3 Khoảng cách giữa hai tập 70

Trang 4

CHƯƠNG 4 PHÂN CỤM DỮ LIỆU SINH VIÊN 71

4.1 Ví dụ tính toán: 71

4.2 Thử nghiệ m phân cụm dữ liệu sinh viên trường Cao đẳng Sơn La 74

KẾT LUẬN 76

TÀI LIỆU THAM KHẢO 77

Trang 5

MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm gần đây, do tốc độ phát triển nhanh chóng của khoa học công nghệ, đồng thời các kỹ thuật thu thập và lưu trữ thông tin không ngừng được cải tiến nên những kho dữ liệu khổng lồ đã xuất hiện Làm thế nào để tìm kiếm, khai thác và xử lý thông tin trong các kho dữ liệu khổng lồ

ấy là vấn đề luôn được các nhà tin học quan tâm

Cách giải quyết vấn đề đang có hai hướng chính: Theo hướng thứ nhất các tác giả đã cải tiến mô hình cơ sở dữ liệu, kho dữ liệu để tìm ra những mô hình cơ sở dữ liệu, kho dữ liệu thích hợp, thứ hai là cải tiến các phương pháp tìm kiếm, khai phá dữ liệu nhằm khai thác triệt để các kho dữ liệu đã có Khi cải tiến các phương pháp tìm kiếm phân lớp, phân cụm thường

được sử dụng nhiều nhất Phân lớp (Classification) các đối tượng thực chất là

huấn luyện để hệ thống có thể thực hiện một hàm phân loại với một tập các

lớp ra với những tiêu chuẩn cho trước Phân cụm (Clustering) cũng gần giống

với phân lớp song có điểm khác là tập các lớp không được cho trước mà các cụm sẽ được xác định dựa trên tiêu chí: các phần tử trong một cụm gần nhau hơn các phần tử khác cụm, và các cụm giống nhau nhiều hơn phải gần nhau hơn các cụm ít gần nhau hơn

Phân lớp và phân cụm đều có nhiều phương pháp Mỗi phương pháp đều

có những ưu điểm, nhược điểm của mình và mỗi phương pháp đều có phạm

vi ứng dụng nhất định Không có phuơng pháp nào đắc dụng trong tất cả các trường hợp

Một trong những phương pháp phân cụm là dùng sơ đồ tự tổ chức SOM SOM (Self Organized Map – sơ đồ tự tổ chức), còn được biết đến là SOFM (Self Organized Feature Map) là một trong những mô hình mạng nơron, được Kohonen phát triển vào đầu thập niên những năm 80, nên cũng

Trang 6

thường được gọi là mạng Kohonen SOM được dùng để gom cụm dữ liệu (data clustering), nghĩa là học không giám sát (unsupervised learning)

Thuật toán phân cụm sử dụng SOM có thể được nêu tóm tắt như sau:

- Khởi tạo dữ liệu

- Khởi động ma trận trọng số cho mạng nơron

- Lựa chọn dữ liệu đầu vào

- Tính toán các khoảng cách và xác định nút gần tâm tức thời của cụm nhất

- Cập nhật trọng số đối với "chiến thắng" đó và các nút trong phạm vi bán kính huấn luyện

- Kiểm tra tỉ lệ hội tụ để tiếp tục hoặc kết thúc vòng lặp thao tác

- Kiểm tra chất lượng

- Lưu giữ các trọng số đã tính được như là nhãn lớp hoặc như là một thuộc tính để xem xét

- Sử dụng thuộc tính đã xem xét để phân loại bộ dữ liệu đầu vào

- Kiểm tra tính hợp lệ của kết quả

Khi phân cụm, một vấn đề được đặt ra là thế nào là hai phần tử gần nhau? Trong trường hợp dữ liệu vào được thu thập từ nhiều nguồn khác nhau,

có nhiều dạng khác nhau, không gian vào có nhiều chiều, mỗi chiều đều có thể là thông tin rõ hay thông tin mờ thì vấn đề còn rắc rối hơn nữa

Trong khuôn khổ của một luận văn thạc sỹ, tôi chọn đề tài:

“Khoảng cách giữa các tập mờ trong phân cụm dữ liệu nhờ SOM Thử nghiệm phân cụm sinh viên”

Nhằm tìm hiểu về khoảng cách mờ giữa các đối tượng, áp dụng trong phân cụm dữ liệu mờ

2 Mục đích nghiên cứu

Nghiên cứu cách tính khoảng cách giữa các đối tượng mờ ứng dụng trong phân cụm dữ liệu nhờ SOM nhằm nâng cao hiệu quả phân cụm trong các ứng dụng thực tế

Trang 7

3 Nhiệm vụ nghiên cứu

- Tìm hiểu chung về khai phá dữ liệu và phân cụm dữ liệu

- Tìm hiểu kỹ thuật phân cụm nhờ SOM

- Nghiên cứu cách tính khoảng cách (hoặc xác định độ tương tự) giữa các tập mờ mờ để áp dụng trong phân cụm dữ liệu nhờ SOM

- Thử nghiệm một số cách tính khoảng cách khác nhau khi phân cụm sinh viên với ứng dụng của SOM

4 Phương pháp nghiên cứu

- Nghiên cứu lý thuyết: Đọc tài liệu, phân tích tổng hợp, biên soạn thành luận văn

- Nghiên cứu thử nghiệm: Thử nghiệm phân cụm dữ liệu sinh viên với các cách tính khoảng cách khác nhau

5 Nội dung đề tài:

Ngoài phần mở đầu và kết luận ra luân văn gồm 4 chương:

Chương I: Phân cụm dữ liệu

Chương II: Phân cụm dữ liệu nhờ SOM

Chương III: Khoảng cách giữa các tập mờ

Chương IV: Phân cụm dữ liệu sinh viên

Trong khuôn khổ thời gian và điều kiện, trình độ có hạn, luận văn chắc chắn không tránh khỏi thiếu sót, rất mong sự góp ý của các thầy cô và các bạn

Trang 8

CHƯƠNG I PHÂN CỤM DỮ LIỆU 1.1 Khai phá dữ liệu:

Do sự bùng nổ thông tin và sự tiến bộ vượt bậc về kỹ thuật lưu trữ, thêm vào đó hầu hết các máy tính đều được nối với internet, những kho dữ liệu khổng lồ đã được tạo ra Tuy nhiên, dữ liệu được bố trí khá phân tán Với những kỹ thuật đơn giản thì việc tìm kiếm, khai thác thông tin là rất khó khăn

và không chính xác, mất nhiều thời gian Vấn đề đặt ra là làm thế nào để làm chủ được công nghệ, tìm kiếm, khai thác thông tin từ các kho dữ liệu được nhanh chóng và chính xác?

Ngày nay, nghiên cứu về kho dữ liệu, vấn đề không chỉ tập trung cải tiến việc lưu trữ mà người ta thường dành nhiều thời gian, công sức vào việc quản trị kho Do lượng thông tin lưu trữ trong kho là lớn, dữ liệu lưu trữ trong kho

là đa dạng, được thu thập từ nhiều nguồn khác nhau, vấn đề tìm kiếm, rút trích, khai thác thông tin, phát hiện tri thức từ kho đã vấp phải rất nhiều thách thức Nhìn chung qui trình khai phá dữ liệu thường gồm các pha sau

1.1.2 Thu thập và tiền xử lý

Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại không đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt Vì vậy,

Trang 9

giai đoạn thu thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ cơ sở dữ liệu phục vụ cho việc tìm kiếm dữ liệu

1.1.3 Khai phá dữ liệu

Giai đoạn khai phá dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập

và tiến hành tiền xử lý Trong giai đoạn này, công việc chủ yếu là xác định được bài toán khai phá dữ liệu, tiến hành lựa chọn các phương pháp khai phá phù hợp với dữ liệu có được và tách ra các tri thức cần thiết

Thông thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đưa ra những tính chất chung nhất của dữ liệu, các bài toán khai phá dự báo – bao gồm cả việc thực hiện các suy diễn, dựa trên dữ liệu hiện có Tùy theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá cũng như các thuật toán tìm kiếm dữ liệu cho phù hợp

Thực chất khai phá dữ liệu là tiến trình định hướng bài toán: Có một câu hỏi, một vấn đề, cần một câu trả lời, một cách giải quyết đuợc đặt ra Câu trả lời thông thường được tìm ra từ dữ liệu Dĩ nhiên, tìm kiếm những câu trà lời

từ dữ liệu là một vấn đề nghiên cứu từ rất lâu dựa trên nền tảng là môn thống

kê Bắt đầu vào thập kỷ 90, khai phá dữ liệu được coi như một lĩnh vực nghiên cứu độc lập và đến nay nó được thừa nhận như một ngành công nghiệp

Trong quá khứ, thuật ngữ “Data mining” mang sắc thái tiêu cực Ngày nay từ chuyên môn này mang ý nghĩa tích cực Đó là tìm kiếm các “quặng vàng” trong cơ sở dữ liệu

Tiến trình khai phá dữ liệu là một chu kỳ có những bước rõ ràng và các bước có quan hệ với nhau Các bước đó thường là: sự nhận định về công việc, nhận định dữ liệu, chuẩn bị dữ liệu, tìm kiếm mô hình, đánh giá và triển khai Qui trình này được lặp lại bởi vì các bước của tiến trình khai phá dữ liệu có thể tạo ra những sự hiểu biết mới, cho phép một vài bước đi đầu tiên làm việc

Trang 10

tốt hơn Đây là điều rất quan trọng vì những bước đi đầu làm nền móng cho

những bước đi sau: Nếu như chúng làm không tốt, thì những bước đi sau sẽ

trở nên khó khăn hơn rất nhiều

a)

b)

(b)

c)

Hình 1.1: (a) Mô hình tiến trình khai phá cơ sở dữ liệu

(b) Tiến trình khai phá tri thức trong cơ sở dữ liệu của Brachman

Hình 1.1 là sơ đồ khối của quá trình khai phá dữ liệu và các bước xây

Bài toán, giải pháp

và lựa chọn dữ liệu

Phát triển mô hình Chuẩn bị Khảo sát

Đánh giá

Mô hình

Nhận định công việc

Nhận định

dữ liệu

Chuẩn bị dữ liệu

Mô hình

Đánh giá Triển khai

Trang 11

Sau đây ta sẽ xét kỹ hơn các khối:

1.1.3.1 Nhận định công việc

Nhận định phạm vi bài toán là rất quan trọng trong tất cả các giai đoạn của khai phá dữ liệu Người khai thác quan sát một số lượng lớn thông tin dựa vào đặc điểm thống kê (không đề cập tới bản thân dữ liệu nguyên thủy) Anh

ta hoặc cô ta phải đưa ra quyết định về cái gì nên bỏ qua và cái gì nên theo xa hơn nữa và như thế nào Điều này không thể xảy ra nếu không có kiến thức thích hợp để quyết định cái gì là thú vị, là bất ngờ, cái gì là cái liên quan tới việc giải quyết bài toán đặt ra Nếu không có kiến thức cần thiết thì người khai thác sẽ không xác định được hướng đi đúng cho mình

Bước nhận định công việc có 3 mục đích chính :

 Để trao đổi nhận thức về phạm vi bài toán và khả năng khai phá dữ liệu giữa những người tham gia Trường hợp tốt nhất là trường hợp người tham gia thành thạo cả 2 lĩnh vực: Lĩnh vực liên quan đến phạm vi mà bài toán đề cập và lĩnh vực về các phương pháp khai phá dữ liệu Trong trường hợp đó, người ta dễ dàng đưa ra những vấn đề gì cần tìm từ dữ liệu và những phương pháp có thể tìm lời giải đáp về chúng Tuy nhiên, trường hợp phổ biến là những người đặt bài toán tìm kiếm không hiểu nhiều về các phương pháp tìm ra câu trả lời, còn những người thạo về kỹ thuật khai phá thì không hiểu mấy về những vấn đề liên quan đến bài toán đặt ra Khi đó hai bên phải trao đổi với nhau để cùng nhau đạt đến kết quả tốt nhất: hiểu bài toán và hiểu cách giải bài toán đó

 Để định nghĩa “bài toán” ban đầu một cách đúng đắn: Một bài toán tốt là bài toán có lời giải có ích, có lợi, và giải được với dữ liệu xác định cho trước Bài toán đúng là bài toán tìm câu trả lời cho những câu hỏi do người dùng đưa ra Khi đặt bài toán sai tình hình sẽ bế tắc Cố tìm một câu trả lời cho một câu hỏi sai - bằng cách đưa ra những kiểu dữ liệu sai hoặc tìm kiếm

Trang 12

một cách giải quyết không thể thực hiện được – là một sự nguy hiểm lớn nếu như người khai thác không biết gì về vấn đề công việc nằm bên dưới nhiệm

vụ khai phá dữ liệu

 Để xác định hình thức của lời giải Hình thức lời giải có thể là một bản báo cáo, một mô hình toán học hay một chương trình máy tính Từ hình thức lời giải người ta xác định công cụ, cách thức và kế hoạch khai phá dữ liệu Lời giải của bài toán là cái ra chính của tiến trình khai phá dữ liệu Tuy nhiên đó lại không phải là kết quả duy nhất Quá trình khai phá cũng sản sinh

ra sự hiểu mới Tuy nhiên, những sự hiểu biết này phần lớn đạt được do người khai phá dữ liệu, nhưng do là người không hiểu biết về lĩnh vực chuyên môn nên những người này lại không quan tâm đến những kết quả phụ Về khía cạnh này sự trao đổi thông tin giữa những người tham gia dự án là rất quan trọng

1.1.3.2 Nhận định dữ liệu

Dữ liệu là thành phần cốt lõi của khai phá dữ liệu nó luôn được chuẩn bị khi bắt đầu dự án Trong thực tế, dù sao việc thu thập dữ liệu (hoặc đợi dữ liệu thu thập) là công đoạn tốn thời gian nhất của khai phá dữ liệu Dữ liệu có thể thu thập từ một số nguồn khác nhau hoặc từ một nguồn nhất định Tập dữ liệu ban đầu có thể không đầy đủ và chúng ta có thể phải quay lại để thu thập nhiều dữ liệu hơn

Bước nhận định dữ liệu quan tâm tới việc thu thập dữ liệu và nhận định tổng thể về dữ liệu Bước này thường phải trả lời các câu hỏi sau: Dữ liệu có giúp giải quyết được bài toán đã cho hay không? Dữ liệu gì có sẵn? Nguồn gốc, hình mẫu, cấu trúc và độ tin cậy của dữ liệu đã có đó?

1.1.3.3 Chuẩn bị dữ liệu

Mục tiêu cơ bản của chuẩn bị dữ liệu là tạo ra công việc đơn giản để xây dựng các mô hình chính xác và các mô hình có chất lượng Tồn tại nhiều

Trang 13

thuật toán khác nhau cho phép xây dựng các mô hình từ dữ liệu Mỗi thuật toán có điểm mạnh và điểm yếu riêng Trong khi một số phương pháp xây dựng mô hình đang dần có khả năng nắm bắt những thao tác có độ phức tạp cao trong dữ liệu Những thuật toán này chỉ có thể thực hiện được với một lượng thời gian tính toán và đủ dữ liệu Hơn thế nữa, những mô hình thông dụng trong tự nhiên không thể dùng lĩnh vực tri thức Chỉ những người khai thác dữ liệu mới có thể biến đổi đa dạng lĩnh vực tri thức mơ hồ bên trong các thủ tục chuẩn bị tạo ra thông tin cần thiết sẵn sàng được dùng bởi mô hình công cụ Sự chuẩn bị tốt cho phép nó tạo ra chính xác hơn và các mô hình dễ hiểu hơn và dữ liệu ít hơn

Đôi khi dữ liệu ban đầu là không có lỗi Ở đây không có những lỗi về đánh máy lỗi về phép đo đạc sai hoặc những nguồn mang lỗi Nhưng đôi khi

dữ liệu có các giá trị lỗi buộc phải làm chính xác hoá để loại những lỗi đó khỏi dữ liệu

Có nhiều cách để giải quyết các mẫu mang giá trị lỗi Cáh đơn giản nhất

là loại bỏ toàn bộ mẫu bị lỗi ra khỏi tập giá trị Tuy nhiên làm như thế kích thước của các tập dữ liệu có thể bị giảm đi Hơn nữa số lượng thông tin về các biến khác nhau có thể bị mất Nếu bỏ qua toàn bộ các mẫu này thì thông tin sẽ

bị thất lạc Một cách tiếp cận tốt hơn là thay mỗi giá trị lỗi bằng một giá trị xấp xỉ thực, giá trị ước lượng, hoặc bằng một giá trị "vắng" Tuy nhiên giá trị

"vắng mặt", chỉ phù hợp trong trường hợp các công cụ mô hình đó có thể chấp nhận một phần dữ liệu Đó chính là phần có mặt

Mục đích khác của việc làm sạch dữ liệu là loại bỏ tạp nhiễu Trong lĩnh vực xử lý tín hiệu, tạp nhiễu là vấn đề thường gặp, ví dụ: bản chất chưa hoàn hảo của sự truyền kênh tần số Những tạp nhiễu như thế có thể bị loại bỏ do một vài phép đo trung bình từ đối tượng giống như vậy Trong bài toán trình

tự thời gian là làm chậm về thời gian Mỗi mẫu trong tập dữ liệu được chuẩn

Trang 14

bị tương ứng với đối tượng được định nghĩa tốt Nếu có sự trì hoãn về thời gian trong hệ thống, thì xây dựng các mẫu dữ liệu có thể khó khăn, bởi vì các phép đo cần thiết để thu thập từ những khoảng thời gian khác nhau

1.1.3.5 Đánh giá

Trước khi đến bước triển khai, giải pháp cần được đánh giá từ quan điểm của bài toán ban đầu Cách giải quyết có sẵn sàng trả lời câu hỏi cần thiết của khách hàng hay không? Cách giải quyết có chắc chắn với dữ liệu mới hay không? Có tồn tại những lĩnh vực quan trọng mà cách giải quyết là đặc thù yếu hay không? Giải pháp có chắc chắn trong vài tháng từ bây giờ không? Nó

có phải như thế không? Có thể tồn tại một vài đánh giá phê phán cần được kiểm tra hoặc nên kiểm tra Mục đích cuối cùng của bước đánh giá là để xác định giải pháp tìm thấy có đủ tốt để phát triển hay không?

Ngoài giải pháp, tiến trình khai phá dữ liệu còn sinh ra các kết quả:

Kết quả = Mô hình + Sự tìm kiếm

Sự tìm kiếm là khả năng thấu hiểu bên trong, quan điểm, các mô hình thứ cấp, bất cứ cái gì mà khác với giải pháp là quan trọng với bài toán Nó cũng cần được xen xét một cách cẩn thận

Nếu không có giải pháp tìm kiếm nào chấp nhận thì nó sẽ xác định cái gì được làm kế tiếp: tạo ra các mô hình tốt hơn, đưa ra nhiều dữ liệu hơn hoặc xác định lại giới hạn bài toán Nếu mô hình có vẻ không làm tốt với dữ liệu mới, hoặc tạo ra kết quả lạ hoặc các kết quả rất tồi thì có khả năng là dữ liệu

Trang 15

xây dựng đó bị thống kê sai lệch: nó thiếu thông tin quan trọng hoặc thậm trí mất đi nội dung thông tin Bước tìm kiếm giúp tất cả bằng cách gợi ý để mở

ra các câu hỏi, hoặc các bước tiếp sẽ làm tốt hơn

1.1.3.6 Triển khai

Cuối cùng, nếu giải pháp được cho rằng là một giải pháp tốt thì nó sẽ được triển khai Trong khi điều này có thể là trách nhiệm của khách hàng, và như vậy nó thuộc phạm vi bên ngoài của tiến trình khai phá dữ liệu, người khai thác dữ liệu sẽ cung cấp kế hoạch ban đầu cho việc triển khai Phần nào của phần mềm có cần thiết để thực hiện, dữ liệu được thu thập và được xử lý như thế nào và kết quả được làm sáng tỏ ra làm sao

Một khía cạnh quan trọng cần cân nhắc là tính chính xác của bài toán Bao lâu và dưới điều kiện giải pháp có thể được coi là các giá trị Có một vài loại kế hoạch để giám sát và bảo trì cho phép khách hàng thay đổi tính thẩm định Kế hoạch cũng nên được đề xuất ra gợi ý phải làm thế nào khi giải pháp không còn tính thẩm định nữa

Việc tìm kiếm cũng có ý nghĩa về lĩnh vực bài toán cũng được báo cáo

Nó có thể sảy ra trong tiến trình khai phá dữ liệu có một công việc có giá trị cần được thực hiện Một số lựa chọn có hứa hẹn chưa được điều ra, hoặc những sự thấu hiểu trang tiến trình có thể đưa ra những gợi ý cho dữ liệu hoặc

dự án hứa hẹn khác Những điều này sẽ được tổng kết ở bản báo cáo cuối cùng

Trang 16

Phân cụm khác phân lớp ở chỗ tiêu chuẩn để xác định xem một phần tử

ở cụm nào không cho trước Kết quả phân cụm phụ thuộc nhiều vào số cụm cần phân ra và tập dữ liệu cần phải phân cụm

Mục tiêu của phân cụm là xác định được bản chất nhóm trong tập dữ liệu chưa có nhãn Nhưng để có thể quyết định được cái gì tạo thành một cụm tốt

Nó có thể được chỉ ra rằng không có tiêu chuẩn tuyệt đối “tốt” mà có thể không phụ thuộc vào kết quả phân cụm Vì vậy, nó đòi hỏi người sử dụng phải cung cấp tiêu chuẩn này, theo cách mà kết quả phân cụm sẽ đáp ứng yêu cầu

Theo các nghiên cứu cho thấy thì hiện nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu Hơn nữa, các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của các cụm dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toán phân cụm phù hợp Phân cụm là vấn đề cơ bản, bao gồm: xây dựng hàm tính độ tương tự, xây dựng mô hình cho cấu trúc cụm dữ liệu, xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo, xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm

1.2.2 Các yêu cầu của phân cụm

Phân cụm dữ liệu là một thách thức trong lĩnh vực nghiên cứu ở chỗ những ứng dụng của chúng đòi hỏi có những yêu cầu đặc biệt Dưới đây là những yêu cầu cơ bản của phân cụm:

- Có khả năng mở rộng: Một số thuật toán phân cụm áp dụng tốt với

những tập dữ liệu nhỏ chứa ít hơn 200 đối tượng dữ liệu, tuy nhiên, một cơ sở

dữ liệu lớn có thể chứa tới hàng triệu đối tượng dữ liệu Việc phân cụm với một tập dữ liệu lớn có thể không hiệu quả Vì vậy, khả năng mở rộng là một trong những yêu cầu cần thiết đối với thuật toán phân cụm

Trang 17

- Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật

toán được thiết kế cho việc phân cụm dữ liệu dựa trên khoảng cách (dữ liệu kiểu số) Tuy nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm với nhiều kiểu dữ liệu khác nhau, như kiểu dữ liệu nhị phân, kiểu dữ liệu tuyển tập, và kiểu dữ liệu có thứ tự hay dạng hỗn hợp của các kiểu dữ liệu trên

- Khám phá các cụm với hình dạng bất kỳ: Một số thuật toán phân

cụm xác định các cụm dựa trên độ đo khoảng cách Euclidean hoặc khoảng cách Manhattan Các thuật toán dựa trên độ đo khoảng cách hướng tới việc tìm kiếm các cụm hình cầu với mật độ và kích cỡ tương tự nhau Tuy nhiên, một cụm có thể có hình thù bất kỳ Vì vậy, việc phát triển các thuật toán có thể khám phá ra các cụm có hình dạng bất kỳ là một việc làm quan trọng

- Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào:

Nhiều thuật toán phân cụm yêu cầu người sử dụng nhập tham số đầu vào cho quá trình phân cụm (chẳng hạn số cụm mà người sử dụng mong muốn) Kết quả của phân cụm thường khá nhạy cảm với các tham số đầu vào Hơn nữa, các tham số đầu vào rất khó để xác định, nhất là với các tập dữ liệu lớn Do

đó, nó không chỉ trở thành gánh nặng đối với người sử dụng mà còn làm cho chất lượng phân cụm khó kiểm soát

- Khả năng thích nghi với dữ liệu nhiễu: Đa số những cơ sở dữ liệu

trong thế giới thực đều chứa các dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu không đầy đủ Một số thuật toán phân cụm nhạy cảm với dữ liệu như vậy và có thể dẫn đến chất lượng phân cụm thấp

- Ít nhạy cảm với thứ tự của các dữ liệu vào: Một số thuật toán phân

cụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng một tập dữ liệu, khi được đưa ra với các thứ tự khác nhau thì với cùng một thuật toán có thể sinh ra các cụm rất khác nhau Do đó, việc quan trọng là phát triển các thuật toán mà ít nhạy cảm với thứ tự vào của dữ liệu

Trang 18

- Số chiều lớn: Nhiều thuật toán phân cụm áp dụng tốt cho dữ liệu với

số chiều thấp, bao gồm chỉ từ hai đến 3 chiều Người ta đánh giá việc phân cụm là có chất lượng tốt nếu nó áp dụng được cho dữ liệu có từ 3 chiều trở lên Nó là sự thách thức với các đối tượng dữ liệu trong không gian đa chiều, đặc biệt vì khi xét những không gian với số chiều lớn có thể rất thưa và có độ nghiêng lớn

- Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể cần thực hiện

phân cụm dưới các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng thái phân cụm tốt và thỏa mãn các ràng buộc

- Dễ hiểu và dễ sử dụng: Người sử dụng mong đợi kết quả phân cụm

phải dễ hiểu và dễ sử dụng Nghĩa là, phân cụm có thể gắn với sự giải thích rõ ràng Điều này rất quan trọng để nghiên cứu mục tiêu của ứng dụng có ảnh hưởng như thế nào đến việc lựa chọn thuật toán phân cụm

- Ma trận dữ liệu (Oject-by-variable structure - cấu trúc biểu diễn đối

tượng bởi biến): Cấu trúc này biểu diễn n đối tượng bởi p biến Ở đây, khái

niệm biến còn được gọi là độ đo hoặc thuộc tính Ví dụ, nếu đối tượng là sinh viên, các biến có thể là mã sinh viên, giới tính, quê quán … Cấu trúc dữ liệu

trong trường hợp này là một bảng quan hệ, hay một ma trận cấp n x p (n đối tượng x p thuộc tính)

Trang 19

- Ma trận phi tương tự (Oject-by-object structure - cấu trúc biểu diễn

đối tượng bởi đối tượng): Ta gọi d(i, j) là độ đo sự khác nhau hay sự phi

tương tự giữa đối tượng i và đối tượng j Khi đó cấu trúc ma trận phi tương tự lưu giữ một tuyển tập các độ đo giữa mỗi cặp đối tượng của một tập n đối tượng Đó là ma trận cấp n x n được biểu diễn như sau:

0 (2,1) 0 (3,1) (3, 2) 0

Vậy làm thế nào để đánh giá được sự phi tương tự (xác định d(i, j)) Một

số thuộc tính của các đối tượng mà dựa trên đó chúng ta tính toán sự phi tương tự giữa các đối tượng như: thuộc tính khoảng, thuộc tính nhị phân, thuộc tính định danh, thuộc tính có thứ tự, thuộc tính tỉ lệ, thuộc tính kiểu hỗn hợp

1.2.4 Một số phương pháp phân cụm dữ liệu

Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các cách tiếp cận chính sau :

1.2.4.1 Phương pháp phân cụm phân hoạch

Trang 20

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean

Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dày đặc

Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất

cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn

để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm

Lớp các thuật toán phân cụm phân hoạch được sử dụng nhiều trong thực

tế Một số thuật toán trong lớp này là: Thuật toán K-means, PAM, CLARA, CLARANS

1.2.4.2 Phương pháp phân cụm phân cấp

Phương pháp phân cụm phân cấp xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo

kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này đó là: phương pháp "trên xuống" (Top-Down) và phương pháp "dưới lên" (Bottom-Up)

Trang 21

- Phương pháp Top-Down: Phương pháp này bắt đầu với trạng thái là tất

cả đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương

tự nào đó cho đến khi mỗi đối tượng là một cụm hoặc cho đến khi điều kiện dừng thỏa mãn Các tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm

- Phương pháp Bottom-Up: Bắt đầu với mỗi đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhóm các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm

Thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp phân cụm dữ liệu

cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phương pháp này

đã được áp dụng phổ biến trong khai phá dữ liệu Một số thuật toán phân cụm phân cấp điển hình như: CURE, BIRCH, ANGNES, DIANA, CHAMELEON, ROCK

1.2.4.3 Phương pháp phân cụm dựa trên mật độ

Phương pháp này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định Trong đó mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một ngưỡng nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận với đối tượng nnb nn nnnày phải lớn hơn một ngưỡng đã

Trang 22

được xác định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Phương pháp này có thể khắc phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phân cụm

Một số thuật toán phân cụm dữ liệu dựa trên mật độ điển hình như: DBSCAN, OPTICS, DENCLUE, SNN, …

1.2.4.4 Phương pháp phân cụm dựa trên lưới

Kỹ thuật phân cụm dựa trên mật độ không thích hợp với dữ liệu nhiều chiều, để giải quyết vấn đề này người ta sử dụng kỹ thuật phân cụm dựa trên mật độ Đây là phương pháp dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành cấu trúc

dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô này Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô Trong ngữ cảnh này, phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chỉ có điều chúng không trộn các ô Do vậy các cụm không dựa trên độ đo khoảng cách (hay còn gọi là độ đo tương tự đối với các dữ liệu không gian) mà nó được quyết định bởi tham số xác định trước Ưu điểm của phương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào

đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới

Một số thuật toán phân cụm dữ liệu dựa trên cấu trúc lưới điển hình như: STING, WaveCluster, CLIQUE,…

1.2.4.5 Phương pháp phân cụm dựa trên mô hình

Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số

mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng

Trang 23

chiến lược phân cụm phân hoạch hoặc chiến lược phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp cận chính: mô hình thống kê và mạng nơron Phương pháp này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm Một số thuật toán điển hình như EM, COBWEB, …

Thuật toán FCM đã được áp dụng thành công trong giải quyết một số lớn các bài toán phân cụm dữ liệu như trong nhận dạng mẫu, xử lý ảnh, y học,… Tuy nhiên, nhược điểm lớn nhất của FCM là nhạy cảm với nhiễu và phần tử ngoại lai trong dữ liệu, nghĩa là các trung tâm cụm có thể nằm xa so với trung tâm thực của cụm

Trang 24

Đã có nhiều phương pháp đề xuất cải tiến cho nhược điểm trên của thuật toán FCM bao gồm : phân cụm dựa trên xác suất (Keller, 1993), phân cụm nhiễu mờ ( Dave, 1991), phân cụm dựa trên toán tử Lp, Norm(Kerstem, 1999)

và thuật toán Insensitive Fuzzy C-means(FCM - không nhạy cảm mờ c -

means)

Trang 25

CHƯƠNG 2 PHÂN CỤM DỮ LIỆU NHỜ SOM

SOM (Self Organizing Map) do Kohonen phát triển vào đầu thập niên những năm 80, được sử dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là lĩnh vực khoa học và phân tích dữ liệu Trước khi tìm hiểu về SOM chúng ta sẽ tìm hiểu về mạng nơron nhân tạo

2.1 Mạng Nơron nhân tạo

Sau đây là những thành phần chính trong cấu trúc của một nơron:

Hình 2.1 Cấu trúc của một nơron

 Soma là thân của nơron

 Các dendrites là các dây mảnh, dài, gắn liền với soma, chúng truyền dữ liệu (dưới dạng xung điện thế) đến cho soma xử lý Bên trong soma các dữ liệu đó được tổng hợp lại Có thể xem gần đúng sự tổng hợp ấy như là một phép lấy tổng tất cả các dữ liệu mà nơron nhận được

 Một loại dây dẫn tín hiệu khác cũng gắn với soma là các axon Khác với dendrites, axons có khả năng phát các xung điện thế, chúng là các dây dẫn tín hiệu từ nơron đi các nơi khác Chỉ khi nào điện thế trong soma vượt quá một giá trị ngưỡng nào đó (threshold) thì axon mới phát một xung điện thế, còn nếu không thì nó ở trạng thái nghỉ

Trang 26

 Axon nối với các dendrites của các nơron khác thông qua những mối nối đặc biệt gọi là synapse Khi điện thế của synapse tăng lên do các xung phát ra từ axon thì synapse sẽ nhả ra một số chất hoá học (neurotransmitters); các chất này mở "cửa" trên dendrites để cho các ions truyền qua Chính dòng ions này làm thay đổi điện thế trên dendrites, tạo ra các xung dữ liệu lan truyền tới các nơron khác

Có thể tóm tắt hoạt động của một nơron như sau: nơron lấy tổng tất cả các điện thế vào mà nó nhận được, và phát ra một xung điện thế nếu tổng ấy lớn hơn một ngưỡng nào đó Các nơron nối với nhau ở các synapses Synapse được gọi là mạnh khi nó cho phép truyền dẫn dễ dàng tín hiệu qua các nơron khác Ngược lại, một synapse yếu sẽ truyền dẫn tín hiệu rất khó khăn

Mô hình của một nơron, và mạng nơron nhân tạo

Một nơron là một đơn vị xử lý thông tin là cơ sở thao tác của một mạng nơron Dưới đây là mô hình một nơron nhân tạo:

Hình 2.2 Mô hình một nơron nhân tạo

Trong đó:

- Input là vectơ cột bên trái, có thể có một chiều hoặc nhiều chiều

- Weights là hình được nối từ đầu (Input) vào đến nơron Cụ thể đầu vào

thứ j của xj nối với nơron thứ k được ký hiệu là w kj

Trang 27

- Summing Unit là tổng của tất cả các trọng số (Weights) các đầu vào

được kết nối tới nơron

- Threshold được thêm vào tổng của trọng số đầu vào và biểu diễn thành

(2.1)

Kết quả này sẽ được so sánh với threshold t của nơron, nếu nó lớn hơn

t thì nơron cho output là 1, còn nếu nhỏ hơn thì output là 0 Ngoài ra ta cũng

có thể trừ tổng nói trên cho t, rồi so sánh kết quả thu được với 0, nếu kết quả

là dương thì nơron cho ouput bằng 1, nếu kết quả âm thì output là 0 Dưới dạng toán học ta có thể viết output của nơron như sau:

(2.2)

Mô hình của một mạng nơron nhân tạo được thể hiện như sau:

Trang 28

Hình 2.3 Mô hình các lớp của mạng Nơron nhân tạo

Một mạng Nơron gồm có 3 loại lớp: Lớp vào, các lớp ẩn và lớp ra

Lớp vào gồm các nơron chỉ nhận thông tin từ ngoài và truyền thông tin

đó cho các nơron lớp ẩn thứ nhất Các nơron này họat động giống như các bộ cảm ứng, trong đó không có bộ cộng, không có hàm kích hoạt Vì thế trong một số tài liệu người ta không coi các phần tử lớp vào là các nơron Số nơron lớp ẩn có thể có nhiều, có thể không có và cũng có khi chỉ có một Các nơron lớp ra ngoài việc xử lý thông tin như các nơron bình thường còn có nhiệm vụ truyền tín hiệu ra ngoài

Trọng số từ lớp vào đến lớp ẩn được ký hiệu như sau:

Trang 29

Tương tự như vậy, ta có thể biểu diễn sơ đồ trọng số dưới dạng ma trận:

là sơ đồ tự tổ chức (Self Organizing Map - SOM)

2.2 Sơ đồ tự tổ chức (Self Organizing Map - SOM)

SOM có một số tính năng tốt để trở thành một phương pháp hiệu quả cho khai phá dữ liệu Nó cài đặt một sơ đồ thu gọn số chiều có thứ tự của dữ liệu huấn luyện Sơ đồ tuân theo hàm mật độ xác suất của dữ liệu và tốt với dữ liệu bị thất lạc Nó không khó miêu tả, đơn giản và dễ hình dung – có lẽ quan trọng nhất là dễ trực quan hóa Sự trực quan hóa của dữ liệu đa chiều thực sự

là một trong lĩnh vực ứng dụng chính của SOM [35]

2.2.1 Thuật toán cơ sở

SOM cơ sở bao gồm các M nơron được xác định đúng vị trí trên một

lưới chiều thấp chính qui, thông thường – 1 hoặc 2 – chiều Người ta không

sử dụng SOM với số chiều cao hơn bởi vì hình dung về nó là khó khăn Hàng rào của lưới có thể là hình lục giác đều hoặc hình chữ nhật, xem hình 2.6

Hình 2.6 Các tập hợp lân cận (tại bán kính 0, 1 và 2) của đơn vị chính giữa:

(a) hàng rào hình lục giác, (b) hàng rào hình chữ nhật

Trang 30

Thuật toán cơ sở SOM là lặp lại Mỗi nơron i có 1 vectơ nguyên mẫu d chiều mi = [mi1, …, mdi] Tại mỗi bước xây dựng, một vectơ mẫu dữ liệu x được chọn ngẫu nhiên từ tập được xây dựng Khoảng cách giữa vectơ x với tất cả các vectơ nguyên mẫu có thể tính được Đơn vị kết nối phù hợp nhất (BMU), được

ký hiệu ở đây là b, là đơn vị sơ đồ với nguyên mẫu gần nhất với x:

||x - mb|| = min

i {||x - mi||} (2.3) Tiếp theo, các vectơ nguyên mẫu được cập nhật BMU và lân cận topo của nó được đẩy tới gần hơn như vectơ đầu vào trong không gian đầu vào, như là trong hình 2.7

Hình 2.7: Cập nhật đơn vị phù hợp nhất (BMU) và lân cận của nó và mẫu đầu vào được đánh dấu bởi x Các vòng tròn đen và xám tương đương với vị trí trước và sau được cập nhật, tương ứng Các đường thẳng chỉ ra mối quan hệ lân cận

Luật cập nhật cho vectơ nguyên mẫu của đơn vị i là:

mi(t+1) = mi(t) + α(t)hbi(t)[x – mi(t)] (2.4) Trong đó t là biều hiện thời gian, α(t) là tỷ lệ tri thức và hbi(t) là một nhân lân cận được đặt ở vị trí trung tâm trên đơn vị thành công Nhân có thể

ví dụ là công thức Gaussian:

2

| ||

| 2

2 ( )

( )

r b r i t

Trang 31

Trong đó rb và ri là những vị trí của các nơron b và i trên lới SOM và σ(t)

là bán kính lân cận Cả hai tỷ lệ α(t) và bán kính lân cận σ(t) giảm đơn điệu theo thời gian Trong thời gian xây dựng, SOM làm việc tốt như là một lưới

cơ động có thể gấp lại trên "đám mây" hình thành bởi dữ liệu đang xử lý Bởi

vì các nguyên mẫu lân cận được đẩy đến cùng một hướng và do vậy các vectơ nguyên mẫu của các đơn vị lân cận tương tự nhau

2.2.2 Các biến thể của SOM

Thuật toán SOM cơ sở có một số các biến thể Yếu tố thông dụng của chúng là tất cả các biến thể về bản chất thu thập của các vectơ nguyên mẫu và

là một tập hợp của các mối quan hệ lân cận được định nghĩa giữa chúng Các vectơ nguyên mẫu được điều chỉnh lại cho tương ứng với dữ liệu huấn luyện,

và các mối quan hệ lân cận được dùng theo cách mà các vectơ nguyên mẫu lân cận đó trở nên đồng dạng với các vectơ còn lại

Trong SOM cơ sở, các lân cận được định nghĩa bởi cách đưa các nguyên

mẫu có vị trí cố định r i trên một sơ đồ đầu ra chiều thấp Trong vài biến thể, các quan hệ lân cận mềm dẻo hơn trong thứ tự dữ liệu Tuy nhiên, những điều này làm cho việc trực quan hóa trở nên khó khăn hơn Một số biến thể của SOM cũng được xây dựng tồn tại giữa hai mức: xác định tốt các nút vị trí chiều thấp, nhưng vị trí này chỉ mềm dẻo tới mức nào đó

Sơ đồ lô: Sơ đồ lô là một phiên bản của thuật toán SOM trong đó chuẩn

huấn luyện α không được sử dụng [35] Thuật toán này cũng lặp lại, nhưng thay vào việc dùng một vectơ dữ liệu đơn tại một thời điểm, toàn bộ tập dữ liệu được thể hiện trên sơ đồ trước bất kỳ sự điều chỉnh nào – vì thế có tên là

"lô" Trong mỗi bước huấn luyện, tập hợp dữ liệu được phân đoạn tuân theo khu vực Voronoi của sơ đồ các vectơ trọng số, ví dụ mỗi vectơ dữ liệu thuộc tập dữ liệu của sơ đồ đơn vị cái mà nó gần nhất Các vectơ trọng số mới được tính như sau:

Trang 32

1

( ) ( )

( 1)

r

bi j j

N bi j

t

h x t

Trong đó b là BMU của mẫu dữ liệu xj, xem công thức (2.3) Vectơ trọng

số mới là trung bình cộng trọng số của các mẫu dữ liệu, trong đó trọng số của

mỗi mẫu dữ liệu là giá trị hàm lân cận hbi (t) tại BMU chỉ số b của nó

SOM tổ chức dạng cây: SOM tổ chức dạng cây là một phiên bản nhanh

đặc thù của SOM [40, 41] Nó bao gồm một tập các phân lớp, mỗi phân lớp là một lượng tử hóa hoàn toàn của không gian dữ liệu Sự khác nhau giữa các phân lớp là số lượng các mẫu tăng theo cấp số nhân khi mà cây duyệt xuống phía dưới Ví dụ lớp đầu tiên chỉ có 4 vectơ mẫu, lớp thứ 2 có 16, lớp thứ ba

có 64, và cứ như thế Vì vậy, mỗi vectơ nguyên mẫu của một lớp tăng 4 lần trong lớp tiếp theo Phân lớp trên được dùng cho việc huấn luyên các lớp dưới: Thay vì so sánh việc đưa vectơ dữ liệu tới tất cả các vectơ nguyên mẫu, chẳng hạn phân lớp 3, đầu tiên nó được so sánh với nguyên mẫu trong lớp 1, sau đó so sánh với hậu duệ của phân lớp nhất chiến thắng này và các lân cận của nó, và tiếp tục như vậy Số lượng của các phép tính toán khoảng cách sẽ giảm một cách đáng kể đặc biệt trong phân lớp thấp nhất Cũng vậy, các phân lớp được thêm tại một thời điểm và do vậy nó sẽ trở lên dần dần chi tiết hóa

sơ đồ dữ liệu

MST_SOM: trong MST_SOM những quan hệ lân cận được xác định sử

dụng “minimal spanning tree” (cây bao trùm tối tiểu – MST) [28] MST định nghĩa tập vị trí ngắn nhất liên kết các tập vectơ lại với nhau Trong lượng tử hóa vectơ, MST_SOM nhanh và ổn định hơn nhiều so với SOM cơ sở Mặt khác, các nguyên mẫu không xác định được vị trí tốt trên lưới chiều thấp và vì thế sự trực quan trở nên khó khăn hơn

Khí nơron: Khí nơron là một biến thể khác của SOM trong đó các lân

cận được định nghĩa trong quá trình huấn luyện [53] Các lân cận được định

Trang 33

nghĩa bởi sự sắp xếp thứ tự khoảng cách của các vectơ nguyên mẫu từ mẫu huấn luyện đuợc đưa ra

Cấu trúc tế bào tăng trưởng: trong thuật toán các cấu trúc tế bào tăng trưởng thích nghi đạt được một mức xa hơn [15,16] Thay vì có số lượng lớn các vectơ nguyên mẫu, thì thuật toán bắt đầu với chỉ 2 vectơ, và sau đó thêm các vectơ nguyên mẫu mới tuỳ theo tiêu chuẩn của hàm lỗi Các lân cận được định nghĩa tại thời điểm một nguyên mẫu mới được thêm vào trong mạng Các vectơ mẫu cũng có thể bị bỏ đi

2.2.3 Các thuật toán liên quan

Các phương pháp nhân Thông thường, SOM có quan hệ với phương pháp nhân - phương pháp tiếp cận với mô hình dữ liệu sử dụng các nguyên mẫu [8] Các ví dụ của phương pháp nhân được dùng cho mô hình hóa bao gồm mạng hàm tia cơ sở [59, 5] và hệ thống mờ Elipxoit [43]

Các thuật toán nổi tiếng có liên hệ gần gũi với SOM là thuật toán lượng

tử hóa vectơ k trung bình và thuật toán phân nhóm Chú ý ở đây là sự khác nhau giữa các vectơ lượng tử cổ điển [19, 55] và SOM là SOM thực hiện làm mịn cục bộ trong lân cận của mỗi đơn vị sơ đồ, có thể nhìn thấy phép đo không chính xác ở công thức 2.6 Nếu giá trị nhân lân cận là có giá trị đối với BMU và còn lại bằng 0 (hbi = δ(b,i) trong công thức 2.5), thì SOM giảm thành thuật toán k-trung bình [55]

Một thuật toán liên quan gần gũi khác là thuật toán mờ c-trung bình [2], thuật toán này khác thuật toán k-trung bình là mỗi mẫu dữ liệu có thể thuộc về một số nhóm thậm chí là tất cả SOM cũng có thể được làm rõ ở cách này nếu như các giá trị hàm lân cận được dùng như là giá trị thành viên

Các đường cong chính: Các đường cong chính và bề ngoài [21] biểu

hiện khái niệm tương tự với SOM [8,29] Trong các đường cong chính, ý tưởng để tìm đường cong trung tâm (hoặc mặt) thông qua đa dạng dữ liệu

Trang 34

Mỗi điểm trên đường cong chính là giá trị trung bình của tất cả các điểm chiếu vào nó Các vectơ nguyên mẫu SOM có thể được làm rõ thành trung bình có điều kiện của dữ liệu, và do vậy nó là đối tác rời rạc của đường cong chủ yếu [60]

Phép chiếu vectơ: SOM cũng có liên quan tới thuật toán phép chiếu

vectơ [28, 8] Trong phép thử một phép chiếu vectơ chúng ta cố gắng tìm kiếm trục toạ độ chiều thấp cho các mẫu dữ liệu chiều cao đề một số tính năng của tập dữ liệu ban đầu càng được bảo tồn càng tốt Mục đích là giảm bớt số chiều, và thường xuyên trực quan hóa nếu không gian đầu ra là 2 hoặc

3 chiều Các tính năng điển hình được bảo tồn là các cặp khoảng cách thông minh giữa các mẫu dữ liệu (hoặc ít nhất là thứ tự của chúng) và dẫn đến sự bảo tồn hình dạng của đa dạng dữ liệu trong phép chiếu Trong tọa độ đa chiều [45] tất cả các cặp khoảng cách thông minh được đánh trọng số như nhau Hàm năng lượng được giảm đến mức tối thiểu là:

 

 

i N

Trong đó dij là khoảng cách giữa các mẫu dữ liệu i và j trong không gian

đầu vào ||xi-xj||, và d là khoảng cách tương ứng giữa phép chiếu kết hợp ij'

trong không gian đầu ra Khoảng cách lớn hơn có tác động lớn hơn tới hàm lỗi, và cuối cùng sự tổ chức toàn cục quan trọng hơn rất nhiều so với topo cục

bộ Trong sơ đồ của Sammon [62] và phân tích thành phần đường cong tuyến tính (Curvilinear componet Analysis - CCA) [21] thì mẫu gần kề được đánh trọng số nhiều hơn, và tính tôpô cục bộ được bảo vệ tốt hơn:

Sơ đồ của Sammon:  

 N

i N

j d ij d ij d ij

E

1 1

2 / ' )

CCA: E d ij d ij e d ij

N

i N

Trang 35

Chú ý sơ đồ của Sammon nhấn mạnh tính gần của không gian đầu vào,

`trong khi CCA nhấn mạnh không gian đầu ra Các thuật toán vectơ chiếu còn lại có thể tìm thấy [11, 33, 42, 52, 64] SOM cũng là một thuật toán chiếu vectơ bởi vì các vectơ nguyên mẫu được xác định tốt vị trí trên sơ đồ lưới chiều thấp

Hàm năng lượng: Khi so sánh SOM với những thuật toán khác, hàm

năng lượng của SOM - hay sự thiếu của nó - nhất thiết phải nêu lên Người ta

đã biết rằng trong trường hợp tổng quát thì thuật toán SOM không có hàm năng lượng [13] Trong trường hợp của tập dữ liệu rời rạc và nhân lân cận cố định, sơ đồ cách đo không chính xác có thể xem là hàm năng lượng cục bộ của SOM

1 1h xj mi E

N

j M

Trong đó N là số mẫu huấn luyện, M là số đơn vị sơ đồ, nhân lân cận h bi đặt

trung tâm vào đơn vị b là đơn vị phù hợp nhất của vectơ xj Tuy nhiên, khi chỉ

số b của BMU của bất kỳ một mẫu dữ liệu xj thay đổi, hàm năng lượng thay đổi nhỏ, và do vậy SOM chỉ đưa ra một giải pháp gần đúng cho phương trình 2.6 Để có thể thu được lời giải chính xác, định nghĩa của người chiến thắng nên chuyển thành b = arg mink{∑ihki||xj-mi||2} [23] Về phương diện tính toán thì công việc này nặng nhọc hơn nhiều so với SOM cơ sở, nhưng nó cho phép tạo ra mã chống lại tạp nhiễu của vectors đầu vào Nếu như hàm lân cận được chuẩn tắc hoá ∑khki = 1, giá trị đưa ra gây tạp nhiễu làm thay đổi xác suất ở giữa các mã lỗi (các đơn vị sơ đồ) [18, 50]

2.2.4 Phân tích dữ liệu sử dụng SOM

2.2.4.1 Lượng tử hoá

SOM có tính chất của cả thuật toán lượng tử hoá vector và thuật toán chiếu vectors Lượng tử hóa từ N mẫu huấn luyện thành M nguyên mẫu giảm

Trang 36

tập dữ liệu ban đầu thành tập nhỏ hơn, nhưng vẫn mang đủ tính chất đại diện

để làm việc Phân tích xa hơn - ví dụ phép nhóm và trực quan, xem hình 2.3 - được thể hiện (sơ lược) sử dụng các vectors nguyên mẫu thay vì toàn bộ dữ liệu

Hình 2.8: Phân tích dữ liệu sử dụng SOM như là bước trung gian

Sử dụng tập dữ liệu thu gọn chỉ có giá trị nếu tập này đại diện cho tập dữ liệu ban đầu Đối với phép lượng tử hoá vectors cổ điển, người ta đã chỉ ra rằng mật độ của véc tơ nguyên mẫu tỉ lệ với c p x ( )d dr , trong dó p(x) là

hàm mật độ xác suất của dữ liệu đầu vào, d là chiều ra là khoảng cách chuẩn

và c là hằng số chuẩn tắc [17,36,77] Đối với SOM, luật luỹ thừa được rút ra trong trường hợp 1 chiều [61] Thậm chí luật luỹ thừa chỉ hữu dụng khi số lượng nguyên mẫu là vô hạn và độ rộng lân cận là rất lớn, những thí nghiệm

số học đã chỉ ra rằng kết quả cũng tương đối chính xác đối với số lượng nhỏ nguyên mẫu [36] Trong khi sự liên hệ giữa mật độ nguyên mẫu của SOM và

dữ liệu đầu vào chưa được rút ra đối với trường hợp tổng quát, chúng ta có thể giả sử rằng SOM đại thể tuân theo mật độ của dữ liệu huấn luyện

Phương pháp tiếp cận này khá gần với sự ép dữ liệu nơi ý tưởng thu nhỏ tập dữ liệu về chứ không tạo ra một thuật toán mới mà theo tập dữ liệu được dãn ra Sự ép dữ liệu dựa trên [12] việc thống kê (cục bộ) tập dữ liệu càng gần

Trang 37

với tập dữ liệu ban đầu càng tốt Trong phép lượng tử hoá vectors thì hàm mật

độ xác suất dẫn dắt quá trình này

Lợi ích chính của việc sử dụng một tập dữ liệu được làm giảm là sự kết hợp tính toán của các bước tiếp theo được giảm đi, ví dụ phân nhóm [74] Sự làm giảm đặc biệt quan trọng trong những bước đầu (hoặc lặp lại ban đầu) của khai phá dữ liệu Bởi vì các dữ liệu khác nhau và một vài chiến lược tiền xử lýcần thiết để tính toán tốc độ, và tính vững chắc quan trọng hơn sự chính xác

Sự chính xác trong việc xây dựng các mô hình được tính toán kỹ là quan trọng, và tập dữ liệu lớn không ủng hộ việc loại bỏ tập dữ liệu được làm giảm Một lợi ích khác của lượng tử hóa vectơ là nó liên quan tới giá trị trung bình của các mẫu dữ liệu, cuối cùng loại bỏ tạp nhiễu giá trị trung bình bằng 0

và làm giảm hiệu ứng không tốt

2.2.4.2 Phép chiếu

Để có thể hình dung nguyên mẫu một cách hiệu quả, phép chiếu vectơ là cần thiết Tập dữ véc tơ nguyên mẫu và phép chiếu của chúng về hình thức là một sơ đồ hướng thấp của đa dạng dữ liệu

Vì nguyên mẫu vectors của SOM có một vị trị xác định rõ ràng trên lưới

sơ đồ chiều thấp, SOM là một thuật toán chiếu vectors Phép chiếu của mẫu

dữ liệu có thể định nghĩa như là chỉ số b hoặc vị trí rb của BMU trên lưới sơ

đồ Loại phép chiếu này tất nhiên là còn thô Phép chiếu là rời rạc vì nó chỉ có thể lấy nhiều giá trị bằng với số đơn vị sơ đồ Do vậy, nhiều vector khác nhau

có thể chiếu vào cùng một điểm Vì hình dạng sơ đồ cũng được xác định trước, thông tin của hình dạng tổng thể của dữ liệu đa dạng bị mất Ngược lại, hầu hết kỹ thuật chiếu vector, như sơ đồ Shammon, có một đầu ra liên tục Trong một số trường hợp nhiệm vụ hình dung phép chiếu định nghĩa bởi SOM được bổ sung với những phương pháp khác

Trang 38

Tuy nhiên, với tư cách là một thuật toán chiếu, SOM có lợi thế hơn rất nhiều so với các thuật toán khác Thứ tự topo của đơn vị sơ đồ phụ thuộc chủ yếu vào lân cận cục bộ được xác định trên lưới sơ đồ Vì có nhiều đơn vị sơ

đồ có mật độ cao, lân cận trong những khu vực này trở nên nhỏ hơn so với sự

đo đạc của không gian đầu vào Do vậy, phép chiếu trở thành mật độ dữ liệu cục bộ

2.2.4.3 Lợi ích và rủi ro

Cũng có những thuật toán khác kết hợp cả sự lượng tử hoá vectors và phép chiếu vectors, ví dụ: lượng tử vectơ và phép chiếu mạng nơron, và sự kết hợp của bất kỳ một thuật toán vectors lượng tử và phép chiếu, k-trung bình và sơ đồ Shammon [14], hay k-trung bình và trục toạ độ đa chiều (Multi Dimensional Scaling - MDS) [63] Phương pháp khai phá dữ liệu giải thích trong luận văn này có thể áp dụng dùng nhiều kỹ thuật khác Kỹ thuật nào trong số đó là tốt phụ thuộc toàn bộ vào mục đích áp dụng, bởi vì mỗi một thuật toán có một mục đích khác nhau

Mục đích của SOM là tạo ra một sơ đồ có thứ tự topo (ví dụ cục bộ) của

dữ liệu theo nghĩa mặt hoặc đường cong chính rời rạc Bên cạnh những lợi ích

về mặt tính toán có được do sự lượng tử hoá vectors, những lợi ích của SOM là:

Tính vững chắc: Giả sử hàm lân cận tiến đủ xa, như trong trường hợp

hàm lân cận Gaussian, SOM rất vững chắc vì tất cả nguyên mẫu đều bị ảnh hưởng của tất cả các mẫu dữ liệu

Điều chỉnh cục bộ: Thứ tự topo làm việc chủ yếu trong lận cận của từng

đơn vị sơ đồ, và điều chỉnh cục bộ đối với mật độ dữ liệu

 Minh họa dễ dàng: Sơ đồ lưới chính quy làm cho khả năng xây dựng

minh hoạ giao diện người dùng trở nên dễ dàng

Trang 39

Rất nhiều những lợi ích ở trên là do quan hệ lân cận Chúng rất thiết yếu trong việc tạo ra sự tổ chức của SOM Tuy nhiêu, sự lân cận cũng có 3 mặt còn hạn chế:

Hiệu ứng biên: sự xác định lân cận không cân đối trên biên của sơ

đồ.Vì thế, sự đánh giá mật độ là khác nhau đối với các phần tử biên hơn là đối

với phần tử trung tâm của sơ đồ

Độ nén: Phạm vi của giá trị biến bị nén Giá trị trung bình được tạo ra

bởi thủ tục lượng tử hoá véc tơ, và nâng lên bởi hàm lân cận, đưa đến tính trung bình của giá trị vô cùng Điều này đưa tới những hiệu ứng không mong muốn trong một số trường hợp, ví dụ phần tách biệt là đáng chú ý đối với

quan điểm phân tích

Đơn vị nội suy: Khi những đám mây dữ liệu là không liên tục, đơn vị

nội suy được đặt giữa những nhóm dữ liệu cung cấp một cách thuận lợi ước lượng ngoại suy đối với phân bố dữ liệu Tuy nhiên, trong trường hợp một số công cụ phân tích, ví dụ sự nhóm một kết nối, những điều này có thể đưa đến những xử lý không thích hợp về hình dạng của đa dạng dữ liệu và cần phải

không được nhấn mạnh hoặc loại bỏ hoàn toàn

2.2.4.4 Độ co dãn

Hình 2.9 đưa ra minh hoạ cho phép cài đặt một số bước xử lý SOM viết

bằng mã C Độ phức tạp tính toán của một bước huấn luyện là O(Md) Tương

ứng, một giai đoạn huấn luyện - duyệt toàn bộ dữ liệu một lúc - có độ phức

tạp là O(MNd), ở đó N là số mẫu dữ liệu Độ phức tạp của toàn bộ tiến trình

huấn luyện phụ thuộc vào độ phức tạp của giai đoạn huấn luyện Nếu chọn tỷ

lệ với M/N (hoặc tương tự, số lượng bước huấn luyện tỉ lệ với M [37]) độ phức tạp của toàn bộ huấn luyện là O(M²d)

Hơn thế, nếu số lượng đơn vị sơ đồ được chọn tỷ lệ với N [74], độ phức tạp của toàn bộ huấn luyện tỉ lệ tuyến tính với số lượng mẫu dữ liệu

Trang 40

O(Nd) Tất nhiên, sự lựa chọn này là tương đối ngẫu nhiên Phụ thuộc vào

ứng dụng, số lượng đơn vị sơ đồ có thể độc lập với số lượng mẫu dữ liệu,

hoặc cần phải tỉ lệ trực tiếp với N như trong [37]

Việc tiêu tốn bộ nhớ phụ thuộc vào việc có tính toán trước hay không khoảng cách giữa các đơn vị trong không gian dầu ra Nếu được tính trước, sự tiêu dùng bộ nhớ tỉ lệ bậc bốn với số lượng đơn vị sơ đồ Nếu không, sẽ tỉ lệ tuyến tính, nhưng thêm 6M phép toán dấu phẩy động vào mỗi bước huấn luyện (giả sử rằng sử dụng lưới sơ đồ 2 chiều) Chú ý rằng yêu cầu về bộ nhớ liên quan đến dữ liệu huấn luyện đã bị loại bỏ Trong khi, tại một thời điểm một mẫu huấn luyện là cần thiết, trong thực tế việc duy trì càng nhiều dữ liệu trong bộ nhớ chính càng tốt để giảm thời gian vì những vấn đề liên quan đến thời gian truy cập đĩa (hoặc những vấn đề tương tự đối với thiết bị lưu trữ)

Do vậy, SOM cũng áp dụng được cho cả những tập dữ liệu tương đối lớn Huấn luyện một sơ đồ lớn là rất tốn thời gian, nhưng tiến trình này có thể được tăng tốc với những kỹ thuật đặc biệt Điều này thực hiện dựa trên sự tăng tốc sự tìm kiếm của người chiến thắng bằng cách điều tra một số lượng nhỏ nguyên mẫu hoặc tìm kiếm trong phạm vi không gian con chiều thấp của không gian đầu vào [30,37,40] Cũng chú ý rằng thuật toán huấn luyện có thể

dễ dàng cài đặt cả trong phong cách nơron, học trực tuyến cũng như là song song [49, 38]

/***tìm kiếm BMU *****************************************/ bmu = 0; min_di = 1000000; /* hoặc những số đủ lớn khác */

for (i = 0; i<M; i++) { /* M = số lượng các đơn vị sơ đồ, d = số chiều*/ for (di=k=0; k<d; k++) {f = x[k] - m[i][k]; di += f*f}

if (di<min_di) {min_di=di; bmu=i;}

}

/***Cập nhật***********************************************/

Định dạng
Số trang	83
Dung lượng	760,45 KB