PHÁT TRIỂN CÁC CẤU TRÚC, THUẬT HỌC CỦA MẠNG NƠRON TỰ TỔ CHỨC

Một cấu trúc phân tầng tăng trưởng và thuật toán học bán giám sát của mạng nơron tự tổ chức cho bài toán phân lớp dữ liệu .... Tuy nhiên, bản thân mạng nơron SOM vẫn còn tồn tại nhiều nh

Trang 1

KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM

KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS TS Nguyễn Quang Hoan

Hà Nội - 2016

Trang 3

Lời cam đoan

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả được công

bố với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận

án Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong bất kỳ

công trình nào khác

NGHIÊN CỨU SINH

Lê Anh Tú

Trang 4

Lời cảm ơn

Luận án được thực hiện tại Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa

học và Công nghệ Việt Nam, dưới sự hướng dẫn của PGS TS Nguyễn Quang Hoan

Tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS TS Nguyễn Quang Hoan, người đã

động viên, trao đổi nhiều kiến thức và chỉ bảo tôi vượt qua những khó khăn để hoàn

thành luận án này

Tôi cũng xin gửi lời cảm ơn chân thành tới PGS TS Lương Chi Mai, PGS TS

Đặng Văn Đức, TS Nguyễn Đức Dũng và các nhà khoa học khác tại Viện Công nghệ

Thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã có những trao đổi, góp

ý để tôi hoàn thiện luận án và giúp đỡ tôi trong quá trình học tập, nghiên cứu

Xin gửi lời cảm ơn đến Ban Giám hiệu Trường Đại học Công nghệ Thông tin và

Truyền thông - Đại học Thái Nguyên đã tạo điều kiện, quan tâm giúp đỡ để tôi có thể

hoàn thành luận án

Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè, những người đã luôn

ủng hộ, giúp đỡ và hỗ trợ tôi về mọi mặt để tôi yên tâm học tập đạt kết quả tốt

Trang 5

MỤC LỤC

Lời cam đoan 1

Lời cảm ơn 2

MỤC LỤC 3

Danh mục các từ viết tắt 7

Danh mục các ký hiệu toán học 9

Danh mục các bảng 11

Danh mục các hình vẽ, đồ thị 12

MỞ ĐẦU 14

CHƯƠNG 1 20

TỔNG QUAN VỀ CÁC MÔ HÌNH MẠNG NƠRON TỰ TỔ CHỨC 20

1.1 Tổng quan về mạng nơron nhân tạo 20

1.1.1 Khái niệm mạng nơron nhân tạo 20

1.1.2 Các kiến trúc căn bản của mạng nơron nhân tạo 21

1.1.3 Các phương pháp học 22

1.1.4 Lịch sử và xu hướng phát triển mạng nơron nhân tạo 24

1.2 Mạng nơron tự tổ chức 26

1.2.1 Cấu trúc mạng nơron tự tổ chức 26

1.2.2 Thuật toán học của mạng nơron tự tổ chức 27

1.2.3 Phương pháp đánh giá chất lượng bản đồ đặc trưng của mạng nơron tự tổ chức 30

1.3 Hạn chế của mạng nơron tự tổ chức và các biện pháp khắc phục 33

1.4 Kết quả nghiên cứu trong và ngoài nước về cải tiến cấu trúc, phương pháp của mạng nơron tự tổ chức 36

1.4.1 Kết quả nghiên cứu trong nước 36

1.4.2 Kết quả nghiên cứu ngoài nước 36

1.5 Đặc điểm chung của các phương thức cải tiến mạng nơron tự tổ chức 42

1.6 Một số vấn đề cần tiếp tục nghiên cứu của mạng nơron tự tổ chức và các biến thể 43

1.6.1 Nâng cao chất lượng bản đồ đặc trưng 43

Trang 6

1.6.2 Cải tiến cấu trúc và thuật toán học của mạng nơron tự tổ chức cho các bài

toán ứng dụng 44

1.7 Kết luận chương 1 44

CHƯƠNG 2 46

GIẢI PHÁP NÂNG CAO CHẤT LƯỢNG BẢN ĐỒ ĐẶC TRƯNG CỦA MẠNG NƠRON TỰ TỔ CHỨC 46

2.1 Giới thiệu các nghiên cứu nâng cao chất lượng bản đồ đặc trưng của mạng nơron tự tổ chức 46

2.2 Điều chỉnh hàm lân cận để nâng cao chất lượng bản đồ đặc trưng 48

2.2.1 Một số dạng hàm lân cận của mạng nơron tự tổ chức 48

2.2.2 Điều chỉnh tham số của hàm lân cận đối xứng dạng mũ 49

2.3 Thuật toán điều chỉnh trọng số nơron để giảm lỗi lượng tử 53

2.3.1 Đặt vấn đề 53

2.3.2 Thuật toán điều chỉnh trọng số nơron 59

2.4 Các tập dữ liệu sử dụng cho thực nghiệm 62

2.5 Thực nghiệm hàm lân cận mũ với tham số điều chỉnh 64

2.5.1 Mục tiêu thực nghiệm 64

2.5.2 Phương pháp thực nghiệm 64

2.5.3 Các tham số khởi tạo mạng 64

2.5.4 Kết quả thực nghiệm 64

2.5.5 So sánh hàm lân cận điều chỉnh với một số dạng hàm lân cận khác 73

2.6 Thực nghiệm thuật toán Batch-IMQS 74

CHƯƠNG 3 78

MẠNG NƠRON TỰ TỔ CHỨC CÓ CẤU TRÚC PHÂN TẦNG TĂNG TRƯỞNG VÀ THUẬT TOÁN HỌC BÁN GIÁM SÁT CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU 78

3.1 Giới thiệu các mạng nơron tự tổ chức cải tiến học giám sát, bán giám sát 78

3.2 Phát biểu bài toán phân lớp dữ liệu 80

Trang 7

3.3 Một cấu trúc phân tầng tăng trưởng và thuật toán học bán giám sát của mạng

nơron tự tổ chức cho bài toán phân lớp dữ liệu 81

3.3.1 Các cấu trúc nền tảng để xây dựng mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho phân lớp dữ liệu 81

3.3.2 Cấu trúc mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho phân lớp dữ liệu 85

3.3.3 Thuật toán huấn luyện và kiểm thử của mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho phân lớp dữ liệu 89

3.4 Thực nghiệm mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho phân lớp dữ liệu 93

3.4.5 So sánh mô hình đề xuất với một số phương thức khác 98

CHƯƠNG 4 104

MỞ RỘNG CẤU TRÚC, THUẬT TOÁN HỌC CỦA MẠNG NƠRON TỰ TỔ CHỨC CHO BÀI TOÁN PHÂN CỤM DỮ LIỆU 104

4.1 Giới thiệu các nghiên cứu sử dụng mạng nơron tự tổ chức cho phân cụm dữ liệu 104

4.2 Phát biểu bài toán phân cụm dữ liệu 107

4.3 Cải tiến thuật toán học mạng nơron tự tổ chức cho phân cụm dữ liệu 108

4.3.1 Ý tưởng của thuật toán cải tiến 108

4.3.2 Thuật toán học cải tiến của mạng nơron tự tổ chức cho phân cụm dữ liệu 111

4.4 Mở rộng cấu trúc mạng nơron tự tổ chức cho phân cụm dữ liệu 113

4.4.1 Cấu trúc mạng nơron tự tổ chức mở rộng hai lớp 114

4.4.2 Thuật toán huấn luyện mạng nơron tự tổ chức mở rộng hai lớp 114

4.5 Thực nghiệm thuật toán học cải tiến và mạng tự tổ chức mở rộng hai lớp 118

4.5.5 So sánh các phương thức đề xuất với một số phương thức khác 120

Trang 8

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI LUẬN ÁN 126

CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH 128

TÀI LIỆU THAM KHẢO 129

Trang 9

Danh mục các từ viết tắt

Trang 10

RCS Ruiz's CSS (Constrained Semi-Supervised)

Trang 11

Danh mục các ký hiệu toán học

Ký hiệu Diễn giải

center Tâm cụm dữ liệu

d(x,w i ) Khoảng cách giữa vector x và vector w i

d, y Mẫu đầu ra

m, g Các nút trên cây phân tầng GHSSOM

N c (t), R(t) Bán kính lân cận tại lần học thứ t

2) tại lần huấn luyện thứ t

q, p Các tham số điều chỉnh cho hàm lân cận

Trang 12

V, I, J Tập dữ liệu

x(t) Mẫu đầu vào tại lần học thứ t

Trang 13

Danh mục các bảng

Bảng 1 1 So sánh một số mạng nơron ra đời trước năm 1990 24

Bảng 1 2 So sánh các biến thể SOM không sử dụng cấu trúc cây 38

Bảng 1 3 So sánh các biến thể SOM sử dụng cấu trúc cây 39

Bảng 1 4 So sánh các mạng nơron tự tổ chức học giám sát 41

Bảng 2 1 Các tập dữ liệu sử dụng cho thực nghiệm 62

Bảng 2 2 QE, TE khi cố định tham số p=2, thay đổi tham số q 64

Bảng 2 3 QE, TE khi thay đổi tham số p, cố định tham số q 66

Bảng 2 4 So sánh QE, TE của một số dạng hàm lân cận 74

Bảng 2 5 QE, TE trước và sau khi áp dụng Batch-IMQS 75

Bảng 3 1 Giá trị tham số q của hàm lân cận áp dụng cho các tập dữ liệu 94

Bảng 3 2 Kết quả phân lớp của GHSSOMv1 95

Bảng 3 3 Kết quả phân lớp của GHSSOMv2 96

Bảng 3 4 So sánh độ chính xác phân lớp Iris của GHSSOM và một số phương thức 99 Bảng 3 5 Kết quả phân lớp của GHSSOM và một số phương thức cài đặt trong WEKA 99

Bảng 3 6 Kết quả phân lớp của LibSVM 100

Bảng 4 1 So sánh các phương pháp phân cụm dữ liệu của SOM 106

Bảng 4 2 Kết quả thực nghiệm phân cụm của SOM-P và SOM-2 119

Bảng 4 3 So sánh SOM-P, SOM-2 với GWCA và một số phương thức khác 120

Bảng 4 4 So sánh SOM-P, SOM-2 với GSOM và KGSOM 121

Bảng 4 5 So sánh SOM-P, SOM-2 với một số phương thức khác 122

Bảng 4 6 So sánh tỉ lệ phân loại sai của SOM-P, SOM-2 với một số phương thức 123

Trang 14

Danh mục các hình vẽ, đồ thị

Hình 1 1 Kiến trúc mạng tự kết hợp 21

Hình 1 2 Kiến trúc mạng kết hợp khác kiểu 21

Hình 1 3 Kiến trúc mạng truyền thẳng 22

Hình 1 4 Kiến trúc mạng hồi quy 1 lớp 22

Hình 1 5 Mô hình học có giám sát 23

Hình 1 6 Cấu trúc SOM với lớp Kohonen 2 chiều 27

Hình 1 7 Các dạng tổ chức nơron của lớp Kohonen 2 chiều 27

Hình 1 8 Xác định lân cận của BMU đối với lớp Kohonen 1 chiều 28

Hình 1 9 Xác định lân cận của BMU đối với lớp Kohonen 2 chiều (t 1 <t 2 <t 3 ) [44] 28

Hình 1 10 Phân loại các biến thể của SOM 37

Hình 2 1 Mức độ học của các nơron xa BMU giảm dần trong bán kính lân cận N c (t). 49

Hình 2 2 Hàm h ci (t) biến đổi tương ứng với tham số q khi N c (t)=10 51

Hình 2 3 Hàm h ci (t) biến đổi tương ứng với tham số p khi N c (t)=10 52

Hình 2 4 Minh họa “phần tử khác biệt” của nơron i 56

Hình 2 5 Đồ họa biểu diễn sự phân bố dữ liệu của XOR 63

Hình 2 6 Đồ họa biểu diễn sự phân bố dữ liệu của Aggregation, Flame, Iris, Pathbased, Spiral, Jain, Compound, R15, D31 63

Hình 2 7 Biểu đồ QE, TE của XOR khi thay đổi q và p 67

Hình 2 8 Biểu đồ QE, TE của Aggregation khi thay đổi q và p 68

Hình 2 9 Biểu đồ QE, TE của Flame khi thay đổi q và p 68

Hình 2 10 Biểu đồ QE, TE của Pathbased khi thay đổi q và p 69

Hình 2 11 Biểu đồ QE, TE của Spiral khi thay đổi q và p 69

Hình 2 12 Biểu đồ QE, TE của Jain khi thay đổi q và p 70

Hình 2 13 Biểu đồ QE, TE của Compound khi thay đổi q và p 70

Hình 2 14 Biểu đồ QE, TE của R15 khi thay đổi q và p 71

Hình 2 15 Biểu đồ QE, TE của D31 khi thay đổi q và p 71

Hình 2 16 Biểu đồ QE, TE của Iris khi thay đổi q và p 72

Hình 2 17 Biểu đồ QE, TE của Vowel khi thay đổi q và p 72

Hình 2 18 Biểu đồ QE, TE của Zoo khi thay đổi q và p 73

Trang 15

Hình 3 1 Cấu trúc mạng GHSOM [78] 82

Hình 3 2 Cấu trúc mạng HTS 83

Hình 3 3 Cấu trúc mạng CPN 84

Hình 3 4 Cấu trúc một nút của GHSSOM 86

Hình 3 5 Cấu trúc mạng GHSSOM 87

Hình 3 6 Biểu đồ so sánh kết quả phân lớp của GHSSOMv1 và GHSSOMv2 97

Hình 3 7 So sánh GHSSOM với SSGSOM, CS2GS và một số phương thức khác 98

Hình 3 8 Biểu đồ so sánh kết quả phân lớp của GHSSOM và LibSVM 102

Hình 4 1 Sử dụng SOM cho phân cụm dữ liệu 107

Hình 4 2 Minh họa nguyên tắc phân ly và tranh chấp 110

Hình 4 3 Minh họa kết quả phân nhóm nơron bằng SOM-P 113

Hình 4 4 Cấu trúc mạng SOM-2 114

Trang 16

MỞ ĐẦU

1 Tính cấp thiết của luận án

Mạng nơron bản đồ tự tổ chức (SOM - Self Organizing Map) do giáo sư Teuvo Kohonen đề xuất năm 1980 [44] Nó còn được biết đến với các tên gọi khác là: Bản đồ đặc trưng tự tổ chức (SOFM - Self Organizing Feature Map) hay mạng nơron Kohonen, hay đơn giản hơn là mạng nơron tự tổ chức

SOM có thể được ứng dụng để giải quyết nhiều bài toán thực tế như: trực quan dữ liệu, dự báo, nhận dạng, điều khiển Đặc biệt, với tính chất tự tổ chức của mạng, nên

nó được coi là một công cụ hiệu quả cho việc trực quan, phân tích dữ liệu và hữu ích để thực hiện một số nhiệm vụ tiền xử lý trong khai phá dữ liệu như phân lớp và phân cụm

dữ liệu Tính tự tổ chức của SOM được thực hiện bởi nguyên tắc học cạnh tranh, không giám sát nhằm tạo ra ánh xạ của dữ liệu từ không gian nhiều chiều về không gian ít chiều hơn (thường là hai chiều), nhưng vẫn đảm bảo được quan hệ về mặt hình trạng của dữ liệu Điều này có nghĩa là các dữ liệu có đặc trưng tương đồng nhau sẽ được đại diện bởi cùng một nơron hoặc các nơron gần nhau và các nơron gần nhau sẽ tương đồng với nhau hơn so với những nơron ở xa Kết quả là hình thành bản đồ đặc trưng của tập dữ liệu Đây thực chất là một phép chiếu phi tuyến tạo ra “ánh xạ đặc trưng” cho phép phát hiện và phân tích những đặc trưng của không gian dữ liệu vào

Tuy nhiên, bản thân mạng nơron SOM vẫn còn tồn tại nhiều nhược điểm dẫn tới những khó khăn và khả năng ứng dụng thực tiễn bị hạn chế như: phải xác định trước hình trạng (số chiều và kết nối giữa các nơron trong cấu trúc mạng) và kích thước bản đồ; bản đồ đặc trưng thiếu tính trực quan; thiếu cơ chế phân loại chính xác dữ liệu theo các tiêu chí cụ thể; tốn thời gian để xác định nơron chiến thắng (BMU), đặc biệt khi bản

đồ đặc trưng có kích thước lớn; thứ tự của các mẫu vào ảnh hưởng tới xu hướng biến đổi của bản đồ; thiếu cơ chế để khai thác các thông tin chỉ dẫn trong các bài toán học có giám sát Do vậy, nghiên cứu cải tiến SOM đã được nhiều nhà nghiên cứu quan tâm

Trang 17

Các cải tiến này được chia làm hai hướng chính, gồm: cải tiến cấu trúc mạng và cải tiến thuật toán học của mạng

Các nghiên cứu cải tiến về cấu trúc của mạng có thể được chia làm hai nhóm [12]: Nhóm thứ nhất gồm các cấu trúc cải tiến tăng trưởng theo chiều ngang Các cấu trúc này có đặc điểm chung là ban đầu mạng có kích thước nhỏ, sau đó mở rộng trong quá trình huấn luyện tùy thuộc vào đặc tính của tập dữ liệu huấn luyện Các cấu trúc điển hình thuộc nhóm này gồm: Growing Cell Structure (1992) [25], Neural Gas (1993) [55]

và Topology Representing Network (1994) [56], Growing Neural Gas (1995) [27] và Growing Grid (1995) [26], Incremental Grid Growing (1995) [17], Growing SOM (2000) [7]

Nhóm thứ hai gồm các cấu trúc cải tiến tăng trưởng theo chiều dọc, còn gọi là cấu trúc cây (với mỗi nút của cây là một nơron) hoặc cấu trúc cây phân tầng (với mỗi nút của cây là một mạng nơron SOM hoặc một biến thể của SOM) Các cấu trúc cây có thể

cố định trước kích thước, nhưng cũng có thể tăng trưởng kích thước trong quá trình huấn luyện, do đó, còn được gọi là cấu trúc cây tăng trưởng Các cấu trúc điển hình thuộc nhóm này gồm: Tree-Structured VQ (1990) và Tree-Structured SOM (1990) [45], Hierarchical Feature Map (1990) [62], Self-Organizing Tree Algorithm (1997) [22], Growing Hierarchical SOM (2002) [78], Adaptive Hierarchical Incremental Grid Growing (2003) [60], Evolving Tree (2004) [70], Self Organising Tree Map (2006) [33], Growing Hierarchical Tree SOM (2006) [24], TTOSOM with Conditional Rotations (2009) [10] và Tree-Based Topology-Oriented SOM (2011) [11] Các cấu trúc cây được đưa ra chủ yếu nhằm mục đích biểu diễn tính chất phân cấp của dữ liệu

Các nghiên cứu cải tiến về thuật toán học của mạng có thể chia làm hai nhóm chính: SOM học không giám sát và SOM học có giám sát hoặc bán giám sát Các ví dụ điển hình của nhóm SOM học có giám sát hoặc bán giám sát gồm: Supervised Kohonen Network (1988) [44], Counter Propagation Network (1997) [98], Recurrent Self-Organizing Map (2001) [46], Supervising Network Self-Organizing Map (2001) [72], X–Y Fused Network (2006) và Bi-Directional Kohonen network (2006) [59], Semi-Supervised GSOM (2015) [8] và một số nghiên cứu liên quan khác của tác giả

Trang 18

Thammano (2007) [85], Lawawirojwong (2013)[48], Groof (2014) [32], Gil (2015) [31], Li (2013) [51], Abaei (2015) [6]

Cho đến nay, mặc dù có nhiều nghiên cứu phát triển SOM nhưng vẫn tồn tại một số vấn đề cần tiếp tục nghiên cứu, phát triển:

Một là, nâng cao chất lượng bản đồ đặc trưng của SOM là một vấn đề khó Hầu hết các nghiên cứu chỉ có thể cải thiện được chất lượng học (đánh giá bằng lỗi lượng tử) hoặc chất lượng chiếu (đánh giá bằng lỗi hình trạng), mà không thể cải thiện được đồng thời cả hai tiêu chí này [30], [52], [66], thậm chí chúng có sự thay đổi tỉ lệ nghịch với nhau [74]

Hai là, bản chất quá trình học của SOM nhằm tạo ra ánh xạ của dữ liệu từ không gian nhiều chiều tới một không gian ít chiều hơn (thường là 2 chiều), nên mục đích chính của SOM và các biến thể là biểu diễn sự phân bố hoặc phân cấp dữ liệu Do đó, để ứng dụng SOM cho các mục đích khác, cần cải tiến về mặt cấu trúc và thuật toán học cho phù hợp Đây có thể được coi là một hướng nghiên cứu mở, do mỗi bài toán thực tế có thể cải tiến

và ứng dụng SOM theo nhiều cách khác nhau

2 Mục tiêu nghiên cứu

Trên cơ sở nghiên cứu quá trình phát triển và những vấn đề còn tồn tại cần tiếp tục

phát triển của SOM, đề tài luận án có các mục tiêu chung và mục tiêu cụ thể như sau:

a Mục tiêu chung

Đề xuất các cấu trúc, thuật toán cải tiến của SOM khác với các nghiên cứu đã công

bố trước đây; Ứng dụng SOM để giải quyết một số vấn đề của khai phá dữ liệu

b Mục tiêu cụ thể

Mục tiêu nghiên cứu cụ thể của luận án tập trung vào hai vấn đề:

Thứ nhất, đề xuất một số giải pháp nâng cao chất lượng bản đồ đặc trưng của SOM Thứ hai, cải tiến cấu trúc và thuật toán học của SOM ứng dụng cho các bài toán phân lớp và phân cụm dữ liệu

Trang 19

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: Mạng nơron tự tổ chức và ứng dụng trong một số vấn đề của khai phá dữ liệu

Phạm vi nghiên cứu: Mạng nơron tự tổ chức với các nơron của lớp đầu ra được tổ chức dưới dạng lưới 2 chiều hình chữ nhật; dữ liệu đầu vào của mạng là các vector thuộc tính số thực

4 Phương pháp nghiên cứu

Kết hợp nghiên cứu lý thuyết và thực nghiệm Từ các kết quả nghiên cứu về mặt lý thuyết, cài đặt chương trình thử nghiệm bằng ngôn ngữ lập trình C# và chạy thực nghiệm trên máy tính cá nhân (Chipset Core i5 - 1.7GHz, RAM 6GB) Tiến hành thực nghiệm trên 12 tập dữ liệu giả định và thực tế đã được công bố

Các số liệu thực nghiệm được ghi nhận, phân tích và so sánh với các giải pháp khác

để kiểm chứng tính đúng đắn của các kết quả nghiên cứu Khi đánh giá kết quả cải tiến SOM cho phân lớp, phân cụm dữ liệu và so sánh với các giải pháp khác chỉ xem xét trên

cơ sở độ chính xác phân lớp, phân cụm mà không đề cập đến vấn đề hiệu năng tính toán

Trang 20

khác, mô hình đề xuất phân lớp chính xác hơn, đặc biệt trong các trường hợp

số lượng mẫu dữ liệu huấn luyện có nhãn nhỏ

(4) Đưa ra hai đề xuất cải tiến SOM cho bài toán phân cụm dữ liệu Một là, cải tiến thuật toán học của SOM gốc Hai là, đề xuất cấu trúc SOM mở rộng gồm hai lớp và thuật toán học tương ứng Hai đề xuất này phân cụm chính xác hơn

so với một số phương thức phân cụm khác sử dụng phương pháp phân hoạch

và một số phương thức phân cụm được phát triển từ SOM

Các công trình đã công bố liên quan nhất đến luận án gồm: 02 bài báo công bố trên tạp chí Tạp chí Tin học và Điều khiển học [4A], [5A]; 02 bài báo công bố trên tạp chí quốc tế (có chỉ số ESCI) [6A], [7A]; 01 bài báo công bố trên Tạp chí KH&CN - Đại học Thái Nguyên [3A]; 01 báo cáo công bố trong Kỷ yếu Hội thảo quốc tế ICCASA 2012, xuất bản bởi Springer [2A]; 03 báo cáo công bố trong Kỷ yếu Hội thảo quốc gia Fair

2013 [1A] và VCM 2016 [8A]

6 Cấu trúc của luận án

Nội dung của luận án bao gồm 4 chương Chương đầu trình bày nghiên cứu tổng quan về nội dung của đề tài Các chương còn lại trình bày các đóng góp của luận án Nội dung của từng chương có thể tóm tắt như sau:

Chương 1 trình bày nghiên cứu tổng quan về mạng nơron nhân tạo, mạng nơron tự

tổ chức SOM; đồng thời xem xét bối cảnh chung về lịch sử và xu hướng phát triển của mạng nơron nhân tạo trong những năm gần đây

Các nghiên cứu tổng quan của Chương 1 tập trung phân tích các hạn chế và biện pháp khắc phục các hạn chế của SOM Ngoài ra, tổng hợp và phân tích các hướng nghiên cứu cải tiến SOM, từ đó chỉ ra đặc điểm chung của các cách thức cải tiến SOM đã được các nhà nghiên cứu thực hiện

Chương 2 trình bày các nghiên cứu liên quan đến vấn đề đánh giá và cải thiện chất

lượng bản đồ đặc trưng của mạng nơron SOM từ đó đưa ra hai đề xuất, gồm:

Thứ nhất, đưa ra tham số điều chỉnh của hàm lân cận đối xứng dạng mũ Tham số điều chỉnh được xác định riêng cho mỗi tập dữ liệu, cho phép giảm đồng thời cả lỗi

Trang 21

lượng tử và lỗi hình trạng của mạng Các lý luận và phân tích của phương thức đề xuất được chứng minh bằng thực nghiệm

Thứ hai, đưa ra thuật toán điều chỉnh trọng số nơron để giảm lỗi lượng tử của mạng Thuât toán đề xuất điều chỉnh trọng số nơron sau khi thuật toán huấn luyện kết thúc Điều này cho phép giảm lỗi lượng tử của mọi bản đồ mà không quan tâm đến các tham

số cấu hình mạng, cũng như không gia tăng thêm các tham số khác Nội dung của đề xuất gồm một định nghĩa, một định lý, một hệ quả và một thuật toán

Tiếp theo trình bày kết quả thực nghiệm của các đề xuất và so sánh với một số phương thức liên quan

Chương 3 trình bày các nghiên cứu liên quan đến cải tiến SOM học giám sát hoặc

bán giám sát nói chung và áp dụng cho bài toán phân lớp nói riêng, từ đó đề xuất một cấu trúc SOM phân tầng tăng trưởng và thuật toán học bán giám sát cho mục đích phân lớp dữ liệu Mô hình đề xuất có thể hoạt động như một mô hình phân lớp truyền thống (100% dữ liệu huấn luyện có gán nhãn) hoặc mô hình phân lớp bán giám sát

Tiếp theo trình bày các thực nghiệm kiểm chứng khả năng phân lớp của GHSSOM, đồng thời so sánh với một số phương thức phân lớp khác

Chương 4 trình bày các nghiên cứu liên quan đến việc cải tiến SOM áp dụng cho

bài toán phân cụm dữ liệu, từ đó đưa ra hai đề xuất cải tiến cấu trúc và thuật toán học SOM ứng dụng cho bài toán phân cụm dữ liệu, gồm:

Thứ nhất, cải tiến thuật toán học của SOM kết hợp hai mục tiêu huấn luyện mạng

và phân nhóm nơron

Thứ hai, đưa ra một cấu trúc SOM mở rộng hai lớp và thuật toán huấn luyện tương ứng cho mục đích phân cụm dữ liệu, trong đó lớp thứ hai đóng vai trò phân nhóm các nơron thuộc lớp thứ nhất

Tiếp theo trình bày kết quả thực nghiệm của các phương thức đề xuất và so sánh kết quả với một số phương thức phân cụm khác

Trang 22

CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH MẠNG NƠRON TỰ TỔ CHỨC

Chương này trình bày nghiên cứu tổng quan của luận án, gồm bốn nội dung chính: Thứ nhất, nghiên cứu tổng quan về mạng nơron nhân tạo: kiến trúc, thuật học và xu hướng phát triển

Thứ hai, nghiên cứu tổng quan về mạng nơron tự tổ chức: cấu trúc, thuật toán huấn luyện, phân tích các hạn chế của mạng nơron tự tổ chức và biện pháp khắc phục các hạn chế

Thứ ba, tổng hợp các nghiên cứu trong và ngoài nước về cải tiến cấu trúc, thuật toán học của mạng nơron tự tổ chức

Cuối cùng, phân tích đặc điểm chung của các phương thức cải tiến mạng nơron tự tổ chức

1.1 Tổng quan về mạng nơron nhân tạo

1.1.1 Khái niệm mạng nơron nhân tạo

Mạng nơron nhân tạo (ANN) là một mô hình tính toán dựa trên sự kết hợp các nơron trong một kiến trúc thống nhất, trong đó các nơron cùng hoạt động song song ANN là

một ánh xạ F: X → Y, trong đó X là không gian trạng thái đầu vào và Y là không gian

đầu ra y ∈ Y thông qua “bộ lọc” (filter) (còn được gọi là hệ cơ sở tri thức), tức là y=F(x)=s(W, x), trong đó W là ma trận trọng số liên kết, s là hàm tương tác đầu ra

Dựa theo mạng nơron sinh học, ANN được tạo ra từ một lượng lớn các phần tử xử

lý (gọi là nơron 1 ) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm

việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó

1 Mô hình tính toán cho một nơron nhân tạo do McCulloch và Pitts đưa ra năm 1943

Trang 23

1.1.2 Các kiến trúc căn bản của mạng nơron nhân tạo

Có nhiều quan điểm khác nhau trong việc phân loại kiến trúc mạng nơron [96] Tuy nhiên xét về mặt tổng quát, người ta chia ra làm hai loại kiến trúc mạng chính:

- Tự kết hợp (Autoassociative): là mạng có các nơron đầu vào cũng là các nơron đầu

ra Các mạng Hopfield, BAM là thuộc kiểu mạng tự kết hợp

- Kiến trúc truyền thẳng (Feedforward): tín hiệu di chuyển theo một đường duy nhất

từ đầu vào tới đầu ra và không có các kết nối ngược trở lại từ các nơron đầu ra về các nơron đầu vào Mạng không lưu lại các giá trị output trước và các trạng thái kích hoạt của nơron Đầu ra của một tầng bất kì sẽ không ảnh hưởng tới tầng đó

Trang 24

Hình 1 3 Kiến trúc mạng truyền thẳng

- Kiến trúc phản hồi (Feedback): có các kết nối từ nơron đầu ra tới nơron đầu vào,

tức là đầu ra của một nơron có thể trở thành đầu vào của nơron trên cùng một lớp hoặc của lớp trước đó Mạng lưu lại các trạng thái trước đó và trạng thái tiếp theo không chỉ phụ thuộc vào các tín hiệu đầu vào mà còn phụ thuộc vào các trạng thái

trước đó của mạng Trong trường hợp mạng Feedback có chu trình khép kín còn gọi là mạng hồi quy (Recurrent)

Hình 1 4 Kiến trúc mạng hồi quy 1 lớp

1.1.3 Các phương pháp học

Đối với mạng nơron nhân tạo, quá trình học có hai nhiệm vụ, đó là học tham số

(Parameter Learning) và học cấu trúc (Structure Learning) Học tham số là thay đổi

trọng số của các liên kết giữa các nơron Học cấu trúc là điều chỉnh cấu trúc của mạng, gồm thay đổi số lớp, số nơron trong mỗi lớp và cách liên kết giữa chúng Cả hai nhiệm

vụ này có thể được thực hiện đồng thời hoặc tách biệt

a Mạng truyền thẳng 1 lớp b Mạng truyền thẳng nhiều lớp

Trang 25

Có ba phương pháp học tham số phổ biến của mạng nơron gồm: học có giám sát

(Supervised Learning), học không giám sát (Unsupervised Learning) và học bán giám sát (Semi-Supervised Learning)

- Học có giám sát: phương pháp học này còn được gọi là học có “thầy” Mạng được

huấn luyện bằng các cặp mẫu đầu vào và các đầu ra mong muốn Tập mẫu huấn luyện được cho dưới dạng V  x d, |xR d n, R k, trong đó x là vector đầu vào,

d là vector đầu ra mong muốn hoặc nhãn của dữ liệu Quá trình học của mạng

nhằm xấp xỉ hàm d=f(x), biểu diễn mỗi quan hệ trên tập mẫu huấn luyện (x,d)

(Hình 1.5)

Một dạng mở rộng của học có giám sát là học tăng cường hay học củng cố

(Reinforcement Learning) Mạng vẫn nhận một số tín hiệu phản hồi (củng cố) từ

bên ngoài, nhưng các tín hiệu này chỉ mang tính chất đánh giá mức độ tốt hay xấu của đầu ra thực tế hơn là tính chất chỉ dẫn Những tín hiệu củng cố sau đó được xử

lý để tạo ra tín hiệu đánh giá, dùng để điều chỉnh các trọng số nhằm đạt được tín

hiệu đánh giá tốt hơn Học củng cố đôi khi còn gọi là học thưởng-phạt

(Reward-Penalty Learning), tức là nếu kết quả đầu ra được cho là “tốt” mạng sẽ được thưởng

theo nghĩa tăng trọng số kết nối, ngược lại, mạng sẽ bị phạt theo nghĩa các trọng

số kết nối không thích hợp sẽ được giảm xuống

Trang 26

chuẩn đánh giá độ tương tự giữa các mẫu để hình thành một số lượng chưa biết trước các lớp (nhóm) khác nhau

- Học bán giám sát: phương pháp học này là sự kết hợp của cả hai phương pháp học

có học giám sát và học không giám sát Mạng được huấn luyện với cả hai loại mẫu

dữ liệu gồm: mẫu dữ liệu đã kèm theo đầu ra mong muốn d (hay dữ liệu đã được gán nhãn) và mẫu dữ liệu không kèm theo đầu ra mong muốn d (hay dữ liệu chưa

được gán nhãn) Thông thường số lượng các mẫu huấn luyện đã kèm đầu ra mong muốn sẽ ít hơn số lượng các mẫu dữ liệu không kèm theo đầu ra mong muốn

1.1.4 Lịch sử và xu hướng phát triển mạng nơron nhân tạo

Các nguyên tắc căn bản của mạng nơron nhân tạo do McCulloch và Pitts đưa ra đầu tiên vào năm 1943 Cho tới những năm 1980s, quá trình phát triển của ANN đã trải qua nhiều giai đoạn thăng trầm, nguyên nhân chủ yếu là do các hạn chế về công nghệ máy tính Mặc dù vậy, các phát kiến đánh dấu những bước thay đổi quan trọng của ANN phải

kể đến bao gồm: mạng Perceptron 1 lớp vào và 1 lớp ra của Rosenblatt (1958), mạng Perceptron đa lớp của Minsky (1969), bản đồ tự tổ chức của Kohonen (1980) [44], mạng phản hồi của Hopfield (1982) và mạng truyền thẳng thuật toán lan truyền ngược Back Propagation của Hinton (1986) Đặc điểm chung của các loại mạng này được chỉ ra trong Bảng 1.1

Bảng 1 1 So sánh một số mạng nơron ra đời trước năm 1990

Back Propagation Tác giả,

1986 Phân

loại

Truyền thẳng

Truyền thẳng, Phản hồi

1 lớp ra

1 hoặc nhiều lớp ẩn

1 lớp ra Hàm

chuyển

Hard Limiter

Hard Limiter Sigmoid

Hard Limiter

Sigmoid

Trang 27

Phương

pháp

học

Có giám sát Có giám sát Không giám

Thuật

toán học Learning “Hebb

Rule”

“Delta Learning Rule”

“Back Propagation

”

“Self Organization”

“Delta Learning Rule”

“Simulated Annealing”

“Back Propagation”

Ứng

dụng

chủ yếu

Các phép toán logic đơn giản;

Phân lớp mẫu

Các phép toán logic phức tạp;

Phân lớp mẫu

Phân loại mẫu; Bài toán tối ưu;

Trực quan

dữ liệu

Liên kết mẫu; Bài toán tối ưu

Các phép toán logic phức tạp; Phân lớp mẫu; Phân tích tiếng nói Trong các mạng nơron trên, SOM được coi là mạng hữu ích cho mô phỏng quá trình học của não người Không giống các mạng nơron khác chỉ quan tâm đến giá trị và dấu hiệu của thông tin đầu vào, nó có khả năng khai thác các mối liên hệ có tính cấu trúc trong không gian dữ liệu thông qua một bản đồ đặc trưng Bản đồ đặc trưng gồm các nơron tự tổ chức theo các giá trị đầu vào nhất định; do đó nó có thể được huấn luyện để tìm ra các quy luật và sự tương quan giữa các giá trị đầu vào, từ đó dự đoán các kết quả tiếp theo Trong giai đoạn này, các nhà nghiên cứu cho rằng, nếu một hệ thống mô phỏng quá trình học của não người được thực hiện thì bản đồ đặc trưng của SOM sẽ đóng vai trò như là trái tim của hệ thống

Từ những năm 1990 đến khoảng 2009, cùng với sự phát triển của phần cứng máy tính, các nghiên cứu về mạng nơron đã hồi sinh sau một giai đoạn chìm lắng, điển hình

là sự phát triển mạng nơron tự tổ chức SOM, với các cấu trúc tăng trưởng nhiều tầng nhằm tối ưu tính toán [12] Giai đoạn này giống như sự chuẩn bị cho sự phát triển bùng

nổ của công nghệ học sâu Học sâu được gọi là công nghệ vì bản chất của các mô hình tính toán không mới mà phát triển các mô hình đã có để thực hiện trên các hệ thống máy tính có cấu hình mạnh Điển hình của giai đoạn này là mạng huấn luyện trước, không giám sát được đề xuất bởi Geoffrey Hilton đã giành chiến thắng trong cuộc thi quốc tế

về nhận dạng ký tự viết tay năm 2009

ANN đã thực sự trở lại thời kỳ hoàng kim từ năm 2012 đến nay, với sự góp mặt của hãng Google và nhiều nhà nghiên cứu Mạng nơron với cấu trúc truyền thẳng nhiều lớp

phức tạp sử dụng phương pháp học sâu “Deep Learning” [79] đã ra đời, được gọi là

Trang 28

mạng nơron học sâu Hiện nay, các mạng nơron học sâu thực chất là sự kết hợp của các

ý tưởng trước đây, bao gồm:

- Tăng độ sâu (số tầng) và độ rộng (số nút trong mỗi tầng) của cấu trúc mạng hơn nhiều lần so với trước đây nhằm khai thác khả năng tính toán của các máy tính hiện đại

- Các mạng nơron tự tổ chức, cạnh tranh theo nguyên tắc “Winner-Take-All” tốt hơn các mạng với cấu trúc nút độc lập [81], sử dụng các mạng nơron hồi quy sâu (nhiều lớp) tốt hơn các mạng truyền thẳng [84]

- Tri thức cần được khám phá và truyền lại qua nhiều thế hệ, mỗi thế hệ sau tiếp nhận tri thức của thế hệ trước và tiếp tục bổ sung những tri thức mới [15]

- Các mô hình học không giám sát đóng vai trò quan trọng trong việc khám phá tri thức mới, các mô hình học có giám sát đóng vai trò cải thiện chất lượng tri thức

Do đó cần có sự kết hợp giữa các phương pháp học này

- Sử dụng các máy tính cấu hình mạnh hoặc thậm chí chế tạo các phần cứng dành riêng cho mạng nơron

Như vậy có thể thấy rằng tư tưởng chủ đạo của SOM với cấu trúc mạng tự tổ chức,

sử dụng phương pháp học cạnh tranh, không giám sát đã thực sự trở thành nền tảng quan trọng trong xu hướng phát triển các mạng nơron hiện nay

1.2 Mạng nơron tự tổ chức

1.2.1 Cấu trúc mạng nơron tự tổ chức

Mạng nơron SOM có cấu trúc đơn lớp [44], gồm: các tín hiệu vào và lớp ra (được gọi là lớp Kohonen), trong đó, tất cả các đầu vào được kết nối đầy đủ với mọi nơron trên lớp ra Kohonen (Hình 1.6) Kiến trúc mạng của SOM thuộc đồng thời cả hai nhóm mạng truyền thẳng và mạng phản hồi, do dữ liệu được truyền từ đầu vào tới đầu ra đồng thời

có sự ảnh hưởng giữa các nơron trong lớp Kohonen

Trang 29

Hình 1 6 Cấu trúc SOM với lớp Kohonen 2 chiều

Lớp Kohonen thường được tổ chức dưới dạng một ma trận 2 chiều, gồm s nơron tổ

chức dạng lưới hình chữ nhật (Hình 1.7a) hoặc hình lục giác (Hình 1.7b) Trong phạm

vi nghiên cứu của luận án chỉ đề cập đến mạng nơron SOM với lớp Kohonen 2 chiều,

các nơron tổ chức dạng lưới hình chữ nhật, do đó s=ab Mỗi đơn vị thứ i (nơron) trong

lớp Kohonen có một vector trọng số w i = [w i1 , w i2 , …,w in ], với n là kích thước (số chiều)

vector đầu vào; w ij là trọng số của nơron thứ i ứng với đầu vào thứ j

a) Dạng lưới hình chữ nhật b) Dạng lưới hình lục giác

Hình 1 7 Các dạng tổ chức nơron của lớp Kohonen 2 chiều

1.2.2 Thuật toán học của mạng nơron tự tổ chức

SOM sử dụng thuật toán học cạnh tranh, không giám sát, hay còn được gọi là thuật toán tự tổ chức (thuật toán SOM hay thuật toán học của SOM)

Thuật toán SOM gồm 4 bước [44]:

Bước 1: Khởi tạo

- Kích thước mạng (là kích thước lớp Kohonen)

- Vector trọng số của các nơron: khởi tạo giá trị ngẫu nhiên

a

Trang 30

- Bán kính lân cận khởi tạo ( N0 hay N c (t) với t=0): nên khởi tạo đủ lớn để phủ kín

toàn bộ bản đồ (bán kính lân cận xác định phạm vi tác động của mẫu đầu vào đối với các nơron tính từ vị trí của nơron chiến thắng, bán kính lân cận giảm dần theo

số lần huấn luyện)

- Tỉ lệ học khởi tạo ( L0): nên khởi tạo bằng giá trị tối đa là 1 (tỉ lệ học là hệ số xác

định mức độ tác động của mẫu đầu vào đối với mạng, tỉ lệ học giảm dần theo số lần huấn luyện)

Bước 2: Cạnh tranh

Với mỗi mẫu đầu vào x(t)R n (t là lần học hay lần huấn luyện), thực hiện tìm trên

ma trận Kohonen một nơron c có giá trị hàm khoảng cách dist nhỏ nhất (thường dùng hàm Euclidian, Manhattan) Nơron c được gọi là BMU (Best Matching Unit) hay nơron

Hình 1 8 Xác định lân cận của BMU đối với lớp Kohonen 1 chiều

Hình 1 9 Xác định lân cận của BMU đối với lớp Kohonen 2 chiều (t 1 <t 2 <t 3 ) [44]

Cơ sở cho sự hợp tác giữa các nơron là phạm vi ảnh hưởng của BMU hay còn gọi là

bán kính lân cận của BMU (ký hiệu N c (t)) N c (t) giảm đơn điệu theo thời gian, cụ thể

c

N c (t)=1

N c (t)=3

N c (t)=2

Trang 31

bán kính lân cận sẽ co lại theo số lần huấn luyện (Hình 1.8, Hình 1.9) N c (t) được xác

định bằng một hàm giảm dần theo số lần huấn luyện (thường sử dụng dạng hàm Gaussian)

huấn luyện hay tổng số lần học);

Trọng số liên kết của các nơron trong phạm vi bán kính lân cận của BMU (bao gồm

cả BMU) được điều chỉnh theo hướng gần hơn với mẫu đầu vào x(t) Mức độ điều chỉnh

trọng số của BMU là lớn nhất, sau đó giảm dần đối với các nơron ở xa BMU

tại lần học thứ t; h t ci  có dạng đối xứng, thường sử dụng hàm Gaussian (giá trị

hàm giảm dần đối với các nơron có vị trí xa BMU) như sau:

Trang 32

- L t  là hàm xác định tỉ lệ học tại lần học thứ t Tỉ lệ học của mạng giảm đơn điệu

theo thời gian tương tự bán kính lân cận, do đó nó có thể là một hàm tuyến tính,

trong quá trình huấn luyện theo công thức:

Sau khi khởi tạo (Bước 1), quá trình huấn luyện mạng sẽ lặp lại nhiều lần các bước

2, 3 và 4 cho đến khi thỏa mãn một trong các điều kiện dừng Điều kiện dừng phổ biến

là tổng số lần huấn luyện mạng bằng T cho trước hoặc quá trình học của mạng đạt đến

trạng thái cân bằng (trọng số của các nơron thay đổi không đáng kể sau một số lần huấn luyện nhất định)

1.2.3 Phương pháp đánh giá chất lượng bản đồ đặc trưng của mạng nơron tự tổ chức

Mạng nơron tự tổ chức tạo ra ánh xạ của tập dữ liệu đầu vào trong không gian nhiều chiều tới không gian ít chiều hơn, thường là hai chiều và được gọi là bản đồ đặc trưng của dữ liệu Để đánh giá chất lượng bản đồ đặc trưng, người ta chủ yếu sử dụng hai chỉ

tiêu chất lượng học (Learning Quality) và chất lượng chiếu (Projection Quality) [13],

[41], [73], [89] Chỉ tiêu chất lượng học được xác định thông qua độ đo lỗi lượng tử

Trang 33

(QE- Quantization Error) [16], [44] Chỉ tiêu chất lượng chiếu được xác định thông qua

độ đo lỗi hình trạng (TE- Topographic Error) [14], [43], [64] Nếu các độ đo QE và TE

nhỏ thì bản đồ đặc trưng được đánh giá là chất lượng tốt Ngoài hai độ đo này, một số

độ đo khác có thể được sử dụng như: tích hình trạng (TP- Topographic Product), độ biến dạng (DM- Distortion Measure) Sau đây trình bày một số độ đo thường được sử

dụng để đánh giá chất lượng bản đồ đặc trưng của mạng nơron tự tổ chức

Lỗi lượng tử:

Lỗi lượng tử (QE) là độ đo đánh giá chất lượng học của mạng thông qua độ khác

biệt trung bình của các mẫu đầu vào so với các nơron chiến thắng (BMU) tương ứng của nó Nó thể hiện độ chính xác của dữ liệu đại diện, do đó giá trị này càng nhỏ thì càng tốt [19], [44]

   

1

1 T

c t

w t là trọng số BMU của mẫu x t ;  

T là tổng số lần huấn luyện (chú ý rằng, với các tập mẫu huấn luyện nhỏ, quá

trình huấn luyện có thể sử dụng lại nhiều lần tập huấn luyện, do đó T có thể lớn hơn tổng

số mẫu của tập huấn luyện)

Lỗi hình trạng

Lỗi hình trạng (TE) là độ đo đánh giá độ bảo toàn quan hệ lân cận của dữ liệu

(topology preservation) [19], [43], [64] Nó được xác định bằng tỉ số của số lần nơron

luyện, do đó giá trị này càng nhỏ thì càng tốt

 

1

1 T t

T 

trong đó:

Trang 34

Tích hình trạng (TP- Topographic Product) cũng là độ đo đánh giá độ bảo toàn quan

hệ lân cận của dữ liệu TP được xác định dựa vào việc kiểm tra k láng giềng gần nhất của mọi nơron i trong lớp Kohonen [13] Tuy nhiên, TP chỉ đáng tin cậy cho các bộ dữ

liệu tuyến tính [92]

Độ biến dạng

Độ biến dạng (DM- Distortion Measure) là độ đo đánh giá chất lượng tổng thể của

theo công thức (1.10), E d càng nhỏ càng tốt

     

1 1

p T

Trang 35

Hàm lỗi E d có thể được sử dụng để chọn ra bản đồ tốt nhất khi thực hiện huấn luyện nhiều lần khác nhau với cùng tập dữ liệu Heskes [38] đã chỉ ra điều kiện để áp dụng

hàm đánh giá chất lượng tổng thể E d là số lần huấn luyện và bán kính lân cận phải đồng nhất trong các lần huấn luyện

1.3 Hạn chế của mạng nơron tự tổ chức và các biện pháp khắc phục

a) Phải xác định trước hình trạng và kích thước bản đồ

Bản đồ SOM phải được xác định trước về mặt hình trạng và kích thước Thông thường, hình trạng mạng là dạng tuyến tính một chiều hoặc dạng lưới hai chiều các nơron, điều này dẫn đến hai hạn chế căn bản của SOM:

- Việc ánh xạ dữ liệu từ không gian nhiều chiều về trình diễn và sắp xếp trên một không gian cố định, ít chiều hơn sẽ tạo ra một sai số nhất định dẫn đến giảm độ chính xác về khả năng trình diễn dữ liệu, cũng như khả năng bảo tồn quan hệ hình trạng của dữ liệu Nếu số chiều của không gian đầu vào càng lớn so với số chiều của không đầu ra thì sai số sẽ càng cao

- Kích thước bản đồ được giới hạn và xác định trước sẽ không đảm bảo trình diễn tốt nhất cho các đặc trưng của tập dữ liệu Nếu kích thước bản đồ quá lớn sẽ tốn thời gian tính toán và dữ liệu sẽ bị phân tán Ngược lại, nếu kích thước bản đồ quá bé thì khả năng phân biệt các mẫu dữ liệu của mạng sẽ giảm, mạng sẽ không trình diễn hết được các đặc trưng của tập dữ liệu Việc xác định kích thước của SOM phù hợp với mỗi tập dữ liệu là một vấn đề khó, đòi hỏi thời gian và kinh nghiệm thông qua việc “thử sai” Mặc dù vậy, kích thước xác định được bằng phương pháp “thử sai” cũng không thể khẳng định là tốt thực sự hay không

Có thể nói, đây là một trong những yếu điểm lớn nhất của mạng nơron SOM, do đó các nghiên cứu cải tiến về cấu trúc của SOM đã được đưa ra, gồm: Các mô hình tăng trưởng theo chiều ngang cho phép bản đồ được mở rộng tùy thuộc vào quy mô, tính chất của từng tập dữ liệu; Các mô hình cây phân cấp (tăng trưởng theo chiều dọc) hạn chế các sai số do việc nén dữ liệu từ không gian nhiều chiều về không gian ít chiều hơn

Trang 36

b) Bản đồ đặc trưng thiếu tính trực quan

Mặc dù bản đồ đặc trưng biểu diễn sự phân bố của dữ liệu, nhưng không thể trực tiếp quan sát được sự phân bố này mà phải thực hiện thêm các kỹ thuật phụ trợ Các kỹ thuật này được gọi là các kỹ thuật trực quan mạng Kỹ thuật trực quan được hiểu là phương pháp biểu diễn bản đồ đặc trưng của dữ liệu dưới dạng hình ảnh có thể quan sát được Hiện tại có nhiều kỹ thuật trực quan nhưng một phương thức trực quan được sử dụng phổ biến đó là ma trận mức xám U-Matrix

c) Bản đồ đặc trưng thiếu cơ chế xác định ranh giới giữa các vùng dữ liệu

Mặc dù bản đồ đặc trưng là cơ sở tạo nên sức mạnh của SOM trong lĩnh vực khai phá dữ liệu, nhưng bản thân nó lại thiếu một cơ chế xác định ranh giới giữa các vùng dữ liệu trên bản đồ Đây là một trong những yếu tố quan trọng để giải quyết các bài toán phân cụm, phân lớp

Một số phương pháp sử dụng để giải quyết vấn đề này gồm:

- Sử dụng kỹ thuật phân cụm để phân nhóm các nơron (ví dụ: thuật toán Tích tụ (Agglomerative Algorithm) [77])

- Trực quan mạng kết hợp với phân nhóm các nơron

- Hình thành kết nối giữa các nơron cùng nhóm trong quá trình tăng trưởng mạng (ví dụ cấu trúc IGG [17], AHIGG [60])

d) Tốn thời gian xác định BMU

Tìm BMU là nhiệm vụ tốn nhiều thời gian nhất của thuật toán SOM Với mỗi mẫu đầu vào, mạng thực hiện tìm BMU trên toàn bộ không gian bản đồ Do vậy, khi kích thước bản đồ càng lớn thì thời gian xác định BMU càng lâu Đặc biệt trong trường hợp tập dữ liệu huấn luyện có kích thước lớn thì điều này ảnh hưởng lớn đến thời gian tính toán của toàn mạng Mặt khác, nếu kích thước bản đồ SOM nhỏ sẽ không biểu diễn chính xác được các đặc trưng của tập dữ liệu, ngược lại, nếu kích thước bản đồ lớn sẽ tốn thời gian xác định BMU Do đó, cần xác định kích thước bản đồ phù hợp đối với mỗi tập dữ liệu cụ thể (các biến thể của SOM với cấu trúc tăng trưởng nhằm giải quyết vấn đề này)

Trang 37

Kohonen đã đề xuất một giải pháp thu hẹp phạm vi tìm BMU trong trường hợp tập mẫu được sử dụng lại nhiều lần để huấn luyện mạng [44] Đó là lưu lại vị trí BMU của mẫu ở lần huấn luyện trước và ở lần huấn luyện sau chỉ tìm ở quanh vị trí của lần trước Tuy nhiên, với các tập dữ liệu lớn thì giải pháp này cơ bản không mang lại hiệu quả Các biến thể SOM tổ chức dưới dạng cấu trúc cây cho phép giảm kích thước bản đồ SOM, đồng thời có thể cải thiện thời gian tìm BMU do khai thác các kỹ thuật duyệt cây Một chiến lược khác là “đóng băng” các nơron ở trung tâm, dẫn đến giới hạn phạm vi tìm BMU chỉ đối với các nơron biên của mạng hoặc các nút lá đối với cấu trúc cây

e) Thứ tự của các mẫu vào ảnh hưởng tới xu hướng biến đổi của bản đồ

Trong trường hợp tập mẫu dữ liệu phân bố không đều, quá nổi bật về một xu hướng nào đó, nếu mạng được huấn luyện liên tục bởi các mẫu có cùng một xu hướng sẽ dẫn tới bản đồ bị ảnh hưởng mạnh bởi xu hướng nổi bật đó Kết quả là bản đồ bị giảm khả năng đặc trưng cho các mẫu dữ liệu kém nổi bật hơn

Để khắc phục vấn đề này, giải pháp đơn giản được khuyến cáo là chọn ngẫu nhiên các mẫu đầu vào để huấn luyện mạng Tuy nhiên, giải pháp này vẫn có thể xảy ra hiện tượng nổi bật cục bộ do việc chọn mẫu ngẫu nhiên không thể loại trừ hết khả năng một

số lượng nhỏ các mẫu theo cùng một xu hướng liên tục được đưa vào mạng

Một giải pháp phức tạp hơn là tác động vào bán kính láng giềng của BMU, bao gồm bán kính khởi tạo và cách điều chỉnh bán kính trong quá trình huấn luyện Một số cấu trúc cây đã sử dụng bán kính láng giềng cố định trong cả quá trình huấn luyện Chẳng hạn, trong mô hình cây SOTM [33], với mỗi mẫu huấn luyện đưa vào mạng, hoặc là mẫu huấn luyện sẽ chỉ được cập nhật cho BMU hoặc là sẽ phát sinh một nút mới

f) Thiếu thông tin hướng dẫn trong quá trình huấn luyện

Mặc dù khả năng tự tổ chức dựa vào học cạnh tranh đã tạo ra sức mạnh của SOM trong việc tự phát hiện ra cấu trúc, đặc trưng của tập dữ liệu, nhưng trong nhiều bài toán thực tế, độ chính xác của kết quả lại phụ thuộc nhiều vào thông tin hướng dẫn chứ không hoàn toàn phụ thuộc vào tính chất tự nhiên của dữ liệu Do đó, các mạng nơron SOM cải tiến học có giám sát hoặc bán giám sát đã được đề xuất Những mô hình này nhằm phát huy ưu điểm của phương pháp học có giám sát nhưng vẫn duy trì được sức mạnh của phương pháp không giám sát

Trang 38

1.4 Kết quả nghiên cứu trong và ngoài nước về cải tiến cấu trúc, phương pháp của mạng nơron tự tổ chức

Mặc dù mạng nơron tự tổ chức có nhiều thế mạnh và khả năng nổi bật so với các

mô hình mạng nơron khác, nhưng nó vẫn tồn tại một số hạn chế cơ bản (mục 1.3) Điều này dẫn tới những khó khăn khi sử dụng mạng nơron tự tổ chức để giải quyết các bài toán thực tiễn Do đó, các nhà nghiên cứu vẫn tiếp tục thực hiện các nghiên cứu cải tiến cấu trúc và thuật toán học của mạng Cho đến nay đã có rất nhiều biến thể về cấu trúc của mạng nơron tự tổ chức ra đời [12] Dưới đây trình bày tổng hợp tình hình nghiên cứu trong và ngoài nước trong phạm vi cải tiến cấu trúc và phương pháp của mạng nơron

tự tổ chức

1.4.1 Kết quả nghiên cứu trong nước

Mặc dù có nhiều nghiên cứu trong nước về ứng dụng mạng nơron nhân tạo nói chung [1], [2], [4] và một số nghiên cứu về cải tiến quá trình học của mạng nơron nói riêng như: luận án tiến sĩ về cải tiến thuật toán học của mạng nơron truyền thẳng cho bài toán mặt lỗi đặc biệt trong nhận dạng [5]; luận án tiến sĩ về cải tiến quá trình học của một số mạng nơron ghi nhớ [3] nhưng cho đến nay nghiên cứu sinh chưa tìm thấy kết quả nghiên cứu nào về cải tiến cấu trúc hoặc quá trình học của mạng nơron tự tổ chức Hầu hết các nghiên cứu liên quan chỉ giới hạn trong phạm vi ứng dụng mạng nơron tự

tổ chức trong các bài toán ứng dụng thực tiễn Các công trình đã công bố chủ yếu là các luận văn thạc sĩ

1.4.2 Kết quả nghiên cứu ngoài nước

Có nhiều nghiên cứu được công bố ngoài nước về cải tiến cấu trúc và phương pháp học của mạng nơron tự tổ chức (gọi chung là các biến thể), cụ thể:

Về mặt cấu trúc, các biến thể của mạng nơron tự tổ chức có thể được chia thành 2 nhóm: các biến thể không sử dụng cấu trúc cây và các biến thể sử dụng cấu trúc cây Hầu hết các biến thể được áp dụng cho cấu trúc dữ liệu vector, chỉ có một số ít áp dụng cho những cấu trúc dữ liệu khác như: dữ liệu đồ thị [35], [36], dữ liệu có trình tự [82],

dữ liệu cấu trúc cây [20] Trong phạm vi luận án này chỉ tập trung vào phân tích các biến thể áp dụng đối với các dữ liệu thuộc tính biểu diễn dưới dạng vector

Trang 39

Về mặt phương pháp học, bên cạnh các biến thể sử dụng phương pháp học không giám sát truyền thống, một số biến thể đã sử dụng phương pháp học giám sát hoặc bán giám sát kết hợp với thế mạnh của nguyên tắc cạnh tranh “Winner-Take-All” để nâng cao hiệu quả của mạng Đây là một hướng nghiên cứu mở và nhiều triển vọng trong bối cảnh hiện nay

Hình 1 10 Phân loại các biến thể của SOM

Hình 1.9 trình bày tổng hợp về các biến thể tiêu biểu của SOM, đồng thời phân loại chúng theo các tiêu chí về cấu trúc và phương pháp học, ngoài ra cũng biểu diễn một phần mối quan hệ kế thừa và phát triển giữa các biến thể

Các Bảng 1.2, Bảng 1.3 và Bảng 1.4 trình bày tóm lược thông tin về các biến thể của SOM, qua đó thấy được sự giống và khác nhau căn bản giữa các biến thể

Growing Neural Gas [27]

Growing Grid [26]

Incremental Grid Growing [17]

Growing SOM [7]

Growing Cell Structure [25]

Không sử dụng cấu trúc cây

X–Y Fused Network [59] Bi-Directional

Kohonen network [59]

Supervising Network Self-Organizing Map [72]

Semi-Supervised GSOM [8]

CÁC MẠNG NƠRON SOM HỌC GIÁM SÁT, BÁN GIÁM SÁT CÁC MẠNG NƠRON SOM HỌC KHÔNG GIÁM SÁT

Trang 40

Bảng 1 2 So sánh các biến thể SOM không sử dụng cấu trúc cây

Cấu trúc Khởi tạo Cơ chế hoạt động Bán kính lân cận Ưu, nhược điểm

Growing Cell

Structure [25]

Tế bào tăng trưởng

trong k

chiều

1 tế bào (nơron)

Tăng trưởng nơron dựa vào bộ đếm BMU cao nhất

BMU và các láng giềng liền

kề

Ánh xạ chính xác hơn, tuy nhiên trực quan mạng phức tạp

Tổng số nơron được cố định trước

Xây dựng kết nối giữa các nơron dựa vào bộ đếm

“tuổi” cao nhất

Tất cả nơron được xếp hạng theo Winer-Take-Most

Kích thước không phù hợp với dữ liệu do số nơron

2 nơron Tăng trưởng

nơron dựa vào lỗi lượng tử tích lũy cao nhất

Tất cả nơron được xếp hạng theo Winer-Take-Most

Kích thước có thể phù hợp với dữ liệu (đã cải thiện nhược điểm của Neural Gas)

Growing Grid

[26]

Tăng trưởng nơron trong lưới chữ nhật

2x2 nơron

Tăng trưởng 1 hàng hoặc 1 cột trong lưới dựa vào bộ đếm BMU cao nhất

Xác định theo City-Block

Gia tăng nơron tại những vị trí không cần thiết

Incremental

Grid Growing

[17]

2x2 nơron đến 3 nơron tại vị Tăng trưởng từ 1

trí biên lưới dựa vào lỗi lượng tử tích lũy cao nhất Xây dựng kết nối giữa các nơron

để tạo nên các cụm

Xác định theo số

“hop” tới BMU và tồn tại kết nối tới BMU

Ngưỡng kết nối tạo ra các cụm không có tiêu chí

rõ ràng

Mở rộng lưới tại vị trí biên có lỗi lượng tử cao nhất chưa hợp lý

Growing SOM

[7]

2x2 nơron đến 3 nơron tại vị Tăng trưởng từ 1

trí biên lưới dựa vào lỗi lượng tử tích lũy vượt ngưỡng Phân phối lỗi từ trung tâm ra biên

Giống SOM gốc năng phân cụm Không có khả

như IGG

Định dạng
Số trang	138
Dung lượng	2,9 MB