Một cấu trúc phân tầng tăng trưởng và thuật toán học bán giám sát của mạng nơron tự tổ chức cho bài toán phân lớp dữ liệu .... Tuy nhiên, bản thân mạng nơron SOM vẫn còn tồn tại nhiều nh
Trang 1KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM
KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS TS Nguyễn Quang Hoan
Hà Nội - 2016
Trang 3Lời cam đoan
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả được công
bố với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận
án Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong bất kỳ
công trình nào khác
NGHIÊN CỨU SINH
Lê Anh Tú
Trang 4Lời cảm ơn
Luận án được thực hiện tại Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa
học và Công nghệ Việt Nam, dưới sự hướng dẫn của PGS TS Nguyễn Quang Hoan
Tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS TS Nguyễn Quang Hoan, người đã
động viên, trao đổi nhiều kiến thức và chỉ bảo tôi vượt qua những khó khăn để hoàn
thành luận án này
Tôi cũng xin gửi lời cảm ơn chân thành tới PGS TS Lương Chi Mai, PGS TS
Đặng Văn Đức, TS Nguyễn Đức Dũng và các nhà khoa học khác tại Viện Công nghệ
Thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã có những trao đổi, góp
ý để tôi hoàn thiện luận án và giúp đỡ tôi trong quá trình học tập, nghiên cứu
Xin gửi lời cảm ơn đến Ban Giám hiệu Trường Đại học Công nghệ Thông tin và
Truyền thông - Đại học Thái Nguyên đã tạo điều kiện, quan tâm giúp đỡ để tôi có thể
hoàn thành luận án
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè, những người đã luôn
ủng hộ, giúp đỡ và hỗ trợ tôi về mọi mặt để tôi yên tâm học tập đạt kết quả tốt
Trang 5MỤC LỤC
Lời cam đoan 1
Lời cảm ơn 2
MỤC LỤC 3
Danh mục các từ viết tắt 7
Danh mục các ký hiệu toán học 9
Danh mục các bảng 11
Danh mục các hình vẽ, đồ thị 12
MỞ ĐẦU 14
CHƯƠNG 1 20
TỔNG QUAN VỀ CÁC MÔ HÌNH MẠNG NƠRON TỰ TỔ CHỨC 20
1.1 Tổng quan về mạng nơron nhân tạo 20
1.1.1 Khái niệm mạng nơron nhân tạo 20
1.1.2 Các kiến trúc căn bản của mạng nơron nhân tạo 21
1.1.3 Các phương pháp học 22
1.1.4 Lịch sử và xu hướng phát triển mạng nơron nhân tạo 24
1.2 Mạng nơron tự tổ chức 26
1.2.1 Cấu trúc mạng nơron tự tổ chức 26
1.2.2 Thuật toán học của mạng nơron tự tổ chức 27
1.2.3 Phương pháp đánh giá chất lượng bản đồ đặc trưng của mạng nơron tự tổ chức 30
1.3 Hạn chế của mạng nơron tự tổ chức và các biện pháp khắc phục 33
1.4 Kết quả nghiên cứu trong và ngoài nước về cải tiến cấu trúc, phương pháp của mạng nơron tự tổ chức 36
1.4.1 Kết quả nghiên cứu trong nước 36
1.4.2 Kết quả nghiên cứu ngoài nước 36
1.5 Đặc điểm chung của các phương thức cải tiến mạng nơron tự tổ chức 42
1.6 Một số vấn đề cần tiếp tục nghiên cứu của mạng nơron tự tổ chức và các biến thể 43
1.6.1 Nâng cao chất lượng bản đồ đặc trưng 43
Trang 61.6.2 Cải tiến cấu trúc và thuật toán học của mạng nơron tự tổ chức cho các bài
toán ứng dụng 44
1.7 Kết luận chương 1 44
CHƯƠNG 2 46
GIẢI PHÁP NÂNG CAO CHẤT LƯỢNG BẢN ĐỒ ĐẶC TRƯNG CỦA MẠNG NƠRON TỰ TỔ CHỨC 46
2.1 Giới thiệu các nghiên cứu nâng cao chất lượng bản đồ đặc trưng của mạng nơron tự tổ chức 46
2.2 Điều chỉnh hàm lân cận để nâng cao chất lượng bản đồ đặc trưng 48
2.2.1 Một số dạng hàm lân cận của mạng nơron tự tổ chức 48
2.2.2 Điều chỉnh tham số của hàm lân cận đối xứng dạng mũ 49
2.3 Thuật toán điều chỉnh trọng số nơron để giảm lỗi lượng tử 53
2.3.1 Đặt vấn đề 53
2.3.2 Thuật toán điều chỉnh trọng số nơron 59
2.4 Các tập dữ liệu sử dụng cho thực nghiệm 62
2.5 Thực nghiệm hàm lân cận mũ với tham số điều chỉnh 64
2.5.1 Mục tiêu thực nghiệm 64
2.5.2 Phương pháp thực nghiệm 64
2.5.3 Các tham số khởi tạo mạng 64
2.5.4 Kết quả thực nghiệm 64
2.5.5 So sánh hàm lân cận điều chỉnh với một số dạng hàm lân cận khác 73
2.6 Thực nghiệm thuật toán Batch-IMQS 74
2.6.1 Mục tiêu thực nghiệm 74
2.6.2 Phương pháp thực nghiệm 75
2.6.3 Các tham số khởi tạo mạng 75
2.6.4 Kết quả thực nghiệm 75
2.7 Kết luận chương 2 76
CHƯƠNG 3 78
MẠNG NƠRON TỰ TỔ CHỨC CÓ CẤU TRÚC PHÂN TẦNG TĂNG TRƯỞNG VÀ THUẬT TOÁN HỌC BÁN GIÁM SÁT CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU 78
3.1 Giới thiệu các mạng nơron tự tổ chức cải tiến học giám sát, bán giám sát 78
3.2 Phát biểu bài toán phân lớp dữ liệu 80
Trang 73.3 Một cấu trúc phân tầng tăng trưởng và thuật toán học bán giám sát của mạng
nơron tự tổ chức cho bài toán phân lớp dữ liệu 81
3.3.1 Các cấu trúc nền tảng để xây dựng mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho phân lớp dữ liệu 81
3.3.2 Cấu trúc mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho phân lớp dữ liệu 85
3.3.3 Thuật toán huấn luyện và kiểm thử của mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho phân lớp dữ liệu 89
3.4 Thực nghiệm mạng nơron tự tổ chức phân tầng tăng trưởng học bán giám sát cho phân lớp dữ liệu 93
3.4.1 Mục tiêu thực nghiệm 94
3.4.2 Phương pháp thực nghiệm 94
3.4.3 Các tham số khởi tạo mạng 95
3.4.4 Kết quả thực nghiệm 95
3.4.5 So sánh mô hình đề xuất với một số phương thức khác 98
3.5 Kết luận chương 3 103
CHƯƠNG 4 104
MỞ RỘNG CẤU TRÚC, THUẬT TOÁN HỌC CỦA MẠNG NƠRON TỰ TỔ CHỨC CHO BÀI TOÁN PHÂN CỤM DỮ LIỆU 104
4.1 Giới thiệu các nghiên cứu sử dụng mạng nơron tự tổ chức cho phân cụm dữ liệu 104
4.2 Phát biểu bài toán phân cụm dữ liệu 107
4.3 Cải tiến thuật toán học mạng nơron tự tổ chức cho phân cụm dữ liệu 108
4.3.1 Ý tưởng của thuật toán cải tiến 108
4.3.2 Thuật toán học cải tiến của mạng nơron tự tổ chức cho phân cụm dữ liệu 111
4.4 Mở rộng cấu trúc mạng nơron tự tổ chức cho phân cụm dữ liệu 113
4.4.1 Cấu trúc mạng nơron tự tổ chức mở rộng hai lớp 114
4.4.2 Thuật toán huấn luyện mạng nơron tự tổ chức mở rộng hai lớp 114
4.5 Thực nghiệm thuật toán học cải tiến và mạng tự tổ chức mở rộng hai lớp 118
4.5.1 Mục tiêu thực nghiệm 118
4.5.2 Phương pháp thực nghiệm 119
4.5.3 Các tham số khởi tạo mạng 119
4.5.4 Kết quả thực nghiệm 119
4.5.5 So sánh các phương thức đề xuất với một số phương thức khác 120
Trang 84.6 Kết luận chương 4 124
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI LUẬN ÁN 126
CÁC CÔNG TRÌNH KHOA HỌC CỦA NGHIÊN CỨU SINH 128
TÀI LIỆU THAM KHẢO 129
Trang 9Danh mục các từ viết tắt
Trang 10RCS Ruiz's CSS (Constrained Semi-Supervised)
Trang 11
Danh mục các ký hiệu toán học
Ký hiệu Diễn giải
center Tâm cụm dữ liệu
d(x,w i ) Khoảng cách giữa vector x và vector w i
d, y Mẫu đầu ra
m, g Các nút trên cây phân tầng GHSSOM
N c (t), R(t) Bán kính lân cận tại lần học thứ t
2) tại lần huấn luyện thứ t
q, p Các tham số điều chỉnh cho hàm lân cận
Trang 12V, I, J Tập dữ liệu
x(t) Mẫu đầu vào tại lần học thứ t
Trang 13Danh mục các bảng
Bảng 1 1 So sánh một số mạng nơron ra đời trước năm 1990 24
Bảng 1 2 So sánh các biến thể SOM không sử dụng cấu trúc cây 38
Bảng 1 3 So sánh các biến thể SOM sử dụng cấu trúc cây 39
Bảng 1 4 So sánh các mạng nơron tự tổ chức học giám sát 41
Bảng 2 1 Các tập dữ liệu sử dụng cho thực nghiệm 62
Bảng 2 2 QE, TE khi cố định tham số p=2, thay đổi tham số q 64
Bảng 2 3 QE, TE khi thay đổi tham số p, cố định tham số q 66
Bảng 2 4 So sánh QE, TE của một số dạng hàm lân cận 74
Bảng 2 5 QE, TE trước và sau khi áp dụng Batch-IMQS 75
Bảng 3 1 Giá trị tham số q của hàm lân cận áp dụng cho các tập dữ liệu 94
Bảng 3 2 Kết quả phân lớp của GHSSOMv1 95
Bảng 3 3 Kết quả phân lớp của GHSSOMv2 96
Bảng 3 4 So sánh độ chính xác phân lớp Iris của GHSSOM và một số phương thức 99 Bảng 3 5 Kết quả phân lớp của GHSSOM và một số phương thức cài đặt trong WEKA 99
Bảng 3 6 Kết quả phân lớp của LibSVM 100
Bảng 4 1 So sánh các phương pháp phân cụm dữ liệu của SOM 106
Bảng 4 2 Kết quả thực nghiệm phân cụm của SOM-P và SOM-2 119
Bảng 4 3 So sánh SOM-P, SOM-2 với GWCA và một số phương thức khác 120
Bảng 4 4 So sánh SOM-P, SOM-2 với GSOM và KGSOM 121
Bảng 4 5 So sánh SOM-P, SOM-2 với một số phương thức khác 122
Bảng 4 6 So sánh tỉ lệ phân loại sai của SOM-P, SOM-2 với một số phương thức 123
Trang 14Danh mục các hình vẽ, đồ thị
Hình 1 1 Kiến trúc mạng tự kết hợp 21
Hình 1 2 Kiến trúc mạng kết hợp khác kiểu 21
Hình 1 3 Kiến trúc mạng truyền thẳng 22
Hình 1 4 Kiến trúc mạng hồi quy 1 lớp 22
Hình 1 5 Mô hình học có giám sát 23
Hình 1 6 Cấu trúc SOM với lớp Kohonen 2 chiều 27
Hình 1 7 Các dạng tổ chức nơron của lớp Kohonen 2 chiều 27
Hình 1 8 Xác định lân cận của BMU đối với lớp Kohonen 1 chiều 28
Hình 1 9 Xác định lân cận của BMU đối với lớp Kohonen 2 chiều (t 1 <t 2 <t 3 ) [44] 28
Hình 1 10 Phân loại các biến thể của SOM 37
Hình 2 1 Mức độ học của các nơron xa BMU giảm dần trong bán kính lân cận N c (t). 49
Hình 2 2 Hàm h ci (t) biến đổi tương ứng với tham số q khi N c (t)=10 51
Hình 2 3 Hàm h ci (t) biến đổi tương ứng với tham số p khi N c (t)=10 52
Hình 2 4 Minh họa “phần tử khác biệt” của nơron i 56
Hình 2 5 Đồ họa biểu diễn sự phân bố dữ liệu của XOR 63
Hình 2 6 Đồ họa biểu diễn sự phân bố dữ liệu của Aggregation, Flame, Iris, Pathbased, Spiral, Jain, Compound, R15, D31 63
Hình 2 7 Biểu đồ QE, TE của XOR khi thay đổi q và p 67
Hình 2 8 Biểu đồ QE, TE của Aggregation khi thay đổi q và p 68
Hình 2 9 Biểu đồ QE, TE của Flame khi thay đổi q và p 68
Hình 2 10 Biểu đồ QE, TE của Pathbased khi thay đổi q và p 69
Hình 2 11 Biểu đồ QE, TE của Spiral khi thay đổi q và p 69
Hình 2 12 Biểu đồ QE, TE của Jain khi thay đổi q và p 70
Hình 2 13 Biểu đồ QE, TE của Compound khi thay đổi q và p 70
Hình 2 14 Biểu đồ QE, TE của R15 khi thay đổi q và p 71
Hình 2 15 Biểu đồ QE, TE của D31 khi thay đổi q và p 71
Hình 2 16 Biểu đồ QE, TE của Iris khi thay đổi q và p 72
Hình 2 17 Biểu đồ QE, TE của Vowel khi thay đổi q và p 72
Hình 2 18 Biểu đồ QE, TE của Zoo khi thay đổi q và p 73
Trang 15Hình 3 1 Cấu trúc mạng GHSOM [78] 82
Hình 3 2 Cấu trúc mạng HTS 83
Hình 3 3 Cấu trúc mạng CPN 84
Hình 3 4 Cấu trúc một nút của GHSSOM 86
Hình 3 5 Cấu trúc mạng GHSSOM 87
Hình 3 6 Biểu đồ so sánh kết quả phân lớp của GHSSOMv1 và GHSSOMv2 97
Hình 3 7 So sánh GHSSOM với SSGSOM, CS2GS và một số phương thức khác 98
Hình 3 8 Biểu đồ so sánh kết quả phân lớp của GHSSOM và LibSVM 102
Hình 4 1 Sử dụng SOM cho phân cụm dữ liệu 107
Hình 4 2 Minh họa nguyên tắc phân ly và tranh chấp 110
Hình 4 3 Minh họa kết quả phân nhóm nơron bằng SOM-P 113
Hình 4 4 Cấu trúc mạng SOM-2 114
Trang 16MỞ ĐẦU
1 Tính cấp thiết của luận án
Mạng nơron bản đồ tự tổ chức (SOM - Self Organizing Map) do giáo sư Teuvo Kohonen đề xuất năm 1980 [44] Nó còn được biết đến với các tên gọi khác là: Bản đồ đặc trưng tự tổ chức (SOFM - Self Organizing Feature Map) hay mạng nơron Kohonen, hay đơn giản hơn là mạng nơron tự tổ chức
SOM có thể được ứng dụng để giải quyết nhiều bài toán thực tế như: trực quan dữ liệu, dự báo, nhận dạng, điều khiển Đặc biệt, với tính chất tự tổ chức của mạng, nên
nó được coi là một công cụ hiệu quả cho việc trực quan, phân tích dữ liệu và hữu ích để thực hiện một số nhiệm vụ tiền xử lý trong khai phá dữ liệu như phân lớp và phân cụm
dữ liệu Tính tự tổ chức của SOM được thực hiện bởi nguyên tắc học cạnh tranh, không giám sát nhằm tạo ra ánh xạ của dữ liệu từ không gian nhiều chiều về không gian ít chiều hơn (thường là hai chiều), nhưng vẫn đảm bảo được quan hệ về mặt hình trạng của dữ liệu Điều này có nghĩa là các dữ liệu có đặc trưng tương đồng nhau sẽ được đại diện bởi cùng một nơron hoặc các nơron gần nhau và các nơron gần nhau sẽ tương đồng với nhau hơn so với những nơron ở xa Kết quả là hình thành bản đồ đặc trưng của tập dữ liệu Đây thực chất là một phép chiếu phi tuyến tạo ra “ánh xạ đặc trưng” cho phép phát hiện và phân tích những đặc trưng của không gian dữ liệu vào
Tuy nhiên, bản thân mạng nơron SOM vẫn còn tồn tại nhiều nhược điểm dẫn tới những khó khăn và khả năng ứng dụng thực tiễn bị hạn chế như: phải xác định trước hình trạng (số chiều và kết nối giữa các nơron trong cấu trúc mạng) và kích thước bản đồ; bản đồ đặc trưng thiếu tính trực quan; thiếu cơ chế phân loại chính xác dữ liệu theo các tiêu chí cụ thể; tốn thời gian để xác định nơron chiến thắng (BMU), đặc biệt khi bản
đồ đặc trưng có kích thước lớn; thứ tự của các mẫu vào ảnh hưởng tới xu hướng biến đổi của bản đồ; thiếu cơ chế để khai thác các thông tin chỉ dẫn trong các bài toán học có giám sát Do vậy, nghiên cứu cải tiến SOM đã được nhiều nhà nghiên cứu quan tâm
Trang 17Các cải tiến này được chia làm hai hướng chính, gồm: cải tiến cấu trúc mạng và cải tiến thuật toán học của mạng
Các nghiên cứu cải tiến về cấu trúc của mạng có thể được chia làm hai nhóm [12]: Nhóm thứ nhất gồm các cấu trúc cải tiến tăng trưởng theo chiều ngang Các cấu trúc này có đặc điểm chung là ban đầu mạng có kích thước nhỏ, sau đó mở rộng trong quá trình huấn luyện tùy thuộc vào đặc tính của tập dữ liệu huấn luyện Các cấu trúc điển hình thuộc nhóm này gồm: Growing Cell Structure (1992) [25], Neural Gas (1993) [55]
và Topology Representing Network (1994) [56], Growing Neural Gas (1995) [27] và Growing Grid (1995) [26], Incremental Grid Growing (1995) [17], Growing SOM (2000) [7]
Nhóm thứ hai gồm các cấu trúc cải tiến tăng trưởng theo chiều dọc, còn gọi là cấu trúc cây (với mỗi nút của cây là một nơron) hoặc cấu trúc cây phân tầng (với mỗi nút của cây là một mạng nơron SOM hoặc một biến thể của SOM) Các cấu trúc cây có thể
cố định trước kích thước, nhưng cũng có thể tăng trưởng kích thước trong quá trình huấn luyện, do đó, còn được gọi là cấu trúc cây tăng trưởng Các cấu trúc điển hình thuộc nhóm này gồm: Tree-Structured VQ (1990) và Tree-Structured SOM (1990) [45], Hierarchical Feature Map (1990) [62], Self-Organizing Tree Algorithm (1997) [22], Growing Hierarchical SOM (2002) [78], Adaptive Hierarchical Incremental Grid Growing (2003) [60], Evolving Tree (2004) [70], Self Organising Tree Map (2006) [33], Growing Hierarchical Tree SOM (2006) [24], TTOSOM with Conditional Rotations (2009) [10] và Tree-Based Topology-Oriented SOM (2011) [11] Các cấu trúc cây được đưa ra chủ yếu nhằm mục đích biểu diễn tính chất phân cấp của dữ liệu
Các nghiên cứu cải tiến về thuật toán học của mạng có thể chia làm hai nhóm chính: SOM học không giám sát và SOM học có giám sát hoặc bán giám sát Các ví dụ điển hình của nhóm SOM học có giám sát hoặc bán giám sát gồm: Supervised Kohonen Network (1988) [44], Counter Propagation Network (1997) [98], Recurrent Self-Organizing Map (2001) [46], Supervising Network Self-Organizing Map (2001) [72], X–Y Fused Network (2006) và Bi-Directional Kohonen network (2006) [59], Semi-Supervised GSOM (2015) [8] và một số nghiên cứu liên quan khác của tác giả
Trang 18Thammano (2007) [85], Lawawirojwong (2013)[48], Groof (2014) [32], Gil (2015) [31], Li (2013) [51], Abaei (2015) [6]
Cho đến nay, mặc dù có nhiều nghiên cứu phát triển SOM nhưng vẫn tồn tại một số vấn đề cần tiếp tục nghiên cứu, phát triển:
Một là, nâng cao chất lượng bản đồ đặc trưng của SOM là một vấn đề khó Hầu hết các nghiên cứu chỉ có thể cải thiện được chất lượng học (đánh giá bằng lỗi lượng tử) hoặc chất lượng chiếu (đánh giá bằng lỗi hình trạng), mà không thể cải thiện được đồng thời cả hai tiêu chí này [30], [52], [66], thậm chí chúng có sự thay đổi tỉ lệ nghịch với nhau [74]
Hai là, bản chất quá trình học của SOM nhằm tạo ra ánh xạ của dữ liệu từ không gian nhiều chiều tới một không gian ít chiều hơn (thường là 2 chiều), nên mục đích chính của SOM và các biến thể là biểu diễn sự phân bố hoặc phân cấp dữ liệu Do đó, để ứng dụng SOM cho các mục đích khác, cần cải tiến về mặt cấu trúc và thuật toán học cho phù hợp Đây có thể được coi là một hướng nghiên cứu mở, do mỗi bài toán thực tế có thể cải tiến
và ứng dụng SOM theo nhiều cách khác nhau
2 Mục tiêu nghiên cứu
Trên cơ sở nghiên cứu quá trình phát triển và những vấn đề còn tồn tại cần tiếp tục
phát triển của SOM, đề tài luận án có các mục tiêu chung và mục tiêu cụ thể như sau:
a Mục tiêu chung
Đề xuất các cấu trúc, thuật toán cải tiến của SOM khác với các nghiên cứu đã công
bố trước đây; Ứng dụng SOM để giải quyết một số vấn đề của khai phá dữ liệu
b Mục tiêu cụ thể
Mục tiêu nghiên cứu cụ thể của luận án tập trung vào hai vấn đề:
Thứ nhất, đề xuất một số giải pháp nâng cao chất lượng bản đồ đặc trưng của SOM Thứ hai, cải tiến cấu trúc và thuật toán học của SOM ứng dụng cho các bài toán phân lớp và phân cụm dữ liệu
Trang 193 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Mạng nơron tự tổ chức và ứng dụng trong một số vấn đề của khai phá dữ liệu
Phạm vi nghiên cứu: Mạng nơron tự tổ chức với các nơron của lớp đầu ra được tổ chức dưới dạng lưới 2 chiều hình chữ nhật; dữ liệu đầu vào của mạng là các vector thuộc tính số thực
4 Phương pháp nghiên cứu
Kết hợp nghiên cứu lý thuyết và thực nghiệm Từ các kết quả nghiên cứu về mặt lý thuyết, cài đặt chương trình thử nghiệm bằng ngôn ngữ lập trình C# và chạy thực nghiệm trên máy tính cá nhân (Chipset Core i5 - 1.7GHz, RAM 6GB) Tiến hành thực nghiệm trên 12 tập dữ liệu giả định và thực tế đã được công bố
Các số liệu thực nghiệm được ghi nhận, phân tích và so sánh với các giải pháp khác
để kiểm chứng tính đúng đắn của các kết quả nghiên cứu Khi đánh giá kết quả cải tiến SOM cho phân lớp, phân cụm dữ liệu và so sánh với các giải pháp khác chỉ xem xét trên
cơ sở độ chính xác phân lớp, phân cụm mà không đề cập đến vấn đề hiệu năng tính toán
Trang 20khác, mô hình đề xuất phân lớp chính xác hơn, đặc biệt trong các trường hợp
số lượng mẫu dữ liệu huấn luyện có nhãn nhỏ
(4) Đưa ra hai đề xuất cải tiến SOM cho bài toán phân cụm dữ liệu Một là, cải tiến thuật toán học của SOM gốc Hai là, đề xuất cấu trúc SOM mở rộng gồm hai lớp và thuật toán học tương ứng Hai đề xuất này phân cụm chính xác hơn
so với một số phương thức phân cụm khác sử dụng phương pháp phân hoạch
và một số phương thức phân cụm được phát triển từ SOM
Các công trình đã công bố liên quan nhất đến luận án gồm: 02 bài báo công bố trên tạp chí Tạp chí Tin học và Điều khiển học [4A], [5A]; 02 bài báo công bố trên tạp chí quốc tế (có chỉ số ESCI) [6A], [7A]; 01 bài báo công bố trên Tạp chí KH&CN - Đại học Thái Nguyên [3A]; 01 báo cáo công bố trong Kỷ yếu Hội thảo quốc tế ICCASA 2012, xuất bản bởi Springer [2A]; 03 báo cáo công bố trong Kỷ yếu Hội thảo quốc gia Fair
2013 [1A] và VCM 2016 [8A]
6 Cấu trúc của luận án
Nội dung của luận án bao gồm 4 chương Chương đầu trình bày nghiên cứu tổng quan về nội dung của đề tài Các chương còn lại trình bày các đóng góp của luận án Nội dung của từng chương có thể tóm tắt như sau:
Chương 1 trình bày nghiên cứu tổng quan về mạng nơron nhân tạo, mạng nơron tự
tổ chức SOM; đồng thời xem xét bối cảnh chung về lịch sử và xu hướng phát triển của mạng nơron nhân tạo trong những năm gần đây
Các nghiên cứu tổng quan của Chương 1 tập trung phân tích các hạn chế và biện pháp khắc phục các hạn chế của SOM Ngoài ra, tổng hợp và phân tích các hướng nghiên cứu cải tiến SOM, từ đó chỉ ra đặc điểm chung của các cách thức cải tiến SOM đã được các nhà nghiên cứu thực hiện
Chương 2 trình bày các nghiên cứu liên quan đến vấn đề đánh giá và cải thiện chất
lượng bản đồ đặc trưng của mạng nơron SOM từ đó đưa ra hai đề xuất, gồm:
Thứ nhất, đưa ra tham số điều chỉnh của hàm lân cận đối xứng dạng mũ Tham số điều chỉnh được xác định riêng cho mỗi tập dữ liệu, cho phép giảm đồng thời cả lỗi
Trang 21lượng tử và lỗi hình trạng của mạng Các lý luận và phân tích của phương thức đề xuất được chứng minh bằng thực nghiệm
Thứ hai, đưa ra thuật toán điều chỉnh trọng số nơron để giảm lỗi lượng tử của mạng Thuât toán đề xuất điều chỉnh trọng số nơron sau khi thuật toán huấn luyện kết thúc Điều này cho phép giảm lỗi lượng tử của mọi bản đồ mà không quan tâm đến các tham
số cấu hình mạng, cũng như không gia tăng thêm các tham số khác Nội dung của đề xuất gồm một định nghĩa, một định lý, một hệ quả và một thuật toán
Tiếp theo trình bày kết quả thực nghiệm của các đề xuất và so sánh với một số phương thức liên quan
Chương 3 trình bày các nghiên cứu liên quan đến cải tiến SOM học giám sát hoặc
bán giám sát nói chung và áp dụng cho bài toán phân lớp nói riêng, từ đó đề xuất một cấu trúc SOM phân tầng tăng trưởng và thuật toán học bán giám sát cho mục đích phân lớp dữ liệu Mô hình đề xuất có thể hoạt động như một mô hình phân lớp truyền thống (100% dữ liệu huấn luyện có gán nhãn) hoặc mô hình phân lớp bán giám sát
Tiếp theo trình bày các thực nghiệm kiểm chứng khả năng phân lớp của GHSSOM, đồng thời so sánh với một số phương thức phân lớp khác
Chương 4 trình bày các nghiên cứu liên quan đến việc cải tiến SOM áp dụng cho
bài toán phân cụm dữ liệu, từ đó đưa ra hai đề xuất cải tiến cấu trúc và thuật toán học SOM ứng dụng cho bài toán phân cụm dữ liệu, gồm:
Thứ nhất, cải tiến thuật toán học của SOM kết hợp hai mục tiêu huấn luyện mạng
và phân nhóm nơron
Thứ hai, đưa ra một cấu trúc SOM mở rộng hai lớp và thuật toán huấn luyện tương ứng cho mục đích phân cụm dữ liệu, trong đó lớp thứ hai đóng vai trò phân nhóm các nơron thuộc lớp thứ nhất
Tiếp theo trình bày kết quả thực nghiệm của các phương thức đề xuất và so sánh kết quả với một số phương thức phân cụm khác
Trang 22CHƯƠNG 1 TỔNG QUAN VỀ CÁC MÔ HÌNH MẠNG NƠRON TỰ TỔ CHỨC
Chương này trình bày nghiên cứu tổng quan của luận án, gồm bốn nội dung chính: Thứ nhất, nghiên cứu tổng quan về mạng nơron nhân tạo: kiến trúc, thuật học và xu hướng phát triển
Thứ hai, nghiên cứu tổng quan về mạng nơron tự tổ chức: cấu trúc, thuật toán huấn luyện, phân tích các hạn chế của mạng nơron tự tổ chức và biện pháp khắc phục các hạn chế
Thứ ba, tổng hợp các nghiên cứu trong và ngoài nước về cải tiến cấu trúc, thuật toán học của mạng nơron tự tổ chức
Cuối cùng, phân tích đặc điểm chung của các phương thức cải tiến mạng nơron tự tổ chức
1.1 Tổng quan về mạng nơron nhân tạo
1.1.1 Khái niệm mạng nơron nhân tạo
Mạng nơron nhân tạo (ANN) là một mô hình tính toán dựa trên sự kết hợp các nơron trong một kiến trúc thống nhất, trong đó các nơron cùng hoạt động song song ANN là
một ánh xạ F: X → Y, trong đó X là không gian trạng thái đầu vào và Y là không gian
đầu ra y ∈ Y thông qua “bộ lọc” (filter) (còn được gọi là hệ cơ sở tri thức), tức là y=F(x)=s(W, x), trong đó W là ma trận trọng số liên kết, s là hàm tương tác đầu ra
Dựa theo mạng nơron sinh học, ANN được tạo ra từ một lượng lớn các phần tử xử
lý (gọi là nơron 1 ) kết nối với nhau thông qua các liên kết (gọi là trọng số liên kết) làm
việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó
1 Mô hình tính toán cho một nơron nhân tạo do McCulloch và Pitts đưa ra năm 1943
Trang 231.1.2 Các kiến trúc căn bản của mạng nơron nhân tạo
Có nhiều quan điểm khác nhau trong việc phân loại kiến trúc mạng nơron [96] Tuy nhiên xét về mặt tổng quát, người ta chia ra làm hai loại kiến trúc mạng chính:
- Tự kết hợp (Autoassociative): là mạng có các nơron đầu vào cũng là các nơron đầu
ra Các mạng Hopfield, BAM là thuộc kiểu mạng tự kết hợp
- Kiến trúc truyền thẳng (Feedforward): tín hiệu di chuyển theo một đường duy nhất
từ đầu vào tới đầu ra và không có các kết nối ngược trở lại từ các nơron đầu ra về các nơron đầu vào Mạng không lưu lại các giá trị output trước và các trạng thái kích hoạt của nơron Đầu ra của một tầng bất kì sẽ không ảnh hưởng tới tầng đó
Trang 24Hình 1 3 Kiến trúc mạng truyền thẳng
- Kiến trúc phản hồi (Feedback): có các kết nối từ nơron đầu ra tới nơron đầu vào,
tức là đầu ra của một nơron có thể trở thành đầu vào của nơron trên cùng một lớp hoặc của lớp trước đó Mạng lưu lại các trạng thái trước đó và trạng thái tiếp theo không chỉ phụ thuộc vào các tín hiệu đầu vào mà còn phụ thuộc vào các trạng thái
trước đó của mạng Trong trường hợp mạng Feedback có chu trình khép kín còn gọi là mạng hồi quy (Recurrent)
Hình 1 4 Kiến trúc mạng hồi quy 1 lớp
1.1.3 Các phương pháp học
Đối với mạng nơron nhân tạo, quá trình học có hai nhiệm vụ, đó là học tham số
(Parameter Learning) và học cấu trúc (Structure Learning) Học tham số là thay đổi
trọng số của các liên kết giữa các nơron Học cấu trúc là điều chỉnh cấu trúc của mạng, gồm thay đổi số lớp, số nơron trong mỗi lớp và cách liên kết giữa chúng Cả hai nhiệm
vụ này có thể được thực hiện đồng thời hoặc tách biệt
a Mạng truyền thẳng 1 lớp b Mạng truyền thẳng nhiều lớp
Trang 25Có ba phương pháp học tham số phổ biến của mạng nơron gồm: học có giám sát
(Supervised Learning), học không giám sát (Unsupervised Learning) và học bán giám sát (Semi-Supervised Learning)
- Học có giám sát: phương pháp học này còn được gọi là học có “thầy” Mạng được
huấn luyện bằng các cặp mẫu đầu vào và các đầu ra mong muốn Tập mẫu huấn luyện được cho dưới dạng V x d, |xR d n, R k, trong đó x là vector đầu vào,
d là vector đầu ra mong muốn hoặc nhãn của dữ liệu Quá trình học của mạng
nhằm xấp xỉ hàm d=f(x), biểu diễn mỗi quan hệ trên tập mẫu huấn luyện (x,d)
(Hình 1.5)
Một dạng mở rộng của học có giám sát là học tăng cường hay học củng cố
(Reinforcement Learning) Mạng vẫn nhận một số tín hiệu phản hồi (củng cố) từ
bên ngoài, nhưng các tín hiệu này chỉ mang tính chất đánh giá mức độ tốt hay xấu của đầu ra thực tế hơn là tính chất chỉ dẫn Những tín hiệu củng cố sau đó được xử
lý để tạo ra tín hiệu đánh giá, dùng để điều chỉnh các trọng số nhằm đạt được tín
hiệu đánh giá tốt hơn Học củng cố đôi khi còn gọi là học thưởng-phạt
(Reward-Penalty Learning), tức là nếu kết quả đầu ra được cho là “tốt” mạng sẽ được thưởng
theo nghĩa tăng trọng số kết nối, ngược lại, mạng sẽ bị phạt theo nghĩa các trọng
số kết nối không thích hợp sẽ được giảm xuống
Trang 26chuẩn đánh giá độ tương tự giữa các mẫu để hình thành một số lượng chưa biết trước các lớp (nhóm) khác nhau
- Học bán giám sát: phương pháp học này là sự kết hợp của cả hai phương pháp học
có học giám sát và học không giám sát Mạng được huấn luyện với cả hai loại mẫu
dữ liệu gồm: mẫu dữ liệu đã kèm theo đầu ra mong muốn d (hay dữ liệu đã được gán nhãn) và mẫu dữ liệu không kèm theo đầu ra mong muốn d (hay dữ liệu chưa
được gán nhãn) Thông thường số lượng các mẫu huấn luyện đã kèm đầu ra mong muốn sẽ ít hơn số lượng các mẫu dữ liệu không kèm theo đầu ra mong muốn
1.1.4 Lịch sử và xu hướng phát triển mạng nơron nhân tạo
Các nguyên tắc căn bản của mạng nơron nhân tạo do McCulloch và Pitts đưa ra đầu tiên vào năm 1943 Cho tới những năm 1980s, quá trình phát triển của ANN đã trải qua nhiều giai đoạn thăng trầm, nguyên nhân chủ yếu là do các hạn chế về công nghệ máy tính Mặc dù vậy, các phát kiến đánh dấu những bước thay đổi quan trọng của ANN phải
kể đến bao gồm: mạng Perceptron 1 lớp vào và 1 lớp ra của Rosenblatt (1958), mạng Perceptron đa lớp của Minsky (1969), bản đồ tự tổ chức của Kohonen (1980) [44], mạng phản hồi của Hopfield (1982) và mạng truyền thẳng thuật toán lan truyền ngược Back Propagation của Hinton (1986) Đặc điểm chung của các loại mạng này được chỉ ra trong Bảng 1.1
Bảng 1 1 So sánh một số mạng nơron ra đời trước năm 1990
Back Propagation Tác giả,
1986 Phân
loại
Truyền thẳng
Truyền thẳng
Truyền thẳng, Phản hồi
1 lớp ra
1 hoặc nhiều lớp ẩn
1 lớp ra Hàm
chuyển
Hard Limiter
Hard Limiter Sigmoid
Hard Limiter
Sigmoid
Trang 27Phương
pháp
học
Có giám sát Có giám sát Không giám
Thuật
toán học Learning “Hebb
Rule”
“Delta Learning Rule”
“Back Propagation
”
“Self Organization”
“Delta Learning Rule”
“Simulated Annealing”
“Back Propagation”
Ứng
dụng
chủ yếu
Các phép toán logic đơn giản;
Phân lớp mẫu
Các phép toán logic phức tạp;
Phân lớp mẫu
Phân loại mẫu; Bài toán tối ưu;
Trực quan
dữ liệu
Liên kết mẫu; Bài toán tối ưu
Các phép toán logic phức tạp; Phân lớp mẫu; Phân tích tiếng nói Trong các mạng nơron trên, SOM được coi là mạng hữu ích cho mô phỏng quá trình học của não người Không giống các mạng nơron khác chỉ quan tâm đến giá trị và dấu hiệu của thông tin đầu vào, nó có khả năng khai thác các mối liên hệ có tính cấu trúc trong không gian dữ liệu thông qua một bản đồ đặc trưng Bản đồ đặc trưng gồm các nơron tự tổ chức theo các giá trị đầu vào nhất định; do đó nó có thể được huấn luyện để tìm ra các quy luật và sự tương quan giữa các giá trị đầu vào, từ đó dự đoán các kết quả tiếp theo Trong giai đoạn này, các nhà nghiên cứu cho rằng, nếu một hệ thống mô phỏng quá trình học của não người được thực hiện thì bản đồ đặc trưng của SOM sẽ đóng vai trò như là trái tim của hệ thống
Từ những năm 1990 đến khoảng 2009, cùng với sự phát triển của phần cứng máy tính, các nghiên cứu về mạng nơron đã hồi sinh sau một giai đoạn chìm lắng, điển hình
là sự phát triển mạng nơron tự tổ chức SOM, với các cấu trúc tăng trưởng nhiều tầng nhằm tối ưu tính toán [12] Giai đoạn này giống như sự chuẩn bị cho sự phát triển bùng
nổ của công nghệ học sâu Học sâu được gọi là công nghệ vì bản chất của các mô hình tính toán không mới mà phát triển các mô hình đã có để thực hiện trên các hệ thống máy tính có cấu hình mạnh Điển hình của giai đoạn này là mạng huấn luyện trước, không giám sát được đề xuất bởi Geoffrey Hilton đã giành chiến thắng trong cuộc thi quốc tế
về nhận dạng ký tự viết tay năm 2009
ANN đã thực sự trở lại thời kỳ hoàng kim từ năm 2012 đến nay, với sự góp mặt của hãng Google và nhiều nhà nghiên cứu Mạng nơron với cấu trúc truyền thẳng nhiều lớp
phức tạp sử dụng phương pháp học sâu “Deep Learning” [79] đã ra đời, được gọi là
Trang 28mạng nơron học sâu Hiện nay, các mạng nơron học sâu thực chất là sự kết hợp của các
ý tưởng trước đây, bao gồm:
- Tăng độ sâu (số tầng) và độ rộng (số nút trong mỗi tầng) của cấu trúc mạng hơn nhiều lần so với trước đây nhằm khai thác khả năng tính toán của các máy tính hiện đại
- Các mạng nơron tự tổ chức, cạnh tranh theo nguyên tắc “Winner-Take-All” tốt hơn các mạng với cấu trúc nút độc lập [81], sử dụng các mạng nơron hồi quy sâu (nhiều lớp) tốt hơn các mạng truyền thẳng [84]
- Tri thức cần được khám phá và truyền lại qua nhiều thế hệ, mỗi thế hệ sau tiếp nhận tri thức của thế hệ trước và tiếp tục bổ sung những tri thức mới [15]
- Các mô hình học không giám sát đóng vai trò quan trọng trong việc khám phá tri thức mới, các mô hình học có giám sát đóng vai trò cải thiện chất lượng tri thức
Do đó cần có sự kết hợp giữa các phương pháp học này
- Sử dụng các máy tính cấu hình mạnh hoặc thậm chí chế tạo các phần cứng dành riêng cho mạng nơron
Như vậy có thể thấy rằng tư tưởng chủ đạo của SOM với cấu trúc mạng tự tổ chức,
sử dụng phương pháp học cạnh tranh, không giám sát đã thực sự trở thành nền tảng quan trọng trong xu hướng phát triển các mạng nơron hiện nay
1.2 Mạng nơron tự tổ chức
1.2.1 Cấu trúc mạng nơron tự tổ chức
Mạng nơron SOM có cấu trúc đơn lớp [44], gồm: các tín hiệu vào và lớp ra (được gọi là lớp Kohonen), trong đó, tất cả các đầu vào được kết nối đầy đủ với mọi nơron trên lớp ra Kohonen (Hình 1.6) Kiến trúc mạng của SOM thuộc đồng thời cả hai nhóm mạng truyền thẳng và mạng phản hồi, do dữ liệu được truyền từ đầu vào tới đầu ra đồng thời
có sự ảnh hưởng giữa các nơron trong lớp Kohonen
Trang 29Hình 1 6 Cấu trúc SOM với lớp Kohonen 2 chiều
Lớp Kohonen thường được tổ chức dưới dạng một ma trận 2 chiều, gồm s nơron tổ
chức dạng lưới hình chữ nhật (Hình 1.7a) hoặc hình lục giác (Hình 1.7b) Trong phạm
vi nghiên cứu của luận án chỉ đề cập đến mạng nơron SOM với lớp Kohonen 2 chiều,
các nơron tổ chức dạng lưới hình chữ nhật, do đó s=ab Mỗi đơn vị thứ i (nơron) trong
lớp Kohonen có một vector trọng số w i = [w i1 , w i2 , …,w in ], với n là kích thước (số chiều)
vector đầu vào; w ij là trọng số của nơron thứ i ứng với đầu vào thứ j
a) Dạng lưới hình chữ nhật b) Dạng lưới hình lục giác
Hình 1 7 Các dạng tổ chức nơron của lớp Kohonen 2 chiều
1.2.2 Thuật toán học của mạng nơron tự tổ chức
SOM sử dụng thuật toán học cạnh tranh, không giám sát, hay còn được gọi là thuật toán tự tổ chức (thuật toán SOM hay thuật toán học của SOM)
Thuật toán SOM gồm 4 bước [44]:
Bước 1: Khởi tạo
- Kích thước mạng (là kích thước lớp Kohonen)
- Vector trọng số của các nơron: khởi tạo giá trị ngẫu nhiên
a
Trang 30- Bán kính lân cận khởi tạo ( N0 hay N c (t) với t=0): nên khởi tạo đủ lớn để phủ kín
toàn bộ bản đồ (bán kính lân cận xác định phạm vi tác động của mẫu đầu vào đối với các nơron tính từ vị trí của nơron chiến thắng, bán kính lân cận giảm dần theo
số lần huấn luyện)
- Tỉ lệ học khởi tạo ( L0): nên khởi tạo bằng giá trị tối đa là 1 (tỉ lệ học là hệ số xác
định mức độ tác động của mẫu đầu vào đối với mạng, tỉ lệ học giảm dần theo số lần huấn luyện)
Bước 2: Cạnh tranh
Với mỗi mẫu đầu vào x(t)R n (t là lần học hay lần huấn luyện), thực hiện tìm trên
ma trận Kohonen một nơron c có giá trị hàm khoảng cách dist nhỏ nhất (thường dùng hàm Euclidian, Manhattan) Nơron c được gọi là BMU (Best Matching Unit) hay nơron
Hình 1 8 Xác định lân cận của BMU đối với lớp Kohonen 1 chiều
Hình 1 9 Xác định lân cận của BMU đối với lớp Kohonen 2 chiều (t 1 <t 2 <t 3 ) [44]
Cơ sở cho sự hợp tác giữa các nơron là phạm vi ảnh hưởng của BMU hay còn gọi là
bán kính lân cận của BMU (ký hiệu N c (t)) N c (t) giảm đơn điệu theo thời gian, cụ thể
c
N c (t)=1
N c (t)=3
N c (t)=2
Trang 31bán kính lân cận sẽ co lại theo số lần huấn luyện (Hình 1.8, Hình 1.9) N c (t) được xác
định bằng một hàm giảm dần theo số lần huấn luyện (thường sử dụng dạng hàm Gaussian)
huấn luyện hay tổng số lần học);
Trọng số liên kết của các nơron trong phạm vi bán kính lân cận của BMU (bao gồm
cả BMU) được điều chỉnh theo hướng gần hơn với mẫu đầu vào x(t) Mức độ điều chỉnh
trọng số của BMU là lớn nhất, sau đó giảm dần đối với các nơron ở xa BMU
tại lần học thứ t; h t ci có dạng đối xứng, thường sử dụng hàm Gaussian (giá trị
hàm giảm dần đối với các nơron có vị trí xa BMU) như sau:
Trang 32- L t là hàm xác định tỉ lệ học tại lần học thứ t Tỉ lệ học của mạng giảm đơn điệu
theo thời gian tương tự bán kính lân cận, do đó nó có thể là một hàm tuyến tính,
trong quá trình huấn luyện theo công thức:
Sau khi khởi tạo (Bước 1), quá trình huấn luyện mạng sẽ lặp lại nhiều lần các bước
2, 3 và 4 cho đến khi thỏa mãn một trong các điều kiện dừng Điều kiện dừng phổ biến
là tổng số lần huấn luyện mạng bằng T cho trước hoặc quá trình học của mạng đạt đến
trạng thái cân bằng (trọng số của các nơron thay đổi không đáng kể sau một số lần huấn luyện nhất định)
1.2.3 Phương pháp đánh giá chất lượng bản đồ đặc trưng của mạng nơron tự tổ chức
Mạng nơron tự tổ chức tạo ra ánh xạ của tập dữ liệu đầu vào trong không gian nhiều chiều tới không gian ít chiều hơn, thường là hai chiều và được gọi là bản đồ đặc trưng của dữ liệu Để đánh giá chất lượng bản đồ đặc trưng, người ta chủ yếu sử dụng hai chỉ
tiêu chất lượng học (Learning Quality) và chất lượng chiếu (Projection Quality) [13],
[41], [73], [89] Chỉ tiêu chất lượng học được xác định thông qua độ đo lỗi lượng tử
Trang 33(QE- Quantization Error) [16], [44] Chỉ tiêu chất lượng chiếu được xác định thông qua
độ đo lỗi hình trạng (TE- Topographic Error) [14], [43], [64] Nếu các độ đo QE và TE
nhỏ thì bản đồ đặc trưng được đánh giá là chất lượng tốt Ngoài hai độ đo này, một số
độ đo khác có thể được sử dụng như: tích hình trạng (TP- Topographic Product), độ biến dạng (DM- Distortion Measure) Sau đây trình bày một số độ đo thường được sử
dụng để đánh giá chất lượng bản đồ đặc trưng của mạng nơron tự tổ chức
Lỗi lượng tử:
Lỗi lượng tử (QE) là độ đo đánh giá chất lượng học của mạng thông qua độ khác
biệt trung bình của các mẫu đầu vào so với các nơron chiến thắng (BMU) tương ứng của nó Nó thể hiện độ chính xác của dữ liệu đại diện, do đó giá trị này càng nhỏ thì càng tốt [19], [44]
1
1 T
c t
w t là trọng số BMU của mẫu x t ;
T là tổng số lần huấn luyện (chú ý rằng, với các tập mẫu huấn luyện nhỏ, quá
trình huấn luyện có thể sử dụng lại nhiều lần tập huấn luyện, do đó T có thể lớn hơn tổng
số mẫu của tập huấn luyện)
Lỗi hình trạng
Lỗi hình trạng (TE) là độ đo đánh giá độ bảo toàn quan hệ lân cận của dữ liệu
(topology preservation) [19], [43], [64] Nó được xác định bằng tỉ số của số lần nơron
luyện, do đó giá trị này càng nhỏ thì càng tốt
1
1 T t
T
trong đó:
Trang 34Tích hình trạng (TP- Topographic Product) cũng là độ đo đánh giá độ bảo toàn quan
hệ lân cận của dữ liệu TP được xác định dựa vào việc kiểm tra k láng giềng gần nhất của mọi nơron i trong lớp Kohonen [13] Tuy nhiên, TP chỉ đáng tin cậy cho các bộ dữ
liệu tuyến tính [92]
Độ biến dạng
Độ biến dạng (DM- Distortion Measure) là độ đo đánh giá chất lượng tổng thể của
theo công thức (1.10), E d càng nhỏ càng tốt
1 1
p T
Trang 35Hàm lỗi E d có thể được sử dụng để chọn ra bản đồ tốt nhất khi thực hiện huấn luyện nhiều lần khác nhau với cùng tập dữ liệu Heskes [38] đã chỉ ra điều kiện để áp dụng
hàm đánh giá chất lượng tổng thể E d là số lần huấn luyện và bán kính lân cận phải đồng nhất trong các lần huấn luyện
1.3 Hạn chế của mạng nơron tự tổ chức và các biện pháp khắc phục
a) Phải xác định trước hình trạng và kích thước bản đồ
Bản đồ SOM phải được xác định trước về mặt hình trạng và kích thước Thông thường, hình trạng mạng là dạng tuyến tính một chiều hoặc dạng lưới hai chiều các nơron, điều này dẫn đến hai hạn chế căn bản của SOM:
- Việc ánh xạ dữ liệu từ không gian nhiều chiều về trình diễn và sắp xếp trên một không gian cố định, ít chiều hơn sẽ tạo ra một sai số nhất định dẫn đến giảm độ chính xác về khả năng trình diễn dữ liệu, cũng như khả năng bảo tồn quan hệ hình trạng của dữ liệu Nếu số chiều của không gian đầu vào càng lớn so với số chiều của không đầu ra thì sai số sẽ càng cao
- Kích thước bản đồ được giới hạn và xác định trước sẽ không đảm bảo trình diễn tốt nhất cho các đặc trưng của tập dữ liệu Nếu kích thước bản đồ quá lớn sẽ tốn thời gian tính toán và dữ liệu sẽ bị phân tán Ngược lại, nếu kích thước bản đồ quá bé thì khả năng phân biệt các mẫu dữ liệu của mạng sẽ giảm, mạng sẽ không trình diễn hết được các đặc trưng của tập dữ liệu Việc xác định kích thước của SOM phù hợp với mỗi tập dữ liệu là một vấn đề khó, đòi hỏi thời gian và kinh nghiệm thông qua việc “thử sai” Mặc dù vậy, kích thước xác định được bằng phương pháp “thử sai” cũng không thể khẳng định là tốt thực sự hay không
Có thể nói, đây là một trong những yếu điểm lớn nhất của mạng nơron SOM, do đó các nghiên cứu cải tiến về cấu trúc của SOM đã được đưa ra, gồm: Các mô hình tăng trưởng theo chiều ngang cho phép bản đồ được mở rộng tùy thuộc vào quy mô, tính chất của từng tập dữ liệu; Các mô hình cây phân cấp (tăng trưởng theo chiều dọc) hạn chế các sai số do việc nén dữ liệu từ không gian nhiều chiều về không gian ít chiều hơn
Trang 36b) Bản đồ đặc trưng thiếu tính trực quan
Mặc dù bản đồ đặc trưng biểu diễn sự phân bố của dữ liệu, nhưng không thể trực tiếp quan sát được sự phân bố này mà phải thực hiện thêm các kỹ thuật phụ trợ Các kỹ thuật này được gọi là các kỹ thuật trực quan mạng Kỹ thuật trực quan được hiểu là phương pháp biểu diễn bản đồ đặc trưng của dữ liệu dưới dạng hình ảnh có thể quan sát được Hiện tại có nhiều kỹ thuật trực quan nhưng một phương thức trực quan được sử dụng phổ biến đó là ma trận mức xám U-Matrix
c) Bản đồ đặc trưng thiếu cơ chế xác định ranh giới giữa các vùng dữ liệu
Mặc dù bản đồ đặc trưng là cơ sở tạo nên sức mạnh của SOM trong lĩnh vực khai phá dữ liệu, nhưng bản thân nó lại thiếu một cơ chế xác định ranh giới giữa các vùng dữ liệu trên bản đồ Đây là một trong những yếu tố quan trọng để giải quyết các bài toán phân cụm, phân lớp
Một số phương pháp sử dụng để giải quyết vấn đề này gồm:
- Sử dụng kỹ thuật phân cụm để phân nhóm các nơron (ví dụ: thuật toán Tích tụ (Agglomerative Algorithm) [77])
- Trực quan mạng kết hợp với phân nhóm các nơron
- Hình thành kết nối giữa các nơron cùng nhóm trong quá trình tăng trưởng mạng (ví dụ cấu trúc IGG [17], AHIGG [60])
d) Tốn thời gian xác định BMU
Tìm BMU là nhiệm vụ tốn nhiều thời gian nhất của thuật toán SOM Với mỗi mẫu đầu vào, mạng thực hiện tìm BMU trên toàn bộ không gian bản đồ Do vậy, khi kích thước bản đồ càng lớn thì thời gian xác định BMU càng lâu Đặc biệt trong trường hợp tập dữ liệu huấn luyện có kích thước lớn thì điều này ảnh hưởng lớn đến thời gian tính toán của toàn mạng Mặt khác, nếu kích thước bản đồ SOM nhỏ sẽ không biểu diễn chính xác được các đặc trưng của tập dữ liệu, ngược lại, nếu kích thước bản đồ lớn sẽ tốn thời gian xác định BMU Do đó, cần xác định kích thước bản đồ phù hợp đối với mỗi tập dữ liệu cụ thể (các biến thể của SOM với cấu trúc tăng trưởng nhằm giải quyết vấn đề này)
Trang 37Kohonen đã đề xuất một giải pháp thu hẹp phạm vi tìm BMU trong trường hợp tập mẫu được sử dụng lại nhiều lần để huấn luyện mạng [44] Đó là lưu lại vị trí BMU của mẫu ở lần huấn luyện trước và ở lần huấn luyện sau chỉ tìm ở quanh vị trí của lần trước Tuy nhiên, với các tập dữ liệu lớn thì giải pháp này cơ bản không mang lại hiệu quả Các biến thể SOM tổ chức dưới dạng cấu trúc cây cho phép giảm kích thước bản đồ SOM, đồng thời có thể cải thiện thời gian tìm BMU do khai thác các kỹ thuật duyệt cây Một chiến lược khác là “đóng băng” các nơron ở trung tâm, dẫn đến giới hạn phạm vi tìm BMU chỉ đối với các nơron biên của mạng hoặc các nút lá đối với cấu trúc cây
e) Thứ tự của các mẫu vào ảnh hưởng tới xu hướng biến đổi của bản đồ
Trong trường hợp tập mẫu dữ liệu phân bố không đều, quá nổi bật về một xu hướng nào đó, nếu mạng được huấn luyện liên tục bởi các mẫu có cùng một xu hướng sẽ dẫn tới bản đồ bị ảnh hưởng mạnh bởi xu hướng nổi bật đó Kết quả là bản đồ bị giảm khả năng đặc trưng cho các mẫu dữ liệu kém nổi bật hơn
Để khắc phục vấn đề này, giải pháp đơn giản được khuyến cáo là chọn ngẫu nhiên các mẫu đầu vào để huấn luyện mạng Tuy nhiên, giải pháp này vẫn có thể xảy ra hiện tượng nổi bật cục bộ do việc chọn mẫu ngẫu nhiên không thể loại trừ hết khả năng một
số lượng nhỏ các mẫu theo cùng một xu hướng liên tục được đưa vào mạng
Một giải pháp phức tạp hơn là tác động vào bán kính láng giềng của BMU, bao gồm bán kính khởi tạo và cách điều chỉnh bán kính trong quá trình huấn luyện Một số cấu trúc cây đã sử dụng bán kính láng giềng cố định trong cả quá trình huấn luyện Chẳng hạn, trong mô hình cây SOTM [33], với mỗi mẫu huấn luyện đưa vào mạng, hoặc là mẫu huấn luyện sẽ chỉ được cập nhật cho BMU hoặc là sẽ phát sinh một nút mới
f) Thiếu thông tin hướng dẫn trong quá trình huấn luyện
Mặc dù khả năng tự tổ chức dựa vào học cạnh tranh đã tạo ra sức mạnh của SOM trong việc tự phát hiện ra cấu trúc, đặc trưng của tập dữ liệu, nhưng trong nhiều bài toán thực tế, độ chính xác của kết quả lại phụ thuộc nhiều vào thông tin hướng dẫn chứ không hoàn toàn phụ thuộc vào tính chất tự nhiên của dữ liệu Do đó, các mạng nơron SOM cải tiến học có giám sát hoặc bán giám sát đã được đề xuất Những mô hình này nhằm phát huy ưu điểm của phương pháp học có giám sát nhưng vẫn duy trì được sức mạnh của phương pháp không giám sát
Trang 381.4 Kết quả nghiên cứu trong và ngoài nước về cải tiến cấu trúc, phương pháp của mạng nơron tự tổ chức
Mặc dù mạng nơron tự tổ chức có nhiều thế mạnh và khả năng nổi bật so với các
mô hình mạng nơron khác, nhưng nó vẫn tồn tại một số hạn chế cơ bản (mục 1.3) Điều này dẫn tới những khó khăn khi sử dụng mạng nơron tự tổ chức để giải quyết các bài toán thực tiễn Do đó, các nhà nghiên cứu vẫn tiếp tục thực hiện các nghiên cứu cải tiến cấu trúc và thuật toán học của mạng Cho đến nay đã có rất nhiều biến thể về cấu trúc của mạng nơron tự tổ chức ra đời [12] Dưới đây trình bày tổng hợp tình hình nghiên cứu trong và ngoài nước trong phạm vi cải tiến cấu trúc và phương pháp của mạng nơron
tự tổ chức
1.4.1 Kết quả nghiên cứu trong nước
Mặc dù có nhiều nghiên cứu trong nước về ứng dụng mạng nơron nhân tạo nói chung [1], [2], [4] và một số nghiên cứu về cải tiến quá trình học của mạng nơron nói riêng như: luận án tiến sĩ về cải tiến thuật toán học của mạng nơron truyền thẳng cho bài toán mặt lỗi đặc biệt trong nhận dạng [5]; luận án tiến sĩ về cải tiến quá trình học của một số mạng nơron ghi nhớ [3] nhưng cho đến nay nghiên cứu sinh chưa tìm thấy kết quả nghiên cứu nào về cải tiến cấu trúc hoặc quá trình học của mạng nơron tự tổ chức Hầu hết các nghiên cứu liên quan chỉ giới hạn trong phạm vi ứng dụng mạng nơron tự
tổ chức trong các bài toán ứng dụng thực tiễn Các công trình đã công bố chủ yếu là các luận văn thạc sĩ
1.4.2 Kết quả nghiên cứu ngoài nước
Có nhiều nghiên cứu được công bố ngoài nước về cải tiến cấu trúc và phương pháp học của mạng nơron tự tổ chức (gọi chung là các biến thể), cụ thể:
Về mặt cấu trúc, các biến thể của mạng nơron tự tổ chức có thể được chia thành 2 nhóm: các biến thể không sử dụng cấu trúc cây và các biến thể sử dụng cấu trúc cây Hầu hết các biến thể được áp dụng cho cấu trúc dữ liệu vector, chỉ có một số ít áp dụng cho những cấu trúc dữ liệu khác như: dữ liệu đồ thị [35], [36], dữ liệu có trình tự [82],
dữ liệu cấu trúc cây [20] Trong phạm vi luận án này chỉ tập trung vào phân tích các biến thể áp dụng đối với các dữ liệu thuộc tính biểu diễn dưới dạng vector
Trang 39Về mặt phương pháp học, bên cạnh các biến thể sử dụng phương pháp học không giám sát truyền thống, một số biến thể đã sử dụng phương pháp học giám sát hoặc bán giám sát kết hợp với thế mạnh của nguyên tắc cạnh tranh “Winner-Take-All” để nâng cao hiệu quả của mạng Đây là một hướng nghiên cứu mở và nhiều triển vọng trong bối cảnh hiện nay
Hình 1 10 Phân loại các biến thể của SOM
Hình 1.9 trình bày tổng hợp về các biến thể tiêu biểu của SOM, đồng thời phân loại chúng theo các tiêu chí về cấu trúc và phương pháp học, ngoài ra cũng biểu diễn một phần mối quan hệ kế thừa và phát triển giữa các biến thể
Các Bảng 1.2, Bảng 1.3 và Bảng 1.4 trình bày tóm lược thông tin về các biến thể của SOM, qua đó thấy được sự giống và khác nhau căn bản giữa các biến thể
Growing Neural Gas [27]
Growing Grid [26]
Incremental Grid Growing [17]
Growing SOM [7]
Growing Cell Structure [25]
Không sử dụng cấu trúc cây
X–Y Fused Network [59] Bi-Directional
Kohonen network [59]
Supervising Network Self-Organizing Map [72]
Semi-Supervised GSOM [8]
CÁC MẠNG NƠRON SOM HỌC GIÁM SÁT, BÁN GIÁM SÁT CÁC MẠNG NƠRON SOM HỌC KHÔNG GIÁM SÁT
Trang 40Bảng 1 2 So sánh các biến thể SOM không sử dụng cấu trúc cây
Cấu trúc Khởi tạo Cơ chế hoạt động Bán kính lân cận Ưu, nhược điểm
Growing Cell
Structure [25]
Tế bào tăng trưởng
trong k
chiều
1 tế bào (nơron)
Tăng trưởng nơron dựa vào bộ đếm BMU cao nhất
BMU và các láng giềng liền
kề
Ánh xạ chính xác hơn, tuy nhiên trực quan mạng phức tạp
Tổng số nơron được cố định trước
Xây dựng kết nối giữa các nơron dựa vào bộ đếm
“tuổi” cao nhất
Tất cả nơron được xếp hạng theo Winer-Take-Most
Kích thước không phù hợp với dữ liệu do số nơron
2 nơron Tăng trưởng
nơron dựa vào lỗi lượng tử tích lũy cao nhất
Tất cả nơron được xếp hạng theo Winer-Take-Most
Kích thước có thể phù hợp với dữ liệu (đã cải thiện nhược điểm của Neural Gas)
Growing Grid
[26]
Tăng trưởng nơron trong lưới chữ nhật
2x2 nơron
Tăng trưởng 1 hàng hoặc 1 cột trong lưới dựa vào bộ đếm BMU cao nhất
Xác định theo City-Block
Gia tăng nơron tại những vị trí không cần thiết
Incremental
Grid Growing
[17]
Tăng trưởng nơron trong lưới chữ nhật
2x2 nơron đến 3 nơron tại vị Tăng trưởng từ 1
trí biên lưới dựa vào lỗi lượng tử tích lũy cao nhất Xây dựng kết nối giữa các nơron
để tạo nên các cụm
Xác định theo số
“hop” tới BMU và tồn tại kết nối tới BMU
Ngưỡng kết nối tạo ra các cụm không có tiêu chí
rõ ràng
Mở rộng lưới tại vị trí biên có lỗi lượng tử cao nhất chưa hợp lý
Growing SOM
[7]
Tăng trưởng nơron trong lưới chữ nhật
2x2 nơron đến 3 nơron tại vị Tăng trưởng từ 1
trí biên lưới dựa vào lỗi lượng tử tích lũy vượt ngưỡng Phân phối lỗi từ trung tâm ra biên
Giống SOM gốc năng phân cụm Không có khả
như IGG