HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ---Đoàn Thị Như Xuân PHÂN TÍCH KHÔNG ÂM CỦA MA TRẬN Chuyên ngành: Toán ứng dụng Mã số: 8460112 LUẬN VĂN THẠC SỸ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS... Lu
Trang 1HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-Đoàn Thị Như Xuân
PHÂN TÍCH KHÔNG ÂM CỦA MA TRẬN
LUẬN VĂN THẠC SỸ TOÁN HỌC
Hà Nội - 2019
BỘ GIÁO DỤC
VÀ ĐÀO TẠO
Trang 2HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-Đoàn Thị Như Xuân
PHÂN TÍCH KHÔNG ÂM CỦA MA TRẬN
Chuyên ngành: Toán ứng dụng
Mã số: 8460112
LUẬN VĂN THẠC SỸ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ HẢI YẾN
Hà Nội – 2019
Trang 3Lời cam đoan
Tôi xin cam đoan những gì viết trong luận văn là do sự tìm tòi, nghiên cứu của bản thân và sự hướng dẫn tận tình của cô giáo TS Lê Hải Yến Mọi kết quả nghiên cứu cũng như ý tưởng của tác giả khác, nếu có đều được trích dẫn
cụ thể Đề tài luận văn này cho đến nay chưa được bảo vệ tại bất kỳ một hội đồng bảo vệ luận văn thạc sỹ nào và cũng chưa hề được công bố trên bất kỳ một phương tiện nào Tôi xin chịu trách nhiệm về những lời cam đoan trên.
Hà Nội, ngày 28 tháng 06 năm 2019
Người cam đoan
Đoàn Thị Như Xuân
Trang 4Tôi xin cảm ơn các bạn trong chuyên ngành Toán ứng dụng đãđộng viên và có những ý kiến trao đổi quý báu trong thời gian qua.
Cuối cùng tôi xin bày tỏ lòng biết ơn gia đình, người thân và các bạn đồng nghiệp đã hết sức thông cảm, chia sẻ và tạo điều kiện tốt nhất cho tôi
để tôi có thể học tập, nghiên cứu và hoàn thành những công việc của mình.
Hà Nội, ngày 28 tháng 06 năm 2019
Học viên
Đoàn Thị Như Xuân
Trang 52 PHÂN TÍCH KHÔNG ÂM CỦA MA TRẬN
2.2.12.2.2
2.3.12.3.22.3.3
Trang 63 THUẬT TOÁN VÀ THỬ NGHIỆM SỐ
3.2.13.2.2
MẶT
4 KẾT LUẬN
Trang 8MỞ ĐẦU
Trong thời đại hiện nay, dữ liệu chiếm một vai trò vô cùng quan trọng Cứ mỗi giây trôi qua, những người sử dụng internet tạo ra và chia sẻ hàng tỉ các thông tin khác nhau: hình ảnh, video, kinh nghiệm du lịch, mua sắm, Việc khai thác và sử dụng những thông tin hay dữ liệu này trở thành một vấn đề thu hút được sự quan tâm của rất nhiều người Một trong những phương pháp khai thác dữ liệu là giảm
độ phức tạp của dữ liệu trong khi vẫn giữ được những yếu tố cần thiết Bên cạnh
đó, để nghiên cứu các loại dữ liệu khác nhau, người ta cũng cần các mô hình khác nhau để thu được các thông tin riêng của dữ liệu.
Luận văn nghiên cứu bài toán phân tích một ma trận không âm cho trước thành tích của hai ma trận không âm khác: Cho một ma trận không âm A cỡ
m n (tức là a ij 0) và số nguyên dương r (r min(m; n)) Tìm hai ma trận không
âm U 2 Rm+ r và V 2 Rn+ r sao cho U V T xấp xỉ ma trận A Người ta có thể dùng nhiều cách để đo sự khác nhau giữa ma trận dữ liệu A và ma trận mô hình U V T Nhưng phương pháp được dùng nhiều nhất là chuẩn Frobenius Khi đó, bài toán phân tích ma trận không âm (viết tắt là NMF) được phát biểu lại như sau: Cho một ma trận không âm A cỡ m n và một số nguyên dương
r < min(m; n), giải bài toán
minU2 R+ V 2 R+n r 2
Bài toán phân tích ma trận không âm được phát biểu và nghiên cứu lần đầu tiên vào năm 1994 bởi Pateero và Tapper [5] Từ đó đến nay, các nhà toán học đã đưa ra nhiều thuật toán tìm phân tích không âm của ma trận Trong đó, phải kể đến thuật toán bình phương tối thiểu luân phiên [4] và thuật toán của Lee và Seung [6] Bài toán này có ứng dụng trong nhiều lĩnh vực như nhận diện khuôn mặt, khai thác dữ liệu văn bản, phân loại ung thư, Trong nhận diện khuôn mặt, mỗi cột của ma trận dữ liệu A thường được cho tương ứng với một bức ảnh khuôn mặt (A(i; j) là cường độ của điểm ảnh thứ i trong bức ảnh khuôn mặt thứ j) Khai triển NMF sinh ra hai ma trận (U; V ) trong đó mỗi cột của U tương ứng với một đặc điểm nào đó của khuôn mặt như mắt, mũi, miệng và
Trang 9Cấu trúc của luận văn gồm có ba chương:
Chương 1 Một số kiến thức cơ sở: Nội dung của chương bao gồm một số kiến thức đại số tuyến tính và lý thuyết tối ưu nhằm phục
vụ cho các chương sau
Chương 2 Phân tích không âm của ma trận: Trong chương này, chúng tôi
trình bày nội dung bài toán phân tích không âm của ma trận, các ứng dụng trong phân tích dữ liệu Chúng tôi cũng phát biểu điều kiện cần tối ưu cho bài toán.
Chương 3 Thuật toán và thử nghiệm số: Hai thuật toán được trình bày
trong chương này là thuật toán bình phương tối thiểu luân phiên và quy tắc nhân của Lee và Seung Chúng tôi nghiên cứu bài toán nhận diện khuôn mặt
và ứng dụng kĩ thuật phân tích không âm của ma trận vào bài toán cụ thể này.
Trang 10và hàm lồi, điều kiện tối ưu, điều kiện Kuhn-Tucker Nội dung củachương được tham khảo chủ yếu từ các tài liệu [1],[2],[4].
Cho A là một ma trận cỡ mn với các phần tử ở hàng thứ i cột thứ j là aij Khi đó, ta viết: A = (aij)m n , trong đó: i = 1; 2; :::; m; j = 1; 2; :::; n
Ta kí hiệu dòng thứ i của ma trận A bởi Ai: và cột thứ j của ma trận A bởi A:j Ma trận chuyển vị của ma trận vuông A được kí hiệu là AT ; A được gọi là
đối xứng nếu A = AT
Ma trận vuông A cấp n được gọi là ma trận trực giao nếu AT A = In
D là ma trận đường chéo nếu D là ma trận vuông có aij = 0 với mọi i6= j Với x = (x1; x2; :::; xn) 2 Rn , Dx là ma trận đường chéo với cácphần tử trên đường chéo là x1; x2; :::; xn
Ma trận A vuông cấp n được gọi là nửa xác định dương nếu xT Ax 08x 2 Rn A được gọi là xác định dương nếu xT Ax > 0 với mọi x 2 Rn; x6= 0 Nếu A đối xứng và nửa xác định dương thì tất cả các giá trị riêngcủa A đều không âm
Trang 11A cỡ m n như một vector: vec(A) với m n thành phần và có thể xác địnhtíchtrong của hai ma trận thực cùng cỡ như sau:
hA; Bi = vec(A)T vec(B) = X
aijbij = trace AT B :
ij
Ở đó, vết của ma trận vuông A (được kí hiệu trace(A)) là tổng của tất
cả các phần tử đường chéo của ma trận A Điều này suy ra một mốiquan hệ mà chúng ta sẽ dùng ở chương sau:
Trang 12Tích Hadamard của hai ma trận A và B cùng cỡ m n (kí
Trang 13(iv) AT BT = (ajibji)m n = (aijbij)Tm n = (A B)T .
Trang 14của x thường được ký hiệu là kxk
Cho vector x = (x1; x2; :::; xn)T , một số chuẩn vector thông dụng là:Chuẩn p (p 1)
kxkp = (jx1jp + ::: + jxnjp)p 1 :Chuẩn 1 (p = 1)
kxk1 = jx1j + ::: + jxnj:
Chuẩn 2 (p = 2) hay gọi là chuẩn Euclide
kxk = jx1j2 + ::: + jxnj2Chuẩn 1 (p = 1)
kxk1 = max (jx1j ; jx2j ; :::; jxnj) :
Ví dụ 1.1.3 Cho vector x = (1; 2; 4)T
Chuẩn 1 của vector x là: kxk1 = 1 + 2 + 4 = 7.
Chuẩn Euclide của vector x là:
Chuẩn
Định nghĩa 1.1.2 Chuẩn ma trận trên Rm n là hàm số f : Rm n ! R thỏa
mãn các tính chất sau:
Trang 15(i) f(A) 0; 8A 2 Rm n;f(A) = 0 , A = 0.
Trang 16(ii) f(A + B) f(A) + f(B); 8A; B 2 Rm n;
(iii) f( A) = j j f(A); 8 2 R; 8A 2 Rm n Kí
Cho ma trận A = (aij)m n , một số chuẩn ma trận thông dụng là:Chuẩn 1 (chuẩn cực đại theo cột)
Chuẩn Frobenius Kí hiệu:kAkF
v
u m n kAk = uX X ja j 2 t : ij
Trang 17Định nghĩa 1.1.3 Ma trận A có tất cả các phần tử không âm được gọi là
ma trận không âm Kí hiệu: A 0 Rm+ n là tập hợp các ma trận không âm cỡ
m n.
Chúng ta viết: A 0 nếu aij 0 8 i; j; A > 0 nếu aij > 0 8 i; j
Một ma trận không âm gọi là chấp nhận được theo hàng nếu nó không
có hàng bằng không Tương tự, một ma trận không âm gọi là chấpnhận được theo cột nếu nó không có cột bằng không Một ma trậnkhông âm gọi là ngẫu nhiên cột (hàng) nếu tất cả các tổng cột (hàng)bằng một
Một trong những kết quả quan trọng liên quan đến ma trận không
âm được trình bày sau đây:
Định lý 1.1.1 Cho A là một ma trận vuông, không âm Giá trị riêng lớn
nhất của A là không âm và tồn tại một vector riêng không âm tương ứng
với nó.
Vector này thường gọi là vector Perron của ma trận không âm.Cho một tập con V Rm n và ma trận A 2 Rm n, phần tử gần nhất của
Trang 18V đến A (tương ứng với khoảng cách) được gọi là hình chiếu của A trên V , kí hiệu bởi PV (A) Nếu ta xét V là tập các ma trận không âm và khoảng cách xem xét là khoảng cách Euclide (chuẩn Frobenius), hình chiếu của A được kí hiệu là
Trang 19Ví dụ 1.1.5 Cho ma trận A =
2
Hình chiếu của ma trận A lên R+2 2 là: [A]+ =
Định nghĩa 1.2.1 Một tập con C Rn được gọi là tập lồi nếu 8x1; x2 2
C; 8 2 [0; 1] ta có:
x1 + (1 )x2 2 C:
Ví dụ 1.2.1 Các nửa không gian là các tập lồi Các tam giác và các
hình tròn trong mặt phẳng là tập lồi Tập hợp các ma trận không âm cỡ
m n ( Rm+n ) cũng là một tập lồi.
Tập Rm+ n là một trong những đối tượng chính được sử dụng trongluận văn này
Định nghĩa 1.2.2 Một tập C Rn được gọi là nón lồi nếu nó đóng với
phép cộng và phép nhân với một số không âm.
Trang 20i=1
Trang 21Định nghĩa 1.2.4 Giả sử tập C Rn là tập lồi Hàm số f : C ! R Hàm f
được gọi là hàm lồi trên C nếu 8x1; x2 2 C; 8 2 [0; 1] ta có:
(i) k : k là hàm lồi trên Rn.
(ii) k : k2 là hàm lồi trên Rn.
Chứng minh.
(i) Với mọi x; y 2 Rn, 2 [0; 1], ta có:
k x + (1 )yk k xk + k(1 )yk = kxk + (1 ) kyk :
(ii) Với mọi x; y 2 Rn, 2 [0; 1], ta có:
Trang 22Định nghĩa 1.2.5 Điểm x 2 C được gọi là cực tiểu địa phương của bài
toán (1.5) nếu 9" > 0 sao cho 8x 2 C \ B(x ; ") ta có: f(x) f(x ): Điểm x 2
C được gọi là cực tiểu địa phương ngặt của bài toán (1.5) nếu
8x 2 C \ B(x ; ") và x 6= x ta có: f(x) > f(x ):
Định nghĩa 1.2.6 Điểm x 2 C được gọi là cực tiểu toàn cục của bài
toán (1.5) nếu 8x 2 C ta có: f(x) f(x ): Điểm x 2 C được gọi là cực tiểu
toàn cục ngặt của bài toán (1.5) nếu 8x 2 C, x 6= x ta có: f(x) > f(x ):
Tập các hướng chấp nhận được tại x 2 C là:
Z(x ) = fd 2 Rn j9 > 0 : x + d 2 C; 8 0 g :
Định lý 1.2.1 Giả sử tập C Rn và f là một hàm khả vi trên C Nếu x là
cực tiểu địa phương của f trên C thì:
Trang 23Định nghĩa 1.2.7 Điểm x 2 C thỏa mãn: dT rf(x ) 0; 8d 2 Z(x ) được
gọi là điểm dừng của bài toán (1.5).
Trang 24Mệnh đề 1.2.2 Giả sử x 2 int(C) và x là điểm dừng của bài toán (1.5) Khi
đó: Z(x ) = Rn và rf(x ) = 0.
Chứng minh Mệnh đề này được suy ra trực tiếp từ Định lý 1.2.1.
Định lý 1.2.2 Giả sử C Rn là tập lồi và f là hàm lồi Khi đó, mọi cực
tiểu địa phương của bài toán (1.5) cũng là cực tiểu toàn cục.
Chứng minh Giả sử x 2 C là cực tiểu địa phương của bài toán (1.5).
Theo định nghĩa, tồn tại " > 0 sao cho với mọi y 2 B(x ; ") \ C ta có:f(y) f(x ):
Với mọi x 2 C, đặt d = x x Khi đó tồn tại 2 [0; 1] sao cho x + d 2B(x ; ") \ C Nên f(x + d) f(x ):
Lại có x + d = x + (x x ) = x + (1 )x :
Do f lồi trên C nên f(x + d) = f( x+(1 )x ) f(x)+(1 )f(x )
Mà f(x + d) f(x ) nên f(x ) f(x)+(1 )f(x ) , f(x ) f(x)
Điều này đúng với mọi x 2 C
Vậy x là cực tiểu toàn cục của bài toán (1.5)
Xét bài toán tối ưu
min f(x)
x2Cvới C = fx : hi(x) = 0; gj(x) 0g: Trong đó: hi(x) = 0 (i = 1; 2; :::; k) là k ràng buộc đẳng thức và gj(x) 0 (j = 1; 2; :::; m) là m ràng buộc bất đẳng thức Ràng buộc của bài toán này được viết trong hàm Lagrange như sau:
k
X i
L(x; 1; :::; k; 1; :::; m) = f(x) +
=1
Trong đó i (i = 1; :::; k) và j 0 (j = 1; :::; m) gọi là nhân tử Lagrange.
Định lý 1.2.3 Cho x là cực tiểu địa phương của bài toán (1.7) Giả sử
rằng f; hi; gj : Rn ! Rlà các hàm khả vi liên tục; rhi(x ) và rgj(x ) là độc lập
Trang 25tuyến tính Khi đó tồn tại i(i
điều kiện sau:
k (i) rf(x ) + =1 i rh i (x ) +
iP(ii) j 0 (j = 1; :::; m);
(iii) jgj(x ) = 0 (j = 1; :::; m):
Các điều kiện (i) (iii) được gọi là điều kiện Kuhn - Tucker (KT) củabài toán (1.7)
Trang 26CHƯƠNG 2
PHÂN TÍCH KHÔNG ÂM CỦA MA TRẬN
Trong chương này chúng tôi trình bày bài toán phân tích không âm của
ma trận, điều kiện cần tối ưu và đồng thời nêu các ứng dụng trong phân tích
dữ liệu Nội dung của chương được tham khảo từ các tài liệu [3], [4], [5].
Phân tích không âm của ma trận được giới thiệu lần đầu tiên bởi Paatero và Tapper [5] Nhưng nó đã trở nên nổi tiếng nhờ công trình của Lee và Seung [6].
Họ cho rằng tính không âm là rất quan trọng trong nhận thức của con người và cũng đưa ra hai thuật toán đơn giản để tìm một biểu diễn không âm cho dữ liệu Bài toán phân tích không âm của ma trận có thể được “phát biểu” như sau:
Cho một ma trận không âm A cỡ m n (tức là aij 0) và hạng r (rmin(m; n)) Tìm hai ma trận không âm U 2 Rm+ r và V 2 Rn+ r sao cho
“xấp xỉ” A, tức là:
A UVT:Chúng ta sẽ làm rõ khái niệm “xấp xỉ” ở phần sau của mục này.Gọi U:j là các cột của ma trận U và A:i là các cột của ma trận A
Tức là các cột của ma trận A được xấp xỉ bởi một tổ hợp dạng nón (các hệ số vij > 0) của các vector cột của U
Trang 27còn được gọi là khoảng cách Euclide.
Đặt F (U; V ) =
Mệnh đề 2.1.1.
(i) Với mỗi U cố định, hàm F là lồi theo V
(ii) Với mỗi V cố định, hàm F là lồi theo U.
Trang 29Suy ra hàm F là lồi theo U.
Trong suốt luận văn này, chúng ta sẽ xét bài toán phân tích không âm của ma trận với chuẩn Frobenius Bài toán chính được phát biểu như sau:
Bài toán 2.1.1 (Phân tích không âm của ma trận - NMF) Cho một ma
trận không âm A cỡ m n và một số nguyên r < min(m; n), giải bài toán
minU2 R+m r V 2R+n r 2
Khi đó r được gọi là hạng giảm Từ giờ trở đi, m và n sẽ được sử dụng
để biểu thị cỡ của ma trận A và r là hạng giảm của một phân tích
Nhận xét 2.1.1 Với mỗi U cố định, hàm F (U; V ) là lồi theo V và với mỗi
V cố định ,hàm F (U; V ) là lồi theo U Nhưng hàm F (U; V ) không lồi
theo cả hai biến vì vậy bài toán 2.1.1 là bài toán tối ưu không lồi Về mặt
lý thuyết, có nhiều thuật toán để tìm cực tiểu toàn cục của một bài toán tối ưu không lồi Tuy nhiên, trong thực tế khi giải bài toán NMF, người ta thường chỉ đi tìm cực tiểu địa phương thay vì cực tiểu toàn cục.
Trang 302.2 ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU
Lý do tại sao NMF trở nên phổ biến là vì nó có khả năng tự động trích xuất các yếu tố thưa thớt và dễ hiểu Trong phần này, chúng tôi minh họa tính chất
Trang 31này của NMF thông qua các ứng dụng, trong quá trình xử lý ảnh, khaithác văn bản Ngoài ra NMF còn có các ứng dụng khác bao gồm ảnhsiêu phổ, kiểm soát khí thải, sinh học tính toán, tách nguồn mù, táchnguồn đơn kênh, phân cụm, phân tích nhạc
Mỗi bức ảnh đen trắng của một khuôn mặt được lưu trữ dưới dạng một ma trận mà các phần tử của ma trận tương ứng với độ xám hay cường độ tại mỗi điểm ảnh Mỗi cột của ma trận dữ liệu A 2 Rp+ n tương ứng với vector hóa của hình ảnh một khuôn mặt Ở đó, A(i; j) là cường độ của điểm ảnh thứ i trong khuôn mặt thứ j NMF sinh ra hai thừa số (U; V ) sao cho mỗi hình ảnh A(:; j) được xấp xỉ bằng cách sử dụng sự tổ hợp tuyến tính của các cột của U Điều này được minh họa bởi công thức và hình ảnh dưới đây:
A(:; j)
Hình 2.1: Phân tích cơ sở dữ liệu CBCL [Nguồn: [3]]
trong đó: A(:; j): hình ảnh khuôn mặt thứ j,
U(:; k): đặc điểm khuôn mặt,
V (j; k): mức độ quan trọng của đặc điểm trong hình ảnh thứ j,
U V (:; j): xấp xỉ của hình ảnh thứ j
Trang 32sở là các đặc điểm như mắt, mũi, ria mép và môi (như hình 2.1) trong khi các cột của V chỉ ra rằng đặc điểm nào có trong hình ảnh đó.
Một ứng dụng tiềm năng của NMF là nhận diện khuôn mặt Người ta nhận thấy rằng NMF “mạnh hơn” so với PCA (Principal Compoment Analysis - phân tích thành phần chính dựa trên khai triển giá trị kỳ dị) Trong thực tế, người ta thấy rằng với nhiều bức ảnh mà một phần khuôn mặt bị che khuất (ví dụ: người đeo kính râm) thì NMF hoạt động khá tốt vì có thể trích xuất được nhiều đặc điểm không bị che khuất (ria mép, môi).
Đặt mỗi cột của ma trận không âm A tương ứng với một tài liệu và mỗihàng ứng với một từ Phần tử (i; j) của ma trận A có thể được cho bằng
số lần xuất hiện của từ thứ i trong tài liệu thứ j Trong trường hợp này, tagọi mỗi cột của A là vector đếm từ của tài liệu Trong thực tế, người ta có thể sử dụng các mô hình phức tạp hơn Ví dụ như mô hình túi từ ở đó mỗi
từ trong từ điển được gán với một trọng số Lưu ý rằng ma trận A nói chung khá thưa (đa số các phần tử bằng 0) vì hầu hết tài liệu chỉ sử dụng một tập hợp con nhỏ các từ trong từ điển Với ma trận A và hạng phân tích r, NMF tạo ra hai nhân tử (U; V ) sao cho với mọi 1j n, chúng ta có:
A(:; j)
k=1