1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích không âm của ma trận

47 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 841,1 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bên cạnh đó, để nghiên cứu các loại dữ liệu khác nhau, người tacũng cần các mô hình khác nhau để thu được các thông tin riêng của dữ liệu.Luận văn nghiên cứu bài toán phân tích một ma tr

Trang 1

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

Đoàn Thị Như Xuân

PHÂN TÍCH KHÔNG ÂM CỦA MA TRẬN

LUẬN VĂN THẠC SỸ TOÁN HỌC

Hà Nội - 2019

Trang 2

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-

Đoàn Thị Như Xuân

PHÂN TÍCH KHÔNG ÂM CỦA MA TRẬN

Chuyên ngành: Toán ứng dụng

Mã số: 8460112

LUẬN VĂN THẠC SỸ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ HẢI YẾN

Hà Nội – 2019

BỘ GIÁO DỤC

VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

Trang 3

Tôi xin cam đoan những gì viết trong luận văn là do sự tìm tòi, nghiên cứucủa bản thân và sự hướng dẫn tận tình của cô giáo TS Lê Hải Yến Mọi kết quảnghiên cứu cũng như ý tưởng của tác giả khác, nếu có đều được trích dẫn cụ thể.

Đề tài luận văn này cho đến nay chưa được bảo vệ tại bất kỳ một hội đồng bảo

vệ luận văn thạc sỹ nào và cũng chưa hề được công bố trên bất kỳ một phươngtiện nào Tôi xin chịu trách nhiệm về những lời cam đoan trên

Hà Nội, ngày 28 tháng 06 năm 2019

Người cam đoan

Đoàn Thị Như Xuân

Trang 4

Trước khi trình bày nội dung chính của luận văn, tôi xin bày tỏ lòng biết ơnsâu sắc tới cô giáo TS Lê Hải Yến, người đã dành nhiều thời gian, công sức đểhướng dẫn và tận tình chỉ bảo tôi trong suốt quá trình thực hiện luận văn.

Nhân đây tôi xin được gửi lời cảm ơn đến ban lãnh đạo và các thầy cô giáo,các cán bộ Học viện Khoa học và công nghệ nói chung và Viện Toán nói riêng

đã tạo điều kiện thuận lợi nhất, giúp đỡ tôi trong thời gian học tập và nghiêncứu tại viện

Tôi xin cảm ơn các bạn trong chuyên ngành Toán ứng dụng đã động viên và

có những ý kiến trao đổi quý báu trong thời gian qua

Cuối cùng tôi xin bày tỏ lòng biết ơn gia đình, người thân và các bạn đồngnghiệp đã hết sức thông cảm, chia sẻ và tạo điều kiện tốt nhất cho tôi để tôi cóthể học tập, nghiên cứu và hoàn thành những công việc của mình

Hà Nội, ngày 28 tháng 06 năm 2019

Học viên

Đoàn Thị Như Xuân

Trang 5

Danh mục ký hiệu 1

MỞ ĐẦU 2 1 MỘT SỐ KIẾN THỨC CƠ SỞ 4 1.1 ĐẠI SỐ TUYẾN TÍNH 4

1.1.1 Một số ma trận cơ bản, tích trong và tích Hadamard 4

1.1.2 Chuẩn 7

1.1.3 Ma trận không âm 9

1.2 LÝ THUYẾT TỐI ƯU 10

1.2.1 Tập lồi và hàm lồi 10

1.2.2 Điều kiện tối ưu 11

1.2.3 Điều kiện Kuhn-Tucker 13

2 PHÂN TÍCH KHÔNG ÂM CỦA MA TRẬN 15 2.1 PHÁT BIỂU BÀI TOÁN 15

2.2 ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU 17

2.2.1 Xử lý ảnh - Trích xuất đặc điểm khuôn mặt 18

2.2.2 Khai thác văn bản - Khôi phục chủ đề và tài liệu 19

2.3 ĐIỀU KIỆN CẦN TỐI ƯU 20

2.3.1 Hàm Lagrange 20

2.3.2 Điều kiện cần tối ưu 21

2.3.3 Đặc trưng của cực tiểu địa phương 23

Trang 6

3.1 THUẬT TOÁN BÌNH PHƯƠNG TỐI THIỂU LUÂN PHIÊN 253.2 THUẬT TOÁN LEE VÀ SEUNG 263.2.1 Thuật toán 263.2.2 Định lí hội tụ 273.3 THỬ NGHIỆM SỐ VỚI BÀI TOÁN NHẬN DIỆN KHUÔN

MẶT 30

Trang 7

trace(A) vết của ma trận vuôngA

span(V ) không gian vector sinh bởi V

rank(A) hạng của ma trậnA

kxk chuẩn Euclide của vectorx

kAkF chuẩn Frobenius của ma trận A

hA, Bi tích trong của hai ma trận cùng cỡAvà B

A ◦ B tích Hadamard của hai ma trận cùng cỡAvà B

Trang 8

MỞ ĐẦU

Trong thời đại hiện nay, dữ liệu chiếm một vai trò vô cùng quan trọng Cứmỗi giây trôi qua, những người sử dụng internet tạo ra và chia sẻ hàng tỉ cácthông tin khác nhau: hình ảnh, video, kinh nghiệm du lịch, mua sắm, Việckhai thác và sử dụng những thông tin hay dữ liệu này trở thành một vấn đề thuhút được sự quan tâm của rất nhiều người Một trong những phương pháp khaithác dữ liệu là giảm độ phức tạp của dữ liệu trong khi vẫn giữ được những yếu

tố cần thiết Bên cạnh đó, để nghiên cứu các loại dữ liệu khác nhau, người tacũng cần các mô hình khác nhau để thu được các thông tin riêng của dữ liệu.Luận văn nghiên cứu bài toán phân tích một ma trận không âm cho trướcthành tích của hai ma trận không âm khác: Cho một ma trận không âm A cỡ

m × n (tức là aij ≥ 0) và số nguyên dương r (r ≤ min(m, n)) Tìm hai matrận không âmU ∈ Rm×r+ vàV ∈ Rn×r+ sao choU VT xấp xỉ ma trậnA Người

ta có thể dùng nhiều cách để đo sự khác nhau giữa ma trận dữ liệuAvà ma trận

mô hình U VT Nhưng phương pháp được dùng nhiều nhất là chuẩn Frobenius.Khi đó, bài toán phân tích ma trận không âm (viết tắt là NMF) được phát biểulại như sau: Cho một ma trận không âmA cỡm × n và một số nguyên dương

r < min(m, n), giải bài toán

đã đưa ra nhiều thuật toán tìm phân tích không âm của ma trận Trong đó, phải

kể đến thuật toán bình phương tối thiểu luân phiên [4] và thuật toán của Lee vàSeung [6] Bài toán này có ứng dụng trong nhiều lĩnh vực như nhận diện khuônmặt, khai thác dữ liệu văn bản, phân loại ung thư, Trong nhận diện khuônmặt, mỗi cột của ma trận dữ liệu A thường được cho tương ứng với một bứcảnh khuôn mặt (A(i, j) là cường độ của điểm ảnh thứ i trong bức ảnh khuônmặt thứj) Khai triển NMF sinh ra hai ma trận(U, V ) trong đó mỗi cột củaU

tương ứng với một đặc điểm nào đó của khuôn mặt như mắt, mũi, miệng và

Trang 9

các phần tử củaV thể hiện tầm quan trọng của đặc điểm đó trong từng bức ảnh.Trong khai thác văn bản, mỗi cột của ma trận không âm A tương ứng với mộttài liệu và mỗi hàng ứng với một từ Phần tử (i, j) của ma trậnA có thể bằng

số lần xuất hiện của từ thứi trong tài liệu thứj Khai triển NMF có thể giúp tacho ta biết các chủ đề xuất hiện trong toàn bộ dữ liệu đồng thời phân loại cáctài liệu theo chủ đề

Cấu trúc của luận văn gồm có ba chương:

Chương 1 Một số kiến thức cơ sở: Nội dung của chương bao gồm một số

kiến thức đại số tuyến tính và lý thuyết tối ưu nhằm phục vụ cho các chươngsau

Chương 2 Phân tích không âm của ma trận: Trong chương này, chúng tôi

trình bày nội dung bài toán phân tích không âm của ma trận, các ứng dụng trongphân tích dữ liệu Chúng tôi cũng phát biểu điều kiện cần tối ưu cho bài toán

Chương 3 Thuật toán và thử nghiệm số: Hai thuật toán được trình bày

trong chương này là thuật toán bình phương tối thiểu luân phiên và quy tắcnhân của Lee và Seung Chúng tôi nghiên cứu bài toán nhận diện khuôn mặt vàứng dụng kĩ thuật phân tích không âm của ma trận vào bài toán cụ thể này

Trang 10

CHƯƠNG 1

MỘT SỐ KIẾN THỨC CƠ SỞ

Chương này trình bày lại một số khái niệm của đại số tuyến tính như tíchtrong, tích Hadamard, chuẩn của vector, chuẩn của ma trận, ma trận không âm.Bên cạnh đó, chúng tôi cũng trình bày một số khái niệm và kết quả cơ bản trong

Lý thuyết tối ưu để phục vụ các chương sau như tập lồi và hàm lồi, điều kiệntối ưu, điều kiện Kuhn-Tucker Nội dung của chương được tham khảo chủ yếu

từ các tài liệu [1],[2],[4]

1.1 ĐẠI SỐ TUYẾN TÍNH

ChoAlà một ma trận cỡm × nvới các phần tử ở hàng thứicột thứj làaij.Khi đó, ta viết:A = (aij)m×n , trong đó:i = 1, 2, , m; j = 1, 2, , n

Ta kí hiệu dòng thứ i của ma trậnAbởiAi: và cột thứ j của ma trậnAbởiA:j

Ma trận chuyển vị của ma trận vuông A được kí hiệu là AT; A được gọi làđối xứng nếuA = AT

Ma trận vuông Acấpnđược gọi là ma trận trực giao nếuATA = In

D là ma trận đường chéo nếuD là ma trận vuông có aij = 0với mọii 6= j.Vớix = (x1, x2, , xn) ∈ Rn , Dx là ma trận đường chéo với các phần tử trênđường chéo làx1, x2, , xn

Ma trận A vuông cấp n được gọi là nửa xác định dương nếu xTAx ≥ 0

∀x ∈ Rn.Ađược gọi là xác định dương nếuxTAx > 0với mọix ∈ Rn, x 6= 0.Nếu A đối xứng và nửa xác định dương thì tất cả các giá trị riêng của A đềukhông âm

Trang 11

Vector hóa của ma trậnA ∈ Rm×nlà:

Bằng cách vector hóa ma trận, ta có thể xem một ma trận tổng quát A cỡ

m × n như một vector: vec(A) với m × n thành phần và có thể xác định tíchtrong của hai ma trận thực cùng cỡ như sau:

hA, Bi = vec(A)Tvec(B) = X

hI, ABCi = vec(I)Tvec(ABC) = trace (IABC) = trace (ABC) (1.1)

AT, BC = vec ATTvec(BC) = trace (ABC) (1.2)

BTAT, C = vec BTATTvec(C) = trace (BTAT)TC

Trang 12

= trace (AT)T(BT)TC= trace (ABC) (1.3)

Trang 13

Cho vectorx = (x1, x2, , xn)T, một số chuẩn vector thông dụng là:

1

21.

Định nghĩa 1.1.2 Chuẩn ma trận trên Rm×n là hàm số f : Rm×n →R thỏa

mãn các tính chất sau:

(i) f (A) ≥ 0, ∀A ∈Rm×n;

f (A) = 0 ⇔ A = 0.

Trang 14

(ii) f (A + B) ≤ f (A) + f (B), ∀A, B ∈ Rm×n;

Cho ma trận A = (aij)m×n , một số chuẩn ma trận thông dụng là:

•Chuẩn1(chuẩn cực đại theo cột)

= √

69.

Trang 15

Định nghĩa 1.1.3 Ma trận A có tất cả các phần tử không âm được gọi là ma

m × n.

Chúng ta viết:A ≥ 0nếu aij ≥ 0 ∀ i, j;A > 0nếuaij > 0 ∀ i, j

Một ma trận không âm gọi là chấp nhận được theo hàng nếu nó không có hàngbằng không Tương tự, một ma trận không âm gọi là chấp nhận được theo cộtnếu nó không có cột bằng không Một ma trận không âm gọi là ngẫu nhiên cột(hàng) nếu tất cả các tổng cột (hàng) bằng một

Một trong những kết quả quan trọng liên quan đến ma trận không âm đượctrình bày sau đây:

Định lý 1.1.1 ChoA là một ma trận vuông, không âm Giá trị riêng lớn nhất

Vector này thường gọi là vector Perron của ma trận không âm

Cho một tập con V ⊂ Rm×n và ma trận A ∈ Rm×n, phần tử gần nhất của

V đến A (tương ứng với khoảng cách) được gọi là hình chiếu củaA trênV, kíhiệu bởiPV(A) Nếu ta xétV là tập các ma trận không âm và khoảng cách xemxét là khoảng cách Euclide (chuẩn Frobenius), hình chiếu củaAđược kí hiệu là

[A]+ và được cho bởi:

Trang 16

Ví dụ 1.2.1 Các nửa không gian là các tập lồi Các tam giác và các hình tròn

Trang 17

Định nghĩa 1.2.4 Giả sử tậpC ⊂ Rn là tập lồi Hàm số f : C → R Hàmf

(i) k klà hàm lồi trên Rn.

(ii) k k2 là hàm lồi trên Rn.

Chứng minh.

(i)Với mọix, y ∈ Rn,λ ∈ [0, 1], ta có:

kλx + (1 − λ)yk ≤ kλxk + k(1 − λ)yk = λ kxk + (1 − λ) kyk

(ii)Với mọix, y ∈ Rn,λ ∈ [0, 1], ta có:

kλx + (1 − λ)yk2 = hλx + (1 − λ)y, λx + (1 − λ)y i

= λ2kxk2 + 2λ(1 − λ) hx, yi + (1 − λ)2kyk2

= λkxk2 + (1 − λ)kyk2 + (λ2 − λ)kxk2 + (1 − λ)2 − (1 − λ)kyk2+ 2λ(1 − λ) hx, yi

Khai triển và giản ước ta được kết quả sau:

Trang 18

Định nghĩa 1.2.5 Điểm x∗ ∈ C được gọi là cực tiểu địa phương của bài toán (1.5) nếu ∃ε > 0 sao cho ∀x ∈ C ∩ B(x∗, ε) ta có: f (x) ≥ f (x∗).

∀x ∈ C ∩ B(x∗, ε) x 6= x∗ ta có:f (x) > f (x∗)

Định nghĩa 1.2.6 Điểm x∗ ∈ C được gọi là cực tiểu toàn cục của bài toán

(1.5) nếu∀x ∈ C ta có:f (x) ≥ f (x∗).Điểmx∗ ∈ C được gọi là cực tiểu toàn cục ngặt của bài toán (1.5) nếu∀x ∈ C,x 6= x∗ ta có: f (x) > f (x∗)

Tập các hướng chấp nhận được tại x∗ ∈ C là:

Z(x∗) = {d ∈ Rn|∃λ∗ > 0 : x∗ + λd ∈ C, ∀ 0 ≤ λ ≤ λ∗}

Định lý 1.2.1 Giả sử tập C ⊂ Rn f là một hàm khả vi trên C Nếu x∗

Định nghĩa 1.2.7 Điểmx∗ ∈ C thỏa mãn: dT∇f (x∗) ≥ 0, ∀d ∈ Z(x∗) được

Trang 19

Mệnh đề 1.2.2 Giả sửx∗ ∈ int(C)x∗ là điểm dừng của bài toán (1.5) Khi

đó:Z(x∗) = Rn ∇f (x∗) = 0.

Định lý 1.2.2 Giả sử C ⊂ Rn là tập lồi và f là hàm lồi Khi đó, mọi cực tiểu

Theo định nghĩa, tồn tại ε > 0 sao cho với mọi y ∈ B(x∗, ε) ∩ C ta có:

Vậyx∗ là cực tiểu toàn cục của bài toán (1.5)

Xét bài toán tối ưu

min

x∈C f (x) (1.7)vớiC = {x : hi(x) = 0, gj(x) ≤ 0}.Trong đó: hi(x) = 0 (i = 1, 2, , k) là

k ràng buộc đẳng thức vàgj(x) ≤ 0 (j = 1, 2, , m)là m ràng buộc bất đẳngthức Ràng buộc của bài toán này được viết trong hàm Lagrange như sau:

Trong đóµi(i = 1, , k)và λj ≥ 0 (j = 1, , m)gọi là nhân tử Lagrange

Định lý 1.2.3 Cho x∗ là cực tiểu địa phương của bài toán (1.7) Giả sử rằng

f, hi, gj : Rn → R là các hàm khả vi liên tục; ∇hi(x∗) ∇gj(x∗) là độc lập

Trang 20

tuyến tính Khi đó tồn tại µi(i = 1, , k) λj(j = 1, , m) thỏa mãn các điều kiện sau:

(iii) λjgj(x∗) = 0 (j = 1, , m)

Các điều kiện (i) − (iii) được gọi là điều kiện Kuhn - Tucker (KT) của bàitoán (1.7)

Trang 21

CHƯƠNG 2

PHÂN TÍCH KHÔNG ÂM CỦA MA TRẬN

Trong chương này chúng tôi trình bày bài toán phân tích không âm của matrận, điều kiện cần tối ưu và đồng thời nêu các ứng dụng trong phân tích dữ liệu.Nội dung của chương được tham khảo từ các tài liệu [3], [4], [5]

2.1 PHÁT BIỂU BÀI TOÁN

Phân tích không âm của ma trận được giới thiệu lần đầu tiên bởi Paatero vàTapper [5] Nhưng nó đã trở nên nổi tiếng nhờ công trình của Lee và Seung [6]

Họ cho rằng tính không âm là rất quan trọng trong nhận thức của con người vàcũng đưa ra hai thuật toán đơn giản để tìm một biểu diễn không âm cho dữ liệu.Bài toán phân tích không âm của ma trận có thể được “phát biểu” như sau:Cho một ma trận không âm A cỡ m × n (tức là aij ≥ 0) và hạng r (r ≤min(m, n)) Tìm hai ma trận không âmU ∈ Rm×r+ và V ∈ Rn×r+ sao cho “xấpxỉ”A, tức là:

A ≈ U VT

Chúng ta sẽ làm rõ khái niệm “xấp xỉ” ở phần sau của mục này

Gọi U:j là các cột của ma trậnU và A:i là các cột của ma trậnA

Tức là các cột của ma trận A được xấp xỉ bởi một tổ hợp dạng nón (các hệ số

vij > 0) của các vector cột của U

Trang 22

là nón dương sinh bởi các cột U:j

của ma trậnU, khi đó mỗi cột của ma trậnAđược xấp xỉ bởi một phần tử trongnón X Phần tử đó chính là phần tử gần nhất với cột A:i trong nón X Bằngcách đổi vai trò của U, V ta có thể chỉ ra rằng mỗi hàng củaAđược xấp xỉ bởimột phần tử của nón dương sinh bởi các cột củaV

Người ta có thể dùng nhiều cách để xác định sự khác nhau giữa ma trận dữliệuA và ma trận mô hìnhU VT Nhưng phương pháp được dùng nhiều nhất làchuẩn Frobenius:

2

F + (1 − λ)1

2 A − U V

T 2

2 F

= λF (U, V1) + (1 − λ)F (U, V2)

Suy ra hàmF là lồi theoV

Trang 23

= λF (U1, V ) + (1 − λ)F (U2, V ).

Suy ra hàmF là lồi theoU

Trong suốt luận văn này, chúng ta sẽ xét bài toán phân tích không âm của matrận với chuẩn Frobenius Bài toán chính được phát biểu như sau:

Bài toán 2.1.1 (Phân tích không âm của ma trận - NMF) Cho một ma trận

Khi đó r được gọi là hạng giảm Từ giờ trở đi, m và n sẽ được sử dụng đểbiểu thị cỡ của ma trậnAvà r là hạng giảm của một phân tích

Nhận xét 2.1.1 Với mỗi U cố định, hàm F (U, V )là lồi theo V và với mỗi V

hai biến vì vậy bài toán 2.1.1 là bài toán tối ưu không lồi Về mặt lý thuyết, có nhiều thuật toán để tìm cực tiểu toàn cục của một bài toán tối ưu không lồi Tuy nhiên, trong thực tế khi giải bài toán NMF, người ta thường chỉ đi tìm cực tiểu địa phương thay vì cực tiểu toàn cục.

2.2 ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU

Lý do tại sao NMF trở nên phổ biến là vì nó có khả năng tự động trích xuấtcác yếu tố thưa thớt và dễ hiểu Trong phần này, chúng tôi minh họa tính chất

Trang 24

này của NMF thông qua các ứng dụng, trong quá trình xử lý ảnh, khai thác vănbản Ngoài ra NMF còn có các ứng dụng khác bao gồm ảnh siêu phổ, kiểm soátkhí thải, sinh học tính toán, tách nguồn mù, tách nguồn đơn kênh, phân cụm,phân tích nhạc.

Mỗi bức ảnh đen trắng của một khuôn mặt được lưu trữ dưới dạng một matrận mà các phần tử của ma trận tương ứng với độ xám hay cường độ tại mỗiđiểm ảnh Mỗi cột của ma trận dữ liệuA ∈ Rp×n+ tương ứng với vector hóa củahình ảnh một khuôn mặt Ở đó, A(i, j) là cường độ của điểm ảnh thứ i trongkhuôn mặt thứj NMF sinh ra hai thừa số(U, V )sao cho mỗi hình ảnhA(:, j)

được xấp xỉ bằng cách sử dụng sự tổ hợp tuyến tính của các cột củaU Điều nàyđược minh họa bởi công thức và hình ảnh dưới đây:

Hình 2.1: Phân tích cơ sở dữ liệu CBCL [Nguồn: [3]]

trong đó:A(:, j): hình ảnh khuôn mặt thứj,

U (:, k): đặc điểm khuôn mặt,

V (j, k): mức độ quan trọng của đặc điểm trong hình ảnh thứj,

U V (:, j): xấp xỉ của hình ảnh thứj

Trang 25

Từ U là không âm, các cột của U có thể được hiểu là hình ảnh (nghĩa làvector cường độ điểm ảnh) mà chúng ta gọi là hình ảnh cơ sở Vì các trọng sốtrong các tổ hợp tuyến tính là không âm(V ≥ 0), những hình ảnh cơ sở này chỉ

có thể được sử dụng để tái tạo lại mỗi hình ảnh gốc Ngoài ra, số lượng lớn hìnhảnh trong tập dữ liệu phải được xây dựng lại xấp xỉ với chỉ một vài hình ảnh cơ

sở (trên thực tế,r nói chung nhỏ hơn rất nhiều so với n) Do đó, phân tích này

sẽ khoanh vùng một số đặc điểm đặc trưng đồng thời xuất hiện ở một vài bứcảnh Trong trường hợp hình ảnh khuôn mặt, hình ảnh cơ sở là các đặc điểm nhưmắt, mũi, ria mép và môi (như hình 2.1) trong khi các cột củaV chỉ ra rằng đặcđiểm nào có trong hình ảnh đó

Một ứng dụng tiềm năng của NMF là nhận diện khuôn mặt Người ta nhậnthấy rằng NMF “mạnh hơn” so với PCA (Principal Compoment Analysis - phântích thành phần chính dựa trên khai triển giá trị kỳ dị) Trong thực tế, người tathấy rằng với nhiều bức ảnh mà một phần khuôn mặt bị che khuất (ví dụ: ngườiđeo kính râm) thì NMF hoạt động khá tốt vì có thể trích xuất được nhiều đặcđiểm không bị che khuất (ria mép, môi)

Đặt mỗi cột của ma trận không âmAtương ứng với một tài liệu và mỗi hàngứng với một từ Phần tử(i, j) của ma trận A có thể được cho bằng số lần xuấthiện của từ thứ i trong tài liệu thứ j Trong trường hợp này, ta gọi mỗi cột của

A là vector đếm từ của tài liệu Trong thực tế, người ta có thể sử dụng các môhình phức tạp hơn Ví dụ như mô hình túi từ ở đó mỗi từ trong từ điển được gánvới một trọng số Lưu ý rằng ma trậnA nói chung khá thưa (đa số các phần tửbằng 0) vì hầu hết tài liệu chỉ sử dụng một tập hợp con nhỏ các từ trong từ điển.Với ma trận Avà hạng phân tíchr, NMF tạo ra hai nhân tử(U, V )sao cho vớimọi1 ≥ j ≥ n, chúng ta có:

Ngày đăng: 06/10/2019, 13:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Hữu Việt Hưng, 2001, Đại số tuyến tính, NXB Đại học Quốc gia Hà Nội, Hà Nội Sách, tạp chí
Tiêu đề: Đại số tuyến tính
Nhà XB: NXB Đại học Quốc giaHà Nội
[2] Hoàng Tụy, 2006, Lý thuyết Tối ưu , Giáo trình cao học Viện Toán học Sách, tạp chí
Tiêu đề: Lý thuyết Tối ưu
[3] N. Gillis, 2014, The Why and How of Nonnegative Matrix Factorization, in: "Regularization, Optimization, Kernels, and Support Vector Machines", Machine Learning and Pattern Recognition Series, 257 - 291 Sách, tạp chí
Tiêu đề: Regularization, Optimization, Kernels, and Support Vector Machines
[4] N. D. Ho, 2008, Non negative matrix factorization algorithms and applica- tions. Phd thesis, Université Catholique de Louvain Sách, tạp chí
Tiêu đề: Non negative matrix factorization algorithms and applica-tions
[5] P. Paatero and U. Tapper, 1994, Positive matrix factorization: a non nega- tive factor model with optimal utilization of error estimates of data values, Environmetrics 5(2) , 111–126 Sách, tạp chí
Tiêu đề: Environmetrics 5(2)
[6] D. Lee and H. Seung, 1999, Learning the parts of objects by non negative matrix factorization, Nature 401, 788 – 791 Sách, tạp chí
Tiêu đề: Nature 401

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w