Ica phức và ứng dụng vào tách sóng đa truy cập trong hệ thống mimo ofdm

Nếu các thành phần trong vector là độc lập thì sẽ không đạt được gì từ các tính toán của PCA.. Mặc dù không phải là phương pháp tối ưu cho việc phân tách dữ liệu nhưng PCA lại là công cụ

Trang 1

Đại Học Quốc Gia Tp Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

Xin chân thành cảm ơn quý thầy cô giảng dạy tại trường Đại Học Bách Khoa thành phố Hồ Chí Minh đã tận tình chỉ bảo, cung cấp các kiến thức bổ ích trong suốt thời gian em học cao học tại đây Đặc biệt, xin cảm ơn thầy Vũ Đình Thành, đã tận tình hướng dẫn và tạo điều kiện thuận lợi cho em về kiến thức cũng như tài liệu tham khảo, giúp em hoàn thành luận văn Thạc sĩ này

Cảm ơn TS Tulay Adali, Đại học Maryland Baltimore County, USA, vì những giúp đỡ về tài liệu tham khảo cũng như những lời khuyên bổ ích

Cảm ơn tất cả các bạn, những người đã luôn bên cạnh, động viên và giúp đỡ tôi trong quá trình thực hiện luận văn

Xin cảm ơn ba mẹ và gia đình đã nuôi nấng, dạy dỗ, luôn quan tâm, theo sát tình hình học tập và tạo mọi điều kiện tốt nhất cho con trong suốt cuộc đời

TP Hồ Chí Minh, tháng 6 năm 2007

Học viên thực hiện

Lê Đình Nghi

Trang 3

Phân tích thành phần độc lập ICA (Independent Component Analysis) là một kỹ thuật tính toán thống kê để tìm các thành phần ngầm ẩn trong tập các biến hay tín hiệu ngẫu nhiên ICA định nghĩa mô hình dữ liệu đa chiều, thường bao gồm số lượng lớn các mẫu Trong mô hình này, các biến dữ liệu được giả sử là hỗn hợp tuyến tính của các biến ngầm chưa biết, và hệ thống trộn cũng chưa biết Các biến ngầm này giả sử có phân bố phi Gauss và độc lập tương hỗ, gọi là các thành phần độc lập ICs (Independent Components) của dữ liệu thu được Các thành phần độc lập này có thể tìm được bằng ICA Bởi vì ICA có thể phân tách mù các hỗn hợp, nó có thể được ứng dụng vào xử lý tín hiệu, kinh tế và viễn thông…

Vấn đề phân tách các tín hiệu giá trị phức ngày càng được quan tâm trong lĩnh vực xử lý tín hiệu bởi vì phân tích trong miền tần số bao gồm các tín hiệu phức có nhiều thuận lợi so với phân tích trong miền thời gian Đặc biệt là trong phân tách hỗn hợp chập, liên quan đến biến đổi Fourier, sẽ tạo ra các tín hiệu phức ICA phức sẽ giải quyết vấn đề này Nó có thể phân tách hỗn hợp phức mà các tín hiệu nguồn và ma trận trộn đều là các biến giá trị phức ICA phức còn có một số ứng dụng quan trọng khác như phân tích ảnh y tế, trong hệ thống radar và viễn thông Ta sẽ tìm hiểu chi tiết hơn

về ứng dụng của ICA phức trong tách sóng đa truy cập trong hệ thống MIMO-OFDM

Để đáp ứng nhu cầu ngày càng gia tăng về dữ liệu tốc độ cao trong hệ thống thông tin không dây, hệ thống MIMO (Multiple-Input Multiple-Output) ra đời, dùng nhiều antenna truyền và nhận để sử dụng chiều không gian bằng cách chia dữ liệu truyền thành các luồng dữ liệu song song Các hệ thống ghép kênh không gian MIMO này đã được chứng minh có tốc độ dữ liệu cao hơn hệ thống SISO (Single-Input Single-Output) mà không cần tăng băng thông hay công suất truyền Kỹ thuật ghép

Trang 4

(Inter Symbol Interference) Hệ thống MIMO-OFDM, kết hợp giữa MIMO và OFDM,

sẽ thừa hưởng những ưu điểm của hai kỹ thuật này như dung lượng lớn, loại bỏ được ISI và ICI, và giảm độ phức tạp của bộ cân bằng không gian-thời gian

Các phương pháp tách sóng đa truy cập trong hệ thống MIMO-OFDM đòi hỏi phải có thông tin trạng thái kênh truyền CSI (Channel State Information) ở bộ thu, vì vậy hệ thống phải gởi dữ liệu huấn luyện (training data) hay pilot tones đến bộ thu Tuy nhiên, dữ liệu huấn luyện này có thể làm tăng đáng kể băng thông tổng cộng Để tiết kiệm băng thông hữu dụng, người ta có thể sử dụng bộ cân bằng mù Phương pháp mù tránh sử dụng dữ liệu huấn luyện bằng cách sử dụng các thống kê của dữ liệu nguồn và kênh MIMO để khôi phục dữ liệu Một trong những phương pháp tách sóng mù trong MIMO-OFDM là kỹ thuật dựa trên ICA Thuận lợi chính của việc ứng dụng ICA trong tách sóng đa truy cập là bộ thu hoàn toàn không cần biết ma trận trộn, và từ đó không cần chuỗi huấn luyện

Luận văn này sẽ phân tích và mô phỏng một số thuật toán giải quyết bài toán ICA phức và ứng dụng vào tách sóng đa truy cập trong hệ thống MIMO- OFDM Đồng thời dựa vào kết quả mô phỏng, luận văn sẽ so sánh và đưa ra một số nhận xét về các giải thuật này

Trang 5

Independent Component Analysis (ICA) is a statistical and computational technique for revealing hidden factors that underlie sets of random variables, measurements, or signals ICA defines a generative model for the observed multivariate (multidimensional) data, which is typically given as a large database of samples In the model, the data variables are assumed to be linear mixtures of some unknown latent variables, and the mixing system is also unknown The latent variables are assumed nongaussian and mutually independent, and they are called the independent components of the observed data These independent components, also called sources

or factors, can be found by ICA Because ICA can blindly separate mixtures, it can be applied to signal processing, economics and telecommunications…

Separation of complex valued signals is a frequently arising problem in signal processing: frequency-domain implementations involving complex valued signals have advantages over time-domain implementations Especially in the separation of convolutive mixtures, it is a common practice to Fourier transform the signals, which results in complex valued signals Complex valued ICA can solve this problem It can separate complex mixtures whose source signals and mixing matrices are complex-valued variables It has also been found of much interest within a number of other practical applications in medical image analysis, radar and communications systems We’ll consider in more details its application to MUD (Multiuser Detection) in MIMO-OFDM Systems

In wireless communication systems, to meet the ever growing demand for higher data rates, multiple transmit and receive antennas can be employed to make use

of the spatial dimension by transmitting data in parallel streams Such spatial

Trang 6

transmit power, provided that sufficient multipath diversity is present Orthogonal Frequency Division Multiplexing (OFDM) transforms a frequency selective (time dispersive) channel into parallel narrow band at fading channels, and it can cancel ISI and ICI MIMO-OFDM systems, including MIMO and OFDM techniques, can have advantages of two above techniques: high data rates with low complexity space-time equalization without ISI and ICI

Traditional MUD methods in MIMO-OFDM systems require to acquire the Channel State Information (CSI) at the receiver, so training data or pilot tones must be sent However, this training overhead can spend a considerable amount of the overall bandwidth To save the valuable bandwidth, blind equalization can be employed Blind methods avoid the use of training by exploiting the statistics of the source streams and the MIMO-OFDM channel to recover the data One of typical approaches for blind detection in MIMO-OFDM systems is ICA based method The avantage of this technique is the fact that the system of mixture is completely unknown in the receiver and, besides, training sequences are not needed

In this thesis, we analyzed some recently-developed algorithms for Independent Component Analysis based on complex-valued signals and applied to multiuser detection in MIMO-OFDM systems Some simulation results are obtained that compare the performances of these algorithms

Trang 7

Chương 1 GIỚI THIỆU VẤN VỀ VÀ TÌNH TRẠNG HIỆN NAY

1.1 Giới thiệu - 1

1.2 Lịch sử và tình hình nghiên cứu - 2

1.3 Nội dung và phạm vi nghiên cứu của luận văn - 4

1.3.1 Mục tiêu và phạm vi - 4

1.3.2 Nội dung - 4

Chương 2 ICA VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN 2.1 Giới thiệu về ICA - 5

2.2 Các quá trình tiền xử lý cho ICA - 6

2.2.1 Quy tâm cho biến - 6

2.2.2 Phân tích thành phần chính - 7

2.2.3 Trắng hóa - 10

2.2.4 Trực giao - 13

2.3 Một số giả thiết và giới hạn của mô hình ICA - 16

2.3.1 Các ICs được xem là các thành phần độc lập thống kê - 16

2.3.2 Các thành phần độc lập phải có phân bố phi Gauss - 16

2.3.3 Ma trận lai trộn là ma trận vuông - 16

2.3.4 Hạn chế của ICA - 17

2.4 Các phương pháp tiếp cận giải quyết bài toán ICA - 18

Chương 3 ICA VỚI CỰC ĐẠI TÍNH PHI GAUSS 3.1 Phi Gauss tức là độc lập - 20

3.2 Đo lường tính phi Gauss bởi kurtosis - 25

3.2.1 Cực trị của kurtosis sẽ cho các thành phần độc lập - 25

Trang 8

3.3.1 Hạn chế của kurtosis - 36

3.3.2 Đo phi Gauss bằng negentropy - 36

3.3.3 Xấp xỉ negentropy - 38

3.3.4 Giải thuật gradient sử dụng negentropy - 41

3.3.5 Giải thuật lặp điểm cố định sử dụng negentropy - 43

3.4 Ước lượng nhiều thành phần độc lập - 47

3.4.1 Ràng buộc của sự không tương quan - 47

3.4.2 Trực giao hóa tuần tự - 48

3.4.3 Trực giao hóa đối xứng - 49

3.5 Kết luận - 51

Chương 4 ICA PHỨC 4.1 Giải thuật complexfastICA - 52

4.1.1 Các nguyên lý cơ bản của biến ngẫu nhiên phức - 52

4.1.2 Các thành phần không xác định được của các thành phần độc lập - 54

4.1.3 Lựa chọn phép đo tính phi gauss - 54

4.1.4 Độ ổn định của ước lượng - 56

4.1.5 Giải thuật điểm cố định - 57

4.2 Giải thuật SUT (strong uncorrelated transform) - 58

4.2.1 Thống kê bậc hai của các vector ngẫu nhiên phức - 58

4.2.2 SUT - 59

4.2.3 Giải quyết bài toán ICA phức dùng SUT - 61

4.3 Giải thuật KM-G và KM-F - 62

4.3.1 Gradient phức và kết quả của Branwood - 62

Trang 9

4.4.1 Các biến ngẫu nhiên phức - 70

4.4.2 Phân tách một nguồn độc lập giá trị phức - 72

4.4.3 Thuật toán điểm cố định tách một thành phần từ hỗn hợp phức - 73

Chương 5 MIMO-OFDM VÀ TÁCH SÓNG ĐA TRUY CẬP TRONG MIMO-OFDM DÙNG ICA PHỨC 5.1 Hệ thống MIMO-OFDM - 79

5.1.1 Nguyên lý cơ bản của OFDM - 79

5.1.2 Hệ thống MIMO - 92

5.1.3 Hệ thống MIMO-OFDM - 95

5.2 Tách sóng đa truy cập trong MIMO-OFDM dùng ICA phức - 98

5.2.1 Giải thuật ICA-MMSE1 - 99

5.2.2 Giải thuật ICA-MMSE2 - 105

5.3 Kết luận về MUD trong MIMO-OFDM dùng ICA phức - 109

Chương 6 KẾT QUẢ MÔ PHỎNG VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 6.1 Chuẩn đánh giá các giải thuật ICA phức - 110

6.2 Chương trình mô phỏng - 110

6.3 Các kết quả mô phỏng - 112

6.3.1 Mô phỏng các giải thuật ICA phức - 112

6.3.2 Mô phỏng MUD trong MIMO-OFDM dùng ICA phức - 127

6.4 Kết luận và hướng phát triển đề tài - 131

6.4.1 Kết luận - 131

6.4.2 Hướng phát triển đề tài - 131

Trang 10

Bài toán ICA có thể mở rộng để phân tách hỗn hợp với các nguồn và ma trận trộn đều bao gồm các số phức, khi đó ta có các giải thuật cho bài toán ICA phức Các giải thuật ICA phức này đặc biệt hữu dụng trong xử lý tín hiệu trong miền tần số (xử lý tín hiệu trong miền tần số có nhiều ưu điểm so với xử lý trong miền thời gian [2]) hay phân tách các hỗn hợp chập (convolutive mixtures) vì phép biến đổi Fourier sẽ tạo ra các tín hiệu phức

Một trong những ứng dụng quan trọng của ICA trong các hệ thống viễn thông là

Trang 11

chứng tỏ có nhiều ưu điểm và vấn đề MUD trong MIMO-OFDM đang được quan tâm khá nhiều ICA phức có thể áp dụng vào MUD trong hệ thống này Các phương pháp MUD cổ điển đòi hỏi bộ thu phải biết thông tin trạng thái kênh truyền CSI (Channel State Information) Vì vậy, hệ thống phải truyền dữ liệu huấn luyện (training data) hay pilot tones đến bộ thu Tuy nhiên, dữ liệu huấn luyện này có thể làm tăng đáng kể băng thông tổng cộng Để tiết kiệm băng thông hữu dụng, người ta có thể sử dụng bộ tách sóng mù Phương pháp mù tránh sử dụng dữ liệu huấn luyện bằng cách sử dụng các thống kê của dữ liệu nguồn và kênh MIMO-OFDM để khôi phục dữ liệu Có nhiều phương pháp tách sóng mù như CMA (constant modulus algorithm), phương pháp không gian con (subspace methods), các phương pháp khác dùng thống kê bậc hai SOS (second order statistics) và các phương pháp dựa trên ICA Trong đó bộ phân tách mù dùng ICA chứng tỏ được có nhiều ưu điểm [8]

Vì vậy, luận văn sẽ trình bày một số giải thuật hiệu quả để phân tách mù các hỗn hợp phức dùng ICA phức và so sánh chúng Sau đó là nêu một ứng dụng của ICA phức vào tách sóng đa truy cập trong MIMO-OFDM với giải thuật kết hợp ICA-MMSE

1.2 Lịch sử và tình hình nghiên cứu

Kỹ thuật ICA, mặc dù chưa được đặt tên nhưng đã được giới thiệu rất sớm từ những năm 1980 bởi J Hérault, C Jutten và B Ans Trong suốt thời gian này ICA đã được biết đến bởi hầu hết những nhà nghiên cứu ở Pháp và đã phần nào có được những ảnh hưởng ở tầm quốc tế

Trong lĩnh vực phân tích phổ bậc cao, một hội thảo quốc tế đầu tiên được tổ chức năm 1989 Trong hội thảo này thì những bài viết đầu tiên về ICA đã được công bố bởi J.F Cardoso và P Comon Cardoso đã sử dụng phương pháp đại số, đặc biệt là các tensor thống kê bậc cao, và dẫn tới giải thuật JADE

Trang 12

Trong lĩnh vực xử lí số, đã có một số ứng dụng liên quan tới vấn đề này từ rất sớm, như là bài toán giải tích chập với tín hiệu mù Kết quả đạt được từ bài toán này cũng tương tự với kĩ thuật ICA

Công việc của các nhà khoa học ở những năm 80 tiếp tục được phát triển bởi A.Cichocki, R.Unbehauen và nhiều nhà khoa học khác Cho đến những năm 1990 có thêm nhiều bài báo nói về kĩ thuật ICA, tuy nhiên cho đến giữa những năm 90 thì kĩ thuật này vẫn chưa phát triển mạnh và hiệu quả của các nghiên cứu còn rất thấp, một số giải thuật đã hoạt động tốt nhưng vẫn còn hạn chế trong phạm vi ứng dụng

ICA chỉ đạt được sự chú ý và quan tâm rộng rãi sau khi A.J.Bell và T.J.Sejnowski xuất bản phương thức tiếp cận của họ dựa trên nguyên lí cực đại thông tin Sau đó giải thuật FastICA xuất hiện đã làm cho ứng dụng của ICA rộng hơn nhờ vào hiệu quả tính toán của giải thuật này

Đến cuối những năm 90 thì có rất nhiều bài báo và hội thảo bàn về vấn đề phát triển ICA Hội thảo quốc tế đầu tiên được tổ chức tại Pháp vào tháng 1 năm 1999, và đến nay đã có khá nhiều hội thảo quốc tế về ICA tổ chức tại Phần Lan, Nhật…,với hàng trăm nhà nghiên cứu trong lĩnh vực này

Gần đây, rất nhiều bài báo ra đời đề cập đến vấn đề giải quyết bài toán ICA phức Trong đó nổi bậc là các tác giả Ella Bingham, Tulay Adali, Cardoso, Hualiang Li, Eriksson…với các cách tiếp cận khác nhau như cực đại kurtosis [2][9][18][24][32], Maximum Likelihood [29], Infomax[31], JADE [6][13], SUT [14][15]…

Ứng dụng ICA vào tách sóng đa truy cập là vấn đề được quan tâm khá nhiều Gần đây, một số công trình ra đời nghiên cứu về tách sóng đa truy cập trong hệ thống MIMO-OFDM dùng ICA Các giải thuật này phân tích bài toán trong miền tần số nên

Trang 13

Sarperi, Nandi… với các giải thuật chỉ dùng ICA [4], kết hợp ICA với các phương pháp khác như ICA-MMSE [3][8], ICA-MMSE-SIC [8], ICA-V-BLAST [28][30]

1.3 Nội dung và phạm vi nghiên cứu của luận văn

1.3.1 Mục tiêu và phạm vi

Mục tiêu của luận văn là mở rộng các giải thuật ICA cho số phức và ứng dụng vào tách sóng đa truy cập trong MIMO-OFDM Các giải thuật ICA này có thể phân tách hầu hết các hỗn hợp phức của các nguồn phức độc lập và có phân bố phi Gauss và

có thể ứng dụng vào tách sóng đa truy cập trong MIMO-OFDM

1.3.2 Nội dung

Nội dung luận văn gồm 6 chương Chương 1 sẽ giới thiệu tổng quan vấn đề và tình hình nghiên cứu hiện nay Chương 2 giới thiệu về ICA thực, các bước tiền xử lý và các vấn đề liên quan như điều kiện, các tính chất cũng như một số cách tiếp cận để giải quyết bài toán ICA Chương 3 giải quyết bài toán ICA bằng cực đại tính phi gauss Đây

là hướng tiếp cận đơn giản và hiệu quả, từ đó dẫn đến giải thuật khá tốt là fastICA [1][2] Chương 4 mở rộng bài toán ICA thực cho các nguồn và ma trận trộn là các số phức, đưa ra một số giải thuật hiệu quả cho ICA phức Chương 5 giới thiệu sơ lược về

hệ thống MIMO-OFDM, các đặc điểm nổi bật của hệ thống này và ứng dụng ICA phức vào tách sóng đa truy cập trong MIMO-OFDM Cuối cùng, chương 6 sẽ nêu ra một số kết quả mô phỏng đạt được gồm các giải thuật ICA phức, giải thuật tách sóng đa truy cập trong MIMO-OFDM và so sánh các giải thuật này Cuối chương này là nhận xét và hướng phát triển đề tài

Trang 14

Chương 2

ICA VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN

2.1 Giới thiệu về ICA

Như đã giới thiệu ở chương trước, phân tích thành phần độc lập ICA

(Independent Component Analysis) được ứng dụng trong lĩnh vực xử lí tín hiệu để thực

hiện phân tách nguồn mù BSS (Blind Source Seperation) BSS là bài toán tìm kiếm các

thành phần tín hiệu ban đầu từ những hỗn hợp đã biết của chúng (các tín hiệu gốc và

ma trận trộn là chưa biết) ICA giải quyết hoàn toàn bài toán BSS với một số giả thiết

về sự độc lập thống kê của các thành phần nguồn Để hiểu rõ hơn về ICA, ta xét đến

mô hình toán học của ICA

Chúng ta hãy xem xét một tập hợp các biến ngẫu nhiên quan sát được là x1(t),

x2(t), , xn(t), trong đó t là thời điểm lấy mẫu, giả sử rằng chúng là hỗn hợp tuyến tính

) (

2

1 2

1

t s

t s A t x

t x

n n

M

M M

trong đó A là một ma trận chưa được biết trước Việc phân tích các thành phần độc lập

bây giờ là tìm ra cả ma trận A lẫn các tín hiệu si(t), khi mà thông tin chúng ta có được

chỉ là các thành phần hỗn hợp xi(t) Chú ý là ở đây chúng ta giả sử rằng số thành phần

Trang 15

độc lập bằng với số tín hiệu quan sát được, điều này chỉ làm đơn giản bài toán chứ

không nhất thiết phải thực hiện

Như vậy chúng ta có thể định nghĩa ICA như là việc tìm một biến đổi tuyến tính

được xác định bởi ma trận W và các biến ngẫu nhiên yi, i=1, ,n như sau :

) (

2

1 2

1

t x

t x W t y

t y

n n

M

M M

trong đó các thành phần yi là độc lập nhiều nhất có thể W càng gần với nghịch đảo của

A thì kết quả là càng tốt

Bài toán này có thể được mở rộng với các thành phần nguồn và ma trận trộn đều

bao gồm các số phức Khi đó ta có các giải thuật cho ICA giá trị phức, sẽ được trình

bày chi tiết hơn trong chương 4

Từ đó ta thấy rằng ICA có thể được ứng dụng trong các lĩnh vực như xử lý hình

ảnh, xử lý âm thanh hay ứng dụng trong các lĩnh vực viễn thông CDMA, mạng không

dây

2.2 Các quá trình tiền xử lý cho ICA

2.2.1 Quy tâm cho biến

Không mất tính tổng quát ta có thể giả thiết các biến hỗn hợp và các thành phần

độc lập có trung bình bằng không Điều này sẽ đơn giản lý thuyết và giải thuật khá

nhiều và sẽ được sử dụng thường xuyên

Trang 16

Nếu xảy ra trường hợp tín hiệu không thõa mãn điều kiện có trung bình bằng 0 thì chúng ta có thể thực hiện tiền xử lí : quy tâm cho các biến khảo sát bằng cách trừ đi giá trị trung bình của chúng Gọi hỗn hợp ban đầu là x’ thì việc quy tâm được thực hiện như sau :

2.2.2 Phân tích thành phần chính

Phân tích thành phần chính là một kĩ thuật cổ điển trong việc phân tích thống kê

dữ liệu, tách đặc điểm (feature extraction), và trong các phương pháp nén dữ liệu Với một tập hợp các dữ liệu đo lường nhiều biến cho sẵn, mục đích của PCA là tìm ra một tập hợp nhỏ hơn của các biến mà ở đó ít có sự dư thừa hơn, tức là tập các biến mới chỉ bao gồm các biến có ý nghĩa nhiều nhất, là một đại diện tốt nhất có thể cho các thành phần Quan điểm này tương đối giống với quan điểm của ICA, tuy nhiên sự dư thừa trong PCA chỉ được đo lường bởi tương quan giữa các phần tử trong dữ liệu trong khi ICA sử dụng rất nhiều những khái niệm về không tương quan và độc lập Vì chỉ sử dụng các khái niệm liên quan tới tương quan cho nên PCA có thuận lợi là nó có thể phân tích mà chỉ cần dựa trên các thống kê bậc 2 Bởi thế sẽ là rất tốt nếu như PCA là bước tiền xử lí cho ICA

Trang 17

Các thành phần chính

Điểm bắt đầu cho PCA là vector ngẫu nhiên x với n thành phần, với các thành

phần mẫu là x(1), , x(T) Không có một sự giả định chính xác nào về hàm mật độ xác

xuất cho biến ngẫu nhiên x trong mô hình PCA, các thống kê bậc nhất và bậc hai có thể

biết được hoặc có thể ước lượng từ các mẫu Thông thường thì các thành phần của

vector x được đo lường như là mức xám của các điểm hoặc là giá trị của tín hiệu tại các

thời điếm nhất định nào đó Thật sự trong mô hình PCA, khi có các thành phần có

tương quan, hoặc có sự dư thừa dữ liệu trong x thì có thể nén dữ liệu Nếu các thành

phần trong vector là độc lập thì sẽ không đạt được gì từ các tính toán của PCA

Trong tính toán PCA thì vector x trước tiên cũng được quy tâm bằng cách trừ đi

trị trung bình của nó:

{ }x E x

Trong thực tế thì giá trị trung bình sẽ được ước lượng từ các mẫu có sẵn Ở đây

chúng ta giả sử rằng việc quy tâm cho biến đã được thực hiện và chúng ta có thể xem

như tín hiệu có trung bình bằng 0 Sau đó ta thực hiện việc biến đổi vector x thành một

vector y với m thành phần, m<n, nhằm xóa bỏ đi sự dư thừa do tương quan gây ra

Điều này được thực hiện bằng cách tìm kiếm một phép quay trực giao sao cho các

thành phần của x trong hệ thống trục mới là không tương quan với nhau Cùng thời

điểm đó thì variance hình chiếu của x trên trục mới là cực đại, sao cho đáp ứng trên

trục thứ nhất là cực đại thì đáp ứng trên trục thứ hai là cực đại theo hướng vuông góc

với hướng trên trục thứ nhất

Các phương pháp biến đổi tuyến tính của PCA:

Wx

Trang 18

thông thường dựa trên các thống kê bậc hai, tức là chỉ sử dụng các thông tin về ma trận

hiệp phương sai của vector dữ liệu x Các phương pháp thống kê bậc hai giả sử dữ liệu

quan sát có phân bố Gauss Khi các biến ngẫu nhiên có phân bố Gauss, phân bố của nó

sẽ được xác định bởi các thông tin thống kê bậc hai Quá trình biến đổi tuyến tính từ

vector x có thể tìm ra các thành phần chính:

Để xác định được các giá trị wi chúng ta cần phải thực hiện việc khai triển trị

riêng của ma trận hiệp phương sai C=E{xxT} Lúc này, giá trị wi là các vector riêng của

C tương ứng với m giá trị riêng lớn nhất của C Bởi vậy có thể nói PCA là kỹ thuật

giảm số chiều không gian dữ liệu theo hướng cực đại variance, nghĩa là mỗi biến sẽ đạt

cực đại variance của mình trong khi đó tương quan của chúng sẽ tiến tới 0

Tuy nhiên trong thực tế thì dữ liệu thường không tuân theo phân bố Gauss, trong

các trường hợp này các điều kiện về các thống kê bậc hai đôi khi sẽ bằng 0 và như vậy

thì các thống kê bậc cao hơn sẽ được sử dụng Điều này là một gợi ý cho giải thuật

ICA, một phương pháp thống kê bậc cao để tìm các thành phần độc lập với dữ liệu

tổng quát là phi Gauss

Mặc dù không phải là phương pháp tối ưu cho việc phân tách dữ liệu nhưng PCA

lại là công cụ tiền xử lí rất hữu ích cho ICA, nó làm giảm số chiều của dữ liệu mà nhờ

đó mà ICA sẽ giải quyết được bài toán là số thành phần độc lập nhỏ hơn số hỗn hợp

thu được Bởi vì khi số thành phần độc lập n nhỏ hơn so với số hỗn hợp thu được m,

nếu chúng ta thực hiện mô hình ICA một cách máy móc có thể gây lỗi nghiêm trọng

Vì thế rất cần thiết việc sử dụng PCA để giảm số chiều dữ liệu xuống còn n

Vấn đề ở đây là PCA có khả năng tìm chính xác không gian mà từ đó chúng ta có

Trang 19

tuy nhiên với dữ liệu chỉ có n thành phần độc lập không nhiễu thì toàn bộ dữ liệu sẽ

thuộc vào không gian con n chiều Chúng ta hoàn toàn có thể sử dụng PCA để tìm

được không gian n chiều này, do các trị riêng thuộc không gian con này và chỉ các trị

riêng này khác 0

Tuy vậy, thực tế thì dữ liệu sẽ không thuộc chính xác không gian con, do nhiễu và

các yếu tố khác, nhưng với mức nhiễu thấp, PCA vẫn có thể xác định gần đúng không

gian con cần tìm Khách quan mà nói, thì sẽ có một số thành phần yếu hơn sẽ bị loại bỏ

do quá trình tính toán từ PCA nhưng nó vẫn là một công cụ tốt vì ít nhất chúng ta vẫn

còn giữ được những thành phần mạnh nhất của dữ liệu

Một ưu điểm nổi bật nữa của PCA là giảm nhiễu bởi vì vô hình chung khi giảm

số chiều thì số chiều bỏ đi thông thường lại là nhiễu, điều này đặc biệt đúng khi số

thành phần nhỏ hơn số hỗn hợp

2.2.3 Trắng hóa

Bài toán ICA sẽ trở nên đơn giản lạ thường nếu trước đó nó đã được xử lí trắng

hóa hoặc cầu hóa Một vector ngẫu nhiên có trung bình không z =(z1,z2,…,zn) được gọi

là trắng hóa nếu như các thành phần zi của nó là không tương quan và có variance là

đơn vị:

Trong trường hợp chúng ta xét cả cho ma trận covariance thì điều này có nghĩa là:

trong đó I là ma trận đơn vị Một ví dụ mà chúng ta quen thuộc nhất đó là nhiễu trắng,

các thành phần zi ở đây sẽ là cường độ nhiễu tại các thời điểm ứng với i=1,2, và

Trang 20

không có sự tương quan thời gian nào trong quá trình nhiễu Từ ‘trắng’ ở đây được xuất phát từ sự kiện phổ công suất của tín hiệu nhiễu trắng là hằng trên mọi tần số, một điều tương tự như trong ánh sáng, ánh sáng trắng là tổng hợp của nhiều màu

Bởi vì trắng hóa thực hiện giải tương quan bằng cách lập tỉ lệ cho nên kĩ thuật của PCA cũng có thể được sử dụng ở đây, điều này có nghĩa là trắng hóa cũng có thể thực hiện theo các phép biến đổi tuyến tính Vấn đề của bài toán trắng hóa bây giờ sẽ là : cho một vector ngẫu nhiên x với n thành phần, tìm một phép biến đổi tuyến tính thông qua ma trận V, sao cho biến x thành vector z đã được trắng hóa:

Bài toán này có thể giải được dựa vào bài toán PCA Chúng ta hãy xem E

=(e1, ,en) là một ma trận mà các cột của nó là các vector riêng của ma trận covariance

C = E{xxT} Việc tính toán này có thể được thực hiện trực tiếp từ các mẫu của x hoặc được tính từ một luật của PCA Ta có D = diag(d1, ,dn) là ma trận chéo các trị riêng của C Khi đó, ta có thể xác định được một phép biến đổi tuyến tính để tạo ra một vector trắng hóa như sau:

Ma trận này sẽ luôn luôn tồn tại khi mà các trị riêng di là dương, trong thực tế thì điều này chúng ta không cần phải quan tâm lắm bởi vì ma trận C là bán xác định dương, vì vậy cho hầu hết các dữ liệu trong thực tế thì các trị riêng của nó sẽ luôn luôn dương

Thật dễ dàng để nhận thấy rằng, ma trận V được xác định ở trên là một biến đổi trắng hóa Chúng ta viết lại C theo một cách khác, biễu diễn nó theo ma trận trị riêng

và ma trận vector riêng của nó:

Trang 21

C = EDET (2.11)

với E ở đây là một ma trận trực giao, tức là thõa mãn điều kiện EET= ETE = I, nhờ đó chúng ta có :

E{zzT}= V.E{xxT}.VT = D-1/2.ET.E.D.ETE.D-1/2 = I (2.12)

Covariance của z là một ma trận đơn vị, như vậy dữ liệu z coi như đã được trắng hóa

Phép biến đổi này không có nghĩa rằng ma trận trắng hóa là duy nhất, mà chúng

ta có thể dễ dàng nhận thấy rằng với bất kì một ma trận UV nào mà trong đó U là một

ma trận trực giao thì nó cũng là một ma trận trắng hóa Ta có thể chứng minh được điều này khá dễ dàng như sau :

E{zzT} =UVE{xxT}VTUT =UIUT = I (2.14)

Một trường hợp khá quan trọng là ma trận trắng hóa V= ED-1/2ET, đây là ma trận đạt được sau khi đã nhân V với một ma trận trực giao là E Ma trận này được gọi là nghịch đảo căn bậc hai của ma trận C, và được kí hiệu là C-1/2 bởi được xuất phát từ chuẩn mở rộng của các căn ma trận

Chúng ta cũng có một cách khác để xác định ma trận trắng hóa, đó là thực hiện các giải thuật trực tuyến tương tự như trong tính toán PCA Một trong những luật trực tiếp đó là:

V zz I V V Vxx I

V = ( − T T) = ( − T)

Trang 22

Có thể nhận thấy rằng ở một điểm tĩnh, khi mà sự thay đổi trên giá trị V có trung bình là 0, thì khi đó chúng ta đạt được:

0}){(I −E zz T V = (2.16)

Giải phương trình này chúng ta sẽ nhận được một cặp z = Vx thõa mãn điều kiện trắng hóa

2.2.4 Trực giao

Trong một số giải thuật của PCA và ICA yêu cầu vector sau nhận được phải là những vector trực giao Tuy nhiên, các bước lặp trong các giải thuật không tự động đảm bảo được tính trực giao Vì thế, việc trực giao hóa các vector sau mỗi bước lặp hoặc trong một khoảng thời gian nào đó là một điều hết sức cần thiết Trong phần này, chúng ta sẽ thảo luận về phương pháp trực giao cơ bản Để đơn giản chúng ta hãy xét bài toán sau đây:

Cho một tập hợp gồm m vector độc lập tuyến tính n chiều a 1 , a 2 , a m với m≤

n, hãy tìm một tập hợp khác gồm m vector w 1 , w 2 , w m trong đó các vector đã được trực giao hóa hoặc trực giao hóa chuẩn (trực giao và có chuẩn đơn vị) và các vector này phải ở trong cùng không gian với các vector gốc, tức là w i là tổ hợp tuyến tính của các a i

2.2.4.1 Trực giao tuần tự

Một phương pháp tiếp cận cổ điển là phương pháp trực giao hóa Gram-Schmidt:

Trang 23

wj = aj - j i

i i T i

j

T i w w w

a w

∑−

=

1 1

Kết quả từ phép trực giao là wiTwj = 0 , với mọi i≠j Ta có thể giải thích điều này

đơn giản như sau: giả sử (j-1) vector đầu tiên đã được trực giao Ta xét tích của wkTwj

áp dụng công thức trực giao như trên, ta có:

) (

1

T k j

i i T i

j

T i j

T k j

T

w w

a w a

w w

=

−

Ở trong tổng thì tất cả các tích wkTwi đều bằng 0, ngoại trừ trường hợp i = k, do

đó ta có thể viết lại như sau:

) ( T i k k

T k j

T

w w

a w a w w

= wkTaj - wkTaj =0

Do wkTwj = 0 cho nên vector wj cũng đã được trực giao

Trong giải thuật trực giao này thì các vector wi đều được chia cho chuẩn của

chúng, cho nên kết quả nhận được sẽ là những vector trực giao chuẩn Phương pháp

trực giao này được gọi là phương pháp trực giao tuần tự và trong các giải thuật của

ICA và PCA sử dụng các tiếp cận theo trực giao tuần tự

2.2.4.2 Trực giao đối xứng

Phương pháp trực giao hóa đối xứng tìm kiếm một không gian trực giao cho

không gian ban đầu mà không cần bất kì sự ràng buộc nào các vector mới và do vậy lời

Trang 24

giải của bài toán sẽ không phải là duy nhất Ta có thể xét một giải thuật đơn giản như

sau:

Xét A = (a1 am) là ma trận mà các cột của nó là những vector sẽ được trực giao,

sau đó chúng ta tính ma trận W theo công thức sau:

W = A (ATA)-1/2 (2.20)

Điều chúng ta đạt được sẽ là WTW = I, và các cột của ma trận W có cùng không

gian như các cột của ma trận A Bài toán này sẽ không có kết quả duy nhất bởi vì với

bất kì ma trận trực giao U nào thì WU cũng thỏa mãn bài toán Tuy nhiên trong tất cả

các lời giải này có một lời giải cho các vector trực giao đã được chuẩn hóa, ma trận này

sẽ được xem như là ma trận trực giao chuẩn của A Phương pháp trực giao này thường

được áp dụng trong các giải thuật gradient Việc tính toán cho (ATA)-1/2 có thể thực

hiện bằng việc khai triển ma trận trị riêng như sau:

(ATA)-1/2 = E.diag(d1-1/2,…,dm-1/2).ET (2.21)

Có một phương pháp lặp cho trực giao hóa đối xứng mà chúng ta có thể tránh

được việc khai triển ma trận trị riêng và tính ma trận nghịch đảo, chúng ta sẽ xem xét

dưới đây :

Chúng ta hãy bắt đầu bằng một ma trận không trực giao W(0):

Giải thuật lặp thực hiện như sau :

) 0 (

) 0 ( ) 1 (

W

)()()(

1)(

3)1

Trang 25

Nếu như W(t)W(t)T = I thì chúng ta có thể dừng còn nếu không thì tiếp tục lặp

cho đến khi đạt được sự hội tụ Người ta đã chứng minh được đây là một giải thuật có

tính hội tụ rất tốt

2.3 Một số giả thiết và giới hạn của mô hình ICA

Những điều kiện này nhằm đảm bảo cho mô hình ICA luôn luôn có thể thực hiện

đúng yêu cầu đặt ra

2.3.1 Các thành phần độc lập được xem là các thành phần độc lập thống kê

Đây là nguyên tắc cơ bản của mô hình ICA Về cơ bản, các biến y1, y2, ,yn được

gọi là độc lập khi mà thông tin của biến yi không chứa bất kì thông tin nào về biến yj

với i≠j Về mặt kỹ thuật, độc lập được định nghĩa thông qua hàm mật độ xác suất Với

p(y1,y2, ,yn) là hàm mật độ xác suất của tổ hợp biến y1, y2, , yn, và p(yi) là hàm mật độ

xác suất của từng biến yi, các biến yi được coi là độc lập khi mà hàm mật độ đồng thời

là tích của các hàm mật độ thành phần, tức là:

2.3.2 Các thành phần độc lập phải có phân bố phi Gauss

Do các biến tuân theo phân bố Gauss được xem là quá đơn giản bởi vì hầu hết các

thống kê bậc cao của phân bố này đều bằng không trong khi mô hình ICA lại rất cần

đến thông tin từ các thống kê bậc cao Vì vậy, với các biến mang phân bố Gauss thì

ICA dường như là không thể Chú ý là trong mô hình ICA cơ bản chúng ta không đề

cập tới việc biết trước dạng phân bố phi Gauss của các tín hiệu bởi vì nếu chúng ta biết

trước điều này thì bài toán trở nên quá đơn giản

Trang 26

2.3.3 Ma trận lai trộn là ma trận vuông

Để đơn giản bài toán người ta thường đưa ra giả thiết để ma trận lai trộn là vuông tức là số thành phần độc lập bằng với số hỗn hợp quan sát được Điều này làm đơn giản tính toán đi rất nhiều, và nhờ đó sau khi xác định được ma trận A chúng ta có thể tính nghịch đảo của nó để xác định các thành phần độc lập một cách đơn giản dựa vào

ma trận nghịch đảo B như sau:

Ở đây ma trận A được giả sử là khả đảo Nếu bài toán không rơi vào trường hợp này, tức là một số thành phần hỗn hợp dư thừa có thể bị bỏ quên, và như vậy thì ma trận lai trộn sẽ không là ma trận vuông Chúng ta sẽ trở lại với bài toán mà số hỗn hợp quan sát được không bằng với số thành phần độc lập

Mô hình ICA thõa mãn cả ba điều kiện trên đây thì sẽ được xem là mô hình có tính xác định Việc chứng minh điều này là quá phức tạp và không được đề cập ở đây

2.3.4 Hạn chế của ICA

Mô hình ICA mà chúng ta đề cập ở công thức (2.1) có thể nhận thấy được một số khuyết điểm và một số điều không rõ ràng mà việc nắm được chúng là điều cần thiết:

a) Không thể xác định chính xác phương sai của các thành phần độc lập

Lí do chính của điều này là do cả s và A đều là những thành phần chưa biết, bất kì một phép nhân vô hướng nào với các thành phần si đều có thế dễ dàng loại bỏ bằng chia hệ số ai cho hệ số vô hướng mà chúng ta đã nhân vào:

Trang 27

1( i i i

a s a

x=∑

Điều này dẫn đến chúng ta có thể cố định biên độ của các thành phần độc lập Vì

chúng là các biến ngẫu nhiên, hầu hết các phương pháp tự nhiên đều giả sử rằng chúng

có phương sai đơn vị và như vậy ma trận A sẽ được hiệu chỉnh trong lời giải của

phương pháp ICA sao cho thích hợp với giả thiết này Tuy thế tính không xác định về

dấu thì vẫn còn, bởi khi chúng ta nhân -1 với các thành phần độc lập mà không hề tác

động tới mô hình May mắn thay, điều này lại hầu như không ảnh hưởng đến hầu hết

các ứng dụng trong thực tế

b) Chúng ta sẽ không thể xác định thứ tự của các thành phần độc lập

Do cả hai thành phần A và s đều không được biết trước cho nên chúng ta có thể

tự do thay đổi trật tự của các số hạng trong tổng x = ∑a i s i của mô hình ICA và có thể

gọi bất kì thành phần độc lập nào là thành phần đầu tiên Nếu ta gọi P là ma trận hoán

vị, ta đưa P vào mô hình ICA bằng cách nhân thêm với nghịch đảo của nó như sau:

x =AP-1Ps (2.27)

Như vậy ta có thể xem đây là mô hình ICA với Ps là các thành phần độc lập và AP-1 là

ma trận lai trộn mới Các thành phần đã được đảo trật tự và cũng sẽ được tìm ra bởi

giải thuật ICA

2.4 Các phương pháp tiếp cận giải quyết bài toán ICA

Để giải quyết bài toán ICA, người ta đã đưa ra một số phương pháp để ước

lượng các thành phần độc lập như cực đại tính phi Gauss, ước lượng cực đại ML

(Maximum Likelihood), tối thiểu thông tin tương hỗ (Mutual Information), phương

Trang 28

pháp Tensor, giải tương quan phi tuyến (Nonlinear Decorrelation) Trong luận văn này, ta chỉ quan tâm đến giải bài toán ICA bằng cực đại tính phi Gauss vì đây là phương pháp khá trực quan và đơn giản Các phương pháp tiếp cận khác không thuộc nội dung của luận văn này, có thể tham khảo trong [1]

Trang 29

Chương 3

ICA VỚI CỰC ĐẠI TÍNH PHI GAUSS

Mô hình ước lượng mô hình ICA dựa trên tính cực đại phi Gauss là một phương pháp ước lượng khá trực quan và đơn giản Tính phi Gauss là một trong những nhân tố

có ý nghĩa quyết định đối với việc ước lượng mô hình ICA, không có đặc tính này thì bài toán dường như không giải quyết được Vì vậy, cũng không phải là điều quá ngạc nhiên nếu như tính phi Gauss được xem như là nguyên lí chủ đạo trong ước lượng ICA Chúng ta bắt đầu bài toán cực đại phi Gauss bằng một nguyên lí hết sức trực quan là định lí giới hạn trung tâm Chúng ta xem xét trước hết tới một đại lượng được xem như

là phép đo tính phi Gauss đầu tiên, đó là kurtosis Sử dụng kurtosis, chúng ta có thể đi tới các giải thuật về gradient và giải thuật lặp điểm cố định Sau đó, chúng ta sẽ giải quyết bài toán bằng một số phép đo phi Gauss khác đồng thời đưa ra các giải thuật tương ứng cho chúng Cuối cùng, chúng ta thảo luận về quan hệ giữa các phương pháp này và một số ứng dụng của chúng

3.1 Phi Gauss tức là độc lập

Định lí giới hạn trung tâm là một kết quả cổ điển trong lí thuyết xác suất Nhìn chung, định lí này phát biểu rằng tổng của các biến ngẫu nhiên độc lập thì có khuynh hướng tiến gần đến phân bố Gauss trong một điều kiện nào đó Có thể nói, tổng của hai biến ngẫu nhiên độc lập thì có phân gần với phân bố Gauss hơn là phân bố của từng biến ngẫu nhiên riêng rẽ

Chúng ta hãy giả sử rằng vector dữ liệu x được phân phối theo dữ liệu của mô hình ICA:

Trang 30

rõ ràng x là một hỗn hợp của các thành phần độc lập s Chúng ta xem như mỗi thành phần độc lập đều có phân bố xác định, và việc ước lượng mô hình ICA đạt được khi

mà chúng ta tìm được một biến đổi tuyến tính của các hỗn hợp biến dữ liệu, bởi vì theo

mô hình trên nếu có thể ta hoàn toàn chỉ cần thực hiện phép nghịch đảo cho ma trận A:

x A

T

b

Nếu b là một trong những hàng của ma trận nghịch đảo A thì biến đổi tuyến tính

bTx sẽ tương đương với một trong những thành phần độc lập Khi đó thì đáp ứng của q

có thể xem như đó chỉ có một thành phần bằng 1, còn các thành phần khác đều bằng 0

Câu hỏi được đặt ra là làm sao để có thể dùng định lí giới hạn trung tâm để xác định vector b sao cho nó trở thành một trong những hàng của ma trận nghịch đảo A-1 Trong thực tế, chúng ta sẽ không thể xác định được một vector b chính xác như vậy bởi

vì chúng ta không hề biết gì về ma trận A, tuy nhiên chúng ta có thể tìm được một ước

Trang 31

Chúng ta hãy thử thay đổi các hệ số trong q và quan sát xem phân bố y = qTx thay đổi như thế nào Ý tưởng cơ bản ở đây là tổng của hai hay nhiều thành phần độc lập thì bao giờ cũng gần với phân bố Gauss hơn là từng biến độc lập, tức là y lúc nào cũng có tính Gauss nhiều hơn so với si, và nó chỉ bằng với si khi mà nó trở thành một thành phần nào đó của s Trong trường hợp này thì rõ ràng chỉ có một phần tử trong vector q

là khác không còn các phần tử còn lại đều bằng 0 Thực chất thì chúng ta cũng không cần biết các giá trị của q bởi vì qTs = bTx theo định nghĩa của q, tức là chúng ta chỉ cần cho b thay đổi và tìm sự thay đổi trong phân bố bTx Vì vậy, chúng ta có thể xem b như

là một vector mà sẽ làm cực đại tính phi Gauss của bTx Một vector như vậy là cần thiết để có thể đáp ứng cho vector q chỉ có một thành phần khác 0 Khi đó thì y = bTx =

qTs sẽ trở thành một trong những thành phần độc lập của dữ liệu s, điều đó có nghĩa là cực đại tính phi Gauss của bTx sẽ cho ta ước lượng được một trong những thành phần độc lập ban đầu

Thực chất việc tối ưu hóa cho tính phi Gauss trong không gian n chiều của vector

b sẽ dẫn đến 2n cực đại địa phương, tức là sẽ có hai giá trị cực đại cho mỗi thành phần độc lập ứng với si và –si

Chúng ta có thể minh họa cho nguyên lí cực đại phi Gauss bằng một ví dụ đơn giản như sau: xét hai thành phần độc lập có phân bố đều (giả sử chúng có trung bình 0), hàm phân phối đồng thời của chúng được minh họa trong hình 3.1, trong đó mẫu các thành phần độc lập được vẽ trong không gian hai chiều Hình 3.2 thể hiện hàm mật độ của phân bố đều của mỗi thành phần Các thành phần này sẽ được trộn tuyến tính và hỗn hợp của chúng được trắng hóa như một bước tiền xử lí Như vậy chúng ta sẽ tìm được một biến đổi tuyến tính cho vector hỗn hợp x thành một vector ngẫu nhiên z như

đã trình bày ở phần trắng hóa:

VAs Vx

Trang 32

Đương nhiên ta sẽ đạt được E{zzT}= I Như vậy thì mô hình ICA vẫn được giữ nguyên dù là ma trận lai trộn đã bị thay đổi Hàm mật độ đồng thời của hỗn hợp trắng hóa được cho trong hình 3.3, nó chính là một phép quay của hàm mật độ đồng thời ban đầu

Chúng ta hãy xem xét hàm mật độ của hai thành phần hỗn hợp z1 và z2, những hàm này được ước lượng trong hình 3.4 Người ta có thể nhận ra rằng mật độ của các thành phần hỗn hợp thì gần với phân bố Gauss hơn là mật độ của các thành phần riêng

lẻ cho trong hình 3.2 Vì thế, chúng ta thấy rằng việc trộn sẽ làm cho các biến gần với phân bố Gauss hơn Chúng ta hãy tìm một phép quay mà có thể quay hình vuông trong hình 3.3 thành hình vuông minh họa cho các thành phần gốc trong hình 3.1, điều này sẽ giúp ta xác định hai phép biển đổi tuyến tính dẫn tới cực đại phi Gauss

Hình 3.1: Phân bố đồng thời của 2 thành phần độc lập phân bố đều

Trang 33

Hình 3.2: Hàm mật độ ước lượng của một thành phần độc lập phân phối đều với hàm

Trang 34

Vấn đề đối với chúng ta là đưa ra một đại lượng đo lường tính phi Gauss và dựa vào đó

để xác định hướng cực đại của phi Gauss

Hình 3.4: Hàm mật độ lề của từng thành phần trắng hóa Chúng gần với phân bố gauss

(đường đứt nét) hơn mật độ từng thành phần

3.2 Đo lường tính phi Gauss bởi kurtosis

3.2.1 Cực trị của kurtosis sẽ cho các thành phần độc lập

a) Kurtosis và các đặc tính của nó

Để sử dụng tính phi Gauss trong việc ước lượng mô hình ICA, chúng ta phải có một đại lượng định lượng cho biến ngẫu nhiên phi Gauss, giả sử là biến y Trong phần này, chúng ta sẽ đề cập đến một phương pháp cổ điển để đo lường tính phi Gauss đó là kurtosis, và chúng ta sẽ nghiên cứu làm thể nào để sử dụng kurtosis để ước lượng mô hình ICA Kurtosis là tên của một dạng thống kê tích lũy bậc bốn của một biến ngẫu nhiên

Kurtosis của biến ngẫu nhiên y, kí hiệu là kurt (y) được định nghĩa như sau:

Trang 35

{ }4 ( { }2 )2

3)

Ở đây chúng ta luôn luôn giả sử rằng các biến ngẫu nhiên có trung bình bằng 0, trong trường hợp chung, định nghĩa kurtosis là khá phức tạp Để đơn giản hơn cho bài toán ta có thể giả rằng biến ngẫu nhiên y có trung bình 0 và có variance đơn vị, tức là E{y2}= 1 Như vậy công thức về kurtosis có thể viết lại như sau:

3}{)(y = E y4 −

Điều này giải thích tại sao người ta lại gọi kurtosis là một phóng tác chuẩn hóa của momentt bậc bốn E{y4} Đối với biến ngẫu nhiên Gauss thì kurtosis bằng 0, còn đối với hầu hết các biến ngẫu nhiên phi Gauss (chứ không phải toàn bộ) thì kurtosis khác không

Kurtosis có thể âm hoặc dương, những biến ngẫu nhiên có kurtosis âm thì gọi là biến subgaussian, còn ngược lại những biến có kurtosis dương thì gọi là biến supergaussian Trong các tài liệu về thống kê, biến ngẫu nhiên supergaussian là những biến ngẫu nhiên có hàm mật độ phân phối có đỉnh nhọn, tức là những dạng phân phối

có giá trị lớn tại 0 và sau đó nhỏ đi rất nhanh ở những giá trị xung quanh đó Một ví dụ điển hình cho dạng phân phối này là phân bố Laplacian, mà hàm mật độ của nó được cho bởi công thức dưới đây:

)2exp(

2

1)

Trang 36

rất nhỏ ở những giá trị lớn hơn của giá trị biến Một ví dụ điển hình cho loại phân bố

này là phân bố đều được minh họa trong hình 3.6:

p

,0

3,

32

1)

Hình 3.5: Hàm mật độ của phân bố Laplacian, một điển hình cho phân bố

supergaussian So sánh nó với hàm mật độ gauss vẽ bởi đường đứt nét

Hình 3.6: Hàm mật độ của phân phối đều, một điển hình cho phân bố subgaussian

Hàm mật độ gauss được vẽ để so sánh

Trang 37

Thông thường thì tính phi Gauss được đo lường thông qua trị tuyệt đối của kurtosis hoặc bình phương của kurtosis Phép đo này sẽ cho kết quả 0 với các biến Gauss và thường cho kết quả khác 0 với hầu hết các biến phi Gauss Theo nghiên cứu của các nhà khoa học thống kê thì vẫn có những biến phi Gauss có kurtosis bằng 0, nhưng những biến này rất hiếm cho nên ít khi được đề cập đến Kurtosis, hay nói đúng hơn là trị tuyệt đối của nó, đã được sử dụng hết sức rộng rãi trong đo tính phi Gauss của ICA cũng như trong các lĩnh vực liên quan mà nguyên nhân chính là do tính đơn giản của nó cả trong tính toán lẫn trong lí thuyết Trong tính toán thì kurtosis có thể ước lượng đơn giản bằng cách sử dụng moment bậc bốn của dữ liệu lấy mẫu (nếu như phương sai được xem là hằng số, thông thường là 1) Trong phân tích lí thuyết thì kurtosis đơn giản nhờ vào đặc tính tuyến tính của nó, tức là nếu ta có x1 và x2 là hai biến ngẫu nhiên độc lập thì chúng ta sẽ có:

(x1 x2) kurt(x1) kurt(x2)

)()

y = bTx Trước hết chúng ta cùng xem xét lại vector biến đổi q = ATb, ta sẽ có:

2 2 1

q s q As b x b

Trang 38

Dựa vào đặc tính cộng của kurtosis chúng ta có được:

)()

()

2 1

4 1 2 2 1

q kurt y

Mặt khác, chúng ta đã tạo ra ràng buộc là phương sai của y và s là đơn vị cho nên

vô tình đã tạo ra ràng buộc cho q như sau:

{ } { } { } 2 1

2

2 1 2

2 2 1

2 1

()

2 1

4

q y

trên đường tròn đơn vị?

Để bắt đầu, chúng ta hãy giả sử đơn giản rằng kurtosis của các thành phần độc lập

là bằng một Và như vậy đơn giản chúng ta chỉ phải xem xét hàm sau:

4 2

4 1

)(q q q

Trang 39

khác không của q chỉ có thể là 1 hay -1 Và khi đó thì y sẽ tương ứng với các thành phần độc lập ±si, và như vậy bài toán đã được giải quyết hoàn toàn

Nếu cả hai giá trị kurtosis của các thành phần độc lập đều bằng -1 thì chúng ta cũng đạt được kết quả tương tự bằng cách lấy trị tuyệt đối Cuối cùng nếu như kurtosis của các thành phần độc lập là bất kì, người ta cũng đã đạt được rất nhiều những chứng minh trong đại số khẳng định rằng kurtosis của y vẫn đạt được cực đại khi mà y = bTx bằng một trong các thành phần độc lập

Hình 3.7: Tìm vùng cực đại cho kurtosis

Bây giờ, chúng ta sẽ xem xét với dữ liệu được tiền xử lí bằng trắng hóa Cũng tương tự như trên đối với dữ liệu trắng hóa, chúng ta cũng cố gắng tìm kiếm một phép biến đổi tuyến tính wTz sao cho đạt được cực đại tính phi Gauss Đơn giản trong trường hợp này chúng ta có q=(VA)Tw, biến đổi như sau:

Trang 40

2 2

))(

(w VA A V w w

Điều này có nghĩa là ràng buộc q thuộc vòng tròn đơn vị cũng tương đương với ràng buộc w nằm trên đường tròn đơn vị Vì thế, chúng ta chỉ cần cực đại hóa giá trị tuyệt đối của kurtosis wTz dưới một ràng buộc đơn giản là w = 1 Như vậy, sau khi trắng hóa thì tổ hợp tuyến tính có thể được xem xét như là một hình chiếu trên đường thẳng (tức là trong không gian 1-D) được mở rộng bởi vector w Mỗi điểm trên mặt cầu đơn vị như vậy sẽ ứng với một hình chiếu Xét một ví dụ trong trường hợp hỗn hợp trắng hóa của các thành phần độc lập có phân bố đều được minh họa trong hình 3.3 Chúng ta sẽ cố gắng tìm kiếm một vector w để cho mỗi tổ hợp tuyến tính hay hình chiếu wTx có cực đại tính phi Gauss, được minh họa ở trong hình 3.8 Trong trường hợp không gian hai chiều, chúng ta có thể tham số hóa một điểm trên mặt cầu bởi góc tương ứng với vector w hợp với trục ngang Kế đó, chúng ta vẽ kurtosis của wTz như là một hàm của góc, được minh họa trong hình 3.9 Đồ thị này cho thấy kurtosis luôn luôn âm, và đạt cực tiểu xấp xỉ tại các điểm ứng với 1 và 2.6 radians Những vị trí này tương ứng sẽ làm cho giá trị tuyệt đối của kurtosis đạt cực đại Ta có thể đối chiếu với hình 3.8 để thấy được rằng đáp ứng với những vị trí này sẽ là các biên của hình vuông,

và vì vậy chúng sẽ cho ta các thành phần độc lập

Định dạng
Số trang	146
Dung lượng	1,98 MB