1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích dữ liệu nhiều chiều với bài toán khôi phục mù

89 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dữ Liệu Nhiều Chiều Với Bài Toán Khôi Phục Mù
Tác giả Phan Anh Huy
Người hướng dẫn PGS.TSKH Nguyễn Kim Sách, PGS.TS Vũ Đình Thành, TS Nguyễn Như Anh
Trường học Đại Học Quốc Gia Tp. Hồ Chí Minh - Trường Đại Học Bách Khoa
Chuyên ngành Kỹ thuật vô tuyến và điện tử
Thể loại Luận văn thạc sĩ
Năm xuất bản 2005
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 89
Dung lượng 1,98 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

- Giải quyết bài toán khôi phục mù với tín hiệu âm thanh bằng kỹ thuật thuật phân tích thống kê, tìm và tách được các tín hiệu ban đầu từ hỗn hợp tín hiệu với số cảm biến ít hơn số nguồn

Trang 1

Đại Học Quốc Gia Tp Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

PHAN ANH HUY

PHÂN TÍCH DỮ LIỆU NHIỀU CHIỀU VỚI

BÀI TOÁN KHÔI PHỤC MÙ

Chuyên ngành: Kỹ thuật vô tuyến và điện tử Mã số ngành: 2.07.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 07 năm 2005

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : PGS.TSKH Nguyễn Kim Sách

Cán bộ chấm nhận xét 1 : PGS.TS Vũ Đình Thành

Cán bộ chấm nhận xét 2 : TS Nguyễn Như Anh

Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm

Trang 3

Đại Học Quốc Gia Tp Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập – Tự Do – Hạnh Phúc

-NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên : .PHAN ANH HUY Phái : Nam

Ngày, tháng, năm sinh : 01-07-1979 Nơi sinh : Đà nẵng

Chuyên ngành : .Kỹ thuật vô tuyến và điện tử Mã số: 2.07.01

I- TÊN ĐỀ TÀI : Phân Tích Dữ Liệu Nhiều Chiều Với

Bài Toán Khôi Phục Mù

II- NHIỆM VỤ VÀ NỘI DUNG : - Giải quyết bài toán khôi phục mù với tín hiệu âm thanh bằng kỹ thuật thuật phân tích thống kê, tìm và tách được các tín hiệu ban đầu từ hỗn hợp tín hiệu với số cảm biến ít hơn số nguồn phát

- Thực nghiệm và đánh giá kết quả theo các tiêu chí khách quan và chủ quan

III- NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương ):

IV- NGÀY HOÀN THÀNH NHIỆM VỤ (Ngày bảo vệ luận án tốt nghiệp):

V- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN (Ghi đầy đủ học hàm và học vị) :

PGS.TSKH NGUYỄN KIM SÁCH

VI- HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 1 (Ghi đầy đủ học hàm và học vị) :

PGS.TS VŨ ĐÌNH THÀNH

VII- HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 2 (Ghi đầy đủ học hàm và học vị) :

TS NGUYỄN NHƯ ANH

(Ký tên và ghi rõ họ, tên, học hàm và học vị) Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

Ngày tháng 07 năm 2005

Trang 4

LỜI CẢM ƠN

Luận văn được hoàn thành đúng vào ngày rất ý nghĩa với riêng cá nhân tôi: ngày 1 tháng 7 (năm 2005) Đây là trang sách được viết cuối cùng nhưng lại đặt ở

vị trí đầu tiên trang trọng trong luận văn Ở đó là sự bày tỏ tình cảm, lòng biết ơn chân thành đến những người đã hỗ trợ tôi hoàn thành luận văn nghiên cứu này Cảm ơn ba và mẹ Người đã luôn luôn quan tâm và lo lắng đến quá trình và kết quả học cũng như nghiên cứu của con mình Chỉ chừng ấy thôi nhưng tôi chắc rằng ba mẹ tôi đã hiểu là tôi đã hoàn tất luận văn và khóa học sau đại học Tôi đặc biệt may mắn khi được làm việc trong khoảng thời gian dài và liên tục cùng thầy giáo PGS.TSKH Nguyễn Kim Sách Tôi xin cảm ơn sự dìu dắt và hỗ trợ của thầy Xin cảm ơn những kinh nghiệm quý báu cùng với phong cách làm nghiên cứu nghiêm túc và khoa học của thầy Và nhất là cảm ơn thầy đã hai lần hướng dẫn tôi làm luận văn

Hơn bốn năm đại học và gần hai năm sau đại học, khoa điện điện tử trường đại học bách khoa TP.HCM như đã thành một địa điểm gắn bó và không quên Cảm ơn ban chủ nhiệm khoa điện-điện tử, bộ môn điện tử – viễn thông và các cán bộ phòng quản lý sau đại học trường

Tôi xin cảm ơn các giọng đọc mà tôi đã lấy làm dữ liệu mẫu, cảm ơn tư liệu của Đài Tiếng Nói Việt Nam Điều mà lẽ ra tôi phải xin phép trước khi sử dụng các nguồn âm này trong quá trình nghiên cứu

Cảm ơn các Giáo sư và các công trình nghiên cứu đăng trên các tạp chí khoa học Sự ủng hộ và chia xẻ kiến thức và kinh nghiệm trong khoa học của các chuyên gia đã giúp định hướng đúng cho đề tài

Và cuối cùng tôi xin cảm ơn đơn vị công tác, Trung Tâm Nghiên Cứu Ưùng Dụng Khoa Học Kỹ Thuật Truyền Hình Cảm ơn Ban Giám đốc đã tạo điều kiện cho tôi có điều kiện theo học và hoàn thành luận văn

TP HCM, ngày 01 tháng 07 năm 2005

PHAN ANH HUY

Trang 5

TÓM TẮT LUẬN VĂN

Luận văn đề cập đến một kỹ thuật phân tích thống kê nhiều chiều rất mạnh và còn hết sức mới mẻ: PHÂN TÍCH THÀNH PHẦN ĐỘC LẬP _ INDEPENDENT COMPONENT ANALYSIS và áp dụng trong bài toán phân tách nguồn mù: tìm và tách các tín hiệu nguyên bản từ tập các hỗn hợp tín hiệu Từ mô hình cơ sở với nhiều ràng buộc và giới hạn mà nhất là yêu cầu phân tích được với số tín hiệu hỗn hợp tối thiểu bằng số nguồn tín hiệu gốc (xem chương 2), bài toán được đặt ra và giải quyết ở đây mở rộng cho phép gỡ bỏ một phần các ràng buộc về quan hệ số tín hiệu nguồn và tín hiệu khảo sát, mà cái đích nhắm đến là giảm số cảm biến đến tối thiểu: chỉ cần 2 cảm biến

Tận dụng đặc tính “thưa” của tín hiệu, giải pháp đề nghị gồm hai bước khi tiến hành giải bài toán:

Bước 1: Ước lượng ma trận lai trộn sử dụng đặc trưng hình học của các vectơ

cột ma trận này trên miền biến đổi Mỗi cột định hướng cho phân bố tán xạ mỗi tín hiệu

Bước 2: Phân tách tín hiệu, tìm lại dạng nguyên bản từ hỗn hợp có sẵn sử dụng

kết quả ở bước 1 Giải bài tóan quy hoach tuyến tính với thuật tóan FOCUSS và dạng cải tiến của nó

Một kết luận mang ý nghĩa hết sức quan trọng và với kết luận này những vướng mắc về số lượng cảm biến hoàn toàn đựơc gỡ bỏ:

Luôn sử dụng được 2 cảm biến trong giải bài tóan phân tích mù, vấn đề là lựa chọn phép biến đổi đủ mạnh đưa tín hiệu sang miền thể hiện các đặc trưng mỗi nguồn riêng biệt tốt nhất

Trang 6

Mục Lục 6

MỤC LỤC

LỜI CẢM ƠN 4

TÓM TẮT LUẬN VĂN 5

MỤC LỤC 6

CHƯƠNG 1 11

PHÂN TÍCH THỐNG KÊ 11

NHIỀU CHIỀU 11

1.1 GIỚI THIỆU VẤN ĐỀ 11

1.1.1 Tính Cần Thiết Của Phân Tích Thống Kê 11

1.1.2 Phân tích thống kê _ tiến đến mô hình thông minh 12

1.1.3 Các kỹ thuật phân tích thống kê 13

1.1.4 Khả năng và tiềm năng của phân tích nhiều chiều 13

1.2 PHÂN TÍCH ĐA BIẾN:ICA 15

1.2.1 Tình hình nghiên cứu trên thế giới 19

1.2.2 Tình hình nghiên cứu trong nước 19

Trang 7

Mục Lục 7

1.3 NỘI DUNG NGHIÊN CỨU 20

1.3.1 Mục tiêu nghiên cứu 20

1.3.2 Nhiệm vụ nghiên cứu 21

1.3.3 Phương pháp nghiên cứu 21

1.3.4 Dự kiến kết quả nghiên cứu 21

1.3.5 Tiến độ thực hiện 22

1.4 CẤU TRÚC ĐỀ TÀI 22

CHƯƠNG 2 24

PHÂN TÍCH THÀNH PHẦN CHÍNH: CƠ SỞ & RÀNG BUỘC 24

2.1 ĐỊNH NGHĨA PHÂN TÍCH THÀNH PHẦN ĐỘC LẬP 24

2.1.1 Mô hình định nghĩa ICA cơ sở 24

2.1.2 Giới hạn trong ICA 25

2.1.3 Tính nhập nhằng (ambiguities) của ICA 26

2.2 MINH HỌA ICA 27

2.3 TRƯỜNG HỢP BIẾN GAUSS 29

2.4 KẾT LUẬN 31

CHƯƠNG 3 32

GIẢI HỆ TUYẾN TÍNH & VẤN ĐỀ LIÊN QUAN 32

3.1 PHÁT BIỂU BÀI TÓAN HỆ PHƯƠNG TRÌNH TUYẾN TÍNH 32

3.2 BÀI TÓAN BÌNH PHƯƠNG TỐI THIỂU 34

3.3 BIỂU DIỄN TÍN HIỆU THƯA VÀ BÀI TOÁN GIẢM THIỂU TIÊU HAO NHIÊN LIỆU 36

Trang 8

Mục Lục 8

3.3.1 Nghiệm xấp xỉ sử dụng phương pháp LS lặp 36

3.3.2 Thuật tóan FOCUSS 38

CHƯƠNG 4 41

BÀI TỐN KHƠI PHỤC MÙ 41

4.1 MÔ HÌNH TÍN HIỆU 41

4.2 CÁC MÔ HÌNH LAI TRỘN 42

4.2.1 Lai trộn tức thì 44

4.2.2 Trộn Có Trễ 45

4.2.3 Trộn có vang 45

CHƯƠNG 5 47

ƯỚC LƯỢNG THAM SỐ LAI TRỘN 47

5.1 LAI TRỘN TỨC THÌ 47

5.1.1 Xác Định Hướng Sử Dụng Đồng Hiệp Biến Dữ Liệu 47

5.1.2 Thuật tóan hình học 49

5.2 LAI TRỘN CÓ TRỄ 50

5.3 TRỘN CÓ VANG 52

CHƯƠNG 6 54

PHỤC HỒI TÍN HIỆU 54

6.1 PHÂN TÍCH TỨC THỜI 54

6.2 TIỀN XỬ LÝ THƯA VỚI BIẾN ĐỔI TUYẾN TÍNH KHẢ NGHỊCH 56

6.3 MÔ HÌNH GIẢI THUẬT CHUNG 59

Trang 9

Mục Lục 9

CHƯƠNG 7 60

THỰC NGHIỆM VÀ ĐÁNH GIÁ 60

7.1 ĐÁNH GIÁ 60

7.2 NGUỒN TÍN HIỆU MẪU 62

7.3 CÁC THỰC NGHIỆM 62

7.3.1 Thử nghiệm 1: ba nguồn âm và ba nguồn hỗn hợp 63

7.3.2 Thử nghiệm 2: ba nguồn âm và hai nguồn hỗn hợp 64

7.3.3 Thử nghiệm 3: ba nguồn âm và hai nguồn hỗn hợp 66

7.3.4 Thử nghiệm 4: ba nguồn âm và hai nguồn hỗn hợp 67

7.3.5 Thử nghiệm 5: ba nguồn âm và hai nguồn hỗn hợp 68

7.3.6 Thử nghiệm 6: ba nguồn âm và hai nguồn hỗn hợp 68

7.3.7 Thử nghiệm 7: bốn nguồn âm và hai nguồn hỗn hợp 69

7.3.8 Thử nghiệm 8: bốn nguồn âm và hai nguồn hỗn hợp 70

7.3.9 Thử nghiệm 9: bốn nguồn âm và hai nguồn hỗn hợp 71

7.3.10 Thử nghiệm 10: bốn nguồn âm và hai nguồn hỗn hợp 72

7.3.11 Thử nghiệm 11: năm nguồn âm và hai nguồn hỗn hợp 74

7.3.12 Thử nghiệm 12: bốn nguồn âm và ba nguồn hỗn hợp 75

7.4 KẾT LUẬN 76

7.4.1 Ma trận lai ghép 76

7.4.2 Tín hiệu phân tách 76

CHƯƠNG 8 78

Trang 10

Mục Lục 10

KẾT LUẬN 78

8.1 ĐÁNH GIÁ CHUNG 78

8.2 KHẢ NĂNG HÒAN THIỆN CỦA ICA? 81

TÀI LIỆU THAM KHẢO 84

CÁC BÀI BÁO & CÔNG TRÌNH 88

TÓM TẮT LÝ LỊCH TRÍCH NGANG 89

QUÁ TRÌNH ĐÀO TẠO 89

QUÁ TRÌNH CÔNG TÁC 89

Trang 11

Chương 1 11 Phân Tích Thống Kê Nhiều Chiều

Chương 1

PHÂN TÍCH THỐNG KÊ

NHIỀU CHIỀU

1.1 GIỚI THIỆU VẤN ĐỀ

1.1.1 Tính Cần Thiết Của Phân Tích Thống Kê

Mọi sự vật hoặc hiện tượng trong tự nhiên nói chung hay trong xã hội nói riêng đều không xuất hiện hoặc biến đổi đơn độc, mà đồng thời với sự xuất hiện và biến đổi của các sự kiện khác trong mối quan hệ tương tác, phụ thuộc và ảnh hưởng lẫn nhau vừa mang tính qui luật vừa mang tính ngẫu nhiên

Đối với nhiều người, khái niệm “thống kê” có vẻ như một khái niệm lỗi thời và kém sức quyến rũ và thậm chí nghi ngờ, các phân tích thống kê là những công cụ chỉ ra các sai lầm lớn nhất

Khảo sát đối tượng, đòi hỏi quan tâm đến tập hợp số liệu thu thập từ đối tượng, thể hiện thành các đám mây số liệu, các đám mây nói chung rất phức tạp, mù mịt trong không gian nhiều chiều Nhiệm vụ của phân tích dữ liệu nhiều chiều là xác định cách thể hiện hình ảnh hoặc các mối quan hệ giữa các biến, các cá thể một cách rõ ràng hơn và đơn giản nhất, hoặc kiểm nghiệm sự đúng đắn của mô hình liên hệ đã xây dựng, phân loại phân lớp các cá thể

Trang 12

Chương 1 12 Phân Tích Thống Kê Nhiều Chiều

Phân tích thống kê nghĩa là mô hình dữ liệu đa biến; tìm các cấu trúc ẩn có thể diễn tả các đánh giá bậc cao ở dạng nén (gọn) Chính vì lẽ đó đại số tuyến tính trở thành công cụ tóan cơ sở

Kỹ thuật hệ thống thường bắt đầu từ phân tích cấu trúc: các quá trình được chia thành nhỏ, kiến thức về quá trình sử dụng để tạo mô hình Tuy nhiên khi các quá trình trở nên phức tạp sẽ dẫn đến xây dựng mô hình tường minh rất khó khăn Phương pháp khác được thừa nhận trong trường hợp này là bắt đầu từ dưới lên thay vì khảo sát từ trên xuống; nghiên cứu hành vi quá trình và cố tìm các đặc trưng hệ thống qua các phép đo Dạng mô hình hệ thống định hướng dữ liệu

được nghiên cứu trong lĩnh vực chemometric

Lĩnh vực phân tích hệ thống ngày càng mở rộng, các bài tóan trở nên khó hơn, và lý thuyết sẽ không đủ đáp ứng theo kịp, chính vì vậy phân tích dữ liệu là cách xử lý duy nhất

Phương pháp phân tích thuộc nhóm này có quan hệ với nhiều lĩnh vực khác, trong đó có nhiều lĩnh vực nghiên cứu đang rất năng động, như máy học, nhận dạng đối tượng, phân tích mù, … Nhiều lĩnh vực tưởng chừng không có quan hệ lại phụ thuộc chặt chẽ vào xử lý hiệu quả và kiểm sóat số lượng lớn dữ liệu

1.1.2 Phân tích thống kê _ tiến đến mô hình thông minh

Bản thân môi trường quá trình khảo sát thay đổi nhanh Thông tin cần được xử lý bởi các công cụ hữu ích

Quản lý dữ liệu quá trình thông minh không chỉ có nghĩa ở các thuật giải mới nhất, mà còn đồng nghĩa với tính tóan thông minh Thông minh thực sự có nghĩa là các phương pháp thích hợp nhất trong các môi trường khác nhau; điều mà các phương pháp tuyến tính cũ không thực hiện được Trong các ứng dụng khác nhau và ở các cấp độ khác nhau, mô hình dữ liệu sẽ có cấu trúc rất khác nhau; hiểu đặc trưng dữ liệu là cách duy nhất để xác định mô hình thông minh và định hướng miền

Trong tương lai thiết bị phân tích dữ liệu thông minh phải có khả năng thao tác đánh giá dữ liệu mà không cần giám sát thêm Để tiến tới dạng tự động như vậy, cần thiết một công cụ phân tích dữ liệu hiệu quả; và các phương pháp thống kê đa biến chính là công cụ như vậy

Trang 13

Chương 1 13 Phân Tích Thống Kê Nhiều Chiều

1.1.3 Các kỹ thuật phân tích thống kê

Phân tích số liệu nhiều chiều tồn tại rất nhiều phương pháp với các cấp độ khác nhau:

- Cấp cao nhất: xác định cấu trúc Trong mô hình hệ thống thì xác định cấu trúc có thể xem là khó nhất: các kiến thức chung cần cho nhận dạng cấu trúc ẩn bên dưới dữ liệu đối tượng khảo sát Thông thường các đặc trưng của phân bố dữ liệu có thể dùng phát hiện, dò tự động cấu trúc ẩn này

Thuật tóan Phân Tích Thành Phần Độc Lập (ICA) là một trong số này;

giải thuật sẽ phân tích các hỗn hợp tuyến tính các vectơ thành các đặc trưng độc lập Ý tưởng là sử dụng các phân bố không chuẩn Các đặc trưng độc lập thường phản ánh các cấu trúc hệ thống bên trong

- Cấp vừa: cấu trúc được xem là đặc trưng dữ liệu

- Cấp thấp nhất: ước lượng tham số Hai cấp trên xem nghiên cứu đặc trưng thống kê của dữ liệu đánh giá bằng cách cố tìm cấu trúc của hệ thống Ở cấp này nhiệm vụ là xác định các tham số của mô hình dữ liệu Cụ thể từng phương pháp thì lại có rất nhiều, chẳng hạn phân tích phương sai, phân tích thành phần chính, phân tích nhân tố tương ứng, phân tích xấp xỉ, phân tích phân loại, phân đoạn, phân tích hồi quy, phân tích hiệp phương sai, phân tích thành phần độc lập, …

1.1.4 Khả năng và tiềm năng của phân tích nhiều chiều

Như đã đề cập lý do hiển nhiên của phân tích nhiều chiều, ở đây sẽ chỉ đưa

ra một trong các khả năng cụ thể khá nổi cộm mà phân tích đa biến đem lại:

- Nhận dạng đối tượng: vân tay, mặt ngừơi, vật thể, tiếng nói … trước đây phân tích thành phần chính đã tỏ ra khá hiệu quả trong lĩnh vực này

- Phân tích nguồn mù hay giải chập mù: tức là khôi phục tín hiệu gốc từ hỗn hợp mà biết rất ít hoặc không biết thông tin về nguồn gốc, chỉ dựa vào tín hiệu khảo sát Hay rõ hơn có thể phát biểu bài tóan như sau: tách hay ước lượng dạng sóng của tín hiệu gốc từ mảng các sensor hoặc transducer mà không biết đặc trưng của các kênh truyền dẫn Sơ đồ của hệ thống trong hình 1.1

Trang 14

Chương 1 14 Phân Tích Thống Kê Nhiều Chiều

Hình 1.1: Sơ đồ khối tổng quát phân tách tín hiệu mù

Phân tách mù trong đó giải thuật tiêu biểu chính là phân tích số liệu nhiều chiều: phân tích thành phần độc lập (ICA) Đây là một phép phân tích thống kê rất mới và vô cùng mạnh mẽ Việc đề cập giải thuật này sẽ được nhắc đến ở phần sau và cũng là một trong những hướng nghiên cứu chủ đạo của luận văn trong phân tích số liệu nhiều

- Ngòai ra là bài tóan trích thành phần đặc trưng, mà trong đó ICA cũng như PCA đã thể hiện tính hữu hiệu

Vậy phân tích đa biến sẽ đi đến đâu? Trả lời câu hỏi này chính là đưa ra tiềm năng mà phương pháp phân tích này đem lại Và như đã đưa ra trong phần đầu, cái đích cuối cùng là một hệ thống phân tích tự động, tự thích nghi với các thay đổi của môi trường, tự điều chỉnh các thông số và bản thân thuật giải thích hợp, tức là thông minh và mạnh mẽ Nhìn lại tại thời điểm này, phân tích số liệu nhiều chiều đa phần đều tập trung giải quyết với các phương pháp mô tả tuyến tính, mô hình cơ sở, như : chưa xét đến sự ảnh hưởng của nhiễu (hoặc có chăng cũng chỉ là nhiễu ở mức giới hạn công suất và số lượng nguồn nhiễu), giới hạn các nguồn chuẩn (như đối với phân tích ICA), bỏ qua các thay đổi của môi trường truyền dẫn (thực tế tham số môi trường thay đổi theo điều kiện tại mỗi thời điểm cụ thể), chưa xét đến tính dịch chuyển của nguồn tín hiệu (nhất là đối với các tín hiệu tiếng và hình), và giả thiết vẫn là mô hình hệ thống tức thì (chưa xét đến yếu tố trễ, trì hõan đồng thời hoặc không đồng thời của mỗi nguồn tín hiệu), chưa xét đến hiện tượng chồng tín hiệu (do phản xạ và khúc xạ trên

Trang 15

Chương 1 15 Phân Tích Thống Kê Nhiều Chiều

đường truyền), … Ngay cả trong mô hình phân tích vẫn còn ràng buộc điều kiện số cảm biến tối thiểu bằng số nguồn phát Điều này làm hạn chế rất nhiều các ứng dụng muốn triển khai kỹ thuật này Bởi trong thực tế số nguồn tín hiệu là rất nhiều còn số cảm biến là thiết lập trước trong môi trường Do đó điều kiện quan hệ lớn hơn bằng của số cảm biến so với số nguồn tín hiệu rất khó chấp nhận

Chỉ chừng đó các giả thiết cũng đủ cho thấy phân tích các phép phân tích dữ liệu nhiều chiều cần bước thêm những bước dài trong quá trình tiến đến hệ thống phân tích như mong đợi

Một số các hướng mở có thể như sau:

- Xét đến giả thiết các nguồn tín hiệu trong mô hình phi tuyến trong tổ hợp nguồn

- Xét đến giả thiết các nguồn là đa đạng không gauss, và có thể có nhiều nguồn gauss

- Xét đến giả thiết giảm thiểu số cảm biến mà vẫn cho kết quả tốt

- Xét đến hiện tượng trễ và chồng trập tín hiệu

- Xét đến môi trường có nhiễu

- Xét đến sự thay đổi các tham số hệ thống (truyền dẫn, tổng hợp …)

- Mở rộng số chiều tín hiệu, từ thành công với tín hiệu 1-D sang tín hiệu hình ảnh, video

- Tăng tốc độ xử lý với các thuật tóan tối ưu tính toán

- Giải quyết bài tóan đa phân giải trên tín hiệu với phân tích nhiều chiều (vì thực tế cảm nhận của chúng ta về thế giới thực có quan hệ đến tần số, theo từng dãi tần và có giới hạn băng tần)

1.2 PHÂN TÍCH ĐA BIẾN: ICA

Thử tưởng tượng tình huống đang ở trong một căn phòng có ba người phát biểu đồng thời (việc minh họa con số ba hòan tòan ngẫu nhiên, đó có thể một số bất kỳ lớn hơn một) Ta có trong tay ba microphone, và đặt chúng ở các vị trí

khác nhau Các microphone này thu ba tín hiệu thời gian, ký hiệu như sau x1(t),

x2(t) và x3(t), với x1, x2 và x3 là các biên độ và t là chỉ số thời gian Mỗi tín hiệu

thu được là tổng trọng số của các nguồn tiếng phát từ ba người kia, ký hiệu lần

lượt là s1(t), s2(t) và s3(t) Ta có thể biểu diễn thành phương trình tuyến tính:

Trang 16

Chương 1 16 Phân Tích Thống Kê Nhiều Chiều

(1.1) (1.2)

) ( )

( )

( )

(

) ( )

( )

( )

(

) ( )

( )

( )

(

3 33 2

32 1

31 3

3 23 2

22 1

21 2

3 13 2

12 1

11 1

t s a t s a t s a t x

t s a t s a t s a t x

t s a t s a t s a t x

+ +

=

+ +

=

+ +

Hình 1.2: Các tín hiệu âm gốc

Các âm gốc có dạng như biểu diễn hình 1.2, và các tín hiệu lai biểu diễn ở hình 1.3 Bài tóan ở đây là phục hồi lại các tín hiệu gốc (hình 1.2) mà chỉ sử dụng dữ liệu ở hình I.3

Thật ra nếu biết các hệ số lai a ij, ta dễ dàng giải được hệ phương trình tuyến tính (1.1) bằng cách lấy nghịch đảo Tuy nhiên điều đáng nói ở đây chính là

hòan tòan không biết đến a ij cũng như s i (t), vì vậy vấn đề trở nên rất khó khăn

Một giải pháp cho bài tóan này chính là sử dụng thông tin về đặc trưng

thống kê của các tín hiệu s i (t) ước lượng cả a ij (t) và s i (t) Khá ngạc nhiên và sự

Trang 17

Chương 1 17 Phân Tích Thống Kê Nhiều Chiều

thực là chỉ cần giả thiết s1(t), s2(t) và s3(t) là độc lập thống kê tại mỗi thời điểm

t Phân tích ICA có thể ước lượng a ij dựa vào thông tin độc lập, kết quả là cho

phép chúng ta phân tách ba tín hiệu gốc ban đầu, s1(t), s2(t) và s3(t) từ bản lai của chúng, x1(t), x2(t) và x3(t)

Hình 1.4 chỉ ra kết quả ước lượng theo phương pháp ICA Có thể nhận ra tín hiệu ước lượng rất giống với tín hiệu gốc (dấu tín hiệu có thể thay đổi, tuy nhiên không gây ảnh hưởng lớn) Nói chung mục đích của ICA chính là ước lượng tìm

ra các tín hiệu gốc từ tín hiệu hỗn hợp thu được, hình 1.5

Hình 1.3: Hỗn hợp lai ghép của các tín hiệu âm gốc trong hình 1.2

Trang 18

Chương 1 18 Phân Tích Thống Kê Nhiều Chiều

Hình 1.4: Các ước lượng của tín hiệu gốc chỉ sử dụng tín hiệu từ hình 1.3 Kết quả rất chính xác, chỉ lệch về biên độ

Hình 1.5: Mục đích của khôi phục tách nguồn mù là chỉ sử dụng tín hiệu hỗn hợp để tìm tín hiệu gốc

Trang 19

Chương 1 19 Phân Tích Thống Kê Nhiều Chiều

1.2.1 Tình hình nghiên cứu trên thế giới

Với sự thành công của phép phân tích ICA gần đây cùng với các phép phân tích khác và các biến thể của nó, phân tích dữ liệu nhiều chiều đã thu hút một lượng đáng kể các nhà nghiên cứu hàng đầu trong mọi ngành nghề (liên quan đến xử lý dữ liệu) Và phân tích số liệu nhiều chiều không còn là của riêng của ngành tóan xác suất và thống kê Mặc dầu vẫn mang trong mình nhiều nặng nề tóan học, nhưng rõ ràng rằng bằng sự kết hợp với xử lý tín hiệu số và các kết quả thuyết phục được công bố và giới thiệu thì nó lại mang sức quyến rũ khá mãnh liệt

Những năm cuối của thế kỷ XX đánh dấu bước phát triển mới của kỹ thuật này ICA thành công và workshop đầu tiên được tổ chức vào tháng 1.1999 tại Paris, lần thứ hai vào năm 2000 tại Phần Lan, Berlin 2003 Mới đây nhất là ICA

2004 (Granada-Spain) ICA và BSS trở thành một chủ đề chính tại các hội thảo, và đã có sự nghiên cứu kết hợp với các phép biến đổi mạnh như wavelet, pyramid [52, 53] Các kết quả tách mù và giải chập tín hiệu thời gian thực đã cho thấy những tương lai hứa hẹn cho phép phân tích dữ liệu nhiều chiều [60] Lĩnh vực nhận dạng mặt người dùng phân tích ICA lại một lần nữa nở rộ, thành công trong cả video Cũng trong chuỗi tín hiệu 3-D này, nghiên cứu về watermarking (cho image, video và cả audio) đã tập hợp không biết bao nhiêu công trình nghiên cứu Tuy nhiên lĩnh vực nổi cộm trong xử lý tín hiệu đó là: nén và khôi phục tín hiệu, thì phép phân tích nhiều chiều vẫn chưa tìm ra một kết quả thuyết phục So sánh khôi phục tín hiệu với các giải thuật trên wavelet và pyramid [59, 26], ngay cả phép phân tích mạnh như ICA vẫn chưa thể ngang bằng Tuy nhiên tiếng nói chung của ICA và phân tích đa phân giải sẽ giúp cho kết quả của hai phương pháp này mạnh hơn

Và điều đáng nói phân tích dữ liệu nhiều chiều mà cụ thể là ICA đang tạo nên một làn sóng nghiên cứu, ứng dụng giống như wavelet hay các nghiên cứu nén ảnh vào những năm thập niên 90 thế kỷ rồi

1.2.2 Tình hình nghiên cứu trong nước

Làn sóng ICA tạo nên cùng với sự chuyển mình của phân tích dữ liệu nhiều chiều trên tòan thế giới không thể không ảnh hưởng đến các nhà khoa học Việt Nam Giáo sư Pham Dinh-Tuan là một trong những chuyên gia hàng đầu của thế giới về lĩnh vực này Những công trình công bố của ông về lĩnh vực này xuất

Trang 20

Chương 1 20 Phân Tích Thống Kê Nhiều Chiều

hiện từ những năm 70 của thế kỷ XX Hiện nay ông vẫn tiếp tục nghiên cứu và cho ra những kết quả trong phân tách mù

Tuy nhiên thực tế trong nước hiện nay vấn đề này vẫn còn hạn chế, các luận văn nghiên cứu chưa đề cập đến mảng này, ngay cả ở ngành toán học và xử lý tín hiệu Mặc dù chúng ta đã có các giáo trình tóan về lĩnh vực này không ít [57], nhưng sự liên kết giữa tóan và xử lý số vẫn đang còn bỏ ngõ Kết quả là rất

ít các công trình nghiên cứu, ngay cả tại hội nghị Vô tuyến Điện tử REV 04 (hai năm một lần), vừa diễn ra tại Hà Nội trong hai ngày 27, 28 tháng 11 với quy mô tòan quốc và có ảnh hưởng quốc tế, vẫn có phân ban: IMAGE AND AUDIO PROCESSING, nhưng không hề có một bài viết nào liên quan phân tích dữ liệu nhiều chiều Tại các hội nghị khoa học ở Đại Học Bách Khoa Tp.HCM (tháng 5/2004) và Đại Học KHTN Tp.HCM gần đây nhất (tháng 10/2004) cũng tương tự, vẫn chưa có sự đầu tư cho lĩnh vực này

1.3 NỘI DUNG NGHIÊN CỨU

1.3.1 Mục tiêu nghiên cứu

Giải quyết mở rộng mô hình ICA, tháo bỏ dần các vướng mắc, ràng buộc khi thực hiện mô hình, ở đây chính là điều kiện về số cảm biến tối thiểu Kết quả nghiên cứu cho phép giảm thiểu tối đa số cảm biến đến mức có thể mà kết quả vẫn chấp nhận được, hiển nhiên là với số nguồn tín hiệu bất kỳ Điều khó

tin là con số cảm biến tối thiểu chấp nhận này lại gây bất ngờ hết sức: “CHỈ

CẦN 2 CẢM BIẾN” Đại đa số các trường hợp kết luận này đúng (xem kết luận

chương 8)

Bên cạnh đĩ là ứng dụng các thành công của phân tích dữ liệu nhiều chiều vào xử lý tín hiệu, mà cụ thể sẽ tập trung vào các phân tích thành phần chính, phân tích thành phần độc lập, phân tích nhân tố, … đối sánh tín hiệu, khôi phục tín hiệu

Trang 21

Chương 1 21 Phân Tích Thống Kê Nhiều Chiều

1.3.2 Nhiệm vụ nghiên cứu

Một hoặc nhiều trong các hướng mở đề ra trong mục 1.1.4 và ứng dụng của nó, trong đó tập trung vào phân tích đa biến ICA Đề cập đến các phần sau:

- Phân tích thành phần chính PCA (principal component analysis ): cách

giải quyết các bài tóan dữ liệu tuyến tính, cách áp dụng mô hình PCA vào hồi quy

- Phân tích thành phần độc lập ICA (independent component analysis), một

phương pháp mới và hứa hẹn trong phân tách cấu trúc của dữ liệu Đây sẽ là giải pháp chủ đạo, trọng tâm của đề tài trong giải quyết các bài tóan dữ liệu một chiều và nhiều chiều

- Các ứng dụng phức hợp, nghiên cứu mở rộng các mơ hình phân tách mù

1.3.3 Phương pháp nghiên cứu

• Nghiên cứu rõ bản chất và cơ sở tóan của phép phân tích đa biến (PCA, ICA, FA, …) và các ứng dụng có thể của chúng

• Liên hệ với các chuyên gia trong và ngòai ngành, quốc tế

• Xây dựng giải pháp, thuật tóan và thực nghiệm đối với tín hiệu 1-D đánh giá khách quan, chủ quan

• Viết báo cáo khoa học

1.3.4 Dự kiến kết quả nghiên cứu

Các kết quả tự thử nghiệm với phân tích đa biến ICA cho lai ghép tín hiệu 1-D, trong điều kiện mô hình ảo, cho thấy kết quả cực kỳ tốt Việc triển khai trong môi trường thực sẽ gặp các thay đổi trong môi trường, trễ, … điều này ảnh hưởng đến hiệu suất tách nguồn Tuy nhiên dự báo kết quả khả quan bằng cách hiệu chỉnh mô hình cơ sở

Đánh giá khách quan cho vấn đề này cực kỳ phức tạp do tín hiệu tìm được chỉ đạt được gần đúng về mặt dạng sóng Tuy nhiên, kết quả của đánh giá chủ quan và khách quan sẽ là thước đo cho công việc

Trang 22

Chương 1 22 Phân Tích Thống Kê Nhiều Chiều

1.3.5 Tiến độ thực hiện

Kế hoạch thực hiện luận văn dự kiến

- 2/2005 – 3/2005: Thử nghiệm các thay đổi trong mô hình phân tích mù, ICA, thay đổi trong môi trường

- 3/2005 – 4/2005: tiếp tục thực hiện như trên, nhưng có sự chuyển đổi với

cố gắng gỡ bõ bớt càc ràng buộc của ICA: giảm thiểu số nguồn

- 4/2005 – 5/2005: tận dụng đặc trưng thưa của tín hiệu giải quyết bài tốn phân tách mù số cảm biến ít thua số nguồn phát

- 5-2005 – 6/2005: thực hiện các giải pháp cải thiện kết quả, sử dụng các phép biến đổi thưa

- 6/2005 - 7/2005: hòan chỉnh luận văn, chương trình, chuẩn vị bảo vệ

1.4 CẤU TRÚC ĐỀ TÀI

Chương 1: Giới thiệu kỹ thuật phân tích thống kê nhiều chiều, xu hướng tất yếu của xử lý tín hiệu, điểm hội tụ của nhiều lĩnh vực năng động (máy học, điều khiển, nhận dạng, …) Mô hình thông minh là cái đích của các hệ thống nhắm đạt đến mà công cụ duy nhất khẳng định đựơc là phân tích thống kê đa biến Trong đó một phép phân tích có sức mạnh và sức hấp dẫn mãnh liệt đang thu hút rất nhiều công trình nghiên cứu, và kết quả của công cụ này hết sức thuyết phục: phân tích thành phần độc lập Một loạt các khả năng và tiềm năng của phân tích dạng này đựơc gợi mở và đó là nguồn nghiên cứu khai thác không cạn Và cuối cùng là nội dung nghiên cứu của đề tài

Chương 2: Mô tả phương pháp phân tích thành phần độc lập, mô hình, sức mạnh và đi kèm là các ràng buộc khi thực hiện mô hình Những điều kiện tuân thủ đối với phương pháp làm vướng víu và khiến nhiều nhà nghiên cứu bận tâm phá vỡ các rào cản này

Chương 3: Điều không thể thiếu là công cụ toán học thiết yếu, làm cơ sở cho các mở rộng và phương pháp nghiên cứu trong toàn bộ đề tài Ở đây chính là khảo sát giải bài toán hệ các phương trình tuyến tính với nhiều dạng ma trận đặc trưng hệ (vuông và không vuông) Các phương pháp giải này sẽ được sử dụng trong bước tái tạo tín hiệu nguyên bản, chương 6

Trang 23

Chương 1 23 Phân Tích Thống Kê Nhiều Chiều

Chương 4: Phát biểu lại bài toán cơ sở của phân tích thành phần độc lập, nhưng đựơc tổng quát hóa và phân biệt từng trường hợp: lai trộn tức thời, lai trộn có trễ và suy hao, lai trộn có vang (dội) Mô hình này đựơc thống nhất trong suốt quá trình giải quyết đề tài

Chương 5: Bài toán được giải qua hai bước, và chương này là bước thứ

nhất: ước lượng hệ số ma trận lai ghép Â Ý tưởng cơ bản là dựa trên cấu

trúc hình học của vectơ hướng trên phân bố tín hiệu trong đồ thị tán xạ hỗn hợp lấy từ các cảm biến Trong đó các nguồn được giả thiết là thưa Mỗi hướng đặc trưng bởi vectơ cột của ma trận lai Tìm đựơc ma trận này xem như đã đi được 50% bài toán Và đây chính là điểm quan trọng trong giảm thiểu số nguồn thu Nếu để ý phương pháp này không phụ thuộc số cảm biến, và điều đó có nghĩa giảm số cảm biến đến tối thiểu là điều trong tầm tay (con số cụ thể sẽ tuỳ thuộc ứng dụng và vào chất lượng tín hiệu lấy ra) Tuy nhiên ta luôn kỳ vọng chỉ cần sử dụng hai cảm biến Con số quá ít đến dưới mức bất ngờ Kết quả này đã góp phần tháo gỡ phần nào giới hạn của mô hình ICA

Chương 6: Ước lượng được ma trận lai ghép thì bài toán phân tách mù trở thành giải hệ tuyến tính như đề cập trong chương 3 Vấn đề là cần tìm đựơc nghiệm đảm bảo với hệ không vuông (số biến nhiều hơn số phương trình) Bài toán phát biểu lại rất gần dạng của bài toán tối ưu tuyến tính Chình vì vậy quy hoạch tuyến tính được sử dụng (đây là một công cụ toán khá mạnh) Và để đảm bảo bài toán đạt tỷ lệ thành công cao với đa dạng tập dữ liệu, một số biện pháp được đưa ra nhằm tăng đặc trưng thưa của tín hiệu Phương pháp ở đây là chuyển tín hiệu sang miền có đặc trưng thưa cao bằng các phép biến đổi thích hợp (Fourier, wavelet, …) Tức là toàn bộ quá trình phân tách tín hiệu lúc này thực hiện trong miền biến đổi Kết quả sau đó chuyển về miền tín hiệu ban đầu

Chương 7: Thực hiện một loạt các thử nghiệm với bài toán ICA trong nhiều trường hợp xét đến mối liên hệ giữa số cảm biến và số nguồn tín hiệu, đồng thời là ma trận lai ghép, và có thay đổi các dạng tín hiệu mẫu Thử nghiệm tập trung trong tín hiệu âm thanh Kết quả cho phép kết luận tính hữu hiệu của giải pháp và hướng đi đúng của đề tài Một số chỉ tiêu đánh giá khách quan đựơc đề cập cho cả hai bước thực hiện Tuy nhiên bản thân người thực hiện vẫn đánh giá cao kiểm tra chủ quan dựa trên dạng sóng và khả năng phân biệt âm thanh của từng nguồn

Chương 8: Phần kết luận cho toàn bộ đề tài và đặt vấn đề cho các hướng phát triển nghiên cứu

Trang 24

Chương 2 24 Phân Tích Thành Phần Chính

Chương 2

PHÂN TÍCH THÀNH PHẦN CHÍNH:

CƠ SỞ & RÀNG BUỘC

Mô tả phương pháp phân tích thành phần độc lập ICA (Independent Component Analysis), mô hình, sức mạnh và đi kèm là các ràng buộc khi thực hiện mô hình cũng như tính chính xác của nó Những điều kiện tuân thủ đối với phương pháp làm vướng víu và khiến nhiều nhà nghiên cứu bận tâm phá vỡ các rào cản này

2.1 ĐỊNH NGHĨA PHÂN TÍCH THÀNH PHẦN ĐỘC LẬP

2.1.1 Mô hình định nghĩa ICA cơ sở

Khảo sát n biến ngẫu nhiên x1(t), …, x n (t) là tổ hợp tuyến tính của n biến ngẫu nhiên s1(t), …, s n (t):

n in i

i

x = 1 1+ 2 2+ + , với mọi i = 1, …, n (2.1)

trong đó a ij , i, j = 1, …, n là các hệ số thực Tín hiệu ngẫu nhiên x i được tạo thành

từ hỗn hợp trộn các thành phần độc lập s j Tất cả thông tin có được chỉ là các

biến ngẫu nhiên x i , và chúng ta phải ước lượng tìm cả các hệ số lai trộn a ij lẫn tín

hiệu gốc s i

Chỉ số thời gian t được bỏ qua do ta có thể xem mỗi thành phần lai x i cũng

như mỗi thành phần độc lập s j là một biến ngẫu nhiên, thay vì là một tín hiệu thời gian hay chuỗi thời gian Với công thức (2.1) mô hình đã bỏ qua các sai lệch

Trang 25

Chương 2 25 Phân Tích Thành Phần Chính

về trễ và vang dội Vì vậy đôi khi có thể gọi đây là mô hình lai ghép đơn giản (cơ sở) nhất

ICA rất gần với bài toán phân tách nguồn mù BSS (blind source separation) hoặc phân tách tín hiệu mù (blind signal separation) Mù “blind” có nghĩa là chúng ta biết rất ít về ma trận lai trộn, và các giả thiết về tín hiệu nguồn hầu như không đáng kể

Để thuận tiện ta sử dụng các ký hiệu vectơ – ma trận thay cho tổng ở các

phương trình trên Đặt x là vectơ ngẫu nhiên mà mỗi phần tử là hỗn hợp x 1 , …, x n,

và tương tự cho s là vectơ ngẫu nhiên với các phần tử s 1 , …, s n Đặt A là ma trận

các phần tử a ij Theo đó mô hình lai ghép được viết lại như sau:

Đôi khi chúng ta cần sử dụng biễu diễn dạng cột của ma trận A, ký hiệu là

aj , lúc này mô hình được viết lại như sau:

=

= n

i i

2.1.2 Giới hạn trong ICA

Để đảm bảo mô hình ICA cơ sở luôn có thể ước lượng được cần tuân theo một số giả thiết và giới hạn sau:

1 Các thành phần độc lập được xem là độc lập thống kê

Đây chính là nguyên tắc của ICA Cơ bản thì các biến ngẫu nhiên y1, y2, …,

y n được gọi là độc lập khi thông tin giá trị của y i không chứa bất kỳ thông tin

thông tin giá trị của y j với i j Về mặt kỹ thuật, độc lập được định nghĩa thông

qua mật độ xác suất Đặt p(y1, y2, …, y n) là hàm mật độ xác suất đồng thời (pdf)

của y i , và p i (y i ) là hàm mật độ lề của y i Phát biểu y i là độc lập khi và chỉ khi hàm mật độ xác suất đồng thời đồng thời có thể được phân tích như sau:

(y y y n) p ( ) ( ) ( )y p y p n y n

Trang 26

Chương 2 26 Phân Tích Thành Phần Chính

2 Các thành phần độc lập phải có phân bố phi gauss

Một lẽ là các tích lũy bậc cao của phân bố Gauss bằng không, trong khi các thông tin bậc cao này lại rất cần thiết cho mô hình ICA Vì vậy các biến khảo sát có phân bố gauss chịu nhiều hạn chế trong bài tóan ICA Trường hợp các thành phần Gauss được đề cập trong mục 3.3

3 Ma trận lai là vuông

Điều này giới hạn số các thành phần độc lập tương đương với số các hỗn hợp khảo sát (hay chính là số cảm biến) tối thiểu bằng số nguồn phát Trong thực tế số nguồn tín hiệu là thay đổi và có thể rất nhiều, còn số cảm biến gần như là xác định trước, và có thể nói là ít Do đó điều kiện quan hệ lớn hơn bằng của số cảm biến so với số nguồn tín thiệu rất khó chấp nhận Bên cạnh đó ma

trận lai A chịu giới hạn giả thiết khả nghịch

2.1.3 Tính nhập nhằng (ambiguities) của ICA

Dễ dàng nhận thấy mô hình ICA (2.1) có một số hạn chế như sau:

1 Không thể xác định chính xác phương sai (năng lượng) của các thành phần độc lập

Nguyên nhân chính là do cả hai s và A đều không biết trước, bất kỳ một

phép nhân vô hướng với một trong các nguồn s i luôn bỏ qua được nhờ phép chia

cột ai tương ứng với cùng hệ số gọi là α i:

2 Không thể xác định thứ tự của các thành phần độc lập

Trang 27

Chương 2 27 Phân Tích Thành Phần Chính

Lý do chính là ta có thể thay đổi tùy ý trật tự các thành phần trong tổng

(2.3) Thật vậy, gọi P là ma trận giao hoán và nghịch đảo của ma trận này được thay vào mô hình như sau: x = AP-1Ps Các phần tử của Ps chính là các biến độc lập ban đầu nhưng thay đổi trật tự Ma trận AP-1 là một ma trận lai mới, tìm được qua thuật giải ICA

2.2 MINH HỌA ICA

Thực hiện bài toán ICA với hai biến ngẫu nhiên độc lập trung bình bằng không và phương sai đơn vị tuân theo phân bố đều [27]:

nếu,

0

3,

32

1)

10 5

A Như vậy về nguyên tắc có thể giải bài toán ICA thông qua định vị các biên

của hàm mật độ đồng thời của x1 và x2

Thực hiện ví dụ trên với các nguồn độc lập có kiểu phân bố khác, phân bố siêu gauss (supergaussian) (hàm pdf có đỉnh nhọn tại không) Phân bố lề của một thành phần loại này cho trong hình 2-3 Mật độ đồng thời của các biến ngẫu nhiên độc lập nguồn cho trong hình 2-5, và của hỗn hợp được cho trong hình 2-6

Dựa vào đồ thị ta cũng có thể xác định lại ma trận lai ghép  từ hai hướng của

vectơ qua tâm

Trang 28

Chương 2 28 Phân Tích Thành Phần Chính

Hình 2-1: Phân bố đồng thời của hai

biến độc lập s1 và s2 phân bố đều

Hình 2-2: Phân bố đồng thời hai biến thu từ các nguồn độc lập phân bố đều

Hình 2-3: Mật độ của một thành phần độc lập phân bố siêu gauss

Hình 2-4: Phân bố đồng thời của hai

biến độc lập siêu gauss s1 và s2

Hình 2-5: Phân bố đồng thời hai biến thu từ các nguồn độc lập siêu gauss

Trang 29

Chương 2 29 Phân Tích Thành Phần Chính

2.3 TRƯỜNG HỢP BIẾN GAUSS

Xét bài tóan hai nguồn phân bố gauss có hàm mật độ pdf đồng thời cho bởi:

12

exp2

1,

2 2

2 2 1 2

1

s

π π

s s s

s

Giả sử ma trận lai A là trực giao Sử dụng công thức biến đổi pdf cổ điển và để ý ma trận trực giao A-1 = AT , ta nhận được mật độ đồng thời của hỗn hợp x1và x2 như sau:

( ) A x detA

2

exp2

1,

Do A trực giao, ta có 2 2

x x

AT = và |det A| = 1; lưu ý là A trực giao thì AT

cũng trực giao Suy ra:

1,

2

2 1

x

π s

s

và ma trận lai trộn trực giao không làm thay đổi dạng pdf Các phân bố gốc và lai hợp rất giống nhau Vì vậy không có cách nào có thể tìm ra ma trận lai từ hỗn hợp

Hình 2-6: Phân bố đồng thời của hỗn hợp các thành phần độc lập phân bố trắng

s 2

s 1

Trang 30

Chương 2 30 Phân Tích Thành Phần Chính

Hình 2-7: Phân bố đa chiều của hai biến gauss độc lập

Hiện tượng ma trận lai trực giao không thể ước lượng được đối với các biến gauss có liên hệ đến tính chất các biến gauss không tương quan hiển nhiên độc lập; tức là thông tin độc lập của các thành phần không cho thông tin gì hơn Về mặt đồ thị ta có thể nhận ra hiện tượng này qua hình vẽ phân bố các hỗn hợp trực giao, sự thật là rất giống với phân bố của các thành phần độc lập, minh họa trong hình 2.7 Hình vẽ chỉ ra rằng mật độ là đối xứng quay Do đó nó sẽ

không chứa bất kỳ thông tin về các hướng cột của ma trận lai A Đây chính là nguyên do A không thể xác định được

Do đó trong trường hợp các thành phần độc lập gauss, ta chỉ có thể xác định mô hình ICA đến biến đổi trực giao Nói cách khác không thể xác định ma trận

A cho các thành phần độc lập gauss Trường hợp này không thể làm gì hơn ngoài

trắng hóa dữ liệu

Một vấn đề phát sinh khi mô hình ICA với một số thành phần là gauss và số khác là phi gauss Trường hợp này ta có thể xác định tất cả các thành phần phi gauss, nhưng các thành phần gauss thì không thể tách rời chúng ra Nói cách khác, vài trong số các thành phần ước lượng sẽ là tổ hợp tuyến tính bất kỳ của các thành phần gauss

s 2

s 1

Trang 31

Chương 2 31 Phân Tích Thành Phần Chính

Trang 32

Chương 3 32 Giải Hệ Tuyến Tính

Chương 3

GIẢI HỆ TUYẾN TÍNH &

VẤN ĐỀ LIÊN QUAN

Kỹ thuật phân tách nguồn mù có liên hệ mật thiết đến bài toán giải hệ tuyến tính các phương trình đại số Biểu diễn dạng ma trận mô hình thu tín hiệu trộn cho thấy đây thực chất là một bài tóan giải hệ phương trình Phương pháp và

kết quả phụ thuộc nhiều vào dạng của ma trận lai ghép A Một cách tổng quát

có ba dạng hệ tuyến tính, và trong các ứng dụng xử lý tín hiệu nói chung ta tập trung hai dạng: overdetermined (hệ quá xác định) và underdetermined (hệ dưới xác định) Hệ quá xác định mô tả các bài tóan lọc, nâng cao chất lượng, giải chập và nhận dạng, trong khi hệ dưới xác định mô tả các bài tóan ngược và ngoại suy Chương này sẽ trình bày cách giải quyết các hệ tuyến tính quá hoặc dưới xác định, đặc biệt khi các giá trị tham số không xác định

3.1 PHÁT BIỂU BÀI TÓAN HỆ PHƯƠNG TRÌNH TUYẾN TÍNH

Giả sử rằng ta cần giải một tập lớn các phương trình đại số tuyến tính viết theo dạng vô hướng như sau:

) , , 2 , 1 ( ,

1

m i

x s

n

j j

=

(3.1) hoặc theo dạng ma trận

Trang 33

Chương 3 33 Giải Hệ Tuyến Tính

ở đây, s là vectơ n chiều không biết, x là vectơ đánh giá hoặc cảm biến m chiều và A = [a ij ] là ma trận thực m × n Với lưu ý một cách tổng quát số phương trình

ở đây không nhất thiết m = n; có thể nhỏ hơn, bằng hoặc lớn hơn số biến, tức là

các thành phần của s Nếu m < n, hệ phương trình được gọi là dưới xác định, và

nếu m > n hệ được gọi là quá xác định Hiển nhiên, một hệ phương trình có thể

có nghiệm duy nhất s *, vô số nghiệm hoặc không tồn tại nghiệm chính xác Trong thực tế với bài tóan ước lượng tuyến tính, một hệ phương trình tuyến tính (quá xác định) được phát biểu ở dạng tổng quát hơn

với A = [a ij] ∈ℜm×n là mô hình ma trận, x ∈ℜm là vectơ khảo sát hoặc đánh giá,

e ∈ ℜn là vectơ nhiễu không biết hoặc sai số đánh giá, xtrue∈ℜm là vectơ giá trị

thật nhưng chưa biết giá trị, s ∈ℜn là vectơ các tham số hệ hoặc các nguồn được ước lượng Từ cách nhìn thực tế, luôn luôn mong muốn tìm nghiệm (cực tiểu

chuẩn) s*, nếu tồn tại nghiệm, hoặc tìm nghiệm xấp xỉ càng gần với giá trị gốc càng tốt, tuân theo một đánh giá tối ưu phù hợp nếu không tồn tại nghiệm chính xác Bài tóan có thể được phát biểu thành bài tóan tối ưu

Xác định vectơ s∈ℜn cực tiểu hàm mục tiêu vô hướng

J

p p

ở đây vectơ sai số e đối với vectơ cho trước s

m s e s e s

s a x

x s e

n

j j ij i

T i i

Trang 34

Chương 3 34 Giải Hệ Tuyến Tính

n p

As x As s

Với bài tóan tối ưu (3.4), có ba dạng đặc biệt quan trọng như sau:

(a) Với p = 1, bài tóan liên hệ với bài tóan độ lệch tuyệt đối tối thiểu (LAD)

Việc lựa chọn chính xác chuẩn tùy thuộc vào các ứng dụng cụ thể và phân bố sai

số trong dữ liệu x

Trong một vài ứng dụng, với m ≤ n, bài tóan tối ưu tổng quát hơn được xem xét

như cực tiểu chuẩn p của vectơ sai số e(s) = x – As tuân theo ràng buộc tuyến

tính cho bởi

), , , 2 , 1 ( ,

), , , 1 ( ,

), , , 2 , 1 ( ,

n j

b s a

k l

i u

l i

u

j j j

i T i i T i

K K K

với ci = [ci1, ci2,…, cin]T , u i , a j và b j là các tham số cho trước

3.2 BÀI TÓAN BÌNH PHƯƠNG TỐI THIỂU

Bài tóan bình phương tối thiểu tuyến tính (LS) là trường hợp đặc biệt của bài tóan bình phương tối thiểu phi tuyến (NLS), là cơ sở cho phân tích Fourier, giải chập, tương quan, ước lượng tham số tối ưu trong nhiễu Gauss, dự dóan tuyến tính và nhiều phương pháp xử lý tín hiệu khác

Bài tóan bình phương tối thiểu tuyến tính kết hợp với bài toán (3.4) có thể phát biểu như sau:

Xác định vectơ s∈ℜn làm cực tiểu hàm mục tiêu (năng lượng)

(3.9)

Trang 35

Chương 3 35 Giải Hệ Tuyến Tính

T

e J

1 2

2 2

2

12

1

2

12

1

e e

As x As x As

x s

T i i

e

1

s a

Nghiệm của bài tóan LS có thể chia thành ba nhóm

(i) An×n , rank[A] = n = m (trường hợp xác định): nghiệm duy nhất

s* = A-1 x tồn tại với J(s*) = 0, (3.13)

(ii) Am×n , rank[A] = n < m (trường hợp quá xác định): tổng quát

nghiệm bài tóan (3.2) không tồn tại, nhưng nghiệm sai số bình phương tối thiểu có thể biểu diễn duy nhất

s* = (AT A)-1 AT x = A+ x, (3.14) với

( ) ( ) 0,2

1

trong đó A+ là giả nghịch đảo Moore-Penrose,

(iii) Am×n , rank[A] = n > m (trường hợp dưới xác định): nghiệm của

(3.2) không duy nhất, nhưng có thể tìm được nghiệm duy nhất qua cực tiểu chuẩn 2

s* = AT( A AT)-1 x = A+ x, (3.16)

(3.10)

Trang 36

Chương 3 36 Giải Hệ Tuyến Tính

và do đó giá trị của chuẩn:

( )AA x x

Đối với một số trường hợp nghịch đảo trực tiếp ma trận AT A có thể dẫn đến

sai số, không chấp nhận được Việc ước lượng lúc này cần giải thuật mạnh hơn

3.3 BIỂU DIỄN TÍN HIỆU THƯA VÀ BÀI TOÁN GIẢM THIỂU TIÊU HAO NHIÊN LIỆU

Giải hệ phương trình dưới xác định có thể phát biểu thành bài tóan tối ưu có điều kiện như sau:

Cực tiểu

p p

thỏa điều kiện

trong đó A ∈ℜm × n (với m < n) Đối với chuẩn 2, bài tóan được gọi là tìm nghiệm

nặng lượng cực tiểu trong khi đó với chuẩn vô cùng lại được gọi là nghiệm biên

độ cực tiểu Trường hợp p = 1, bài tóan đưa ra biểu diễn thưa của vectơ s và được

gọi là nghiệm với nhiên liệu cực tiểu

Bài tóan thành phần cực tiểu có liên hệ gần với biểu diễn tín hiệu overcomplete và bài tóan chọn cơ sở tốt nhất [32, 9]

3.3.1 Nghiệm xấp xỉ sử dụng phương pháp LS lặp

Một cách trực quan để tìm nghiệm với số thành phần tối thiểu, tức là khả

năng biểu diễn thưa của vectơ s, ta cần lựa chọn tối ưu các cột của ma trận A

Trang 37

Chương 3 37 Giải Hệ Tuyến Tính

Thuật tóan xấp xỉ nghiệm thưa

Bước 1 Ước lượng nghiệm cực tiểu chuẩn 2 của bài tóan (3.19)

Bước 2 Ước lượng các thành phần còn lại của vectơ s1:

r r T r

Với Ar ∈ ℜm × n (r ≥ m) là ma trận nhận được bằng cách loại bỏ một

số cột có biên độ nhỏ nhất từ A và s1r∈ℜr

Bước 3 Lặp lại bước 1 và 2 cho đến khi có ít nhất (n – m) hoặc số xác định

trước các cột trong ma trận A

Thuật toán được minh họa qua ví dụ đơn giản sau đây

Khảo sát bài tóan nhiên liệu cực tiểu: cực tiểu s1 thỏa điều kiện A s = x

1 3 8 35 15 8 2 2 1

1 1 9 44 21 10 1 3 2

037 0 222 0 9373 0 022 2 795 0 302 0 104 0 086 0 131

.

0

1 2

Trang 38

Chương 3 38 Giải Hệ Tuyến Tính

không và loại bỏ các cột tương ứng (tức là [1, 2, 3, 4, 8, 9]) của ma trận A, ta sẽ

8 35 15

9 44 21

r

A

Bước tiếp theo ta tính các thành phần còn lại của vectơ s1

[ ]T r

3.3.2 Thuật tóan FOCUSS

Một thuật tóan khác giải bài tóan thành phần nghiệm tối thiểu, được gọi là FOCUSS (FOCal Underdetermined System Solver) Gorodnitsky và Rao [29] đề xuất và được mở rộng và tổng quát hóa bởi Kreutz-Delgado và Rao

Ta xét bài tóan tối ưu có ràng buộc sau [32, 8, 9]

với hàm mục tiêu J ρ(s) có thể trong các dạng sau [9]

1 Đánh giá chuẩn p tổng quát

J

1

sign )

với p 1

2 Đánh giá Gauss entropy

Trang 39

Chương 3 39 Giải Hệ Tuyến Tính

()

J

1

~ log

~ )

( )

p H

J

1

~ log 1

1 ) ( )

với ~s j = s j / s1và p ≠ 1

Để ý với trường hợp p = 1, ta nhận được phát biểu bài tóan thành phần tối thiểu trong đó có ít nhất (n- m) thành phần bằng không Chọn các đánh giá trên

cho phép đạt được nghiệm thưa hơn so với nghiệm cực tiểu chuẩn 1 (tức là có

hơn (n –m) phần tử trong vectơ s bằng không) Hơn thế nữa, các nghiệm này tỏ

ra mạnh với nhiễu cộng Các đánh giá dựa trên chuẩn âm hoặc (Gauss, Shannon

và Renyi) entropy, đảm bảo số lượng lớn các phần tử s j mang giá trị rất nhỏ, có thể biên độ không bằng không Trong trường hợp này chỉ cần sử dụng một giá trị ngưỡng đủ nhỏ nhằm thiết lập các giá trị dưới ngưỡng bằng không

Để cực tiểu đánh giá chuẩn p J ρ(s) trong (3.22), thỏa điều kiện A s = x, ta

định nghĩa tóan tử Lagrange L(s, λ) như sau

L(s, λ) = J ρ(s) + λ( x - A s), (3.28)

với λ ∈ℜn là vectơ nhân tử Lagrange

Các điểm dừng của hàm Lagrange xác định như sau:

s L(s* λ *) = ∇s J ρ(s) - ATλ * = 0, (3.29)

λ L(s* λ * ) = x – A s* = 0, (3.30)

Trang 40

Chương 3 40 Giải Hệ Tuyến Tính

trong đó gradient của chuẩn p có thể biểu diễn

s J ρ (s) = |p| Ds1( )s s (3.31) vàDs( )s ∈ℜ n × n là ma trận chéo với các phần tử d j = |s j|2-p Giải hệ trên, ta nhận được

( )

( ) ( ) ( ( ) )

λ A s D s

x A s AD λ

s s

s s

T T

p

(3.33)

Để tiện tính tóan, phương trình (3.31) được biến đổi thành dạng lặp ước lượng

vectơ s * tối ưu như sau

( 1) D~ ( )A (AD ( )A )1x,

k k

n p p

s k = s ks k 2− s k 2−

2 2

diag

thuật FOCUSS tổng quát, có thể biểu diễn dưới dạng gọn hơn:

− , …, s ( )k

p

n 2

1 − } Để ý là ma trận Ds tồn tại với tất cả s và

cả với p âm Với p = 2, ma trận Ds =I và thuật tóan Focuss được đơn giản thành

dạng LS chuẩn hoặc nghiệm cực tiểu chuẩn 2 s * = AT(A AT)-1x Trong trường hợp

đặc biệt khác p = 0, ma trận chéo D~s = diag{|s1|, |s2|, …, |s n|}

Với dữ liệu nhiễu, có thể sử dụng giải thuật Focuss mạnh hơn

( 1) D ( )A (AD ( )A ( )I)1x,

với α(k) ≥ 0 là tham số Tikhonov tùy thuộc mức nhiễu [32, 8, 9]

Ngày đăng: 16/04/2021, 04:30

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] A. Cichocki, Shun-ichi Amari, “Adaptive Blind Signal and Image Processing”. John Wiley &amp; Sons (2002) Sách, tạp chí
Tiêu đề: “Adaptive Blind Signal and Image Processing”
[2] A. Jourjine, S. Rickard, and O. Yilmaz. Blind separation of disjoint orthogonal signals: Demixing N sources from 2 mixtures. In IEEE Conference on Acoustics, Speech, and Signal Processing (ICASSP2000), volume 5, pages 2985-2988, June 2000 Sách, tạp chí
Tiêu đề: IEEE Conference on Acoustics, Speech, and Signal "Processing (ICASSP2000)
[3] A. Jung, F. Theis, C.G. Puntonet and E.W. Lang, FastGeo - A Histogram Based Approach to Linear Geometric ICA. ICA 2001 Proceedings, 2001 Sách, tạp chí
Tiêu đề: ICA 2001 Proceedings
[4] Andreas Jung and Andreas Kaiser, “Considering Temporal Structures In Independent Component Analysis”, 2002 Sách, tạp chí
Tiêu đề: Considering Temporal Structures In Independent Component Analysis
[5] Andreas Jung, “An introduction to a new data analysis tool: Independent Component Analysis”. Regensburg, March 18th 2002 Sách, tạp chí
Tiêu đề: An introduction to a new data analysis tool: Independent Component Analysis
[6] B. A. Pearlmutter and A. M. Zador. Monaural source separation using spectral cues. In Fifth International Conference on Independent Component Analysis, LNCS 3195, pages 478ủ485, Granada, Spain, Sept. 22-24 2004. Springer-Verlag Sách, tạp chí
Tiêu đề: In "Fifth International Conference on Independent Component Analysis
[8] B. D. Rao and K. Kreutz-Delgado. An affine scaling methodology for best basis selection. IEEE Trans. Sag. Proc ., 47( 1):187-200, January 1999 Sách, tạp chí
Tiêu đề: IEEE Trans. Sag. Proc
[9] B. D. Rao and K. Kreutz-Delgado. Basis selection in the presence of noise. In Conference Record of the 32rd Asilomar Conference on Signals, Systems and Computers, pages 752-756, 1998 Sách, tạp chí
Tiêu đề: Conference "Record of the 32rd Asilomar Conference on Signals, Systems and Computers
[10] Bell, A. J., and Sejnowski, T. J. (1995). An information maximisation approach to blind separation and blind deconvolution. Neural Computation, 7(6), 1129-1159 Sách, tạp chí
Tiêu đề: Neural Computation
Tác giả: Bell, A. J., and Sejnowski, T. J
Năm: 1995
[11] C. E. Cherry. Some experiments in the recognition of speech, with one and two ears. Journalof the Acoustical Society of America, 25:975-979, 1953 Sách, tạp chí
Tiêu đề: Journalof the Acoustical Society of America
[13] D.-T. Pham and J.-F. Cardoso. Blind Separation of Instantaneous Mixtures of Non Stationary Sources. IEEE Tr. SP, 49(9): 1837–1848, September 2001 Sách, tạp chí
Tiêu đề: IEEE Tr. SP, 49(9)
[14] D.-T. Pham and P. Garat. Blind separation of mixture of independent sources through a quasimaximum likelihood approach. IEEE Tr. SP, 45(7): 1712–1725, July 1997 Sách, tạp chí
Tiêu đề: IEEE Tr. SP
[15] D.-T. Pham. Contrast for blind separation and deconvolution of sources. In Proc. ICA 2001, San Diego, USA, December 2001 Sách, tạp chí
Tiêu đề: In Proc. ICA 2001
[16] Donoho, D.L. &amp; Johnstone, “Adapting to unknown smoothness via wavelet shrinkage”. J Sách, tạp chí
Tiêu đề: Adapting to unknown smoothness via wavelet shrinkage
[17] Donoho, D.L. &amp; Johnstone, “Minimax estimation via wavelet shrinkage”. Ann. Statist., (1998), 879–921 Sách, tạp chí
Tiêu đề: Minimax estimation via wavelet shrinkage”. "Ann. Statist
Tác giả: Donoho, D.L. &amp; Johnstone, “Minimax estimation via wavelet shrinkage”. Ann. Statist
Năm: 1998
[19] E. Tsiang, "A Cochlea Filter Bank for Speech Analysis", Proc. International Conference on Signal Processing Applications and Technology, pp.1674-1678, 1997 Sách, tạp chí
Tiêu đề: A Cochlea Filter Bank for Speech Analysis
[20] F. Theis, A. Jung, E.W. Lang and C.G. Puntonet, A Theoretic Model for Linear Geometric ICA. ICA 2001 Proceedings, 2001 Sách, tạp chí
Tiêu đề: ICA 2001 Proceedings
[21] F. Theis, A. Jung, E.W. Lang and C.G. Puntonet, Linear Geometric ICA: Fundamentals and Algorithms. Neural Computation 2003, 15: 419-439 Sách, tạp chí
Tiêu đề: Neural Computation 2003
[22] G. Darmois. Analyse geựneựrale des liaisons stochastiques. Rev. Inst. Internat. Stat., 21:2ủ8, 1953 Sách, tạp chí
Tiêu đề: Rev. Inst. Internat. Stat
[23] H.-M. Park, H.-Y. Jung, T.-W. Lee, and S.-Y. Lee. On subband-based blind signal separation for noisy speech recognition. Electronic Letters, Vol.35(23):2011–2012, 1999 Sách, tạp chí
Tiêu đề: Electronic Letters

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm