Bài toán giải chập trong thống kê phi tham số

Bài toán thường gặp là ước lượng hàm mật độ của biến ngẫu nhiên X dựa trên dữ liệu bị nhiễu Y = + X ε trong đó ε là biến ngẫu nhiên chưa biết nhưng hàm mật độ của nó xem như đã biết.. Tr

Trang 1

B Ộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH

Thành ph ố Hồ Chí Minh - 2013

Trang 2

B Ộ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH

Chuyên ngành: Toán Giải tích

Trang 3

LỜI CẢM ƠN

Để thực hiện tốt luận văn này, ngoài sự cố gắng nổ lực của bản thân, tôi đã nhận được

sự quan tâm, giúp đỡ từ thầy cô, bạn bè và gia đình Nhân đây, tôi xin được gởi lời cảm ơn Trước hết, tôi xin chân thành cảm ơn Quý thầy cô trong Khoa Toán – Tin trường Đại

học Sư phạm Thành Phố Hồ Chí Minh đã truyền thụ những kiến thức bổ ích, làm nền tảng cho tôi trong quá trình nghiên cứu luận văn này

Và hơn hết, tôi xin gởi lời tri ân sâu sắc đến GS TS Đặng Đức Trọng, người đã tận

tình hướng dẫn, dạy bảo tôi phương pháp nghiên cứu khoa học, và tạo mọi điều kiện để tôi

có thể hoàn thành luận văn này

Tôi cũng xin gởi lời cảm ơn chân thành đến Quý thầy cô trong hội đồng chấm luận văn

đã dành thời gian xem xét, chỉnh sửa và đưa ra những nhận xét quý báu để luận văn của tôi được hoàn thiện

Bên cạnh sự chỉ dạy của thầy cô, tôi cũng nhận được sự quan tâm của gia đình và bạn

bè Xin chân thành cảm ơn mọi người

Thành phố Hồ Chí Minh, tháng 9 năm 2013

Nguyễn Thị Diệu Huyền

Trang 4

MỤC LỤC

L ỜI CẢM ƠN 1

M ỤC LỤC 2

CÁC KÝ HIỆU 3

LỜI MỞ ĐẦU 4

CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ 5

1.1 M ột số kiến thức về giải tích điều hòa trên , 2 và  ( ) 3 5

1.1.1 Các phép toán trên  5

1.1.2 Một số kiến thức về độ đo 5

1.1.3 Tích vô hướng Hermit trên không gian vectơ 8

1.1.4 Một số chuẩn đặc biệt 9

1.1.5 Các biến đổi Fourier trên  10

1.1.6 Các yếu tố của giải tích điều hòa trên  ( ) 3 và 2 15

1.2 M ột số kiến thức về xác suất thống kê 18

1.2.1 Khái niệm hàm phân phối, hàm mật độ 18

1.2.2 Các giá trị đặc trưng của biến ngẫu nhiên X 19

CHƯƠNG 2: GIẢI CHẬP TRÊN  B ẰNG PHƯƠNG PHÁP DỰA TRÊN CÁC HÀM WAVELET 23

2.1 Gi ới thiệu bài toán nhân chập trên  23

2.2 Gi ải bài toán nhân chập trên  b ằng phương pháp dựa trên các hàm wavelet 24 2.2.1 Cơ sở lý thuyết 24

2.2.2 Thuật toán giải chập dựa trên các wavelet 34

CHƯƠNG 3: GIẢI CHẬP CẦU BẰNG PHƯƠNG PHÁP TIẾP CẬN BỘ HÀM 35

3.1 Gi ới thiệu bài toán nhân chập cầu 35

3.2 Gi ải bài toán chập cầu bằng phương pháp tiếp cận bộ hàm 36

3.2.1 Cơ sở lý thuyết 36

3.2.2 Thuật toán cực tiểu hóa ước lượng Lasso 58

K ẾT LUẬN VÀ KIẾN NGHỊ 59

TÀI LI ỆU THAM KHẢO 60

Trang 6

LỜI MỞ ĐẦU

Bài toán tích chập xảy ra trong nhiều lĩnh vực thống kê phi tham số Bài toán thường

gặp là ước lượng hàm mật độ của biến ngẫu nhiên X dựa trên dữ liệu bị nhiễu Y = + X ε

trong đó ε là biến ngẫu nhiên chưa biết nhưng hàm mật độ của nó xem như đã biết Trong hai thập kỷ gần đây, bài toán này được quan tâm ngày càng nhiều hơn, việc mở rộng bài toán tích chập trên  thành bài toán tích chập trên quả cầu 2 đồng nghĩa với việc mở rộng các ứng dụng của nó trong nhiều lĩnh vực, như kinh tế, y học, kỹ thuật,… Đặc trưng của bài toán tích chập là chúng ta không thể tìm ra kết quả của nó một cách chính xác mà chỉ ở dạng

“gần đúng” Do đó, mặc dù đã có không ít nhà toán học đưa ra phương pháp giải bài toán này nhưng kết quả vẫn không dừng lại ở đó, vì có thể có một phương pháp khác cho ra kết

quả “tốt hơn” Vì vậy, chúng tôi chọn đề tài này làm nội dung nghiên cứu của luận văn

nhằm học tập phương pháp nghiên cứu và có thể phát triển đề tài theo hướng của các nhà khoa học trong và ngoài nước

Nội dung luận văn gồm ba chương Cụ thể như sau:

Chương 1: Trong phần này, chúng tôi đưa ra các kiến thức cơ bản, đặc biệt là các lý thuyết

về giải tích Fourier trên , 2 và  ( ) 3 , nhằm cung cấp cho việc giải các bài toán trong chương 2 và 3

Chương 2: Trong phần này, chúng tôi dựa chủ yếu vào sách [1], trình bày lại phương pháp xây dựng ước lượng hàm mật độ f của bài toán giải chập trên  dựa trên các hàm wavelet

và đánh giá ước lượng này thông qua đánh giá MISE của nó (được định nghĩa trong (2.10))

Chương 3: Dựa chủ yếu vào bài báo [11], chúng tôi trình bày lại cách xây dựng ước lượng Lasso của hàm mật độ f của bài toán giải chập cầu, cực tiểu hóa ước lượng này bằng cách thiết lập bất đẳng thức oracle với giả thiết cổ điển dựa trên bộ hàm tổng quát

Trang 7

CHƯƠNG 1: KIẾN THỨC CHUẨN BỊ

1.1 Một số kiến thức về giải tích điều hòa trên  , 2 và  ( ) 3

ii Hợp đếm được các tập thuộc F cũng là tập thuộc F

Khi đó, (X , F) gọi là không gian đo được, mỗi tập A∈F g ọi là tập đo được đối với F hay là

F – đo được Và xét hàm f : A→  Với a∈, ta kí hiệu

A f < a x = ∈ A : f x < a Hàm f được gọi là đo được trên A (đối với F hay F – đo được) nếu

A f[ < ∈a] F , ∀ ∈a

Một ánh xạ µ : F → [ ] 0, ∞ được gọi là một độ đo xác định trên F nếu

i) µ ( ) ∅ = 0

ii) µ có tính chất σ −cộng, nghĩa là

Trang 8

Khi đó, ( X, F, µ ) được gọi là không gian độ đo

Độ đo µ còn được gọi là độ đo tầm thường (độ đo 0) nếu µ ( ) A = 0,∀ ∈ FA

Nếu X= , tức σ-đại số F các tập con của , thì mỗi tập A∈ F gọi là tập đo được theo Lebesgue hay tập (L) – đo được, hàm f được gọi là hàm đo được theo Lebesgue hay hàm (L) – đo được, và độ đo µ xác định trên F gọi là độ đo Lebesgue

Nếu ( X, τ ) là không gian tôpô, σ-đại số F sinh bởi họ τ thì F gọi là σ-đại số Borel,

mỗi tập A∈ F gọi là tập Borel, và độ đoµ xác định trên các tập Borel gọi là độ đo Borel

2 Độ đo Haar (hay còn gọi là độ đo Radon)

Trong giải tích toán học, độ đo Haar là một độ đo gán một “tập bất biến” vào các tập con của các nhóm tôpô compact địa phương và sau đó định nghĩa tích phân của các hàm trên các nhóm tôpô đó

Cho (G,.) là một nhóm tôpô compact địa phương Hausdorff, F là σ-đại số Borel tập tất

cả các tập con compact của G Với g G∈ , S∈ F, ta định nghĩa tịnh tiến trái và tịnh tiến

phải tập Borel S như sau:

• Tịnh tiến trái tập S là tập gS = g.s : s S { ∈ }

• Tịnh tiến phải tập S là tập Sg = s.g : s S { ∈ }

Các tập gS, Sg cũng là tập Borel Một độ đo µ xác định trên σ-đại số Borel F được

gọi là bất biến tịnh tiến trái nếu với mọi g G∈ , S∈ F , ta có

Bất biến tịnh tiến phải cũng được định nghĩa tương tự

• Một độ đoµ xác định trên σ-đại số Borel F được gọi là chính quy nếu:

i) Độ đoµ hữu hạn trên mọi tập compact:

µ ( ) K < ∞ với mọi K compact

ii) Độ đoµ là chính quy ngoài trên các tập Borel E:

µ ( ) E = inf { µ ( ) U : E ⊆ U, Umở và Borel }

iii) Độ đoµ là chính quy trong trên các tập Borel E:

Trang 9

µ ( ) E = sup { µ ( ) K : K ⊆ E, K compact}

Lưu ý: Nếu n

G =  thì ii), iii) là hệ quả của i)

 Định nghĩa độ đo Haar

Choµ là độ đo Borel dương, không tầm thường, µ được gọi là độ đo Haar trái (phải)

nếu:

i µ chính quy

ii.µ bất biến tịnh tiến trái (phải)

Độ đo Haar trái thường được gọi là độ đo Haar

Từ định nghĩa, ta có độ đo Haar µ tồn tại duy nhất, µ ( ) U > 0, với mọi U mở và Borel Đặc biệt, nếu G compact thì 0 < µ ( ) G < ∞

Độ đo xác suất Haar của không gian đo được Borel ( G, F ), thường kí hiệu , là độ đo Haar thỏa 0 ≤  ( ) E ≤ 1,∀ ⊆ E G, và  ( ) G = 1

Cho không gian độ đo Borel ( X, F, µ ) với µ là độ đo Haar Xét hàm f : G→ liên

tục, có giá compact Tích phân của f trên G theo độ đo Haar µ, g Gf g d( ) ( ) µ g

Trang 10

Giả sử Vlà không gian vectơ trên trường 

Tích ., : V V × →  là tích vô hướng Hermit trên không gian vectơ Vnếu .,. thỏa mãn các điều kiện sau :

i) u1+ u , v2 = u , v1 + u , v2 với mọi u , u , v1 2 ∈V;

ii) cu, v = c u, v với mọi u, v ∈ V, c ∈ ;

iii) u, v = v, u với mọi u, v ∈ V ;

iv) u, u ≥ 0 với mọi u ∈ V;

u, u = 0 ⇔ u = θ (với θ là phần tử không trong V)

Từ các điều kiện trên suy ra

v) u, v1+ v2 = u, v1 + u, v2 với mọi u, v , v1 2∈ V;

vi) u,cv = c u, v với mọi u, v ∈ V, c ∈;

vii) θ , u = = 0 u, θ với mọi u ∈ V

Khi đó u :2 = u, u được gọi là chuẩn liên hợp của u

Trang 11

Ngoài ra, giả sử

A : V V × →  và B : V V × → 

sao cho

u, v = A u, v ( ) + iB u, v ( ) với mọi u, v ∈ V Khi đó ta có

• A và B là các song tuyến tính trên ;

• A là đối xứng và xác định dương;

• B là không đối xứng;

• A iu,iv ( ) = A u, v ( ) với mọi u, v ∈ V;

• A iu, v ( ) = − B u, v ( ) với mọi u, v∈V

là tích vô hướng Hermit của u và v trên n

 Tích vô hướng Hermit trên  2( ( ) 3 )

Trang 12

1 p

f ∗g x ( ) = f y g x∫ ( ) ( −y dy) , x∈

1.1.5.1 Biến đổi Fourier trong 1( ) 

Với f∈1( ) , biến đổi Fourier của f , kí hiệu ft

Trang 13

= exp ity f y∫ ( ) ( ) ∫exp it x( ( −y g x) ) ( −y dxdy)

= exp ity f y dy exp ity g y dy∫ ( ) ( ) ∫ ( ) ( ) (do định lí Fubini)

Trang 14

Hơn nữa, nếu f đối xứng thì

2 π

Trang 15

Ch ứng minh: Xem [1, tr.181-182]

1.1.5.2 Biến đổi Fourier trong 2( ) 

Giả sử  là tập hợp các hàm bị chặn và liên tục thuộc 1( )  mà biến đổi Fourier khả

tích Dễ dàng ta thấy  cũng là không gian tuyến tính và từ Bổ đề 2.1 (trong chương 2), ta

Trang 16

Bi ến đổi Fourier trên 2( )  , xác định bởi sự liên tục đều của biến đổi Fourier trên

, là m ột song ánh đi từ 2( )  vào 2( )  Ánh x ạ ngược của nó là ánh xạ

Để so sánh biến đổi Fourier trên 1( )  và trên 2( )  , ta sẽ chỉ ra sự khác nhau giữa

biến đổi Fourier không có ảnh của một hàm trên 1( )  với một hàm nào đó trên 2( ) 

Mặt khác, biến đổi Fourier của một hàm trong 2( )  nói chung không cần liên tục hay bị

chặn Tuy nhiên, trong Bổ đề 1.1 các tính chất 1, 5, 6 và 7 cũng đúng đối với biến đổi

Fourier trong 2( )  , riêng tính chất 7, từ “với mọi” sẽ thay bằng “hầu khắp nơi” theo nghĩa Lebesgue Tương tự, kết quả giải chập cũng được đưa ra trong bổ đề sau

Trang 17

Gi ả sử f ∈ 2( )  có giá trên [ − π π , ] Khi đó, ta có

2

n ft

Trang 19

Giải tích Fourier trên quả cầu 2cũng có kết quả tương tự

1.1.6.2 Biến đổi Fourier trên 2

với φ ∈ [ 0, 2 π ), θ ∈ [ 0, π ) và Pm  (cosθ ) là hàm hợp Legendre

Nhắc lại, Pm ( )x là hàm hợp Legendre nếu Pm( )x là nghiệm chính tắc của phương trình Legendre tổng quát sau

Trang 20

1.2 Một số kiến thức về xác suất thống kê

• Biến X rời rạc

Cho biến ngẫu nhiên rời rạc X có không gian mẫu Ω = { x , , x1 N} (N có thể hữu hạn

hoặc vô hạn) và pilà xác suất của xi với i 1, N = Ta có bảng phân phối xác suất của X như sau:

Trang 21

X x1 x2 ……… xN

với pi ≥0, i 1, N = và

N i

Trang 22

trong đó pilà xác suất của biến xi, i 1, N =

Hơn nữa, thay X bởi hàm ϕ ( ) X , ta có

Trang 23

o ( ) ( )2 ( ( ) )2

o Nếu X, Y độc lập thì V X ( ± Y ) = V X ( ) + V Y ( ),

V X ( + C ) = V X ( )

Thống kê θˆ được gọi là ước lượng không chệch của θ nếu

( ) ˆ

Ý nghĩa: Từ định nghĩa ta có: E ( ) θ θ ˆ − = 0, tức là, trung bình của độ lệch (sai số)

giữa ước lượng với giá trị thật bằng 0 Sai số trung bình bằng 0 được gọi là sai số ngẫu nhiên, ngược lại gọi là sai số hệ thống Như vậy, θˆ là ước lượng không chệch của θˆ khi sai

số ước lượng là sai số ngẫu nhiên

Trang 24

 ≥  ≤

Trang 25

CHƯƠNG 2: GIẢI CHẬP TRÊN  B ẰNG PHƯƠNG PHÁP DỰA

TRÊN CÁC HÀM WAVELET

2.1 Giới thiệu bài toán nhân chập trên 

Trong thống kê, bài toán giải chập được mô tả một cách tổng quát như sau:

Tìm ước lượng của f từ các quan sát thực nghiệm được cho bởi

h = f * G = ∫f (x−y)dG y( ) (2.1)

trong đó ∗ là tích chập hàm mật độ f với hàm phân phối xác suất tương ứng G, với các biến

ngẫu nhiên độc lập X , , X1 n được quan sát, trong đó mỗi Xj đều có hàm phân phối G Các

biến ngẫu nhiên này được xem như dữ liệu Trong nhiều tình huống thực tế, các dữ liệu này không thể có được trực tiếp, do sai số trong đo lường Do đó, chúng ta có thể quan sát các

dữ liệu bị nhiễu Y , , Y1 n thay vì các dữ liệu thật X , , X1 n Mô hình cơ bản của dữ liệu bị nhiễu Y , , Y1 n là cộng thêm sai số đo lường, tức là, bất kì một quan sát thực nghiệm đều được giới hạn bởi các dữ liệu

Y j = X j + εj , j ∈ { 1, , n }

thay cho các X , , X1 n Các biến ngẫu nhiên độc lập ε1, ,εn đại diện cho sai số hoặc sự bị nhiễu của dữ liệu, hàm mật độ của mỗi εj được gọi là hàm mật độ sai số, kí hiệu là g Ngoài ra, ta giả sử Xj và εj có giá trị thực và độc lập với nhau Kết quả cơ bản của lí thuyết xác suất cho hàm mật độ của tổng của hai biến ngẫu nhiên độc lập bằng với tích chập của hai hàm mật độ của chúng, do đó

h = f * g x f (x( ) = ∫ −y)g y dy( ) (2.1*)

trong đó h là hàm mật độ của quan sát Y Vì bất kì truy cập thực nghiệm trực tiếp đều bị

giới hạn bởi h nên (2.1*) cũng chính là bài toán (2.1)

Hàm f được tìm lại từ một quan sát thực nghiệm h bất kì Do đó ta chỉ có thể ước lượng f từ các quan sát một cách gián tiếp Trước hết ta đưa ra một phương án thực nghiệm

ˆh, gọi là ước lượng của h Sau đó, áp dụng phương pháp giải chập đối với ˆh để ước lượng

f Mục đích của ta là tìm ước lượng ˆf sao cho xấp xỉ với f, sai số này càng nhỏ càng tốt

Trang 26

Do đó, ước lượng ˆh ban đầu phải được lựa chọn phù hợp với các phép thử của thống kê cụ

thể, đồng thời phải đảm bảo tính “đủ tốt” Để giải được bài toán này, trước hết ta phải giả sử

rằng hàm phân phối g đã biết Tuy nhiên, trong thực tế việc xác định g có thể chỉ tương đối

vì nó phụ thuộc nhiều yếu tố, như các điều kiện bị hạn chế trên f hoặc bổ sung thêm dự

liệu, hoặc các phép thử lặp đi lặp lại,…

Có nhiều phương pháp giải bài toán này Ở đây, ta đưa ra một phương pháp khá phổ

biến để giải bài toán trong thống kê phi tham số Đó là phương pháp dựa trên các hàm wavelet (được định nghĩa trong phần tiếp theo), cụ thể là sử dụng tính trực giao của chúng

2.2 Giải bài toán nhân chập trên  bằng phương pháp dựa trên các hàm wavelet

h có thể ước lượng được Vì hàm đặc trưng của biến ngẫu nhiên

Ychính là biến đổi Fourier của hàm mật độ của Ynên ta có

h t exp itx h x dx = ∫ = E exp itY  = ψ t

Như một phương pháp thống kê phổ biến, ta thu được ước lượng của ft

h bằng cách thay kì vọng bởi lấy trung bình các biến ngẫu nhiên độc lập exp itY ( ) Khi đó, hàm thực nghiệm đặc trưng được xác định bởi

Trang 27

là một ước lượng của ft( )

f t , với điều kiện ft( )

ii Được chuẩn hóa: ψ 2 = 1

iii Có tâm trong vùng lân cận của t = 0

Khi co giãn hàm wavelet ψ bởi hệ số s và tịnh tiến nó bởi hệ số u thì ta tạo ra một họ các hàm wavelet (con)

s,u( )

t

s s

  với s

+

Và các hàm này cũng được chuẩn hóa: ψs,u 2 =1

Các hàm wavelet nhận được sự quan tâm đáng kể trong giải tích số, lý thuyết xấp xỉ cũng như khoa học thống kê suốt thời gian cuối thập kỷ qua, xem [9]

Theo định nghĩa, hàm mật độ bất kì có thể nằm trong 1( )  , không nhất thiết thuộc ( )

2 

 Tuy nhiên, các giả thuyết dưới đây xem như tính bị chặn của hàm mật độ, chúng ta

có thể xác định thuộc tính của nó trong 2( ) 

B ổ đề 2.1

M ột hàm mật độ f b ất kì bị chặn đều thuộc không gian 2( ) 

Trang 28

Riêng 2( )  là không gian Hilbert với chuẩn f 2 = f ,f ứng với tích vô hướng

f ,g f x g x dx = ∫ ( ) ( ) với f , g ∈ 2( ) 

Lưu ý rằng:

• Hai hàm f , g ∈ 2( )  được gọi là trực giao nếu f ,g = 0

Hệ {f , j Zj ∈ } được gọi là cơ sở trực chuẩn của 2( )  nếu

 đều có thể được xấp xỉ với cơ sở trực chuẩn

Với J hữu hạn, infimum được thay thế bởi minimum, các hệ số µj = f ,fj được tính

một cách chính xác Chiếu trực giao f xuống bao tuyến tính của {f : jj ≤J} ta được các hệ

Trang 29

∑ cực tiểu hóa khoảng cách giữa f với f bj ất kì thuộc bao tuyến tính

{f : jj ≤J} trong 2( ) Điều này giúp chúng ta tìm ra ước lượng của các hệ số

Trang 30

Trong trường hợp bất kì, chúng ta nên tổng quát ước lượng (2.5) để thứ tự của các hàm

cơ sở fj có thể thay đổi Do đó, ta định nghĩa tập hữu hạn các số nguyên

Tất nhiên, ước lượng (2.6) cũng gồm cả (2.5)

Cơ sở trực chuẩn phổ biến của không gian 2( )  có thể lấy từ dãy con các hàm wavelet Các wavelet được xem xét với biến đổi Fourier của nó có giá compact đặc biệt hợp

lí Cơ sở wavelet này là tập

và m là số nguyên tùy ý được cố định Hàm tỉ lệ ϕ và hàm wavelet ψ được xác định thông

qua biến đổi Fourier của chúng

Trang 31

ζn = { ϕm ,k n : k ≤Kn} (2.9)

với các dãy số ( )Kn n, ( )mn n ⊂  và ( ) Kn n ↑ ∞

Kết quả ước lượng này được gọi là ước lượng wavelet tuyến tính Chúng ta chú ý rằng

hệ { ϕm ,k n : k ∈ } không là cơ sở trực chuẩn của 2( )  nhưng nó là cơ sở trực chuẩn của không gian con của không gian 2( )  , xem mệnh đề sau

Định dạng
Số trang	62
Dung lượng	660,24 KB