ứng. Chúng ta muốn mô tả biến động của một biến phụ thuộc như một hàm pdf

Phải nhận thấy rằng, hồi quy tuyến tính đa biến trong thực tế không chỉ là một hệ phương pháp độc lập, mà còn là một bộ phận cấu thành của nhiều phương pháp khác nghiên cứu những mối phụ

Trang 1

Chương 1 - MÔ TẢ MỐI LIÊN HỆ CỦA CÁC

QUÁ TRÌNH

1.1 PHÂN TÍCH HỒI QUY ĐA CHIỀU HỒI QUY TUYẾN TÍNH

ĐA CHIỀU

Đặt bài toán

Hiện nay, công cụ hồi quy tuyến tính đa biến là một trong những

phương tiện thống kê toán học được xây dựng hoàn thiện nhất Giống

như nhiều ý tưởng khác, khái niệm phân tích hồi quy được Gauss hình

thành hơn một trăm năm trước đây Hệ phương pháp được áp dụng rộng

rãi hầu như trong tất cả các khoa học ứng dụng, điều đó làm cho nó phát

triển mạnh và thích hợp với nhiều bài toán [70, 80, 139, 140,163, 190]

Trong thực tiễn nghiên cứu khí tượng thủy văn, phương pháp hồi

quy tuyến tính đa biến được sử dụng nhiều nhất để mô tả và dự báo

những biến riêng rẽ trên cơ sở tính đến ảnh hưởng của một số nhân tố tác

động Ngoài ra, phương pháp hồi quy tuyến tính đa biến thường sử dụng

để giải quyết những vấn đề liên quan tới nội suy các trường hải dương

trong không gian cả theo phương thẳng đứng lẫn theo phương ngang

Phải nhận thấy rằng, hồi quy tuyến tính đa biến trong thực tế không chỉ là

một hệ phương pháp độc lập, mà còn là một bộ phận cấu thành của nhiều

phương pháp khác nghiên cứu những mối phụ thuộc giữa các biến [12,

72, 144]

Lời phát biểu tổng quát bài toán hồi quy tuyến tính đa biến dưới đây

có thể phổ biến sang một loạt các mô hình phân tích hồi quy khác Chẳng

hạn, cho trường hợp hồi quy đa thức mà phương trình cơ bản của nó có

thể lập trên cơ sở hồi quy tuyến tính với một phép thay thế biến tương

ứng

Chúng ta muốn mô tả biến động của một biến phụ thuộc như một hàm ảnh hưởng của một nhóm các biến độc lập x1 ,x2 ,x3 , ,x M Giả sử

rằng ảnh hưởng của mỗi trong số M biến độc lập x lên biến phụ thuộc j

y có thể mô tả bằng ảnh hưởng tuyến tính Khi đó phương trình cơ bản

của hồi quy tuyến tính đa biến có dạng



=

+

= +

− +

j

i i i j ij j

y

1

0 ( ) ˆ , (1.1)

trong đó i số hiệu quan trắc trong tập giá trị mẫu độ dài − N ,

(i=1 , ,N), j số hiệu biến độc lập − x ( j j=1 , ,M );

−

M

a a a

a0 , 1 , 2 , , những hệ số hồi quy tuyến tính; x j − trị số trung bình của biến j  =  

=

N i j

N

x

1

; yˆ i − trị số quan trắc thứ i của biến phụ

thuộc, được khôi phục nhờ phương trình hồi quy; e i − sai lệch giữa trị số khôi phục yˆ và trị số quan trắc i y i

Giải bài toán xây dựng mô hình hồi quy tuyến tính đa biến quy về tìm những trị số của các hệ số hồi quy a0 ,a1 ,a2 , ,a M sao cho khôi phục được sự biến thiên của biến phụ thuộc y với các sai số e nhỏ nhất

Vì người nghiên cứu chưa biết những trị số thực của các hệ số hồi quy, nên phải thực hiện ước lượng thống kê những hệ số này dựa trên cực thiểu hoá phương sai sai số s : R



=

→

−

i

i i

N

s

1

) ˆ ( 1

1

Phương pháp truyền thống tìm những trị số a0 ,a1 ,a2 , ,a M theo điều kiện này là phương pháp bình phương tối thiểu, hiệu quả sử dụng phương pháp này, và do đó, độ chính xác của phương trình hồi quy tuyến tính đa biến, phụ thuộc vào những điều kiện đơn giản sau:

− Sao cho các sai số hồi quy có trị số trung bình bằng không:

Trang 2

=

i i

e N

e

1

0 1

(ở đây dấu e chỉ toán tử kỳ vọng toán học của chuỗi e );

− Những biến ảnh hưởng phải độc lập thống kê với nhau:

0 ) , (x j x l = khi j≠ l

Nói cách khác, chúng không tương quan với nhau:

0 ) , (x j x l =

Nếu thoả mãn những tính chất kể trên, việc tính các trị số của những

hệ số hồi quy sẽ quy về giải hệ phương trình chuẩn tắc dạng

,













⋅

=













⋅













⋅



i M i

i i i

M M

i i

M i i M i M

i

M i i i

i i

i

M i i

i

y x

y x y

a

a a

x x

x x x x

x x x

x x

x

x x

x N

1

1 0

2 2

1

1 2

1 1

2 1

trong đó tổng (Σ) lấy theo toàn độ dài tập mẫu gồm N quan trắc Rõ

ràng, khi số lượng biến lớn (M >3) cách viết theo từng thành phần như

trên trở nên rất cồng kềnh Dạng viết ma trận sẽ thuận tiện hơn Độc giả

nên ôn lại những khái niệm cơ bản về đại số ma trận trong [12, 86]

Để chuyển sang dạng viết ma trận, ta đưa ra những khái niệm sau:

−

y vectơ cột các giá trị quan trắc gồm N trị số,

{ − − }−

− 1 , 2 ,

y các giá trị quy tâm theo trung bình số học



=

i i

y N a y

1 0

1

;

−

X ma trận các trị số của những biến độc lập, gồm N dòng, M

cột (dòng thứ i là vectơ quan trắc về M biến, cột thứ j là vectơ gồm N

trị số của biến j );

−

A vectơ cột những hệ số hồi quy AT={a0,a1,a2, ,a M};

−

E vectơ cột gồm N sai số của mô hình hồi quy

Với những ký hiệu mới này, phương trình cơ bản của hồi quy tuyến tính đa biến có dạng

E A X

Hệ các phương trình chuẩn tắc để ước lượng những hệ số hồi quy được viết như sau

Y X A X

)

chỉ số T chỉ ma trận chuyển vị hay vectơ chuyển vị (xem [3, 12, 86]) Thấy rằng, nếu chuyển ma trận )(XT ⋅X sang vế phải, nghiệm của hệ phương trình chuẩn tắc sẽ được viết dưới dạng

Y X X X

) ( 1 (1.2) Nghiệm của bài toán hồi quy tuyến tính đa biến dưới dạng (1.2) có một loạt những tính chất đáng giá đối với người nghiên cứu:

− Theo định nghĩa, vectơ giá trị của các hệ số hồi quy

{a0 a1 a2 a M}

T= , , , ,

A làm cực tiểu tổng bình phương các sai số, khẳng định tính tối ưu của mô hình này so với nhiều mô hình khác cùng loại;

− Bản thân những hệ số hồi quy a j là những hàm tuyến tính của các quan trắc Y và là những ước lượng không chệch của những giá trị hệ số

hồi quy thực (nhưng chưa biết);

− Những ước lượng các hệ số hồi quy có phương sai cực tiểu so với tất cả những ước lượng tuyến tính khác

Trang 3

Ta sẽ xét một đặc trưng quan trọng nữa của mô hình hồi quy tuyến

tính đa biến, gọi là hệ số tương quan đa biến R Chỉ tiêu này là một đặc 0

trưng định lượng về sự tương tự giữa những trị số y quan trắc và yˆ tính

toán của biến phụ thuộc Hệ số tương quan đa biến tính theo công thức



=

−

=

N i i N

i

N

y y y

y

y y y y R

1

2 1

1 0

) ˆ ) (

) ˆ )(

(

(1.3)

Đại lượng R gọi là hệ số xác định, vì nó là đặc trưng khái quát đơn 02

giản về hệ số tương quan r2(x,y) cho trường hợp nhiều biến độc lập và

tỷ lệ với phần phương sai của biến y được mô tả bởi mô hình hồi quy

Trong trường hợp một biến độc lập, ta có đẳng thức )2 2( ,

dàng nhận thấy rằng khi 2 1

0 =

R thì những giá trị quan trắc và tính toán của biến độc lập hoàn toàn trùng nhau

Ý nghĩa của hệ số tương quan đa biến có phần khác so với quan

niệm về hệ số tương quan cặp kinh điển Vấn đề là hệ số tương quan đa

biến có giới hạn biến thiên từ 0 đến 1 và, do đó, nó không cho biết dấu

liên hệ giữa y và tập hợp x1 , ,x M Ngoài ra, đại lượng hệ số tương

quan đa biến có thể lớn hơn hoặc bằng hệ số tương quan cặp cực đại

)

,

r j j trong ma trận số liệu đang xét

Nên giải thích hệ số tương quan đa biến như là đại lượng liên hệ

tuyến tính tổng quát giữa biến phụ thuộc và các biến độc lập đã chọn,

đồng thời là chỉ tiêu về hiệu quả của mô hình hồi quy tuyến tính đa biến

Điều khẳng định này xuất phát từ thực tế rằng bình phương của hệ số

tương quan đa biến về trị số bằng phần phương sai của biến y mà

phương trình hồi quy tuyến tính đa biến có thể mô tả

Ý nghĩa hình học của hồi quy tuyến tính đa biến

Giả sử có hệ tọa độ với ba trục: nhiệt độ, độ muối và mật độ quy ước

của nước (hình 1.1) Mật độ là biến phụ thuộc vào nhiệt độ T và độ muối

S Phương trình hồi quy đa biến cần tìm được viết dưới dạng

i i

i =a0+a1T +a2S

Ở đây đại lượng hệ số 

= σ

i i

N

a

1 0

1

là giá trị mật độ trung bình từ tập mẫu hiện có Các giá trị tính được σ làm thành một mặt phẳng

nghiêng với các trục T và S Đại lượng hệ số hồi quy a1 =tg( α1) sẽ tương ứng với góc nghiêng của mặt phẳng hồi quy so với mặt phẳng

) , (σT Đại lượng hệ số hồi quy a2=tg(α2) sẽ tương ứng với góc nghiêng của mặt phẳng hồi quy so với mặt phẳng ( Sσ, ) Đại lượng sai

số e sẽ tương đương khoảng cách từ trị số quan trắc i σi tới hình chiếu của nó lên mặt phẳng hồi quy σˆi

S

T σ

0

ε i

σ

σ i

i

σˆ

α 2

Hình 1.1 Ý nghĩa hình học của phương trình hồi quy tuyến tính

Tính toán theo mô hình hồi quy tuyến tính đa biến

Ta sẽ xét thuật toán tổng quát tính toán theo sơ đồ hồi quy tuyến tính

đa biến

Trang 4

1 Tính các ước lượng trung bình số học và độ lệch chuẩn của tất cả

các tham số xuất phát:



=

i j j

N i

N x y N

y

1 1

1 , 1

,



=

−

=

−

i

j j x

N i

N s y y N

s

j

1

2

1

2 1

1

, 1

Lập các vectơ những trị số trung bình và độ lệch chuẩn: x , S x

2 Tính ma trận tương quan R gồm các hệ số tương quan cặp giữa

tất cả các biến:













⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

=

M M M

M M

x x x

x x x y x

x x

x y

yx yx

yx yy

r r

N

X

XT

2 1

1 2

1 1

2 1

1

Các hệ số tương quan thường tính theo những công thức truyền thống và

kiểm tra mức ý nghĩa theo tiêu chuẩn Student

3 Tính các định thức của ma trận tương quan và các ma trận con của

nó Trong hồi quy tuyến tính đa biến, định thức của ma trận tương quan

có dạng













⋅⋅

⋅

⋅⋅

⋅

⋅⋅

⋅

=

M M M

M M

x x x

x x x y x

x x

y

yx yx

yx

r r

r

r r

r

1

1 D

2 1

1 2

1 1

2 1

Các ma trận con để tính những định thức dạng D x j tạo ra bằng

cách loại bỏ dòng thứ y và cột thứ x từ ma trận R j

4 Tính các hệ số hồi quy theo các công thức (1.2) hay

yy

xy x

y j

j

j s

s a

D

5 Dựa trên các giá trị hệ số hồi quy nhận được lập phương trình hồi

quy và tính các giá trị yˆ :



=

− +

j

j j j

y

1

6 Ước lượng hệ số tương quan đa biến theo công thức (1.3) hay

yy

D

7 Tính các ước lượng độ lệch chuẩn cho các hệ số hồi quy và kiểm tra mức ý nghĩa của các tham số hồi quy theo tiêu chuẩn Student (t ): ν

j

a

j v yy

y

a t D

D M N

Ns

−

) / (

8 Kiểm tra tính phù hợp chung của mô hình đối với số liệu xuất phát bằng cách tính tiêu chuẩn thực nghiệm Fisher:

R

s

F* = / , trong đó



=

−

=

−

i

i i R

N i i

M N s y y N

s

1

2 1

1

, ) ( 1

1

Nếu độ lớn của tỷ số F lớn hơn giá trị bảng * F tại mức ý nghĩa đã cho T

và các bậc tự do ν1 =M và ν2 = N−M −1, thì giả thiết về tính phù hợp của mô hình được chấp nhận

Sơ đồ ước lượng các tham số mô hình hồi quy trên đây là sơ đồ tổng quát nhất và thường gặp trong các chương trình phân tích thống kê trên máy tính các loại

Trang 5

Sự phức tạp trong khi thực hiện sơ đồ đầy đủ này trên máy tính liên

quan tới vấn đề biểu diễn và xử lý ma trận số liệu trong điều kiện công

suất hạn chế của các máy tính Với những máy tính mạnh hơn, ta có thể

thực hiện tính toán theo sơ đồ đầy đủ của hồi quy tuyến tính đa biến và

tiến hành khảo sát toàn diện về những mối phụ thuộc hồi quy Những

phần mềm trợ giúp thực hiện phân tích hồi quy tuyến tính đa biến trên

máy tính có thể tìm thấy trong [4, 12, 70, 77, 80, 139, 140, 185]

Chẳng hạn, trong đa số các phần mềm đó, ta có thể từng bước loại

bỏ hay bổ sung thêm các biến độc lập nhằm chọn số biến độc lập tối ưu

Ngoài ra, còn có thể biến đổi sơ bộ những biến xuất phát để thể hiện

chúng thuận lợi hơn trong mô hình hồi quy tuyến tính (nhờ các phương

pháp tuyến tính hoá đã biết) Khi kiểm tra tính phù hợp của mô hình hồi

quy tuyến tính đa biến, các thủ tục vẽ đồ thị phần dư trong những phần

mềm này sẽ trợ giúp người nghiên cứu rất nhiều

Ứng dụng hồi quy tuyến tính đa biến trong nghiên cứu hải

dương học

Trong lịch sử, các phương trình hồi quy đã được sử dụng vào nghiên

cứu hải dương học ngay từ khi hình thành khoa học về đại dương Từ

việc tính toán các tham số của phương trình hồi quy một biến, dần dần

với thời gian, các nhà hải dương học chuyển sang sử dụng toàn bộ hệ

thống phương pháp phân tích hồi quy nói chung Xu thế này bắt đầu hình

thành rõ nét vào những năm bảy mươi, khi đó người ta bắt đầu giải quyết

những bài toán về xây dựng mô hình hồi quy tối ưu cho tập mẫu quan

trắc Ngày nay, phương pháp luận phân tích hồi quy có vị trí bền vững

trong nghiên cứu hải dương học ứng dụng Tuy nhiên, vẫn còn những khó

khăn trong việc ứng dụng thực tế phân tích hồi quy trong hải dương học,

thường liên quan tới những vấn đề sau đây:

− Chọn dạng tối ưu của phương trình hồi quy;

− Ước lượng tin cậy những tham số hồi quy

Ta sẽ xét những kinh nghiệm phân tích hồi quy trong hải dương học

có liên quan tới những vấn đề này

Cách tiếp cận hồi quy là cơ sở mô tả những quy luật vật lý cơ bản về

sự phát triển các quá trình đại dương Những công thức tính toán các đặc trưng phát triển và tan băng [62], các tham số tương tác nhiệt giữa đại dương và khí quyển [61] và các biến trong phương trình trạng thái nước biển [27] đều dựa trên nguyên tắc hồi quy tuyến tính

Nếu nhìn lại những thập niên gần đây, thì thấy rõ sự tiến triển nhanh chóng của phần lớn những phương trình hồi quy Thoạt đầu đó là những phương trình bậc thấp, ít tham số Theo mức độ hiểu biết sâu hơn

về những quy luật vật lý và tích luỹ ngày càng nhiều quan trắc, các nhà nghiên cứu hướng tới mô tả chính xác tối đa những mối liên hệ giữa các đặc trưng hải dương học bằng những công thức hồi quy Vì vậy, những phương trình hồi quy thường biến đổi theo hướng là dạng của chúng phức tạp dần

Thứ nhất, ngày càng có nhiều biến độc lập được đưa vào xét bổ sung cho những mối liên hệ tương quan đã phát hiện

Thứ hai, hoàn thiện dần hình thức mô tả các mối phụ thuộc: dưới dạng các biến độc lập, người ta đã sử dụng những đặc trưng tổng hợp, đó

là những tổ hợp khác nhau của những tham số vật lý xuất phát

Xu thế này thể hiện rõ trong các phương trình trạng thái nước biển Hải dương học hiện đại sử dụng nhiều loại phương trình trạng thái thực nghiệm, bắt đầu từ phương trình đơn giản nhất:

S a T

−ρ ρ

và cuối cùng là những công thức của Chang−Millero [87], trong đó liên

hệ giữa mật độ, nhiệt độ, độ muối và áp suất được mô tả bằng đa thức hỗn hợp bậc năm Dạng phương trình cụ thể nào được dùng là tuỳ thuộc vào độ chính xác xấp xỉ mật độ nước mà ta muốn và được xác định chủ yếu bởi tập mẫu quan trắc mật độ, nhiệt độ, độ muối Tuy nhiên, cơ sở

Trang 6

của các tính toán hồi quy vẫn là nguyên tắc tuyến tính hoá các mối phụ

thuộc và ước lượng các tham số hồi quy theo phương pháp bình phương

tối thiểu [3, 78]

Khi nghiên cứu phân bố không gian của các trường hải dương,

phương pháp hồi quy được ứng dụng rộng rãi để giải các bài toán nội suy

[25, 27] Những nguyên tắc thường dùng trong hải dương học để xây

dựng bản đồ trên cơ sở khôi phục các giá trị tại mỗi nút của vùng lưới đã

sử dụng ý tưởng xấp xỉ các trường như là những hàm của tọa độ địa lý

Mối phụ thuộc này được mô tả bằng một phương trình hồi quy, bậc của

phương trình, cũng như dạng của các biến, được chọn xuất phát từ điều

kiện sao cho phương trình mô tả đúng những dị thường không gian ở quy

mô đang xét

Quan điểm hồi quy cũng là cơ sở của phương pháp nội suy khách

quan và đồng bộ hoá các trường hải dương [53, 57, 199] Ở đây các

phương trình hồi quy được ước lượng cho từng nút của vùng nước như là

hàm của các quan trắc tại những điểm xung quanh Việc hoà hợp và đồng

bộ hoá các trường cũng được thực hiện bằng cách sử dụng phương pháp

trên đối với những đặc trưng hải dương học khác nhau và đối với những

chuỗi quan trắc [27, 101, 212, 218, 251]

Mô tả hồi quy sự biến động của các đặc trưng hải dương học trong

thời gian có ý nghĩa rất quan trọng trong nghiên cứu đại dương và được

thừa nhận là phương pháp quan trọng nhất để phát hiện ra những quy luật

vật lý Sự phụ thuộc tiềm năng của các quá trình hải dương học trong

không gian và thời gian chính là lý do để người ta tiến tới mô tả sự phụ

thuộc đó bằng các mô hình hồi quy và dự báo được những xu thế phát

triển của các quá trình

Việc xây dựng thành công những mô hình hồi quy về biến động thời

gian của một số đặc trưng hải dương học có vai trò quan trọng, vì nó cho

phép lý giải một cách tin cậy về những dao động đồng thời được điều

khiển bởi những quy luật vật lý vận hành các quá trình thủy vật lý, thủy

hoá học

Ta lấy thí dụ về những nghiên cứu hải dương học nghề cá, mục đích của những nghiên cứu này nhằm mô tả một cách tin cậy những dao động liên quan lẫn nhau của các đặc trưng hải dương học và các đặc trưng sinh học [202], trên cơ sở đó sau này hình thành quy luật tác động của môi trường lên những đối tượng sinh học [108]

Những mối phụ thuộc hồi quy có ý nghĩa đặc biệt khi ta muốn khôi phục những số liệu khuyết trong lưu trữ quan trắc hải dương học Tuy nhiên, ở đây người nghiên cứu động chạm tới vấn đề tính bất đồng nhất của các mối phụ thuộc trong thời gian Chúng ta đã biết rằng, những dao động chu kỳ dài trong hệ thống khí hậu làm phát sinh những hiệu ứng không dừng về kỳ vọng toán học và phương sai trong các chuỗi mẫu Tính không dừng, về phần mình, thể hiện ở sự bất ổn định của những mối liên hệ tương quan, và do đó, trong ước lượng các tham số hồi quy Trước hết, những ảnh hưởng đó làm giảm tính phù hợp của các mô hình hồi quy đã xây dựng Cách thường dùng nhất để khắc phục những khó khăn nêu trên là thay thế những phương trình hồi quy tổng quát bằng những phương trình bộ phận

Nói cách khác, thay vì một mô hình hồi quy chung duy nhất cho toàn khối dữ liệu, người ta xây dựng một số phương trình hồi quy bộ phận Những phương trình này sẽ xấp xỉ tốt hơn các mối liên hệ giữa các biến hải dương học trên một khoảng biến thiên cụ thể và không vận hành tốt trên những khoảng thời gian quan trắc khác

Như vậy, ứng dụng phân tích hồi quy cho phép xây dựng những mô hình tuyến tính từng đoạn và đạt được sự mô tả tối ưu bộ phận về các đặc trưng hải dương học Thí dụ về kiểu mô tả này có thể là kinh nghiệm phân tích hồi quy với các trường nhiệt muối đại dương [25], ở đây đã nhận được một tập hợp những mối phụ thuộc hồi quy giữa nhiệt độ và độ muối cho những độ sâu và những vùng khác nhau ở Đại dương Thế giới Thí dụ khác liên quan tới bài toán kinh điển mô tả hồi quy trắc diện

Trang 7

thẳng đứng của những tham số hải dương học Sự phân tầng phức tạp của

đại dương, sự hiện diện của một số đới cấu trúc có cơ chế vật lý hình thành

phân bố thẳng đứng của các đặc trưng hải dương học khác nhau đáng kể,

làm cho chúng ta không thể nhận được những mô hình hồi quy tổng quát

về các trắc diện nhiệt độ, độ muối, mật độ Vì vậy, người ta hay sử dụng

những mô hình tuyến tính từng đoạn, trong đó những tham số của các

phương trình hồi quy được chọn riêng biệt cho từng đới cấu trúc mặt và các

đới ở dưới sâu [54, 55, 89, 106, 166]

Khi mô tả thống kê về biến động thời gian của các đặc trưng hải

dương học, người nghiên cứu phải mô tả tỉ mỉ những bất đồng nhất được

gây nên bởi biến trình mùa của phần lớn những quá trình ở lớp trên đại

dương Theo đó chọn ra những phương trình hồi quy bộ phận để mô tả

những đặc điểm phân bố thẳng đứng của những tham số lớp nước phía

trên và những mối liên hệ của các đặc trưng nhiệt động lực học cơ bản

của khí quyển và đại dương [47, 54]

Lĩnh vực ứng dụng đặc biệt của phân tích hồi quy đa biến là lĩnh vực

dự báo hải dương học Hồi quy đa biến thường hay được xem như là một

hình thức mô tả những mối liên hệ không đồng pha giữa biến phụ thuộc

và các biến độc lập Các phương trình được lập sao cho dao động hiện

thời của các biến độc lập quyết định sự biến động tương lai của biến phụ

thuộc Bằng cách đó tọa độ "thời gian" được biến đổi thành trục tọa độ

các dao động đồng pha − thành không gian pha Bằng cách chọn thực

nghiệm mức độ bất đồng pha (tức bước trễ) giữa các biến, ta làm cho các

dao động trở thành đồng pha và do đó, ước lượng một cách tin cậy những

tham số tương quan − hồi quy [1, 61, 104]

Phương pháp luận tương tự đã tỏ ra khả quan trong dự báo những

đặc trưng trạng thái nhiệt, động lực và băng ở đại dương [62, 65,

102,130, 209]

Trong quá trình lựa chọn những biến độc lập tốt nhất cho phương

trình hồi quy tối ưu, người nghiên cứu không phải là hiếm khi đối mặt với

một nghịch lý lạ lùng: thậm chí với một tập hợp lớn những biến độc lập hoàn toàn có căn cứ vật lý vẫn không đảm bảo sự tối ưu của phương trình hồi quy Nguyên nhân của sự nghịch lý này là ở chỗ không thoả mãn những đòi hỏi cơ bản trong khi lập các mô hình hồi quy

Trong nhiều trường hợp, tính tuỳ thuộc lẫn nhau tự nhiên của các quá trình hải dương sinh ra sự liên hệ thống kê tuyến tính giữa các biến độc lập với nhau Thực tế này mâu thuẫn với điều kiện hạn chế ban đầu của mô hình hồi quy đa biến Nếu không tính tới điều đó, sẽ dẫn tới sự bất ổn định tính toán, mà kết cục là ước lượng kém hiệu quả các tham số hồi quy và tính phù hợp thấp của phương trình hồi quy nói chung

Khía cạnh thứ hai của cùng vấn đề này liên quan tới những khó khăn

có tính chất hải dương học thuần tuý, đó là do ít số liệu xuất phát Trong nhiều trường hợp thực tế, số quan trắc chỉ bằng số các biến độc lập đưa vào phương trình Kết quả là sự bất định của nghiệm không cho phép đạt được ước lượng đúng của các tham số hồi quy, và mô hình mất giá trị Thông thường, trong những mô hình tương tự như vậy không thể lý giải được ý nghĩa của những mối liên hệ hồi quy mà ta mô tả

Rõ ràng, phải lựa chọn hết sức cẩn thận các biến xuất phát trước khi ước lượng những tham số hồi quy Tuy nhiên, phải làm gì nếu như những biến "tồi" vẫn tham gia vào mô hình? Trong trường hợp này phải chọn

mô hình hồi quy tốt nhất bằng cách tuyển chọn tuần tự tất cả những phương án biến độc lập xuất phát khả dĩ khác nhau Có rất nhiều phương pháp tuyển chọn Đó là hồi quy từng bước, hệ phương pháp thêm dần và bớt dần, chọn định hướng [3, 15, 122, 140, 144, 157, 158, 163]

Đối với tất cả những phương pháp đã liệt kê, thì các chỉ tiêu chung đánh giá sự tối ưu của phương trình hồi quy là độ phù hợp cao của mô hình theo tiêu chuẩn phương sai của Fisher, độ mô tả cực đại sự biến động của các biến theo hệ số tiên định và độ tin cậy các ước lượng hệ số hồi quy theo chỉ tiêu Student

Trang 8

1.2 PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG QUAN CHUẨN HOÁ

Đặt bài toán phân tích tương quan

Thực tiễn nghiên cứu hải dương học hiện đại nhiều khi đặt ra nhiệm

vụ đánh giá định lượng về mối liên hệ giữa các quá trình khí tượng thủy

văn tại những vùng khác nhau trên Đại dương Thế giới

Thí dụ, nghiên cứu sự liên hệ trong chế độ các trường khí tượng thủy

văn hai biển Hắc Hải và Kaxpi, trước hết đòi hỏi đánh giá mức độ hiệp

đồng dao động ở những điểm khác nhau của hai thủy vực này Có thể

phân tích một tập hợp các chuỗi nhiệt độ (độ muối, mực nước, v.v ) theo

kết quả tính những hệ số tương quan cặp đơn giản giữa những tham số ở

các cặp điểm thuộc hai thủy vực Tuy nhiên, phương pháp này chỉ cho

phép phát hiện những liên hệ địa phương, mà không thể khái quát thành

những liên hệ cho các thủy vực nói chung

Phương pháp phân tích tương quan chuẩn hoá chính là nhằm làm sao

mô tả được mức độ liên hệ tổng quát của hai (hoặc một số) đối tượng

nghiên cứu trọn vẹn theo kết quả phân tích đồng thời một tập hợp những

tham số quan trắc Bản chất toán học của phương pháp phân tích tương

quan chuẩn hoá là tìm những biến đổi trực giao tuyến tính đối với các dấu

hiệu (biến) xuất phát, sao cho chúng vừa mô tả được những đặc điểm

chung nhất của mỗi đối tượng, vừa đồng thời lại tương quan với nhau

càng cao càng tốt Những biến đổi như vậy gọi là những biến chuẩn hoá

Còn sự tương quan giữa chúng gọi là tương quan chuẩn hoá

Rõ ràng, ý tưởng phương pháp phân tích tương quan chuẩn hoá có

nhiều nét giống với cách tiếp cận trong phương pháp các thành phần

chính Sự khác biệt căn bản là ở chỗ: trong phương pháp phân tích tương

quan chuẩn hoá, người nghiên cứu phải biến đổi trực giao một ma trận số

liệu xuất phát, gọi là ma trận khối, mỗi khối của ma trận đó là một tập

quan trắc của một trong những đối tượng khảo sát

X

M

N

Y

M

N

Xo

2M Ro

R11 R12

R21 R22

2M

R*

M

Λ 1 M

A B

M 2M

M

B M

N

Hình 1.2 Sơ đồ tuần tự tổng quát giải bài toán phân tích tương quan

chuẩn hoá hai tập hợp quan trắc X và Y Giả sử có dữ liệu xuất phát dưới dạng hai tập hợp: X gồm những

quan trắc về M1 biến và Y gồm những quan trắc về M2 biến Ta thể

hiện những tập hợp này dưới dạng những ma trận hình chữ nhật có N

dòng và M1 và M cột (hình 1.2) Ta sẽ liên kết các ma trận thành một 2

ma trận số liệu tổng quát, gồm N dòng và M =M1 +M2 cột Ở đây ma trận số liệu tổng quát tạo thành từ hai khối: khối 1 − ma trận X, khối 2 −

ma trận Y Để ước lượng mối liên hệ của các biến ta tính những hệ số

tương quan cặp giữa tất cả các biến trong ma trận số liệu tổng quát

Nhờ kết quả tính toán, ta nhận được ma trận tương quan tổng quát R,

gồm bốn khối: khối 1 − R11 − đặc trưng cho sự tương quan của các biến thuộc ma trận X, khối 2 − R22− đặc trưng cho cho sự liên hệ của các biến thuộc ma trận Y, các khối 3 và 4 đặc trưng cho mức độ tương quan giữa các biến của ma trận X và Y − R12 và R21 Thực chất phương pháp phân tích tương quan chuẩn hoá là tìm những tổ hợp tuyến tính của các nhóm biến nghiên cứu tương quan tối đa với nhau dạng:

Trang 9

Y B V X A

Ui = i , i= i , (1.4) trong đó Ui và Vi− những biến chuẩn hoá, Ai và Bi− những hệ số

chuyển đổi sang các biến chuẩn hoá từ các tập hợp xuất phát

Trong quá trình tính toán phải tuân thủ những điều kiện sau đây:

− Kỳ vọng toán học của các biến chuẩn hoá bằng không:

0

=

− Phương sai của các biến chuẩn hoá được quy chuẩn và bằng 1:

1

2

2)=( )=

Liên hệ giữa các biến chuẩn hoá của hai tập hợp được xác định bằng

giá trị của hệ số tương quan chuẩn hoá ρi:

) ,

i = U V

hệ số này thoả mãn điều kiện cực đại mối liên hệ này:

max

21 T 12

T

→

⋅

=

⋅

=

Sau khi tìm được cặp các biến chuẩn hoá thứ nhất mô tả phần

phương sai liên hệ cao nhất của các tập hợp nghiên cứu, người ta chuyển

sang tính những cặp biến chuẩn hoá tiếp theo Trong quá trình này, phải

tuân thủ điều kiện sao cho cặp biến chuẩn hoá phải phản ánh tối đa tương

quan dư giữa các nhóm, đồng thời tuân thủ điều kiện không tương quan

giữa những biến chuẩn hoá mới U , i+1 V và các biến chuẩn hoá trước i+1

đó

0

22 21

12











⋅













⋅

−

⋅

−

B

A R

L R

R R L

, (1.5)

trong đó Rij − các khối của ma trận tương quan tổng quát, L nhân tử −

Lagrange, A và B các hệ số chuyển đổi cần tìm −

Dạng viết ma trận trên đây có thể viết lại dưới dạng







=

⋅

−

⋅

=

⋅ +

⋅

−

0

, 0

22 21

12 11

B R L A R

B R A R L

Từ hệ phương trình này, nhận được phương trình cơ bản của phương pháp phân tích tương quan chuẩn hoá:

0

− I

R* (1.6)

22 12

1 11

*=R− ⋅R ⋅R−

R là một ma trận tương quan vuông bất đối xứng kích thước M dòng và M cột Kết quả là quá trình giải lại quy

về bài toán các giá trị riêng và các vectơ riêng của ma trận R* Nếu triển khai định thức nằm trong dấu ngoặc của biểu thức (1.6), thì có thể tính được các giá trị riêng Λ, thế những giá trị riêng đó vào phương trình đã cho sẽ cho phép giải phương trình này để nhận những

vectơ riêng A Tính toán biến chuẩn hoá được thực hiện theo công

thức (1.4), còn hệ số tương quan tương ứng với biến chuẩn hoá này được ước lượng theo công thức

i

i= λ

ρ (1.7) Bằng cách như vậy xác định đơn trị dạng của biến chuẩn hoá cho tập hợp thứ hai:

A R R

21

1 22

1

λ (1.8)

Sơ đồ tính toán của phương pháp phân tích tương quan chuẩn hoá

Thủ tục tiến hành phân tích tương quan chuẩn hoá có thể chia ra thành một số giai đoạn chính giúp dễ dàng chương trình hoá [34, 73, 77]:

1 Tính các hệ số tương quan cặp đối với tất cả những biến quan trắc

trong tất cả các tập hợp và lập ma trận tương quan tổng quát R

Trang 10

2 Tách ma trận R thành các khối và tính ma trận phụ trợ:

21

1 22 12

1 11

3 Tính những giá trị riêng λ của ma trận phụ trợ R trên cơ sở *

phương trình đặc trưng nhận được từ điều kiện bằng không của định thức

ma trận:

0

− I

4 Tính những vectơ riêng ( A ) của ma trận phụ trợ R bằng cách *

giải hệ phương trình dạng

0 ) Λ ( * − =

5 Tính những hệ số của vectơ riêng ( B ) cho tập hợp thứ hai Y theo

công thức

A R R

21

1 22

1

6 Tính những hệ số tương quan chuẩn hoá (ρ) theo công thức

i

i= λ

7 Ước lượng M giá trị của các biến chuẩn hoá U và V :

X A

U= ⋅ ,

Y B

V= ⋅

8 Ước lượng lượng mang thông tin tương đối của những biến chuẩn

hoá theo nghĩa chúng mô tả độ biến động chung của các biến được khảo

sát:



= λ

λ

j j

i i

d

1

Ứng dụng phân tích tương quan chuẩn hoá trong hải dương học

Phân tích tương quan chuẩn hoá đối với những quá trình và trường hải dương hiện mới được sử dụng một cách dè dặt Trên cơ sở phân tích những ấn phẩm hải dương học về phương pháp phân tích tương quan chuẩn hoá, rất khó rút ra kết luận giống nhau về những nguyên nhân của

sự dè dặt này, hơn nữa hai mươi năm trước đây trong các công trình của

N A Bagrov [15−19] và G A Karpeev [90, 91] đã phân tích so sánh tỉ

mỉ những ưu việt của việc ứng dụng phương pháp này để giải quyết những bài toán khí tượng thủy văn Chẳng hạn, ở đây đã chỉ ra rằng biến đổi chuẩn hoá cho phép giữ nguyên "thông tin dự báo" không bị sai lệch, còn vai trò của phương pháp phân tích tương quan chuẩn hoá trong khoa học dự báo rất giống vai trò của phương pháp các thành phần chính khi giải quyết những bài toán chẩn đoán

Những kết luận về sau này đã được khẳng định nhiều lần bằng các kết quả tính toán thực nghiệm về phân tích những mối liên hệ của các trường khí tượng và hải dương [58, 220], cũng như trong khi xây dựng những mối phụ thuộc dự báo những trường này [22, 134, 148, 193, 243] Nếu xem xét toàn bộ những kết quả phân tích chuẩn hoá hiện có trong hải dương học nói chung, có thể nhận ra một sơ đồ ứng dụng phương pháp phân tích tương quan chuẩn hoá tổng quát như sau:

− Những tập hợp mẫu được đưa vào khảo sát là những tập hợp trong tọa độ không gian − thời gian;

− Các tác giả thường cố gắng chọn những vectơ quan trắc có cùng (hoặc gần nhau) về kích thước;

− Số tập hợp được khảo sát thường bằng hai;

− Khi giải quyết những bài toán chẩn đoán, những tập hợp được khảo sát được đồng bộ hoá về thời gian; khi ước lượng những mối phụ thuộc dự báo, thường xem xét những mômen tương quan không đồng

Định dạng
Số trang	11
Dung lượng	375,8 KB