Phải nhận thấy rằng, hồi quy tuyến tính đa biến trong thực tế không chỉ là một hệ phương pháp độc lập, mà còn là một bộ phận cấu thành của nhiều phương pháp khác nghiên cứu những mối phụ
Trang 1Chương 1 - MÔ TẢ MỐI LIÊN HỆ CỦA CÁC
QUÁ TRÌNH
1.1 PHÂN TÍCH HỒI QUY ĐA CHIỀU HỒI QUY TUYẾN TÍNH
ĐA CHIỀU
Đặt bài toán
Hiện nay, công cụ hồi quy tuyến tính đa biến là một trong những
phương tiện thống kê toán học được xây dựng hoàn thiện nhất Giống
như nhiều ý tưởng khác, khái niệm phân tích hồi quy được Gauss hình
thành hơn một trăm năm trước đây Hệ phương pháp được áp dụng rộng
rãi hầu như trong tất cả các khoa học ứng dụng, điều đó làm cho nó phát
triển mạnh và thích hợp với nhiều bài toán [70, 80, 139, 140,163, 190]
Trong thực tiễn nghiên cứu khí tượng thủy văn, phương pháp hồi
quy tuyến tính đa biến được sử dụng nhiều nhất để mô tả và dự báo
những biến riêng rẽ trên cơ sở tính đến ảnh hưởng của một số nhân tố tác
động Ngoài ra, phương pháp hồi quy tuyến tính đa biến thường sử dụng
để giải quyết những vấn đề liên quan tới nội suy các trường hải dương
trong không gian cả theo phương thẳng đứng lẫn theo phương ngang
Phải nhận thấy rằng, hồi quy tuyến tính đa biến trong thực tế không chỉ là
một hệ phương pháp độc lập, mà còn là một bộ phận cấu thành của nhiều
phương pháp khác nghiên cứu những mối phụ thuộc giữa các biến [12,
72, 144]
Lời phát biểu tổng quát bài toán hồi quy tuyến tính đa biến dưới đây
có thể phổ biến sang một loạt các mô hình phân tích hồi quy khác Chẳng
hạn, cho trường hợp hồi quy đa thức mà phương trình cơ bản của nó có
thể lập trên cơ sở hồi quy tuyến tính với một phép thay thế biến tương
ứng
Chúng ta muốn mô tả biến động của một biến phụ thuộc như một hàm ảnh hưởng của một nhóm các biến độc lập x1 ,x2 ,x3 , ,x M Giả sử
rằng ảnh hưởng của mỗi trong số M biến độc lập x lên biến phụ thuộc j
y có thể mô tả bằng ảnh hưởng tuyến tính Khi đó phương trình cơ bản
của hồi quy tuyến tính đa biến có dạng
=
+
= +
− +
j
i i i j ij j
y
1
0 ( ) ˆ , (1.1)
trong đó i số hiệu quan trắc trong tập giá trị mẫu độ dài − N ,
(i=1 , ,N), j số hiệu biến độc lập − x ( j j=1 , ,M );
−
M
a a a
a0 , 1 , 2 , , những hệ số hồi quy tuyến tính; x j − trị số trung bình của biến j =
=
N i j
N
x
1
1
; yˆ i − trị số quan trắc thứ i của biến phụ
thuộc, được khôi phục nhờ phương trình hồi quy; e i − sai lệch giữa trị số khôi phục yˆ và trị số quan trắc i y i
Giải bài toán xây dựng mô hình hồi quy tuyến tính đa biến quy về tìm những trị số của các hệ số hồi quy a0 ,a1 ,a2 , ,a M sao cho khôi phục được sự biến thiên của biến phụ thuộc y với các sai số e nhỏ nhất
Vì người nghiên cứu chưa biết những trị số thực của các hệ số hồi quy, nên phải thực hiện ước lượng thống kê những hệ số này dựa trên cực thiểu hoá phương sai sai số s : R
=
→
−
−
i
i i
N
s
1
) ˆ ( 1
1
Phương pháp truyền thống tìm những trị số a0 ,a1 ,a2 , ,a M theo điều kiện này là phương pháp bình phương tối thiểu, hiệu quả sử dụng phương pháp này, và do đó, độ chính xác của phương trình hồi quy tuyến tính đa biến, phụ thuộc vào những điều kiện đơn giản sau:
− Sao cho các sai số hồi quy có trị số trung bình bằng không:
Trang 2=
=
i i
e N
e
1
0 1
(ở đây dấu e chỉ toán tử kỳ vọng toán học của chuỗi e );
− Những biến ảnh hưởng phải độc lập thống kê với nhau:
0 ) , (x j x l = khi j≠ l
Nói cách khác, chúng không tương quan với nhau:
0 ) , (x j x l =
Nếu thoả mãn những tính chất kể trên, việc tính các trị số của những
hệ số hồi quy sẽ quy về giải hệ phương trình chuẩn tắc dạng
,
⋅
⋅
⋅
⋅
=
=
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
i M i
i i i
M M
i i
M i i M i M
i
M i i i
i i
i
M i i
i
y x
y x y
a
a a
x x
x x x x
x x x
x x
x
x x
x N
1
1 0
2 2
1
1 2
1 2
1 1
2 1
trong đó tổng (Σ) lấy theo toàn độ dài tập mẫu gồm N quan trắc Rõ
ràng, khi số lượng biến lớn (M >3) cách viết theo từng thành phần như
trên trở nên rất cồng kềnh Dạng viết ma trận sẽ thuận tiện hơn Độc giả
nên ôn lại những khái niệm cơ bản về đại số ma trận trong [12, 86]
Để chuyển sang dạng viết ma trận, ta đưa ra những khái niệm sau:
−
y vectơ cột các giá trị quan trắc gồm N trị số,
{ − − }−
− 1 , 2 ,
y các giá trị quy tâm theo trung bình số học
=
=
i i
y N a y
1 0
1
;
−
X ma trận các trị số của những biến độc lập, gồm N dòng, M
cột (dòng thứ i là vectơ quan trắc về M biến, cột thứ j là vectơ gồm N
trị số của biến j );
−
A vectơ cột những hệ số hồi quy AT={a0,a1,a2, ,a M};
−
E vectơ cột gồm N sai số của mô hình hồi quy
Với những ký hiệu mới này, phương trình cơ bản của hồi quy tuyến tính đa biến có dạng
E A X
Hệ các phương trình chuẩn tắc để ước lượng những hệ số hồi quy được viết như sau
Y X A X
)
chỉ số T chỉ ma trận chuyển vị hay vectơ chuyển vị (xem [3, 12, 86]) Thấy rằng, nếu chuyển ma trận )(XT ⋅X sang vế phải, nghiệm của hệ phương trình chuẩn tắc sẽ được viết dưới dạng
Y X X X
) ( 1 (1.2) Nghiệm của bài toán hồi quy tuyến tính đa biến dưới dạng (1.2) có một loạt những tính chất đáng giá đối với người nghiên cứu:
− Theo định nghĩa, vectơ giá trị của các hệ số hồi quy
{a0 a1 a2 a M}
T= , , , ,
A làm cực tiểu tổng bình phương các sai số, khẳng định tính tối ưu của mô hình này so với nhiều mô hình khác cùng loại;
− Bản thân những hệ số hồi quy a j là những hàm tuyến tính của các quan trắc Y và là những ước lượng không chệch của những giá trị hệ số
hồi quy thực (nhưng chưa biết);
− Những ước lượng các hệ số hồi quy có phương sai cực tiểu so với tất cả những ước lượng tuyến tính khác
Trang 3Ta sẽ xét một đặc trưng quan trọng nữa của mô hình hồi quy tuyến
tính đa biến, gọi là hệ số tương quan đa biến R Chỉ tiêu này là một đặc 0
trưng định lượng về sự tương tự giữa những trị số y quan trắc và yˆ tính
toán của biến phụ thuộc Hệ số tương quan đa biến tính theo công thức
=
=
=
−
−
−
−
=
N i i N
i
N
y y y
y
y y y y R
1
2 1
2 1
1 0
) ˆ ) (
) ˆ )(
(
(1.3)
Đại lượng R gọi là hệ số xác định, vì nó là đặc trưng khái quát đơn 02
giản về hệ số tương quan r2(x,y) cho trường hợp nhiều biến độc lập và
tỷ lệ với phần phương sai của biến y được mô tả bởi mô hình hồi quy
Trong trường hợp một biến độc lập, ta có đẳng thức )2 2( ,
dàng nhận thấy rằng khi 2 1
0 =
R thì những giá trị quan trắc và tính toán của biến độc lập hoàn toàn trùng nhau
Ý nghĩa của hệ số tương quan đa biến có phần khác so với quan
niệm về hệ số tương quan cặp kinh điển Vấn đề là hệ số tương quan đa
biến có giới hạn biến thiên từ 0 đến 1 và, do đó, nó không cho biết dấu
liên hệ giữa y và tập hợp x1 , ,x M Ngoài ra, đại lượng hệ số tương
quan đa biến có thể lớn hơn hoặc bằng hệ số tương quan cặp cực đại
)
,
r j j trong ma trận số liệu đang xét
Nên giải thích hệ số tương quan đa biến như là đại lượng liên hệ
tuyến tính tổng quát giữa biến phụ thuộc và các biến độc lập đã chọn,
đồng thời là chỉ tiêu về hiệu quả của mô hình hồi quy tuyến tính đa biến
Điều khẳng định này xuất phát từ thực tế rằng bình phương của hệ số
tương quan đa biến về trị số bằng phần phương sai của biến y mà
phương trình hồi quy tuyến tính đa biến có thể mô tả
Ý nghĩa hình học của hồi quy tuyến tính đa biến
Giả sử có hệ tọa độ với ba trục: nhiệt độ, độ muối và mật độ quy ước
của nước (hình 1.1) Mật độ là biến phụ thuộc vào nhiệt độ T và độ muối
S Phương trình hồi quy đa biến cần tìm được viết dưới dạng
i i
i =a0+a1T +a2S
Ở đây đại lượng hệ số
= σ
i i
N
a
1 0
1
là giá trị mật độ trung bình từ tập mẫu hiện có Các giá trị tính được σ làm thành một mặt phẳng
nghiêng với các trục T và S Đại lượng hệ số hồi quy a1 =tg( α1) sẽ tương ứng với góc nghiêng của mặt phẳng hồi quy so với mặt phẳng
) , (σT Đại lượng hệ số hồi quy a2=tg(α2) sẽ tương ứng với góc nghiêng của mặt phẳng hồi quy so với mặt phẳng ( Sσ, ) Đại lượng sai
số e sẽ tương đương khoảng cách từ trị số quan trắc i σi tới hình chiếu của nó lên mặt phẳng hồi quy σˆi
S
T σ
0
ε i
σ
σ i
i
σˆ
α 2
α 2
Hình 1.1 Ý nghĩa hình học của phương trình hồi quy tuyến tính
Tính toán theo mô hình hồi quy tuyến tính đa biến
Ta sẽ xét thuật toán tổng quát tính toán theo sơ đồ hồi quy tuyến tính
đa biến
Trang 41 Tính các ước lượng trung bình số học và độ lệch chuẩn của tất cả
các tham số xuất phát:
=
=
=
i j j
N i
N x y N
y
1 1
1 , 1
,
=
=
−
−
=
−
−
i
j j x
N i
N s y y N
s
j
1
2
1
2 1
1
1
, 1
Lập các vectơ những trị số trung bình và độ lệch chuẩn: x , S x
2 Tính ma trận tương quan R gồm các hệ số tương quan cặp giữa
tất cả các biến:
⋅⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅⋅
⋅
⋅⋅
⋅
=
=
M M M
M M
M M
x x x
x x x y x
x x
x y
yx yx
yx yy
r r
r r
r r
r r
r r
r r
N
X
XT
2 1
1 2
1 1
2 1
1
Các hệ số tương quan thường tính theo những công thức truyền thống và
kiểm tra mức ý nghĩa theo tiêu chuẩn Student
3 Tính các định thức của ma trận tương quan và các ma trận con của
nó Trong hồi quy tuyến tính đa biến, định thức của ma trận tương quan
có dạng
⋅⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅
⋅⋅
⋅
⋅⋅
⋅
=
M M M
M M
M M
x x x
x x x y x
x x
y
yx yx
yx
r r
r r
r r
r
r r
r
1
1 D
2 1
1 2
1 1
2 1
Các ma trận con để tính những định thức dạng D x j tạo ra bằng
cách loại bỏ dòng thứ y và cột thứ x từ ma trận R j
4 Tính các hệ số hồi quy theo các công thức (1.2) hay
yy
xy x
y j
j
j s
s a
D
D
5 Dựa trên các giá trị hệ số hồi quy nhận được lập phương trình hồi
quy và tính các giá trị yˆ :
=
− +
j
j j j
y
1
6 Ước lượng hệ số tương quan đa biến theo công thức (1.3) hay
yy
D
D
7 Tính các ước lượng độ lệch chuẩn cho các hệ số hồi quy và kiểm tra mức ý nghĩa của các tham số hồi quy theo tiêu chuẩn Student (t ): ν
j
j
a
j v yy
y
a t D
D M N
Ns
−
) / (
8 Kiểm tra tính phù hợp chung của mô hình đối với số liệu xuất phát bằng cách tính tiêu chuẩn thực nghiệm Fisher:
R
s
F* = / , trong đó
=
=
−
−
−
=
−
−
i
i i R
N i i
M N s y y N
s
1
2 1
1
1
, ) ( 1
1
Nếu độ lớn của tỷ số F lớn hơn giá trị bảng * F tại mức ý nghĩa đã cho T
và các bậc tự do ν1 =M và ν2 = N−M −1, thì giả thiết về tính phù hợp của mô hình được chấp nhận
Sơ đồ ước lượng các tham số mô hình hồi quy trên đây là sơ đồ tổng quát nhất và thường gặp trong các chương trình phân tích thống kê trên máy tính các loại
Trang 5Sự phức tạp trong khi thực hiện sơ đồ đầy đủ này trên máy tính liên
quan tới vấn đề biểu diễn và xử lý ma trận số liệu trong điều kiện công
suất hạn chế của các máy tính Với những máy tính mạnh hơn, ta có thể
thực hiện tính toán theo sơ đồ đầy đủ của hồi quy tuyến tính đa biến và
tiến hành khảo sát toàn diện về những mối phụ thuộc hồi quy Những
phần mềm trợ giúp thực hiện phân tích hồi quy tuyến tính đa biến trên
máy tính có thể tìm thấy trong [4, 12, 70, 77, 80, 139, 140, 185]
Chẳng hạn, trong đa số các phần mềm đó, ta có thể từng bước loại
bỏ hay bổ sung thêm các biến độc lập nhằm chọn số biến độc lập tối ưu
Ngoài ra, còn có thể biến đổi sơ bộ những biến xuất phát để thể hiện
chúng thuận lợi hơn trong mô hình hồi quy tuyến tính (nhờ các phương
pháp tuyến tính hoá đã biết) Khi kiểm tra tính phù hợp của mô hình hồi
quy tuyến tính đa biến, các thủ tục vẽ đồ thị phần dư trong những phần
mềm này sẽ trợ giúp người nghiên cứu rất nhiều
Ứng dụng hồi quy tuyến tính đa biến trong nghiên cứu hải
dương học
Trong lịch sử, các phương trình hồi quy đã được sử dụng vào nghiên
cứu hải dương học ngay từ khi hình thành khoa học về đại dương Từ
việc tính toán các tham số của phương trình hồi quy một biến, dần dần
với thời gian, các nhà hải dương học chuyển sang sử dụng toàn bộ hệ
thống phương pháp phân tích hồi quy nói chung Xu thế này bắt đầu hình
thành rõ nét vào những năm bảy mươi, khi đó người ta bắt đầu giải quyết
những bài toán về xây dựng mô hình hồi quy tối ưu cho tập mẫu quan
trắc Ngày nay, phương pháp luận phân tích hồi quy có vị trí bền vững
trong nghiên cứu hải dương học ứng dụng Tuy nhiên, vẫn còn những khó
khăn trong việc ứng dụng thực tế phân tích hồi quy trong hải dương học,
thường liên quan tới những vấn đề sau đây:
− Chọn dạng tối ưu của phương trình hồi quy;
− Ước lượng tin cậy những tham số hồi quy
Ta sẽ xét những kinh nghiệm phân tích hồi quy trong hải dương học
có liên quan tới những vấn đề này
Cách tiếp cận hồi quy là cơ sở mô tả những quy luật vật lý cơ bản về
sự phát triển các quá trình đại dương Những công thức tính toán các đặc trưng phát triển và tan băng [62], các tham số tương tác nhiệt giữa đại dương và khí quyển [61] và các biến trong phương trình trạng thái nước biển [27] đều dựa trên nguyên tắc hồi quy tuyến tính
Nếu nhìn lại những thập niên gần đây, thì thấy rõ sự tiến triển nhanh chóng của phần lớn những phương trình hồi quy Thoạt đầu đó là những phương trình bậc thấp, ít tham số Theo mức độ hiểu biết sâu hơn
về những quy luật vật lý và tích luỹ ngày càng nhiều quan trắc, các nhà nghiên cứu hướng tới mô tả chính xác tối đa những mối liên hệ giữa các đặc trưng hải dương học bằng những công thức hồi quy Vì vậy, những phương trình hồi quy thường biến đổi theo hướng là dạng của chúng phức tạp dần
Thứ nhất, ngày càng có nhiều biến độc lập được đưa vào xét bổ sung cho những mối liên hệ tương quan đã phát hiện
Thứ hai, hoàn thiện dần hình thức mô tả các mối phụ thuộc: dưới dạng các biến độc lập, người ta đã sử dụng những đặc trưng tổng hợp, đó
là những tổ hợp khác nhau của những tham số vật lý xuất phát
Xu thế này thể hiện rõ trong các phương trình trạng thái nước biển Hải dương học hiện đại sử dụng nhiều loại phương trình trạng thái thực nghiệm, bắt đầu từ phương trình đơn giản nhất:
S a T
−ρ ρ
và cuối cùng là những công thức của Chang−Millero [87], trong đó liên
hệ giữa mật độ, nhiệt độ, độ muối và áp suất được mô tả bằng đa thức hỗn hợp bậc năm Dạng phương trình cụ thể nào được dùng là tuỳ thuộc vào độ chính xác xấp xỉ mật độ nước mà ta muốn và được xác định chủ yếu bởi tập mẫu quan trắc mật độ, nhiệt độ, độ muối Tuy nhiên, cơ sở
Trang 6của các tính toán hồi quy vẫn là nguyên tắc tuyến tính hoá các mối phụ
thuộc và ước lượng các tham số hồi quy theo phương pháp bình phương
tối thiểu [3, 78]
Khi nghiên cứu phân bố không gian của các trường hải dương,
phương pháp hồi quy được ứng dụng rộng rãi để giải các bài toán nội suy
[25, 27] Những nguyên tắc thường dùng trong hải dương học để xây
dựng bản đồ trên cơ sở khôi phục các giá trị tại mỗi nút của vùng lưới đã
sử dụng ý tưởng xấp xỉ các trường như là những hàm của tọa độ địa lý
Mối phụ thuộc này được mô tả bằng một phương trình hồi quy, bậc của
phương trình, cũng như dạng của các biến, được chọn xuất phát từ điều
kiện sao cho phương trình mô tả đúng những dị thường không gian ở quy
mô đang xét
Quan điểm hồi quy cũng là cơ sở của phương pháp nội suy khách
quan và đồng bộ hoá các trường hải dương [53, 57, 199] Ở đây các
phương trình hồi quy được ước lượng cho từng nút của vùng nước như là
hàm của các quan trắc tại những điểm xung quanh Việc hoà hợp và đồng
bộ hoá các trường cũng được thực hiện bằng cách sử dụng phương pháp
trên đối với những đặc trưng hải dương học khác nhau và đối với những
chuỗi quan trắc [27, 101, 212, 218, 251]
Mô tả hồi quy sự biến động của các đặc trưng hải dương học trong
thời gian có ý nghĩa rất quan trọng trong nghiên cứu đại dương và được
thừa nhận là phương pháp quan trọng nhất để phát hiện ra những quy luật
vật lý Sự phụ thuộc tiềm năng của các quá trình hải dương học trong
không gian và thời gian chính là lý do để người ta tiến tới mô tả sự phụ
thuộc đó bằng các mô hình hồi quy và dự báo được những xu thế phát
triển của các quá trình
Việc xây dựng thành công những mô hình hồi quy về biến động thời
gian của một số đặc trưng hải dương học có vai trò quan trọng, vì nó cho
phép lý giải một cách tin cậy về những dao động đồng thời được điều
khiển bởi những quy luật vật lý vận hành các quá trình thủy vật lý, thủy
hoá học
Ta lấy thí dụ về những nghiên cứu hải dương học nghề cá, mục đích của những nghiên cứu này nhằm mô tả một cách tin cậy những dao động liên quan lẫn nhau của các đặc trưng hải dương học và các đặc trưng sinh học [202], trên cơ sở đó sau này hình thành quy luật tác động của môi trường lên những đối tượng sinh học [108]
Những mối phụ thuộc hồi quy có ý nghĩa đặc biệt khi ta muốn khôi phục những số liệu khuyết trong lưu trữ quan trắc hải dương học Tuy nhiên, ở đây người nghiên cứu động chạm tới vấn đề tính bất đồng nhất của các mối phụ thuộc trong thời gian Chúng ta đã biết rằng, những dao động chu kỳ dài trong hệ thống khí hậu làm phát sinh những hiệu ứng không dừng về kỳ vọng toán học và phương sai trong các chuỗi mẫu Tính không dừng, về phần mình, thể hiện ở sự bất ổn định của những mối liên hệ tương quan, và do đó, trong ước lượng các tham số hồi quy Trước hết, những ảnh hưởng đó làm giảm tính phù hợp của các mô hình hồi quy đã xây dựng Cách thường dùng nhất để khắc phục những khó khăn nêu trên là thay thế những phương trình hồi quy tổng quát bằng những phương trình bộ phận
Nói cách khác, thay vì một mô hình hồi quy chung duy nhất cho toàn khối dữ liệu, người ta xây dựng một số phương trình hồi quy bộ phận Những phương trình này sẽ xấp xỉ tốt hơn các mối liên hệ giữa các biến hải dương học trên một khoảng biến thiên cụ thể và không vận hành tốt trên những khoảng thời gian quan trắc khác
Như vậy, ứng dụng phân tích hồi quy cho phép xây dựng những mô hình tuyến tính từng đoạn và đạt được sự mô tả tối ưu bộ phận về các đặc trưng hải dương học Thí dụ về kiểu mô tả này có thể là kinh nghiệm phân tích hồi quy với các trường nhiệt muối đại dương [25], ở đây đã nhận được một tập hợp những mối phụ thuộc hồi quy giữa nhiệt độ và độ muối cho những độ sâu và những vùng khác nhau ở Đại dương Thế giới Thí dụ khác liên quan tới bài toán kinh điển mô tả hồi quy trắc diện
Trang 7thẳng đứng của những tham số hải dương học Sự phân tầng phức tạp của
đại dương, sự hiện diện của một số đới cấu trúc có cơ chế vật lý hình thành
phân bố thẳng đứng của các đặc trưng hải dương học khác nhau đáng kể,
làm cho chúng ta không thể nhận được những mô hình hồi quy tổng quát
về các trắc diện nhiệt độ, độ muối, mật độ Vì vậy, người ta hay sử dụng
những mô hình tuyến tính từng đoạn, trong đó những tham số của các
phương trình hồi quy được chọn riêng biệt cho từng đới cấu trúc mặt và các
đới ở dưới sâu [54, 55, 89, 106, 166]
Khi mô tả thống kê về biến động thời gian của các đặc trưng hải
dương học, người nghiên cứu phải mô tả tỉ mỉ những bất đồng nhất được
gây nên bởi biến trình mùa của phần lớn những quá trình ở lớp trên đại
dương Theo đó chọn ra những phương trình hồi quy bộ phận để mô tả
những đặc điểm phân bố thẳng đứng của những tham số lớp nước phía
trên và những mối liên hệ của các đặc trưng nhiệt động lực học cơ bản
của khí quyển và đại dương [47, 54]
Lĩnh vực ứng dụng đặc biệt của phân tích hồi quy đa biến là lĩnh vực
dự báo hải dương học Hồi quy đa biến thường hay được xem như là một
hình thức mô tả những mối liên hệ không đồng pha giữa biến phụ thuộc
và các biến độc lập Các phương trình được lập sao cho dao động hiện
thời của các biến độc lập quyết định sự biến động tương lai của biến phụ
thuộc Bằng cách đó tọa độ "thời gian" được biến đổi thành trục tọa độ
các dao động đồng pha − thành không gian pha Bằng cách chọn thực
nghiệm mức độ bất đồng pha (tức bước trễ) giữa các biến, ta làm cho các
dao động trở thành đồng pha và do đó, ước lượng một cách tin cậy những
tham số tương quan − hồi quy [1, 61, 104]
Phương pháp luận tương tự đã tỏ ra khả quan trong dự báo những
đặc trưng trạng thái nhiệt, động lực và băng ở đại dương [62, 65,
102,130, 209]
Trong quá trình lựa chọn những biến độc lập tốt nhất cho phương
trình hồi quy tối ưu, người nghiên cứu không phải là hiếm khi đối mặt với
một nghịch lý lạ lùng: thậm chí với một tập hợp lớn những biến độc lập hoàn toàn có căn cứ vật lý vẫn không đảm bảo sự tối ưu của phương trình hồi quy Nguyên nhân của sự nghịch lý này là ở chỗ không thoả mãn những đòi hỏi cơ bản trong khi lập các mô hình hồi quy
Trong nhiều trường hợp, tính tuỳ thuộc lẫn nhau tự nhiên của các quá trình hải dương sinh ra sự liên hệ thống kê tuyến tính giữa các biến độc lập với nhau Thực tế này mâu thuẫn với điều kiện hạn chế ban đầu của mô hình hồi quy đa biến Nếu không tính tới điều đó, sẽ dẫn tới sự bất ổn định tính toán, mà kết cục là ước lượng kém hiệu quả các tham số hồi quy và tính phù hợp thấp của phương trình hồi quy nói chung
Khía cạnh thứ hai của cùng vấn đề này liên quan tới những khó khăn
có tính chất hải dương học thuần tuý, đó là do ít số liệu xuất phát Trong nhiều trường hợp thực tế, số quan trắc chỉ bằng số các biến độc lập đưa vào phương trình Kết quả là sự bất định của nghiệm không cho phép đạt được ước lượng đúng của các tham số hồi quy, và mô hình mất giá trị Thông thường, trong những mô hình tương tự như vậy không thể lý giải được ý nghĩa của những mối liên hệ hồi quy mà ta mô tả
Rõ ràng, phải lựa chọn hết sức cẩn thận các biến xuất phát trước khi ước lượng những tham số hồi quy Tuy nhiên, phải làm gì nếu như những biến "tồi" vẫn tham gia vào mô hình? Trong trường hợp này phải chọn
mô hình hồi quy tốt nhất bằng cách tuyển chọn tuần tự tất cả những phương án biến độc lập xuất phát khả dĩ khác nhau Có rất nhiều phương pháp tuyển chọn Đó là hồi quy từng bước, hệ phương pháp thêm dần và bớt dần, chọn định hướng [3, 15, 122, 140, 144, 157, 158, 163]
Đối với tất cả những phương pháp đã liệt kê, thì các chỉ tiêu chung đánh giá sự tối ưu của phương trình hồi quy là độ phù hợp cao của mô hình theo tiêu chuẩn phương sai của Fisher, độ mô tả cực đại sự biến động của các biến theo hệ số tiên định và độ tin cậy các ước lượng hệ số hồi quy theo chỉ tiêu Student
Trang 81.2 PHƯƠNG PHÁP PHÂN TÍCH TƯƠNG QUAN CHUẨN HOÁ
Đặt bài toán phân tích tương quan
Thực tiễn nghiên cứu hải dương học hiện đại nhiều khi đặt ra nhiệm
vụ đánh giá định lượng về mối liên hệ giữa các quá trình khí tượng thủy
văn tại những vùng khác nhau trên Đại dương Thế giới
Thí dụ, nghiên cứu sự liên hệ trong chế độ các trường khí tượng thủy
văn hai biển Hắc Hải và Kaxpi, trước hết đòi hỏi đánh giá mức độ hiệp
đồng dao động ở những điểm khác nhau của hai thủy vực này Có thể
phân tích một tập hợp các chuỗi nhiệt độ (độ muối, mực nước, v.v ) theo
kết quả tính những hệ số tương quan cặp đơn giản giữa những tham số ở
các cặp điểm thuộc hai thủy vực Tuy nhiên, phương pháp này chỉ cho
phép phát hiện những liên hệ địa phương, mà không thể khái quát thành
những liên hệ cho các thủy vực nói chung
Phương pháp phân tích tương quan chuẩn hoá chính là nhằm làm sao
mô tả được mức độ liên hệ tổng quát của hai (hoặc một số) đối tượng
nghiên cứu trọn vẹn theo kết quả phân tích đồng thời một tập hợp những
tham số quan trắc Bản chất toán học của phương pháp phân tích tương
quan chuẩn hoá là tìm những biến đổi trực giao tuyến tính đối với các dấu
hiệu (biến) xuất phát, sao cho chúng vừa mô tả được những đặc điểm
chung nhất của mỗi đối tượng, vừa đồng thời lại tương quan với nhau
càng cao càng tốt Những biến đổi như vậy gọi là những biến chuẩn hoá
Còn sự tương quan giữa chúng gọi là tương quan chuẩn hoá
Rõ ràng, ý tưởng phương pháp phân tích tương quan chuẩn hoá có
nhiều nét giống với cách tiếp cận trong phương pháp các thành phần
chính Sự khác biệt căn bản là ở chỗ: trong phương pháp phân tích tương
quan chuẩn hoá, người nghiên cứu phải biến đổi trực giao một ma trận số
liệu xuất phát, gọi là ma trận khối, mỗi khối của ma trận đó là một tập
quan trắc của một trong những đối tượng khảo sát
X
M
N
Y
M
N
Xo
2M Ro
R11 R12
R21 R22
2M
2M
R*
M
M
Λ 1 M
A B
M 2M
M
B M
N
Hình 1.2 Sơ đồ tuần tự tổng quát giải bài toán phân tích tương quan
chuẩn hoá hai tập hợp quan trắc X và Y Giả sử có dữ liệu xuất phát dưới dạng hai tập hợp: X gồm những
quan trắc về M1 biến và Y gồm những quan trắc về M2 biến Ta thể
hiện những tập hợp này dưới dạng những ma trận hình chữ nhật có N
dòng và M1 và M cột (hình 1.2) Ta sẽ liên kết các ma trận thành một 2
ma trận số liệu tổng quát, gồm N dòng và M =M1 +M2 cột Ở đây ma trận số liệu tổng quát tạo thành từ hai khối: khối 1 − ma trận X, khối 2 −
ma trận Y Để ước lượng mối liên hệ của các biến ta tính những hệ số
tương quan cặp giữa tất cả các biến trong ma trận số liệu tổng quát
Nhờ kết quả tính toán, ta nhận được ma trận tương quan tổng quát R,
gồm bốn khối: khối 1 − R11 − đặc trưng cho sự tương quan của các biến thuộc ma trận X, khối 2 − R22− đặc trưng cho cho sự liên hệ của các biến thuộc ma trận Y, các khối 3 và 4 đặc trưng cho mức độ tương quan giữa các biến của ma trận X và Y − R12 và R21 Thực chất phương pháp phân tích tương quan chuẩn hoá là tìm những tổ hợp tuyến tính của các nhóm biến nghiên cứu tương quan tối đa với nhau dạng:
Trang 9Y B V X A
Ui = i , i= i , (1.4) trong đó Ui và Vi− những biến chuẩn hoá, Ai và Bi− những hệ số
chuyển đổi sang các biến chuẩn hoá từ các tập hợp xuất phát
Trong quá trình tính toán phải tuân thủ những điều kiện sau đây:
− Kỳ vọng toán học của các biến chuẩn hoá bằng không:
0
=
− Phương sai của các biến chuẩn hoá được quy chuẩn và bằng 1:
1
2
2)=( )=
Liên hệ giữa các biến chuẩn hoá của hai tập hợp được xác định bằng
giá trị của hệ số tương quan chuẩn hoá ρi:
) ,
i = U V
hệ số này thoả mãn điều kiện cực đại mối liên hệ này:
max
21 T 12
T
→
⋅
⋅
=
⋅
=
Sau khi tìm được cặp các biến chuẩn hoá thứ nhất mô tả phần
phương sai liên hệ cao nhất của các tập hợp nghiên cứu, người ta chuyển
sang tính những cặp biến chuẩn hoá tiếp theo Trong quá trình này, phải
tuân thủ điều kiện sao cho cặp biến chuẩn hoá phải phản ánh tối đa tương
quan dư giữa các nhóm, đồng thời tuân thủ điều kiện không tương quan
giữa những biến chuẩn hoá mới U , i+1 V và các biến chuẩn hoá trước i+1
đó
0
22 21
12
⋅
⋅
−
⋅
−
B
A R
L R
R R L
, (1.5)
trong đó Rij − các khối của ma trận tương quan tổng quát, L nhân tử −
Lagrange, A và B các hệ số chuyển đổi cần tìm −
Dạng viết ma trận trên đây có thể viết lại dưới dạng
=
⋅
⋅
−
⋅
=
⋅ +
⋅
⋅
−
0
, 0
22 21
12 11
B R L A R
B R A R L
Từ hệ phương trình này, nhận được phương trình cơ bản của phương pháp phân tích tương quan chuẩn hoá:
0
− I
R* (1.6)
22 12
1 11
*=R− ⋅R ⋅R−
R là một ma trận tương quan vuông bất đối xứng kích thước M dòng và M cột Kết quả là quá trình giải lại quy
về bài toán các giá trị riêng và các vectơ riêng của ma trận R* Nếu triển khai định thức nằm trong dấu ngoặc của biểu thức (1.6), thì có thể tính được các giá trị riêng Λ, thế những giá trị riêng đó vào phương trình đã cho sẽ cho phép giải phương trình này để nhận những
vectơ riêng A Tính toán biến chuẩn hoá được thực hiện theo công
thức (1.4), còn hệ số tương quan tương ứng với biến chuẩn hoá này được ước lượng theo công thức
i
i= λ
ρ (1.7) Bằng cách như vậy xác định đơn trị dạng của biến chuẩn hoá cho tập hợp thứ hai:
A R R
21
1 22
1
λ (1.8)
Sơ đồ tính toán của phương pháp phân tích tương quan chuẩn hoá
Thủ tục tiến hành phân tích tương quan chuẩn hoá có thể chia ra thành một số giai đoạn chính giúp dễ dàng chương trình hoá [34, 73, 77]:
1 Tính các hệ số tương quan cặp đối với tất cả những biến quan trắc
trong tất cả các tập hợp và lập ma trận tương quan tổng quát R
Trang 102 Tách ma trận R thành các khối và tính ma trận phụ trợ:
21
1 22 12
1 11
3 Tính những giá trị riêng λ của ma trận phụ trợ R trên cơ sở *
phương trình đặc trưng nhận được từ điều kiện bằng không của định thức
ma trận:
0
− I
4 Tính những vectơ riêng ( A ) của ma trận phụ trợ R bằng cách *
giải hệ phương trình dạng
0 ) Λ ( * − =
5 Tính những hệ số của vectơ riêng ( B ) cho tập hợp thứ hai Y theo
công thức
A R R
21
1 22
1
6 Tính những hệ số tương quan chuẩn hoá (ρ) theo công thức
i
i= λ
7 Ước lượng M giá trị của các biến chuẩn hoá U và V :
X A
U= ⋅ ,
Y B
V= ⋅
8 Ước lượng lượng mang thông tin tương đối của những biến chuẩn
hoá theo nghĩa chúng mô tả độ biến động chung của các biến được khảo
sát:
= λ
λ
j j
i i
d
1
Ứng dụng phân tích tương quan chuẩn hoá trong hải dương học
Phân tích tương quan chuẩn hoá đối với những quá trình và trường hải dương hiện mới được sử dụng một cách dè dặt Trên cơ sở phân tích những ấn phẩm hải dương học về phương pháp phân tích tương quan chuẩn hoá, rất khó rút ra kết luận giống nhau về những nguyên nhân của
sự dè dặt này, hơn nữa hai mươi năm trước đây trong các công trình của
N A Bagrov [15−19] và G A Karpeev [90, 91] đã phân tích so sánh tỉ
mỉ những ưu việt của việc ứng dụng phương pháp này để giải quyết những bài toán khí tượng thủy văn Chẳng hạn, ở đây đã chỉ ra rằng biến đổi chuẩn hoá cho phép giữ nguyên "thông tin dự báo" không bị sai lệch, còn vai trò của phương pháp phân tích tương quan chuẩn hoá trong khoa học dự báo rất giống vai trò của phương pháp các thành phần chính khi giải quyết những bài toán chẩn đoán
Những kết luận về sau này đã được khẳng định nhiều lần bằng các kết quả tính toán thực nghiệm về phân tích những mối liên hệ của các trường khí tượng và hải dương [58, 220], cũng như trong khi xây dựng những mối phụ thuộc dự báo những trường này [22, 134, 148, 193, 243] Nếu xem xét toàn bộ những kết quả phân tích chuẩn hoá hiện có trong hải dương học nói chung, có thể nhận ra một sơ đồ ứng dụng phương pháp phân tích tương quan chuẩn hoá tổng quát như sau:
− Những tập hợp mẫu được đưa vào khảo sát là những tập hợp trong tọa độ không gian − thời gian;
− Các tác giả thường cố gắng chọn những vectơ quan trắc có cùng (hoặc gần nhau) về kích thước;
− Số tập hợp được khảo sát thường bằng hai;
− Khi giải quyết những bài toán chẩn đoán, những tập hợp được khảo sát được đồng bộ hoá về thời gian; khi ước lượng những mối phụ thuộc dự báo, thường xem xét những mômen tương quan không đồng