-ii- Luận văn nêu cơ sở lý thuyết hai phương pháp phân tích số liệu ñịnh lượng nhiều chiều: Phân tích thành phần chính Phân tích nhân tố Qua ñó, luận văn ñi vào nghiên cứu nhằm xác ñị
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
ỨNG DỤNG PHÂN TÍCH ĐỊNH LƯỢNG NHIỀU CHIỀU VÀO BÀI TOÁN ĐÁNH GIÁ CHẤT LƯỢNG
ĐÀO TẠO Ở TRƯỜNG THPT
Chuyên ngành : Xác suất – Thống kê
Mã ngành : 60 46 15
LUẬN VĂN THẠC SĨ TOÁN HỌC
Người hướng dẫn khoa học:
TS TÔ ANH DŨNG
TP.HCM, tháng 9 năm 2010
Trang 2-i-
Lời ñầu tiên tôi trân trọng kính gửi ñến Thầy hướng dẫn, TS Tô Anh Dũng, lòng
biết ơn chân thành và sâu sắc nhất Thầy ñã rất ân cần và tận tình hướng dẫn, giúp ñỡ tôi nắm ñược từng bước nghiên cứu và giải ñáp những thắc mắc khi tôi gặp phải Tôi xin khắc ghi những lời dạy, sự chỉ bảo ân cần của Thầy trong suốt quá trình học tập và hoàn thành luận văn này
Tôi cũng xin bày tỏ lòng biết ơn sâu sắc ñến quý Thầy, Cô trong và ngoài khoa môn Toán – Tin trường Đại học Khoa Học Tự Nhiên TP Hồ Chí Minh ñã tận tình truyền ñạt kiến thức, kinh nghiệm quý báu cho tôi trong suốt thời gian học tập tại trường
Tôi cũng chân thành cảm ơn quý Thầy, Cô thuộc Bộ môn xác suất thống kê, Phòng Quản lý Sau Đại học trường Đại học Khoa Học Tự Nhiên TP Hồ Chí Minh ñã tạo ñiều kiện thuận lợi ñể tôi hoàn thành chương trình học cũng như trong quá trình làm thủ tục bảo vệ luận văn tốt nghiệp
Xin cảm ơn các anh chị, bạn bè lớp Cao học Toán khóa 17 ñã ñộng viên và nhiệt tình giúp ñỡ tôi trong suốt thời gian qua
Tôi cũng không quên gửi lời biết ơn ñến gia ñình tôi, những người ñã hết lòng lo lắng và luôn ở bên tôi trong những lúc khó khăn nhất
Sau cùng, vì kiến thức bản thân còn hạn chế nên luận văn khó tránh khỏi thiếu xót, tôi rất mong ñược sự chỉ bảo của quý Thầy, Cô và sự góp ý chân thành của các bạn bè ñồng nghiệp Tôi xin chân thành cảm ơn
Trang 3-ii-
Luận văn nêu cơ sở lý thuyết hai phương pháp phân tích số liệu ñịnh lượng nhiều
chiều:
Phân tích thành phần chính Phân tích nhân tố
Qua ñó, luận văn ñi vào nghiên cứu nhằm xác ñịnh chất lượng ñào tạo tác ñộng ñến sự hài lòng của học sinh Trường THCS và THPT Nguyễn Khuyến, với mẫu dữ liệu thu thập ñược từ 517 học sinh của trường
Trong mô hình phân tích số liệu nghiên cứu nói trên, các chỉ báo của khái niệm chất lượng ñào tạo bao gồm: dịch vụ, ñào tạo và vật chất
Các mối quan hệ trong mô hình nghiên cứu ñã ñược phân tích bằng phần mềm SPSS Kết quả nghiên cứu khẳng ñịnh chất lượng dịch vụ ñào tạo ảnh hưởng tích cực ñến sự hài lòng của học sinh
Trang 4-iii-
Trang
Lời cảm ơn i
TÓM TẮT ii
Mục lục iii
Danh mục các hình vẽ và bảng biểu vi
TỔNG QUAN ĐỀ TÀI 1
CHƯƠNG 1: KIẾN THỨC TỔNG QUAN 4
1.1Sơ lược về thống kê 4
1.1.1 Khái niệm 4
1.1.2 Ma trận hiệp phương sai 9
1.1.3 Ma trận tương quan 9
1.2 Quán tính 10
1.2.1 Quán tính và momen quán tính 10
1.2.2 Momen quán tính của một cá thể ñối với một trục 11
1.2.3 Trục quán tính chính của một cá thể Mặt phẳng quán tính chính 12
1.3 Khái niệm không gian p chiều 13
1.4 Giá trị riêng, vectơ riêng 15
CHƯƠNG 2: PHƯƠNG PHÁP PHÂN TÍCH 16
2.1 Phân tích thành phần chính 16
2.1.1 Giới thiệu 16
2.1.2 Định nghĩa thành phần chính 16
2.1.3 Mô tả toán học của phương pháp 17
2.1.3.1 Cơ sở hình học 17
2.1.3.1a Biểu diễn hình học 17
2.1.3.1b Tính chất 19
2.1.3.2 Cơ sở ñại số của các thành phần chính 22
2.1.3.2a Sự thay ñổi tỷ lệ các thành phần chính 25
2.1.3.2b Số lượng thành phần chính 25
2.1.3.2c Tính toán thành phần chính 26
Trang 5-iv-
2.1.4 Phương pháp tìm trục chính trong Rp 30
2.1.5 Tỷ lệ ñóng góp của quán tính 34
2.1.6 Biểu diễn ñám mây ñiểm – cá thể trong siêu phẳng ñã chọn 34
2.1.7 Tìm các thành phần chính trong Rn 34
2.1.7.1 Phương pháp tìm các thành phần chính 34
2.1.7.2 Các giá trị riêng và vectơ riêng của X/X 35
2.1.7.3 Biểu diễn ñám mây ñiểm – biến trong siêu phẳng ñã chọn 35
2.1.8 Nội dung của phân tích thành phần chính 36
2.2 Phân tích nhân tố 37
2.2.1 Giới thiệu 37
2.2.2 Mô hình nhân tố trực giao 39
2.2.2.1 Định nghĩa và các giả thiết 39
2.2.2.2 Tính không duy nhất các hệ số nhân tố tải 39
2.2.3 Ước lượng hệ số nhân tố tải và phương sai tương ñối 46
2.2.4 Chọn số lượng nhân tố 51
2.2.5 Phép quay 52
2.2.5.1 Giới thiệu 52
2.2.5.2 Phép quay trực giao 53
2.2.5.2a Phương pháp ñồ thị 53
2.2.5.2b Phép quayVarimax 53
2.2.5.3 Phép quay Oblique 54
2.2.5.4 Giải thích các nhân tố 54
2.2.6 Nhân số 54
CHƯƠNG 3: ỨNG DỤNG GIẢI BÀI TOÁN THỰC TẾ 57
3.1 Mục tiêu bài toán 57
3.2 Phạm vi và phương pháp nghiên cứu 57
3.3 Phân tích mô tả và kiểm ñịnh thang ño 58
3.4 Rút trích các nhân tố chính của chất lượng ñào tạo 59
3.5 Phân tích nhân tố của khái niệm “sự hài lòng của học sinh ” 60
Trang 6-v-
3.6.1 Phân tích hồi quy bội 60
3.6.2 Kiểm ñịnh giả thuyết nghiên cứu 61
HƯỚNG PHÁT TRIỂN - KẾT LUẬN 63
TÀI LIỆU THAM KHẢO 65
PHỤ LỤC 67
DANH SÁCH CÁC HÌNH VÀ BẢNG BIỂU Hình Trang Hình 1.1 10
Hình 1.2 11
Hình 1.3 11
Hình 1.4 11
Hình 1.5 12
Hình 1.6 12
Hình 1.7a 13
Hình 1.7b 13
Hình 1.8 14
Hình 2.1 31
Hình 2.2 38
Hình 2.3 38
Hình 2.4 56
Bảng Bảng 3.1 Số liệu mẫu 58
Bảng 3.2 Kết quả phân tích nhân tố của “chất lượng ñào tạo” 59
Bảng 3.3 Kết quả phân tích nhân tố của “ sự hài lòng của học sinh” 60
Bảng 3.4 Kết quả phân tích hồi qui chất lượng ñào tạo 61
Bảng 3.5 Kết quả mô hình nghiên cứu 81
Trang 7TỔNG QUAN ĐỀ TÀI
1 TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Trước ñây công tác thống kê diễn ra chủ yếu trong lĩnh vực kinh tế nhà nước, trong các cơ quan thống kê nhà nước ñể thu thập thông tin phục vụ cho việc quản lý kinh tế xã hội của cơ quan chính quyền các cấp Hiện nay, công tác thống kê ñã
ñược chú ý trong các doanh nghiệp ở tất cả các ngành Vì vậy, thống kê ñã trở thành
công cụ không thể thiếu ñược trong hoạt ñộng nghiên cứu cũng như trong công tác thực tiễn Do ñó việc sử dụng thống kê trở nên cần thiết và phổ biến
Để giải quyết những bài toán ứng dụng thực tiễn trong thống kê nhiều chiều ví
dụ như: nghiên cứu thị trường, thị hiếu khách hàng về một sản phẩm nào ñó thuộc ngành kinh tế, phân biệt nhóm bệnh trong ngành y học hay ñánh giá chất lượng học tập… có nhiều phương pháp khác nhau ñược ñưa ra Mối tương quan giữa các phương pháp cũng ñóng vai trò quan trọng trong việc chọn phương pháp giải thích hợp theo yêu cầu bài toán Vì vậy việc xem xét một cách tổng hợp các phương pháp trên là một ñòi hỏi cấp thiết Đề tài giành sự quan tâm cho các bài toán ñịnh lượng
2 MỤC TIÊU NGHIÊN CỨU
Thống kê là một hệ thống các phương pháp thu thập, xử lý và phân tích số (mặt lượng) của các hiện tượng ñể tìm hiểu bản chất và tính quy luật của chúng (mặt chất) trong ñiều kiện thời gian và không gian cụ thể
Phân tích ña biến có rất nhiều phương pháp khác nhau tương ứng với nhiều yêu cầu bài toán khác nhau Biến ñịnh lượng nhiều chiều và các phương pháp dùng
ñể phân tích cũng rất ña dạng Tuy nhiên, ñề tài tập trung nghiên cứu sâu về hai
phương pháp và ứng dụng thực tế nhất là phân tích thành phần chính và phân tích nhân tố, trong ñó xét :
Mặt lượng của sự vật hiện tượng, tức là ñi sâu vào phân tích các biểu hiện bằng số của một tổng thể
Tìm ra các mối quan hệ của các biến một cách rõ ràng nhất và ñưa ra ñánh giá chung cho cả tổng thể
Trang 83 NỘI DUNG NGHIÊN CỨU
Bước 1: Tìm hiểu cơ sở lý thuyết về xác suất thống kê, các phương pháp
phân tích ñịnh lượng nhiều chiều
Bước 2: Thu thập số liệu thống kê về một tổng thể
Bước 3: Tổng hợp phân tích và ñánh giá thống kê
Kỹ thuật phân tích số liệu ñịnh lượng:
Phân tích thành phần chính là một kỹ thuật biểu diễn các số liệu một cách tối
ưu theo một tiêu chuẩn ñại số và hình học ñặc biệt Mục ñích của phân tích thành
phần chính là rút ra thông tin chủ yếu chứa trong bảng số liệu bằng cách xây dựng một biểu diễn ñơn giản hơn với số chiều nhỏ hơn nhưng ñám mây số liệu thể hiện
rõ nhất, mà thông tin không bị sai lạc
Phân tích nhân tố miêu tả và phân loại các cá thể theo các nhân tố, trên mỗi cá thể người ta ño một số lớn chỉ tiêu, bản chất là mô tả hiệp phương sai giữa các biến dưới dạng một vài biến cơ sở, giảm các biến dư thừa bằng cách dùng số lượng nhỏ các nhân tố
Luận văn ñược trình bày theo các chương sau ñây:
Tổng quan ñề tài: Tổng quan về bài toán phân tích số liệu ñịnh lượng trong luận
văn, ñiểm qua các phương pháp phân tích ñồng thời nêu bố cục của luận văn
Chương 1 KIẾN THỨC CƠ BẢN, trình bày các ký hiệu, công cụ thống kê và
các tính chất có liên quan
Chương 2 KHẢO SÁT CÁC PHƯƠNG PHÁP PHÂN TÍCH ĐỊNH
LƯỢNG NHIỀU CHIỀU, phân tích thành phần chính và phân tích nhân tố
Chương 3 ỨNG DỤNG GIẢI BÀI TOÁN THỰC TẾ, ñánh giá chất lượng
ñào tạo của trường THCS và THPT Nguyễn Khuyến, trong ñó sử dụng phần mềm
SPSS phiên bản 16.0 Thông qua phân tích ñưa ra nhận xét ñánh giá và phương hướng phát triển của trường
Hướng phát triển của luận văn ñược trình bày trong phần kết luận
Chương trình nguồn ñể xử lý số liệu ñược ñưa ra ở phần phụ lục
Trang 9
Tiếp theo là phần kết luận, hướng phát triển của luận văn và sau cùng là tài liệu tham khảo
Chương trình: Tác giả sử dụng phần mềm SPSS ñể phân tích thống kê
Phụ lục: Nêu tóm tắt các công ñoạn và kết quả phân tích bài toán thực tế bằng
phần mềm SPSS
Trang 10Chương 1
KIẾN THỨC CƠ BẢN
1.1 SƠ LƯỢC VỀ THỐNG KÊ
1.1 1 Khái niệm
Biến ngẫu nhiên (ñại lượng ngẫu nhiên) là ñại lượng lấy giá trị thực tùy thuộc
vào kết quả ngẫu nhiên của phép thử Các chữ in X Y , , thường dùng ñể ký hiệu các biến ngẫu nhiên và các giá trị của chúng ñược ký hiệu bằng X Y i, i, Biến ngẫu nhiên ñược chia làm hai loại: biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục Biến ngẫu nhiên X ñược gọi là rời rạc nếu mọi tập giá trị có thể có của nó là
hữu hạn hoặc vô hạn ñếm ñược
Biến ngẫu nhiên X ñược gọi là liên tục nếu nó lấy mọi giá trị trong một khoảng
xác ñịnh nào ñó (có thể ñóng hoặc mở, hữu hạn hoặc vô hạn)
Biến ngẫu nhiên rời rạc một chiều
Một hình thức nào ñó cho biết mối quan hệ giữa các giá trị có thể có của biến ngẫu nhiên và xác suất tương ứng ñược gọi là phân phối xác suất của biến ngẫu nhiên ấy Cho X = {x x1, 2, ,x n, }là một ñại lượng ngẫu nhiên rời rạc Vì vậy ñặt
Trang 11Biến ngẫu nhiên liên tục một chiều
Hàm mật ñộ ( hay gọi là mật ñộ xác suất) của X tại ñiểm x là ñạo hàm của
hàm phân phối F x của X tại ñiểm ñó, nếu ñạo hàm này tồn tại Gọi ( ) f x là ( )
hàm mật ñộ xác suất của X tại ñiểm x thì ( ) = '( )
b/ Mod X là giá trị của X có xác suất (tần số) lớn nhất
Nếu X là biến rời rạc thì modX = x j và
≤ ≤
=1
d/ Phương sai là trung bình của bình phương ñộ lệch giữa các giá trị của X
với kỳ vọng của nó Ký hiệu VarX DX, ,σX2 hay µ2(µ2:mômen trung tâm bậc 2) Tức là: 2 ( )2
Trang 12= ∑ − gọi là quán tính của X theo x hay còn gọi là
phương sai hay mômen bậc 2 của X theo x
e/ Độ lệch chuẩn bằng căn bậc hai (dương) của phương sai và ký hiệu
DX
σ =
Vectơ ngẫu nhiên
Cho các biến ngẫu nhiên X X1, 2, ,X xác ñịnh trên kết quả của một phép n
thử Khi ñó ta gọi:
( 1, 2, , n)
Z = X X X là một véctơ ngẫu nhiên n – chiều
Tương tự biến ngẫu nhiên, vectơ ngẫu nhiên cũng có hai loại: rời rạc và liên
tục
Vectơ ngẫu nhiên rời rạc - hai chiều
Cho Z = (X Y, ) là vectơ ngẫu nhiên rời rạc
a/ Bảng phân phối xác suất ñồng thời của Z
Trong ñó X nhận các giá trị x x1, 2, ,x ; Y nhận các giá trị m y y1, 2, ,y ; n
Trang 13b/ Hàm phân phối của Z: ( ), ( , )
là hệ số tương quan giữa X và Y
Vectơ ngẫu nhiên liên tục – hai chiều
Cho vectơ ngẫu nhiên (X Y liên tục , )
a/ Hàm mật ñộ của vectơ ngẫu nhiên (X Y liên tục là hàm , ) f x y xác ñịnh ( ),
trên toàn mặt phẳng có tính chất
( ) ( )
Trang 14Hàm phân phối của (X Y là hàm , )
y x
−∞ −∞
= < < = ∫ ∫ (1.6) c/ Giả sử f x y là hàm mật ñộ ñồng thời của ( ), (X Y Ta cần tìm hàm mât , )
Lấy ñạo hàm F Z ( )z ta tìm ñược hàm mật ñộ f Z ( )z của Z
d/ Kỳ vọng của hàm vectơ ngẫu nhiên (X Y : , )
Giả sử (X Y có hàm mật ñộ ñồng thời , ) f x y và ( ), Z = ϕ(X Y, ) khi ñó
e/ Hiệp phương sai
Cho Z = (X Y, )là vectơ ngẫu nhiên liên tục Ta gọi covarian của Z là
là hệ số tương quan giữa X và Y
Định lý: Với mọi vec tơ ngẫu nhiên (X Y ta có: , )
Trang 15Nhận xét: Nếu X và Y ñộc lập thì cov = 0, do ñó R XY = 0 Khi
0
XY
R = thì chưa chắc X và Y ñộc lập, trong trường hợp này ta nói X và Y không
tương quan với nhau
1.1.2 Ma trận hiệp phương sai
Nếu X là véctơ ngẫu nhiên nhận giá trị bất kỳ trong tổng thể nhiều biến, ma trận hiệp phương sai của X hay của tổng thể là:
L
(1.11)
Phần tử chéo σjj = σ2j là phương sai tổng thể hay của X , và các phần tử σjk
ngoài ñường chéo là hiệp phương sai tổng thể hay của X
Trang 16p
p jk
s s
L
1.2 QUÁN TÍNH 1.2.1 Quán tính và momen quán tính
Đây là một khái niệm cơ bản, trọng tâm của một cá thể Những khái niệm liên
quan ñến momen quán tính ñối với một ñiểm của một chất ñiểm, momen quán tính
ñối với một trục, trục quán tính chính, hệ tọa ñộ quán tính chính ñược sử dụng rất
phổ biến trong phân tích nhân tố cũng như trong phân tích thành phần chính
+G
Trang 17Xét trường hợp một chất ñiểm có khối lượng m cách ñiểm O một ñoạn là d,
momen quán tính của chất ñiểm m so với tâm O ñược ñịnh nghĩa như sau:chất ñiểm
có khối lượng m
Trong trường hợp một cá thể S hình thành bởi k chất ñiểm có khối lượng
m i , mỗi chất ñiểm m i cách O một ñoạn d i , ta gọi momen quán tính của cá thể S so
với tâm O ñược ñịnh nghĩa như sau:
Chú ý: Cho một cá thể S ñược tạo thành bởi k chất ñiểm có khối lượng m 1 ,m 2 ,
…, m k, người ta chứng minh ñược rằng trọng tâm của cá thể chính là ñiểm trong không gian sao cho ñối với nó sẽ có momen quán tính của cá thể là cực tiểu
1.2.2 Momen quán tính của một cá thể ñối với một trục
Xét một chất ñiểm có khối lượng m nằm cách ñường thẳng ∆ một ñoạn là d, momen quán tính của chất ñiểm m so với trục ∆ ñược tính như sau:
Tương tự momen quán tính của một cá thể cấu tạo gồm k chất ñiểm có khối
lượng m m1, 2, ,m ñối với trục ( k ∆), ñược tính như sau:
Trang 181.2.3 Trục quán tính chính của một cá thể Mặt phẳng quán tính chính
Xét một cá thể S ñược hình thành gồm k chất ñiểm có khối lượng
1, 2, , k
m m m và có trọng tâm là G Ta gọi trục chính quán tính chính cấp 1 là
ñường thẳng ∆1 ñi qua G sao cho momen quán tính của cá thể so với trục ∆1là cực
tiểu
Ta gọi trục quán tính chính cấp 2 là ñường thẳng ∆2ñi qua G, thẳng góc với
1
∆ và sao cho momen quán tính của cá thể ñối với ∆2 là cực tiểu Tương tự ta ñịnh
nghĩa cho trục quán tính chính cấp 3 là ñường thẳng ∆3qua G, thẳng góc với cả
…,p với lưu ý là hai trục chính i và (i + 1) là thẳng góc nhau Gọi ∆ là trục ñi qua
trọng tâm G của n chất ñiểm có khối lượng bằng ñơn vị:
Trang 19Trong ñó: Pi hình chiếu của Mi lên trục ∆
Nếu ∆ là trục quán tính chính cấp 1 ta có: 2
min
i i i
∑
Chú ý: Trục quán tính chính cấp 1, trong trường hợp này là trục “tiệm cận”
gần nhất ñối với tất cả các chất ñiểm cấu tạo thành hệ thống ( phương pháp bình phương tối thiểu cho các khoảng cách thẳng góc từ ñiểm xét ñến trục)
1.3 KHÁI NIỆM KHÔNG GIAN P CHIỀU
1.3.1 Không gian 2 chiều ( 3 chiều):
Là một không gian trong ñó có một hệ trục tọa ñộ trực giao ñược hình thành
bởi hai trục ( ba trục) thẳng góc với nhau từng ñôi một Mỗi trục ñược xác ñịnh bởi một vectơ ñơn vị
Trong không gian 2 chiều hoặc 3 chiều ta có thể biểu hiện bằng ñồ thị một
cách tường minh tọa ñộ và vị trí của một ñiểm khi tọa ñộ của chúng ñã biết ( hình
1.7a, 1.7b) Trong trường hợp không gian có p > 3 chiều, ta vẫn ñịnh nghĩa một hệ
trục trực giao có p trục thẳng góc với nhau từng cặp một Như ta ñã biết, trong
Trang 20trường hợp này ta không thể mô tả hệ trục tọa ñộ này một cách tường minh như ñã
làm ở trường hợp p ≤ 3
1.3.2 Một số tính chất cơ bản:
Xét trong không gian 2 chiều ( p = 2) với hai vectơ ñơn vị i→1 ,i→2, gọi u→ là một
vectơ qua O có phương bất kỳ và khi ñó u
2
i→
O i1
→
Trong không gian 3 chiều:
Ta gọi ñiểm M (x1, x2, x3) và Ta có:
1 1 2 2 3 3
u α i α i α i
= + + là tổ hợp tuyến tính của tọa ñộ x1, x2 của ñiểm M
Hình chiếu của M xuống trục U
Trang 21Ta gọi ñiểm M (x1, x2, …, xn) và U
ur
là một trục có vectơ ñơn vị là u
→ Ta có:
Cho f là một toán tử tuyến tính trên Κ Số λ ∈Κ ñược gọi là giá trị riêng
của f nếu tồn tại một vec tơ u ∈V \ 0{ } sao cho f u( ) = λu
Vectơ u ≠ 0ñó gọi là vectơ riêng của f ứng với giá trị riêng λ
1.4.2 Định nghĩa 2
Cho ma trận A ∈M n ( )K , số λ ∈K ñược gọi là giá trị riêng của A nếu tồn
tại vectơ x = (x x1, 2, ,x n) ∈K n \ 0{ } sao cho Ax = λx
Vectơ x ≠ 0 ñó gọi là vectơ riêng của A ứng với giá trị riêng λ
1.4.3 Thuật toán tìm giá trị riêng và vectơ riêng
Cho f là một toán tử tuyến tính trên Κ- không gian vectơ n chiều V và
( )ij n
A = a là ma trận của f trong cơ sở B =(e ,e , ,e1 2 n) Để tìm các giá trị riêng, vectơ riêng của f (và của A) ta tiến hành theo các bước sau:
Bước 1: Lập ña thức ñặc trưng χ λ =A( ) det A( − λI) ( )*
Bước 2: Giải phương trình ñặc trưng χ λ =A( ) 0 ñể tìm các giá trị riêng của f
Bước 3: với mỗi giá trị riêng λ (nếu có) của f , giải hệ phương trình
(A− λI X 0) = ñể tìm các vectơ riêng tương ứng với các giá trị riêng ñó
Trang 22ñầu bằng một tập biến nhỏ hơn gọi là thành phần chính có phương sai cực ñại
Trong phần này công cụ làm việc chủ yếu là ma trận phương sai - hiệp phương sai Σ, giá trị riêng và véctơ riêng tương ứng của Σ Với bảng số liệu cồng kềnh phức tạp khó tổng hợp, và khó thấy thông tin chứa trong ñó Vì vậy mục ñích của phân tích thành phần chính là rút ra thông tin chủ yếu chứa trong bảng số liệu bằng cách xây dựng một biểu diễn ñơn giản hơn, sao cho trong biểu diễn ñó ñám mây số liệu thể hiện rõ nhất, mà thông tin không bị sai lạc
Lĩnh vực ứng dụng của phân tích thành phần chính rất rộng trong công – nông nghiệp, kinh tế, khoa học cơ bản, giáo dục với bảng số liệu mà các cột là các biến
và các dòng là các cá thể, trên ñó ño giá trị các biến
Mục tiêu của chương này là nghiên cứu cơ sở toán học của PCA Sau ñó, ta sẽ ứng dụng phương pháp này vào phân tích các ứng dụng trong chương 3
2.1.2 ĐỊNH NGHĨA THÀNH PHẦN CHÍNH
Khi nghiên cứu ñánh giá một số lượng lớn các biến quan sát, thật hữu ích nếu
làm ñơn giản các phân tích bằng cách xét một số ít các tổ hợp tuyến tính các biến
ban ñầu Ví dụ, ñánh giá thành tích học tập của học sinh Với sự nổ lực ñánh giá,
các nhà quản lý thường cố gắng làm giảm việc ñánh giá trên các ñiểm từ các môn học, nếu việc giảm ấy ñược thực hiện tới mức nhỏ nhất có thể mà làm mất ñi thông
Trang 23∑ ñược gọi là một tổ hợp tuyến tính
chuẩn ( standardized linear combination) hoặc SLC Bằng cách thu hẹp sự chú ý
vào các SLC, chúng ta có thể tạo nên các so sánh có ý nghĩa giữa các lựa chọn riêng
lẽ của các tổ hợp tuyến tính Ví dụ, với các ñiểm kiểm tra, chúng ta có thể tìm ra tổ
hợp tuyến tính với phương sai lớn nhất như là một cách xếp hạng các học sinh và
tách chúng
Phân tích thành phần chính tìm một tập hợp các SLC, ñược gọi là các thành phần chính, chúng trực giao và kết hợp chúng với nhau ñể giải thích tất cả phương sai của dữ liệu nguồn Các thành phần chính ñược ñịnh nghĩa bởi Mardia, Kent và Bibby (1979) như sau:
Nếu x là một vectơ ngẫu nhiên với vectơ giá trị trung bình µ và ma trận hiệp
phương sai S , thì ánh xạ thành phần chính là phép biến ñổi
'
Với Γ trực giao, Γ Γ = Λ'S là ñường chéo, và λ λ1≥ 2≥ ≥ λp ≥0 Thành
phần chính thứ i của x ñược ñịnh nghĩa:
Thành phần chính thứ nhất có phương sai lớn nhất trong số các SLC của x
Tương tự, thành phần chính thứ hai có phương sai lớn nhất trong số các SLC còn lại
của x không tương quan với thành phần chính thứ nhất, v.v
Nói chung, có nhiều thành phần chính Tuy nhiên, vì cách mà chúng ñược tính,
có thể xét một vài thành phần chính, mà có thể giải thích cho hầu hết sự biến thiên
Trang 242 Với p biến trong n
R Thông thường hai biến “gần nhau” nếu n tọa ñộ của
chúng gần nhau Tuy nhiên với ý nghĩa vật lý thì do thứ nguyên ño (ñơn vị ño), do
ñó vấn ñề ñặt ra là liệu ta sẽ ño khoảng cách giữa hai biến như thế nào nếu biến này
là ñộ dài, biến kia là trọng lượng của các cá thể?
Mặt khác, với các cá thể ∈R p, cũng như các biến ∈R nthì liệu có phải chúng ñược gọi là gần nhau nếu mọi thành phần tương ứng của chúng gần nhau, hay chúng chỉ cần có một số phần tử gần nhau còn xa nhau với những cặp phần tử khác?
PCA giúp chúng ta trả lời những câu hỏi ñó Nội dung của nó là tìm trong R n
(trong R ) không gian con số chiều ít hơn thâu tóm tốt nhất ñám mây ñiểm – biến p
(ñiểm – cá thể), sao cho hình ảnh của ñám mây số liệu ñược thể hiện một cách rõ
ràng nhất, tức là những xấp xỉ ño trong không gian con phản ánh tốt nhất các khoảng cách thực
Từ ñó, một mặt có thể loại bỏ những biến không quan trọng, mặt khác, bằng
cách phi thứ nguyên hóa các biến, ta xét các khoảng cách giữa chúng
Nếu biểu diễn ñám mây ñiểm trong siêu phẳng một chiều, thì ta cần tìm ñường thẳng gần ñám mây nhất, và ñám mây sẽ biểu diễn bằng hình chiếu của các ñiểm trên ñường thẳng ñó Sự “gần gũi” của ñám mây với ñường thẳng ñược ño bằng
quán tính của nó theo ñường thẳng ñó
Quán tính là tổng bình phương khoảng cách từ các ñiểm ñến ñường thẳng, nên quán tính càng nhỏ thì ñường thẳng càng gần ñám mây ñiểm, và ngược lại
Trong không gian nhiều chiều của tập dữ liệu ban ñầu, PCA tìm ra các trục mới mà có thể tổng hợp dữ liệu tốt nhất
Để ñạt ñược ñiều ñó PCA chọn trục chính thứ nhất là trục có quán tính nhỏ
nhất, tức là ñường thẳng qua tâm gần ñám mây ñiểm nhất
Trục chính thứ hai là trục qua tâm trực giao với trục chính thứ nhất, và có quán tính của ñám mây theo nó nhỏ nhất
Hai trục này kết hợp tạo thành một mặt phẳng chính thứ nhất, mặt phẳng này
có quán tính của ñám mây theo nó nhỏ nhất Khi ñó ñám mây ñiểm thể hiện trên nó
rõ nhất so với các mặt phẳng khác
Tiếp tục, tìm trục chính thứ ba là ñường thẳng qua tâm và trực giao với hai
trục chính trên và gần ñám mây nhất sau hai trục thứ nhất và thứ hai Với sự có mặt
Trang 25của trục này ta ñược thêm hai mặt phẳng chính nữa ñược tạo nên do trục 1 và trục 3, trục 2 và trục 3
Nếu việc tìm các trục chính ñược tiến hành ñến trục chính thứ q ( q ≤ p n, ) thì
ta ñược một hệ q vectơ trực giao, tạo thành không gian q chiều, mà ñám mây ñiểm
thể hiện trên nó rõ nhất
Về ý nghĩa hình học thì bài toán tìm trục chính tương ñương với bài toán:
Tịnh tiến gốc tọa ñộ về trọng tâm ñám mây
Quay hệ trục tọa ñộ sao cho trong hệ trục mới ñám mây thể hiện rõ nhất, tức là tổng bình phương khoảng cách từ ñám mây ñiểm ñến chúng nhỏ nhất
Trong hệ mới chỉ cần giữ lại q trục chính, từ thứ nhất ñến thứ q ta ñược siêu phẳng q chiều thể hiện rõ nhất ñám mây số liệu
p k
k k
z const
Trang 26Kết quả này xem như một tính chất của ñại số x x có cùng trung bình 1, 2 µ và
ma trận hiệp phương sai Σ Do ñó, y y cũng có cùng trung bình và hiệp phương 1, 2sai lần lượt là B Tµ,B ΣB
y y là hình chiếu của x1, ,x vào không gian con số chiều là q Độ dài thích n
hợp của không gian này ñối với x1, ,x ñược ñịnh nghĩa là tổng bình phương n
khoảng cách vuông góc của x1, ,x Độ dài ño này cực tiểu khi n B= A q
Chứng minh:
Véctơ y là hình chiếu trực giao của i x trên không gian con số chiều là q bởi i
ma trận B Đặt m là vị trí của i y dưới dạng gốc tọa ñộ, và i r i = −x i m i
Trang 27Phép chiếu trực giao của véc tơ 2 chiều lên không gian con 1 chiều
Vì m là hình chiếu trực giao của i y , i r là ñường vuông góc do ñó i r m i T i =0 Hơn nữa, r r là bình phương khoảng cách vuông góc của i T i x Tổng bình i
phương khoảng cách vuông góc của x1, ,x là n
1
n T
i i i
i i i
i i i
Trang 281 1
1 1
i i i
n
T T
i i i
n
i i i
Tóm lại, từ A , (1 tr B TΣB) cực ñại khi B= A q □
2.1.3.2 CƠ SỞ ĐẠI SỐ CỦA CÁC THÀNH PHẦN CHÍNH
Thành phần chính ñầu tiên của các quan sát là tổ hợp tuyến tính của các biến
ban ñầu, phương sai mẫu của nó lớn nhất trong tất cả các tổ hợp tuyến tính Thành phần chính thứ 2 ñược ñịnh nghĩa như tổ hợp tuyến tính của các biến ban ñầu mà
giải thích cho sự tương quan giữa danh mục các phương sai còn lại không tương
quan với thành phần chính ñầu tiên Thành phần tiếp theo ñược ñịnh nghĩa tương tự Bây giờ, câu hỏi phát sinh tìm các hệ số các tổ hợp tuyến tính của các biến ban
ñầu Tính ñại số của các thành phần chính mẫu ñược tổng kết như sau: thành phần
chính thứ nhất của các quan sát, y1, là tổ hợp tuyến tính
1 11 1 12 2 1q 1q
y =a x +a x + +a x (2.3) Với phương sai mẫu là lớn nhất trong tất cả các tổ hợp tuyến, vì phương sai của y1 có thể tăng không gới hạn bởi việc gia tăng các hệ số a11,a12, ,a1q (ta sẽ viết như 1 vecto a1) nên một giới hạn phải ñược ñặt cho các hệ số này Có thể nhận ra một ràng buộc là tổng bình phương các hệ số, '
1 1
a a nên nhận một giá trị, mặc dù các ràng buộc khác thì hợp lý
Thành phần thứ 2, y2, là tổ hợp tuyến tính
y2 =a x21 1+a x22 2+ a x2q 1q (2.4) nghĩa là , '
Trang 29Với ñiều kiện 2 ñảm bảo rằng y1 và y2 không tương
Tương tự thành phần chính thứ j là tổ hợp tuyến '
y =a x (2.5) Với phương sai lớn nhất với ñiều kiện '
Để cực ñại hàm các biến với một hoặc nhiều ràng buộc, ta dùng phương pháp
nhân tử Lagrange Phương pháp này hướng dẫn ñể giải quyết a1 là vectơ riêng của
ma trận hiệp phương sai mẫu, S, tương ứng với giá trị riêng lớn nhất của nó
Các thành phần khác ñược xây dựng bằng hình thức tương tự, với a j là vectơ riêng của S tương ứng với giá trị riêng lớn nhất thứ j
Nếu các giá trị riêng của S là λ λ1, 2, ,λq, thì '
j
p của tổng sự biến thiên của các dữ liệu ban ñầu, với
( )
j j
p trace s
λ
=
(2.9)
Về mặt hình học, thật dễ dàng ñể thấy rằng thành phần chính ñầu tiên ñịnh
nghĩa ñường thích hợp nhất (trong ý nghĩa bình phương bé nhất) với các quan sát q
chiều trong mẫu Vì thế các quan sát này có thể ñược mô tả, trình bày trong một chiều bằng cách lấy hình chiếu của nó trên ñường này, nghĩa là, tìm ra ñiểm thành phần chính ñầu tiên của chúng Nếu các quan sát xảy ra tuyến tính trong q chiều,
Trang 30những mô tả này sẽ giải thích cho sự biến thiên dữ liệu và ma trận hiệp phương sai mẫu sẽ có một giá trị riêng khác 0 Dĩ nhiên, trong thực tế ñường thẳng thì hoàn
toàn không thích hợp, và một cải tiến ñược cho bằng hình chiếu của quan sát q
chiều vào không gian thích hợp nhất, ñiều này ñược ñịnh nghĩa bởi 2 thành phần
chính ñầu tiên Tóm lại, m thành phần ñầu tiên khớp nhất trong m chiều Nếu các
quan sát thích hợp với không gian m chiều, nó ñược biểu diễn bởi sự hiện diện của
q −mgiá trị riêng khác 0 của ma trận hiệp phương sai Điều này ám chỉ sự có mặt
của q −mquan hệ tuyến tính của các biến Thỉnh thoảng các ràng buộc ñược xem như là các quan hệ cấu trúc
Giải thích của các thành phần chính trong nội dung sau là về mặt các trị riêng
và vectơ riêng của ma trận hiệp phương sai S Tuy nhiên trong thực tế, thật tốt ñể rút ra các thành phần từ ma trận hiệp tương quan R , nó không khó ñể xác ñịnh
Nếu chúng ta tưởng tượng một tập dữ liệu nhiều chiều với các biến
1, 2, , q
x x x khác loại nhau Ví dụ như: chiều dài, nhiệt ñộ, khối lượng,…thì cấu
trúc các thành phần chính nhận từ ma trận hiệp phương sai sẽ phụ thuộc vào việc
lựa chọn ñơn vị ño lường Ví dụ, chiều dài thay ñổi từ ñơn vị cm sang ñơn vị inch thì sẽ thay ñổi các thành phần nhận ñược Thêm vào ñó, nếu có sự thay ñổi
khác biệt lớn giữa phương sai của các biến ban ñầu, thì các phương sai của nó lớn
nhất sẽ quay về chi phối các thành phần trước
Sự tương quan hay phương sai giữa các biến ban ñầu và các thành phần nhận
ñược thường hữu ích trong giải thích phân tích thành phần chính Chúng có thể ñược trình bày như sau:
Hiệp phương sai của biến I với thành phần j ñược cho bởi :
i i
r =a λ (2.12) Do ñó trong hợp này ñộ lệch chuẩn s i là ñơn vị
Trang 312.1.3.2a Sự thay ñổi tỷ lệ các thành phần chính
Lấy các vectơ a a1, 2, ,a q, ñịnh nghĩa các thành phần chính ñược dùng ñể xây dựng ma trận q q× , A= a a1, 2, ,a q.Sắp xếp các giá trị riêng λ λ1, 2, ,λq vào ñường chéo của ma trận ñường chéo ∧
Sau ñó ta có thể chỉ ra ma trận hiệp phương sai của các biến quan sát x x1, 2, ,x q
ñược cho bởi: '
s= ∧A A
(Ở ñây chúng ta nhận ñược a a1, 2, ,a q, từ ma trận S hơn là ma trận R)
Sự thay ñổi tỷ lệ các vecto a a1, 2, ,a q ñể mà tổng bình phương của các phần tử
của chúng bằng giá trị riêng tương ứng Nghĩa là tính * 12
a =λ a , S có thể viết ñơn giản là: * * '
Như ñã nói ở phần trước, phân tích thành phần chính là một kỹ thuật chuyển
ñổi tập các biến quan sát thành tập các biến mới, có thể giải thích tốt cho các biến
ban ñầu
Trong mỗi ứng dụng, một quyết ñịnh mà ta phải làm ñó là nên giữ lại bao nhiêu thành phần chính ñể có thể tổng hợp dữ liệu hiệu quả nhất Ta có 4 phương
pháp ñể xác ñịnh số thành phần chính nên giữ lại:
• Giữ lại ñủ các thành phần ñể giải thích cho một tỷ lệ phần trăm lý thuyết của tổng phương sai, gợi ý là khoảng 80%
• Giữ lại các thành phần có các giá trị riêng lớn hơn trung bình của các giá trị riêng
q i
i= λ q
∑ Trong ma trận tương quan thì trung bình này bằng 1
Trang 32• Dùng biểu ñồ srcee graph, biểu ñồ vẽ các trị riêng λi và các i Ta nhìn vào
khoảng cách, ñoạn ngắt tự nhiên giữa các giá trị riêng lớn nhất và giá trị
riêng nhỏ nhất (ñoạn nào lớn ta sẽ chọn)
• Kiểm ñịnh ý nghĩa của các thành phần lớn hơn, nghĩa là, các thành phần tương ứng với giá trị riêng lớn hơn
2.1.3.2c Tính toán thành phần chính:
Nếu chúng ta quyết ñịnh rằng ta cần m thành phần chính ñể tương ứng với dữ
liệu của chúng ta ( dùng một trong số các phương pháp ñược mô tả ở phần trước),
thì ta sẽ tính các ñiểm trên mỗi thành phần này cho mỗi cá thể trên mẫu Ví dụ, nếu
ta lấy ñược các thành phần từ ma trận hiệp phương sai, S , thì m ñiểm thành phần
chính cho i cá thể với vectơ qx của các giá trị biến 1 x , ñạt ñược như sau: i
1
2
' 1 ' 2
Nếu các thành phần nhận ñược từ ma trận tương quan, thì x sẽ chứa các ñiểm i
chuẩn của cá thể i cho mỗi biến
Tỷ lệ thành phần chính tính như trên có các phương sai bằng λj,
1, 2, ,
j = m Có nhiều ñiều tra viên thích có các ñiểm với các giá trị trung bình
bằng “không” và các phương sai bằng “ñơn vị” Các ñiểm có thể ñược tìm như sau:
m m
z = Λ− A x
Với A là ma trận ñường chéo cấp mxm , với m λ λ1, 2, ,λmnằm trên ñường
chéo chính, A m = [a a1, 2, ,a m], và x là vectơ các ñiểm cấp qx 1
Ở ñây chúng ta ghi chú m scores thành phần chính giống nhau, liệu chúng ta
giữ lại tất cả q thành phần hoặc chỉ m thành phần ñầu tiên
2.1.3.2d.Các thành phần chính của dữ liệu hai chiều với hệ số tương quan
Trước khi chúng ta ứng dụng thực tế phương pháp phân tích thành phần chính,
sẽ hữu ích ñể nhìn vào một số chi tiết toán học của các phương pháp trong một số
trường hợp cơ bản
Trang 33Các thành phần chính của dữ liệu hai chiều với hệ số tương quan r Giả sử ta
có hai biến x x1, 2, ñược ño trên một mẫu các cá thể, với ma trận hệ số tương quan mẫu ñược cho bởi:
1.0
1.0
r R
r
Để tìm thành phần chính của dữ liệu r, ta phải tìm các giá trị riêng và vectơ R
Các giá trị riêng là nghiệm của phương trình : R−λI =0
Điều này dẫn ñến phương trình bậc hai theo λ : 2 2
(1 −λ) − =r 0 Cho các giá trị riêng λ1= +1 r; λ2 = −1 r Chú rằng tổng các giá trị riêng là 2, bằng trace R( )
Vectơ riêng tương ứng với λ1 thu ñược bằng cách giải phương trình
Chú ý: Nếu r < 0 , do ñó thứ tự của các giá trị riêng và các thành phần chính bị
ñảo ngược; nếu r = 0, cả các giá trị riêng bằng 1 lẫn hai nghiệm tại gốc phải có thể ñược chọn ñể biểu diễn hai thành phần chính
Ngoài ra còn hai ñiểm: Có một dấu hiệu tùy ý trong sự lựa chọn các phần a i; chọn a i1 dương
Các thành phần không phụ thuộc váo r, mặc dù tỷ lệ của phương sai giải thích bởi mỗi thay ñổi với r Khi r tiến tới 1, tỷ lệ của phương sai ñược giải thích bởi y1,
ñó là (1+ r)/2, cũng tiến tới 1
Trang 34Khi r = 1, tất cả các ñiểm, các ñường trên một ñường thẳng và sự biến thiên trong tập dữ liệu thì không thứ nguyên
Đặt βk là k cột của B, khi ñó các cột của A hình thành một cơ sở trong
không gian p chiều, ta có
1
, 1, 2, ,
p
k jk j j
Các cột của C cũng trực giao Ma trận C xem q cột ñầu tiên là ma trận trực
giao D (p×p) nhưng các hàng của D là trực chuẩn thỏa d d T j j =1, j=1,p Vì các hàng của C bao gồm q phần tử ñầu tiên của hàng D, tức là c c T j j ≤1, j=1,p,
2 1
1
q jk k
c
=
≤
Trang 35Ta có 2
1
q jk k
c
=
∑ là hệ số của λj trong (2.13), tổng các hệ số này là q từ (2.14),
không có hệ số nào vượt quá 1, từ (2.15)
j k q c
tơ riêng của Σ, nhưng lần này theo thứ tự ngược lại, bắt ñầu với giá trị riêng bé nhất Ý tưởng chứng minh A tương tự với 1 A 2
λ α α
=
Σ =∑ □
Tính chất A : 4
Trong A A , xét 1, 2 y=B x T Nếu det(Σy) là ñịnh thức của ma trận hiệp phương
sai y , khi ñó det(Σy) ñạt cực ñại khi B= A q
Trang 36Chứng minh:
Xét số nguyên k, 1≤ ≤k q, ñặt S là không gian con p chiều gồm các véc tơ k
1, 2, , k 1
α α α − trực giao Khi ñó dim(S k)= − +p k 1, dim(S k) là số chiều của S , k λk
là giá trị riêng thứ k của Σ thỏa
0
''
k
k S
Sup
α α
α αλ
T T
k T
B B
γ λ µ
γ γ
Xét không gian con S% bao gồm p véc tơ B k γ, với γ trong T k
dim(S%k)=dim( )T k =k (vì B tương ứng một ñối một)
Ta có: dim(S k IS%k)+dim(S k +S%k)=dimS k +dimS%k
k=
Σ = Π(giá trị riêng thứ k của B TΣB)
1
q k
Trang 37Gọi a là ñường thẳng qua gốc O, ñường thẳng này là giá của véctơ ñơn vị u,
'
n
x u
x u Xu
Hình 2.1 Phép chiếu trực giao của véctơ 2 chiều lên không gian con 1 chiều
Theo tiêu chuẩn bình phương bé nhất, ta cần tìm:
Trang 38=
∑ tức là tìm max u u1'Σ 1 Như vậy ñể tìm trục chính thứ nhất a1, ta tìm u1 sao cho: u X Xu1' ' 1 →max
với ñiều kiện u u1 1' =1
trận phương sai – hiệp phương sai, vì số liệu ñã ñược qui tâm
Như vậy bài toán là:
Tìm u1 sao cho : u M u1' 0 1 →max
với ñiều kiện u u1 1' =1
Nghĩa là ñó cũng là bài toán tìm u1 sao cho : ' ( ' )
1 0 1 1 1 1 max
u M u −λ u u − → , trong ñó λ là nhân tử Lagrange
Muốn vậy ta phải có:
λλ
Trang 39Chọn giá trị lớn nhất λ1ta tìm ñược vectơ riêng tương ứng u1, u1 2 =1, do ñó
xác ñịnh ñược a1
Ta có tổng bình phương ñộ dài hình chiếu của N trên a hay tổng bình phương
khoảng cách từ các ñiểm N ñến a⊥(quán tính của N theo phần bù trực giao của a ):
Tiếp tục tìm trục chính thứ hai a2, trực giao với a1, sao cho I N(a2)nhỏ nhất
muốn như vậy ta giải hệ phương trình:
Bằng phương pháp nhân tử Lagrange,
Và λ là nghiệm của phương trình M0−λI =0
Giá trị riêng lớn thứ haiλ2cho tương ứng vec tơ riêng u=u2 và do ñó cho trục chính thứ hai a 2
Tương tự ñể tìm trục chính thứ q a, q(q≤ p n, )ta giải hệ phương trình:
'
2 0 2 '
2 2 '
2 1
10
Trang 40
' 0 ' '
o TrM
λ
=
∑
2.1.6 Biểu diễn ñám mây ñiểm – cá thể trong siêu phẳng ñã chọn:
Ta chiếu các vec tơ cá thể x trên siêu phẳng tạo bởi q trục chính ñầu tiên ñã i
chọn Vì u j 2 =1, nên tọa ñộ ( ñộ dài hình chiếu ) của x trên i a là:
'
ij i j
z = x u (**)
Các ñiểm x mà tọa ñộ của chúng trong siêu phẳng thỏa mãn (**) cho hình ảnh i
của ñám mây số liệu trong siêu phẳng
2.1.7 Tìm các thành phần chính trong Rn
Mỗi cột của X n p, là một vec tơ – biến ∈R n Tương tự với việc tìm trục chính trong Rp, việc tìm vec tơ ñơn vị v∈R n sao cho giá trị của nó thể hiện tốt nhất ñám
mây p ñiểm – biến ∈R n dẫn ñến việc tìm max ( cực ñại) tổng bình phương các hình
chiếu của p ñiểm – biến trên v , các hình chiếu ñó chính là p thành phần chính của