ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG TM TM BÁO CÁO BÀI TẬP LỚN ĐẠI SỐ TUYẾN TÍNH GVHD TS Đặng Văn Vinh Ths Nguyễn Thị Xuân Mỹ NHÓM L06 07 TP HCM, 0[.]
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA
KHOA HỌC ỨNG DỤNG
TM TM
BÁO CÁO BÀI TẬP LỚN
ĐẠI SỐ TUYẾN TÍNH
GVHD: TS Đặng Văn Vinh Ths Nguyễn Thị Xuân Mỹ
NHÓM: L06-07
TP HCM, 04/05/2022
Trang 2DANH SÁCH THÀNH VIÊN NHÓM 07
NHẬN XÉT CỦA GVHD:
………
………
………
………
………
………
………
………
………
………
………
………
………
TP Hồ Chí Minh, ngày 04 tháng 05 năm 2022
Chữ ký Giáo viên hướng dẫn
Đặng Văn Vinh
Trang 3MỤC LỤC
PHẦN I: PHƯƠNG PHAP PHÂN TICH THANH PHẦN CHINH PCA 4
1 Sơ lươc vê phương pháp PCA 4
2 Một sô thuật khái niêm trong toán thông kê 5
3 Cơ sơ lí thuyêt 6
4 Các bước phân tích PCA 7
5 Mô phong thuật toán 8
6 Nhươc điêm cua phương pháp PCA 8
7 Một sô ưng dụng trong linh vưc khác 9
PHẦN II: ƯNG DUNG PCA TRONG HÔI QUY TUYÊN TINH 9
1 Định nghia hồi quy tuyên tính 9
2 Mô ta thuật toán 9
3 Ví dụ minh hoa 10
PHẦN III: TAI LIỆU THAM KHẢO 12
Trang 4ĐỀ TÀI: PHÂN TÍCH THÀNH PHÂN CHÍNH (PCA: PRINCIPLE COMPONENT ANALYSIS) ỨNG DỤNG CỦA PHÂN TÍCH PCA
ĐÊ HỒI QUY TUYẾN TÍNH (LINEAR REGRESSION).
PHÂN I: PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHÂN CHÍNH PCA
1 Sơ lươc vê phương pháp PCA
hiên dưới dạng rất nhiêu giá trị cua nhiêu cá thê Những giá trị ấy tạo thành “đám mây dữ liêu” hêt sưc phưc tạp và viêc phân tích thông tin từ đó gặp rất nhiêu khó khăn
hơn sư tương quan cua các giá trị dữ liêu với nhau, từ đó đưa ra đươc các liên kêt ẩn cua chiêu và làm viêc với chiêu hiêu qua nhất có thê Với những ý tương ấy ta xây dưng đươc phương pháp phân tính thành phần chính PCA (Principle Component Analysis) Phương pháp này đóng vai trò vô cùng quan trong trong các ngành khoa hoc, kỹ thuật, thông kê, kinh tê…
Giam đươc sô chiêu cua dữ liêu
PCA xây dưng một không gian mới ít chiêu hơn nhưng biêu diễn dữ liêu tôt tương đương không gian cũ
Trong không gian mới các liên kêt dữ liêu tiêm ẩn mà ơ không gian cũ khó phát hiên đã có thê đươc khám phá dễ dàng hơn
Trang 52 Môt sô thuât khái niêm trong toán thông kê
a Kì vọng (Me an): giá trị mong muôn, biêu diễn giá trị trung bình cua một biên:
trị, nó cho thấy sư chênh lêch vê giá trị cua từng thời điêm đánh giá so với giá
c Phương sai (Variance): đại lương đặc trưng cho sư phân tán cua các dữ liêu so với giá trị trung bình, từ đó dễ dàng= hình( −dung) đươc dữ liêu ta đang xét:
hai biên ngẫu nhiên (khác với phương sai – đo sư biên thiên đôi với một biên)
Ký hiêu: cov(x,y)
− −
Cov(x,y) =
hiên đầy đu phương sai và hiêp phương sai cua các biên với nhau Từ đó, ta tạo ra một× ma trận hiêp phương sai cua m biên ngẫu nhiên là một ma trận vuông (m m), trong đó, các phần từ nằm trên đường chéo (từ trái sang phai, từ trên
xuông dưới) lần lươt là phương sai tương ưng cua từng biên, trong khi các phần
tử còn lại (không nằm trên đường chéo) là các hiệp phương sai cua đôi một hai
biên ngẫu nhiên khác nhau trong tập hơp
5
Trang 63 Cơ sơ li thuyêt
a Nhân xét
mà vẫn có thê lưu giữ lại những thông tin quan trong Nhưng rất khó đê ta cân nhắc xem
có thê giam đươc bao nhiêu chiêu và những chiêu nào Do đó, cần xây dưng thuật ngữ phương sai hay còn goi là độ phân tán cua dữ liêu Dưa trên
sư so sánh phương sai giữa các chiêu, ta đi đên một khía cạnh quan trong - lương thông tin có trong các chiêu đó Từ đó, ta có thê bo≈ qua các chiêu không quan trong - có phương sai cua chúng là không đáng kê ( 0).
trị cô định, bằng tổng phương sai theo từng chiêu Dữ liêu ban đầu X (D chiêu) có phương sai đáng kê trong tất ca các chiêu, có thê nói rằng các chiêu ban đầu cua dữ liêu
X có một mưc độ quan trong nhất định, ta không thê bo qua các chiêu cua nó Vì vậy, ta cần một sô phép biên đổi đê xoay các chiêu dữ liêu X cho đên khi có K chiêu đê có đươc phương sai lớn nhất Vì phương sai cua dữ liêu X là không đổi, ta có thê nói rằng (D – K) chiêu còn lại tầm quan trong là rất nho (phương sai là không đáng kê) và ta có thê bo qua những chiêu này Cuôi cùng, ta có thê biêu diễn X trên cơ sơ mới với ít "tổn thất" nhất trong không gian có chiêu nho hơn
phương sai anh cua X qua một phép biên đổi là lớn nhất
+ +…+
Giá trị trung bình cua dữ liêu là:
=
Đê đơn gian, uta xét phép biên=đổi P lên không gian một chiêu đươc sinh ra
bơi vecto đơn vị 1, tưc là
6
Trang 7Phương sai cua anh cua X qua phép biên đổi là:
với:
= − ( −)
− =
Tìm giá trị lớn nhất cua 1 1 với 1 u 1 = 1.
Sử dụng phương pháp nhân tử Lagrange cua giai tích hàm nhiêu biên, ta có: L= - (1- )=0u
Điêm dừng xay.ra khi 1 là trị riêng cua S va 1 là vecto riêng cua S tương ưng với trị riêngu 1
4 Các bước phân tich PCA
N-1
X
Bước 3: Tìm trị riêng cua S và sắp xêp theo giá trị giam dần λ1 > λ 2 > …>λm
và tìm các vectơ riêng đơn vị ưng với các giá trị riêng
Bước 4: Chon trị riêng ban đầu và vectơ riêng đơn vị ưng với các trị riêng này.
Lập ma trận A có các cột làXvectơ đã chonX Ma trận A là phép biên đổi cần tìm.
7
Trang 85 Mô phong thuât toán
6 Nhươc điêm cua phương pháp PCA
thiêt chiêu quan trong dữ liêu là chiêu có phương sai độ dữ liêu lớn Tuy nhiên trong thưc
tê thì không phai lúc nào chiêu phân bô dữ liêu lớn cũng mang lại hiêu qua tôt hơn cho viêc phân tích dữ liêu
chiêu có phương sai cua dữ liêu lớn cũng bị anh hương rất đáng kê
Trang 9c Thiêu sot thông tin: mặc dù PCA giữ lại chiêu quan trong nhất đôi với bộ
dữ liêu, tuy nhiên nêu có sai sót trong viêc chon sô chiêu giữ lại thì lương thông tin
mà ta đánh mất sau quá trình phân tích này sẽ rất đáng kê
7 Môt sô ưng dung trong linh vưc khác
PHÂN II: ỨNG DỤNG PCA TRONG HỒI QUY TUYẾN TÍNH
1 Đinh nghia hôi quy tuyên tinh
biên phụ thuộc có giá trị liên tục trong khi các biên độc lập có thê có một trong hai giá trị liên tục hoặc là giá trị phân loại
phụ thuộc (Y) dưa trên giá trị cua biên độc lập (X) Nó có thê đươc sử dụng cho các trường hơp chúng ta muôn dư đoán một sô lương liên tục
trang đã truy cập và một website nào đó, dư đoán giao thông ơ một cửa hàng bán le v.v…
2 Mô ta thuât toán
phăng) cuôi cùng “khớp nhất” với bộ dữ liêu, ta phai tôi thiêu đươc “sư sai khác” giữa các điêm dữ liêu với các điêm mà mô hình hồi quy dư đoán Các bài toán hồi thường đươc giai bằng phương pháp “bình thương cưc tiêu”
Trang 10 Ngoài ra, trong một sô mô hình hồi quy tuyên tính đơn gian, PCA cung cấp cho ta một định nghia cua dạng sai khác là tổng bình phương khoang cách từ các điêm dữ liêu tới “mặt phăng” tạo bơi các thành phần chính sau khi phân tích PCA, từ
đó đưa ra hướng giai quyêt khác đê tìm đường thăng (mặt phăng) khớp nhất
3 Vi du minh họa
clc
close all
clear all
%Create random matrix
Z=randn(1000,2);
%Plot 1
subplot(3,1,1);
scatter(Z(:,1),Z(:,2),'k.');
title('Bieu dien cac diem cua ma tran bat ki tren do
thi'); grid on;
%Prepare the data
Z1=rand(2,2);
X=Z*Z1;
atb=mean(X);
%Plot 2
subplot(3,1,2);
scatter(X(:,1),X(:,2),'b.');
title('Do thi cua du lieu');
Trang 11X2 = [mean(X(:, 1)), mean(X(:, 2))];
X3 = X - X2.*ones(1000,2);
X4 = mean(X3);
S = cov(X3);
[P D] = eig(S);
e1 = P(:,2);
e2 = P(:,1);
d1 = e1(2,1);
d2 = e1(1,1);
%Create function
a = d1/d2;
x1 = X4(1,1);
y1 = X4(1,2);
b = y1 - a*x1;
fprintf('Phuong trinh hoi quy tuyen tinh là: y = %f*x + %f',a,b);
%Plot 3
y = a*x + b; subplot(3,1,3); scatter(X(:,1),X(:,2),'b.') hold on
plot(x,y,'r')
title('Phuong trinh hoi quy tuyen tinh');
grid on
end
11
Trang 12PHÂN III: TÀI LIỆU THAM KHẢO
Gia TP.Hồ Chí Minh, 2020
encyclopedia, 2020
machine learning, the professionals point
http://theprofessionalspoint.blogspot.com/2019/03/advantages-anddisadvantages-of4.html,2020
2020
Principal component analysis
http://pimavn.github.io/pdf/2018/student-papers/pca.pdf, 2018
Learning cơ ban, 2020