1. Trang chủ
  2. » Tất cả

Báo cáo bài tập lớn đại số tuyến tính phương pháp phân tích thành phân chính pca

12 60 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Thành Phần Chính PCA
Tác giả Lương Đình Khoa, Dương Phước Lộc, Trần Thụy Thùy Ngân, Nguyễn Quang Phong, Trần Đoàn Nhật Vy, Lê Anh Tuấn
Người hướng dẫn TS. Đặng Văn Vinh, Ths. Nguyễn Thị Xuân Mỹ
Trường học Đại Học Bách Khoa - Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Khoa Học Ứng Dụng
Thể loại Báo cáo
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 12
Dung lượng 201,12 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG TM TM BÁO CÁO BÀI TẬP LỚN ĐẠI SỐ TUYẾN TÍNH GVHD TS Đặng Văn Vinh Ths Nguyễn Thị Xuân Mỹ NHÓM L06 07 TP HCM, 0[.]

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA

KHOA HỌC ỨNG DỤNG

TM TM

BÁO CÁO BÀI TẬP LỚN

ĐẠI SỐ TUYẾN TÍNH

GVHD: TS Đặng Văn Vinh Ths Nguyễn Thị Xuân Mỹ

NHÓM: L06-07

TP HCM, 04/05/2022

Trang 2

DANH SÁCH THÀNH VIÊN NHÓM 07

NHẬN XÉT CỦA GVHD:

………

………

………

………

………

………

………

………

………

………

………

………

………

TP Hồ Chí Minh, ngày 04 tháng 05 năm 2022

Chữ ký Giáo viên hướng dẫn

Đặng Văn Vinh

Trang 3

MỤC LỤC

PHẦN I: PHƯƠNG PHAP PHÂN TICH THANH PHẦN CHINH PCA 4

1 Sơ lươc vê phương pháp PCA 4

2 Một sô thuật khái niêm trong toán thông kê 5

3 Cơ sơ lí thuyêt 6

4 Các bước phân tích PCA 7

5 Mô phong thuật toán 8

6 Nhươc điêm cua phương pháp PCA 8

7 Một sô ưng dụng trong linh vưc khác 9

PHẦN II: ƯNG DUNG PCA TRONG HÔI QUY TUYÊN TINH 9

1 Định nghia hồi quy tuyên tính 9

2 Mô ta thuật toán 9

3 Ví dụ minh hoa 10

PHẦN III: TAI LIỆU THAM KHẢO 12

Trang 4

ĐỀ TÀI: PHÂN TÍCH THÀNH PHÂN CHÍNH (PCA: PRINCIPLE COMPONENT ANALYSIS) ỨNG DỤNG CỦA PHÂN TÍCH PCA

ĐÊ HỒI QUY TUYẾN TÍNH (LINEAR REGRESSION).

PHÂN I: PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHÂN CHÍNH PCA

1 Sơ lươc vê phương pháp PCA

hiên dưới dạng rất nhiêu giá trị cua nhiêu cá thê Những giá trị ấy tạo thành “đám mây dữ liêu” hêt sưc phưc tạp và viêc phân tích thông tin từ đó gặp rất nhiêu khó khăn

hơn sư tương quan cua các giá trị dữ liêu với nhau, từ đó đưa ra đươc các liên kêt ẩn cua chiêu và làm viêc với chiêu hiêu qua nhất có thê Với những ý tương ấy ta xây dưng đươc phương pháp phân tính thành phần chính PCA (Principle Component Analysis) Phương pháp này đóng vai trò vô cùng quan trong trong các ngành khoa hoc, kỹ thuật, thông kê, kinh tê…

Giam đươc sô chiêu cua dữ liêu

PCA xây dưng một không gian mới ít chiêu hơn nhưng biêu diễn dữ liêu tôt tương đương không gian cũ

Trong không gian mới các liên kêt dữ liêu tiêm ẩn mà ơ không gian cũ khó phát hiên đã có thê đươc khám phá dễ dàng hơn

Trang 5

2 Môt sô thuât khái niêm trong toán thông kê

a Kì vọng (Me an): giá trị mong muôn, biêu diễn giá trị trung bình cua một biên:

trị, nó cho thấy sư chênh lêch vê giá trị cua từng thời điêm đánh giá so với giá

c Phương sai (Variance): đại lương đặc trưng cho sư phân tán cua các dữ liêu so với giá trị trung bình, từ đó dễ dàng= hình( −dung) đươc dữ liêu ta đang xét:

hai biên ngẫu nhiên (khác với phương sai – đo sư biên thiên đôi với một biên)

Ký hiêu: cov(x,y)

− −

Cov(x,y) =

hiên đầy đu phương sai và hiêp phương sai cua các biên với nhau Từ đó, ta tạo ra một× ma trận hiêp phương sai cua m biên ngẫu nhiên là một ma trận vuông (m m), trong đó, các phần từ nằm trên đường chéo (từ trái sang phai, từ trên

xuông dưới) lần lươt là phương sai tương ưng cua từng biên, trong khi các phần

tử còn lại (không nằm trên đường chéo) là các hiệp phương sai cua đôi một hai

biên ngẫu nhiên khác nhau trong tập hơp

5

Trang 6

3 Cơ sơ li thuyêt

a Nhân xét

mà vẫn có thê lưu giữ lại những thông tin quan trong Nhưng rất khó đê ta cân nhắc xem

có thê giam đươc bao nhiêu chiêu và những chiêu nào Do đó, cần xây dưng thuật ngữ phương sai hay còn goi là độ phân tán cua dữ liêu Dưa trên

sư so sánh phương sai giữa các chiêu, ta đi đên một khía cạnh quan trong - lương thông tin có trong các chiêu đó Từ đó, ta có thê bo≈ qua các chiêu không quan trong - có phương sai cua chúng là không đáng kê ( 0).

trị cô định, bằng tổng phương sai theo từng chiêu Dữ liêu ban đầu X (D chiêu) có phương sai đáng kê trong tất ca các chiêu, có thê nói rằng các chiêu ban đầu cua dữ liêu

X có một mưc độ quan trong nhất định, ta không thê bo qua các chiêu cua nó Vì vậy, ta cần một sô phép biên đổi đê xoay các chiêu dữ liêu X cho đên khi có K chiêu đê có đươc phương sai lớn nhất Vì phương sai cua dữ liêu X là không đổi, ta có thê nói rằng (D – K) chiêu còn lại tầm quan trong là rất nho (phương sai là không đáng kê) và ta có thê bo qua những chiêu này Cuôi cùng, ta có thê biêu diễn X trên cơ sơ mới với ít "tổn thất" nhất trong không gian có chiêu nho hơn

phương sai anh cua X qua một phép biên đổi là lớn nhất

+ +…+

 Giá trị trung bình cua dữ liêu là:

=

 Đê đơn gian, uta xét phép biên=đổi P lên không gian một chiêu đươc sinh ra

bơi vecto đơn vị 1, tưc là

6

Trang 7

Phương sai cua anh cua X qua phép biên đổi là:

với:

= − ( −)

− =

 Tìm giá trị lớn nhất cua 1 1 với 1 u 1 = 1.

Sử dụng phương pháp nhân tử Lagrange cua giai tích hàm nhiêu biên, ta có: L= - (1- )=0u

 Điêm dừng xay.ra khi 1 là trị riêng cua S va 1 là vecto riêng cua S tương ưng với trị riêngu 1

4 Các bước phân tich PCA

N-1

X

Bước 3: Tìm trị riêng cua S và sắp xêp theo giá trị giam dần λ1 > λ 2 > …>λm

và tìm các vectơ riêng đơn vị ưng với các giá trị riêng

Bước 4: Chon trị riêng ban đầu và vectơ riêng đơn vị ưng với các trị riêng này.

Lập ma trận A có các cột làXvectơ đã chonX Ma trận A là phép biên đổi cần tìm.

7

Trang 8

5 Mô phong thuât toán

6 Nhươc điêm cua phương pháp PCA

thiêt chiêu quan trong dữ liêu là chiêu có phương sai độ dữ liêu lớn Tuy nhiên trong thưc

tê thì không phai lúc nào chiêu phân bô dữ liêu lớn cũng mang lại hiêu qua tôt hơn cho viêc phân tích dữ liêu

chiêu có phương sai cua dữ liêu lớn cũng bị anh hương rất đáng kê

Trang 9

c Thiêu sot thông tin: mặc dù PCA giữ lại chiêu quan trong nhất đôi với bộ

dữ liêu, tuy nhiên nêu có sai sót trong viêc chon sô chiêu giữ lại thì lương thông tin

mà ta đánh mất sau quá trình phân tích này sẽ rất đáng kê

7 Môt sô ưng dung trong linh vưc khác

PHÂN II: ỨNG DỤNG PCA TRONG HỒI QUY TUYẾN TÍNH

1 Đinh nghia hôi quy tuyên tinh

biên phụ thuộc có giá trị liên tục trong khi các biên độc lập có thê có một trong hai giá trị liên tục hoặc là giá trị phân loại

phụ thuộc (Y) dưa trên giá trị cua biên độc lập (X) Nó có thê đươc sử dụng cho các trường hơp chúng ta muôn dư đoán một sô lương liên tục

trang đã truy cập và một website nào đó, dư đoán giao thông ơ một cửa hàng bán le v.v…

2 Mô ta thuât toán

phăng) cuôi cùng “khớp nhất” với bộ dữ liêu, ta phai tôi thiêu đươc “sư sai khác” giữa các điêm dữ liêu với các điêm mà mô hình hồi quy dư đoán Các bài toán hồi thường đươc giai bằng phương pháp “bình thương cưc tiêu”

Trang 10

 Ngoài ra, trong một sô mô hình hồi quy tuyên tính đơn gian, PCA cung cấp cho ta một định nghia cua dạng sai khác là tổng bình phương khoang cách từ các điêm dữ liêu tới “mặt phăng” tạo bơi các thành phần chính sau khi phân tích PCA, từ

đó đưa ra hướng giai quyêt khác đê tìm đường thăng (mặt phăng) khớp nhất

3 Vi du minh họa

clc

close all

clear all

%Create random matrix

Z=randn(1000,2);

%Plot 1

subplot(3,1,1);

scatter(Z(:,1),Z(:,2),'k.');

title('Bieu dien cac diem cua ma tran bat ki tren do

thi'); grid on;

%Prepare the data

Z1=rand(2,2);

X=Z*Z1;

atb=mean(X);

%Plot 2

subplot(3,1,2);

scatter(X(:,1),X(:,2),'b.');

title('Do thi cua du lieu');

Trang 11

X2 = [mean(X(:, 1)), mean(X(:, 2))];

X3 = X - X2.*ones(1000,2);

X4 = mean(X3);

S = cov(X3);

[P D] = eig(S);

e1 = P(:,2);

e2 = P(:,1);

d1 = e1(2,1);

d2 = e1(1,1);

%Create function

a = d1/d2;

x1 = X4(1,1);

y1 = X4(1,2);

b = y1 - a*x1;

fprintf('Phuong trinh hoi quy tuyen tinh là: y = %f*x + %f',a,b);

%Plot 3

y = a*x + b; subplot(3,1,3); scatter(X(:,1),X(:,2),'b.') hold on

plot(x,y,'r')

title('Phuong trinh hoi quy tuyen tinh');

grid on

end

11

Trang 12

PHÂN III: TÀI LIỆU THAM KHẢO

Gia TP.Hồ Chí Minh, 2020

encyclopedia, 2020

machine learning, the professionals point

http://theprofessionalspoint.blogspot.com/2019/03/advantages-anddisadvantages-of4.html,2020

2020

Principal component analysis

http://pimavn.github.io/pdf/2018/student-papers/pca.pdf, 2018

Learning cơ ban, 2020

Ngày đăng: 30/03/2023, 07:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Đặng Văn Vinh. Giáo Trình Đại Sô Tuyên Tính. Nhà Xuất Ban Đại Hoc Quôc Gia TP.Hồ Chí Minh, 2020 Sách, tạp chí
Tiêu đề: Giáo Trình Đại Sô Tuyên Tính
Tác giả: Đặng Văn Vinh
Nhà XB: Nhà Xuất Ban Đại Hoc Quôc Gia TP.Hồ Chí Minh
Năm: 2020
2. I.T. Jolliffe. Principal Component Analysis. Springer, 2nd edition, 2002 Sách, tạp chí
Tiêu đề: Principal Component Analysis
Tác giả: I.T. Jolliffe
Nhà XB: Springer
Năm: 2002
3. Wikipedia contributors. Principal component analysis – Wikipedia, the free encyclopedia, 2020 Sách, tạp chí
Tiêu đề: Principal component analysis
Tác giả: Wikipedia contributors
Nhà XB: Wikipedia, the free encyclopedia
Năm: 2020
5. G.Strang. Introduction to Linear Algebra. Wellesley-Cambridge Press, 2003 Sách, tạp chí
Tiêu đề: Introduction to Linear Algebra
Tác giả: G. Strang
Nhà XB: Wellesley-Cambridge Press
Năm: 2003
6. Wikipedia contributors. Linear regression – Wikipedia, the free encyclopedia, 2020 Sách, tạp chí
Tiêu đề: Linear regression – Wikipedia, the free encyclopedia
Tác giả: Wikipedia contributors
Nhà XB: Wikipedia
Năm: 2020
7. Trần Thanh Bình, Lê Quang Kỳ, Đỗ Nhật Hoàng, Võ Thục Khánh Huyên, Principal component analysis.http://pimavn.github.io/pdf/2018/student-papers/pca.pdf, 2018 Sách, tạp chí
Tiêu đề: Principal component analysis
Tác giả: Trần Thanh Bình, Lê Quang Kỳ, Đỗ Nhật Hoàng, Võ Thục Khánh Huyên
Năm: 2018
8. Machine Learning cơ ban contributors. Principal components analysis – Machine Learning cơ ban, 2020 Sách, tạp chí
Tiêu đề: Machine Learning cơ ban contributors. Principal components analysis – Machine Learning cơ ban
Năm: 2020
4. Naresh Kumar. Advantages and disadvantages of principal component analysis in machine learning, the professionals point.http://theprofessionalspoint.blogspot.com/2019/03/advantages-anddisadvantages-of4.html,2020 Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w