1. Trang chủ
  2. » Tất cả

Báo cáo bài tập lớn đại số tuyến tính phương pháp phân tích thành phân chính pca

12 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo bài tập lớn Đại số tuyến tính Phân tích thành phần chính PCA
Tác giả Lương Đình Khoa, Dương Phước Lộc, Trần Thụy Thùy Ngân, Nguyễn Quang Phong, Trần Đoàn Nhật Vy, Lê Anh Tuấn
Người hướng dẫn TS. Đặng Văn Vinh, ThS. Nguyễn Thị Xuân Mỹ
Trường học Trường đại học Bách Khoa, Đại học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Khoa Học Ứng Dụng
Thể loại Báo cáo bài tập lớn
Năm xuất bản 2022
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 12
Dung lượng 1,31 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đê giai quyêt những khó khăn trên ta cần có một phương pháp giúp ta nhìn rõ hơn sư tương quan cua các giá trị dữ liêu với nhau, từ đó đưa ra đươc các liên kêt ẩn cua chiêu và làm viêc vớ

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC ỨNG DỤNG

TMTM

BÁO CÁO BÀI TẬP LỚN

ĐẠI SỐ TUYẾN TÍNH

GVHD: TS Đặng Văn Vinh Ths Nguyễn Thị Xuân Mỹ

NHÓM: L06-07

Trang 2

DANH SÁCH THÀNH VIÊN NHÓM 07 STT HỌ VÀ TÊN MSSV GHI CHÚ

1 Lương Đình Khoa 2113755

2 Dương Phước Lộc 2110341

3 Trần Thụy Thùy Ngân 2110380

4 Nguyễn Quang Phong 2114401

5 Trần Đoàn Nhật Vy 2115357

6 Lê Anh Tuấn 2112576

NHẬN XÉT CỦA GVHD:

………

………

………

………

………

………

………

………

………

………

………

………

………

TP Hồ Chí Minh, ngày 04 tháng 05 năm 2022

Chữ ký Giáo viên hướng dẫn

Trang 3

MỤC LỤC

PHẦN I: PHƯƠNG PHAP PHÂN TICH THANH PHẦN CHINH PCA 4

1 Sơ lươc vê phương pháp PCA 4

2 Một sô thuật khái niêm trong toán thông kê 5

3 Cơ sơ lí thuyêt 6

4 Các bước phân tích PCA 7

5 Mô phong thuật toán 8

6 Nhươc điêm cua phương pháp PCA 8

7 Một sô ưng dụng trong linh vưc khác 9

PHẦN II: ƯNG DUNG PCA TRONG HÔI QUY TUYÊN TINH 9

1 Định nghia hồi quy tuyên tính 9

2 Mô ta thuật toán 9

3 Ví dụ minh hoa 10

PHẦN III: TAI LIỆU THAM KHẢO 12

Trang 4

ĐỀ TÀI: PHÂN TÍCH THÀNH PHÂN CHÍNH (PCA: PRINCIPLE COMPONENT ANALYSIS) ỨNG DỤNG CỦA PHÂN TÍCH PCA

ĐÊ HỒI QUY TUYẾN TÍNH (LINEAR REGRESSION).

PHÂN I: PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHÂN CHÍNH PCA

1 Sơ lươc vê phương pháp PCA

a Trong công tác nghiên cưu thưc tê, ta thu thập đươc những bộ dữ liêu đươc thê

hiên dưới dạng rất nhiêu giá trị cua nhiêu cá thê Những giá trị ấy tạo thành

“đám mây dữ liêu” hêt sưc phưc tạp và viêc phân tích thông tin từ đó gặp rất nhiêu khó khăn

b Đê giai quyêt những khó khăn trên ta cần có một phương pháp giúp ta nhìn rõ

hơn sư tương quan cua các giá trị dữ liêu với nhau, từ đó đưa ra đươc các liên kêt ẩn cua chiêu và làm viêc với chiêu hiêu qua nhất có thê Với những ý tương

ấy ta xây dưng đươc phương pháp phân tính thành phần chính PCA (Principle Component Analysis) Phương pháp này đóng vai trò vô cùng quan trong trong các ngành khoa hoc, kỹ thuật, thông kê, kinh tê…

c Động lưc nghiên cưu PCA:

Giam đươc sô chiêu cua dữ liêu

PCA xây dưng một không gian mới ít chiêu hơn nhưng biêu diễn dữ liêu tôt tương đương không gian cũ

Trong không gian mới các liên kêt dữ liêu tiêm ẩn mà ơ không gian cũ khó phát hiên đã có thê đươc khám phá dễ dàng hơn

Trang 5

2 Môt sô thuât khái niêm trong toán thông kê

a Kì vọng (Mean): giá trị mong muôn, biêu diễn giá trị trung bình cua một biên:

� =�� + ���+ … + ��

b Đô lêch chuẩn (Standard Deviation): thuật ngữ đê đo tính biên động cua giá

trị, nó cho thấy sư chênh lêch vê giá trị cua từng thời điêm đánh giá so với giá trị trung bình:

� = � − �

c Phương sai (Variance): đại lương đặc trưng cho sư phân tán cua các dữ liêu so

với giá trị trung bình, từ đó dễ dàng hình dung đươc dữ liêu ta đang xét:

�� = (� − �)�

d Hiêp phương sai (Covariance): một đại lương đo sư biên thiên cùng nhau cua

hai biên ngẫu nhiên (khác với phương sai – đo sư biên thiên đôi với một biên)

Ký hiêu: cov(x,y)

Cov(x,y) = � − � � − �

e Ma trân hiêp phương sai: Đôi với viêc thông kê, ta cần một thuật ngữ đê thê

hiên đầy đu phương sai và hiêp phương sai cua các biên với nhau Từ đó, ta tạo

ra một ma trận hiêp phương sai cua m biên ngẫu nhiên là một ma trận vuông (m×m), trong đó, các phần từ nằm trên đường chéo (từ trái sang phai, từ trên

xuông dưới) lần lươt là phương sai tương ưng cua từng biên, trong khi các phần

tử còn lại (không nằm trên đường chéo) là các hiệp phương sai cua đôi một hai

biên ngẫu nhiên khác nhau trong tập hơp

Trang 6

3 Cơ sơ li thuyêt

a Nhân xét

 Với ý tương ban đầu, ta hy vong sẽ tạo ra một không gian mới và nho hơn

mà vẫn có thê lưu giữ lại những thông tin quan trong Nhưng rất khó đê ta cân nhắc xem có thê giam đươc bao nhiêu chiêu và những chiêu nào Do đó, cần xây dưng thuật ngữ phương sai hay còn goi là độ phân tán cua dữ liêu Dưa trên

sư so sánh phương sai giữa các chiêu, ta đi đên một khía cạnh quan trong -lương thông tin có trong các chiêu đó Từ đó, ta có thê bo qua các chiêu không quan trong - có phương sai cua chúng là không đáng kê (≈0)

 Theo định nghia phương sai, phương sai cua bang sô liêu ban đầu X có giá trị cô định, bằng tổng phương sai theo từng chiêu Dữ liêu ban đầu X (D chiêu)

có phương sai đáng kê trong tất ca các chiêu, có thê nói rằng các chiêu ban đầu cua dữ liêu X có một mưc độ quan trong nhất định, ta không thê bo qua các chiêu cua nó Vì vậy, ta cần một sô phép biên đổi đê xoay các chiêu dữ liêu X cho đên khi có K chiêu đê có đươc phương sai lớn nhất Vì phương sai cua dữ liêu X là không đổi, ta có thê nói rằng (D – K) chiêu còn lại tầm quan trong là rất nho (phương sai là không đáng kê) và ta có thê bo qua những chiêu này Cuôi cùng, ta có thê biêu diễn X trên cơ sơ mới với ít "tổn thất" nhất trong không gian có chiêu nho hơn

b Phương sai lớn nhất

 Mục tiêu cần có ơ đây là chon một phép biên đổi tuyên tính P cua V sao cho phương sai anh cua X qua một phép biên đổi là lớn nhất

 Giá trị trung bình cua dữ liêu là:

� =�� + ���+ … + ��

 Đê đơn gian, ta xét phép biên đổi P lên không gian một chiêu đươc sinh ra bơi vecto đơn vị u1, tưc là ����� = �

Trang 7

 Phương sai cua anh cua X qua phép biên đổi là:

� − �

�=�

{����� − ����} = ������ với:

� =� − ��

�=�

��− � �(�� − �)

 Tìm giá trị lớn nhất cua �1���1với �1�u1 = 1

 Sử dụng phương pháp nhân tử Lagrange cua giai tích hàm nhiêu biên, ta có:

L=������-�(1-�����)=0

 Điêm dừng xay ra khi �1 là trị riêng cua S va u1là vecto riêng cua S tương ưng với trị riêng �1

 Vecto riêng u1 đươc goi là thành phần chính thư nhất

4 Các bước phân tich PCA

Bước 1: Tính giá trị trung bình X cua X.

Bước 2: Tính vectơ X = X - X

Tính ma trận hiêp phương saiS=N-11 X� �

Bước 3: Tìm trị riêng cua S và sắp xêp theo giá trị giam dần λ1 > λ 2 > …>λm

và tìm các vectơ riêng đơn vị ưng với các giá trị riêng

Bước 4: Chon trị riêng ban đầu và vectơ riêng đơn vị ưng với các trị riêng này.

Lập ma trận A có các cột là vectơ đã chon Ma trận A là phép biên đổi cần tìm

Bước 5: Tính anh �� X�cua vectơ X

Trang 8

5 Mô phong thuât toán

6 Nhươc điêm cua phương pháp PCA

a Gia thuyêt vê đô quan trọng cua chiêu dữ liêu: mô hình PCA dưa trên gia

thiêt chiêu quan trong dữ liêu là chiêu có phương sai độ dữ liêu lớn Tuy nhiên trong thưc tê thì không phai lúc nào chiêu phân bô dữ liêu lớn cũng mang lại hiêu qua tôt hơn cho viêc phân tích dữ liêu

b Nhay cam với sư nhiêu: khi nhiễu xuất hiên, độ lêch cua nhiễu này mà

chiêu có phương sai cua dữ liêu lớn cũng bị anh hương rất đáng kê

Trang 9

c Thiêu sot thông tin: mặc dù PCA giữ lại chiêu quan trong nhất đôi với bộ

dữ liêu, tuy nhiên nêu có sai sót trong viêc chon sô chiêu giữ lại thì lương thông tin

mà ta đánh mất sau quá trình phân tích này sẽ rất đáng kê

7 Môt sô ưng dung trong linh vưc khác

 Ưng dụng vào phân tích thị trường chưng khoán

 Giam dung lương dữ liêu

 Công nghê thông tin

 Ưng dụng nhận diên khuôn mặt

PHÂN II: ỨNG DỤNG PCA TRONG HỒI QUY TUYẾN TÍNH

1 Đinh nghia hôi quy tuyên tinh

 “Hồi quy tuyên tính” là một phương pháp thông kê đê hồi quy dữ liêu với biên phụ thuộc có giá trị liên tục trong khi các biên độc lập có thê có một trong hai giá trị liên tục hoặc là giá trị phân loại

 Nói cách khác “Hồi quy tuyên tính” là một phương pháp đê dư đoán biên phụ thuộc (Y) dưa trên giá trị cua biên độc lập (X) Nó có thê đươc sử dụng cho các trường hơp chúng ta muôn dư đoán một sô lương liên tục

 Ví dụ: Dư đoán thời gian người dùng dừng lại một trang nào đó hoặc sô trang đã truy cập và một website nào đó, dư đoán giao thông ơ một cửa hàng bán le v.v…

2 Mô ta thuât toán

 Trong mô hình hồi quy tuyên tính, đê tìm đươc đường thăng (hay mặt phăng) cuôi cùng “khớp nhất” với bộ dữ liêu, ta phai tôi thiêu đươc “sư sai khác” giữa các điêm dữ liêu với các điêm mà mô hình hồi quy dư đoán Các bài toán hồi thường đươc giai bằng phương pháp “bình thương cưc tiêu”

Trang 10

 Ngoài ra, trong một sô mô hình hồi quy tuyên tính đơn gian, PCA cung cấp cho ta một định nghia cua dạng sai khác là tổng bình phương khoang cách

từ các điêm dữ liêu tới “mặt phăng” tạo bơi các thành phần chính sau khi phân tích PCA, từ đó đưa ra hướng giai quyêt khác đê tìm đường thăng (mặt phăng) khớp nhất

3 Vi du minh họa

functionBai_Tap_Lon_DSTT_3

clc

closeall

clearall

%Create random matrix

Z=randn(1000,2);

%Plot 1

subplot(3,1,1);

scatter(Z(:,1),Z(:,2),'k.');

title('Bieu dien cac diem cua ma tran bat ki tren do thi');

gridon;

%Prepare the data

Z1=rand(2,2);

X=Z*Z1;

atb=mean(X);

%Plot 2

subplot(3,1,2);

scatter(X(:,1),X(:,2),'b.');

Trang 11

X2 = [mean(X(:, 1)), mean(X(:, 2))];

X3 = X - X2.*ones(1000,2);

X4 = mean(X3);

S = cov(X3);

[P D] = eig(S);

e1 = P(:,2);

e2 = P(:,1);

d1 = e1(2,1);

d2 = e1(1,1);

%Create function

a = d1/d2;

x1 = X4(1,1);

y1 = X4(1,2);

b = y1 - a*x1;

fprintf('Phuong trinh hoi quy tuyen tinh là: y = %f*x + %f',a,b);

%Plot 3

x =[-4:0.02:4];

y = a*x + b;

subplot(3,1,3);

scatter(X(:,1),X(:,2),'b.')

holdon

plot(x,y,'r')

title('Phuong trinh hoi quy tuyen tinh');

Trang 12

PHÂN III: TÀI LIỆU THAM KHẢO

1 Đặng Văn Vinh Giáo Trình Đại Sô Tuyên Tính Nhà Xuất Ban Đại Hoc Quôc

Gia TP.Hồ Chí Minh, 2020

2 I.T Jolliffe Principal Component Analysis Springer, 2nd edition, 2002.

3 Wikipedia contributors Principal component analysis – Wikipedia, the free

encyclopedia, 2020

4 Naresh Kumar Advantages and disadvantages of principal component analysis in

machine learning, the professionals point

http://theprofessionalspoint.blogspot.com/2019/03/advantages-anddisadvantages-of4.html,2020

5 G.Strang Introduction to Linear Algebra Wellesley-Cambridge Press, 2003.

6 Wikipedia contributors Linear regression – Wikipedia, the free encyclopedia,

2020

7 Trần Thanh Bình, Lê Quang Kỳ, Đỗ Nhật Hoàng, Võ Thục Khánh Huyên,

Principal component analysis http://pimavn.github.io/pdf/2018/student-papers/pca.pdf, 2018

8.Machine Learning cơ ban contributors Principal components analysis – Machine Learning cơ ban, 2020

Ngày đăng: 29/03/2023, 17:46

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Đặng Văn Vinh. Giáo Trình Đại Sô Tuyên Tính. Nhà Xuất Ban Đại Hoc Quôc Gia TP.Hồ Chí Minh, 2020 Sách, tạp chí
Tiêu đề: Giáo Trình Đại Sô Tuyên Tính
Tác giả: Đặng Văn Vinh
Nhà XB: Nhà Xuất Ban Đại Hoc Quôc Gia TP.Hồ Chí Minh
Năm: 2020
2. I.T. Jolliffe. Principal Component Analysis. Springer, 2nd edition, 2002 Sách, tạp chí
Tiêu đề: Principal Component Analysis
Tác giả: I.T. Jolliffe
Nhà XB: Springer
Năm: 2002
3. Wikipedia contributors. Principal component analysis – Wikipedia, the free encyclopedia, 2020 Sách, tạp chí
Tiêu đề: Principal component analysis – Wikipedia, the free encyclopedia
Tác giả: Wikipedia contributors
Năm: 2020
5. G.Strang. Introduction to Linear Algebra. Wellesley-Cambridge Press, 2003 Sách, tạp chí
Tiêu đề: Introduction to Linear Algebra
Tác giả: G. Strang
Nhà XB: Wellesley-Cambridge Press
Năm: 2003
6. Wikipedia contributors. Linear regression – Wikipedia, the free encyclopedia, 2020 Sách, tạp chí
Tiêu đề: Linear regression – Wikipedia, the free encyclopedia
Tác giả: Wikipedia contributors
Nhà XB: Wikipedia
Năm: 2020
7. Trần Thanh Bình, Lê Quang Kỳ, Đỗ Nhật Hoàng, Võ Thục Khánh Huyên, Principal component analysis. http://pimavn.github.io/pdf/2018/student-papers/pca.pdf, 2018 Sách, tạp chí
Tiêu đề: Principal component analysis
Tác giả: Trần Thanh Bình, Lê Quang Kỳ, Đỗ Nhật Hoàng, Võ Thục Khánh Huyên
Năm: 2018
8. Machine Learning cơ ban contributors. Principal components analysis – Machine Learning cơ ban, 2020 Sách, tạp chí
Tiêu đề: Principal components analysis – Machine Learning cơ bản
Tác giả: Machine Learning cơ bản contributors
Năm: 2020
4. Naresh Kumar. Advantages and disadvantages of principal component analysis in machine learning, the professionals point.http://theprofessionalspoint.blogspot.com/2019/03/advantages-anddisadvantages-of4.html,2020 Link

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w