Báo cáo chuyên đề học phần kỹ thuật giảm chiều dữ liệu đề ti tìm hiểu kỹ thuật giảm chiều pca và lda

Ở bài báo cáo này, chúng em sẽ sử dụng phương pháp Phân tích thành phần chính để giảm chiều dữ liệu... Còn ở bên xác định độ tương quan thuộc tính thì lại chia làm 2 loại nhỏ hơn là: Tuy

Trang 1

TRƯỜNG ĐẠI HỌC ĐIỆN LỰC

KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN

KỸ THUẬT GIẢM CHIỀU DỮ LIỆU

Giảng viên hướng dẫn : LƯƠNG THỊ HỒNG LAN

Ngành : CÔNG NGHỆ THÔNG TIN

Chuyên ngành : TRÍ TUỆ NHÂN TẠO V

THỊ GIÁC MÁY TÍNH Lớp : D15TTNT&TGMT

Trang 3

MỤC LỤC

MỤC LỤC 3

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN 3

1.1 Giới thiệu về giảm chiều dữ liệu 3

1.2 Phương pháp giảm chiều tuyến tính PCA và LDA 5

1.2.1 Tìm hiểu về PCA 5

1.2.1.1 Khái niệm về phân tích thành phần chính 5

1.2.1.2 Đặc trưng của phân tích thành phần chính 5

1.2.1.3 Mục tiêu của phân tích thành phần chính 6

1.2.1.4 Cách bước để phân tích thành phần chính 7

1.2.1.5 Ứng dụng của phân tích thành phần chính 9

1.2.1.6 Ý nghĩa của phân tích thành phần chính 9

1.2.2 Tìm hiểu về LDA 9

1.2.2.1 Khái niêm về phân tích phân biệt tuyến tính 9

1.2.2.2 Đặc trưng của phân tích phân biệt tuyến tính 10

1.2.2.3 Mục tiệu của phân tích phân biệt tuyến tính 11

1.2.2.4 Các bước để phân tích phân biệt tuyến tính 11

1.2.2.5 Ứng dụng của phân tích phân biệt tuyến tính .12

1.2.2.6 Ý nghĩa của phân tích phân biệt tuyến tính 13

1.2.3 Ưu điểm, nhược điểm của các phương pháp giảm chiều .13

CHƯƠNG 2: TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ 15

2.1 Triển khai bài toán 15

2.1.1 Dữ liệu thực nghiệm 15

2.1.2 Thực thi 15

2.1.2.1.1 Thực thi với dữ liệu số với PCA 15

2.1.2.1.2 Thực thi dữ liệu số với LDA 23

2.1.2.1.3 Thực thi với dữ liệu ảnh với PCA 29

2.1.2.1.4 Thực thi với dữ liệu ảnh với LDA 32

2.2 Đánh giá kết quả 34

PHẦN KẾT LUẬN 35

TÀI LIỆU THAM KHẢO 36

Trang 4

DANH M C B NG BI U Ụ Ả Ể

Bảng 1 1: Dữ liệu thực nghiệm 15

Bảng 1 2: So sánh độ chính xác của PCA 22

Bảng 1 3: So sánh độ chính xác LDA 29

Bảng 1 4: Dữ liệu hình ảnh 29

Bảng 1 5: Dữ liệu hình ảnh của LDA 32

Bảng 1 6: So sánh độ chính xác của PCA dữ liệu hình ảnh 34

Bảng 1 7: So sánh độ chính xác của LDA dữ liệu hình ảnh 34

Trang 6

DANH MỤC HÌNH ẢNH

Hình 1 1: Hình minh họa phép chiếu lên trục tọa độ 6

Hình 1 2: Các trục tọa độ mới dữ liệu có độ biến thiên cao nhất 7

Hình 2 1: Hình minh họa tập dữ liệu hoa Iris ban đầu 16

Hình 2 2: Độ chính khi chưa giảm chiều 16

Hình 2 3: Tập dữ liệu hoa Iris sau khi giảm chiều dữ liệu với PCA 17

Hình 2 4: Độ chính xác của dữ liệu hoa Iri giảm chiều với PCA 17

Hình 2 5: Hình minh họa dữ liệu rượu ban đầu 18

Hình 2 6: Độ chính xác của tập dữ liệu khi chưa giảm chiều 18

Hình 2 7: Tập dữ liệu rượu sau khi giảm chiều bằng PCA 19

Hình 2 8: Độ chính xác của dữ liệu rượu giảm chiều với PCA 19

Hình 2 9: Tập dữ liệu ung thư vú ban đầu 20

Hình 2 10: Độ chính xác khi chưa giảm chiều 20

Hình 2 11: Tập dữ liệu ung thư vú giảm chiều với PCA 21

Hình 2 12: Độ chính xác dữ liệu ung thư vú giảm chiều với PCA 21

Hình 2 13: Hình minh họa tập dữ liệu hoa Iris ban đầu 23

Hình 2 14: Độ chính xác dữ liệu chưa giảm chiều 23

Hình 2 15: Tập dữ liệu hoa Iris sau khi giảm chiều bằng LDA 24

Hình 2 16: Độ chính xác dữ liệu hoa Iris giảm chiều với LDA 24

Hình 2 17: Hình minh họa tập dữ liệu rượu ban đầu 25

Hình 2 18: Độ chính xác dữ liệu rượu chưa giảm chiều với LDA 25

Hình 2 19: Tập dữ liệu rượu sau khi giảm chiều bằng LDA 26

Hình 2 20: Độ chính dữ liệu rượu sau khi giảm chiều với LDA 26

Hình 2 21: Hình minh họa tập dữ liệu ung thư vú ban đầu .27

Hì nh 2 22: Độ chính xác dữ liệu khi chưa giảm chiều 27

Hình 2 23: Tập dữ liệu ung thư vú sau khi giảm chiều bằng LDA 28

Hình 2 24: Độ chính xác dữ liệu ung thư vú giảm chiều với LDA 28

Hình 2 25: Độ chính xác chưa giảm chiều với dữ liệu hình ảnh 30

Hình 2 26: Dữ liệu hình ảnh 30

Trang 7

Hình 2 27: Đồ thị dữ liệu khi giảm chiều với PCA 31

Hình 2 28: Dữ liệu sau khi giảm chiều 32

Hình 2 29: Biểu đồ dữ liệu sau khi giảm chiều với LDA 33

Hình 2 30: Dữ liệu sau khi giảm chiều 33

Trang 8

1

MỞ ĐẦU

Ngày nay, khi thực hiện phân tích một nhóm đối tượng, chúng ta khó tránh phải việc nhóm đối tượng này phục thuộc vào nhiều yếu tố, điều đó khiến cho việc tạo dựng hàm số để phân tích nhóm đối tượng này cần phụ thuộc vào một số lượng rất lớn các biến, có thể lên đến hàng nghìn, hàng trăm, hàng triệu,… đồng nghĩa với việc không gian mô tả cần thiết cũng như thế Điều này không chỉ gây khó khăn cho việc lưu trữdữ liệu mà còn khó khăn cho cả việc mô hình hóa và tính toán để có thể nhận xét, đưa ra góc nhìn trực quan cũng như cho việc kết luận sự tương quan giữa các đối tượng

Vì thế, việc giảm số lượng biến thực sự quan trọng trong các lĩnh vực có liên quan như trên Tuy nhiên, giảm số lượng biến của một tập dữ liệu phải đánh đổi bằng độ chính xác của tập dữ liệu đó, điều đó có nghĩa

là chúng ta phải chấp nhận mất đi một phần dữ liệu Cho nên: “Làm thế nào để giảm thiểu số chiều dữ liệu, mà vẫn đảm bảo sốlượng thông tin cần thiết? Một đề xuất khá hay để giải quyết vấn đề đó là sử dụng phương pháp Phân tích thành phần chính (PCA: Principle Pomponent Analysis) Ở bài báo cáo này, chúng em sẽ sử dụng phương pháp Phân tích thành phần chính

để giảm chiều dữ liệu

Trang 9

Tuy nhiên, do vốn kiến thức chúng em còn nhiều hạn chế nên khó tránh khỏi những thiếu sót Kính mong các thầy xem xét, góp ý cho bài tập lớn của chúng em được hoàn thiện hơn Lời cuối, xin một lần nữa gửi lời biết ơn sâu sắc đến các cá nhân, các thầy cô đã dành thời gian chỉ dẫn cho nhóm, xin cảm ơn đến các tác giả của các tài liệu mà nhóm đã tham khảo Đây chính là niềm tin, là nguồn động lực to lớn để nhóm có thể đạt được kết quả này

Trang 10

3

CHƯƠNG 1: TỔNG QUAN VỀ BI TOÁN

1.1 Giới thiệu về giảm chiều dữ liệu

Giảm chiều dữ liệu là quá trình giảm số chiều của dữ liệu mà vẫn giữ lại những thông tin quan trọng nhất Trong lĩnh vực khoa học dữ liệu

và máy học, việc giảm chiều dữ liệu thường được sử dụng để tăng tốc độ

xử lý dữ liệu, giảm thiểu nhiễu và chi phí lưu trữ

Bài toán giảm chiều là bài toán trong lĩnh vực xử lý dữ liệu, nhằm giảm số chiều của dữ liệu mà không mất mát quá nhiều thông tin quan trọng Trong thực tế, dữ liệu thường có số chiều rất lớn, nhưng không phải tất cả các chiều đều quan trọng Việc giảm chiều sẽ giúp cho việc phân tích

và xử lý dữ liệu trở nên dễ dàng hơn, giảm thời gian tính toán và giúp cho kết quả đạt được được chính xác hơn

Có nhiều phương pháp giảm chiều dữ liệu và chủ yếu được chia là 2 loại: Giữ loại thuộc tính quan trọng nhất và xác định độ tương quan giữa cái thuộc tính

Nổi bật của giữ lại thuộc tính quan trọng nhất thì có các phương pháp như: loại bỏ những tính năng lạc hậu (Backwards-feature elimination), lựa chọn tính năng chuyển tiếp (Forward Feature Selection), xây dựng những cây quyết định ngẫu nhiên (Random Forest),…

• Loại bỏ những tính năng lạc hậu (Backwards-feature elimination): Tiếp cận hướng top down, bắt đầu với tất cả feature, và loại bỏ từng feature cho đến hết

• Lựa chọn tính năng chuyển tiếp (Forward Feature Selection): Ngược lại phương pháp trên, từ một feature và tăng dần các feature tới khi mô hình đạt giá trị tối ưu

• Xây dựng những cây quyết định ngẫu nhiên (Random Forest): Phương pháp này cũng tương đối phổ biến và có ích Việc sử dụng decision tree có thể tận dụng lợi thế thống kê học để tìm ra feature

Trang 11

chứa nhiều thông tin để giữ lại nhất Thuật toán random forest (sklearn) chỉ nhận giá trị số, nên cần phải hot encoding

Tuy nhiên là cả Backward Feature Elimination và Forward Feature Selection đều rất tốn thời gian và tài nguyên tính toán Nên phương pháp chỉ thường chỉ sử dụng với các tập dữ liệu nhỏ, không nhiều feature Còn ở bên xác định độ tương quan thuộc tính thì lại chia làm 2 loại nhỏ hơn là: Tuyến tính - Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA) và không tuyến tính – Kernel PCA, Isomap,… Trong đó, PCA và LDA là phương pháp phổ biến nhất được sử dụng rộng rãi PCA là một phương pháp thống kê được sử dụng để giảm số chiều của dữ liệu bằng cách xác định các thành phần chính của dữ liệu Các thành phần chính được xác định bằng cách tính toán các vectơ riêng và giá trị riêng của ma trận hiệp phương sai của dữ liệu Các thành phần chính này sẽ có phương sai lớn nhất và chứa nhiều thông tin quan trọng nhất của

dữ liệu

LDA là một phương pháp khác được sử dụng để giảm chiều dữ liệu Tuy nhiên, LDA được sử dụng chủ yếu để phân loại dữ liệu LDA sử dụng thông tin về phân bố của các lớp dữ liệu để giảm số chiều của dữ liệu LDA cũng sử dụng các vectơ riêng và giá trị riêng để xác định các thành phần quan trọng của dữ liệu

Trên thực tế, bài toán giảm chiều dữ liệu có nhiều ứng dụng trong các lĩnh vực như khoa học dữ liệu, trí tuệ nhân tạo, xử lý ảnh, và nhận dạng mẫu Việc giảm chiều dữ liệu giúp cho việc phân tích và xử lý dữ liệu trở nên dễ dàng hơn và giúp cho kết quả đạt được được chính xác hơn

Trang 12

5

1.2 Phương pháp giảm chiều tuyến tính PCA và LDA

1.2.1 Tìm hiểu về PCA

1.2.1.1 Khái niệm về phân tích thành phần chính

PCA (Principal Component Analysis) là một phương pháp giảm chiều dữ liệu tuyến tính phổ biến nhất PCA hay còn gọi là Principal Componen Analysis (PCA), tức Phân tích thành phần chính, đây là phương pháp đơn giản nhất trong các thuật toán Dimensionality Reduction dựa trên một mô hình tuyến tính

Phương pháp này dựa trên quan sát rằng dữ liệu thường không phân

bố ngẫu nhiên trong không gian mà thường phân bố gần các đường/mặt đặc biệt nào đó PCA xem xét một trường hợp đặc biệt khi các mặt đặc biệt

đó có dạng tuyến tính là các không gian con (subspace)

Ví dụ, nếu ta có một bộ dữ liệu gồm 100 mẫu với 10 thuộc tính, thì PCA sẽ tìm kiếm các thành phần chính của ma trận hiệp phương sai của

100 x 10 thuộc tính này, từ đó giảm số chiều của dữ liệu xuống còn một số thành phần chính được chọn trước đó

1.2.1.2 Đặc trưng của phân tích thành phần chính.

• Giúp giảm số chiều của dữ liệu

• Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn

dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ biến thiên (variability) của dữ liệu trên mỗi chiều mới

• Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ, do đó về mặt ngữ nghĩa, PCA xây dựng feature mới dựa trên các feature đã quan sát được Điểm hay là những feature này vẫn biểu diễn tốt dữ liệu ban đầu

Trang 13

• Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn, hoặc những liên kết như thế không thể hiện rõ

1.2.1.3 Mục tiêu của phân tích thành phần chính

Mục tiêu của PCA là tìm một không gian mới (với số chiều nhỏ hơn không gian cũ) Các trục tọa độ trong không gian mới được xây dựng sao cho trên mỗi trục, độ biến thiên của dữ liệu trên đó là lớn nhất có thể Tiếng Việt thì dài dòng, nhưng tiếng Anh thì mục tiêu này gọi là maximize the variability Ba chữ này gói gọn ý tưởng chính của PCA

Hình 1 1: Hình minh họa phép chiếu lên trục tọa độ

Ở hình minh họa trên phép chiếu lên các trục tọa độ khác nhau có thể cho cách nhìn rất khác nhau về cùng một dữ liệu Cùng là một con lạc

đà nhưng nếu nhìn từ bên hông thì ta có được đầy đủ thông tin nhất, trong khi nhìn từ phía trước thì thật khó để nói nó là lạc đà

Trang 14

7

Hình 1 2: Các trục tọa độ mới dữ liệu có độ biến thiên cao nhất.Giả s t p d ử ậ ữ liệu ban đầu (tập điểm màu xanh) được quan sát trong không gian 3 chi u (trề ục màu đen) như hình bên trái Rõ ràng 3 trục này không bi u diể ễn đượ ố nhất mức độ biến thiên của dữ liệu PCA do đó c t t

sẽ tìm hệ trục tọa độ mới (là hệ trục màu đỏ trong hình bên trái) Sau khi tìm được không gian mới, dữ liệu sẽ được chuyển sang không gian này để được biểu diễn như trong hình bên phải Rõ ràng hình bên phải chỉ cần 2 trục tọa độ nhưng biểu diễn tốt hơn độ biến thiên của dữ liệu so với hệ trục

3 chiều ban đầu Một điểm rất đẹp nữa của PCA là các trục tọa độ trong không gian mới luôn đảm bảo trực giao đôi một với nhau, mặc dù trong không gian ban đầu, các trục có thể không trực giao

1.2.1.4 Cách bước để phân tích thành phần chính

Bước 1: Chuẩn bị dữ liệu

Chuyển đổi dữ liệu thành một ma trận có kích thước mxn, trong đó m là số lượng mẫu, n là số lượng đặc trưng của mỗi mẫu

Bước 2: Chuẩn hóa dữ liệu

Chọn phương pháp

Bằng phương pháp trừ các trung bình (Subtract the mean) ta phải đưa các đặc trưng về cùng đơn vị đo lường, bằng cách chuẩn hóa chúng sao cho có cùng độ lệch chuẩn (standard deviation)

Bước 3: Tính toán ma trận hiệp phương sai

Trang 15

Để tính được ma trận hiệp phương sai ta cần tính tính phương sai trước

Phương sai là một thước đo của sự lây lan của các dữ liệu trong một tập hợp dữ liệu Trong thực tế, nó là gần như giống hệt với độ lệch chuẩn Công thức tính phương sai có dạng như công thức (1.1) sau

𝑣𝑎𝑟(𝑋) =∑ = 1𝑛𝑖 (𝑋(n − 1)𝑖− 𝑋)(𝑋𝑖+ 𝑋) (1.1)

Sau đó, tính ma trận hiệp phương sai (covariance matrix): từ dữ liệu đã được chuẩn hóa, ta tính ma trận hiệp phương sai của các đặc trưng theo công thức (1.2)

𝑐𝑜𝑣(𝑋, 𝑌) =∑ = 1𝑛𝑖 (𝑋𝑖− 𝑋)(𝑌𝑖− 𝑌)

Chú ý, ma trận hiệp phương sai có kích thước nxn (với n là số lượng đặc trưng) và đại diện cho mối quan hệ tuyến tính giữa các đặc trưng Chúng ta sẽ tính đến hiệp phương sai

Bước 4: Tính vector riêng và giá trị riêng của ma trận hiệp phương sai

PCA tìm kiếm các vector riêng (eigenvectors) và giá trị riêng (eigenvalues) của ma trận hiệp phương sai Các giá trị riêng thể hiện độ lớn của các vector riêng tương ứng và cho biết mức độ phân tán của dữ liệu trong hướng của vector riêng đó Từ ma trận hiệp phương sai là hình vuông, chúng ta có thể tính toán các vector riêng và trị riêng cho ma trận này

Bước 5: Lựa chọn các thành phần và hình thành một vector đặc trưng

Chọn các thành phần chính: PCA chọn các thành phần chính (principal components) của dữ liệu bằng cách sắp xếp các vector riêng theo giá trị giảm dần của giá trị riêng tương ứng Các thành phần chính này đại diện cho các chiều không gian quan trọng nhất của dữ liệu và có thể giải thích một phần lớn sự biến động của dữ liệu a có thể sử dụng các thành phần Tchính để chuyển đổi dữ liệu từ không gian nhiều chiều sang không gian ít chiều hơn Lựa chọn số lượng thành phần chính

Trang 16

9

1.2.1.5 Ứng dụng của phân tích thành phần chính

Tăng tốc độ thuật toán Machine Learning (ML): ý tưởng chính của PCA là giảm kích thước, dựa vào những điều đó có thể tăng tốc độ phù hợp của thuật toán Machine learning bằng cách thay đổi thuật toán tối ưu hoá Nếu thuật toán học ban đầu chậm do kích thước đầu vào cao, thì việc sử dụng PCA để tăng tốc là một trong những lựa chọn cần thiết

Trực quan hoá dữ liệu: để giải quyết một vấn đề mà dữ liệu là chìa khoá, cần phải khám phá dữ liệu sâu rộng như tìm hiểu mối tương quan của các biến Một số lượng lớn các biến mà dữ liệu được phân phối, việc trực quan hoá thể là một thách thức và hầu như không thể PCA có thể làm điều đó để giảm dữ liệu 4 chiều đó thành 2 hoặc 3 chiều để trực quan hoá

và hy vọng hiểu dữ liệu tốt hơn

1.2.1.6 Ý nghĩa của phân tích thành phần chính

Các thành phần chính là chìa khoá quan trọng của PCA, khi dữ liệu được chiếu vào một chiều thấp hơn (giả sử là ba chiều) từ một không gian cao hơn, thì ba chiều ở đây chính là ba thành phần chính lưu giữ hầu hết phương sai (thông tin) của dữ liệu

Các thành phần chính đều có hướng và độ lớn Thành phần chính là cấu trúc cơ bản trong dữ liệu, những hướng có nhiều phương sai nhất, những hướng mà dữ liệu được trải ra nhiều nhất Các thành phần chính là một đường thẳng và thành phần chính đầu tiên có nhiều phương sai nhất trong dữ liệu Mỗi thành phần chính tiếp theo trực giao với thành phần cuối cùng ở trước và có phương sai nhỏ dần

1.2.2 Tìm hiểu về LDA

1.2.2.1 Khái niêm về phân tích phân biệt tuyến tính

LDA (Linear Discriminant Analysis) là một phương pháp giảm chiều dữ liệu tuyến tính, bằng việc là nó yêu cầu có thông tin về nhãn lớp của dữ liệu LDA tìm kiếm các trục mới sao cho dữ liệu được phân chia tốt

Trang 17

nhất giữa các lớp LDA tính toán các hàm phân loại tốt nhất cho dữ liệu, dựa trên sự khác biệt giữa các lớp Phân tích phân biệt tuyến tính đã được

sử dụng thành công như một kỹ thuật giảm chiều cho nhiều lĩnh vực, chẳng hạn như nhận dạng giọng nói, nhận diện khuôn mặt, và đa phương tiện trong phục hồi hình

Khi LDA được thực hiện, có hai mục tiêu chính: giảm thiểu phương sai của hai lớp và tối đa hóa khoảng cách giữa các phương tiện của hai lớp

dữ liệu

Ví dụ, nếu ta có một bộ dữ liệu gồm 100 mẫu với 10 thuộc tính và 2 lớp, thì LDA sẽ tìm kiếm một hoặc nhiều trục mới để dữ liệu được phân chia tốt nhất giữa hai lớp Sau đó, ta có thể sử dụng các thuộc tính mới này

để phân loại dữ liệu

1.2.2.2 Đặc t rưng của phân tích phân biệt tuyến tính

• LDA là một phương pháp học có giám sát, điều này có nghĩa là nó yêu cầu các điểm dữ liệu được gán nhãn

• LDA tập trung vào tìm kiếm một trục mới trong không gian đặc trưng, sao cho khoảng cách giữa các điểm dữ liệu trong cùng một lớp nhỏ hơn so với khoảng cách giữa các lớp khác nhau

• LDA giả định rằng phân phối của các lớp là hàm Gauss (một đường cong đối xứng đặc trưng "hình quả chuông" , tức là các điểm dữ liệu )trong mỗi lớp được phân bố theo phân phối chuẩn

• LDA cũng giả định rằng các lớp có cùng ma trận hiệp phương sai (covariance matrix)

• LDA tối đa hóa tỉ lệ giữa giữa phương sai giữa các lớp và giữa các điểm dữ liệu trong cùng một lớp

• LDA có thể được sử dụng để giảm chiều dữ liệu (dimensionality reduction) bằng cách chọn một số lượng nhỏ hơn các trục mới được tạo ra từ LDA, thay vì sử dụng toàn bộ không gian đặc trưng ban

Trang 18

11

1.2.2.3 Mục tiệu của phân tích phân biệt tuyến tính

• Tìm các trục mới trong không gian đặc trưng sao cho khoảng cách giữa các điểm dữ liệu trong cùng một lớp nhỏ hơn so với khoảng cách giữa các lớp khác nhau

• Tối đa hóa tỉ lệ giữa phương sai giữa các lớp và giữa các điểm dữ liệu trong cùng một lớp

• Giảm chiều dữ liệu (dimensionality reduction) bằng cách chọn một

số lượng nhỏ hơn các trục mới được tạo ra từ LDA, thay vì sử dụng toàn bộ không gian đặc trưng ban đầu

Với mục tiêu này, LDA giả định rằng phân phối của các lớp là Gaussian

và các lớp có cùng ma trận hiệp phương sai (covariance matrix) LDA được sử dụng rộng rãi trong các bài toán phân loại, đặc biệt là khi số lượng điểm dữ liệu trong mỗi lớp lớn và số lượng đặc trưng của dữ liệu lớn

1.2.2.4 Các bước để phân tích phân biệt tuyến tính

Bước 1: Chuẩn bị dữ liệu

Tải dữ liệu và tách nó thành các lớp tương ứng

Bước 2: Tính toán các giá trị trung bình của các lớp

Tính giá trị trung bình của mỗi lớp để biết cách chuyển đổi dữ liệu Bước 3: Tính toán ma trận phân tán trong lớp

Tính toán ma trận phân tán của từng lớp để biết sự phân tán của dữ liệu

𝑆𝑤= ∑ ∑ (𝑦𝑀𝑖𝑖− 𝜇𝑖)

𝑗=1

𝐶

Bước 4: Tính toán ma trận phân tán giữa các lớp

Tính toán ma trận phân tán giữa các lớp để biết sự phân biệt giữa các lớp

Bước 5: Tính toán các vector riêng và giá trị riêng của ma trận phân tán giữa các lớp

Trang 19

Sử dụng ma trận phân tán giữa các lớp để tính toán các vector riêng và giá trị riêng

Bước 6: Sắp xếp các vector riêng theo thứ tự giảm dần của giá trị riêng

Sắp xếp các vector riêng theo thứ tự giảm dần của giá trị riêng tương ứng

Bước 7: Lựa chọn các thành phần chính

Chọn các thành phần chính bằng cách lấy các vector riêng tương ứng với giá trị riêng lớn nhất

Bước 8: Chuyển đổi dữ liệu

Sử dụng các thành phần chính đã chọn để chuyển đổi dữ liệu vào không gian mới

LDA là một kỹ thuật phân tích quan trọng trong học máy và thị giác máy tính, được sử dụng rộng rãi trong các ứng dụng như nhận dạng khuôn mặt, phân loại ảnh và phân tích văn bản

1.2.2.5 Ứng dụng của phân tích phân biệt tuyến tính

Phân tích phân biệt tuyến tính (Linear Discriminant Analysis - LDA)

là một kỹ thuật phân tích đa biến được sử dụng phổ biến trong nhiều lĩnh vực như thống kê, khoa học dữ liệu, trí tuệ nhân tạo, và nhận diện mẫu Các ứng dụng chính của LDA bao gồm:

1 Phân loại: LDA có thể được sử dụng để phân loại dữ liệu trong các lĩnh vực như y học, sinh học, kinh tế học, và máy móc học

2 Giảm chiều dữ liệu: LDA cũng có thể được sử dụng để giảm số chiều của dữ liệu mà không mất mát quá nhiều thông tin quan trọng

3 Nhận dạng mẫu: LDA cung cấp cho chúng ta các giá trị hệ số để có thể nhận dạng mẫu và phân biệt giữa các lớp dữ liệu

4 Phân tích tương quan: LDA cũng có thể được sử dụng để phân tích tương quan giữa các biến đầu vào và biến đầu ra

Trang 20

13

5 Trích xuất đặc trưng: LDA có thể được sử dụng để trích xuất các đặc trưng quan trọng từ dữ liệu và giúp cho việc phân tích dữ liệu trở nên dễ dàng hơn

6 Xử lý ảnh: LDA được sử dụng rộng rãi trong xử lý ảnh để phân tích

và nhận dạng các đối tượng khác nhau trong các hình ảnh Tóm lại, LDA là một kỹ thuật quan trọng trong việc phân tích dữ liệu và

có nhiều ứng dụng trong các lĩnh vực khác nhau

1.2.2.6 Ý nghĩa của phân tích phân biệt tuyến tính

Phân tích phân biệt tuyến tính (Linear Discriminant Analysis - LDA)

là một kỹ thuật phân tích đa biến nhằm giúp phân biệt và phân loại dữ liệu

Ý nghĩa của LDA là giúp cho chúng ta hiểu được các đặc trưng quan trọng của các lớp dữ liệu khác nhau và giúp cho việc phân biệt và phân loại dữ liệu trở nên dễ dàng hơn

LDA sử dụng các đặc trưng của dữ liệu để tạo ra các hàm phân biệt tuyến tính giữa các lớp dữ liệu khác nhau Các hàm phân biệt này cho phép chúng ta phân loại các mẫu dữ liệu mới vào các lớp tương ứng LDA cũng

có thể được sử dụng để giảm số chiều của dữ liệu, giúp cho việc phân tích

dữ liệu trở nên dễ dàng hơn

LDA là một kỹ thuật quan trọng trong việc phân tích dữ liệu và có nhiều ứng dụng trong nhiều lĩnh vực, bao gồm y học, sinh học, kinh tế học,

và máy móc học LDA giúp cho chúng ta hiểu được các đặc trưng quan trọng của các lớp dữ liệu khác nhau và giúp cho việc phân biệt và phân loại

dữ liệu trở nên dễ dàng hơn, đồng thời cũng giúp cho việc giảm số chiều của dữ liệu trở nên dễ dàng hơn và giúp cho việc phân tích dữ liệu trở nên

dễ dàng hơn

1.2.3 Ưu điểm, nhược điểm của các phương pháp giảm chiều

Ưu điểm của PCA:

• PCA có thể giảm chiều dữ liệu một cách hiệu quả và đơn giản

Trang 21

• PCA làm giảm độ phức tạp tính toán cho các bước xử lý tiếp theo

• PCA có thể được sử dụng cho các loại dữ liệu khác nhau và không yêu cầu các giả định về phân phối của dữ liệu

Nhược điểm của PCA:

• PCA chỉ tập trung vào phương sai của dữ liệu mà không quan tâm đến sự phân bố của các lớp dữ liệu

• PCA có thể bị ảnh hưởng bởi các giá trị ngoại lệ (outlier)

• Khi số chiều giảm được chọn quá lớn, PCA có thể không giữ lại đủ thông tin quan trọng để có thể phân loại dữ liệu

Ưu điểm của LDA:

• LDA tập trung vào sự phân bố của các lớp dữ liệu và giúp cho các lớp dữ liệu được phân tách rõ ràng hơn

• LDA có thể giữ lại những thông tin quan trọng liên quan đến sự khác biệt giữa các lớp dữ liệu

• LDA có thể được sử dụng để phân loại dữ liệu

Nhược điểm của LDA:

• LDA yêu cầu dữ liệu có phân phối chuẩn

• LDA không hiệu quả khi số lượng các mẫu huấn luyện rất nhỏ hoặc các lớp dữ liệu không phân biệt rõ ràng

• Khi số chiều giảm được chọn quá lớn, LDA có thể gây ra sự mất mát thông tin quan trọng

Tiêu đề	Báo cáo chuyên đề học phần kỹ thuật giảm chiều dữ liệu đề tài: Tìm hiểu kỹ thuật giảm chiều PCA và LDA
Tác giả	Vũ Thị Linh, Nguyễn Mỹ Linh
Người hướng dẫn	LƯƠNG THỊ HỒNG LAN
Trường học	Trường Đại Học Điện Lực
Chuyên ngành	Kỹ thuật giảm chiều dữ liệu
Thể loại	Báo cáo chuyên đề
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	43
Dung lượng	4,61 MB