Ở bài báo cáo này, chúng em sẽ sử dụng phương pháp Phân tích thành phần chính để giảm chiều dữ liệu... Còn ở bên xác định độ tương quan thuộc tính thì lại chia làm 2 loại nhỏ hơn là: Tuy
Trang 1TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN
KỸ THUẬT GIẢM CHIỀU DỮ LIỆU
Giảng viên hướng dẫn : LƯƠNG THỊ HỒNG LAN
Ngành : CÔNG NGHỆ THÔNG TIN
Chuyên ngành : TRÍ TUỆ NHÂN TẠO V
THỊ GIÁC MÁY TÍNH Lớp : D15TTNT&TGMT
Trang 3MỤC LỤC
MỤC LỤC 3
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN 3
1.1 Giới thiệu về giảm chiều dữ liệu 3
1.2 Phương pháp giảm chiều tuyến tính PCA và LDA 5
1.2.1 Tìm hiểu về PCA 5
1.2.1.1 Khái niệm về phân tích thành phần chính 5
1.2.1.2 Đặc trưng của phân tích thành phần chính 5
1.2.1.3 Mục tiêu của phân tích thành phần chính 6
1.2.1.4 Cách bước để phân tích thành phần chính 7
1.2.1.5 Ứng dụng của phân tích thành phần chính 9
1.2.1.6 Ý nghĩa của phân tích thành phần chính 9
1.2.2 Tìm hiểu về LDA 9
1.2.2.1 Khái niêm về phân tích phân biệt tuyến tính 9
1.2.2.2 Đặc trưng của phân tích phân biệt tuyến tính 10
1.2.2.3 Mục tiệu của phân tích phân biệt tuyến tính 11
1.2.2.4 Các bước để phân tích phân biệt tuyến tính 11
1.2.2.5 Ứng dụng của phân tích phân biệt tuyến tính .12
1.2.2.6 Ý nghĩa của phân tích phân biệt tuyến tính 13
1.2.3 Ưu điểm, nhược điểm của các phương pháp giảm chiều .13
CHƯƠNG 2: TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ 15
2.1 Triển khai bài toán 15
2.1.1 Dữ liệu thực nghiệm 15
2.1.2 Thực thi 15
2.1.2.1.1 Thực thi với dữ liệu số với PCA 15
2.1.2.1.2 Thực thi dữ liệu số với LDA 23
2.1.2.1.3 Thực thi với dữ liệu ảnh với PCA 29
2.1.2.1.4 Thực thi với dữ liệu ảnh với LDA 32
2.2 Đánh giá kết quả 34
PHẦN KẾT LUẬN 35
TÀI LIỆU THAM KHẢO 36
Trang 4DANH M C B NG BI U Ụ Ả Ể
Bảng 1 1: Dữ liệu thực nghiệm 15
Bảng 1 2: So sánh độ chính xác của PCA 22
Bảng 1 3: So sánh độ chính xác LDA 29
Bảng 1 4: Dữ liệu hình ảnh 29
Bảng 1 5: Dữ liệu hình ảnh của LDA 32
Bảng 1 6: So sánh độ chính xác của PCA dữ liệu hình ảnh 34
Bảng 1 7: So sánh độ chính xác của LDA dữ liệu hình ảnh 34
Trang 6DANH MỤC HÌNH ẢNH
Hình 1 1: Hình minh họa phép chiếu lên trục tọa độ 6
Hình 1 2: Các trục tọa độ mới dữ liệu có độ biến thiên cao nhất 7
Hình 2 1: Hình minh họa tập dữ liệu hoa Iris ban đầu 16
Hình 2 2: Độ chính khi chưa giảm chiều 16
Hình 2 3: Tập dữ liệu hoa Iris sau khi giảm chiều dữ liệu với PCA 17
Hình 2 4: Độ chính xác của dữ liệu hoa Iri giảm chiều với PCA 17
Hình 2 5: Hình minh họa dữ liệu rượu ban đầu 18
Hình 2 6: Độ chính xác của tập dữ liệu khi chưa giảm chiều 18
Hình 2 7: Tập dữ liệu rượu sau khi giảm chiều bằng PCA 19
Hình 2 8: Độ chính xác của dữ liệu rượu giảm chiều với PCA 19
Hình 2 9: Tập dữ liệu ung thư vú ban đầu 20
Hình 2 10: Độ chính xác khi chưa giảm chiều 20
Hình 2 11: Tập dữ liệu ung thư vú giảm chiều với PCA 21
Hình 2 12: Độ chính xác dữ liệu ung thư vú giảm chiều với PCA 21
Hình 2 13: Hình minh họa tập dữ liệu hoa Iris ban đầu 23
Hình 2 14: Độ chính xác dữ liệu chưa giảm chiều 23
Hình 2 15: Tập dữ liệu hoa Iris sau khi giảm chiều bằng LDA 24
Hình 2 16: Độ chính xác dữ liệu hoa Iris giảm chiều với LDA 24
Hình 2 17: Hình minh họa tập dữ liệu rượu ban đầu 25
Hình 2 18: Độ chính xác dữ liệu rượu chưa giảm chiều với LDA 25
Hình 2 19: Tập dữ liệu rượu sau khi giảm chiều bằng LDA 26
Hình 2 20: Độ chính dữ liệu rượu sau khi giảm chiều với LDA 26
Hình 2 21: Hình minh họa tập dữ liệu ung thư vú ban đầu .27
Hì nh 2 22: Độ chính xác dữ liệu khi chưa giảm chiều 27
Hình 2 23: Tập dữ liệu ung thư vú sau khi giảm chiều bằng LDA 28
Hình 2 24: Độ chính xác dữ liệu ung thư vú giảm chiều với LDA 28
Hình 2 25: Độ chính xác chưa giảm chiều với dữ liệu hình ảnh 30
Hình 2 26: Dữ liệu hình ảnh 30
Trang 7Hình 2 27: Đồ thị dữ liệu khi giảm chiều với PCA 31
Hình 2 28: Dữ liệu sau khi giảm chiều 32
Hình 2 29: Biểu đồ dữ liệu sau khi giảm chiều với LDA 33
Hình 2 30: Dữ liệu sau khi giảm chiều 33
Trang 81
MỞ ĐẦU
Ngày nay, khi thực hiện phân tích một nhóm đối tượng, chúng ta khó tránh phải việc nhóm đối tượng này phục thuộc vào nhiều yếu tố, điều đó khiến cho việc tạo dựng hàm số để phân tích nhóm đối tượng này cần phụ thuộc vào một số lượng rất lớn các biến, có thể lên đến hàng nghìn, hàng trăm, hàng triệu,… đồng nghĩa với việc không gian mô tả cần thiết cũng như thế Điều này không chỉ gây khó khăn cho việc lưu trữdữ liệu mà còn khó khăn cho cả việc mô hình hóa và tính toán để có thể nhận xét, đưa ra góc nhìn trực quan cũng như cho việc kết luận sự tương quan giữa các đối tượng
Vì thế, việc giảm số lượng biến thực sự quan trọng trong các lĩnh vực có liên quan như trên Tuy nhiên, giảm số lượng biến của một tập dữ liệu phải đánh đổi bằng độ chính xác của tập dữ liệu đó, điều đó có nghĩa
là chúng ta phải chấp nhận mất đi một phần dữ liệu Cho nên: “Làm thế nào để giảm thiểu số chiều dữ liệu, mà vẫn đảm bảo sốlượng thông tin cần thiết? Một đề xuất khá hay để giải quyết vấn đề đó là sử dụng phương pháp Phân tích thành phần chính (PCA: Principle Pomponent Analysis) Ở bài báo cáo này, chúng em sẽ sử dụng phương pháp Phân tích thành phần chính
để giảm chiều dữ liệu
Trang 9Tuy nhiên, do vốn kiến thức chúng em còn nhiều hạn chế nên khó tránh khỏi những thiếu sót Kính mong các thầy xem xét, góp ý cho bài tập lớn của chúng em được hoàn thiện hơn Lời cuối, xin một lần nữa gửi lời biết ơn sâu sắc đến các cá nhân, các thầy cô đã dành thời gian chỉ dẫn cho nhóm, xin cảm ơn đến các tác giả của các tài liệu mà nhóm đã tham khảo Đây chính là niềm tin, là nguồn động lực to lớn để nhóm có thể đạt được kết quả này
Trang 103
CHƯƠNG 1: TỔNG QUAN VỀ BI TOÁN
1.1 Giới thiệu về giảm chiều dữ liệu
Giảm chiều dữ liệu là quá trình giảm số chiều của dữ liệu mà vẫn giữ lại những thông tin quan trọng nhất Trong lĩnh vực khoa học dữ liệu
và máy học, việc giảm chiều dữ liệu thường được sử dụng để tăng tốc độ
xử lý dữ liệu, giảm thiểu nhiễu và chi phí lưu trữ
Bài toán giảm chiều là bài toán trong lĩnh vực xử lý dữ liệu, nhằm giảm số chiều của dữ liệu mà không mất mát quá nhiều thông tin quan trọng Trong thực tế, dữ liệu thường có số chiều rất lớn, nhưng không phải tất cả các chiều đều quan trọng Việc giảm chiều sẽ giúp cho việc phân tích
và xử lý dữ liệu trở nên dễ dàng hơn, giảm thời gian tính toán và giúp cho kết quả đạt được được chính xác hơn
Có nhiều phương pháp giảm chiều dữ liệu và chủ yếu được chia là 2 loại: Giữ loại thuộc tính quan trọng nhất và xác định độ tương quan giữa cái thuộc tính
Nổi bật của giữ lại thuộc tính quan trọng nhất thì có các phương pháp như: loại bỏ những tính năng lạc hậu (Backwards-feature elimination), lựa chọn tính năng chuyển tiếp (Forward Feature Selection), xây dựng những cây quyết định ngẫu nhiên (Random Forest),…
• Loại bỏ những tính năng lạc hậu (Backwards-feature elimination): Tiếp cận hướng top down, bắt đầu với tất cả feature, và loại bỏ từng feature cho đến hết
• Lựa chọn tính năng chuyển tiếp (Forward Feature Selection): Ngược lại phương pháp trên, từ một feature và tăng dần các feature tới khi mô hình đạt giá trị tối ưu
• Xây dựng những cây quyết định ngẫu nhiên (Random Forest): Phương pháp này cũng tương đối phổ biến và có ích Việc sử dụng decision tree có thể tận dụng lợi thế thống kê học để tìm ra feature
Trang 11chứa nhiều thông tin để giữ lại nhất Thuật toán random forest (sklearn) chỉ nhận giá trị số, nên cần phải hot encoding
Tuy nhiên là cả Backward Feature Elimination và Forward Feature Selection đều rất tốn thời gian và tài nguyên tính toán Nên phương pháp chỉ thường chỉ sử dụng với các tập dữ liệu nhỏ, không nhiều feature Còn ở bên xác định độ tương quan thuộc tính thì lại chia làm 2 loại nhỏ hơn là: Tuyến tính - Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA) và không tuyến tính – Kernel PCA, Isomap,… Trong đó, PCA và LDA là phương pháp phổ biến nhất được sử dụng rộng rãi PCA là một phương pháp thống kê được sử dụng để giảm số chiều của dữ liệu bằng cách xác định các thành phần chính của dữ liệu Các thành phần chính được xác định bằng cách tính toán các vectơ riêng và giá trị riêng của ma trận hiệp phương sai của dữ liệu Các thành phần chính này sẽ có phương sai lớn nhất và chứa nhiều thông tin quan trọng nhất của
dữ liệu
LDA là một phương pháp khác được sử dụng để giảm chiều dữ liệu Tuy nhiên, LDA được sử dụng chủ yếu để phân loại dữ liệu LDA sử dụng thông tin về phân bố của các lớp dữ liệu để giảm số chiều của dữ liệu LDA cũng sử dụng các vectơ riêng và giá trị riêng để xác định các thành phần quan trọng của dữ liệu
Trên thực tế, bài toán giảm chiều dữ liệu có nhiều ứng dụng trong các lĩnh vực như khoa học dữ liệu, trí tuệ nhân tạo, xử lý ảnh, và nhận dạng mẫu Việc giảm chiều dữ liệu giúp cho việc phân tích và xử lý dữ liệu trở nên dễ dàng hơn và giúp cho kết quả đạt được được chính xác hơn
Trang 125
1.2 Phương pháp giảm chiều tuyến tính PCA và LDA
1.2.1 Tìm hiểu về PCA
1.2.1.1 Khái niệm về phân tích thành phần chính
PCA (Principal Component Analysis) là một phương pháp giảm chiều dữ liệu tuyến tính phổ biến nhất PCA hay còn gọi là Principal Componen Analysis (PCA), tức Phân tích thành phần chính, đây là phương pháp đơn giản nhất trong các thuật toán Dimensionality Reduction dựa trên một mô hình tuyến tính
Phương pháp này dựa trên quan sát rằng dữ liệu thường không phân
bố ngẫu nhiên trong không gian mà thường phân bố gần các đường/mặt đặc biệt nào đó PCA xem xét một trường hợp đặc biệt khi các mặt đặc biệt
đó có dạng tuyến tính là các không gian con (subspace)
Ví dụ, nếu ta có một bộ dữ liệu gồm 100 mẫu với 10 thuộc tính, thì PCA sẽ tìm kiếm các thành phần chính của ma trận hiệp phương sai của
100 x 10 thuộc tính này, từ đó giảm số chiều của dữ liệu xuống còn một số thành phần chính được chọn trước đó
1.2.1.2 Đặc trưng của phân tích thành phần chính.
• Giúp giảm số chiều của dữ liệu
• Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn
dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ biến thiên (variability) của dữ liệu trên mỗi chiều mới
• Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ, do đó về mặt ngữ nghĩa, PCA xây dựng feature mới dựa trên các feature đã quan sát được Điểm hay là những feature này vẫn biểu diễn tốt dữ liệu ban đầu
Trang 13• Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn, hoặc những liên kết như thế không thể hiện rõ
1.2.1.3 Mục tiêu của phân tích thành phần chính
Mục tiêu của PCA là tìm một không gian mới (với số chiều nhỏ hơn không gian cũ) Các trục tọa độ trong không gian mới được xây dựng sao cho trên mỗi trục, độ biến thiên của dữ liệu trên đó là lớn nhất có thể Tiếng Việt thì dài dòng, nhưng tiếng Anh thì mục tiêu này gọi là maximize the variability Ba chữ này gói gọn ý tưởng chính của PCA
Hình 1 1: Hình minh họa phép chiếu lên trục tọa độ
Ở hình minh họa trên phép chiếu lên các trục tọa độ khác nhau có thể cho cách nhìn rất khác nhau về cùng một dữ liệu Cùng là một con lạc
đà nhưng nếu nhìn từ bên hông thì ta có được đầy đủ thông tin nhất, trong khi nhìn từ phía trước thì thật khó để nói nó là lạc đà
Trang 147
Hình 1 2: Các trục tọa độ mới dữ liệu có độ biến thiên cao nhất.Giả s t p d ử ậ ữ liệu ban đầu (tập điểm màu xanh) được quan sát trong không gian 3 chi u (trề ục màu đen) như hình bên trái Rõ ràng 3 trục này không bi u diể ễn đượ ố nhất mức độ biến thiên của dữ liệu PCA do đó c t t
sẽ tìm hệ trục tọa độ mới (là hệ trục màu đỏ trong hình bên trái) Sau khi tìm được không gian mới, dữ liệu sẽ được chuyển sang không gian này để được biểu diễn như trong hình bên phải Rõ ràng hình bên phải chỉ cần 2 trục tọa độ nhưng biểu diễn tốt hơn độ biến thiên của dữ liệu so với hệ trục
3 chiều ban đầu Một điểm rất đẹp nữa của PCA là các trục tọa độ trong không gian mới luôn đảm bảo trực giao đôi một với nhau, mặc dù trong không gian ban đầu, các trục có thể không trực giao
1.2.1.4 Cách bước để phân tích thành phần chính
Bước 1: Chuẩn bị dữ liệu
Chuyển đổi dữ liệu thành một ma trận có kích thước mxn, trong đó m là số lượng mẫu, n là số lượng đặc trưng của mỗi mẫu
Bước 2: Chuẩn hóa dữ liệu
Chọn phương pháp
Bằng phương pháp trừ các trung bình (Subtract the mean) ta phải đưa các đặc trưng về cùng đơn vị đo lường, bằng cách chuẩn hóa chúng sao cho có cùng độ lệch chuẩn (standard deviation)
Bước 3: Tính toán ma trận hiệp phương sai
Trang 15Để tính được ma trận hiệp phương sai ta cần tính tính phương sai trước
Phương sai là một thước đo của sự lây lan của các dữ liệu trong một tập hợp dữ liệu Trong thực tế, nó là gần như giống hệt với độ lệch chuẩn Công thức tính phương sai có dạng như công thức (1.1) sau
𝑣𝑎𝑟(𝑋) =∑ = 1𝑛𝑖 (𝑋(n − 1)𝑖− 𝑋)(𝑋𝑖+ 𝑋) (1.1)
Sau đó, tính ma trận hiệp phương sai (covariance matrix): từ dữ liệu đã được chuẩn hóa, ta tính ma trận hiệp phương sai của các đặc trưng theo công thức (1.2)
𝑐𝑜𝑣(𝑋, 𝑌) =∑ = 1𝑛𝑖 (𝑋𝑖− 𝑋)(𝑌𝑖− 𝑌)
Chú ý, ma trận hiệp phương sai có kích thước nxn (với n là số lượng đặc trưng) và đại diện cho mối quan hệ tuyến tính giữa các đặc trưng Chúng ta sẽ tính đến hiệp phương sai
Bước 4: Tính vector riêng và giá trị riêng của ma trận hiệp phương sai
PCA tìm kiếm các vector riêng (eigenvectors) và giá trị riêng (eigenvalues) của ma trận hiệp phương sai Các giá trị riêng thể hiện độ lớn của các vector riêng tương ứng và cho biết mức độ phân tán của dữ liệu trong hướng của vector riêng đó Từ ma trận hiệp phương sai là hình vuông, chúng ta có thể tính toán các vector riêng và trị riêng cho ma trận này
Bước 5: Lựa chọn các thành phần và hình thành một vector đặc trưng
Chọn các thành phần chính: PCA chọn các thành phần chính (principal components) của dữ liệu bằng cách sắp xếp các vector riêng theo giá trị giảm dần của giá trị riêng tương ứng Các thành phần chính này đại diện cho các chiều không gian quan trọng nhất của dữ liệu và có thể giải thích một phần lớn sự biến động của dữ liệu a có thể sử dụng các thành phần Tchính để chuyển đổi dữ liệu từ không gian nhiều chiều sang không gian ít chiều hơn Lựa chọn số lượng thành phần chính
Trang 169
1.2.1.5 Ứng dụng của phân tích thành phần chính
Tăng tốc độ thuật toán Machine Learning (ML): ý tưởng chính của PCA là giảm kích thước, dựa vào những điều đó có thể tăng tốc độ phù hợp của thuật toán Machine learning bằng cách thay đổi thuật toán tối ưu hoá Nếu thuật toán học ban đầu chậm do kích thước đầu vào cao, thì việc sử dụng PCA để tăng tốc là một trong những lựa chọn cần thiết
Trực quan hoá dữ liệu: để giải quyết một vấn đề mà dữ liệu là chìa khoá, cần phải khám phá dữ liệu sâu rộng như tìm hiểu mối tương quan của các biến Một số lượng lớn các biến mà dữ liệu được phân phối, việc trực quan hoá thể là một thách thức và hầu như không thể PCA có thể làm điều đó để giảm dữ liệu 4 chiều đó thành 2 hoặc 3 chiều để trực quan hoá
và hy vọng hiểu dữ liệu tốt hơn
1.2.1.6 Ý nghĩa của phân tích thành phần chính
Các thành phần chính là chìa khoá quan trọng của PCA, khi dữ liệu được chiếu vào một chiều thấp hơn (giả sử là ba chiều) từ một không gian cao hơn, thì ba chiều ở đây chính là ba thành phần chính lưu giữ hầu hết phương sai (thông tin) của dữ liệu
Các thành phần chính đều có hướng và độ lớn Thành phần chính là cấu trúc cơ bản trong dữ liệu, những hướng có nhiều phương sai nhất, những hướng mà dữ liệu được trải ra nhiều nhất Các thành phần chính là một đường thẳng và thành phần chính đầu tiên có nhiều phương sai nhất trong dữ liệu Mỗi thành phần chính tiếp theo trực giao với thành phần cuối cùng ở trước và có phương sai nhỏ dần
1.2.2 Tìm hiểu về LDA
1.2.2.1 Khái niêm về phân tích phân biệt tuyến tính
LDA (Linear Discriminant Analysis) là một phương pháp giảm chiều dữ liệu tuyến tính, bằng việc là nó yêu cầu có thông tin về nhãn lớp của dữ liệu LDA tìm kiếm các trục mới sao cho dữ liệu được phân chia tốt
Trang 17nhất giữa các lớp LDA tính toán các hàm phân loại tốt nhất cho dữ liệu, dựa trên sự khác biệt giữa các lớp Phân tích phân biệt tuyến tính đã được
sử dụng thành công như một kỹ thuật giảm chiều cho nhiều lĩnh vực, chẳng hạn như nhận dạng giọng nói, nhận diện khuôn mặt, và đa phương tiện trong phục hồi hình
Khi LDA được thực hiện, có hai mục tiêu chính: giảm thiểu phương sai của hai lớp và tối đa hóa khoảng cách giữa các phương tiện của hai lớp
dữ liệu
Ví dụ, nếu ta có một bộ dữ liệu gồm 100 mẫu với 10 thuộc tính và 2 lớp, thì LDA sẽ tìm kiếm một hoặc nhiều trục mới để dữ liệu được phân chia tốt nhất giữa hai lớp Sau đó, ta có thể sử dụng các thuộc tính mới này
để phân loại dữ liệu
1.2.2.2 Đặc t rưng của phân tích phân biệt tuyến tính
• LDA là một phương pháp học có giám sát, điều này có nghĩa là nó yêu cầu các điểm dữ liệu được gán nhãn
• LDA tập trung vào tìm kiếm một trục mới trong không gian đặc trưng, sao cho khoảng cách giữa các điểm dữ liệu trong cùng một lớp nhỏ hơn so với khoảng cách giữa các lớp khác nhau
• LDA giả định rằng phân phối của các lớp là hàm Gauss (một đường cong đối xứng đặc trưng "hình quả chuông" , tức là các điểm dữ liệu )trong mỗi lớp được phân bố theo phân phối chuẩn
• LDA cũng giả định rằng các lớp có cùng ma trận hiệp phương sai (covariance matrix)
• LDA tối đa hóa tỉ lệ giữa giữa phương sai giữa các lớp và giữa các điểm dữ liệu trong cùng một lớp
• LDA có thể được sử dụng để giảm chiều dữ liệu (dimensionality reduction) bằng cách chọn một số lượng nhỏ hơn các trục mới được tạo ra từ LDA, thay vì sử dụng toàn bộ không gian đặc trưng ban
Trang 1811
1.2.2.3 Mục tiệu của phân tích phân biệt tuyến tính
• Tìm các trục mới trong không gian đặc trưng sao cho khoảng cách giữa các điểm dữ liệu trong cùng một lớp nhỏ hơn so với khoảng cách giữa các lớp khác nhau
• Tối đa hóa tỉ lệ giữa phương sai giữa các lớp và giữa các điểm dữ liệu trong cùng một lớp
• Giảm chiều dữ liệu (dimensionality reduction) bằng cách chọn một
số lượng nhỏ hơn các trục mới được tạo ra từ LDA, thay vì sử dụng toàn bộ không gian đặc trưng ban đầu
Với mục tiêu này, LDA giả định rằng phân phối của các lớp là Gaussian
và các lớp có cùng ma trận hiệp phương sai (covariance matrix) LDA được sử dụng rộng rãi trong các bài toán phân loại, đặc biệt là khi số lượng điểm dữ liệu trong mỗi lớp lớn và số lượng đặc trưng của dữ liệu lớn
1.2.2.4 Các bước để phân tích phân biệt tuyến tính
Bước 1: Chuẩn bị dữ liệu
Tải dữ liệu và tách nó thành các lớp tương ứng
Bước 2: Tính toán các giá trị trung bình của các lớp
Tính giá trị trung bình của mỗi lớp để biết cách chuyển đổi dữ liệu Bước 3: Tính toán ma trận phân tán trong lớp
Tính toán ma trận phân tán của từng lớp để biết sự phân tán của dữ liệu
𝑆𝑤= ∑ ∑ (𝑦𝑀𝑖𝑖− 𝜇𝑖)
𝑗=1
𝐶
Bước 4: Tính toán ma trận phân tán giữa các lớp
Tính toán ma trận phân tán giữa các lớp để biết sự phân biệt giữa các lớp
Bước 5: Tính toán các vector riêng và giá trị riêng của ma trận phân tán giữa các lớp
Trang 19Sử dụng ma trận phân tán giữa các lớp để tính toán các vector riêng và giá trị riêng
Bước 6: Sắp xếp các vector riêng theo thứ tự giảm dần của giá trị riêng
Sắp xếp các vector riêng theo thứ tự giảm dần của giá trị riêng tương ứng
Bước 7: Lựa chọn các thành phần chính
Chọn các thành phần chính bằng cách lấy các vector riêng tương ứng với giá trị riêng lớn nhất
Bước 8: Chuyển đổi dữ liệu
Sử dụng các thành phần chính đã chọn để chuyển đổi dữ liệu vào không gian mới
LDA là một kỹ thuật phân tích quan trọng trong học máy và thị giác máy tính, được sử dụng rộng rãi trong các ứng dụng như nhận dạng khuôn mặt, phân loại ảnh và phân tích văn bản
1.2.2.5 Ứng dụng của phân tích phân biệt tuyến tính
Phân tích phân biệt tuyến tính (Linear Discriminant Analysis - LDA)
là một kỹ thuật phân tích đa biến được sử dụng phổ biến trong nhiều lĩnh vực như thống kê, khoa học dữ liệu, trí tuệ nhân tạo, và nhận diện mẫu Các ứng dụng chính của LDA bao gồm:
1 Phân loại: LDA có thể được sử dụng để phân loại dữ liệu trong các lĩnh vực như y học, sinh học, kinh tế học, và máy móc học
2 Giảm chiều dữ liệu: LDA cũng có thể được sử dụng để giảm số chiều của dữ liệu mà không mất mát quá nhiều thông tin quan trọng
3 Nhận dạng mẫu: LDA cung cấp cho chúng ta các giá trị hệ số để có thể nhận dạng mẫu và phân biệt giữa các lớp dữ liệu
4 Phân tích tương quan: LDA cũng có thể được sử dụng để phân tích tương quan giữa các biến đầu vào và biến đầu ra
Trang 2013
5 Trích xuất đặc trưng: LDA có thể được sử dụng để trích xuất các đặc trưng quan trọng từ dữ liệu và giúp cho việc phân tích dữ liệu trở nên dễ dàng hơn
6 Xử lý ảnh: LDA được sử dụng rộng rãi trong xử lý ảnh để phân tích
và nhận dạng các đối tượng khác nhau trong các hình ảnh Tóm lại, LDA là một kỹ thuật quan trọng trong việc phân tích dữ liệu và
có nhiều ứng dụng trong các lĩnh vực khác nhau
1.2.2.6 Ý nghĩa của phân tích phân biệt tuyến tính
Phân tích phân biệt tuyến tính (Linear Discriminant Analysis - LDA)
là một kỹ thuật phân tích đa biến nhằm giúp phân biệt và phân loại dữ liệu
Ý nghĩa của LDA là giúp cho chúng ta hiểu được các đặc trưng quan trọng của các lớp dữ liệu khác nhau và giúp cho việc phân biệt và phân loại dữ liệu trở nên dễ dàng hơn
LDA sử dụng các đặc trưng của dữ liệu để tạo ra các hàm phân biệt tuyến tính giữa các lớp dữ liệu khác nhau Các hàm phân biệt này cho phép chúng ta phân loại các mẫu dữ liệu mới vào các lớp tương ứng LDA cũng
có thể được sử dụng để giảm số chiều của dữ liệu, giúp cho việc phân tích
dữ liệu trở nên dễ dàng hơn
LDA là một kỹ thuật quan trọng trong việc phân tích dữ liệu và có nhiều ứng dụng trong nhiều lĩnh vực, bao gồm y học, sinh học, kinh tế học,
và máy móc học LDA giúp cho chúng ta hiểu được các đặc trưng quan trọng của các lớp dữ liệu khác nhau và giúp cho việc phân biệt và phân loại
dữ liệu trở nên dễ dàng hơn, đồng thời cũng giúp cho việc giảm số chiều của dữ liệu trở nên dễ dàng hơn và giúp cho việc phân tích dữ liệu trở nên
dễ dàng hơn
1.2.3 Ưu điểm, nhược điểm của các phương pháp giảm chiều
Ưu điểm của PCA:
• PCA có thể giảm chiều dữ liệu một cách hiệu quả và đơn giản
Trang 21• PCA làm giảm độ phức tạp tính toán cho các bước xử lý tiếp theo
• PCA có thể được sử dụng cho các loại dữ liệu khác nhau và không yêu cầu các giả định về phân phối của dữ liệu
Nhược điểm của PCA:
• PCA chỉ tập trung vào phương sai của dữ liệu mà không quan tâm đến sự phân bố của các lớp dữ liệu
• PCA có thể bị ảnh hưởng bởi các giá trị ngoại lệ (outlier)
• Khi số chiều giảm được chọn quá lớn, PCA có thể không giữ lại đủ thông tin quan trọng để có thể phân loại dữ liệu
Ưu điểm của LDA:
• LDA tập trung vào sự phân bố của các lớp dữ liệu và giúp cho các lớp dữ liệu được phân tách rõ ràng hơn
• LDA có thể giữ lại những thông tin quan trọng liên quan đến sự khác biệt giữa các lớp dữ liệu
• LDA có thể được sử dụng để phân loại dữ liệu
Nhược điểm của LDA:
• LDA yêu cầu dữ liệu có phân phối chuẩn
• LDA không hiệu quả khi số lượng các mẫu huấn luyện rất nhỏ hoặc các lớp dữ liệu không phân biệt rõ ràng
• Khi số chiều giảm được chọn quá lớn, LDA có thể gây ra sự mất mát thông tin quan trọng