Bin: cột trong biểu đồ histogram Density function: hàm mật độ Power law: phân phối quy tắc lũy thừa Tài liệu tham khảo Boris Mirkin, Core Concepts in Data Analysis 3.3 Dữ liệu nhiều chiề
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC
HỆ HỖ TRỢ QUYẾT ĐỊNH CHƯƠNG 3: PHÂN TÍCH MÔ TẢ
Trang 23.3 Dữ liệu nhiều chiều
3.3.1 Phân tích tương quan
3.4.2 Thuật toán Apriori
3.4.3 Các phương pháp tăng hiệu năng
3.4.4 Đánh giá kết quả
3.4.5 Thuộc tính giá trị số
3.5 Phân tích phân cụm
3.5.1 Khái niệm
Trang 43.1 Dữ liệu một chiều
Dữ liệu 1 chiều là một tập các phần tử được đại diện bởi một trong hai đặc trưng: định tính và định lượng Không có một tiêu chuẩn đơn giản nào về tính định tính hay định lượng của dữ liệu Tuy nhiên, dựa theo mục đích thực tế, một tiêu chuẩn được gọi là tốt khi một đặc trưng mang tính định lượng nếu trung bình của nó có ý nghĩa
3.1.1 Phân phối và biểu đồ phổ
Phân phối là một cách tổng hợp toàn diện và gây ấn tượng trực quan Trên mặt phẳng, vẽ một trục x và các đường ranh giới của đặc trưng thể hiện giới hạn của chúng Chia khoảng cách trên x dựa theo số cột tương ứng với số đặc trưng (bin) Các cột không được chồng lên nhau và có kích thước bằng nhau Chiều cao của cột dựa vào số phần tử thuộc vào cột Người ta gọi đó là biểu đồ histogram
Trang 5Trục x thể hiện đặc trưng dữ liệu và trục y biểu diễn số phần tử thuộc vào cột đặc trưng
Nhận xét: Tổng số các phần tử trong cột bằng tổng số các phần tử trong
dữ liệu
Dữ liệu là tập các phần tử x1, …, xN Kí hiệu X = {x1, …, xN}
Trên [a, b], ta có n đặc trưng của dữ liệu => Cần tạo n cột đặc trưng
Để tạo ra n cột, ta cần thực hiện phép chia tại các điểm a + k(b−a)/n (k =
1, 2, …, n−1)
Công thức cũng áp dụng cho cả trường hợp k = 0 và k = n + 1 và khi đó
a = x0 và b = xn+1
Trang 6Trường hợp biểu đồ có 2 cột Chú ý: Cột k có biên lần lượt là a+(k−1)(b−a)/n và a+k(b−a)/n Có thể loại bỏ một trong hai biên để các cột không bị chồng chéo lên nhau trên các biên
Các biểu đồ có thể được coi là biểu thức thực nghiệm của lý thuyết phân phối xác suất (hay còn gọi là hàm mật độ)
Giảm tối thiểu lỗi tính tổng bình phương
Ước tính giá trị kì vọng của phân phối
Nhạy cảm với ngoại lệ và hình dạng phân phối
Trang 7Không nhạy cảm với hình dạng phân phối
P-quantile
(Percentile)
(Phân vị)
Một giá trị chia toàn bộ phần tử theo tỉ lệ P hoặc (1-P) để chúng cùng những giá trị cao hơn tạo thành tỉ lệ P (upper P-quantile) hoặc 1-
P (bottom quantile)
P-Không nhạy cảm với ngoại lệ Nhạy cảm với hình dạng phân phối
Mode
(Yếu vị)
Giá trị của phần
tử lớn nhất trong biểu đồ
Phụ thuộc vào kích thước của cột
Được tối thiểu hóa bằng mean Ước tính căn bậc hai của
phương sai
Độ lệch
tuyệt đối
Trung bình độ lệch tuyệt đối từ median
Được tối thiểu hóa bằng median (trung vị)
Half-range Độ lệch tối đa từ
mid-range
Được tối thiểu hóa nhờ range
mid-3.1.4 Phân tích hình dáng
Trang 8Phân bố kiểu lũy thừa
Phân bố Gauss
Trang 10Bar – chart (Biểu đồ cột)
Từ khóa
Categorical data: dữ liệu định tính
Quantitative data: dữ liệu định lượng
Trang 11Bin: cột trong biểu đồ histogram
Density function: hàm mật độ
Power law: phân phối quy tắc lũy thừa
Tài liệu tham khảo
Boris Mirkin, Core Concepts in Data Analysis
3.3 Dữ liệu nhiều chiều
3.3.1 Phân tích tương quan (Correlation Analysis)
3.3.1.a, Định nghĩa
để đánh giá sức mạnh của mối quan hệ giữa hai biến định
lượng Một mối tương quan cao có nghĩa là hai hoặc nhiều biến có mối quan hệ chặt chẽ với nhau, trong khi tương quan yếu có nghĩa
là các biến đó hầu như không liên quan Nói cách khác, đó là quá trình nghiên cứu sức mạnh của mối quan hệ đó với dữ liệu thống
kê có sẵn Kỹ thuật này được kết nối chặt chẽ với phân tích hồi quy tuyến tính, là phương pháp thống kê để mô hình hóa mối liên
hệ giữa một biến phụ thuộc, được gọi là phản hồi và một hoặc nhiều biến giải thích hoặc biến độc lập
Ví dụ
Trang 123.3.1.b, Hệ số tương quan tuyến tính (Correlation Coefficient)
tương quan giữa hai biến số.Hệ số tương quan có giá trị từ -1 đến
1 Hệ số tương quan bằng 0 (hay gần 0) có nghĩa là hai biến số
không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có nghĩa là hai biến số có một mối liên hệ tuyệt đối
Trang 13 Nếu giá trị của hệ số tương quan là âm (𝜌<0) có nghĩa là khi x tăng cao thì y giảm (và ngược lại, khi x giảm thì y tăng); nếu giá trị hệ
số tương quan là dương (𝜌 > 0) có nghĩa là khi x tăng thì y tăng, x giảm thì y giảm
Trang 143.3.1.c, Các phương pháp tính tương quan
hệ số tương quan Pearson r, được định nghĩa như sau: Cho hai biến
số x và y từ n mẫu, hệ số tương quan Pearson được ước tính bằng công thức sau đây:
Tương quan hạng Spearman
Trang 15Tương quan hạng Spearman được sử dụng thay thế tương quan
Pearson để kiểm tra mối quan hệ giữa hai biến được xếp hạng hoặc một biến được xếp hạng và một biến đo lường không yêu cầu có phân phối chuẩn Nghĩa là, ta có thể sử dụng tương quan hạng Spearman thay cho hồi quy/tương quan Pearson khi ta lo lắng về phân phối không chuẩn của dữ liệu Tuy nhiên, không phải lúc nào điều này cũng cần thiết Tương quan hạng Spearman được tính bằng công thức sau:
Tương quan hạng Kendall
Đánh giá mức độ tương quan của 2 hạng của 2 biến (rank-ordered variables), hệ số này được sử dụng tương tự như spearman, thông thường hệ số này nhỏ hơn spearman
Hệ số kendall ít dùng hơn so với 2 hệ số tương quan trên
3.3.1.d, Kiểm định sự tương quan của 2 biến
Để kiểm định 2 biến, người ta đưa ra 2 giả thuyết kiểm định:
H0: không tương quan (hệ số tương quan bằng 0)
H1: đối lập H0 (hệ số tương quan khác 0)
Tiêu chuẩn kiểm định:
√1−𝑟2
với r là hệ số tương quan Pearson tính trên tập mẫu ngẫu nhiên
Trang 16-Nếu giả thuyết H0 đúng người ta đã chứng minh rằng K ~ t(n-2), từ đó miền giới hạn là:
B𝛼 = { Ktn : |Ktn| > tn-2; 1 − 𝛼
2 }
Nếu giả thuyết về tính độc lập của X và Y chấp nhận được, ít lý do để xem xét đồng thời 2 biến đó Trong trường hợp ngược lại, ta sẽ quan tâm đến quan hệ của chúng
3.3.1.e, Kiểm định giả thuyết về hệ số tương quan
● Kiểm định H0: 𝜌 = 𝜌0 cho trước
thống kê:
Z = 1
1−𝑟 (*)
(khi n → ∞) với các số đặc trưng xấp xỉ
Trang 17● So sánh 2 hệ số tương quan
Bài toán đưa về kiểm định H0: 𝜌1 = 𝜌2 dựa trên 2 bộ số liệu mẫu cặp (có kích thước tương tứng là n1 và n2) của 2 cặp biến X1,Y1 và X2,Y2 Bằng cách xác định 2 thống kê Z1 và Z2 như trong (*), người ta đưa ra tiêu chuẩn kiểm định
3.3.2.a, Giới thiệu PCA
Trong thống kê, thông thường cần phải “nghiên cứu” dữ liệu trước khi xây dựng các mô hình suy diễn dựa trên dữ liệu đó Tuy nhiên đôi khi dữ liệu có số chiều lớn, không thể visualize trong không gian 2 hay 3 chiều,
do đó cần phải tìm cách đưa dữ liệu về không gian có số chiều nhỏ hơn PCA là một trong những phương pháp như thế, nhưng hơn thế, PCA còn
có nhiều đặc tính tốt như:
Giúp giảm số chiều của dữ liệu,
Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn
dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ biến thiên (variability) của dữ liệu trên mỗi chiều mới
Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của
không gian cũ, do đó về mặt ngữ nghĩa, PCA xây dựng feature mới
Trang 18dựa trên các feature đã quan sát được Điểm hay là những feature này vẫn biểu diễn tốt dữ liệu ban đầu
Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn, hoặc những liên kết như thế không thể hiện rõ
Nói một cách ngắn gọn, mục tiêu của PCA là tìm một không gian mới (với số chiều nhỏ hơn không gian cũ) Các trục tọa độ trong không gian mới được xây dựng sao cho trên mỗi trục, độ biến thiên của dữ liệu trên
đó là lớn nhất có thể (Maximize the Variability)
Hình minh họa Cùng là một con lạc đà, nhưng nhìn từ phía khác nhau
sẽ cho thông tin khác nhau
3.3.2.b, Thuật toán PCA
Cho ma trận Các bước của PCA lần lượt như sau:
● Tiền xử lí
Dữ liệu ban đầu có thể có giá trị thay đổi bất thường Ví dụ trên feature
1 (cột 1 của ) giá trị thay đổi trong khoảng (0, 1), trên feature 2 lại
Trang 19biến thiên trong đoạn (-100, 100) Rõ ràng cần phải có một bước tiền xử
lí để chuẩn hóa giá trị trên các cột của ma trận X Có 2 cách tiền xử lí
thường được dùng cho PCA là Centered PCA và Normed PCA
Centered PCA mang tất cả các feature (các cột của X) về cùng một gốc
tọa độ:
,
, (1a)
Trong đó n là số dòng của X, là trung bình của cột thứ j của X, được
tính như trên Normed PCA mang tất cả các feature về cùng một gốc
tọa độ, đồng thời chuẩn hóa về cùng một quãng độ lệch chuẩn bằng 1:
,
(1b)
Trong đó là độ lệch chuẩn (standard deviation) của cột thứ j trong X
Thông thường Normed PCA hay được dùng Sau bước tiền xử lí, ma trận sẽ là đầu vào cho bước tiếp theo
● Xây dựng không gian mới
Tính ma trận hiệp phương sai (covariance) của các feature trong :
(2)
Do là tích của ma trận với chuyển vị của nó nên là ma trận bán xác định dương kích thước Hơn nữa có p trị
Tiếp theo, PCA tìm trị riêng và vector riêng tương ứng của , sắp xếp
theo thứ tự giảm dần của trị riêng Giả sử p trị riêng của V là
Trang 20và p vector riêng tương ứng là
(4)
Khi đó các trục của không gian mới chính là các vector riêng ở trên, đương nhiên các vector riêng hoàn toàn độc lập tuyến tính (nghĩa là trực giao đôi một) Có thể nói trong PCA, trị riêng và vector riêng có vị trí rất đẹp, thỏa mãn tất cả các yêu cầu của PCA
● Chuyển dữ liệu từ không gian ban đầu vào không gian mới
Thông thường không gian mới không được xây dựng bằng tất
cả p vector riêng trong (4), mà thông thường chỉ từ k vector riêng đầu tiên, với k < p Tại sao là các vector đầu tiên, và chọn k bao nhiêu thì tốt,
ta sẽ bàn trong phần cuối
Như vậy gọi
Khi đó tọa độ các điểm trong hệ tọa độ mới là
Kết thúc giải thuật PCA
3.3.3, Phân tích nhân tố (Factor Analysis)
3.3.3.a, Phân tích nhân tố là gì
Phân tích nhân tố là một cách để lấy một khối lượng dữ liệu và thu nhỏ
nó thành một tập dữ liệu nhỏ hơn, dễ quản lý và dễ hiểu hơn Đó là một cách để tìm các mẫu ẩn, chỉ ra cách các mẫu đó trùng nhau và hiển thị các đặc điểm được nhìn thấy trong nhiều mẫu Nó cũng được sử dụng để tạo một tập hợp các biến cho các mục tương tự trong tập hợp (các bộ biến này được gọi là kích thước) Nó có thể là một công cụ rất hữu ích cho các bộ dữ liệu phức tạp liên quan đến các nghiên cứu tâm lý, tình trạng kinh tế xã hội và các khái niệm liên quan khác Một yếu tố của NỀN TẢNG là một tập hợp các biến quan sát có các mẫu phản ứng
tương tự; Chúng được liên kết với một biến ẩn (được gọi là biến gây nhiễu) mà không được đo trực tiếp Các yếu tố được liệt kê theo các yếu
tố tải, hoặc mức độ biến đổi trong dữ liệu họ có thể giải thích
Hai loại: thăm dò và xác nhận
Trang 21 Phân tích nhân tố khám phá là nếu bạn không có bất kỳ ý tưởng
nào về cấu trúc dữ liệu của bạn hoặc có bao nhiêu thứ nguyên trong một tập hợp các biến
Phân tích nhân tố khẳng định được sử dụng để xác minh miễn là
bạn có ý tưởng cụ thể về cấu trúc dữ liệu của bạn hoặc có bao nhiêu thứ nguyên trong một tập hợp các biến
3.3.3.b, Hệ số tải nhân tố (Factor Loading)
Trang 22Không phải tất cả các nhân tố đều như nhau; một số yếu tố sẽ quan trọng hơn những yếu tố khác
Ví dụ, sau đây là kết quả cuộc khảo sát qua điện thoại về sự hài lòng của khách hàng:
Các yếu tố ảnh hưởng đến câu hỏi nhiều nhất (và do đó có hệ số tải cao nhất) được in đậm Hệ số tải nhân tố tương tự như các hệ số tương
quan ở chỗ chúng có thể thay đổi từ -1 đến 1 Các yếu tố càng gần với -1 hoặc 1, chúng càng ảnh hưởng đến biến số Hệ số tải nhân tố bằng 0 sẽ cho thấy không có hiệu lực Vì vậy, Factor loading (hệ số tải nhân tố hay trọng số nhân tố) là chỉ tiêu để đảm bảo mức ý nghĩa thiết thực của phân tích nhân tố
3.3.3.c,Phân tích nhân tố khám phá (Exploratory Factor Analysis – EFA)
Trong phân tích nhân tố, phép phân tích được sử dụng phổ biến nhất là Phân tích nhân tố khám phá, vì vậy em sẽ giới thiệu về phương pháp này
lượng dùng để rút gọn một tập gồm nhiều biến đo lường phụ thuộc lẫn nhau thành một tập biến ít hơn(gọi là các nhân tố) để chúng có ý nghĩa hơn nhưng vẫn chứa đựng hầu hết nội dung thông tin của tập biến ban đầu(Hair et al 2009)
● Mục tiêu
Trang 23Hai mục tiêu chính của EFA là phải xác định:
Số lượng các nhân tố ảnh hướng đến một tập các biến đo lường
Cường độ về mối quan hệ giữa mỗi nhân tố với từng biến đo lường
● Ứng dụng
EFA thường được sử dụng nhiều trong các lĩnh vực quản trị, kinh tế, tâm
lý, xã hội học, , khi đã có được mô hình khái niệm(Conceptual
Framework) từ các lý thuyết hay các nghiên cứu trước
Trong các nghiên cứu về kinh tế, người ta thường sử dụng thang đo(scale) chỉ mục bao gồm rất nhiều câu hỏi(biến đo lường) nhằm đo lường các khái niệm trong mô hình khái niệm, và EFA sẽ góp phần rút gọn một tập gồm rất nhiều biến đo lường thành một số nhân tố
Khi có được một số ít các nhân tố, nếu chúng ta sử dụng các nhân tố này với tư cách là các biến độc lập trong hàm hồi quy bội thì khi đó, mô hình sẽ giảm khả năng vi phạm hiện tượng đa cộng tuyến
Ngoài ra, các nhân tố được rút ra sau khi thực hiện EFA sẽ có thể được thực hiện trong phân tích hồi quy đa biến (Multivariate Regression Analysis), mô hình Logit, sau đó có thể tiếp tục thực hiện phân tích nhân
tố khẳng định(CFA) để đánh giá độ tin cậy của mô hình hay thực hiện mô hình cấu trúc tuyến tính (Structural Equation Modeling, SEM) để kiểm định về mối quan hệ phức tạp giữa các khái niệm
● Mô hình của EFA
Trong EFA, mỗi biến đo lường được biễu diễn như là một tổ hợp tuyến tính của các nhân tố cơ bản, còn lượng biến thiên của mỗi biến đo lường được giải thích bởi những nhân tố chung(common factor) Biến thiên chung của các biến đo lường được mô tả bằng một số ít các nhân tố chung cộng với một số nhân tố đặc trưng(unique factor) cho mỗi biến Nếu các biến đo lường được chuẩn hóa thì mô hình nhân tố được thể hiện bằng phương trình:
Xi = Ai1 * F1 + Ai2 * F2 + Ai3 * F3 + + Aim * Fm + Vi*Ui
Trong đó,
Trang 24Xi : biến đo lường thứ i đã được chuẩn hóa
Aij: hệ số hồi qui bội đã được chuẩn hóa của nhân tố j đối với biến i F1, F2, , Fm: các nhân tố chung
Vi: hệ số hồi qui chuẩn hóa của nhân tố đặc trưng i đối với biến i
Ui: nhân tố đặc trưng của biến i
Các nhân tố đặc trưng có tương quan với nhau và tương quan với các nhân
tố chung; mà bản thân các nhân tố chung cũng có thể được diễn tả như những tổ hợp tuyến tính của các biến đo lường, điều này được thể hiện thông qua mô hình sau đây:
Fi = Wi1*X1 + Wi2*X2 + Wi3*X3 + + Wik*Xk
Trong đó,
Fi: ước lượng trị số của nhân tố i
Wi: quyền số hay trọng số nhân tố(weight or factor scores coefficient) k: số biến
● Điều kiện áp dụng EFA
Điều kiện cần để bảng kết quả ma trận xoay có ý nghĩa thống kê là:
- Hệ số KMO phải nằm trong đoạn từ 0.5 đến 1
- Kiểm định Barlett có sig phải nhỏ hơn 0.05
- Giá trị Eigenvalue lớn hơn hoặc bằng 1
- Tổng phương sai trích lớn hơn hoặc bằng 50%
● Các bước thực hiện EFA
Theo Hoàng Trọng và Chu Mộng Ngọc(2010), có 6 bước để thực hiện EFA:
Trang 25Theo Rietveld & Van Hout (1993), có 7 bước chính để thực hiện EFA:
Trang 27Theo Williams, Onsman, Brown (2010), có 5 bước thực hiện EFA
-Không được đưa biến phụ thuộc vào chung với biến độc lập để xử lý EFA cùng một lúc khi sử dụng phép quay vuông góc và sử dụng giá trị nhân tố do EFA tạo ra để phân tích tiếp theo (Nguyễn Đình Thọ, 2012)
-Tuy nhiên, trong trường hợp sử dụng EFA để đánh giá giá trị thang đo (là phương pháp đánh giá liên kết) nếu sử dụng EFA cho từng thang đo riêng lẻ thì sẽ không đạt được giá trị phân biệt (các biến chỉ đo lường khái niệm muốn đo hay cùng đo lường các khái niệm khác)
3.3.4, Hiển thị dữ liệu nhiều chiều
Có nhiều cách để hiển thị dữ liệu nhiều chiều, em xin giới thiệu một số biểu đồ thông dụng: