1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích mô tả trong khai phá dữ liệu

46 60 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 2,31 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bin: cột trong biểu đồ histogram Density function: hàm mật độ Power law: phân phối quy tắc lũy thừa Tài liệu tham khảo Boris Mirkin, Core Concepts in Data Analysis 3.3 Dữ liệu nhiều chiề

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI KHOA TOÁN ỨNG DỤNG VÀ TIN HỌC

HỆ HỖ TRỢ QUYẾT ĐỊNH CHƯƠNG 3: PHÂN TÍCH MÔ TẢ

Trang 2

3.3 Dữ liệu nhiều chiều

3.3.1 Phân tích tương quan

3.4.2 Thuật toán Apriori

3.4.3 Các phương pháp tăng hiệu năng

3.4.4 Đánh giá kết quả

3.4.5 Thuộc tính giá trị số

3.5 Phân tích phân cụm

3.5.1 Khái niệm

Trang 4

3.1 Dữ liệu một chiều

Dữ liệu 1 chiều là một tập các phần tử được đại diện bởi một trong hai đặc trưng: định tính và định lượng Không có một tiêu chuẩn đơn giản nào về tính định tính hay định lượng của dữ liệu Tuy nhiên, dựa theo mục đích thực tế, một tiêu chuẩn được gọi là tốt khi một đặc trưng mang tính định lượng nếu trung bình của nó có ý nghĩa

3.1.1 Phân phối và biểu đồ phổ

Phân phối là một cách tổng hợp toàn diện và gây ấn tượng trực quan Trên mặt phẳng, vẽ một trục x và các đường ranh giới của đặc trưng thể hiện giới hạn của chúng Chia khoảng cách trên x dựa theo số cột tương ứng với số đặc trưng (bin) Các cột không được chồng lên nhau và có kích thước bằng nhau Chiều cao của cột dựa vào số phần tử thuộc vào cột Người ta gọi đó là biểu đồ histogram

Trang 5

Trục x thể hiện đặc trưng dữ liệu và trục y biểu diễn số phần tử thuộc vào cột đặc trưng

Nhận xét: Tổng số các phần tử trong cột bằng tổng số các phần tử trong

dữ liệu

Dữ liệu là tập các phần tử x1, …, xN Kí hiệu X = {x1, …, xN}

Trên [a, b], ta có n đặc trưng của dữ liệu => Cần tạo n cột đặc trưng

Để tạo ra n cột, ta cần thực hiện phép chia tại các điểm a + k(b−a)/n (k =

1, 2, …, n−1)

Công thức cũng áp dụng cho cả trường hợp k = 0 và k = n + 1 và khi đó

a = x0 và b = xn+1

Trang 6

Trường hợp biểu đồ có 2 cột Chú ý: Cột k có biên lần lượt là a+(k−1)(b−a)/n và a+k(b−a)/n Có thể loại bỏ một trong hai biên để các cột không bị chồng chéo lên nhau trên các biên

Các biểu đồ có thể được coi là biểu thức thực nghiệm của lý thuyết phân phối xác suất (hay còn gọi là hàm mật độ)

Giảm tối thiểu lỗi tính tổng bình phương

Ước tính giá trị kì vọng của phân phối

Nhạy cảm với ngoại lệ và hình dạng phân phối

Trang 7

Không nhạy cảm với hình dạng phân phối

P-quantile

(Percentile)

(Phân vị)

Một giá trị chia toàn bộ phần tử theo tỉ lệ P hoặc (1-P) để chúng cùng những giá trị cao hơn tạo thành tỉ lệ P (upper P-quantile) hoặc 1-

P (bottom quantile)

P-Không nhạy cảm với ngoại lệ Nhạy cảm với hình dạng phân phối

Mode

(Yếu vị)

Giá trị của phần

tử lớn nhất trong biểu đồ

Phụ thuộc vào kích thước của cột

Được tối thiểu hóa bằng mean Ước tính căn bậc hai của

phương sai

Độ lệch

tuyệt đối

Trung bình độ lệch tuyệt đối từ median

Được tối thiểu hóa bằng median (trung vị)

Half-range Độ lệch tối đa từ

mid-range

Được tối thiểu hóa nhờ range

mid-3.1.4 Phân tích hình dáng

Trang 8

Phân bố kiểu lũy thừa

Phân bố Gauss

Trang 10

Bar – chart (Biểu đồ cột)

Từ khóa

Categorical data: dữ liệu định tính

Quantitative data: dữ liệu định lượng

Trang 11

Bin: cột trong biểu đồ histogram

Density function: hàm mật độ

Power law: phân phối quy tắc lũy thừa

Tài liệu tham khảo

Boris Mirkin, Core Concepts in Data Analysis

3.3 Dữ liệu nhiều chiều

3.3.1 Phân tích tương quan (Correlation Analysis)

3.3.1.a, Định nghĩa

để đánh giá sức mạnh của mối quan hệ giữa hai biến định

lượng Một mối tương quan cao có nghĩa là hai hoặc nhiều biến có mối quan hệ chặt chẽ với nhau, trong khi tương quan yếu có nghĩa

là các biến đó hầu như không liên quan Nói cách khác, đó là quá trình nghiên cứu sức mạnh của mối quan hệ đó với dữ liệu thống

kê có sẵn Kỹ thuật này được kết nối chặt chẽ với phân tích hồi quy tuyến tính, là phương pháp thống kê để mô hình hóa mối liên

hệ giữa một biến phụ thuộc, được gọi là phản hồi và một hoặc nhiều biến giải thích hoặc biến độc lập

 Ví dụ

Trang 12

3.3.1.b, Hệ số tương quan tuyến tính (Correlation Coefficient)

tương quan giữa hai biến số.Hệ số tương quan có giá trị từ -1 đến

1 Hệ số tương quan bằng 0 (hay gần 0) có nghĩa là hai biến số

không có liên hệ gì với nhau; ngược lại nếu hệ số bằng -1 hay 1 có nghĩa là hai biến số có một mối liên hệ tuyệt đối

Trang 13

 Nếu giá trị của hệ số tương quan là âm (𝜌<0) có nghĩa là khi x tăng cao thì y giảm (và ngược lại, khi x giảm thì y tăng); nếu giá trị hệ

số tương quan là dương (𝜌 > 0) có nghĩa là khi x tăng thì y tăng, x giảm thì y giảm

Trang 14

3.3.1.c, Các phương pháp tính tương quan

hệ số tương quan Pearson r, được định nghĩa như sau: Cho hai biến

số x và y từ n mẫu, hệ số tương quan Pearson được ước tính bằng công thức sau đây:

 Tương quan hạng Spearman

Trang 15

Tương quan hạng Spearman được sử dụng thay thế tương quan

Pearson để kiểm tra mối quan hệ giữa hai biến được xếp hạng hoặc một biến được xếp hạng và một biến đo lường không yêu cầu có phân phối chuẩn Nghĩa là, ta có thể sử dụng tương quan hạng Spearman thay cho hồi quy/tương quan Pearson khi ta lo lắng về phân phối không chuẩn của dữ liệu Tuy nhiên, không phải lúc nào điều này cũng cần thiết Tương quan hạng Spearman được tính bằng công thức sau:

 Tương quan hạng Kendall

Đánh giá mức độ tương quan của 2 hạng của 2 biến (rank-ordered variables), hệ số này được sử dụng tương tự như spearman, thông thường hệ số này nhỏ hơn spearman

Hệ số kendall ít dùng hơn so với 2 hệ số tương quan trên

3.3.1.d, Kiểm định sự tương quan của 2 biến

Để kiểm định 2 biến, người ta đưa ra 2 giả thuyết kiểm định:

H0: không tương quan (hệ số tương quan bằng 0)

H1: đối lập H0 (hệ số tương quan khác 0)

Tiêu chuẩn kiểm định:

√1−𝑟2

với r là hệ số tương quan Pearson tính trên tập mẫu ngẫu nhiên

Trang 16

-Nếu giả thuyết H0 đúng người ta đã chứng minh rằng K ~ t(n-2), từ đó miền giới hạn là:

B𝛼 = { Ktn : |Ktn| > tn-2; 1 − 𝛼

2 }

Nếu giả thuyết về tính độc lập của X và Y chấp nhận được, ít lý do để xem xét đồng thời 2 biến đó Trong trường hợp ngược lại, ta sẽ quan tâm đến quan hệ của chúng

3.3.1.e, Kiểm định giả thuyết về hệ số tương quan

● Kiểm định H0: 𝜌 = 𝜌0 cho trước

thống kê:

Z = 1

1−𝑟 (*)

(khi n → ∞) với các số đặc trưng xấp xỉ

Trang 17

● So sánh 2 hệ số tương quan

Bài toán đưa về kiểm định H0: 𝜌1 = 𝜌2 dựa trên 2 bộ số liệu mẫu cặp (có kích thước tương tứng là n1 và n2) của 2 cặp biến X1,Y1 và X2,Y2 Bằng cách xác định 2 thống kê Z1 và Z2 như trong (*), người ta đưa ra tiêu chuẩn kiểm định

3.3.2.a, Giới thiệu PCA

Trong thống kê, thông thường cần phải “nghiên cứu” dữ liệu trước khi xây dựng các mô hình suy diễn dựa trên dữ liệu đó Tuy nhiên đôi khi dữ liệu có số chiều lớn, không thể visualize trong không gian 2 hay 3 chiều,

do đó cần phải tìm cách đưa dữ liệu về không gian có số chiều nhỏ hơn PCA là một trong những phương pháp như thế, nhưng hơn thế, PCA còn

có nhiều đặc tính tốt như:

 Giúp giảm số chiều của dữ liệu,

 Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn

dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ biến thiên (variability) của dữ liệu trên mỗi chiều mới

 Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của

không gian cũ, do đó về mặt ngữ nghĩa, PCA xây dựng feature mới

Trang 18

dựa trên các feature đã quan sát được Điểm hay là những feature này vẫn biểu diễn tốt dữ liệu ban đầu

 Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn, hoặc những liên kết như thế không thể hiện rõ

Nói một cách ngắn gọn, mục tiêu của PCA là tìm một không gian mới (với số chiều nhỏ hơn không gian cũ) Các trục tọa độ trong không gian mới được xây dựng sao cho trên mỗi trục, độ biến thiên của dữ liệu trên

đó là lớn nhất có thể (Maximize the Variability)

Hình minh họa Cùng là một con lạc đà, nhưng nhìn từ phía khác nhau

sẽ cho thông tin khác nhau

3.3.2.b, Thuật toán PCA

Cho ma trận Các bước của PCA lần lượt như sau:

● Tiền xử lí

Dữ liệu ban đầu có thể có giá trị thay đổi bất thường Ví dụ trên feature

1 (cột 1 của ) giá trị thay đổi trong khoảng (0, 1), trên feature 2 lại

Trang 19

biến thiên trong đoạn (-100, 100) Rõ ràng cần phải có một bước tiền xử

lí để chuẩn hóa giá trị trên các cột của ma trận X Có 2 cách tiền xử lí

thường được dùng cho PCA là Centered PCA và Normed PCA

Centered PCA mang tất cả các feature (các cột của X) về cùng một gốc

tọa độ:

,

, (1a)

Trong đó n là số dòng của X, là trung bình của cột thứ j của X, được

tính như trên Normed PCA mang tất cả các feature về cùng một gốc

tọa độ, đồng thời chuẩn hóa về cùng một quãng độ lệch chuẩn bằng 1:

,

(1b)

Trong đó là độ lệch chuẩn (standard deviation) của cột thứ j trong X

Thông thường Normed PCA hay được dùng Sau bước tiền xử lí, ma trận sẽ là đầu vào cho bước tiếp theo

● Xây dựng không gian mới

Tính ma trận hiệp phương sai (covariance) của các feature trong :

(2)

Do là tích của ma trận với chuyển vị của nó nên là ma trận bán xác định dương kích thước Hơn nữa có p trị

Tiếp theo, PCA tìm trị riêng và vector riêng tương ứng của , sắp xếp

theo thứ tự giảm dần của trị riêng Giả sử p trị riêng của V là

Trang 20

và p vector riêng tương ứng là

(4)

Khi đó các trục của không gian mới chính là các vector riêng ở trên, đương nhiên các vector riêng hoàn toàn độc lập tuyến tính (nghĩa là trực giao đôi một) Có thể nói trong PCA, trị riêng và vector riêng có vị trí rất đẹp, thỏa mãn tất cả các yêu cầu của PCA

● Chuyển dữ liệu từ không gian ban đầu vào không gian mới

Thông thường không gian mới không được xây dựng bằng tất

cả p vector riêng trong (4), mà thông thường chỉ từ k vector riêng đầu tiên, với k < p Tại sao là các vector đầu tiên, và chọn k bao nhiêu thì tốt,

ta sẽ bàn trong phần cuối

Như vậy gọi

Khi đó tọa độ các điểm trong hệ tọa độ mới là

Kết thúc giải thuật PCA

3.3.3, Phân tích nhân tố (Factor Analysis)

3.3.3.a, Phân tích nhân tố là gì

Phân tích nhân tố là một cách để lấy một khối lượng dữ liệu và thu nhỏ

nó thành một tập dữ liệu nhỏ hơn, dễ quản lý và dễ hiểu hơn Đó là một cách để tìm các mẫu ẩn, chỉ ra cách các mẫu đó trùng nhau và hiển thị các đặc điểm được nhìn thấy trong nhiều mẫu Nó cũng được sử dụng để tạo một tập hợp các biến cho các mục tương tự trong tập hợp (các bộ biến này được gọi là kích thước) Nó có thể là một công cụ rất hữu ích cho các bộ dữ liệu phức tạp liên quan đến các nghiên cứu tâm lý, tình trạng kinh tế xã hội và các khái niệm liên quan khác Một yếu tố của NỀN TẢNG là một tập hợp các biến quan sát có các mẫu phản ứng

tương tự; Chúng được liên kết với một biến ẩn (được gọi là biến gây nhiễu) mà không được đo trực tiếp Các yếu tố được liệt kê theo các yếu

tố tải, hoặc mức độ biến đổi trong dữ liệu họ có thể giải thích

Hai loại: thăm dò và xác nhận

Trang 21

Phân tích nhân tố khám phá là nếu bạn không có bất kỳ ý tưởng

nào về cấu trúc dữ liệu của bạn hoặc có bao nhiêu thứ nguyên trong một tập hợp các biến

Phân tích nhân tố khẳng định được sử dụng để xác minh miễn là

bạn có ý tưởng cụ thể về cấu trúc dữ liệu của bạn hoặc có bao nhiêu thứ nguyên trong một tập hợp các biến

3.3.3.b, Hệ số tải nhân tố (Factor Loading)

Trang 22

Không phải tất cả các nhân tố đều như nhau; một số yếu tố sẽ quan trọng hơn những yếu tố khác

Ví dụ, sau đây là kết quả cuộc khảo sát qua điện thoại về sự hài lòng của khách hàng:

Các yếu tố ảnh hưởng đến câu hỏi nhiều nhất (và do đó có hệ số tải cao nhất) được in đậm Hệ số tải nhân tố tương tự như các hệ số tương

quan ở chỗ chúng có thể thay đổi từ -1 đến 1 Các yếu tố càng gần với -1 hoặc 1, chúng càng ảnh hưởng đến biến số Hệ số tải nhân tố bằng 0 sẽ cho thấy không có hiệu lực Vì vậy, Factor loading (hệ số tải nhân tố hay trọng số nhân tố) là chỉ tiêu để đảm bảo mức ý nghĩa thiết thực của phân tích nhân tố

3.3.3.c,Phân tích nhân tố khám phá (Exploratory Factor Analysis – EFA)

Trong phân tích nhân tố, phép phân tích được sử dụng phổ biến nhất là Phân tích nhân tố khám phá, vì vậy em sẽ giới thiệu về phương pháp này

lượng dùng để rút gọn một tập gồm nhiều biến đo lường phụ thuộc lẫn nhau thành một tập biến ít hơn(gọi là các nhân tố) để chúng có ý nghĩa hơn nhưng vẫn chứa đựng hầu hết nội dung thông tin của tập biến ban đầu(Hair et al 2009)

● Mục tiêu

Trang 23

Hai mục tiêu chính của EFA là phải xác định:

 Số lượng các nhân tố ảnh hướng đến một tập các biến đo lường

 Cường độ về mối quan hệ giữa mỗi nhân tố với từng biến đo lường

● Ứng dụng

EFA thường được sử dụng nhiều trong các lĩnh vực quản trị, kinh tế, tâm

lý, xã hội học, , khi đã có được mô hình khái niệm(Conceptual

Framework) từ các lý thuyết hay các nghiên cứu trước

Trong các nghiên cứu về kinh tế, người ta thường sử dụng thang đo(scale) chỉ mục bao gồm rất nhiều câu hỏi(biến đo lường) nhằm đo lường các khái niệm trong mô hình khái niệm, và EFA sẽ góp phần rút gọn một tập gồm rất nhiều biến đo lường thành một số nhân tố

Khi có được một số ít các nhân tố, nếu chúng ta sử dụng các nhân tố này với tư cách là các biến độc lập trong hàm hồi quy bội thì khi đó, mô hình sẽ giảm khả năng vi phạm hiện tượng đa cộng tuyến

Ngoài ra, các nhân tố được rút ra sau khi thực hiện EFA sẽ có thể được thực hiện trong phân tích hồi quy đa biến (Multivariate Regression Analysis), mô hình Logit, sau đó có thể tiếp tục thực hiện phân tích nhân

tố khẳng định(CFA) để đánh giá độ tin cậy của mô hình hay thực hiện mô hình cấu trúc tuyến tính (Structural Equation Modeling, SEM) để kiểm định về mối quan hệ phức tạp giữa các khái niệm

● Mô hình của EFA

Trong EFA, mỗi biến đo lường được biễu diễn như là một tổ hợp tuyến tính của các nhân tố cơ bản, còn lượng biến thiên của mỗi biến đo lường được giải thích bởi những nhân tố chung(common factor) Biến thiên chung của các biến đo lường được mô tả bằng một số ít các nhân tố chung cộng với một số nhân tố đặc trưng(unique factor) cho mỗi biến Nếu các biến đo lường được chuẩn hóa thì mô hình nhân tố được thể hiện bằng phương trình:

Xi = Ai1 * F1 + Ai2 * F2 + Ai3 * F3 + + Aim * Fm + Vi*Ui

Trong đó,

Trang 24

Xi : biến đo lường thứ i đã được chuẩn hóa

Aij: hệ số hồi qui bội đã được chuẩn hóa của nhân tố j đối với biến i F1, F2, , Fm: các nhân tố chung

Vi: hệ số hồi qui chuẩn hóa của nhân tố đặc trưng i đối với biến i

Ui: nhân tố đặc trưng của biến i

Các nhân tố đặc trưng có tương quan với nhau và tương quan với các nhân

tố chung; mà bản thân các nhân tố chung cũng có thể được diễn tả như những tổ hợp tuyến tính của các biến đo lường, điều này được thể hiện thông qua mô hình sau đây:

Fi = Wi1*X1 + Wi2*X2 + Wi3*X3 + + Wik*Xk

Trong đó,

Fi: ước lượng trị số của nhân tố i

Wi: quyền số hay trọng số nhân tố(weight or factor scores coefficient) k: số biến

● Điều kiện áp dụng EFA

Điều kiện cần để bảng kết quả ma trận xoay có ý nghĩa thống kê là:

- Hệ số KMO phải nằm trong đoạn từ 0.5 đến 1

- Kiểm định Barlett có sig phải nhỏ hơn 0.05

- Giá trị Eigenvalue lớn hơn hoặc bằng 1

- Tổng phương sai trích lớn hơn hoặc bằng 50%

● Các bước thực hiện EFA

Theo Hoàng Trọng và Chu Mộng Ngọc(2010), có 6 bước để thực hiện EFA:

Trang 25

Theo Rietveld & Van Hout (1993), có 7 bước chính để thực hiện EFA:

Trang 27

Theo Williams, Onsman, Brown (2010), có 5 bước thực hiện EFA

-Không được đưa biến phụ thuộc vào chung với biến độc lập để xử lý EFA cùng một lúc khi sử dụng phép quay vuông góc và sử dụng giá trị nhân tố do EFA tạo ra để phân tích tiếp theo (Nguyễn Đình Thọ, 2012)

-Tuy nhiên, trong trường hợp sử dụng EFA để đánh giá giá trị thang đo (là phương pháp đánh giá liên kết) nếu sử dụng EFA cho từng thang đo riêng lẻ thì sẽ không đạt được giá trị phân biệt (các biến chỉ đo lường khái niệm muốn đo hay cùng đo lường các khái niệm khác)

3.3.4, Hiển thị dữ liệu nhiều chiều

Có nhiều cách để hiển thị dữ liệu nhiều chiều, em xin giới thiệu một số biểu đồ thông dụng:

Ngày đăng: 04/08/2020, 00:44

HÌNH ẢNH LIÊN QUAN

Brutalism Thô m ӝc - Phân tích mô tả trong khai phá dữ liệu
rutalism Thô m ӝc (Trang 2)
Hình NKӕL ÿһF PӝF PҥF nó JӧL QKӟ OҥL QKӳQJ công trình mang hìnhWKӭFYӅQăQJOѭӧQJWӯWKӃNӹXIXFӫD QѭӟF Anh - Phân tích mô tả trong khai phá dữ liệu
nh NKӕL ÿһF PӝF PҥF nó JӧL QKӟ OҥL QKӳQJ công trình mang hìnhWKӭFYӅQăQJOѭӧQJWӯWKӃNӹXIXFӫD QѭӟF Anh (Trang 2)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w