Mục đích cùa phuơng pháp phân tích tương quan là ước lượng mức độ ảnh huởng của các biến độc lập với nhau (các yếu tố nguyên nhân). Phương pháp này được ứng dụng trong kinh doanh và kinh tế để phân tích mối liên hệ giữa hai hay nhiều biến ngẫu nhiên.
Hệ số tương quan tổng thể
Hệ số tương quan đo lường mức độ quan hệ tuyến tính giữa hai biến; chính xác hơn là quan hệ tuyến tính giữa hai biến, không phân biệt biến này phụ thuộc vào biến kia. Hệ số tương quan này có tên gọi là tương quan Pearson.
Giả sử X và Y là hai biến ngẫu nhiên có V (X) > 0 và V (Y) > 0, thì hệ số tương quan cùa hai biến X và Y được xác định như sau:
Hệ số tương quan có các tính chất sau: hệ số tương quan không có đơn vị và có tính hoán đổi (p xv = ). Hệ số tương quan luôn biến động trong khoảng từ -1 đến 1 ( I p xy |< 1). Hệ số tương quan dương cho biết X và Y có quan hệ cùng chiều và hệ số tương quan âm thì ngược lại). Hệ số tương quan p xy = ± 1 khi và chì khi X và Y có mối quan hệ phụ thuộc tuyến tính. N hư vậy, có thể dùng p để đo lường sự phụ thuộc tuyến tính cùa hai biến ngẫu nhiên, trị số của hệ số tương quan càng lớn thì mối quan hệ tuyến tính càng rõ ràng. N gược lại, khi p = 0 tức là X, Y độc lập nhau hoặc giữa X và Y có quan hệ phi tuyến.
Hệ số tương quan mẫu
Gọi ( X | , y i ) , (x2, y2>..., (x„, yn) là n cặp quan sát của hai biến (4.2)
ngẫu nhiên X và Y. Hệ số tương quan mẫu ( r) của n cặp giá trị quan sát của hai biến X và Y thể hiện bàng công thức sau:
k k . /=I M
( / k \2A( / it >2\
k k
/=1 ± ĩ t ỉ * -
/=l n 1=1 n
V K • J / V \ >
(4.3)
Trường hợp mỗi cặp giá trị (Xj, yi) xuất hiện với tần suất mj sao k
cho w thì công thức trên trở thành:
i=l
1=1_________/=l /=ỉ
(4.4) í *
2\f * / A >ĩ \
/=] /=1 /=l í=l
n n n n
V >V \ J
1
Bảng 4.1. T rìn h bày ý n g h ĩa của các h ệ số tư ơ n g quan.
B ảng 4.1. Ỷ nghĩa cùa hệ so tương quan T rị số r Q u an hệ giữa biến X và Y
r = 0 X và Y độc lập hoặc có quan hệ phi tuyến
|r |= l X và Y có quan hệ tuyến tính
0,0< |r| < 0,3 X và Y có quan hệ yếu 0,3< |r| < 0,5 X và Y có quan hệ trung bình
0,5 < |r| < 0,7_________ X và Y có quan hệ tương đối chật 0,7 < Ịrị < 0,9_________ X vả Y có quan hệ chật__________
0,9 < Ịrị < 1,0_________ X vả Y cỏ quan hệ rất chặt______
Hệ số tương quan bội và hệ số tương quan riêng phần H ệ sổ tư ơ n g quan bội
Hệ số tương quan bội đánh giá m ức độ chặt chẽ của mối liên hệ giữa m ột tiêu thức (thường là tiêu thức kết quả) với các tiêu thức còn lại (thường là tiêu thức nguyên nhân). C ông thức tính tương quan bội giữa biến Y và các biến X |, X2,.., x„ như sau
H ệ s ố tư ơ n g q u a n riêng p h ầ n
V à tương quan riêng phần giữa Y và X2 (loại trừ ảnh hường của X i) tính theo công thức
Tính toán hệ số tương quan mẫu trong Excel
T rư ờ n g hợp m ẫu quan sát có tần su ấ t m thì có th ể tính toán thủ công th e o công thứ c hoặc chu y ển th à n h m ỗi dòng (cột) chì ch ứ a m ột q uan sát (m = 1). D ữ liệu có thể', bố trí theo h àng hoặc theo cột.
N ếu tính toán thủ công sử dụng công thức hoặc có thể kết hợp các hàm S Q R T , S U M P R O D U C T để tính toán hệ số tương quan r.
Cũng có thể sử dụng các hàm thống kê của Excel để tính toán. Chú ý các hàm thống kê của Excel không thể tính toán với các mẫu quan sát có tần số m ^ 1 nên để sử dụng công thức cần phải biến đổi dữ liệu để mỗi quan sát nằm trên m ột hàng (cột) trong Excel.
(4.5)
H àm RSQ
= R SQ (known_y’s; known x ’s) Trong đó:
Known_y’s: các giá trị của m ẫu quan sát y của biến Y.
K n o w n _ x ’s: các g iá trị c ù a m ẫu quan sát X củ a b iến X.
H àm C O R R E L
Hàm CORREL tính toán tương quan mẫu (r) theo cú pháp:
= C O R R E L (array 1; array2) Trong đó:
Array 1, array2: các giá trị của mẫu quan sát X , y cùa hai biến X và Y. Thứ tự của các tham số trong hàm RSQ và hàm CORREL không quan trọng.
/ Sử dụng trình cài thêm Correlation trong gói Analysis / Toolpak-VBA
Trình cài thêm C o rre la tio n trong gói A nalysis T oolpak-V B A cho phép sử dụng công cụ phân tích tương quan với giao diện đồ họa trực quan dễ thực hiện.
Truy cập trình cài thêm từ menu ToolsỊD ata A nalysis chọn C o rre la tio n như H ình 4.1
s ầ XJ
Inpi* I--- 1
ị Irout Range: I I-°* I
GrcxpedBy: <• QoẳLmns __ CantH I
r ãom Hdp I
r ^abds in First Row Output options
: f ' Output Range: I G New Worksheet 0y: I
New Workbook
H àm R S Q tính to án p h ư ơ n g sai m ẫu (r2) theo cú pháp:
Hình 4.1. Hộp thoại Data Analysis Hình 4.2. H ộp thoại Correlation
HTI rniR Iiif
bnftfSG Toots
Anova: Two-Factor Without Repfcatwn - Covariance
Descriptive Statistics Exponential Smoothing F-Test Two-Sample for Variances Fourier Analysis Htftoyam Moving Average
Random NLrnbef Generation zl
Khi chọn Correlation và nhấn OK, hộp thoại C orrelation xuất hiện để nhập dữ liệu như hình 4.2. Các lựa chọn cùa hộp thoại C o rre la tio n như sau:
+ Input Range: khai báo vùng dữ liệu phân tích.
+ Grouped by : tổ chức dữ liệu theo huớng:
+ Columns: theo cột.
+ Rows: theo hàng.
+ Labels in First Row: dòng đầu tiên của vùng dữ liệu là tên biến.
+ Output Range: góc trên bên trái của vùng chứa kết quả. Vùng này nằm trên cùng m ột sheet với vùng dữ liệu.
+ New W orksheet Ply: trả kết quả ra m ột trang bảng tính khác trong cùng một file với file chứa dữ liệu.
+ N ew W orkbook: trả kết quả ra m ột file riêng.
V í dụ 4.1
Đe nghiên cứu quan hệ giữa tuổi nghề (y) và số sản phẩm sai hỏng (x) của công nhân trong phàn xưởng người ta thống kê ngẫu nhiên 18 côngTihân, số liệu thu được như trong bảng. Tìm tương quan giữa tuổi nghề và số sản phẩm sai hỏng.
Hình 4.3 trình bày cách bố trí dữ liệu khi tính hệ số tương quan r sử dụng công thức. Đ ộc giả có thể sử dụng hàm S U M P R O D U C T để tính toán các giá trị trong các ô vùng E9:I9.
N hư có thể thấy từ Hình 4.3, hệ số tương quan r = - 0,708 cho thấy khi tuổi nghề tăng cao thì sai sót trong lao động giảm đi và giữa tuổi nghề và sai sót có mối quan hệ khá chặt với nhau.
Hình 4.4 trình bày cách sử dụng hàm CORREL của Excel để tính toán hệ số tương quan sử dụng số liệu cùa ví dụ. Trình bày hộp thoại C o rre la tio n khi nhập dữ liệu và kết quả tính toán hệ số tương quan sau khi nhấp OK trên hộp thoại C o rre la tio n sử dụng d ữ liệu trong Hình 4.1.
m 'X m*Y m V y [m Y 2 m y s
ịtửsổ
I Mâu sỏ -15 26 21541 -0 708 i
273 240' 360' 200!
M -
147 507 180; 320 400Ị 324 32 1250 4 1296 3U
36t... 721 ... 4j 1296' 57 114[~ 12Ỉ 1083 58 1259 r ' 775! 4 7 8 Õ T 3 9 - 2 " ' I _ J '____ L 18 107 258 1259 775! 4780T CT=|G9ÌD9-E9>F 9Ò 9A2 I_______ I _ ; CT = iSQRT(H9/D9-(E9/D9)"2)*SQRT(I9/D9-(F 9/D9P2 i
H ình 4.3. Tinh hệ số tương quan sứ dụng các hàm cua Excel.
■ftUKi
0 8
' 8T13
-fr- j r = ____- 0 7 0 8 1 __________ 1
cóng ttìi>c
] È 2 = C Ỏ R R E L (A 2 :A 1 9 .B 2 :B 1 9 )
1010
2 5 í 3 6 !
H ình 4.4. Tinh hệ số tương quan sừ dụng hàm CORREL khi dữ liệu có tần suất.
13 7
13 7
13 7
8 6
6 8 6
7 8 6
8 8 6
9 8 6
10 9 10
11 9 10
12 9 1ư
13 9 10
14 25 4
16 25 4
16 36 2
17 19 2
Ị.ẹ 19 2
ia 19 2
20
21
lw-wằ J. Ị —i 2 " I -JẾ£_1
' 1 ' ^ q ĩ ị i i ỉ
Hình 4.5 Tinh loán hệ số lương quan sử dụng trình cài thêm Correlation.
thể
Hệ số tương quan của mẫu rất hữu ích khi dùng đê m ô tả tính chặt chẽ của mối quan hệ tuyến tính trong m ột mẫu. Vì vậy, nó có thê dùng làm cơ sở cho kiểm định giả thuyết của tổ hợp không tuyên tính (không tương quan) trong tổng thể.
Để kiểm định về sự tồn tại của hệ số tương quan cù a tông thế cần kiểm định cặp giả thuyết sau:
G iả thuyết Ho: p =0 Đối thuyết H i: p Ỷ 0
G iá trị kiểm định t được tính theo công thức như sau:
t = - r--- ---- (4.7)
Ậ ĩ - r > ) / ( n - 2 ) Trong đó:
r: hệ số tương quan mẫu.
n: số quan sát trong mẫu.
M iền bác bỏ giả thuyết Ho là hay |t| > t(n-2, a /2) ■ Trong đó a là m ức ý nghĩa của kiểm định; t(n-2 a /2) là phân phối student với xác suất a/2 và bậc tự do n-2.
Trong Excel sử dụng hàm thống kê TINV để tính toán phân phối student với cú pháp sau:
= TIN V (probability; deg_freedom) Trong đó:
Probability: xác suất của phân phối student.
Deg freedom: bậc tự do cùa phân phối student.
C h ủ ý : Hàm TINV trong Excel được thiết kế cho kiểm định hai phía (Tw o-tailed test). N ói cách khác hàm TINV trả về giá trị t sao cho P(|X| >t) = probability. Vì vậy khi sử dụng TINV để kiểm định hai