Phần 3 - Khám phá về các mối quan hệ giữa các biến. Nội dung chính trong chương này gồm: Biểu đồ phân tán, sự liên hợp và sự tương quan; phân tích hồi qui tuyến tính. Mời các bạn cùng tham khảo để biết thêm các nội dung chi tiết.
Trang 1Phần 03Nguyễn Duy Long, Tiến Sỹ
Bộ môn Thi Công và QLXD
©2010, Nguyễn Duy Long, Tiến Sỹ 1
Biểu đồ phân tán, sự liên hợp và sự tương
quan
q
Phân tích hồi qui tuyến tính
Trang 2©2010, Nguyễn Duy Long, Tiến Sỹ
Đồ thị phân tán (scatter-plots) là biểu thị phổ biến
và hiểu quả cho dữ liệu
Đồ thị phân tán là cách tốt nhất để bắt đầu quan
sát mối liên hệ và cách lý tưởng để xem sự liên hợp
của hai biến định lượng
Trang 3 Với đồ thị phân tán, xem hướng (direction), dạng
(form), độ chặt (strength), và các đặc điểm bất
thường (unusual features)
(1) Hướng:
◦ Hướng âm: giá trị dữ liệu đi theo chiều từ trái qua phải và
từ trên xuống dưới
◦ Hướng dương: theo chiều ngược lại
©2010, Nguyễn Duy Long, Tiến Sỹ 5
Mối liện hợp dương
(positive association) giữa năm (từ 1900) và
% số người sẵn sàngbầu phụ nữ làm tổngthổng ở Mỹ
Trang 4 Mối liện hợp âm(negative association)
(negative association) giữa tốc độ lúc caođiểm ở xa lộ và chi phítrên đầu người do chậm trễ giao thông
Trang 5 Dạng:
◦ Nếu mối liên hệ không thẳng, nhưng cong cong, ệ g g, g g g,
trong khi vẫn tăng hay giảm dần…
… chúng ta có cách để làm nó thẳng hơn
©2010, Nguyễn Duy Long, Tiến Sỹ 9
◦ Nếu mối liên hệ là rất cong
◦ Nếu mối liên hệ là rất cong,
… chúng ta nói nó là liên hợp không tuyến tính
Trang 6 (3) Độ chặt:
◦ Các điểm có vẻ như theo một dòng thẳngộ g g
(dù thẳng, cong, hay uốn)
©2010, Nguyễn Duy Long, Tiến Sỹ 11
Trang 7 (4) Các đặc điểm bất thường:
◦ Tìm các điều không kỳ vọng
◦ Điều thú vị nhất là khi quan sát đồ thị phân tán là
thấy những điều không mong đợi sẽ tìm thấy
◦ Ví dụ: các giá trị ngoại lệ đứng tách ra
◦ Nên nghi vấn với các cụm (clusters) hay các nhóm
phụ (subgroups)
©2010, Nguyễn Duy Long, Tiến Sỹ 13
Xác định biến nào là trục x, biến nào trục y
Việc xác định dựa trên các vai trò của các ệ ị ự
Trang 8 Chọn vai trò cho các biến phần nhiều về
việc chúng ta suy nghĩ như thế nào về các
biến hơn là về chính các biến đó.
Chỉ đặt một biến ở trục hoành không nhất
thiết có nghĩa là nó giả thích hay dự báo cái
gì đó….
… Biến ở trục tung có thể không hưởng ứng
nó trong bất cứ cách nào.
©2010, Nguyễn Duy Long, Tiến Sỹ 15
Dữ liệu thu thập từ sinh viên các lớp thống kê
học gồm chiều cao (in.) và cân nặng (lb):ọ g ( ) ặ g ( )
Mối liên hợp dương
Trang 9 Sự liên hợp giữa chiều cao và cân nặng của sinh
viên các lớp thống kê học chặt (strong) ra sao?
Nếu đinh lượng độ chặt, chúng ta muốn nó không
phụ thuộc vào loại đơn vị
Biểu đồ phân tán giữa
chiều cao (cm) và cân
nặng (kg) không thay
đổi dạng phân tán ặng(k
©2010, Nguyễn Duy Long, Tiến Sỹ
Chiều cao (in.)
17
Vì đơn vị không quan
trọng, tại sao khôngọ g, ạ g
Biểu đồ phân tán của
Biểu đồ phân tán của
chiều cao và cân
nặng được chuẩn
hóa
Zcân nặng
Zchiều cao
Trang 10 Dạng tuyến tính của biều đồ chuẩn hóa có vẻ dốc
hơn biểu đồ phân tán ban đầu
Vì cả hai trục có tỷ lệ giống nhau
Tỷ lệ bằng nhau tạo khách quan cho biểu đồ phân
tán và độ chặt của sự liện hợp
Giá trị chuẩn hóa được xác định như sau:
) (
) ( z z xx yy
©2010, Nguyễn Duy Long, Tiến Sỹ
) ,
( ) ,
(
y
y y s
x x y
Các điểm màu nâu có
khuynh hướng làm yếu sự
liên hợp dương
Các điểm màu xanh
Các điểm màu xanh
Trang 11 Hệ số tương quan (r, correlation coefficient) đo
lường độ chặt giữa biến khám phá và biến hưởng
ứng
1
x y
z z r
©2010, Nguyễn Duy Long, Tiến Sỹ 21
Sự tương quan đo độ chặt của sự liên hợp tuyến
tính giữa các biến định lượng
Kiểm tra các điều kiện sau trước khi dùng sự
tương quan:
1 Điều kiện các biến định lượng
2 Điều kiện khá thẳng (“ Straight Enough ”)
3 Điều kiện trị ngoại lệ
Trang 121. Điều kiện biến định lượng:
◦ Sự tương quan chỉ áp dụng cho các biến định
lượng
◦ Không dùng sự tương quan cho biến định tính
◦ Kiểm tra đơn vị của các biến và chúng đo lường
◦ Nhưng sự tương quan chỉ đo lường độ chặt của
sự liên hợp tuyến tính và sẽ gây sai lệch
(misleading) nếu mối quan hệ không tuyến tính
Trang 133. Điều kiện trị ngoại lệ:
◦ Các trị ngoại lệ có thể gây lệch (ị g ạ ệ g y ệ (distort) sự) ự
tương quan rất lớn
◦ Một trị ngoại lệ có thể gây sự tương quan nhỏ
thành lớn hay dấu sự tương quan lớn
◦ Khi gặp trị ngoại lệ, nên trình bày sự tương
quan khi có và không có trị ngoại lệ đó
©2010, Nguyễn Duy Long, Tiến Sỹ 25
Dấu của hệ số tương quan chỉ hướng của sự liên
hợp
Hệ số tương quan luôn trong khoảng [-1, +1]
Sự tương quan đối xử x và y giống nhau
Không có đơn vị
Trang 14 Sự tương quan không bị ảnh hưởng bởi các thay
đổi trung tâm hay tỷ lệ của biến
Sự tương quan đo độ chặt của sự liên hợptuyến
tính giữa hai biến
◦ Các biến có thể có sự liên hợp mạnh nhưng vẫn có sự
tương quan nhỏ nếu sự liên hợp là không tuyến tính.
Sự tương quan là rất nhạy với trị ngoại lệ
©2010, Nguyễn Duy Long, Tiến Sỹ 27
Không đo tương quan các biến định tính
Không nói sự tương quan khi có ý là sự liên hợp
Nhiệt độ nướng ( o F)
Trang 15quan hệ nhân quả (causation).
Trang 16 Chú ý các biến ẩn (lurking variables).
◦ Biến ẩn có thể đứng sau sự liên hệ và xác định nó bằng
cách tác động đồng thời hai biến
cách tác động đồng thời hai biến.
Ví dụ- Bài tập 26 (tr.163): Điều tra năm 2004 về
các quốc gia trên thế giới thấy rằng có độ tương
quan dương giữa phần trăm dân số dùng điện
thoại di động và tuổi thọ trung bình của quốc gia
◦ Điều này có nghĩa là dùng điện thoại di động tốt cho sức
khỏe?
khỏe?
◦ Hay ngược lại, bạn càng sống lâu thì khả năng gọi di động
nhiều hơn?
◦ Cái gì có thể giải thích độ tương quan dương này?
©2010, Nguyễn Duy Long, Tiến Sỹ 31
Linear Regression
Trang 17 Từ biểu đồ phân tán bên dưới:
◦ Có sự liên hợp chặt (mạnh)?
ế
◦ Sự liên hợp có vẽ tuyến tính?
Dữ liệu từ 30 món trên
menu của Burger King
Lượng chất béo và đạm cho thức ăn của Burger King
Sự tương quan lớn (âm hay dương) cho biết “có vẻ
có sự liên hợp tuyến tính giữa hai biến,” nhưng
không cho biết chính xác sự liên hợp đó là gì
không cho biết chính xác sự liên hợp đó là gì
Chúng ta có thể biết nhiều hơn về sự liên hợp tuyến
tính giữa hai biến định lượng với một mô hình
Mô hình tuyến tính (linear model) chỉ là một phương
trình đường thẳng qua dữ liệu
Trang 18• Phương pháp để xác định mô hình phù hợp nhất (“best fit” )
©2010, Nguyễn Duy Long, Tiến Sỹ 35
Mô hình sẽ không bao
giờ hoàn hảo bất kể vẽ
Trang 19 Sự khác nhau giữa giá trị quan sát (observed value)
và giá trị dự báo tương ứng (predicted value) gọi là
số (phần) dư (residual)
Tìm số dư:
Số dư = quan sát – dự báo = y – ŷ
©2010, Nguyễn Duy Long, Tiến Sỹ 37
Một số số dư dương, một số âm nên chung qui thì
có thể triệt tiêu lẫn nhau
Vì thế khô thể đá h iá đườ thẳ ừ h
Vì thế không thể đánh giá đường thẳng vừa hợp
thế nào bằng cách cộng các số dư lại
Tương tự như độ lệch chuẩn, chúng ta bình
phương số dư rồi cộng lại
Tổng càng nhỏ thì các vừa hợp
Đường phù hợp nhất là đường có tổng các bình
phương số dư nhỏ nhất
Trang 20Thông số thứ nhất của mô hình, b1, là độ
Với ví dụ về Burger King ở trên…
©2010, Nguyễn Duy Long, Tiến Sỹ 39
Đường hồi qui cho dữ liệu của Burger King:
) ( 97 0 8 6 )
Trang 21 Dịch một độ lệch chuẩn từ trị trung bình của x sẽ dịch
r lần độ lệch chuẩn từ trị trung bình củay
Biể đồ hâ tá th điể
◦ Biểu đồ phân tán theo điểm z
cho chất béo và đạm:
©2010, Nguyễn Duy Long, Tiến Sỹ 41
r không thể lớn hơn1, vì thế mỗi giá trị dự báo y có
khuynh hướng tiến gần trị trung bình hơn là giá trị
ố
tương đối của x
Đặc điểm này của mô hình tuyến tính gọi là hồi qui
đến trị trung bình (regression to the mean); đường
thẳng gọi là đường hồi qui (regression line)
Trang 22 Mô hình tuyến tính giả định sự liên hệ giữa hai biến
là đường thẳng hoàn hảo Các số dư là một phần
của dữ liệu mà không được mô hình
D ữ li ệ u = Mô hình + S ố dưhay…
S ố dư = D ữ li ệ u – Mô hìnhhay…
ˆ
e y y
©2010, Nguyễn Duy Long, Tiến Sỹ 43
Số dư giúp chúng ta xem mô hình có hợp lý
không
Khi mô hình hồi qui hợp lý, không có điều lý thú
nào còn lại
Sau khi có mô hình hồi qui, thường biểu diển
các số dư với hy vọng không tìm thấy gì
◦ Không có đường cong hay các đường thẳng
◦ Không có sự biến thiên tăng hay giảm khi di chuyển dọc
trục x
Trang 23 Các số dư cho hồi qui menu của Burger King trong
Sự biến đổi của các số dư là chìa khóa để
đánh giá mô hình phù hợp ra sao
Trong menu của Burger King,
chất béo có độ lệch chuẩn
là 16.4 gam Độ lệch chuẩn
của các số dư từ sự dự báo
chất béo của mô hình là
9.2 gam
Cái nào chỉ biến đổi nhiều hơn?
Chất béo Số dư
Trang 24 Nếu độ tương quan là1.0 và mô hình dự báo giá trị
chất béo hoàn hảo, tất cả các số dư sẽ băng không
và không có sự biến đổi
Với menu của Burger King, độ tương quan là 0.83 –
không hoàn hảo
Tuy nhiên, chúng ta đã thấy các số dư của mô hình
ít biến đổi hơn so với chất béo
Chúng ta có thể xác định sự biến đổi bao nhiêu
trong mô hình và bao nhiêu còn lại trong các số
dư
©2010, Nguyễn Duy Long, Tiến Sỹ 47
Bình phương độ tương quan, R2, (“R-squared”) cho
biết phần biến đổi được xét trong mô hình
1 R2là phần biến đổi còn lại trong các số dư
1– R2là phần biến đổi còn lại trong các số dư
Khi diễn tả mô hình hồi qui, cần cho biết ý nghĩa
của R 2
◦ Với mô hình về Burger King, R 2 = 0.83 2 = 0.69,
◦ 69% của sự biến đổi của chất béo được xác định trong mô
hình.
◦ 31% (100% - 69%) sự biến đổi của chất béo còn lại trong các g
số dư.
Trang 25 R2luôn giữa 0% và 100%
Giá trị R2tốt phụ thuộc vào loại dữ liệu đang phân
tích và muốn làm gì với kết quả
©2010, Nguyễn Duy Long, Tiến Sỹ 49
Điều kiện các biến định lượng:
◦ Các thống kê học cao hơn sẽ cho ta biết kết hợp
Trang 26 Điều kiện giá trị ngoại lệ:
◦ Để ý đến các giá trị ngoại lệ
Cá điể i lệ ó hể h đổi ô hì h
◦ Các điểm ngoại lệ có thể thay đổi mô hình
◦ Các trị ngoại lệ thậm chí có thể thay đổi dấu của
góc nghiêng, làm sai lệch về sự liên hệ giữa hai
biến
©2010, Nguyễn Duy Long, Tiến Sỹ 51
Không dùng đường thẳng cho liên hệ không tuyến
tính
Chú ý á điể i lệ
Chú ý các điểm ngoại lệ
Đừng ngoại suy ngoài dữ liệu – mô hình phi tuyến
có thể không còn giá trị ngoài khoảng giá trị có
trong dữ liệu
Đừng suy x gây ra y mặc dù có mô hình tuyến tính
tốt cho mối quan hệ của chúng – sư liên hợp không
phải là quan hệ nhân quả
Đừng chọn mô hình chỉ dựa trên R2
Trang 27 Hồi qui về tuổi trung bình kết hôn đầu tiên của đàn
ông và năm phù hợp cho các thập niên đầu của thế
kỷ 20 nhưng không đúng cho giai đoạn sau:
Bởi vì có vẻ chúng khác với trường hợp khác, đặc
biệt chú ý đến các điểm có số dư lớn
biệt chú ý đến các điểm có số dư lớn
Một điểm dữ liệu có thể bất thường nếu giá trị x
của nó xa so với trị trung bình Các điểm đó là có
đòn bẩy lớn (high leverage)
Trang 28hồi qui.
‣ Điểm đó gọi là ảnh hưởng nếu loại bỏ nó khỏi dữ liệu
sẽ cho mô hình hồi qui khác hẳn.
‣ Ả nh hưởng Bozo (Bozo’s effect) vào mô hình “Chỉ số IQ
Sự liên hợp chặt đến đâu, R2lớn đến đâu, quan hệ
thẳng đến đâu đi nữa, không thể kết luận chỉ từ phâng , g ậ p
tích hồi qui là biến này gây ra biến kia
Với dữ liệu quan sát (observational), khác với dữ liệu
từ thí nghiệm được thiết kế (designed experiment),
không có cách gì để chắc chắn rằng biến ẩn (lurking
variable) không phải là nguyên nhân của một sự liên
hợp.ợp
Trang 29 Biểu đồ phân tán chỉ tuổi thọ trung bình của một
quốc gia có liên hệ với số bác sỹ trên đầu người ở
57
Biểu đồ phân tán mới còn cho biết liên hệ giữa tuổi
thọ và số ti vi trên đầu người của quốc gia
◦ Sự liên hệ thậm chí chặt hơn: R 2 of 72% thay vì 62%
Vì ti vi rẻ hơn bác sỹ, tại sao không gởi ti vi tới các
nước có tuổi thọ thấp để có tuổi thọ cao hơn?
Trang 30©2010, Nguyễn Duy Long, Tiến Sỹ 59