1. Trang chủ
  2. » Giáo án - Bài giảng

Bài giảng Toán cao cấp 1: Chương 5c - Nguyễn Văn Tiến (2017)

15 83 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 15
Dung lượng 493,73 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài giảng Toán cao cấp 1 - Chương 5c: Hồi quy và tương quan cung cấp cho người học các kiến thức: Tương quan, biểu đồ phân tán, hệ số tương quan Pearson, đánh giá hệ số tương quan, liên hệ hàm số và liên hệ thống kê, phân tích hồi quy,... Mời các bạn cùng tham khảo.

Trang 1

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

HỒI QUI VÀ TƯƠNG

QUAN

CHƯƠNG 5C

Tương quan

• Hai biến được nói là có tương quan nếu chúng

có quan hệ với nhau, chính xác hơn, sự thay đổi của biến này có ảnh hưởng đến thay đổi của biến còn lại

• Ký hiệu (x,y) là cặp giá trị quan sát được của hai biến X, Y

• Ta có thể vẽ đồ thị của các quan sát thông qua biểu đồ phân tán (scatter diagram)

Ví dụ

• Một công ty nghiên cứu ảnh hưởng của quảng cáo tới

doanh số bán hàng Dữ liệu quảng cáo và doanh thu

từng tháng được thu thập như sau:

• Hãy vẽ biểu đồ phân tán.

Chi phí quảng cáo 1,3 0,9 1,8 2,1 1,5

Tổng doanh số

tháng tới

151,6 100,1 199,3 221,2 170,0

Biểu đồ phân tán

• Biến độc lập:

chi phí quảng cáo

• Biến phụ thuộc:

doanh số bán hàng

Hệ số tương quan Pearson

• Ký hiệu: r hay rX,Y

• Công thức:

• Trong đó n là số lượng quan sát

 

1

, cov , ; cov ,

;

n

i

i

X Y

X

i

Y

x x y y

x y

n

x y r

 

  

1 ,

.

n

i

r

Hệ số tương quan Pearson

• Ký hiệu: r hay rX,Y

• Công thức:

• Trong đó n là số lượng quan sát

 

,

X Y

r

  

1 ,

.

n

i

r

Trang 2

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Trung bình; phương sai và hiệp phương sai

• Đối với quan sát mẫu

• Ta có:

;

;

n i

x y

xy

 

Đánh giá hệ số tương quan

• Miền giá trị:

gần -1 thì mối liên hệ tuyến tính nghịch giữa X,

Y càng mạnh

• Nếu thì tương quan dương rXYcàng gần -1 thì mối liên hệ tuyến tính thuận giữa X, Y càng mạnh

• rXYcàng gần 0 thì quan hệ tuyến tính càng yếu

,

1 r X Y 1

,

1 r X Y 0

,

0r X Y1

Đánh giá hệ số tương quan

Ví dụ

• Hãy tính hệ số tương quan Pearson giữa chi phí quảng cáo và doanh số trong ví dụ sau

Chi phí quảng cáo 1,3 0,9 1,8 2,1 1,5

Tổng doanh số tháng tới

151,6 100,1 199,3 221,2 170,0

Ví dụ

1,3 151,6 1,69 22.982,56 197,08

0,9 100,1 0,81 10.020,01 90,09

1,8 199,3 3,24 39.720,49 358,74

2,1 221,2 4,41 48.929,44 464,52

1,5 170,0 2,25 28.900,00 255,00

7,6 842,2 12,40 150.552,50 1.365,43

12, 40 150.552, 50 1365, 43

Ví dụ

• Ta có:

• Hệ số tương quan:

• Hoặc:

2

2

30110, 5 273, 086

273, 086 1,52.168, 44

2, 48 1,52 30110,5 168

0 , 44 ,993371434

XY

1 1 1

1 1 1 1

5.1365, 43 7, 6*842, 2

0, 993371434 5.12, 4 7, 6 5.150552, 5 842, 2

.

XY

r

  

   

Trang 3

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Ví dụ

• Các giá trị trung bình

• Độ lệch chuẩn:

• Hệ số tương quan

0, 460435 46, 61634

0, 993371

r 

Ví dụ

• Số liệu về thời gian quảng cáo trên truyền hình

và lượng sản phẩm tiêu thụ ở một công ty sản xuất đồ chơi trẻ em như sau:

• Thời gian: phút/tuần

• Lượng tiêu thụ: 1000sp/tuần

• Hãy tính hệ số tương quan mẫu và cho kết luận

Thời gian 28 37 44 36 47 35 26 29 33 32 31 28

Lượng tiêu thụ 41 32 49 42 38 33 27 24 35 30 34 25

Ví dụ

• Đáp số: r=0,63882

• Kết luận: mối liên hệ tương quan giữa thời gian

quảng cáo và số sản phẩm tiêu thụ được là

tương quan thuận, ở mức trung bình

Hệ số tương quan Spearman

• Hệ số tương quan hạng

• Ký hiệu R

• Công thức:

• Trong đó n là cỡ mẫu và d là hiệu số của các hạng

2

2

6 1

1

d R

n n

 

Hệ số tương quan Spearman

• Khi tuyển dụng, một công ty đánh giá các ứng viên thông

qua phỏng vấn và bài kiểm tra Khi phỏng vấn, các ứng viên

được đánh giá từ A (xuất sắc) đến E (không phù hợp) và

bài kiểm tra được tính theo thang điểm 100 Kết quả của 5

ứng viên như sau:

• Tính hệ số tương quan hạng Spearman và cho nhận xét

Ứng viên 1 2 3 4 5

Điểm phỏng vấn A B A C D

Điểm bài thi 60 61 50 72 70

Ví dụ

• Ta lập bảng sau:

Ứng viên phỏng vấn Hạng kiểm tra Hạng Hiệu số Hiệu số bình phương

2 2

5 25 1 1

d R

n n

Trang 4

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Ví dụ

• Một chuyên gia được

yêu cầu nếm thử 8

loại rượu có giá dưới

4 $ Hương vị các loại

rượu được xếp hạng

từ 1 (dở nhất) đến 8

(ngon nhất) Bảng

tổng hợp xếp hạng và

giá cả các loại rượu

như sau:

Loại rượu Hương vị Giá tiền

• Hãy tính hệ số tương quan hạng Spearman và cho

kết luận

Ví dụ

• Ta lập bảng sau:

Loại rượu hương vị Hạng giá tiền Hạng Hiệu số Hiệu số bình phương

A B C D E F G H

Phân tích hồi quy

• Phân tích hồi quy được sử dụng để xác định

mối liên hệ giữa:

– Một biến phụ thuộc Y (biến được giải thích)

– Một hay nhiều biến độc lập X1, X2, …,Xn (còn được

gọi là biến giải thích)

• Biến phụ thuộc Y phải là biến liên tục

• Các biến độc lập X1, X2, …, Xn có thể là biến liên

tục, rời rạc hay phân loại

Liên hệ hàm số và liên hệ thống kê

• Liên hệ hàm số: Y=aX+b

• Với một giá trị của X, có 1 giá trị duy nhất của Y

• Liên hệ thống kê: Y=aX+b

• Ví dụ: X: thời gian tự học; Y: điểm cuối kỳ

• Một giá trị của X có thể có nhiều giá trị của Y

• Dữ liệu X: dữ liệu mẫu

• Dữ liệu mẫu  tìm đường hồi quy mẫu dự đoán cho đường hồi quy tổng thể

Ví dụ

• Một công ty muốn ước lượng hàm chi phí cho một sản

phẩm Giá trị của hàm chi phí được xác định tại một

vài mức sản xuất như sau.

Ví dụ

• Mặc dù những điểm quan sát không cùng nằm trên một đường thẳng nhưng tương quan tuyến tính rất mạnh

• Công ty muốn xấp xỉ hàm chi phí bằng một hàm tuyến tính:

.

• Ta cần xác định các hệ số a, b sao cho đường thẳng trên xấp xỉ tốt nhất cho hàm chi phí.

Trang 5

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Thặng dư (residual)

• Ta cần xác định a, b sao cho tổng bình phương

thặng dư nhỏ nhất

Tổng bình phương thặng dư

• Ta có:

• Điểm dừng: M(0,58; 3,06)

• Hàm số F(a,b) đạt cực tiểu tại M.

    2  2  2 2

F a b   ab   ab   ab   ab

292 * 8 44 0

Phương trình hồi quy

• Vậy phương trình cần tìm là:

Dự đoán:

• Chi phí khi sản xuất 2000 sản

phẩm?

• Hàm chi phí biên?

• Hàm chi phí trung bình?

0, 58 3, 06

Ví dụ

• Số liệu về doanh số và số lượng nhân viên kinh doanh trong các khu vực của công ty X như sau:

• Hãy tìm mô hình tuyến tính dự đoán doanh số theo số nhân viên kinh doanh

Khu vực Doanh số Số nhân viên kinh doanh

Tổng quát

• Giả sử có n quan sát (x1,y1), (x2,y2),…,(xn,yn)

• Ta cần xác định đường thẳng y=a.x+b sao cho tổng

bình phương của các thặng dư là nhỏ nhất.

• Hay cần cực tiểu hóa hàm số sau:

• Chú ý:

• a, b: là hai ẩn cần tìm

• xk; yklà các giá trị đã biết.

1

i

Tổng quát

• Ta có:

• Tìm điểm dừng:

1

1

n

i n

i

F

a

b

2 2 2

0

0

a y b x F

b F

  





2

Trang 6

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Tổng quát

• Ta có:

• Đường hồi quy luôn đi qua điểm ( ; )

1

2

1

.

.

n

k

n k k

xy x y b

  











Ví dụ

• Số liệu về doanh số và số lượng nhân viên kinh doanh trong các khu vực của công ty X như sau:

• Hãy tìm mô hình tuyến tính dự đoán doanh số theo số nhân viên kinh doanh

Khu vực Doanh số Số nhân viên kinh doanh

Ví dụ

• Hệ số tương quan Pearson: r=0,948

• Giữa doanh số và số nhận viên kinh doanh có

tương quan tuyến tính mạnh; có thể giả sử

doanh số phụ thuộc tuyến tính theo số lượng

nhân viên kinh doanh

Ý nghĩa các hệ số hồi quy

Chú ý

• Phương pháp trên gọi là hồi quy tuyến tính

• Phương pháp bình phương thặng dư nhỏ nhất

có thể áp dụng đối với các dạng hàm khác như:

hàm bậc 2; bậc 3; bậc 4; logarit; hàm mũ và

hàm lũy thừa …

• Trong trường hợp đó ta có các tên gọi hồi quy

tương ứng

Ứng dụng kinh tế

• Nhu cầu sử dụng dầu nhiên liệu để sưởi ấm nhà ở Hoa

Kỳ đã giảm đều đặn trong nhiều thập kỷ Bảng sau liệt

kê tỷ lệ hộ gia đình ở Hoa Kỳ sưởi ấm bằng dầu nhiên liệu từ 1960 đến 2009 Sử dụng hồi quy tuyến tính để ước lượng tỷ lệ hộ gia đình sử dụng dầu nhiên liệu vào năm 1995

• Đáp số: 12,44%

Trang 7

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Thực hành Excel

Hồi quy tuyến tính

• Vấn đề: có hai biến quan sát X và Y

• Ta cần tìm phương trình thể hiện mối liên hệ giá trị giữa Y và X

• Y: biến phụ thuộc; X: biến độc lập

• Dùng mô hình hồi quy đơn giản nhất: hồi quy tuyến tính

• Có thể sử dụng các mô hình khác: phi tuyến;

bậc 2; bậc 3; mũ; logarit …

Hồi quy tuyến tính

• X và Y có tương quan tuyến tính mạnh

• Ta giả sử X và Y có mối quan hệ tuyến tính với

nhau

• Mô hình như sau:

• β1 ∶ hệ số chặn (intercept)

• β2: hệ số góc (slope)

• u: sai số ngẫu nhiên (nhiễu ngẫu nhiên, nhiễu

trắng)

Hồi quy tuyến tính

• Với giá trị quan sát được ta có:

• yi: giá trị quan sát được của Y khi X nhận giá trị

là xi

• xi: giá trị quan sát thứ i của X

• ui: sai số ngẫu nhiên khi X nhận giá trị xi

Giả định về mô hình

• Giả thiết 1: Các giá trị Xiđược xác định trước và

không phải là đại lượng ngẫu nhiên

• Giả thiết 2: Kỳ vọng hoặc trung bình số học của

các sai số là bằng 0 (zero conditional mean),

• Giả thiết 3:Các sai số có phương sai bằng nhau

(homoscedasticity)

Giả định về mô hình

• Minh họa giả định 3

Trang 8

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Giả định về mô hình

• Giả thiết 4: Các sai số không có sự tương

quan, nghĩa là

Cov( , ) = E( ) = 0, nếu i  j

• Giả thiết 5: Các sai số độc lập với biến giải

thích Cov( , Xi) = 0

• Giả thiết 6: Đại lượng sai số ngẫu nhiên có phân

phối chuẩn ~N(0, σ2)

Hàm hồi quy tổng thể

• Hàm hồi quy tổng thể

• Đối với một quan sát cụ thể ta có:

• Mô hình chỉ có một biến phụ thuộc Y và một biến giải thích X.

• và gọi là hệ số chặn (intercept) và hệ số góc (slope) của đường thẳng hồi quy.

E Y X X X

 

 

1 2

Y Xu

Hàm hồi quy mẫu SRF

• Ta ít khi có số liệu của cả tổng thể mà chỉ có số

liệu của mẫu (số liệu quan sát được)

• Ta dùng số liệu mẫu để ước lượng tổng thể

• Hàm hồi quy mẫu:

• Đối với quan sát thứ i:

Y Xu

Y

X

46

1

b

2 ˆ b

1 ˆ b

PRF

2

b

SRF

Hệ số hồi quy trong hàm hồi quy PRF và SRF

PRF và SRF

PRF và SRF

Trong đó

• là ước lượng cho b1

•   là ước lượng cho b2

•   là ước lượng cho Y hay E(Y|Xi)

• Ta sử dụng phương pháp bình phương nhỏ

nhất thông thường (OLS) để tìm   ;  

Hồi quy tổng thể và hồi quy mẫu

Dạng tổng quát Đối với quan sát

thứ i

Mô hình hồi quy tổng thể Đường hồi quy tổng thể

Mô hình hồi quy mẫu Đường hồi quy mẫu

1 2

y b  bx u

  

1 2

y b  bxu

  

1 2

y b  bx

1 2

  b  b

  

1 2

y  b  bx

1 2

i

  b  b

1 2

y  b  bxu

1 2

y  b  bxu

Trang 9

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Chú ý

Không xác định được chính xác giá trị

Ước lượng Kiểm định

Hệ số β

Phương sai sai số 2

Có thể tính được giá trị trên mẫu đã chọn

Dùng để ước lượng cho các tham số tổng thể

Hệ số

Phương sai thặng dư

Ước lượng OLS

• Tìm giá trị của β1; β2 sao cho:

• Đạt giá trị nhỏ nhất (pp bình phương tối thiểu)

• Dễ thấy:

2

1 2

 

1 2

2

2 1

n

i n i i

x x y y

y x

x x

Hệ số hồi quy mẫu

• Là các ước lượng của β1; β2

• Dạng biểu diễn khác:

 

 

 

1

1

;

n

n

i i

i i i

i

 

Một số tính chất

• Giá trị trung bình các hệ số hồi quy mẫu:

• Phương sai các hệ số hồi quy mẫu:

• Ta dùng các kết quả trên để ước lượng giá trị của các hệ số hồi quy tổng thể β1; β2

• Nhưng giá trị của 2chưa xác định

 1 1;   2 2

 

2

2 2

1

x

n

Một vài tính chất

• Kỳ vọng và phương sai của giá trị hồi quy

 

 

2 0 2

1

2 0 2

1

1

1

1

n i i

n i i

n

n

Chú ý số 1

Một vài tính chất

• Ta có:

  1 2 

0

0

Trang 10

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Ký hiệu

• Để thuận tiện ta ký hiệu như sau:

• Ta có:

     

2

2 2

1

xy

xx

S

S

x

Ký hiệu

• Ta có:

Tách nhóm biến thiên: khái niệm

• TSS = tổng của các mức độ khác biệt bình

phương giữa từng giá trị yi và trị số trung bình

của y.

• ESS = tổng của các mức độ khác biệt bình

phương giữa các giá trị quan sát và giá trị dự

đoán của y.

• RSS = tổng của các mức độ khác biệt bình

phương giữa giá trị dự đoán của y và trị số

trung bình của y.

Đo sự biến thiên của dữ liệu

• Tổng bình phương toàn phần (Total Sum of Squares)

• Tổng bình phương hồi quy (Regression Sum of Squares)

• Tổng bình phương sai số (Residual Sum of Squares)

1

n i i

RSS y y

  

 2 1

n i i

TSS y y

1

n

i i i

ESS y y

ESS

SRF Y

X

y i

X i

i

y

Ý nghĩa hình học của TSS, RSS và ESS

Các tổng bình phương độ lệch

 2 1

n i i

  

 2 1

n i i

 2 1

n i i i

  

y y

Các tổng bình phương độ lệch

• Khi điểm quan sát càng gần đường thẳng ước lượng thì “độ thích hợp” càng cao, có nghĩa là ESS càng nhỏ và RSS càng lớn

• Tham số đo độ thích hợp:

• R2 càng lớn càng tốt

• ESS: biến thiên không giải thích được

• RSS: biến thiên giải thích được

• R2 nhỏ nghĩa là nhiều biến thiên của Y không giải thích được bằng X Cần phải thêm nhiều biến khác vào mô hình

2

0 R  1

=

Trang 11

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Hệ số xác định

• Coefficient of determination

• Là tỷ lệ của tổng sự biến thiên trong biến phụ

thuộc gây ra bởi sự biến thiên của các biến độc

lập (biến giải thích) so với tổng sự biến thiên

toàn phần

• Tên gọi: R_bình phương (R squared)

• Ký hiệu:

• Dễ thấy:

R TSS

2

0 R  1

Hệ số xác định

• Đánh giá mô hình tìm được có giải thích tốt cho mối liên hệ giữa biến phụ thuộc Y và biến độc lập X hay không

• Là bình phương của hệ số tương quan mẫu

 

 

2

2

2

2 2

i

i XY

x x x x RSS

R TSS y y y y

R r

63

• 0≤ R 2 ≤1

• Cho biết % sự biến động của Y được giải thích bởi

các biến số X trong mô hình.

• R 2 =1: đường hồi quy phù hợp hoàn hảo

• R 2 =0: X và Y không có quan hệ

• R 2 càng lớn càng tốt

• Đối với dữ liệu chuỗi thời gian thì R 2 thường lớn hơn

0,9 Nếu thấp hơn 0,6 hay 0,7 thì xem là thấp

• Với dữ liệu chéo thì R 2 khoảng 0,6 hay 0,7 cũng

chưa hẳn thấp

• Ta có:

• Đặt

• Ta dùng đại lượng này để xấp xỉ cho phương sai sai số 2

2

2

2

n i

i i

u

n

 2

ˆ

n i i

u ESS

n n

   

Ước lượng và dự báo

1 Ước lượng hệ số góc

2 Ước lượng hệ số chặn

3 Ước lượng phương sai sai số

4 Dự báo giá trị trung bình

5 Dự báo điểm

Công thức ước lượng β1 Khoảng tin cậy (1 − ) của hệ số b1

Trong đó:

1  1 ; 1 1 

=

− 2

= ⁄ − 2 1+ ̅

Trang 12

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Công thức ước lượng β2

Khoảng tin cậy (1 − ) của hệ số b2

Trong đó:

2  2 ; 2 2 

− 2

• Khoảng tin cậy của phương sai sai số tổng thể:

2

/2 1 /2

;

Dự báo

• Cho X nhận giá trị là x0 Ta tiến hành dự báo:

• Trung bình của Y khi X = x0 Ký hiệu: 0

• Giá trị cụ thể của Y khi X = x0 Ký hiệu: E(Y0|X0)

• Công thức chung:

• Giá trị ước lượng ± Sai số

Dự báo giá trị Y0

Khoảng tin cậy mức 1 − cho giá trị thực của Y0:

0 0 1; 0 1

0

1

xx

x x

SE Y Y

n S

1 t/ 2 n 2 SE Y( 0 Y0)

Dự báo giá trị E(Y/X0)

Khoảng tin cậy mức 1 − cho giá trị thực của Y0:

E Y XY   Y  

2 t/ 2 n 2 SE Y ( 0)

0

1 ( )

xx

x x

SE Y

n S

Với:

Bổ sung kiến thức về phân phối xác suất

• Phân phối chuẩn

• Phân phối Student

• Phân phối Khi bình phương

Trang 13

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Phân vị mức alpha và cách xác định

• Với phân phối chuẩn

• Với phân phối Student

• Với phân phối Khi bình phương

• Giá trị tới hạn mức α (0 ≤ ≤ 1) là số thực ký hiệu 2(n; ) sao cho với Z~ 2(n) thì:

74

 2 n; 

P Z  

  2

;

n

 

Bảng giá trị tới hạn Khi bình phương

Ví dụ 5

• Cho

• Tìm các xác suất sau:

76

  2

20

Z

2

b P Z

Giá trị tới hạn ( , )

• Giá trị tới hạn mức α (0 ≤ ≤ 1) là số thực ký

hiệu ( , ) sao cho với Z~ (n) thì:

77

 

Z tn; 

 

;

0

n n



Bảng giá trị tới hạn Student

78

Trang 14

Bài giảng Toán Cao cấp 1 Nguyễn Văn Tiến

Ví dụ 6

• Cho

• Tìm các giá trị tới hạn và xác suất sau:

79

  15

15;0,025

15;0,975

Ví dụ

• Quan sát sự biến động của nhu cầu gạo Y (tấn/tháng) vào đơn giá X (ngàn đồng/kg) ta được các số liệu cho ở bảng Hãy lập mô hình hôi quy mẫu biễu diễn mối phụ thuộc về nhu cầu vào đơn giá gạo

Ví dụ

• Ta lập bảng sau:

• Ta có:

Ví dụ

• Ta có:

1

1

111 6.4.6

120 6.(4) ( )

n

i n i i

ˆ Y ˆ X 6 ( 1,375).4 11,5

i

Yˆ 11,51,375

Nhận xét

• X và Y có quan hệ nghịch biến

• = 11,5 nên nhu cầu tối đa là 11,5 tấn/tháng

• = −1,375 nên khi giá tăng 1000 đồng/kg thì

nhu cầu trung bình sẽ giảm 1,375 tấn/tháng với

các yếu tố khác trên thị trường không đổi

i

Yˆ 11,51,375

Giải hồi quy bằng máy tính

1 Bật tần số: Shift+Mode+↓ +4+1 (Freq On

2 Chọn Mode Regression: Mode+3+2(chọn A+Bx)

3 Nhập dữ liệu theo cột

4 Kiểm tra và nhấn AC thoát

5 Xem kết quả: Shift +1+ 3,4,5 (tùy theo Sum, Var hay Reg)

Ngày đăng: 16/05/2020, 01:23

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm