Giáo trình thống kê Trang 101 CHƯƠNG 6: HỒI QUY VÀ TƯƠNG QUAN Mục tiêu: Sau khi học xong chương này, người học có thể: - Phân biệt được hồi quy và tương quan - Áp dụng được liên hệ tươn
Trang 1Giáo trình thống kê Trang 101
CHƯƠNG 6: HỒI QUY VÀ TƯƠNG QUAN Mục tiêu: Sau khi học xong chương này, người học có thể:
- Phân biệt được hồi quy và tương quan
- Áp dụng được liên hệ tương quan tuyến tính giữa hai tiêu thức số lượng để dự báo các vấn đề của doanh nghiệp
- Áp dụng được liên hệ tương quan phi tuyến giữa hai tiêu thức số lượng để dự báo các vấn đề của doanh nghiệp
6.1 Phương pháp hồi quy và tương quan
Theo quan điểm của duy vật biện chứng thì các hiện tượng tồn tại trong mối liên hệ phổ biến và nhiều vẻ, giữa chúng có mối quan hệ mật thiết với nhau, tác động qua lại lẫn nhau Không có một hiện tượng nào lại phát sinh, phát triển một cách cô lập, tách rời hiện tượng khác Vì vậy, việc nghiên cứu mối liên hệ
là một trong những nhiệm vụ quan trọng của thống kê
Khi nghiên cứu mối liên hệ, nếu xét theo trình độ chặt chẽ thì có thể phân thành hai loại là: liên hệ hàm số và liên hệ tương quan
Mối liên hệ hàm số chỉ phổ biến trong toán học, vật lý Ví dụ: y = a + b.x
6.1.2 Liên hệ tương quan:
Là mối liên hệ không hoàn toàn chặt chẽ và được biểu hiện ở chỗ khi một hiện tượng biến đổi thì làm cho hiện tượng có liên quan biến đổi theo, nhưng nó không có ảnh hưởng hoàn toàn quyết định đến sự biến đổi này
Ví dụ: Khi năng suất lao động tăng lên thì có thể làm cho giá thành đơn vị
Trang 2Giáo trình thống kê Trang 102
sản phNm giảm và ngược lại Nhưng sự biến đổi của giá thành ngoài năng suất lao động thì còn chịu sự tác động của nhân tố khác Do đó sự biến động của nó không hoàn toàn tương ứng với sự biến động của năng suất lao động, tức là mối liên hệ giữa năng suất lao động và giá thành là mối liên hệ tương quan Để phản ánh mối liên hệ này một cách đúng đắn đòi hỏi phải nghiên cứu trên nhiều đơn
vị, tức là nghiên cứu hiện tượng số lớn
Phương pháp hồi quy và tương quan
Hồi quy và tương quan là phương pháp của toán học Vào khoảng năm
1930, một nhà thống kê nhân chủng học Thụy Điển là Gante có tiến hành nghiên cứu mối liên hệ giữa chiều cao của con cái và chiều cao của bố mẹ Theo quan niệm chung nếu bố mẹ cao, con cái sẽ cao nữa lên… Và nếu điều đó đúng,
ta có thể tạo ra được những người cao tùy ý Nhưng Gante đã phát hiện ra điều ngược lại: Nếu cha mẹ quá cao thì con cái sẽ thấp bớt để trở về trạng thái trung bình của nòi giống Hiện tượng đó Gante đặt tên là “Hồi qui”
Phương pháp tương quan được vận dụng để nghiên cứu mối liên hệ không hoàn toàn chặt chẽ giữa các hiện tượng hoặc giữa các tiêu thức Tiêu thức được chọn ra để nghiên cứu bao giờ cũng có một tiêu thức kết quả và số còn lại là tiêu thức nguyên nhân
Ví dụ: Giữa khối lượng sản phNm sản xuất và tổng chi phí để sản xuất ra khối lượng sản phNm đó có mối liên hệ tương quan thuận và khối lượng sản phNm sản xuất là tiêu thức nguyên nhân và chi phí là tiêu thức kết quả Giữa khối lượng sản phNm sản xuất và giá thành đơn vị sản phNm có mối tương quan nghịch và sản lượng là tiêu thức nguyên nhân còn giá thành sản phNm là tiêu thức kết quả Giữa chi phí quảng cáo và khối lượng sản phNm bán được (hoặc doanh thu) có mối tương quan thuận, trong đó chi phí quảng cáo là tiêu thức nguyên nhân, còn lượng sản phNm bán được (hoặc doanh thu) là tiêu thức kết quả
Trang 3Giáo trình thống kê Trang 103
Phương pháp tương quan bao gồm một số công việc:
- Xác định tính chất và hình thức của mối liên hệ
- Xây dựng đồ thị để xác định rõ hơn tính chất và hình thức liên hệ giữa các tiêu thức nghiên cứu
- Lập phương trình hồi quy, tính các tham số của phương trình và giải thích ý nghĩa của các tham số
- Đánh giá trình độ chặt chẽ của mối liên hệ thông qua các chỉ tiêu: hệ số tương quan, tỷ số tương quan
6.2 Liên hệ tương quan tuyến tính giữa hai tiêu thức số lượng
6.2.1 Trường hợp số liệu chưa phân tổ:
6.2.1.1 Phương trình hồi quy:
Giả sử có tài liệu về tuổi nghề (năm) và năng suất lao động (sản phNm) của 10 công nhân tại một xí nghiệp như sau:
Trang 4Giáo trình thống kê Trang 104
Song mối liên hệ này không hoàn toàn chặt chẽ, tức là cứ không phải tuổi nghề tăng lên thì năng suất lao động cũng tăng theo một cách tương ứng Hay nói cách khác là mối liên hệ giữa tuổi nghề và năng suất lao động là mối liên hệ tương quan
Để thấy rõ mối liên hệ này ta dùng hệ trục toạ độ vuông góc, với trục hoành biểu diễn tuổi nghề (x) và trục tung biểu diễn năng suất lao động (y) Ta
có đồ thị sau:
Trên đồ thị những cặp trị số (x, y) tạo thành các điểm Nối chúng lại ta được đường gấp khúc gọi là đường hồi qui thực nghiệm Qua đường hồi qui thực nghiệm ta thấy rõ khi tuổi nghề tăng lên thì năng suất lao động cũng tăng, biểu thị mối tương quan thuận giữa hai tiêu thức trên Trên cơ sở quan sát đường hồi qui thực nghiệm giúp ta phán đoán, tìm phương trình đường thẳng, có cùng hướng, thay thế cho đường hồi qui thực nghiệm Đường thẳng này gọi là đường hồi qui lý thuyết Đường hồi qui lý thuyết được xác định bởi phương trình:
Trang 5Giáo trình thống kê Trang 105
a, b : các tham số xác định vị trí của đường hồi qui lý thuyết
Giữa các trị số thực tế và trị số lý thuyết luôn luôn có sự sai lệch Gọi e là sai lệch giữa trị số thực tế và trị số lý thuyết
Trang 6Giáo trình thống kê Trang 106
y y x
x
y y x x r
i i
i i
Trang 7Giáo trình thống kê Trang 107
Công thức này dễ nhớ, nhưng đôi khi trong tính toán không được thuận tiện, ta biến đổi công thức trên thành công thức khác, dễ sử dụng hơn:
Chia tử số và mẫu số cho n và tiếp tục biến đổi ta được:
y x
y x xy r
σ
σ
=
(ct 3) Với b là tham số trong phương trình hồi qui lý thuyết y = a + bx
Cũng từ công thức (2), ta có thể biến đổi tiếp tục để được công thức:
2
y n
y x
n x
y x xy y
x xy r
y x
Tùy theo số liệu chúng ta có mà chúng ta có thể chọn một công thức thích hợp từ 4 công thức tính hệ số tương quan r nêu trên để tính cho gọn nhẹ
Tất cả các công thức tính hệ số tương quan này có thể vận dụng trong trường hợp tài liệu phân tổ nhưng phải lưu ý đến quyền số
Tính chất của hệ số tương quan:
− Hệ số tương quan có giá trị từ -1 đến 1
− Nếu : r > 0 : tương quan thuận
− r < 0 : tương quan nghịch
− Nếu r = + 1: giữa x và y có liên hệ hàm số
− r càng gần + 1, môí liên hệ giữa x và y càng chặt chẽ
− r = 0 giữa x và y không có liên hệ tuyến tính
Tính r: Để tính theo công thức (1), ta lập bảng sau:
Trang 8Giáo trình thống kê Trang 108
Bảng 6.3 Tuổi
và năng suất lao động là mối liên hệ thuận và khá chặt chẽ
6.2.2 Trường hợp số liệu được phân tổ:
Ở phần trên để đơn giản hóa việc trình bày phương pháp, nên ví dụ được đưa ra là tài liệu về tuổi nghề và năng suất lao động của 10 công nhân Song như chúng ta đã biết: Để phản ánh đúng đắn mối liên hệ tương quan đòi hỏi phải nghiên cứu hiện tượng số lớn – tức là nghiên cứu nhiều đơn vị Khi đó tài liệu thường được phân tổ kết hợp theo tiêu thức nguyên nhân (x) và tiêu thức kết quả (y) Việc phân tổ kết hợp sẽ hình thành bảng tương quan có dạng sau đây:
Trang 9Giáo trình thống kê Trang 109
Từ bảng tương quan, khi tính a, b, r phải nhân với các tần số tương ứng
Hệ phương trình trong phần 1 sẽ được nhân thêm với các tần số tương ứng:
∑yny = Na + b ∑xnx
∑xynxy = a ∑xnx + b ∑x2nx
Khi đó hệ số tương quan r sẽ là:
r = ∑ (x i−x).(y i−y) nxy/ ∑ (x i −x)2nx∑ (y i − y)2ny
6.3 Liên hệ tương quan phi tuyến tính giữa hai tiêu thức số lượng
Ở mục trên đã trình bày về liên hệ tương quan tuyến tính giữa hai tiêu thức
số lượng, tức phương trình hồi qui là một phương trình đường thẳng Trong thực
tế, ta thường gặp mối liên hệ tương quan giữa hai tiêu thức số lượng là mối liên
hệ tương quan phi tuyến tính, tức phương trình hồi qui là một đường cong
Trang 10Giáo trình thống kê Trang 110
Ví dụ:
- Mối quan hệ giữa khối lượng sản phNm và giá thành đơn vị sản phNm: Sự tăng lên của khối lượng sản phNm có thể dẫn đến việc giảm giá thành đơn vị sản phNm nhưng việc giảm này không theo một tỷ lệ tương ứng với sự tăng lên của khối lượng sản phNm
- Mối liên hệ giữa tuổi nghề và năng suất lao động: trong một giới hạn nào
đó sự tăng lên của tuổi nghề dẫn đến năng suất lao động tăng lên, nhưng vượt qua giới hạn đó thì sự tăng lên của tuổi nghề có thể không làm năng suất lao động tăng lên mà ngược lại có thể làm giảm năng suất lao động vì cùng với sự tăng lên của tuổi nghề thì tuổi đời cũng tăng lên, sức khỏe giảm sút làm cho năng suất lao động cũng giảm
6.3.1 Các phương trình hồi quy:
Tùy theo đặc điểm, tính chất của mối liên hệ mà ta lựa chọn phương trình hồi qui phù hợp Sau đây là một số phương trình hồi quy phi tuyến tính thường được sử dụng:
6.3.1.1. Phương trình đường cong Parabol bậc hai:
yx = a + bx + cx2
Phương trình Parabol bậc 2 thường được sử dụng khi các trị số của tiêu thức nguyên nhân tăng lên thì các trị số của tiêu thức kết quả tăng (hoặc giảm), việc tăng (hoặc giảm) đạt đến trị số cực đại (hoặc cực tiểu) rồi sau đó giảm (hoặc tăng)
Trang 11Giáo trình thống kê Trang 111
Ví dụ: Mối liên hệ giữa khối lượng sản phNm và giá thành đơn vị sản phNm, mối liên hệ giữa qui mô cửa hàng và tỷ suất phí lưu thông
Các tham số a và b của phương trình hồi quy được tính ra từ hệ phương trình sau đây:
6.3.1.3. Phương trình hàm mũ:
yx = abx Phương trình hàm mũ được áp dụng trong trường hợp cùng với sự tăng lên của các trị số tiêu thức nguyên nhân thì các trị số của tiêu thức kết quả thay đổi theo cấp số nhân, nghĩa là có tốc độ phát triển xấp xỉ nhau
Các tham số a và b được xác định từ hệ phương trình sau:
∑lgy=nlga+lgb∑x ∑xlgy=lga∑x + lgb ∑x2
Ngoài ba dạng phương trình phi tuyến ở trên, còn có nhiều dạng khác như Parabol bậc 3, lũy thừa, logisticque, compec…
6.3.2 Các loại chỉ tiêu đánh giá tương quan phi tuyến
6.3.2.1 Tỷ số tương quan:
Trang 12Giáo trình thống kê Trang 112
Tỷ số tương quan (kyù hieäu η = eâta) là một số tương đối (biểu hiện bằng lần) được dùng để đánh giá trình độ chặt chẽ của mối liên hệ tương quan Phương pháp tính tỷ số tương quan như sau:
Khi có mối liên hệ giữa tiêu thức x (nguyên nhân) và tiêu thức y (kết quả) thì có thể tính các loại phương sai sau đây:
- Phương sai chung: phản ánh sự biến thiên của tiêu thức y do ảnh hưởng của tất cả các nguyên nhân (trong đó có nguyên nhân x)
số giữa hai phương sai này có thể dùng làm thước đo đánh giá trình độ chặt chẽ của mối liên hệ
Trang 13Giáo trình thống kê Trang 113
Nên: ( )
δ
δ δ
2 2
y
x y
y - y 1
Tỷ số tương quan có một số tính chất sau đây:
- Tỷ số tương quan có giá trị trong khoảng [0; 1], tức là 0 < η < 1
- Nếu η = 0 thì không có liên hệ tương quan giữa x và y
- Nếu η = 1 có liên hệ hàm số giữa x và y
- Nếu η càng gần 1 thì liên hệ tương quan càng chặt chẽ
- Tỷ số tương quan lớn hơn hoặc bằng giá trị tuyệt đối của hệ số tương quan, tức là η > | r | Nếu η = | r | thì giữa x và y có liên hệ tương quan tuyến tính
Giả sử có phương trình hồi quy y = f(x)
Số gia của tiêu thức nguyên nhân là ∆x, số gia của tiêu thức kết quả là ∆y
= f(x + ∆x) – f(x)
Trang 14Giáo trình thống kê Trang 114
Độ co giãn tuyệt đối nói lên khi x thay đổi một đơn vị thì y thay đổi bao nhiêu đơn vị
Nếu gọi E(x) là độ co giãn tuyệt đối thì:
E(x) = ∆y/∆x Giả sử f(x) tồn tại đạo hàm, ta có:
lim ∆y/∆x = f'(x) ∆x -> 0
Ở ví dụ trên, ta có:
f(x) = 5,61 + 0,7x E(x) = f’(x) = (5,61 + 0,7x)’ = 0,7 nghĩa là khi người công nhân tăng lên một tuổi nghề thì năng suất lao động bình quân tăng là 0,7 sản phNm
Độ co dãn tương đối (còn gọi là hệ số co giãn) nói lên khi x thay đổi 1% thì làm cho y thay đổi bao nhiêu phần trăm Nếu gọi E’(x) là độ co giãn tương đối thì:
E’(x) = ∆y/y : ∆x/x E’(x) = ∆y/∆x x/y E’(x) = f’(x).x/y Như vậy E’(x) là một hàm của x và y; ở ví dụ trên ta có:
E’(x) = 0,7 x/ y Trong thực tế để thuận tiện cho việc tính toán và sử dụng, trong công thức trên người ta thay x và y bằng số bình quân của chúng Tức là:
E’(x) = 0,7 x / y E’(x) = 0,7 8,7/11,7 =0,52
Tức là khi tuổi nghề tăng 1% thì năng suất lao động tăng 0,52%
Hệ số co giãn có một số tính chất sau đây:
- Nếu E’(x) > 0 nói lên x và y biến thiên cùng chiều (thuận) và ngược lại
Trang 15Giáo trình thống kê Trang 115
- Nếu |E’(x)| = 1: biến thiên của y trùng với biến thiên của x
- Nếu |E’(x)| > 1: biến thiên của y nhanh hơn biến thiên của x
- Nếu |E’(x)| < 1: biến thiên của y chậm hơn biến thiên của x
- Nếu |E’(x)| = 0: y là hàm không đổi
Câu 2: Hãy cho ví dụ về mối liên hệ giữa các tiêu thức cụ thể, cho biết tiêu thức
nào nguyên nhân, tiêu thức nào là kết quả
Câu 3: Hãy phân biệt liên hệ hàm số với liên hệ tương quan
Câu 4: Hãy trình bày cách xây dựng phương trình hồi quy trong trường hợp số
liệu chưa phân tổ
Câu 5: Hãy trình bày các công thức tính hệ số tương quan
Câu 6: Hãy trình bày cách xây dựng phương trình hồi quy trong trường hợp số
liệu đã phân tổ
Câu 7: Hãy trình bày công thức xác định phương trình hồi quy phi tuyến tính với đường cong Parabol bậc hai yx = a + bx + cx2
Câu 8: Hãy trình bày công thức xác định phương trình hồi quy phi tuyến tính
với đường cong Hyperbol yx = a + b/x
Câu 9: Hãy trình bày công thức xác định phương trình hồi quy phi tuyến tính
với hàm mũ yx = abx
Câu 10: Hãy trình bày công thức xác định tỷ số tương quan
Câu 11: Hãy trình bày công thức xác định độ co giãn
BÀI TẬP Bài 1: Có tài liệu của các doanh nghiệp trong một ngành dịch vụ như sau:
Trang 16Giáo trình thống kê Trang 116
Số
TT
Doanh thu (tỷ đồng)
Quỹ tiền lương (triệu đồng)
Số
TT
Doanh thu (tỷ đồng)
Quỹ tiền lương (triệu đồng)
3 Xác định phương trình hồi qui dạng parabol và tỷ số tương quan
4 Xác định phương trình hồi qui dạng hypebol và tỷ số tương quan
5 Anh (chị) chọn dạng hồi qui nào? tại sao?
Bài 2: Có tài liệu về sản lượng và giá thành đơn vị sản phNm A trong 6 tháng
đầu năm 2002 tại 1 doanh nghiệp như sau:
1 Tính tỷ số tương quan và rút ra kết luận
2 Dự kiến tháng 7 sản xuất 500 tấn hàng Hãy dự đoán giá thành 1 tấn sản phNm
ở tháng 7
Trang 17Giáo trình thống kê Trang 117
Bài 3: Có tài liệu điều tra thị trường về giá bán lượng tiêu thụ qua các tháng của
Bài 4: Có tài liệu điều tra chọn mẫu về tuổi nghề nghiệp và tiền lương tháng của
30 công nhân trong một xí nghiệp như sau:
Số
TT
Tuổi nghề (năm)
Tiền lương (1000đ)
Số
TT
Tuổi nghề (Năm)
Tiền lương (1000đ)
Yêu cầu:
1 Hãy xác định dạng hàm tương quan tuyến tính của hai tiêu thức trên
2 Hãy căn cứ vào tài liệu phân tổ 30 công nhân trên thành 6 tổ đều để xác định dạng hàm tương quan tuyến tính của hai tiêu thức trên
Trang 18Giáo trình thống kê Trang 118
Bài 5:
Phân xưởng
Năng suất lao động m/công nhân
Sản lượng
i
x M
Tính năng suất lao động bình quân của công nhân các phân xưởng
Bài 6: Dưới đây là tài liệu phân tổ theo khối lượng cá đánh được của mỗi thuyền
trong đoàn thuyền đánh cá
Khối lượng cá (tạ) Số thuyền Tổng lượng cá x i f i
1 Tính số trung bình cá đánh được của mỗi thuyền
2 Tính trung vị, mốt về khối lượng cá đánh được của mỗi thuyền
So sánh kết quả ở câu a và câu b và cho nhận xét về phân phối của dãy số Bài 7:
Phân
xưởng
Năng suất lao
động (SP/CN
Số công nhân
% hoàn thành kế hoạch
Giá thành 1sp (triệu đồng)
Sản lượng