Trong trường hợp hồi quy với các biến định tính, ta phải lượng hóa chúng bằng những con số, thường là số 0 và số 1 và được gọi là biến giả.. Để hiểu hơn về hồi quy với biến định tính, sử
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
Hoàng Thị Thanh Huyền
HỒI QUY VỚI BIẾN ĐỊNH TÍNH THỰC HÀNH BẰNG NGÔN NGỮ R
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
Hoàng Thị Thanh Huyền
HỒI QUY VỚI BIẾN ĐỊNH TÍNH
THỰC HÀNH BẰNG NGÔN NGỮ R
Chuyên ngành: Toán ứng dụng
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
Tiến sĩ: Hà Bình Minh
Hà Nội – Năm 2016
Trang 3Trước khi trình bày nội dung chính của bản báo cáo thực tập chuyên ngành, em xin bày tỏ lòng biết ơn sâu sắc tới Tiến sĩ Hà Bình Minh đã tận tình hướng dẫn để em
có thể hoàn thành đề tài này.
Em cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo trong khoa Toán, Trường Đại học Sư phạm Hà Nội 2 đã dạy dỗ em tận tình trong suốt quá trình học tập tại khoa.
Nhân dịp này em cũng xin được gửi lời cảm ơn chân thành tới gia đình, bạn bè đã luôn bên em, động viên, giúp đỡ em trong suốt quá trình học tập và thực hiện đề tài này.
Xuân Hòa, ngày 4 tháng 5 năm 2016
Sinh viên Hoàng Thị Thanh Huyền
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong khóa luận này là trung thực và không trùng lặp với các đề tài khác Tôi cũng xin cam đoan rằng mọi sự giúp
đỡ cho việc thực hiện khóa luận này đã được cảm ơn và các thông tin thu trích dẫn trong khóa luận đã được chỉ rõ nguồn gốc.
Hà Nội, ngày 4 tháng 5 năm 2016
Sinh viên Hoàng Thị Thanh Huyền
Trang 51 GIỚI THIỆU NGÔN NGỮ R 3
1.1 Ưu điểm và hạn chế của R 3
1.2 Cài đặt R 4
1.3 "Văn phạm" R 6
1.3.1 Cách đặt tên trong R 6
1.3.2 Hỗ trợ trong R 7
1.4 Cách nhập dữ liệu vào R 8
1.4.1 Nhập số liệu trực tiếp: c() 8
1.4.2 Nhập số liệu trực tiếp: edit (data.frame()) 9
1.4.3 Nhập số liệu từ một text file: read table 10
1.4.4 Nhập số liệu từ Excel: read.csv 11
1.4.5 Nhập số liệu từ một SPSS: read.spss 11
2 HỒI QUY VỚI BIẾN ĐỊNH TÍNH 12 2.1 Khái niệm về hồi quy 12
2.1.1 Phân tích hồi quy 12
2.1.2 Biến phụ thuộc và biến độc lập 12
Trang 62.2 Khái niệm về biến giả 14
2.2.1 Biến định lượng và biến định tính 15
2.2.2 Hồi quy với một biến định lượng và một biến định tính có hai phạm trù 19
2.2.3 Hồi quy với một biến định lượng và một biến định tính có nhiều hơn hai phạm trù 22
2.2.4 Hồi quy với một biến định lượng và hai biến định tính 23
2.3 Biến giả với hệ số góc khác nhau 25
2.4 Biến giả với tung độ gốc và hệ số góc khác nhau 26
2.5 Biến giả trong phân tích thời vụ 28
2.6 Hồi quy tuyến tính từng khúc (piecewise linear regression) 34 2.7 Hồi quy với biến giả, mô hình Semi Logarit 38
2.7.1 Mô hình Log - Lin 38
2.7.2 Mô hình Lin - Log 42
2.8 Hồi quy với biến phụ thuộc là biến giả 45
2.8.1 Một số ví dụ về biến phụ thuộc định tính 45
2.8.2 Biến phụ thuộc nhị phân 47
2.8.3 Phân tích xác suất biểu hiện các trạng thái của biến phụ thuộc định tính 48
2.8.4 Mô hình xác suất tuyến tính LPM 50
Kết luận 56
Trang 71.Lí do chọn đề tài
Trong thực tế để nghiên cứu các hiện tượng kinh tế, xã hội, ta đi xây
dựng các mô hình hồi quy để thể hiện mối quan hệ giữa các biến, phản
ánh bản chất hiện tượng để từ đó có thể đưa ra những nhận xét, kết
luận về hiện tượng Nhưng các hiện tượng đó không phải lúc nào cũng
được mô tả bằng các biến định lượng mà đôi khi bằng các biến định
tính Trong trường hợp hồi quy với các biến định tính, ta phải lượng hóa
chúng bằng những con số, thường là số 0 và số 1 và được gọi là biến giả
Hồi quy nói chung và hồi quy với biến định tính nói riêng ta đều cần
đến sự trợ giúp của các phần mềm chuyên dụng Chúng ta có thể sử dụng
các phần mềm thông dụng như SAS, SPSS, Stata, S-Plus để phân tích
số liệu và biểu đồ Tuy nhiên, để sử dụng được các phần mềm đó, chúng
ta phải chi phí tương đối cao Để khắc phục hạn chế đó, năm 1996, hai
nhà thống kê học Ross Ihaka và Robert Gentleman thuộc trường đại học
Auckland New Zealand phát họa ngôn ngữ cho phân tích thống kê mà
họ đặt tên là R hoàn toàn miễn phí Để hiểu hơn về hồi quy với biến
định tính, sử dụng được phần mềm R trong phân tích số liệu, em lựa
chọn đề tài " Hồi quy với biến định tính: Thực hành bằng ngôn ngữ R"
2.Mục đích nghiên cứu
Nghiên cứu hồi quy với biến định tính, sử dụng ngôn ngữ R trong phân
Trang 8Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
Sử dụng ngôn ngữ R hỗ trợ trong tìm mô hình hồi quy với biến định
tính, thực hành các ví dụ bằng R, từ đó tìm ra các tham số rồi đưa ra
những đánh giá, kết luận với hiện tượng đang nghiên cứu
4 Phạm vi nghiên cứu
Do thời gian không nhiều nên bài luận văn chỉ tìm hiểu được một số vấn
đề của hồi quy với biến định tính: mô hình hồi quy có chứa biến độc lập
định tính và mô hình hồi quy với biến phụ thuộc định tính
5 Bố cục đề tài
Đề tài bao gồm hai chương:
• Chương 1: Giới thiệu ngôn ngữ R
Chương 1: Trình bày những kiến thức tổng quan về ngôn ngữ R
như: cách cài đặt, cách đặt tên, cách nhập dữ liệu trong R
• Chương 2: Hồi quy với biến định tính
Chương 2: Trình bày những kiến thức chung nhất về hồi quy, khái
niệm biến giả và kĩ thuật sử dụng biến giả trong một số mô hình
hồi quy
Do thời gian thực hiện đề tài không nhiều, kiến thức còn hạn chế nên
luận văn của em không tránh được những thiếu sót Em rất mong nhận
được sự góp ý và những ý kiến phản biện của quý thầy cô và bạn đọc
để em hoàn thiện luận văn của mình hơn Em xin chân thành cảm ơn!
Trang 9GIỚI THIỆU NGÔN NGỮ R
Nói một cách ngắn gọn, R là một phần mềm sử dụng cho phân tích thống
kê và biểu đồ Thật ra, về bản chất R là ngôn ngữ máy tính đa năng, có
thể sử dụng cho nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán
học giải trí, toán học ma trận đến các phân tích thống kê phức tạp
Phần mềm R có một số ưu điểm vượt trội so với các phần mềm chuyên
dụng khác như:
* Ưu điểm:
• R là phần mềm miễn phí, có sẵn trên web và dễ dàng cài đặt
• Việc nhập - xuất dữ liệu rất đơn giản và khá gọn so với các phần
mềm chuyên dụng khác
• Với phần mềm R, chúng ta có thể tạo ra những biểu đồ chuyên
Trang 10Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
• Chúng ta có thể dễ dàng giải thích kết quả khi thực hiện phân tích
thống kê vì R chỉ xuất ra thông tin cần thiết
• Khi sử dụng phần mềm R để phân tích dữ liệu, chúng ta có thể cập
nhật những phương pháp phân tích thống kê hiện đại bằng cách cài
đặt những package chuyên dụng
• Với R chúng ta có thể sử dụng để tính toán như một máy tính thông
thường (tính toán số học, đạo hàm, giải phương trình )
Tuy nhiên, phần mềm R còn tồn tại những hạn chế chẳng hạn như:
Để sử dụng R thì đầu tiên ta phải cài đặt R trong máy tính của mình
Với máy tính đã được kết nối mạng, chúng ta truy cập địa chỉ:
http://cran R-project.org
Tài liệu cần tải về tùy theo phiên bản, nhưng thường có tên bắt đầu
bằng mẫu tự R và số phiên bản (version) Khi đã tải R xuống máy tính,
bước tiếp theo là cài đặt (set-up) vào máy tính Để làm việc này chúng
ta nhấn chuột vào tài liệu trên và làm theo hướng dẫn cách cài đặt trên
màn hình Sau khi hoàn tất việc cài đặt thì trên màn hình destop xuất
Trang 11hiện một icon
Khi chúng ta nhấp chuột vào icon trên sẽ xuất hiện một window như
sau:
Trang 12Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
“Văn phạm” chung của R là một lệnh (command) hay hàm Cú pháp
chung của R là như sau:
đối tượng = hàm (thông số 1, thông số 2, ,thông số n)
R là một ngôn ngữ "đối tượng" Điều này có nghĩa là các dữ liệu
trong R được chứa trong object, điều này cũng có ảnh hưởng đến cách
viết của R
Ví dụ 1.3.3 Chúng ta không viết x=5 như thông thường, trong R để
thể hiện điều đó chúng ta viết là x==5
1.3.1 Cách đặt tên trong R
Khi đặt tên một đối tượng hay một biến số trong R, ta lưu ý:
• Tên một đối tượng phải viết liền nhau, không có khoảng trắng Ví
dụ:
doituong
Trang 13• R phân biệt chữ viết hoa và chữ viết thường.
• Không nên đặt tên một biến số bằng kí hiệu "-" Ví dụ:
Trang 14Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
Dữ liệu mà R hiểu được phải là dữ liệu trong một data.frame Sau đây
là một số cách để nhập dữ liệu vào R
1.4.1 Nhập số liệu trực tiếp: c()
Ví dụ 1.4.1 Ta có mẫu số liệu về số lượng hàng bán (biến Y), giá đơn
vị bán (biến X) và khu vực bán hàng (biến D với D = 1: thành phố;
Trang 151.4.2 Nhập số liệu trực tiếp: edit (data.frame())
Vẫn với số liệu ở ví dụ trên, ta thao tác:
Y = edit (data.frame())
Khi đó ta có cửa sổ:
Trang 16Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
Sau đó chúng ta sửa và nhập số liệu vào bảng
1.4.3 Nhập số liệu từ một text file: read table
Giả sử số liệu của chúng ta được lưu vào trong một text file có tên là
h.txt tại directory C: / works / solieu Chúng ta nhập số liệu vào R bằng
các thao tác sau:
>setwd ("C: / works / solieu)
>h = read.table("h.txt", header=TRUE)
>save(h, file="h.rda")
Trang 171.4.4 Nhập số liệu từ Excel: read.csv
Để nhập số liêu từ phần mềm Excel, ta thực hiện theo 2 bước:
• Bước 1: Dùng lệnh "Save as" trong Excel và lưu số liệu dưới dạng
"csv"
• Bước 2: Dùng R (lệnh read.csv ) để nhập dữ liệu dạng csv
1.4.5 Nhập số liệu từ một SPSS: read.spss
Phần mềm thống kê SPSS lưu dữ liệu dưới dạng "sav" Ví dụ chúng ta
có dữ liệu tên là h1.sav trong diretory C / works / solieu chúng ta thực
hiện các thao tác sau:
> library(foreign)
>setwd ("c / works / solieu)
> h1 = read.spss("h1.sav", to.data.frame=TRUE)
> save(h1, file="h1.rda")
Trang 18Chương 2
HỒI QUY VỚI BIẾN ĐỊNH TÍNH
2.1.1 Phân tích hồi quy
Phân tích hồi quy là tìm mối quan hệ phụ thuộc của biến phụ thuộc vào
một hoặc nhiều biến khác (được gọi là biến độc lập), nhằm mục đích ước
lượng hoặc tiên đoán giá trị kì vọng của biến phụ thuộc khi biết trước
giá trị của biến độc lập
2.1.2 Biến phụ thuộc và biến độc lập
Biến phụ thuộc được kí hiệu là Y, biến độc lập là X2, X3, X4
Trong mối quan hệ giữa hai biến này, biến phụ thuộc chịu tác động của
biến độc lập, biến độc lập là biến gây ra ảnh hưởng cho biến phụ thuộc
Chẳng hạn ta xét mối quan hệ giữa giá bán tivi với sức mua của người
tiêu dùng Khi giá thành tivi cao thì số lượng người mua thấp, ngược lại
khi giá thành tivi giảm thì số lượng người mua tăng lên Từ đây, ta thấy
giá bán tivi có ảnh hưởng đến sức mua của người tiêu dùng hay giá tivi
Trang 19là biến độc lập còn sức mua là biến phụ thuộc.
Biến độc lập nhận những giá trị xác định, biến phụ thuộc là những biến
ngẫu nhiên Trường hợp đơn giản, một biến phụ thuộc chịu ảnh hưởng
của một biến độc lập Trường hợp phức tạp hơn, một biến phụ thuộc
chịu ảnh hưởng của nhiều biến độc lập
2.1.3 Nhắc lại về mô hình hồi quy hai biến tuyến tính
1 Mô hình hồi quy hai biến tuyến tính dạng
Yi = β1 + β2Xi + Ui (1)Trong đó: Y là biến phụ thuộc; X là biến độc lập
2 Phương pháp tổng bình phương tối thiểu thông thường
(OLS)
• Khi ước lượng các tham số trong mô hình hồi quy bằng phương
pháp OLS lưu ý các điều kiện: phương sai không đổi, không xảy ra
hiện tượng tự tương quan
• Trọng tâm của phương pháp là: xét biểu đồ phân tán xây dựng từ
mẫu số liệu thực tế, điểm tọa độ của mỗi quan sát thường có một
khoảng cách khi chiếu xuống đường thẳng hồi quy Bình phương
mỗi khoảng cách này, sau đó lấy tổng bình phương của chúng và
xét điều kiện để tổng bình phương này cực tiểu, ta thiết lập được
các biểu thức ước lượng giá trị các tham số hồi quy
Trang 20Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
Trong kinh tế lượng tham số thường được kí hiệu là β1, β2, , βk cóthể chưa biết và là đối tượng cần tìm Trong trường hợp tổng quát, tham
số cũng có thể xem như một biến, cũng có thể có tác động đến các yếu
tố kinh tế khác Giá trị tuyệt đối của tham số có thể cho ta biết mức độ
ảnh hưởng mạnh hay yếu của biến độc lập lên biến phụ thuộc
Cụ thể trong mô hình (1) các tham số hồi quy là β1 và β2, trong đó:
• β1 gọi là tung độ gốc hay hệ số chặn của đường thẳng.Khi X = 0: Nếu β2 > 0 thì Y = β1 = Ymin; nếu β2 < 0 thì Y = β1 =
Ymax từ đó kết hợp với tình hình cụ thể và lí thuyết kinh tế để nêu
ý nghĩa kinh tế của β1
• β2 là hệ số góc hay độ dốc đường thẳng hồi quy
Dấu của β2 thể hiện mối quan hệ của biến Y và biến X trong môhình: Nếu β2 > 0 thì X, Y đồng biến và ngược lại Kết hợp giữadấu của β2 > 0 với giá trị của nó, ta thấy được ảnh hưởng của biến
X lên biến Y, ngoài ra ta cũng có thể nhận ra bản chất kinh tế của
hiện tượng đang khảo sát
Trong thực tế ta gặp rất nhiều giá trị quan sát được thể hiện bằng một
con số cụ thể, chẳng hạn như: doanh thu bán hàng hằng năm của một
công ty (tỷ đồng), số lượng hàng bán (sản phẩm), thu nhập cá nhân
(triệu đồng), số năm công tác nhưng bên cạnh đó chúng ta cũng gặp
không ít những hiện tượng gắn liền với những biến không thể cân đo
Trang 21đong đếm được bằng các công cụ đo lường mà chỉ bằng trực quan bằng
cảm nhận, ví dụ như: dân tộc, tôn giáo, giới tính, màu sắc Đó là những
biến định tính Những biến định tính này sau khi được lượng hóa được
gọi là biến giả Trong chương này, chúng ta sẽ khảo sát một số trường
hợp hồi quy có sử dụng biến giả: mô hình hồi quy có chứa biến độc lập
định tính và mô hình hồi quy với biến phụ thuộc định tính
2.2.1 Biến định lượng và biến định tính
(1).Biến định lượng: Khi giá trị quan sát được thể hiện bằng một con
số, có thể có đơn vị cụ thể
(2).Biến định tính: Thể hiện đặc điểm, tính chất của một hiện tượng
Ví dụ như giới tính, dân tộc, tôn giáo, màu sắc, khu vực công tác, tình
trạng hôn nhân, lĩnh vực hoạt động của doanh nghiệp Biến định tính
chỉ có thể phân thành các phạm trù (thuộc tính, đặc điểm) khác nhau
Một biến định tính có thể rơi vào một phạm trù, hai phạm trù hoặc
nhiều hơn
*Lượng hóa biến định tính: Nhằm đưa tính chất của biến định tính
vào mô hình hồi quy, ta cần mã hóa chúng như một biến định lượng,
nghĩa là phải gán cho mỗi phạm trù bằng một con số Vì vậy sau khi
lượng hóa, biến định tính được gọi là biến giả (dummy variable)
Ví dụ 2.2.1 Ta kí hiệu S là giới tính, với S = 1 nếu là nữ và S = 0 nếu
là nam Tuy nhiên, ta vẫn có thể đặt ngược lại: S = 1 nếu là nam và S
Trang 22Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
thể thay đổi) nhưng bản chất vẫn không đổi
Biến định tính thường được mã hóa cho các tính chất bằng hai con
số: 0 và 1, cho nên còn được gọi là biến nhị phân
Ví dụ 2.2.2 Xét mẫu số liệu sau về thu nhập (triệu đồng/tháng) của
công nhân xây dựng: trong đó Y - thu nhập; X - giới tính; d - biến giả
Y 3.2 6.3 3.6 7.5 3.4 8 3.0 2.9 6.5 7.0 3.5 7.3
X nữ nam nữ nam nữ nam nữ nữ nam nam nữ nam
Để có mô hình hồi quy thu nhập của công nhân xây dựng theo giới
tính thì ta phải tìm được các hệ số β1, β2 trong mô hình:
Yi = β1 + β2Xi + Ui
Sử dụng phần mềm R, thực hiện theo các thao tác sau:
thunhap = edit (data.frame()) / enter sau đó nhập số liệu
thunhap / enter
reg = lm (data = thunhap, Y ~ d) / enter
summary (reg) / enter
trong đó "thunhap" là tên đối tượng Khi đó ta có bảng sau:
Từ đó, ta tìm được hàm hồi quy tuyến tính mẫu của Y theo X như sau:ˆ
Yi = 3.2667 + 3.8333di
Trang 23Vậy với mẫu số liệu trên, thu nhập bình quân của công nhân nữ luôn thấp
hơn thu nhập bình quân của công nhân nam là 3.8333 triệu đồng/tháng
Cũng vẫn ví dụ trên nhưng ta giả sử d = 0 nếu là nam, d = 1 nếu là
nữ Khi đó lập lại bảng số liệu (thay đổi cột giá trị của d) và làm tương
tự như trên, ta thu được bảng kết quả tương ứng:
Từ đây ta cũng có hàm hồi quy tuyến tính: ˆYi = 7.1 − 3.8333di Vậythu nhập của nhân viên nữ luôn thấp hơn nhân viên nam là 3.8333 triệu
đồng/tháng
*Nhận xét: So sánh hai trường hợp mã hóa trái ngược nhau đối với
yếu tố nam và nữ của nhóm công nhân xây dựng trong ví dụ trên, ta
thấy kết quả hồi quy hoàn toàn giống nhau Thu nhập bình quân hàng
tháng của công nhân nam luôn cao hơn công nhân nữ là 3.8333 triệu
đồng/tháng
Ví dụ trên cho thấy rằng các con số gán cho mỗi tính chất của một
biến định tính chỉ mang ý nghĩa định danh, không có vai trò tham gia
vào các phép tính
Biến định tính có nhiều hơn hai phạm trù: có thể dùng một biến giả,
mỗi phạm trù lượng hóa bằng một con số hoặc dùng nhiều biến giả lượng
hóa bằng số 0 và số 1
Trang 24Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
thành, vùng sâu vùng xa Có thể dùng 2 biến giả với số 0 hoặc số 1 để
gán cho mỗi biến (biến nhị phân)
β2: Cho thấy mức chênh lệch về thu nhập của một giáo viên giảngdạy ở nội thành so với vùng sâu vùng xa
β3: Cho thấy mức chênh lệch về thu nhập của một giáo viên giảngdạy ở ngoại thành so với vùng sâu vùng xa
(β1 + β3): Biểu thị chênh lệch về thu nhập của một giáo viên giảngdạy ở nội thành so voi ngoại thành
Tùy theo dấu của các tham số trên, mức chênh lệch sẽ là âm hoặc dương
Trang 25Ví dụ 2.2.4 Mức độ vừa ý của người tiêu dùng sau khi sử dụng một
mặt hàng hoặc một dịch vụ được chia thành: rất không hài lòng, không
hài lòng, bình thường, hài lòng và rất hài lòng
Vì có 5 trạng thái ưa thích, ta có thể sử dụng bốn biến giả:
Lưu ý:
• Hậu quả của một biến giả với nhiều giá trị: mô hình khó phân tích
hơn khi so sánh giá trị trung bình của các biến phụ thuộc ứng với
các phạm trù khác nhau; biến giả với nhiều giá trị trở thành biến
định lượng thông thường nên dễ xảy ra tương quan với các biến độc
lập khác trong mô hình
• Để phân biệt hai thuộc tính, ta dùng một biến giả; để phân biệt ba
thuộc tính ta dùng hai biến giả Tổng quát, để phân biệt n thuộc
Trang 26Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
Ta xét mô hình kinh tế lượng như sau: Yi = β1 + β2Xi + β3Di + UiTrong đó:
Y: Doanh số bán hàng,
X: Giá bán,
D: Biến giả,
Di = 1 nếu bán ở thành thị,
Di = 0 nếu bán ở nông thôn→ phạm trù cơ sở
Đối với điểm bán hàng ở nông thôn:
Sự khác biệt về doanh số bán hàng giữa thành thị và nông thôn chỉ có
ý nghĩa thống kê β3 khác không có ý nghĩa thống kê
Ví dụ 2.2.5 Khảo sát ngẫu nhiên 12 cửa hàng thuộc các điểm bán
hàng ở vùng nông thôn và thành phố, ta thu được mẫu số liệu sau:
Trang 27Chúng ta có thể tìm được mô hình hồi quy bằng cách sử dụng phần
mềm R theo các bước sau:
soluonghang = edit (data.frame()) / enter
Trang 28Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
Vậy mô hình hồi quy cần tìm là: ˆYi = 1715.102 − 7.061Xi − 597.449DiNhận xét: Với kết quả hồi quy cho thấy:
phố cao hơn ở nông thôn một lượng là 597.449 kg/tháng
2.2.3 Hồi quy với một biến định lượng và một biến định tính
có nhiều hơn hai phạm trù
Giả sử chúng ta muốn ước lượng mức thu nhập của nhân viên được
quyết định bởi số năm kinh nghiệm công tác và trình độ học vấn
Gọi Y: Tiền lương; X: Số năm kinh nghiệm; D: Học vấn Giả sử chúng
ta phân loại học vấn như sau: tốt nghiệp phổ thông, đại học và sau đại
Trang 29Khai triển của mô hình trên như sau:
Đối với người tốt nghiệp phổ thông :
Từ các mô hình hồi quy trên:
So sánh tung độ gốc: ta suy ra mức chênh lệch về thu nhập của các nhân
viên có cùng số năm kinh nghiệm Cụ thể:
• Chênh lệch giữa nhân viên có bằng đại học so với nhân viên tốt
So sánh hệ số góc: hệ số góc bằng nhau trong các trường hợp và bằng
β2 Điều này cho thấy số năm kinh nghiệm tăng lên như nhau dẫn đếnmức tăng thu nhập từ lương như nhau
2.2.4 Hồi quy với một biến định lượng và hai biến định tính
Vẫn sử dụng ví dụ ở mục (2.2.3) vừa nêu trên, chúng ta muốn xem
Trang 30Khóa luận tốt nghiệp Đại học HOÀNG THỊ THANH HUYỀN
Ta có mô hình hồi quy tổng quát như sau:
Yi = β1 + β2Xi + β3D1i+ β4D2i + β5D3i + Ui.(1) Xét thu nhập của nữ:
-Có trình độ sau đại học:
E(Yi/Xi, D1i = 0, D2i = 1, D3i = 1) = β1 + β2Xi + β4 + β5 + Ui =(β1 + β4 + β5) + β2Xi + Ui
Từ các mô hình trên, ta có thể so sánh mức thu nhập giữa các nhân
viên trong nhiều trường hợp, cụ thể:
• So sánh cùng giới tính, khác trình độ văn hóa:
Giữa nhân viên nữ có bằng đại học so với nhân viên nữ tốt nghiệp
Trang 31phổ thông, chênh lệch (β1 + β3) − β1 = β3.
Giữa nhân viên nam có trình độ sau đại học so với nhân viên nam
có trình độ đại học, mức chênh lệch:
(β1 + β4 + β5) − (β1 + β3 + β5) = β4 − β3
• So sánh khác giới tính, cùng trình độ văn hóa
Giữa nữ nhân viên và nam nhân viên có cùng trình độ sau đại học:
(β1 + β4 + β5) − (β1 + β4) = β5
Giữa nam nhân viên với nữ nhân viên cùng có bằng đại học,mức
chênh lệch: (β1 + β3 + β5) − (β1 + β3) = β5
• So sánh khác giới tính, khác trình độ văn hóa
Giữa nam nhân viên có bắng sau đại học với nữ nhân viên có bằng
đại học, mức chênh lệch: (β1+ β4+ β5) − (β1+ β3) = (β4− β3) + β5.Trong đó, chênh lệch do trình độ là (β4 − β3), chênh lệch do giớitính là β5
Lưu ý: Hệ số góc của tất cả các mô hình trên đều bằng nhau và bằng
β2
Những trường hợp vừa trình bày trên cho thấy chỉ có tung độ gốc giữa
các mô hình khác nhau, hệ số góc luôn bằng nhau Thực tế có những
trường hợp ngược lại, tung độ gốc giữa các mô hình không đổi, chỉ thay