Trong số các phương phápphân tích đa biến thì phân tích hồi quy có nhiều ưu điểm vì đó là một phântích thống kê để xác định xem các biến độc lập có quan hệ như thế nào với cácbiến phụ th
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
LÊ HUỲNH NHƯ
PHÂN TÍCH DỮ LIỆU ĐA BIẾN VÀ MỘT SỐ ỨNG
Trang 2ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC BÁCH KHOA
LÊ HUỲNH NHƯ
PHÂN TÍCH DỮ LIỆU ĐA BIẾN VÀ MỘT
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : TS Nguyễn Tiến Dũng
2 Thư ký: TS Đặng Văn Vinh
3 Phản biện 1: PGS TS Nguyễn Bích Huy
4 Phản biện 2: TS Nguyễn Bá Thi
5 Ủy viên: PGS TS Nguyễn Huy Tuấn
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyênngành sau khi luận văn đã được sửa chữa (nếu có)
Trang 4ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Lê Huỳnh Như MSHV: 7140275
Ngày, tháng, năm, sinh: 03/09/1987 Nơi sinh: Long An
III NGÀY GIAO NHIỆM VỤ: 15/01/2018
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018
V CÁN BỘ HƯỚNG DẪN: TS NGUYỄN TIẾN DŨNG
Tp HCM, ngày 17 tháng 6 năm 2018
TRƯỞNG KHOA
PGS.TS HUỲNH QUANG LINH
Trang 5LỜI CẢM ƠN
Luận văn này được thực hiện tại Trường Đại học Bách Khoa Tp.HCM dưới
sự hướng dẫn của Thầy TS Nguyễn Tiến Dũng Trước hết, tôi xin bày tỏ lòngbiết ơn sâu sắc đến Thầy - người luôn động viên và hết lòng hướng dẫn tôihoàn thành luận văn này
Tôi cũng xin chân thành cảm ơn các quý thầy cô giáo bộ môn Toán ỨngDụng khoa Khoa học Ứng Dụng đã giảng dạy nhiệt tình, cung cấp kiến thứccho tôi trong quá trình học tập ở trường
Tôi xin chân thành cảm ơn Phòng đào tạo Sau đại học Trường Đại học BáchKhoa Tp.HCM đã tạo điều kiện thuận lợi để tôi hoàn thành chương trình đàotạo và an tâm học tập tại trường
Cuối cùng, tôi xin gửi lời cám ơn đến gia đình, bạn bè, những người đã luônbên tôi, động viên và khuyến khích tôi hoàn thành luận văn này
Tôi xin chân thành cảm ơn!
Tp.HCM, ngày 17 tháng 6 năm 2018
Học viên thực hiện
Lê Huỳnh Như
Trang 6TÓM TẮT LUẬN VĂN
Luận văn bao gồm 3 chương Chương 1 trình bày các khái niệm cơ bản.Chương 2 trình bày về cách phân tích mô hình hồi quy tuyến tính đa biến vàứng dụng Chương 3 trình bày mô hình copula và ứng dụng
ABSTRACT
The thesis contains three chapters Chapter 1 presents the basic concept.Chapter 2 presents the multivariate linear regression analysis and application.Chapter 3 presents the copula model and application
Trang 7LỜI CAM ĐOAN
Tôi tên là Lê Huỳnh Như, MSHV: 7140275, học viên cao học chuyên ngànhToán ứng dụng Trường Đại học Bách Khoa TP.HCM khóa 2014 Tôi xin camđoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi
rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôithực hiện dưới sự hướng dẫn của TS Nguyễn Tiến Dũng
Tp.HCM, ngày 17 tháng 6 năm 2018
Học viên thực hiện
Lê Huỳnh Như
Trang 8Mục lục
1.1 Hiệp phương sai của biến ngẫu nhiên hai chiều 14
1.2 Tương quan của biến ngẫu nhiên hai chiều 15
1.3 Ma trận hiệp phương sai 15
1.4 Ma trận tương quan 16
2 Mô hình hồi quy tuyến tính đa biến 18 2.1 Phân tích tương quan tuyến tính (Linear Correlation) 18
2.1.1 Đồ thị phân tán 18
2.1.2 Hệ số tương quan của tập hợp chính (The Population Correlation Coefficient) 18
2.1.3 Hệ số tương quan của mẫu 19
2.1.4 Kiểm định giả thuyết về ρ 20
2.2 Phân tích nhân tố 20
2.2.1 Mô hình EFA 20
2.2.2 Các bước thực hiện EFA 21
2.2.3 Kích thước mẫu 21
2.2.4 Kiểm tra độ tin cậy thang đo bằng hệ số Cronbach’s alpha 22
2.2.5 Điều kiện để áp dụng EFA 23
Trang 92.2.6 Hệ số tải nhân tố 24
2.2.7 Loại bỏ biến xấu 24
2.3 Hồi quy tuyến tính đa biến 25
2.3.1 Hàm hồi quy tổng thể 25
2.3.2 Các giả thuyết 26
2.3.3 Ước lượng các tham số 26
2.3.4 Hệ số xác định hồi quy bội 28
2.3.5 Ma trận tương quan 29
2.3.6 Ma trận hiệp phương sai 30
2.3.7 Khoảng tin cậy và kiểm định giả thiết 30
2.3.8 Hiện tượng đa cộng tuyến 32
2.4 Ứng dụng mô hình hồi quy tuyến tính đa biến để đánh giá sự hài lòng của học sinh khối 12 năm học 2017 - 2018 về trường THPT Gò Đen, Bến Lức, Long An 35
2.4.1 Giới thiệu trường THPT Gò Đen, Bến Lức, Long An 35
2.4.2 Quy trình nghiên cứu 36
2.4.3 Nghiên cứu định tính 36
2.4.4 Nghiên cứu định lượng 36
2.4.5 Bảng khảo sát 37
2.4.6 Kết quả sau khi chạy hồi quy đa biến 46
3 Mô hình copula 63 3.1 Một vài định nghĩa và tính chất của Copula 63
3.1.1 Các hàm phân phối đồng thời Fréchet - Hoeffding 68
3.1.2 Copula và biến ngẫu nhiên 71
3.2 Các khái niệm sự phụ thuộc 73
3.2.1 Tương quan tuyến tính 73
3.2.2 Độ đo sự tương thích 74
3.2.3 Độ đo sự phụ thuộc 77
Trang 103.2.4 Những khái niệm phụ thuộc khác 78
3.3 Sơ lược về các hàm copula 82
3.3.1 Phân phối elliptic 82
3.3.2 Copula liên quan đến phân phối elliptic 83
3.3.3 Copula Archimedean 87
3.3.4 Giá trị cực trị các copula 88
3.4 Các kết luận thống kê về copula 90
3.4.1 Kỹ thuật mô phỏng 90
3.4.2 Ước lượng không tham số 91
3.4.3 Ước lượng tham số 93
3.5 Ứng dụng copula trong đo lường rủi ro tài chính 98
3.5.1 Tổn thất tổng hợp và phân tích giá trị rủi ro 98
3.5.2 Giá trị cực trị nhiều chiều và rủi ro thị trường 105
3.5.3 Tần số tương quan và tính toán rủi ro 117
Trang 11MỞ ĐẦU
I Lý do chọn đề tài
Phân tích dữ liệu đa biến dựa trên nguyên tắc thống kê số liệu đa biến,trong đó bao gồm việc quan sát và phân tích kết quả thống kê của nhiều hơnmột biến đã và đang thu hút sự quan tâm của nhiều nhà thống kê cũng nhưcủa nhiều nhà khoa học trong các ngành thực nghiệm Một trong những điểmmạnh của phương pháp này là nó có thể được sử dụng để thực hiện các nghiêncứu trong rất nhiều lĩnh vực liên quan đến yêu cầu xem xét tác động của nhiềunhân tố trên những biến phản hồi Y (xem [13]) Trong số các phương phápphân tích đa biến thì phân tích hồi quy có nhiều ưu điểm vì đó là một phântích thống kê để xác định xem các biến độc lập có quan hệ như thế nào với cácbiến phụ thuộc Đây là một phương pháp thống kê mà giá trị kỳ vọng của mộthay nhiều biến ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫunhiên (đã tính toán) khác Phân tích hồi quy có nhiều mô hình như mô hìnhhồi qui tuyến tính, hồi qui lôgic, hồi qui Poisson Luận văn này sẽ tập trungnghiên cứu và ứng dụng mô hình hồi quy tuyến tính đa biến (xem [1])
Ngoài ra, một trong những phương pháp thường được dùng khi phân tích
dữ liệu đa biến với cách tiếp cận liên quan đến hàm phân phối đồng thời là
mô hình copula (xem [10]) Các copula là các hàm đặc biệt với nhiều tính chấtrất thú vị Dựa vào copula, ta có thể xác định được sự phụ thuộc của các biếnngẫu nhiên mà nhiều khi covariance và correlation không thể lý giải được Đặcbiệt, trong lý thuyết đầu tư và quản lý rủi ro, việc chỉ sử dụng covariance vàcorrelation của các chỉ số, giá cả, v.v nhiều khi là chưa đủ Khi đó, ta cần phảikhảo sát cả copula của chúng
II Mục đích nghiên cứu
Mục tiêu nghiên cứu cơ bản của luận văn này là làm rõ phép phân tích hồiquy tuyến tính đa biến, phân tích mô hình copula và ứng dụng của nó
Trang 12III Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Mô hình hồi quy tuyến tính đa biến, mô hình copula
- Phạm vi nghiên cứu: Mô hình phân tích trong kết quả đo và một số ứngdụng
IV Phương pháp nghiên cứu
- Tìm hiểu mô hình hồi quy đa biến, mô hình copula
- Xem xét khả năng ứng dụng của các phương pháp trong các bài báo vàomột hoặc một vài dữ liệu đặc thù ở Việt Nam
- Học cách sử dụng phần mềm SPSS (xem [7]) hoặc/và R (xem [15]) để hiệnthực hóa khả năng ứng dụng trên
V Ý nghĩa khoa học và thực tiễn của đề tài
- Ý nghĩa khoa học: Luận văn này nghiên cứu và làm rõ một số mô hìnhphân tích
- Ý nghĩa thực tiễn: Ứng dụng các mô hình trên cho một số bài toán trong giáodục hoặc kinh tế tài chính
VI Cấu trúc của luận văn
- Chương 1: Kiến thức chuẩn bị
- Chương 2: Mô hình hồi quy tuyến tính đa biến
- Chương 3: Mô hình copula
Trang 13BẢNG KÝ HIỆU
cov(x, y) : Hiệp phương sai tổng thể của biến ngẫu nhiên hai chiều (x, y)
ρ(x, y) : Tương quan tổng thể của hai biến x và y
P
ij cov(Xi, Xj) : Ma trận hiệp phương sai có thành phần (i, j) là hiệp phương sai
EF A : Phân tích nhân tố khám phá
Xi : Biến đo lường thứ i đã được chuẩn hóa
Aij : Hệ số hồi qui bội đã được chuẩn hóa của nhân tố j đối với biến i
F 1 , F 2 , , F m : Các nhân tố chung
CA : Cronbach’s Alpha: đánh giá độ tin cậy của thang đo
IN : Hình lập phương đơn vị
DomC : Miền xác định của hàm C
C− : Cận dưới Fréchet - Hoeffding
C+ : Cận trên Fréchet - Hoeffding
RanX : Miền giá trị của X
(X1, , Xn)T : Véctơ của biến ngẫu nhiên tục với copula C
X ∼ En(µ,P
, φ) : X có phân phối elliptic với các tham số µ,P
, φ
P DM : Mô hình phương sai riêng
EDM : Mô hình phương sai mũ
M L : Ước lượng hợp lý cực đại
EM L : Ước lượng hợp lý cực đại chính xác
CM L : Ước lượng hợp lý cực đại chính tắc
IF M : Hàm suy luận cho phân phối lề
V aR : Value at Risk: thước đo rủi ro thị trường
Trang 14Chương 1
Kiến thức chuẩn bị
Nếu hai biến x và y được đo lường trên cùng một đơn vị nghiên cứu, ta cóbiến ngẫu nhiên hai chiều (x, y)
Hiệp phương sai tổng thể được định nghĩa:
với µx, µy tương ứng là trung bình củax và y Nếu x và y cùng trên hoặc dướigiá trị trung bình thì tích (x − µx)(y − µy) sẽ dương và giá trị trung bình củatích này sẽ dương Ngược lại, tích (x − µx)(y − µy) sẽ âm và giá trị trung bìnhcủa tích này sẽ âm Hiệp phương sai tổng thể có thể được biểu diễn:
Nếu (x, y) là biến ngẫu nhiên hai chiều thì:
E(xy) = E(x)E(y), nếu x, y độc lập
Nếu x và y độc lập thì σxy = 0
σxy = E(xy) − µxµy = E(x)E(y) − µxµy = µxµy − µxµy = 0 (1.4)Hiệp phương sai mẫu được định nghĩa là:
Sxy =
n
P
i=1(xi − x)(yi − y)
Trang 15Trong phân tích hồi quy tuyến tính đơn giản, hệ số tương quan là một thống
kê mà chỉ ra các mối quan hệ giữa các biến độc lập và biến phụ thuộc
Hệ số tương quan được ký hiệu bởi r và nó trong khoảng -1.00 đến 1.00 Khi
hệ số tương quan là dương, chẳng hạn như 0.80, nó có nghĩa là sự gia tăng cácbiến độc lập sẽ dẫn đến sự gia tăng biến phụ thuộc (Ngoài ra, giảm các biếnđộc lập sẽ có nghĩa là giảm các biến phụ thuộc)
Khi hệ số tương quan là âm, chẳng hạn như -0.80, có một mối quan hệ nghịchbiến (Sự gia tăng các biến độc lập sẽ có nghĩa là giảm biến phụ thuộc Sự giảmcác biến độc lập sẽ có nghĩa là một sự gia tăng trong các biến phụ thuộc.) Một
hệ số tương quan bằng 0.8 hoặc -0.8 cho thấy một mối tương quan mạnh mẽgiữa các biến độc lập và biến phụ thuộc
Hiệp phương sai phụ thuộc vào thang đo của x và y, rất khó để so sánh hiệpphương sai giữa các cặp khác nhau của các biến Để tìm thước đo về mối quan
hệ tuyến tính bất biến khi thay đổi tỷ lệ ta có thể chuẩn hóa hiệp phương saibằng cách chia cho độ lệch chuẩn của hai biến Sự chuẩn hóa này gọi là tươngquan Tương quan tổng thể của 2 biến x và y là
s
n
P
i=1(xi− x)2
n
P
i=1(yi − y)2
(1.8)
Ma trận hiệp phương sai của tập hợp m biến ngẫu nhiên là một ma trậnvuông hạng (m × m), trong đó các phần tử nằm trên đường chéo (từ trái sang
Trang 16phải, từ trên xuống dưới) lần lượt là phương sai tương ứng của các biến này (với
Var(X) = Cov(X, X)), trong khi các phần tử còn lại (không nằm trên đườngchéo) là các hiệp phương sai của đôi một hai biến ngẫu nhiên khác nhau trongtập hợp
Ký hiệu X là một véctơ cột, Xi là các thành phần của véctơ này
µi = E(Xi) là giá trị kỳ vọng của thành phần thứ i của véctơ X
Trang 18Chương 2
Mô hình hồi quy tuyến tính đa biến
Để hồi quy mô hình thì cần tiến hành phân tích tương quan giữa các nhân
tố độc lập với nhân tố phụ thuộc Từ đó chúng ta sẽ chọn những nhân tố độclập thực sự có tương quan với nhân tố phụ thuộc và đưa những nhân tố đó vàophân tích hồi quy
2.1.1 Đồ thị phân tán
Đồ thị phân tán của Y so với biến X là tập hợp tất cả các điểm có tọa độ
M (xi, yi) trong hệ tọa độ vuông góc Dựa vào đồ thị phân tán ta có thể xácđịnh được dạng quan hệ giữa 2 biến Y và X
Đồ thị phân tán
2.1.2 Hệ số tương quan của tập hợp chính (The Population Correlation
Coef-ficient)
Gọi X, Y là cặp giá trị của các biến ngẫu nhiên với số trung bình là µx, µy
và phương sai là σx2, σy2 Để đo lường mức độ quan hệ giữa X và Y người tadùng đại lượng hiệp phương sai (covariance) và hệ số tương quan (correlation
Trang 19Khi đó, hệ số tương quan được tính lại như sau: ρ = E[(X−µx )(Y −µ y )]
Tính chất của hệ số tương quan:
ρ = 1 : X, Y tương quan tuyến tính dương tuyệt đối
ρ = −1 : X, Y tương quan tuyến tính âm tuyệt đối
ρ = 0 : X, Y không tương quan tuyến tính
2.1.3 Hệ số tương quan của mẫu
• Hiệp phương sai của mẫu (Sample Covariance) SX,Y =
n
P
i=1
(x i −x)(y i −y) n−1
• Hệ số tương quan của mẫu (Sample Correlation Coefficient)
• |r| = 0.4 − 0.8 : Tương quan trung bình
• |r| < 0.4: Tương quan yếu
• |r| càng lớn thì tương quan giữa X và Y càng chặt
• 0 < r ≤ 1 : Tương quan tuyến tính thuận
• −1 < r ≤ 0 : Tương quan tuyến tính nghịch
Trang 202.1.4 Kiểm định giả thuyết về ρ
Nếu chúng ta muốn kiểm định giả thuyết các biến không có tương quantuyến tính thì ta phải kiểm định giả thuyết H0 : ρ = 0
• Giả thuyết (1): Bác bỏ H0 nếu t > tn−2,α
• Giả thuyết (2): Bác bỏ H0 nếu t < −tn−2,α
• Giả thuyết (3): Bác bỏ H0 nếu t > tn−2,α/2 hay t < −tn−2,α/2
2.2.1 Mô hình EFA
TrongEF A, mỗi biến đo lường được biễu diễn như là một tổ hợp tuyến tínhcủa các nhân tố cơ bản, còn lượng biến thiên của mỗi biến đo lường được giảithích bởi những nhân tố chung(common factor) Biến thiên chung của các biến
đo lường được mô tả bằng một số ít các nhân tố chung cộng với một số nhân
tố đặc trưng(unique factor) cho mỗi biến Nếu các biến đo lường được chuẩnhóa thì mô hình nhân tố được thể hiện bằng phương trình:
Xi = Ai1∗ F1 + Ai2∗ F2 + Ai3∗ F3 + + Aim∗ Fm + Vi∗ Ui
Trong đó,
Xi : biến đo lường thứ i đã được chuẩn hóa
Aij: hệ số hồi qui bội đã được chuẩn hóa của nhân tố j đối với biến i
Trang 21F1, F2, , Fm: các nhân tố chung.
Vi: hệ số hồi qui chuẩn hóa của nhân tố đặc trưng i đối với biến i
Ui: nhân tố đặc trưng của biến i
Các nhân tố đặc trưng có tương quan với nhau và tương quan với các nhân
tố chung; mà bản thân các nhân tố chung cũng có thể được diễn tả như những
tổ hợp tuyến tính của các biến đo lường, điều này được thể hiện thông qua môhình sau đây:
Fi = Wi1∗ X1 + Wi2∗ X2 + Wi3 ∗ X3 + + Wik ∗ Xk
Trong đó,
Fi: ước lượng trị số của nhân tố i
Wi: quyền số hay trọng số nhân tố(weight or factor scores coefficient)
k: số biến
Trước khi kiểm định lý thuyết khoa học thì cần phải đánh giá độ tin cậy và giátrị của thang đo Trước tiên ta sử dụng phương pháp Cronbach Alpha dùng đểđánh giá độ tin cậy của thang đo
2.2.2 Các bước thực hiện EFA
Có 5 bước chính:
- Dữ liệu phù hợp để phân tích nhân tố không?
- Làm thế nào các nhân tố được trích xuất?
- Tiêu chí nào sẽ hỗ trợ trong việc xác định yếu tố khai thác?
- Sử dụng phương pháp lựa chọn hay phương pháp quay
- Giải thích và ghi nhãn
2.2.3 Kích thước mẫu
Để sử dụng EFA, chúng ta cần kích thước mẫu lớn, nhưng vấn đề xác địnhkích thước mẫu phù hợp là việc phức tạp Các nhà nghiên cứu thường dựa theotheo kinh nghiệm Trong EFA, kích thước mẫu thường được xác định dựa vào
“kích thước tối thiểu” và “số lượng biến đo lường đưa vào phân tích”, sau đây
là một vài ý kiến, đề nghị từ các chuyên gia về phân tích nhân tố, chúng ta cóthể xem xét:
i) Hoàng Trọng và Chu Nguyễn Mộng Ngọc(2008), số lượng quan sát(cở mẫu)
ít nhất phải gấp 4 đến 5 lần số biến trong phân tích nhân tố
ii) Hair et al (2009) cho rằng để sử dụng EFA, kích thước mẫu tối thiểu phải
là 50, tốt hơn nên là 100
Trang 222.2.4 Kiểm tra độ tin cậy thang đo bằng hệ số Cronbach’s alpha
Độ tin cậy của thang đo được đánh giá qua hệ số Cronbach’s Alpha Sử dụngphương pháp đánh giá độ tin cậy Cronbach’s Alpha trước khi phân tích nhân
tố khám phá (EFA) để loại các biến không phù hợp vì các biến rác này có thểtạo ra các yếu tố giả
Giả sử chúng ta đo lường độ tin cậy của 1 nhóm có tổng K các mục hỏi Y:
Các tiêu chí được sử dụng Cronbach’s Alpha:
• Loại các biến quan sát có hệ số tương quan biến - tổng nhỏ (nhỏ hơn 0,3);tiêu chuẩn chọn thang đo khi có độ tin cậy Alpha lớn hơn 0,6 (Alpha càng lớnthì độ tin cậy càng cao)
• Hệ số Cronbach’s Alpha (CA) được qui định các mức giá trị như sau:
- CA <0.6: Thang đo cho nhân tố là không phù hợp Có thể do thiết kế bảngcâu hỏi chưa tốt hoặc dữ liệu thu được từ khảo sát có nhiều mẫu xấu
- 0.6 < CA <0.7: Hệ số Cronbach’s Alpha đủ để thực hiện nghiên cứu mới
- 0.7 < CA <0.8: Hệ số Cronbach’s Alpha đạt chuẩn cho bài nghiên cứu
- 0.8 < CA <0.95: Hệ số Crobach’s Alpha rất tốt Đây là kết quả từ bảng câuhỏi được thiết kế trực quan, rõ ràng, phân nhóm tốt và mẫu tốt, không có mẫuxấu
- CA > 0.95: Hệ số Cronbach’s Alpha ảo do có hiện tượng trùng biến Nguyênnhân là thiết kế nội dung các câu hỏi trong cùng nhân tố cùng phản ánh mộtvấn đề hoặc không có sự khác biệt về mặt ý nghĩa Một nguyên nhân khác nữa
là mẫu giả
Kế đến ta phân tích nhân tố
Phân tích nhân tố (Factor Analysis, FA) là một phương pháp thống kê được
Trang 23sử dụng để thu nhỏ và rút gọn dữ liệu Nó thường hướng đến việc đơn giản hóamột tập hợp các biến(variable) phức tạp ban đầu thành một tập các biến nhỏhơn dưới dạng các nhân tố (factor).
Phương pháp phân tích FA thường được sử dụng trong các trường hợp cơbản sau đây:
+ Để giảm một số lượng lớn các biến thành một số các nhân tố nhỏ hơn chocác mục đích mô hình hóa Vì vậy, FA có thể được tích hợp vào mô hình cấutrúc tuyến tính (Structural Equation Modeling, SEM)
+ Để chọn một tập hợp nhỏ các biến từ một tập hợp lớn hơn dựa vào các biếnban đầu, các biến mà có mối tương quan cao nhất
+ Để tạo ra một tập hợp các nhân tố, mà tập hợp các nhân tố này được xemnhư là các biến không có tương quan với nhau Đây chính là một cách tiếp cận
để xử lý vấn đề đa cộng tuyến(multicollinearity) trong mô hình hồi quy bội.+ Để xác định tính hợp lệ của thang đo
Phân tích nhân tố có 2 dạng cơ bản, đó là phân tích nhân tố khám phá(Exploratory factor analysis, EFA) và phân tích nhân tố khẳng định (Confir-matory factor analysis, CFA)
+ Phân tích nhân tố khám phá (EFA)hướng đến việc khám phá ra cấu trúc cơbản của một tập hợp các biến có liên quan với nhau
+ Phân tích nhân tố khẳng định(CFA) hướng đến việc xác định để xem sốlượng nhân tố và các biến đo lường trên các nhân tố đó có phù hợp với cái đượcmong đợi trên nền tảng lý thuyết đã được thiết lập trước đó
2.2.5 Điều kiện để áp dụng EFA
Mức độ tương quan giữa các biến đo lường
Phân tích EF A dựa trên cơ sở mối quan hệ giữa các biến đo lường, vì vậy,trước khi quyết định sử dụng EFA, chúng ta cần xem xét mối quan hệ giữacác biến đo lường này Sử dụng ma trận hệ số tương quan(correlation matrix),chúng ta có thể nhận biết được mức độ quan hệ giữa các biến Nếu các hệ sốtương quan nhỏ hơn 0.30, khi đó sử dụng EFA không phù hợp(Hair et al 2009)Sau đây là một số tiêu chí đánh giá mối quan hệ giữa các biến:
i) Kiểm định Bartlett: Kiểm định Bartlett dùng để xem xét ma trận tươngquan có phải là ma trận đơn vị (identity matrix) hay không ? Ma trận đơn vị
ở đây được hiểu là ma trận có hệ số tương quan giữa các biến bằng 0, và hệ sốtương quan với chính nó bằng 1
Kiểm định Bartlett có ý nghĩa thống kê (Sig < 0.05): Đây là một đại lượng
Trang 24thống kê dùng để xem xét giả thuyết các biến không có tương quan trong tổngthể Nếu kiểm định này có ý nghĩa thống kê (Sig < 0.05) thì các biến quan sát
có mối tương quan với nhau trong tổng thể
Phần trăm phương sai toàn bộ (Percentage of variance) > 50: Thể hiện phầntrăm biến thiên của các biến quan sát Nghĩa là xem biến thiên là 100% thì giátrị này cho biết phân tích nhân tố giải thích được bao nhiêu phần trăm
ii) Kiểm định KMO: Kiểm định KMO(Kaiser – Meyer - Olkin) là chỉ số dùng
để so sánh độ lớn của hệ số tương quan giữa 2 biến Xi và Xj với hệ số tươngquan riêng phần của chúng Để sử dụng EFA, thì KMO phải lớn hơn 0.5 theoKaiser (1974) đề nghị
• Factor loading > 0.3 được xem là đạt mức tối thiểu
• Factor loading > 0.4 được xem là quan trọng
• Factor loading > 0.5 được xem là có ý nghĩa thực tiễn
2.2.7 Loại bỏ biến xấu
Quy tắc 1: đảm bảo độ giá trị hội tụ
Như trong hình ví dụ ở trên Các biến quan sát từ D1 đến D6 thỏa mãn giátrị hội tụ khi nó cùng giải thích cho nhân tố thứ 1 và trong hiển thị nó sẽ nằmchung trên 1 cột Giá trị phân biệt ở đây chính là nhóm biến quan sát tải chonhân tố thứ 1 nó được tách biệt và không tải (hoặc tải rất yếu) cho nhân tốthứ 2, thứ 3 Về mặt hiển thị, điều kiện tách biệt là việc các nhóm nhân tốnằm ở khác cột với nhau trong bảng ma trận xoay Do đó phải loại biến này ra
và tiến hành phân tích EF A lại lần thứ 2
Quy tắc 2: đảm bảo độ giá trị phân biệt Trường hợp một biến quan sát tảilên cả 2 nhân tố như trong hình (biến A7) Để đảm bảo "giá trị phân biệt"
Trang 25thì các hệ số tải của cùng biến quan sát đó khi tải lên các nhân tố phải chênhnhau 0.3 thì lúc đó chúng ta sẽ giữ lại biến quan sát này và phân nó vào nhân
tố mà nó tải lên cao nhất (kèm điều kiện phải thỏa mãn hệ số tải lớn hơn 0.5).Đối với trường hợp ngược lại khi hệ số tải của một biến ở 2 nhân tố chênh lệchnhau không nhiều thì bạn cân nhắc loại biến này đi vì nó không thỏa việc đảmbảo "giá trị phân biệt"
Hồi quy tuyến tính đa biến là kỹ thuật thống kê phân tích mối quan hệ giữamột biến phụ thuộc và một tập các biến độc lập
Hồi quy tuyến tính đa biến được sử dụng nhằm đạt 3 mục tiêu:
• Tìm một mô hình (phương trình) để mô tả mối liên quan giữa biến phụ thuộc
Trang 26Yi = β1 + β2X2i+ β3X3i+ + βkXki + Ui
Trong đó: β1 là hệ số tự do; βj(j = 2, 3, , k) là các hệ số hồi quy riêng
Giả sử ta có nquan sát, mỗi quan sát cók giá trị(Yi, X2i+ + Xki),i = 1, , n
Y1 = β1 + β2X21+ β3X31+ + βkXk1 + U1
Y2 = β1 + β2X22+ β3X32+ + βkXk2 + U2
• X2, X3, , Xk đã được xác định hay ma trận X đã được xác định
• Không có hiện tượng cộng tuyến giữa các biến giải thích hay hạng của matrận bằng k
• Ui ∼ N (0, σ2), ∀i
2.3.3 Ước lượng các tham số
Hàm hồi quy mẫu có dạng:
ˆ
Yi = ˆβ1 + ˆβ2X2i+ + ˆβkXki
Yi = ˆβ1 + ˆβ2X2i+ + ˆβkXki + ei
, i = 1, , n
Trang 27β2 .ˆ
Theo phương pháp bình phương nhỏ nhất, các hệ số: βˆ1, ˆβ2, , ˆβk được chọn
sao cho tổng bình phương của các phần dư nhỏ nhất:
Ta kí hiệuXT, YT, ˆβT, eT tương ứng là các ma trận chuyển vị củaX, Y, ˆβ, e
Trang 282.3.4 Hệ số xác định hồi quy bội
Ta làm quen với một số khái niệm: TSS (Total Sum of Squares): là tổng bìnhphương của tất cả các sai lệch giữa các giá trị quan sát Yi với giá trị trung bìnhcủa chúng
Với R2 bằng 1 thì đường hồi quy phù hợp “hoàn hảo”, tất cả các sai lệch của
Y (so với giá trị trung bình) đều giải thích được bởi mô hình hồi quy Khi R2
bằng 0, chứng tỏ X, Y không có quan hệ với nhau
Trong mô hình hồi quy bội, hệ số xác định có thể được tính bằng một tronghai công thức sau:
Trang 29R2 là hàm không giảm của số biến giải thích có trong mô hình Vì
n
P
i=1
yi2 =n
số xác định khác thay thế như sau:
Trong đó k là số tham số trong mô hình bao gồm cả hệ số tự do
R2 được gọi làR2 có hiệu chỉnh Thuật ngữ có hiệu chỉnh có nghĩa là hiệu chỉnhtheo bậc tự do tương ứng với các tổng bình phương trong công thức định nghĩacủa R2 Số bậc tự do của
2.3.5 Ma trận tương quan
Giả sử chúng ta có mô hình hồi quy bội: Yi = ˆβ1 + ˆβ2X2i+ + ˆβkXki + Ui
Kí hiệu rtj là hệ số tương quan giữa biến thứ t và thứ j
Nếu t = 1 thì r1j là hệ số tương quan giữa biến Y và biến Xj
r1j =
P
yixij
qP
Trang 302.3.6 Ma trận hiệp phương sai
Để kiểm định giả thiết, tìm khoảng tin cậy, cũng như thực hiện các suy luậnthống kê khác ta cần phải tìm var( ˆβj); j = 1, 2, , k và cov( ˆβi, ˆβj)
Ma trận hiệp phương sai củaβˆ có dạng tổng quát như sau:
Trong công thức trên, (XTX)−1 là ma trận nghịch đảo của ma trận (XTX)
còn σ2 là phương sai của sai số ngẫu nhiên U1 nhưng chưa biết nên ta dùngước lượng không chệch của nó là σˆ2
ˆ
σ2 = RSSn−k
Trong đó k là số biến của mô hình
2.3.7 Khoảng tin cậy và kiểm định giả thiết
Trang 31Với tiêu chuẩn này, chúng ta có thể tìm khoảng tin cậy và kiểm định giả thiết vềcác hệ số hồi quy riêng Chẳng hạn để tìm khoảng tin cậy của βj(j = 1, 2, , k)
với hệ số tin cậy (1 − α) ta áp dụng công thức:
Tùy theo giả thiết H1, ta có các miền bác bỏ sau đây:
Nếu chọn Bj0 = 0 có nghĩa là ta muốn kiểm định giả thiết biến độc lập Xj
không ảnh hưởng đến biến phụ thuộc
Kiểm định giả thiết H0 : β2 = β3 = = βk
H1: không phải tất cả các hệ số hồi quy riêng đồng thời bằng 0
Đại lượng ngẫu nhiên F = ESS/(k−1)RSS/(n−k) tuân theo phân phối F với (k − 1) và
Như vậy, giữa F và R2 có liên quan với nhau R2 càng lớn thì F càng lớn,khi R2 = 0 thì F = 0, khi R2 = 1 thì F vô hạn Do vậy, việc kiểm định giảthiết H0 cũng là kiểm định giả thiết cho rằng R2 (trong tổng thể) bằng 0
Để kiểm định giả thiết trên, ta áp dụng quy tắc kiểm định sau:
• Tính F theo công thức:
2/(k−1) (1−R 2 )/(n−k)
• Với mức ý nghĩa α, tra bảng phân phối Fisher – Snedecor với bậc tự do
Trang 32n1 = (k − 1), n2 = (n − k) để tìm giá trị Fα(k − 1, n − k) Trong đó n là sốquan sát, k là số biến trong mô hình hồi quy (kể cả biến phụ thuộc).
Khi đó, Fα(k − 1, n − k) là giá trị thỏa mãn điều kiện:
2.3.8 Hiện tượng đa cộng tuyến
Bản chất hiện tượng đa cộng tuyến
Thuật ngữ đa cộng tuyến do Ragnar Frisch đề nghị Khởi đầu đa cộng tuyến
có nghĩa là sự tồn tại mối quan hệ tuyến tính “hoàn hảo” hoặc chính xác giữamột số hoặc tất cả các biến giải thích trong một mô hình hồi quy
Khi lập mô hình hồi quy bội
ˆ
Yi = ˆβ1 + ˆβ2X2i+ ˆβ3X3i+ + ˆβkXki (2.15)
Có sự phụ thuộc tuyến tính cao giữa các biến giải thích gọi là đa cộng tuyến
a Đa cộng tuyến hoàn hảo
Tồn tại λ2, λ3, , λk là các hằng số không đồng thời bằng 0 sao cho
Cách phát hiện hiện tượng đa cộng tuyến
• R2 lớn nhưng tỷ số t nhỏ:
Nếu R2 cao, chẳng hạn như lớn hơn 0,8 và F kiểm tra bác bỏ giả thuyết:
Trang 33β2 = β3 = = βk = 0 nhưng kiểm định t cho từng βi lại chấp nhận H0.
• Tương quan cặp giữa các biến giải thích cao:
rXZ =
P
(Xi − X)(Zi − Z)
qP
(Xi− X)2P
(Zi − Z)2
(2.18)
Trong đó X, Z là 2 biến giải thích trong mô hình
Nếu tương quan cặp giữa các biến giải thích cao (lớn hơn 0.8) thì có thể xảy rahiện tượng đa cộng tuyến Tuy nhiên tiêu chuẩn này thường không chính xác
Có những trường hợp tương quan cặp không cao nhưng vẫn xảy ra hiện tượng
đa cộng tuyến
• Sử dụng mô hình hồi quy phụ
Hồi quy một biến giải thích X nào đó theo các biến còn lại
ˆ
X2i = ˆβ1 + ˆβ3X3i+ + ˆβkXki (2.19)Tính R2 và F cho mỗi mô hình theo công thức:
Lập giả thiết H0 : R2 = 0 ∼ H0: không có đa cộng tuyến
Nếu F > Fα(k − 1, n − k) thì ta bác bỏ giả thiết H0 ⇒ có đa cộng tuyến.Nếu F < Fα(k − 1, n − k) thì ta chấp nhận giả thiết H0 ⇒ không có đa cộngtuyến
• Sử dụng nhân tử phóng đại phương sai (VIF): Đối với hàm hồi quy 2 biếngiải thích, VIF được định nghĩa như sau:
Trang 34Cách khắc phục hiện tượng đa cộng tuyến
•Dùng thông tin tiên nghiệm: Thông tin này có thể từ các công việc thực tếtrước đây trong đó đã xảy ra nhiều vấn đề cộng tuyến nhưng ít nghiêm trọnghơn hoặc từ các lý thuyết tương ứng trong lĩnh vực nghiên cứu Thông tin tiênnghiệm giúp chúng ta giảm số biến của một mô hình độc lập xuống, làm giảmhoặc loại bỏ được vấn đề đa cộng tuyến
• Loại trừ một biến giải thích ra khỏi mô hình
Bước 1: Xem cặp biến giải thích nào có quan hệ chặt chẽ Giả sử X2, X3, , Xk
là các biến độc lập và Y là biến phụ thuộc thì X2, X3 có tương quan chặt chẽvới nhau hay không
Bước 2: Tính R2 đối với các hàm hồi quy có mặt cả 2 biến, không có mặt mộttrong 2 biến
Bước 3: Loại biến mà giá trị R2 tính được khi không có mặt biến đó là lớn hơn
• Bổ sung thêm dữ liệu hoặc chọn mẫu mới: Vấn đề đa công tuyến là một đặctính của mẫu, có thể là trong một mẫu khác, các biến cộng tuyến không quantrọng như trong mẫu đầu tiên Vì vậy đôi khi ta tăng cỡ mẫu cũng có thể làmgiảm bớt vấn đề đa cộng tuyến
• Sử dụng sai phân cấp một
Giả sử chúng ta có số liệu chuỗi thời gian biểu thị mối quan hệ giữa biến Y vàcác biến giải thích X2, X3 theo mô hình sau:
Yt = β1 + β2X2,t + β3X3,t+ Ut (2.23)Trong đó t là thời gian, ứng với thời gian (t − 1) ta có:
Yt−1 = β1 + β2X2,t−1 + β3X3,t−1+ Ut−1 (2.24)Trừ 2 vế cho nhau, ta được:
• Một số phương pháp khác: Giảm tương quan trong các hàm hồi quy đa thức,hồi quy thành phần chính, hồi quy dạng sóng
Trang 352.4 Ứng dụng mô hình hồi quy tuyến tính đa biến để đánh giá sự
hài lòng của học sinh khối 12 năm học 2017 - 2018 về trườngTHPT Gò Đen, Bến Lức, Long An
2.4.1 Giới thiệu trường THPT Gò Đen, Bến Lức, Long An
Trường THPT Gò Đen được thành lập năm 1990, tọa lạc trên địa bàn xãPhước Lợi, huyện Bến Lức, tỉnh Long An Tên ban đầu là trường THPT Báncông Gò Đen Năm 2009 trường được chuyển sang hình thức công lập và lấytên là trường THPT Gò Đen cho đến nay
Năm học 2017 – 2018 trường có 26 lớp với tổng số học sinh là 1094 học sinh
và 64 cán bộ giáo viên và nhân viên trường học Đa số đều là giáo viên trẻ,nhiệt tình trong công tác Nguồn học sinh của trường chủ yếu đến từ 5 xã MỹYên, Long Hiệp, Phước Lợi, Phước Lý và Tân Bửu, huyện Bến Lức
Về cơ sở vật chất trường có 18 phòng học, 7 phòng bộ môn và 25 phòng chứcnâng trong đó có 01 thư viện, 01 phòng truyền thống Sân chơi dành cho họcsinh rộng rãi với 02 sân bóng chuyền, 01 sân bóng rổ, 01 sân bóng đá và 01 nhàthi đấu với 3 sân cầu lông và 02 sân bàn bóng bàn Tổng diện tích là 3.800m2
Để thực hiện tốt mục tiêu đưa chất lượng giáo dục của nhà trường ngày một
đi lên, bên cạnh các hoạt động giảng dạy, nhà trường luôn chú trọng giữ vữngtốt mối liên hệ với các trường bạn trong và ngoài tỉnh cũng như đối với chínhquyền địa phương nơi tọa lạc Thường xuyên tổ chức cho học sinh tham quan,học tập kinh nghiệm, lao động hướng nghiệp, phối hợp với trường bạn tổ chứccho học sinh về nguồn, ngày chủ nhật xanh hay thăm viếng Mẹ Việt Nam anhhùng nhằm góp phần giáo dục tư tưởng, ý chí, hành động của các em, thôngqua những chuyến đi học tập như thế sẽ giúp các em biết tu dưỡng bản thân,rèn luyện, học tập hết mình để trở thành một người có ích cho xã hội
Trang 362.4.2 Quy trình nghiên cứu
2.4.3 Nghiên cứu định tính
• Thành lập thang đo nháp
• Sau quá trình phỏng vấn thử ở một số học sinh và hỏi ý kiến chuyên gia,thang đo nháp được điều chỉnh và bổ sung các biến và các thành phần để cóthang đo chính thức
2.4.4 Nghiên cứu định lượng
• Dữ liệu được khảo sát cho 251 học sinh khối 12 năm học 2017 - 2018
• Bảng câu hỏi dự kiến gồm
- 30 câu hỏi cảm nhận và kỳ vọng về chất lượng đào tạo của nhà trường
- 4 câu hỏi về đánh giá chung về sự hài lòng của học sinh đối với nhà trường
• Thang đo: Một trong những hình thức đo lường các khái niệm trừu tượngđược sử dụng phổ biến nhất trong nghiên cứu kinh tế xã hội là thang đo doLikert (1932) giới thiệu Likert đã đưa ra loại thang đo 5 mức độ phổ biến:
1 Hoàn toàn không đồng ý 2 Không đồng ý 3 Không ý kiến
4 Đồng ý 5 Hoàn toàn đồng ý
• Việc thu thập số liệu là bảng câu hỏi gồm 34 câu Mỗi phát biểu đo lườngdựa trên thang đo Likert nói trên
Trang 372.4.5 Bảng khảo sát
PHIẾU KHẢO SÁT SỰ HÀI LÒNG CỦA HỌC SINH KHỐI 12
KHI HỌC TẠI TRƯỜNG THPT GÒ ĐEN
Tôi tên : Lê Huỳnh Như, hiện nay tôi đang học cao học ngành Toán ứngdụng của trường Đại học Bách Khoa TP.HCM Hiện tôi đang nghiên cứu đềtài: "Phân tích dữ liệu đa biến và một số ứng dụng" Trong đề tài có phần đánhgiá sự hài lòng của học sinh khối 12 năm học 2017 - 2018 của trường THPT
Trang 38Stt Nội dung đánh giá Điểm số đánh giá
1 GV có kiến thức chuyên môn sâu rộng và
cập nhật về môn học đảm trách
2 GV có liên hệ kiến thức các môn học với
kiến thức thực tế
3 Hầu hết GV có phương pháp truyền đạt tốt,
dễ hiểu và tạo hứng thú cho người học
4 Hầu hết GV đảm bảo giờ lên lớp và kế
hoạch giảng dạy
5 GV dạy kết hợp với giáo dục nhân cách,
đạo đức cho học sinh
6 GV sử dụng hiệu quả các thiết bị công nghệ
thông tin hỗ trợ cho việc giảng dạy
7 GV khuyến khích học sinh chủ động học tập,
sáng tạo trong suy nghĩ
8 GV giải đáp thắc mắc cho học sinh một
cách thỏa đáng
9 GV công bằng trong kiểm tra, đánh giá
năng lực của học sinh
10 GV thân thiện, cởi mở, luôn thể hiện tính
chuẩn mực trong tác phong nhà giáo
11 Nội dung chương trình đào tạo có dung
Khóa học kỹ năng mềm (Giáo dục giới tính,
hướng nghiệp, giáo dục ngoài giờ lên lớp,
Nghề phổ thông, về nguồn ) hỗ trợ tốt cho
các môn học khác trong chương trình đào tạo
Trang 39Stt Nội dung đánh giá Điểm số đánh giá
16 Các phòng học đảm bảo yêu cầu về chỗ ngồi,
ánh sáng, âm thanh
17 Các thiết bị phục vụ giảng dạy và học tập
(máy chiếu, loa ) hoạt động hiệu quả
18 Thư viện đảm bảo không gian về chỗ ngồi
21 Thư viện đảm bảo được số lượng và chất lượng
các tài liệu tham khảo
22 Mạng Internet trong trường cho phép học
sinh tiếp cận dễ dàng
23
Các thủ tục hành chính (đóng học phí,
cấp bảng điểm, phúc khảo ) được thực hiện
đơn giản, nhanh gọn
24 Nhân viên các phòng ban nhiệt tình, vui vẻ,
tôn trọng học sinh
25 Học sinh luôn nhận được đầy đủ các thông
báo từ nhà trường
26 Các khiếu nại của học sinh được nhà trường
giải quyết thỏa đáng
27 Các thông báo từ nhà trường đến học sinh
luôn kịp thời, chính xác
28
Hoạt động tư vấn học tập, tư vấn nghề
nghiệp đáp ứng nhu cầu tìm hiểu, lựa chọn
và tư vấn cho học sinh
29
Hoạt động xã hội, hoạt động Đoàn đáp
ứng nhu cầu giải trí và tác động tích cực
đến việc học tập của học sinh
30 Hoạt động sáng tạo khoa học kỹ thuật
của học sinh được quan tâm và khuyến khích
Trang 40Stt Nội dung đánh giá Điểm số đánh giá
31 Bạn hài lòng về đội ngũ GV và CNV của trường
32 Bạn hài lòng với chương trình đào tạo, CSVC
của trường
33 Bạn tự hào khi học trường
34 Học tại trường hơn những gì bạn mong đợi