Bài viết Ứng dụng phương pháp phân tích thành phần chính và phân cụm dữ liệu đánh giá kết quả kiểm định chất lượng cơ sở giáo dục đại học chỉ ra những điểm mạnh, yếu về hoạt động của các trường theo các tiêu chuẩn, mối quan hệ giữa các lĩnh vực cũng như so sánh mức độ đánh giá giữa các trung tâm kiểm định với nhau. Đây là cơ sở để thực hiện việc đối sánh và cải tiến chất lượng tại các cơ sở giáo dục.
Trang 1CHÍNH VÀ PHÂN CỤM DỮ LIỆU ĐÁNH GIÁ KẾT QUẢ KIỂM ĐỊNH CHẤT LƯỢNG CƠ SỞ GIÁO DỤC ĐẠI HỌC
Lê Phước Thành 1
Tóm tắt: Hiện nay các trung tâm kiểm định chất lượng giáo dục đại học
(KĐCLGDĐH) đã công bố kết quả kiểm định các trường đại học theo bộ tiêu chuẩn của
thông tư 12/2017/TT-BGDÐT Kết quả kiểm định được chuẩn hóa dưới dạng một cơ sở
dữ liệu đa chiều theo các tiêu chuẩn Sự kết hợp giữa hai kỹ thuật phân tích thành phần chính với phân cụm dữ liệu nhằm trình bày, phân tích và trích ra những tri thức hữu ích trong việc đánh giá Theo đó, bài báo chỉ ra những điểm mạnh, yếu về hoạt động của các trường theo các tiêu chuẩn, mối quan hệ giữa các lĩnh vực cũng như so sánh mức độ đánh giá giữa các trung tâm kiểm định với nhau Đây là cơ sở để thực hiện việc đối sánh
và cải tiến chất lượng tại các cơ sở giáo dục
Từ khóa: Phân tích thành phần chính, Phân cụm dữ liệu, Thuật toán K-Means, Hệ
số tương quan, Kiểm định chất lượng giáo dục đại học.
1 Mở đầu
1.1 Giới thiệu về kiểm định chất lượng cơ sở giáo dục đại học ở Việt Nam
Ngày 19 tháng 5 năm 2017 Bộ Giáo dục và Đào tạo ban hành thông tư số 12/2017/ TT-BGDÐT Quy định về KĐCLGDĐH, theo đó bộ tiêu chuẩn đánh giá gồm 25 tiêu chuẩn, 111 tiêu chí và được phân vào 4 lĩnh vực:
(1) Đảm bảo chất lượng về chiến lược: Tiêu chuẩn 01 đến 08, gồm các vấn đề về
sứ mệnh, tầm nhìn, mục đích, mục tiêu chiến lược, các chính sách…
(2) Đảm bảo chất lượng về hệ thống: Tiêu chuẩn 09 đến 12, gồm các vấn đề về
hệ thống đảm bảo chất lượng bên trong, hệ thống thông tin, …
(3) Đảm bảo chất lượng về thực hiện chức năng: Tiêu chuẩn 13 đến 21, gồm các vấn đề về hoạt động đào tạo, nghiên cứu khoa học và phục vụ cộng đồng
(4) Kết quả hoạt động: Tiêu chuẩn 22 đến 25, gồm các vấn đề về kết quả của hoạt động đào tạo, nghiên cứu khoa học, phục vụ cộng đồng và tài chính-thị trường
Mỗi tiêu chuẩn được đánh giá theo thang điểm 7
Bộ tiêu chuẩn này tiếp cận theo mô hình đánh giá CLGDĐH của Mạng lưới
các trường đại học khu vực Đông Nam Á (ASEAN University Network - Quality Assurance, viết tắt là AUN-QA).
Về các trung tâm kiểm định, đến tháng 09-2020 Việt Nam 5 trung tâm KĐCLGD đã công bố kết quả kiểm định của 28 trường đại học và học viện theo bộ tiêu chuẩn này gồm:
1 ThS., Trường Đại học Quảng Nam
Trang 2(1) Trung tâm KĐCLGD−Đại học Quốc gia Hà Nội (CEA_HN), 6 trường
(2) Trung tâm KĐCLGD−Quốc gia Thành phố Hồ Chí Minh (CEA_TPHCM), 5 trường
(3) Trung tâm KĐCLGD−Đại học Đà Nẵng (CEA_DN), 4 trường
(4) Trung tâm KĐCLGD−Trường Đại học Vinh (CEA_Vinh), 5 trường
(5) Trung tâm KĐCLGD−Hiệp hội các trường đại học, cao đẳng Việt Nam (CEA_ HiepHoi), 8 trường
1.2 Kỹ thuật phân tích thành phần chính và phân cụm dữ liệu
Phân tích thành phần chính (PCA - Principal Component Analysis) là kỹ thuật thường được sử dụng khi làm việc với đối tượng có quá nhiều biến (thuộc tính/số chiều) (đối tượng được biểu diễn ở không gian nhiều chiều) sang không gian 2 hoặc 3 chiều
nhưng có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ
biến thiên của dữ liệu trên mỗi chiều mới Ngoài ra có thể phát hiện những liên kết tiềm
ẩn của dữ liệu có thể được khám phá trong không gian mới Hai công dụng lớn nhất của phân tích thành phần chính là tìm mối liên hệ giữa đối tượng với các chiều của không gian mới và các biến cũ với nhau trong các chiều của không gian mới
Khi các đối tượng được biểu diễn trong không gian 2 chiều với trục ngang là thành phần chính thứ nhất (Component 1) và thành phần chính thứ hai (Component 2) ta tiếp tục dùng dùng kỹ thuật phân cụm dữ liệu để nhóm các đối tượng có tính chất “tương tự” nhau theo một tiêu chí nào đó (chẳng hạn theo khoảng cách), và các đối tượng của hai nhóm khác nhau không có cùng tính chất trên
2 Nội dung
2.1 Nguồn dữ liệu cho việc phân tích
Nguồn dữ liệu để phân tích được lấy từ kết quả KĐCLGD đã công bố trên website của 5 trung tâm kiểm định [9], [10], [11], [12], [13], dữ liệu bao gồm các trung tâm kiểm định, các trường được kiểm định và thang điểm 7 của 25 tiêu chuẩn được phân vào 4 lĩnh vực sau đó được tổng hợp bằng bảng 1 như sau:
Bảng 1 Tra cứu số thứ tự các trường đại học trong phân tích
Số
TT TT KĐ Trường đại học đã KĐ T1 … T25 LV1 LV2 LV3 LV4
1 CEA_DN Công nghệ TP HCM 4.60 … 4.00 4.44 4.53 4.49 4.54
2 CEA_DN Quốc tế Sài Gòn 4.00 5.00 3.93 4.06 4.10 4.27
3 CEA_DN SPKT Vĩnh Long 4.20 4.00 4.07 4.06 4.07 4.02
Trang 3TT TT KĐ Trường đại học đã KĐ T1 … T25 LV1 LV2 LV3 LV4
10 CEA_HN Học viện Ngoại giao 4.20 4.50 3.98 3.81 4.14 4.36
12 CEA_TPHCM Kinh tế-Tài chính TP HCM 3.80 3.50 3.81 3.53 3.76 3.63
13 CEA_TPHCM Quốc tế Miền Đông 4.00 4.00 4.03 3.64 3.74 3.61
15 CEA_TPHCM Văn hóa TP Hồ Chí Minh 4.00 3.50 3.64 3.55 3.53 3.50
16 CEA_Vinh Công nghệ Miền Đông 3.80 4.50 3.72 3.73 3.82 4.08
19 CEA_Vinh Kinh tế C.Nghiệp Long An 4.00 4.00 3.96 3.72 3.82 3.88
20 CEA_Vinh Thủ Đô Hà Nội 4.00 3.50 4.03 4.06 3.93 3.71
21 CEA_HiepHoi Bà Rịa-Vũng Tàu 4.00 4.50 4.19 3.93 4.01 3.96
23 CEA_HiepHoi Dầu khí Việt Nam 4.20 5.00 4.25 4.28 4.03 4.40
24 CEA_HiepHoi Điều dưỡng Nam Định 4.40 5.00 4.04 4.27 4.11 4.33
26 CEA_HiepHoi Quốc tế Hồng Bàng 4.60 4.50 4.44 4.54 4.41 4.38
27 CEA_HiepHoi Tân Trào 4.20 4.50 4.16 4.21 4.22 4.38
28 CEA_HiepHoi Học viện Phụ nữ 3.80 4.00 3.83 3.78 3.79 3.77 Sau đây là bảng tra cứu (bảng 2) danh mục tên của 25 tiêu chuẩn để thuận lợi theo dõi kết quả phân tích, đánh giá những mặt mạnh, yếu của các trường theo các tiêu chuẩn
Bảng 2 Tra cứu danh mục các tiêu chuẩn
01 Tầm nhìn, sứ mạng và văn hóa 14 Chương trình dạy học
05 Các C.Sách về ĐT, NCKH và PVCĐ 18 Quản lý nghiên cứu khoa học
06 Quản lý nguồn nhân lực 19 Quản lý tài sản trí tuệ
07 Quản lý tài chính và cơ sở vật chất 20 Hợp tác và đối tác NCKH
Trang 408 Các mạng lưới và quan hệ đối ngoại 21 Kết nối và phục vụ cộng đồng
09 Hệ thống ĐBCL bên trong 22 Kết quả đào tạo
10 Tự đánh giá và đánh giá ngoài 23 Kết quả nghiên cứu khoa học
11 Hệ thống thông tin ĐBCL bên trong 24 Kết quả phục vụ cộng đồng
12 Nâng cao chất lượng 25 Kết quả tài chính và thị trường
13 Tuyển sinh và nhập học
2.2 Thuật toán
2.2.1 Phân tích thành phần chính [1], [2]
Bài toán: Cho ma trận X={xi, j} , như vậy:
(i) Một đối tượng có thể biểu diễn trong không gian , trong đó mỗi điểm có tọa
độ , i = , gọi là không gian các đối tượng
(ii) Một biến có thể biểu diễn trong không gian , trong đó mỗi biến có tọa độ
, j = , gọi là không gian các biến
Các bước sau đây nhằm tìm thành phần chính trong không gian các đối tượng (trường hợp (i)), trường hợp (ii) thực hiện tương tự trong không gian các biến
Các bước thực hiện
(1) Xác định tâm của đám mây dữ liệu
Mỗi đối tượng luôn biểu diễn thành một điểm trong không gian, tập các điểm này gọi
là đám mây dữ liệu Quy tâm tức là tịnh tiến gốc tọa độ về trọng tâm của đám mây Tâm của đám mây dữ liệu được thực hiện bằng cách đưa ma trận số liệu về ma trận độ lệch so với trung bình chung
Mỗi đối tượng i của biến đều được trừ cho số bình quân của biến Ta được
ma trận quy tâm X =
(2) Tìm các trục chính
a) Ma trận phương sai-hiệp phương sai (Variance-Covariance Matrix)
Ma trận phương sai-hiệp phương sai nhằm đánh giá sự biến thiên (tập trung hay phân tán) của dữ liệu quanh tâm của đám mây dữ liệu Ma trận này được tính theo gốc mới như sau:
: Ma trận chuyển vị của ma trận X
Nếu biểu diễn sự biến thiên của dữ liệu theo hình học, nghĩa là tìm đường thẳng sao cho đi qua tâm của đám mây dữ liệu và “gần” với các điểm nhất, nghĩa là khoảng cách từ các điểm đến đường thẳng cần tìm là nhỏ nhất, hay hình chiếu của các điểm trên trục thứ nhất (thành phần chính 1) có biến động (phương sai) lớn nhất
b) Tìm giá trị riêng và véc tơ riêng (Eigenvalues and Eigenvectors)
Tìm giá trị riêng và véc tơ riêng nhằm để xác định các đường thẳng đi qua tâm gần
Trang 5đám mây dữ liệu nhất Tìm các giá trị riêng theo phương trình:
, I: Ma trận đơn vị
Về mặt hình học, giá trị riêng là tổng bình phương khoảng cách hình chiếu của các điểm trên những đường thẳng sao cho giá trị này là nhỏ nhất
Với mỗi giá trị (j = , q<p) xác định các véc tơ riêng (véc tơ đơn vị) tương ứng
bằng cách giải phương trình:
Véc tơ riêng là cách xác định sự biến thiên giữa các điểm hình chiếu trên trục mới với đơn vị mới so với sự biến thiên dữ liệu trên hệ tọa độ cũ với đơn vị phương sai bằng 1 Căn cứ vào giá trị riêng và véc tơ riêng xác định các thành phần chính thứ nhất (trục chính thứ nhất) Trong PCA, trục chính thứ hai qua tâm và trực giao với trục chính thứ nhất, trục chính thứ ba qua tâm và trực giao với mặt phẳng tạo thành hai trục trước đó,…
(3) Biểu diễn các đối tượng theo hệ tọa độ mới.
Hình chiếu của đối tượng i lên trục chính j là
2.2.2 Phân cụm dữ liệu bằng thuật toán K-Means [1], [2], [3]
- Bài toán
+ Đầu vào: Cho CSDL gồm n đối tượng và k cụm
+ Đầu ra: Phân các đối tượng vào k cụm
- Các bước thực hiện
+ Bước 1 Khởi tạo: Lấy ngẫu nhiên k điểm làm trọng tâm (centroid)
+ Bước 2 Tính khoảng cách: Với mỗi đối tượng tính khoảng cách từ nó đến các trọng tâm, các đối tượng gần với trọng tâm hơn được gom vào một cụm
+Bước 3 Cập nhật lại tâm: Trong mỗi cụm tính khoảng cách trung bình giữa các đối tượng và cập nhật lại tâm cụm (tâm cụm là khoảng cách trung bình giữa các đối tượng trong cụm)
+ Bước 4 Điều kiện dừng: Lặp lại bước 2 và 3 cho đến khi trọng tâm của cụm không thay đổi
2.3 Kết quả phân tích và đánh giá
Khi biểu diễn các biến cũ qua hệ tọa độ mới với 2 thành phần chính, mối quan hệ giữa các biến được xác định như sau:
- Góc giữa các vector nhỏ (ở gần nhau) thì các biến có tương quan mạnh với nhau hay
có sự phụ thuộc lẫn nhau
- Hai vector gần như vuông góc thì sự phụ thuộc không đáng kể hay không có khả năng tương quan nhau
- Hai vector ngược nhau 180 độ đó là sự tương quan nghịch
Trang 6Đối với các đối tượng, mối quan hệ với các biến được xác định như sau:
Khi các đối tượng nằm về phía xa của trục dương ứng với thành phần nào thì có giá trị cao với các biến gần với thành phần đó và ngược lại
Sau đây là kết quả phân tích bằng biểu đồ và một số đánh giá theo từng lĩnh vực: Trong lĩnh vực 1 (hình 1): Các trường trong nhóm với số thứ tự 1, 17, 9, 26 được đánh giá cao nhất ở tất cả các tiêu chuẩn thuộc lĩnh vực này Trong khi đó các trường trong nhóm
có số thứ tự 11, 15 đánh giá thấp nhất ở các tiêu chuẩn 4, 5, 7 Ngoài ra các trường trong nhóm có số thứ tự 4, 18, 22 đánh giá thấp ở các tiêu chuẩn 2, 3, 8 Các trường thuộc nhóm
bố trí quanh gốc tọa độ được đánh giá trung bình đối với các tiêu chuẩn
Hình 1 Biểu đồ sự phân bố các đối tượng theo các thành phần chính và cách phân cụm ở
lĩnh vực 1 Trong lĩnh vực 2 (hình 2): Các trường trong nhóm với số thứ tự 1, 26 được đánh giá cao nhất ở tất cả các tiêu chuẩn thuộc lĩnh vực này Trong khi đó các trường trong nhóm có
số thứ tự 12, 15 đánh giá thấp nhất các 4 lĩnh vực đặc biệt rất thấp ở tiêu chuẩn 9, trường số
11 đánh giá rất thấp ở tiêu chuẩn 12
Hình 2 Biểu đồ sự phân bố các đối tượng theo các thành phần chính và cách phân cụm ở
lĩnh vực 2 Trong lĩnh vực 3 (hình 3): Các trường trong nhóm với số thứ tự 1, 17, 26 được đánh giá cao nhất ở tất cả các tiêu chuẩn thuộc lĩnh vực này, đặc biệt trường số 17 vượt trội ở các tiêu chuẩn 13, 15, 16, 17 Trong khi các đó các trường 11, 15 đánh giá thấp nhất ở các tiêu chuẩn 21, các trường thuộc nhóm số 6, 11, 12 đánh giá thấp ở tiêu chuẩn 14, 18, 19, 20,
Trang 7nhưng trường số 12 đánh giá rất cao ở tiêu chuẩn 17.
Hình 3 Biểu đồ sự phân bố các đối tượng theo các thành phần chính và cách phân cụm ở
lĩnh vực 3 Trong lĩnh vực 4 (hình 4): Các trường trong nhóm với số thứ tự 1, 17 được đánh giá cao nhất ở các tiêu chuẩn 22, 24, 25, nhưng trường số 17 đánh giá thấp ở tiêu chuẩn 23; các trường trong nhóm với số thứ tự 7, 9, 1 đánh giá cao ở tiêu chuẩn 23, trong khi đó các trường trong nhóm có số thứ tự 6, 13, 15 đánh giá thấp ở tiêu chuẩn 23 Trường số 11 đánh giá thấp
ở tiêu chuẩn 22, 24, 25
Hình 4 Biểu đồ sự phân bố các đối tượng theo các thành phần chính và cách phân cụm ở
lĩnh vực 4
Tổng hợp 4 lĩnh vực (hình 5): Mỗi lĩnh vực bao gồm một số tiêu chuẩn thuộc lĩnh vực
đó, điểm của lĩnh vực được tính bằng trung bình của các tiêu chuẩn
Căn cứ vào giá trị riêng (Bảng 3) để xác định số lượng thành phần chính Chọn Eigenvalues>=1, chỉ có 1 thành phần chính bao gồm cả 4 lĩnh vực được trích ra và giải thích được 85.9% sự biến thiên của dữ liệu (giữ được 85.9% lượng thông tin ban đầu)
Bảng 3 Giá trị riêng và phần trăm giải thích phương sai của dữ liệu
Trang 82 0.2785 6.962 92.921
Căn cứ vào véc tơ riêng để xác định mối quan hệ giữa thành phần chính và các biến Nói cách khác, đây là mối quan hệ tuyến tính giữa thành phần chính và các biến Mối quan
hệ được thể hiện bằng bảng ma trận tải (Loading Matrix) bảng 4 như sau:
Bảng 4 Ma trận tải các thành phần chính
Sau đây là một số đánh giá khi phân tích theo 4 lĩnh vực:
(i) Các trường thuộc nhóm có số thứ tự 1, 26, 17 được đánh giá cao ở 4 lĩnh vực, đặc biệt trường 27 đánh giá cao nhất ở lĩnh vực 1 Trong khi đó các trường số 15, 11, 6, 12 đánh giá thấp ở 4 lĩnh vực, trường số 15 đánh giá thấp nhất ở lĩnh vực 3 và 4
(ii) Kết quả kiểm định của các trung tâm có sự phân bố tương đối đều nhau ở các mức cao, trung bình và thấp đối với các trường được kiểm định, tuy nhiên đối với kết quả kiểm định các trường thuộc trung tâm kiểm định−Đại học quốc gia TP Hồ Chí Minh hầu hết đạt ở mức thấp so với các trung tâm khác, đó là các trường có số thứ tự 11, 12, 13, 15
Hình 5 Biểu đồ sự phân bố các đối tượng theo các thành phần chính, cách phân cụm ở 4
lĩnh vực và các trung tâm phụ trách kiểm định các trường (iii) Mối quan hệ giữa các lĩnh vực: Xây dựng hệ số tương quan giữa các lĩnh vực (Hình 6) Lĩnh vực 3 và 4 có hệ số tương quan lớn nhất, điều này chứng tỏ lĩnh vực 3 về chức năng, hệ thống, chính sách của hoạt động đào tạo, nghiên cứu khoa học và phục vụ cộng đồng đã tác động trực tiếp đến lĩnh vực 4 về kết quả hoạt động Trong khi đó lĩnh vực 2 và 3
có hệ số tương quan thấp hơn, điều này chứng tỏ chưa có sự kết nối chặt chẽ giữa lĩnh vực 1
về sứ mệnh, tầm nhìn, mục đích, mục tiêu chiến lược, các chính sách đến lĩnh vực 2 về xây dựng hệ thống đảm bảo chất lượng bên trong, hệ thống thông tin
Trang 9Hơn nữa khi xoay dữ liệu với cột là các
trường được kiểm định và dòng là các lĩnh
vực, lúc đó lĩnh vực 3 được bố trí gần gốc tọa
độ, điều này chứng tỏ điểm số của lĩnh vực 3
không có sự chênh lệch lớn giữa các trường
(tương đối đều nhau), trong khi đó các lĩnh
vực 1, 2 và 4 có sự khác biệt giữa các trường
với nhau Hay nói cụ thể là các trường có chức
năng, hệ thống, chính sách về hoạt động đào
tạo, nghiên cứu khoa học và phục vụ cộng
đồng là đồng đều nhau
Một cách phân cụm dữ liệu khác là phân
cụm theo thứ bậc (hierarchical clustering) [2],
[3], hình 7 Ở đây phân thành 4 cụm và được
trình bày một cách trực quan những trường
có kết quả kiểm định cao như ĐH Công nghệ
TP Hồ Chí Minh, Quốc tế Hồng Bàng, …
những trường có kết quả kiểm định thấp như
ĐH Phan Thiết, Kinh tế-Tài Chính TP Hồ Chí
Minh, … Thuật toán phân cụm theo K-Means
và phân cụm theo thứ bậc mỗi cách tiếp cận
khác nhau nhưng kết quả phân cụm nhóm các
trường là tương đương nhau
3 Kết luận
Phương pháp phân tích thành phần chính dựa trên mô hình toán học là phép biến đổi tuyến tính từ không gian này đến không gian khác với số chiều của dữ liệu giảm đi nhưng vẫn giữ được phần lớn thông tin của dữ liệu, thuận lợi trong việc trình bày, phân tích và đánh giá chất lượng hoạt động của các trường theo các tiêu chuẩn và lĩnh vực Khi không gian bài toán ban đầu được đưa về mặt phẳng 2 chiều với hai thành phần chính được trích
ra, tiếp tục áp dụng kỹ thuật phân cụm dữ liệu dựa trên “sự tương tự” giữa các đối tượng trong nhóm, bằng cách nhóm các trường có những tiêu chuẩn, lĩnh vực mạnh/ yếu theo từng cụm để đánh giá Sự kết hợp của hai kỹ thuật này nhằm trình bày một cách trực quan nhất không gian nhóm các đối tượng (các trường đại học) theo các biến/ thành phần chính (các tiêu chuẩn, lĩnh vực)
Đây mới chỉ là kết quả của 28 trường đại học và học viện được đánh giá theo bộ tiêu chuẩn của thông tư 12/2017/TT-BGDÐT, khi các trung tâm kiểm định có kết quả kiểm định ngày càng đầy đủ, việc phân tích mối liên hệ giữa các tiêu chuẩn, lĩnh vực sẽ tạo điều kiện cho các trường đại học có những định hướng đúng đắn trong việc xây dựng hệ thống đảm bảo chất lượng bên trong nhà trường
Hình 7 Biểu đồ phân cụm theo thứ bậc Hình 6 Hệ số tương quan giữa các lĩnh vực
Trang 10TÀI LIỆU THAM KHẢO
1 Tài liệu:
[1] Đỗ Phúc (2008), Giáo trình khai thác dữ liệu Nhà xuất bản Đại học Quốc gia TP Hồ
Chí Minh
[2] Tô Cẩm Tú, Nguyễn Huy Hoàng (2003), Phân tích số liệu nhiều chiều Nhà xuất bản
Khoa học và Kỹ thuật
[3] Hoàng Trọng & Chu Nguyễn Mộng Ngọc (2005), Phân tích dữ liệu nghiên cứu với
SPSS, tập 2 Nhà xuất bản Thống kê.
[4] Hoàng Xuân Huấn (2015), Giáo trình học máy, Đại học Quốc gia Hà Nội.
[5] ZHOU Shuangxi (2015), University Teachers’ Performance Comprehensive Evaluation
Based on Principal Component Analysis, Higher Education of Social Science,
CSCanada
[6] MengYi (2019), Application of Principal Component Analysis in Teaching Evaluation,
Published by Francis Academic Press, UK
[7] JMP 13 Multivariate Methods, Second Edition (2017) Cary, NC: SAS Institute Inc.
[8] Thông tư 12/2017/TT-BGDÐT Ban hành Quy định về kiểm định chất lượng cơ sở giáo
dục đại học, Bộ Giáo dục và Đào tạo.
2 Các website của trung tâm kiểm định để truy cập dữ liệu:
[9] http://cea.udn.vn, truy cập ngày 24/09/2020
[10] http://cea.vnuhcm.edu.vn, truy cập ngày 24/09/2020
[11] http://cea.vnu.edu.vn, truy cập ngày 24/09/2020
[12] http://kdclgd.vinhuni.edu.vn, truy cập ngày 24/09/2020
[13] http://cea-avuc.edu.vn, truy cập ngày 24/09/2020
Title: APPLYING PRINCIPAL COMPONENT ANALYSIS AND CLUSTERING
TO ASSESS ACCREDITATION RESULTS IN HIGHER EDUCATION
INSTITUTIONS
LE PHUOC THANH
Quang Nam University
Abstract: Currently, the centers for education accreditation (CEA) have announced
university accreditation results by the standard set under Circular 12/2017 / TT-BGDĐT The accreditation results are standardized in the form of a multi-dimensional database based on these standards This research is carried out in a combination of two main techniques- principal component analysis and clustering- to present, analyze and extract useful knowledge from the accreditation results At the same time, the paper points out the educational institutions’ strengths and weaknesses based on the standards, the relationship between different fields as well as compare the assessment levels among accreditation centers This is the foundation to compare and improve the quality in educational institutions.
Keywords: Principal Component Analysis, Clustering, K-MEANS clustering
algorithm, Correlation Coefficient, Higher Education Quality Accreditation.