Hiện nay, tai Việt Nam đã có nhiều kỳ thi sử dụng hình thức thi vớinhiều bài thi có cùng một cấu trúc và/hoặc với nhiều đợt thi khác nhau như kỳthi THPT Quốc gia; kỳ thi đánh giá năng lự
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC GIÁO DỤC
NGUYEN THỊ THU HƯƠNG
CÁC PHƯƠNG PHAP CAN BẰNG DE THỊ
TRONG KIEM TRA ĐÁNH GIÁ
LUAN VAN THAC Si DO LUONG
VA DANH GIA TRONG GIAO DUC
HÀ NOI - 2022
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC GIÁO DỤC
NGUYEN THỊ THU HƯƠNG
CÁC PHƯƠNG PHÁP CAN BANG DE THI
TRONG KIEM TRA DANH GIA
CHUYEN NGANH:
MA SO: 8140115
LUẬN VĂN THẠC SĨ DO LUONG
VÀ ĐÁNH GIÁ TRONG GIÁO DỤC
Người hướng dẫn khoa học: PGS.TS VU DO LONG
HÀ NỘI - 2022
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan, nghiên cứu này là do tôi thực hiện
Các số liệu do tôi khảo sát, các kết luận trình bày trong luận văn là trung
thực và chưa được công bố ở bat kì nghiên cứu nào khác.
Tôi xin cam đoan hoàn toàn chịu trách nhiệm về nghiên cứu của mình
Học viên
Nguyễn Thị Thu Hương
Trang 4LOI CAM ONTôi xin được bay tỏ lòng cảm cảm on sâu sắc đến PGS.TS Vũ Đỗ Long,người Thầy đã tận tình hướng dẫn, hỗ trợ và động viên tôi trong suốt quá trình
thực hiện luận văn này.
Tôi xin chân thành cảm ơn các chuyên gia về đo lường và đánh giá trong
giáo dục đã tận tình hỗ trợ, tạo nhiều điều kiện giúp tôi hoàn thành luận văn
Cuối cùng tôi xin cảm ơn các Thầy Cô công tác tại Trung tâm Khảo thí đãchỉ bảo tận tình, các thầy cô Trường Tiểu học Yên Phú, Trường Tiểu học Yên
Hưng, Ý Yên, Nam Định giúp tôi có cơ sở dữ liệu dé thực hiện nghiên cứu
Vì luận văn còn nhiều hạn chế nên tôi rất mong nhận được sự góp ý,hướng dẫn của Quý, Thầy, Cô để luận văn hoàn thiện hơn và để rút kinhnghiệm cho những lần nghiên cứu tiếp theo
Xin chân thành cảm on!
Hà Nội, tháng 7 năm 2022
Học viên
Nguyễn Thị Thu Hương
Trang 595210005 |
1 Lý do chọn đề tài ¿ - 5c S123 3E E1 1217121111111 1111111111011 erreg |
2 Mục đích nghiên CỨU - - - - G1111 HH kh 3
3 Giới han và phạm vi nghiên cứu của đề tài + + 2+s+s+x+z+ezezrsrxes 3
4 Câu hỏi nghiÊn CỨU - - - - G0011 101 1119 ng nh 3
5 Giả thiết nghiên cứu -2 5c SE2E‡ESE2EEE2EE1E21212121 2111112111111 3
6 Khách thé và đối tượng nghiên cứu - ¿+ +S2+E+E££zEeEerzxrrerszed 3
7 Phương pháp nghiÊn CỨU - - - - c E33 3211333111183 1E 1111 EErkerere 3
8 Cấu trúc của luận văn -:-:- tt St S SE SE SE E nHng ng ri 4CHƯƠNG 1: CƠ SỞ LÝ LUẬN VA TONG QUAN CUA VAN DE NGHIÊN
0005 ,ôÔỎ 51.1 Tổng quan các nghiên cứu về cân bằng đề thi 5-5c s+cccxccsccec 5
1.1.1 Do lường đánh giá trong gid0 ỤC - s65 + 1S ssseekesseeeree 5
1.1.2 Cân băng để thi - ¿+ - SE 321 191911111 1171111111 1111111111 re 7
©0000 o- 10 1.2.1 Các khái niệm cơ bản - - 9S SSSSSSSS SE 10
1.2.2 Kiểm tra đánh giá -¿-5£ Ss+E+ESE2EEEEEEEEEEE12121 2121112111 T.cxeE 151.2.3 Cân bằng dé thi (test equating) -+ 5- + +c++E+Ee£kzEererxrrerreee l61.2.4 Vai trò của cân bang dé thi trong kiểm tra đánh giá . 181.3 Thuộc tính của cân bằng đề thi -¿2-5 2 SE+E+E££E+EeE£EzEerrkereree 20
So sánh cân bang và các kiểu liên kết khác -¿2 z+s+s+s+zszzzxez 22CHƯƠNG 2: THIẾT KE VÀ TÔ CHỨC NGHIÊN CỨU 252.1 Các phương pháp cân bang đề thi 2-5 2 52+E££E£EzEezzxcrxzei 25
2.1.1 Nhóm tương đương/ngẫu nhiên (Equivalent/Random groups design) 25
2.1.2 Nhóm don (Single group desIgn)) - 5s *s**++svvesseesseesrrrs 27
2.1.3 Đối trọng (Counterbalanced design), -. 2-5 s+secs+szxzzzzxee: 29
2.1.4 Câu hỏi neo (Anchor Test design) . <5 s + s+sseessexs 31
Trang 62.2 Các phương pháp cân bằng điểm thi ¿2-5 2+s+£+£+EzEe£zx+eecxz 422.2.1 Cân băng tuyến tính ¿ + 5 E+SSE2E£EEEEEEEEEEEEEEEEEEEEEEEEEEEerkrkrree 43
2.2.2 Cân băng phân vị ¿+ ¿5222293212121 21212121212121 1211 ce 47
2.2.3 Cân bằng điểm với [TT -¿+ 2+E+SE+E£EE+EEEEEEEEEEEEErkrrrrrees 502.2.4 Cân bang bằng cách áp dụng hằng số cân bằng - -5- 512.2.5 Can bang bang cách hiệu chuẩn đồng thời (calibration concurrent) 532.2.6 Cân băng thông qua các đường cong đặc tính đề thi 53CHƯƠNG 3: KET QUA PHAN TICH VA THẢO LUẬN - 56
3.1 Thi điểm phương pháp cân bằng đề thi bang câu hỏi neo bên trong 56
3.1.1 Quy trình + SH re 56
3.1.2 Triển khai thí điỂm -2 52 SE+EEE£E2EEEE2EEEEEEEEEEEEEerkrkrrrrei 573.2 Kết quả khảo sát 4 dang thức đề + + s+S£+x££zEezxzEcrxrrerxees 593.3 Cân bằng điểm ¿ 56s S1 E1 E9212121211211121112171211 111111111 ce 623.4 Xây dựng đề thi cân bằng ¿-2 S22 2E 2E 2212121211121 2E xe 653.5 Đánh giá mức độ tương đương của dé thi + 25 +s+s+£sezccscez 69
KET LUẬN VÀ KHUYEN NGHỊ, 2- ¿5 2+SS+2E£x2Ezxezzxrrxzes 73
IV 100)2009:7 0/84.(0 Ồ 75
:1608090 9.1 80
PHU LUC 2 - - G1 1n ni S0
Trang 7DANH MỤC CHU VIET TAT
ACT American College Testing
CH Cau hoi
Classical Test Theory
CTT Ly thuyết khảo thí cổ điển
ĐHQGHN _ | Đại học Quốc gia Hà Nội
DTN Dé trac nghiém
Item Response Theory
IRT 4 ky Taree
Ly thuyét ứng dap câu hỏi
KTDG Kiểm tra đánh giá
SAT Scholastic Assessment Test
TCC Duong cong dac điểm đặc tính dé thi
TL Tự luận
TS Thí sinh
THPT Trung học phổ thông
Trang 8DANH MỤC BANG BIEUBảng 2.1 Tóm tắt những ưu điểm và hạn chế chính của các phương pháp cânbăng để thi ¿5c S221 2121 21111 21221212121121112111111111111111111 11 011 1tr 41
Bảng 3.1 Ma trận môn Toán Chung << << S1 kEEkssssseeeese 57
Bảng 3.2 Thiết kế câu hỏi neo ¿52 525v £E£E£EEEEeErEeErrxrkerrree 58Bang 3.3 Thống kê mẫu - ¿2 5£ SE2E£EEEE2EEEEEEEEEEEEEEEEEEEEEEEErrkrree 58
Bang 3.4 Tỷ lệ % tra lời đúng các câu hỏi neo ở từng mã đề 59
Bảng 3.5 Độ khó câu hỏi ở từng mã đề ¿2 + 2+s+Ec££xzEezzxrreree 60
Bang 3.6 Mã hóa câu hỎI - c1 vn HH kt 62
Bang 3.7 Thiết kế dit liệu cân bằng điểm ¿2-5-5252 +££xzE+Ecxzce2 62
Bảng 3.8 Các câu hỏi bi loại ĐỎ - - 5 3332111111 11 kkrresee 64
Bảng 3.9 Xây dựng ma trận đề thi sau cân bằng điểm -. - 66
Bang 3.10 Ma trận sử dụng trong thực nghiệm -.- «<5 << +ssx+ 67
Bảng 3.11 Các thông số về điểm năng lực của thí sinh - 70
Bang 3.12 Kiểm định khác biệt trung bình -2-5-5 2+s+secszx+<cs2 72
Trang 9DANH MỤC HÌNH
Hình 1.1 Tính đối xứng của cân bằng + 2 +2+s+£z+E+E+ErxzEerrecee 20Hình 1.2 Chuỗi liên kẾt -2-2 52 SSE+E£EE£EE£E£EE£EEEEEEEEEEEErEerkrrerkrei 22Hình 2.1 Thiết kế nhóm tương đương 2 + + 2+s+£+z£+£+z£ezx+zzzxee: 25
Hình 2.2 Thiết kế nhóm đơn - - 2 ¿5252 2ES£+E£E+2E£EE2E£E£EEzEezxzxerxzss 27Hình 2.3 Thiết kế nhóm đối trọng 2 2+ 2+£+E+£££E+E+Ee£xzEezzxzxee 30Hình 2.4 Minh họa thiết kế nhóm câu hỏi neo ¿2 ¿5 2+5: 33
Hình 2.5 Thiết kế câu neo xen kẽ bên trong 2s 2 s+++s+£zs+£+=s2 34
Hình 2.6 Thiết kế câu neo liên tục ¿-¿2 2s 2+x+2++£££++Ezxzzzxezxzxs 34
Hình 2.7 Biéu đồ độ khó: tỷ lệ thí sinh trả lời đúng trong mỗi nhóm 36Hình 2.8 Thiết kế neo bên ngoài 22 + £+E+E+E££E+EeEe£EzEerrxzreree 38Hình 2.9 Phép cân bằng tuyến tính ¿2 + s+S£+x+£++Ee£+zEczxezezxeei 44Hình 2.10 Cân bằng tuyến tính trong nhóm thí sinh tốt và trong nhóm yếu 46Hình 2.11 Thứ hạng phần trăm -2 + 2s s+£££E+E££E+EE+E££x+Ezxezszxees 48
Hình 2.12 Tương đương phân vi tương đương; dang mới khó hơn dạng tham
11 49
Hình 2.13 Minh họa 3 câu hỏi neo ở cấp độ dễ -2 + s+s+sz s2 51
Hình 2.14 Minh họa 3 câu hỏi neo ở cấp độ khó -cc << << <<<<<<⁄ 51Hình 2.15 Cân bằng 2 dạng thức ¿2 + 2 s+E+E££k+EeEezxzEerrxsreree 52Hình 2.16 Hai dạng thức dé sau khi cân băằng -¿2-5 2s +cz+sz s2 52Hình 2.17 Đường cong đặc trưng đề thi ¿5 + z+s+Ee£zxzEezzxsrerez 54Hình 3.1 Quy trình thí điểm phương pháp cân bằng đề thi 56Hình 3.2 Đối sánh điểm năng lực thí sinh -2 2s+s+cz+x+£e£zzx+Eecxz 71
Trang 10MỞ ĐẦU
1 Lý do chọn đề tài
Trong những năm gan đây, đổi mới kiểm tra đánh giá kết qua học tập
được coi là khâu rất quan trọng trong quá trình đổi mới giáo dục Kiểm tra
đánh giá khách quan, nghiêm túc, đúng cách, đúng hướng sẽ là động lựcmạnh mẽ khích lệ sự vươn lên trong học tập, thúc day su tim toi sang tao cua
người học; đồng thời cung cấp thông tin kịp thời dé giáo viên có thé cải tiếnphương pháp giảng dạy Công cụ kiểm tra đánh giá được sử dung phô biếnnhất và thường xuyên nhất là bài kiểm tra Các bài kiểm tra được sử dung détheo dõi, đánh giá trình độ của người học Thông qua kết quả bài kiểm tra, cácquyết định sẽ được đưa ra Có những quyết định đơn giản như xác định học
sinh có học thuộc nội dung bài học hay không, hoặc đánh giá học sinh nào
học tốt nhất, được nhận băng khen Nhưng có những quyết định rất quantrọng Ví dụ như ở cấp độ cá nhân, học sinh dựa trên điểm thi đại học đểquyết định khoa, ngành, trường sẽ đăng ký Cũng căn cứ vào điểm thi đại học,
ở cấp cơ sở giáo dục, nhà trường quyết định điểm chuẩn cho từng khoa
ngành Hoặc như ở cấp cao hơn, chính phủ có thể đưa ra quyết định điều
chỉnh chương trình giảng dạy dựa trên các kết quả kiểm tra đánh giá Dù bất
kế là quyết định gì, thì tính chính xác của thông tin đánh giá cũng là yêu cầuhang đầu Chính vì vậy, kết qua mà cụ thé là điểm số thu được từ các bài kiểmtra phải chính xác đề đưa ra quyết định công bằng, chính xác
Cùng một kỳ kiểm tra đánh giá có thể sử dụng nhiều bài kiểm tra Mặc
dù các bài kiểm tra được xây dựng trên cùng một thang đo, ma trận, cấu trúcnhưng vẫn luôn có thé xuất hiện việc bài kiểm tra này dé hơn bài kiểm trakhác Việc này khiến cho điểm của bài kiểm tra là khác nhau, việc so sánh
xếp hang dựa trên điểm của từng bài kiểm tra là không chính xác Van dé này
càng nghiêm trọng hơn đối với các kỳ kiểm tra được diễn ra ở nhiều thời điểmkhác nhau, ví dụ các kỳ kiểm tra diễn ra trong nhiều năm sử dụng chung một
ngân hàng câu hỏi Trong trường hợp đó, cân băng đề là biện pháp hiệu quả
Trang 11dé khắc phục những khó khăn kể trên Các phương pháp cân bằng được sửdụng dé cân bằng điểm số từ các bài kiểm tra khác nhau có cùng một định
dạng, băng việc xây dựng một thang đo chung cho tất cả các bài kiểm tra
Cùng với sự phát triển của Khoa học đo lường và đánh giá trong giáo dục, sự
ra đời của các phần mềm phân tích câu hỏi thị, đề thi như R, Quest, Conquest,IATA càng tạo điều kiện hỗ trợ cho sự phát triển của các phương pháp cânbang dé thi Chính vì vậy, có rất nhiều tô chức đã sử dụng cân bằng đề thitrong quá trình ra đề như Viện Khảo thí Giáo dục Hoa kỳ (ETS) với các bài
thi được chấp nhận rộng rãi trên toàn thế giới như TOEFL, TOEIC, GRE,
SAT
Hiện nay, tai Việt Nam đã có nhiều kỳ thi sử dụng hình thức thi vớinhiều bài thi có cùng một cấu trúc và/hoặc với nhiều đợt thi khác nhau như kỳthi THPT Quốc gia; kỳ thi đánh giá năng lực của Dai học Quốc gia Hà Nội,Đại học Quốc gia thành phố Hồ Chí Minh, Đại học Sư phạm Hà Nội, kỳ thiđánh giá tư duy của Dai hoc Bach Khoa Hà Nội ; các ky thi kết thúc họcphần của các trường đại học như Đại học Ngoại thương, Đại học Kinh tế quốcdân ; các chương trình đánh giá diện rộng cấp quốc gia Bên cạnh đó, cáctrường phổ thông cũng đang dần áp dụng hình thức thi như trên trong quátrình đạy và học Tuy nhiên, vẫn còn khá nhiều người đặt ra nghi vấn về tínhcân bằng của các bài thi trong các kỳ thi kế trên Cho tới thời điểm hiện tai,theo hiểu biết của tác giả chưa có một nghiên cứu nào được công bố làm sáng
tỏ cho câu hỏi đó.
Là cán bộ hiện dang công tác tại Trung tâm khảo thí DHQGHN, với
mong muốn được tìm hiểu sâu về lĩnh vực ứng dụng khoa học đo lường giáodục hiện đại để phục vụ tốt hơn cho công tác xây dựng ngân hàng câu hỏi và
đề thi, tạo sự công bằng khách quan, niềm tin cho thí sinh nói riêng và xã hội
nói chung trong các kỳ thi, tác giả quyết định chọn đề tài nghiên cứu “Các
phương pháp cân bằng dé thi trong kiểm tra đánh gia”
Trang 122 Mục đích nghiên cứu
- Hệ thống hóa lý thuyết liên quan tới các phương pháp cân bằng đề thi
đã và đang được sử dụng trên thế giới trong các công tác xây dựng đề thi baogồm: các nghiên cứu, các khái niệm, phương pháp sử dung
- Áp dụng và thí điểm phương pháp cân bằng đề thi băng câu hỏi neobên trong đối với đề thi môn Toán lớp 5
3 Giới hạn và phạm vi nghiên cứu của đề tài
Giới han thời gian: Nghiên cứu được thực hiện trong giai đoạn từ năm
4 Câu hỏi nghiên cứu
Câu hỏi 1: Có những phương pháp cân bang đề thi nào trên thế giới?
Câu hỏi 2: Phương pháp cân bằng đề thi bằng câu hỏi neo bên trong có
thực sự hiệu quả?
5 Giả thiết nghiên cứu
Tác giả tiến hành thí điểm một trong các phương pháp cân bằng đề thi
đã được nghiên cứu, đó là phương pháp: cân bằng đề thi bằng câu hỏi neo bêntrong Giả thiết được đặt ra là phương pháp đã đạt được mục tiêu cân bằng đề
6 Khách thể và đối tượng nghiên cứu
Khách thể nghiên cứu: Hoạt động xây dựng đề thi
Đối tượng nghiên cứu: Các phương pháp cân bằng đề thi
7 Phương pháp nghiên cứu
- Phương pháp nghiên cứu tài liệu: tác giả thu thập thông tin từ các tài liệu
trong và ngoài nước về các vân dé liên quan tới đê thi và can băng đê thi.
Trang 13- Phương pháp phân tích và tổng hợp: từ các thông tin thu thập được, tác giả
đã phân tích và tổng hợp để xây dựng nên hệ thống các vấn đề lý luận và thực
tiễn có liên quan tới đề tài
- Phương pháp toán thống kê: đối với mục tiêu thí điểm, tác giả cần xử lý vàphân tích các số liệu Phần mềm được sử dụng là phần mềm PARSCALE,
SPSS
§ Cấu trúc của luận văn
Cấu trúc của luận văn gồm:
- Phần mở đầu
- Chương I: Cơ sở lý luận và tổng quan của van đề nghiên cứu
- Chương II: Thiết kế và tổ chức nghiên cứu
- Chương III: Kết quả phân tích và thảo luận
- Kết luận và khuyến nghị
Trang 14CHUONG 1: CƠ SỞ LÝ LUẬN VA TONG QUAN CUA VAN ĐÈ
NGHIEN CUU
1.1 Tổng quan các nghiên cứu về cân bằng đề thi
1.1.1 Đo lường đánh gia trong giáo dục
Lĩnh vực khoa học về đánh giá, đặc biệt là đo lường đánh giá trong giáodục bắt đầu được phát trién mạnh mẽ từ đầu thế kỷ 20 ở những nước châu Âu
và Mỹ “Đánh giá trong giáo dục được định nghĩa là quá trình thu thập thông
tin dé đưa ra những quyết định giáo dục liên quan tới học sinh, dé phan hồi
cho học sinh về sự tiến bộ, những điểm mạnh và điểm tôn tại trong học tập
của chúng, dé đưa ra phan quyết về hiệu quả của công tác giảng day và sự
phù hợp cua chương trình đào tạo, va cuối cùng là để cung cấp thông tin xây
dựng chính sách."(AFT, NCME, NEA, 1990:1) Cột mốc đánh dấu cho sựbùng nổ của lĩnh vực này là sự ra đời của hàng loạt các bài trắc nghiệm ở Mỹnhư trắc nghiệm trí tuệ Stanford-Binet (1916), bộ trắc nghiệm thành quả họctập tong hop Stanford Achievement Test (1923), Cùng với su phát triển liên
tục của lĩnh vực khoa học này, các lý thuyết liên quan cũng được ra đời, trong
đó điển hình là Lý thuyết khảo thí cổ điển (Classical Test Theory) va Lythuyết ứng đáp câu hỏi (Item Response Theory - IRT) Lý thuyết khảo thí cổđiển bắt đầu phát triển khoảng đầu thế kỷ 20 và được hệ thống hóa vào thậpniên 1970 Lý thuyết Ứng đáp Câu hỏi ra đời muộn hơn, được bắt đầu xâydựng từ khoảng đầu nửa sau của thế kỷ 20, dựa trên các mô hình toán học.Hai lý thuyết này được coi là kim chỉ nam cho các phát triển lý thuyết sau
này Hàng loạt các nghiên cứu quan trọng đã được ra đời dựa trên các lý
thuyết này với những tên tuổi nổi tiếng như Ralph Tyler — người được coi là
đi đầu trong phát triển chương trình và đánh giá giáo dục, tạo ra nền tảng cho
tư duy và thực hành đánh giá với cuôn “Các nguyên tắc cơ bản của chương
Trang 15dục; B.S Bloom, Jum C Nunnally với “Do lường và đánh giá trong giáo dục”
(1964), Robert L.Ebel với “Do lường thành tích giáo dục” (1965), George F.
Madaus va J Thomas Hastings với cuốn “Đánh giá để thúc đây họctập”(1971), hay Anthony J Nitko với “Đánh giá học sinh” (1996, 2008,
2010) Những cuốn sách này cung cấp cho người đọc một cơ sở lý thuyếtvững chắc về đo lường đánh giá trong giáo dục, cũng như các kỹ thuật,
phương pháp được sử dụng trong đo lường đánh giả.
Các lý thuyết về đo lường đánh giá trong giáo dục bắt đầu xuất hiện ởViệt Nam từ những năm 1975 khi một số nhà giáo dục được đảo tạo về khoahọc này từ các nước phương Tây Một trong những nghiên cứu đầu tiên vềlĩnh vực này là nghiên cứu khoa học công nghệ cấp nhà nước của Hoàng ĐứcNhuận, Lê Đức Phúc với “Cơ sở lý luận của việc đánh giá chất lượng học tậpcủa học sinh phô thông” (3/1995) Nghiên cứu này đưa ra các khái niệm, cácthuật ngữ về đánh giá giáo dục cũng như những yêu cầu về nội dung và kỹthuật đánh giá Tuy nhiên, nghiên cứu chưa đi sâu về phương pháp, kỹ thuật
đánh giá kết quả học tập của học sinh Bên cạnh đó, phải nhắc tới tác giả
Dương Thiệu Tống với cuốn sách “Trắc nghiệm và đo lường thành quả họctập” (1995) Cuốn sách là một hệ thống các khái niệm về đo lường thành quảhọc tập, các nguyên lý đo lường, các nguyên tắc soạn thảo câu hỏi trắcnghiệm, quy trình tổ chức, chấm thi, một số kỹ thuật phân tích câu hỏi theo
mô hình Rasch Cuốn sách được coi là một trong những cơ sở đầu tiên chohoạt động đánh giá định lượng kết quả học tập của học sinh
Đến đầu thé kỷ 21, khoa học về đo lường đánh giá trong giáo dục bắtđầu phát triển mạnh mẽ ở Việt Nam với hàng loạt các nghiên cứu và đôi mới
trong phương pháp, nội dung, chương trình giáo dục Có thé ké đến các tácgiả như Trần Bá Hoành với cuốn sách “ Đánh giá trong giáo dục” (1997)
dùng cho các trường Đại học sư phạm và Cao đăng sư phạm; cuốn “Lí thuyết
và thực hành về đo lường và đánh giá trong giáo dục” (2006), “Do lường
trong giáo dục, lý thuyết và ứng dụng” (2010) của Lâm Quang Thiệp,
Trang 16cuốn “Kiểm tra đánh giá trong dạy học” của nhóm tác giả Sái Công
Hồng, Lê Thái Hưng, Lê Thị Hoàng Hà, Lê Đức Ngọc (2017) Đây lànhững tài liệu, giáo trình cung cấp cho người đọc những kiến thức về
đánh giá giáo dục bắt đầu từ các khái niệm cơ bản đo lường, đánh giá,kiểm tra; các lý thuyết CTT, IRT; cho tới các thang đo sử dụng trong đo
lường; các kỹ thuật phân tích câu hỏi
Từ năm 2005, Đại học Quốc gia Hà Nội đã cho mở lớp đào tạo thạc
sĩ và tiễn sĩ về Do lường đánh giá trong giáo dục Chương trình dao tạovới những giảng viên hàng đầu cả nước, có kinh nghiệm lâu năm trong đolường đánh giá trong giáo dục Đây được coi là cái nôi để đào tạo các cán
bộ có kinh nghiệm, góp phan cho sự phát triển của lĩnh vực Do lường
đánh giá trong giáo dục.
1.1.2 Cân bằng đề thi
Đánh giá trong giáo dục, người ta hay nhắc tới đo lường trong giáo dục(Educational measurement) Day là hoạt động gán các con số vào các cá thé
sự vật theo một hệ thống quy tắc nào đó dé biểu diễn đặc tính của sự vật đó
(GS.TSKH.Lâm Quang Thiệp, 2010) Hoạt động đo lường trong giáo dục
thường là được tiến hành thông qua các bài kiểm tra Kết quả làm bài của thísinh được thu thập và phân tích nham xác định năng luc/diém số của thí sinh
Các lý thuyết quan trọng được dựa vào để triển khai tính toán nhằm đolường trong giáo dục chính là Lý thuyết khảo thí cổ điển (Classical Test
theory - CTT) và Lý thuyết Ứng đáp Câu hỏi (Item Response Theory - IRT).
Đối với các kỳ thi sử dụng nhiều bài kiểm tra, hoặc được triển khai thànhnhiều đợt, một trong các mục tiêu quan trọng của việc sử dụng các lý thuyếtnói trên vào đo lường trong giáo dục là việc đặt các kết quả đo lường nhờ các
đề kiểm tra khác nhau triển khai ở các mẫu thí sinh khác nhau trên cùng mộtthang đo dé có thé so sánh các kết quả đó với nhau Quy trình nói trên đượcgọi là so bằng hoặc cân bằng (equating)
Trang 17Với sự ra đời và ngày càng phổ biến của các bài thi chuẩn hóa như
SAT, ACT, các vấn đề liên quan đến cân bằng đề thi (Test equating) bắt đầuđược nghiên cứu và mô tả một cách có hệ thong Bắt dau từ giữa thé kỷ 20,
các nghiên cứu về cân bằng đề thi bắt đầu phát triển, sau khi ngày càng cónhiều van dé nảy sinh khi sử dụng nhiều bài kiểm tra trong một kỳ thi và xãhội đang dan phản đối các kỹ thuật kiểm tra truyền thống Có thể ké tới cáctác giả nồi tiếng như Angoff (1971); Harris và Crouse (1993); Lord (1980);
Braun và Holland (1982); Petersen và cộng sự (1989) Đây là những nghiên
cứu gia nỗi tiếng trong lĩnh vực tâm lý học và thông kê Tiếp thu và phát triểncác lý thuyết từ những nghiên cứu của các tác giả này, Michael J.Kolen; Robert L Brennan đã cho xuất bản cuốn “Test equating : methods andpractices” (Cân bang đề thi: phương pháp và thực hành) (1995) Đây có thécoi là cam nang cho các nhà giáo dục tham khảo khi muốn tìm hiểu về Cânbăng đề thi Cuốn sách này đưa ra các khái niệm về cân băng đề kiểm tra,phân biệt cân băng với các quy trình tương tự khác, mô tả các kỹ thuật được
sử dụng trong cân bằng và đưa ra các vấn đề thực tế khác nhau liên quan đến
việc tiến hành cân bằng Không chỉ là mô tả lý thuyết thuần túy, cuốn sáchgiúp người đọc hiểu được bản chất của cân bằng, biết cách thiết kế và thực
hiện quy trình cân bằng, đánh giá được những kết quả trong quá trình cân
bang một cách hợp lý Nếu như Angoff (1971) sử dụng các lý thuyết cô điển
để cân băng điểm thi, thì Kolen & Brennan đề cập đầy đủ và có hệ thống hơn
về chủ đề cân bằng điểm thi và đề thi từ cách tiếp cận của lý thuyết khảo thí
cô điển cũng như lý thuyết ứng đáp câu hỏi Sau cuốn sách đầu tiên năm
1995, hai tác giả đã liên tục cập nhật, chỉnh sửa, áp dụng các lý thuyết,phương pháp mới, và cho ra đời các ấn bản như “Test Equating, Scaling, and
Linking: Methods and Practices” (Cân bang dé thi, lập thang đo và liên kết:
phương pháp và thực hành) (2004, 2013; 2014).
Một trong những nghiên cứu khác về cân bằng đề thi được đánh giá cao
là cuốn “Statistical models for test equating, scaling, and linking” (Các mô
Trang 18hình thống kê để cân bằng, lập thang đo và liên kết) của tác giả Alina Avon
Davier (2011) Mục tiêu của cuốn sách này là nhắn mạnh các đặc điểm thống
kê chính thức của các hoạt động cân bằng, lập thang đo và liên kết Cuốn sách
đưa ra các quan điểm va thảo luận về chất lượng của các kết quả cân băng từgóc độ thông kê (mô hình mới, tính chặt chẽ, độ phù hợp, các giả thuyết kiêmtra, giám sát thông kê) thay vì đặt trọng tâm vào các chính sách và các tất suy,mặc dù chúng cũng có vai trò rất quan trọng, thể hiện các khía cạnh khác củacân bằng Cuốn sách này đưa ra một quy trình khung cho việc cân bằng, các
hiểu biết đúng dan về các giả định làm nền tảng cho các mô hình đo lường
tâm lý và việc sử dụng các thử nghiệm thống kê và quy trình thống kê, giúpngười thực hiện lựa chọn hàm cân băng phù hợp với mục đích đề ra Cuốnsách này là tài liệu tham khảo có giá trị cho: (a) các nhà thống kê và nhà đolường tâm lý quan tâm đến lý thuyết đăng sau các phương pháp cân bằng,trong việc sử dụng các phương pháp thống kê dựa trên mô hình để làm mịn
dữ liệu và đánh giá kết quả cân băng; (b) những người cần cân bằng các bài
kiểm tra và (c) những người có nhiệm vụ hướng dẫn trong các chương trình
đo lường tâm lý, đo lường và tâm lý học.
Ngoài những nghiên cứu với các lý thuyết và phương pháp chung cho
cân bằng, những nghiên cứu đi sâu vào từng phương pháp cụ thé cũng được
triển khai Có thể kế tới như cuốn “The Kernel method of test equating”(Phương pháp Kernel dé cân bằng dé thi) của Alina AvonDavier, Paul WHolland, Dorothy T Thayer (2004) Phuong phap can bang Kernel là mộtphương pháp được sử dụng khá nhiều trong những năm gần đây Trong cuốnsách này, các tác giả đã áp dụng phương pháp Kernel cho 4 thiết kế cân bằng
dé phổ biến hiện nay Hoặc cuốn “Applying test equating methods: Using R”
(Ap dụng phương pháp cân bang dé thi: sử dụng phần mềm R) của tác giả
Jorge Gonzalez, Marie Wiberg (2017) Trong cuốn sách này, ngoài việc đưa
ra các lý thuyết và thảo luận về hoạt động cân bằng, tác giả đã mô tả cách sửdụng các phương pháp cân bằng kiểm tra trong thực tế Phần mềm R được sử
Trang 19dụng dé minh họa cách thực hiện của tất cả các phương pháp và các thiết kếkhác nhau Cuốn sách đề cập tới các phương pháp cân bằng điểm thi truyền
thống như cân bằng tuyến tính qua điểm trung bình, cân bằng tuyến tính qua
giá trị trung bình và độ lệch chuẩn và các phương pháp hiện đại như phươngpháp Kernel, phương pháp cân bằng cục bộ; và kết hợp của các phương pháp
Bên cạnh các ấn phâm được xuất bản, một loạt các nghiên cứu đượcviết thành các bài báo Có thể nói, việc cân bằng đề không còn là hoạt động
xa lạ trong lĩnh vực đo lường đánh giá Nó đã được quan tâm, nghiên cứu và
áp dụng từ rất lâu Tuy nhiên, ở Việt Nam, hoạt động này lại chưa được chú
trọng Hiện nay, chưa có một nghiên cứu nào công bố các tính toán về việccân bằng đề Thuật ngữ “cân bằng đề” mới chỉ xuất hiện từ khi Đại học quốc
gia Hà Nội triển khai kỳ thi đánh giá năng lực với việc một budi thi có thé có
tới hàng trăm bài thi khác nhau Tuy nhiên, dù đã quan tâm tới việc cân băng
đề, nhưng các kỹ thuật đang được áp dụng cho việc xây dựng đề thi củatrường còn quá thô sơ, mang tính chất chủ quan nhiều, độ chính xác còn gâynhiều tranh cãi Chính vì vậy, cần có những nghiên cứu về các phương phápcân bằng đề, nhằm nâng cao độ tin cậy, tính công bằng cho các kỳ thi
1.2 Cơ sở lý luận
1.2.1 Các khái niệm cơ bản
1.2.1.1 Các loại điểm trắc nghiệm
Dé đo năng lực của một nhóm thí sinh (TS) về một môn học hoặc mộtchương trình học nào đó, ta thường cho họ làm một đề kiểm tra Vì phân bốtần suất của năng lực thường có dạng chuẩn nên phân bố tần suất điểm kiểmtra của TS (nếu điểm phan ánh đúng năng lực) cũng thường theo dạng chuẩn.Điểm thô
Một Đề trắc nghiệm (ĐTN) thường bao gồm nhiều câu hỏi (CH), mỗi
CH được gán một điểm số, chang han CH nhị phân thường là điểm 1 nếu làmđúng, điểm 0 nếu làm sai Sau khi chấm bài trắc nghiệm và cộng các điểm sốcủa từng TS ta thu được các điểm số của các TS, được gọi là điểm thô (raw
10
Trang 20score) Đối với đề tự luận (TL) người ta có thé gan mot điểm nao đó cho tung
ý, từng nội dung ma TS tra lời được, và sau khi cham xong cộng điểm của
mỗi TS lại người ta cũng được một điểm thô Cách cho điểm TL được dùng ở
Việt Nam thường ngầm định trước một khung điểm, chang hạn từ 0 đến 10,
và chỉ được cho điểm trong khung đó Điểm thô thu được như vậy tính chất
có khác với điểm thô thu được từ một DTN
Đề có thé so sánh các điểm số thu được của DTN trên một phạm vi rộng,người ta phải biến đổi các điểm đó theo hai cách: 1) so sánh với một tiêuchuẩn (standard) tuyệt đối đã định trước (liên quan với độ khó về nội dung);2) so sánh với một nhóm TS nao đó dùng làm chuẩn (norm)
Điểm tiêu chuẩn tuyệt đối
Các điểm số loại này được xác định dựa trên việc so sánh điểm thô củamột TS với điểm tối đa có thé dat được từ DTN, do đó nó hoàn toàn không biảnh hưởng bởi điểm số của những người khác trong nhóm khảo sát Một cáchcho điểm thường được ưa dùng thuộc loại này là điểm phần trăm đúng Điểm
được tính theo tỷ lệ phần trăm số CH làm đúng trên tong số CH của DTN
x= Số câu đúng
Tổng số câu
Nhiều giáo viên thích dùng điểm phần trăm đúng này vì cách biến đổi
đơn giản Họ còn thường quy định trước tiêu chuẩn tối thiểu mà TS phải làmđược dé đạt yêu cầu, chăng hạn lam được 50% hay 60% CH của DTN Việcquy định trước tiêu chuẩn đó là hoàn toàn tuỳ tiện, không có tính khách quan.1.2.1.2 Các tham số đặc trưng cua một câu hỏi trắc nghiệm và một dé trắc
nghiệm
Đồ khó của câu hỏi
Khái niệm đầu tiên cần lưu ý là độ khó của CH trắc nghiệm Người ta
xác định độ khó dựa vào việc thử nghiệm CH trắc nghiệm trên các đối tượng
TS phù hợp, và định nghĩa độ khó p bằng tỷ số phần trăm TS làm đúng CH
II
Trang 21trên tổng số TS tham gia làm CH đó:
Độ khóp của CH = _Tổng số TS làm đúng CH
Tổng số TS tham gia làm CH
Việc sử dụng trị số p dé do độ khó như trên cho ta biết mức khó dé củacác CH chỉ dựa vào số liệu thống kê chứ không cần xem xét nội dung của
chúng thuộc các lĩnh vực khoa học khác nhau.
Các CH của một DTN thường có độ khó khác nhau Theo công thức tính
độ khó như trên, rõ ràng giá tri p càng bé CH càng khó và ngược lại (đáng lẽ
gọi p là độ dễ, nhưng thế giới đã quen dùng là độ khó - difficulty nên chúng
tôi vẫn giữ định nghĩa này) Thông thường độ khó của một CH có thể chấp
nhận được nằm trong khoảng 0,25 - 0,75; CH có độ khó lớn hơn 0,75 là quá
dễ, có độ khó nhỏ hơn 0,25 là quá khó.
Vậy p có giá trị như thế nào thì CH có thể được xem là có độ khó
trung bình? Muốn xác định được khái niệm này cần phải lưu ý đến xác suất
làm đúng CH bằng cách chọn hú họa Như đã biết, giả sử một CH có 5
phương án chọn thì xác suất làm đúng CH do sự lựa chon hú hoạ của một
TS không biết gì là 20% Vậy độ khó trung bình của CH 5 phương án chọn
phải nằm giữa 20% và 100%, tức là 60% Như vậy, nói chung độ khó trung
bình của một CH có n phương án chọn là (100% + 1/n)/2 Độ khó trung
bình của một CH dung-sai là 75% Đối với các CH loại trả lời tự do, như
loại câu điền khuyết, thì độ khó trung bình là 50%
Khi chọn lựa các câu trắc nghiệm theo độ khó người ta thường phảiloại các câu quá khó (không ai làm đúng) hoặc quá dễ (ai cũng làm đúng)
Một ĐTN tốt thường là đề có nhiều CH ở độ khó trung bình
Độ phân biệt của câu hỏi
Khi ra một CH hoặc một DTN cho một nhóm TS nào đó, người ta
thường muốn phân biệt trong nhóm TS ấy những người có năng lực khácnhau: giỏi, trung bình, kém Khả năng của câu trắc nghiệm thực hiện
12
Trang 22được sự phân biệt ấy được gọi là độ phân biệt Muốn cho CH có độ phânbiệt, phản ứng của nhóm TS giỏi và nhóm TS kém lên CH đó hiển nhiên
phải khác nhau Người ta thường thống kê các phản ứng khác nhau đó đểtính độ phân biệt.
Độ phân biệt của một CH hoặc một DTN liên quan đến độ khó Thậtvậy, nếu một ĐTN dễ đến mức mọi TS đều làm tốt, các điểm số đạt đượcchụm ở phần điểm cao, thì độ phân biệt của nó rất kém, vì mọi TS đều cóphản ứng như nhau đối với ĐTN đó Cũng vậy, nếu một ĐTN khó đến mức
mọi TS đều làm không được, các điểm số đạt được chụm ở phần điểm
thấp, thì độ phân biệt của nó cũng rất kém Từ các trường hợp giới hạn nóitrên có thể suy ra rằng một DTN muốn có độ phân biệt tốt thì nó phải bao
gồm nhiều CH có độ khó ở mức trung bình Khi ấy điểm số thu được của
nhóm TS sẽ có phổ trải rộng
D6 tin cậy cua DTN
Độ tin cậy là điều kiện cần của các dé thi — kiểm tra dé đánh giá chính
xác kết quả học tập của học sinh: học sinh có năng lực tốt hơn phải đạt được
kết qua cao hơn Độ tin cậy có thé tăng lên nhờ bổ sung những câu hỏi đồngnhất (tăng độ dài của dé thi) hay tăng độ phân biệt của các câu hỏi
Đề trắc nghiệm có độ tin cậy cao hơn dé tự luận vì giảm được tính chủquan khi chấm
Trắc nghiệm là một phép đo: dùng thước đo là ĐTN để đo lường một
năng lực nao đó của TS Độ tin cậy của DTN chính là đại lượng biểu thị mức
độ chính xác của phép đo nhờ DIN.
Người ta có thé tính độ tin cậy của DTN bang các cách sau đây:
- Phương pháp trắc nghiệm - trắc nghiệm lại, tức là dùng một DTN chomột nhóm TS làm hai lần và tính hệ số tương quan giữa hai bộ điểm Phương
pháp này có nhược điểm: một là các ứng đáp của TS trong lần thứ hai khôngđộc lập so với trong lần thứ nhất, hai là năng lực của TS trong lần thứ hai cóthé đã thay đồi
13
Trang 23- Phương pháp các DTN tương đương: cho một nhóm TS làm hai DTNtương đương rồi tính độ tương quan giữa hai bộ điểm Vấn đề là phải tốnnhiều công sức dé soạn các DTN thực sự tương đương.
- Phương pháp phân đôi DTN: thực chat là tạo 2 DTN tương đương, mỗi
dé là một nửa của DTN chung Dé hai nửa DTN có sự tương đương cao,người ta sắp xếp từng cặp câu chan và lẻ tương đương nhau dé có 2 nửa DTNmột gồm các câu chăn và một gồm các câu lẻ Độ tin cậy của nửa DTN bằng
hệ số tương quan giữa hai bộ điểm của hai nửa DTN, còn độ tin cậy của toànDTN có thé thu được khi hiệu chỉnh việc tăng độ dài gấp đôi
D6 giá trị của DTN
Yêu cầu quan trọng nhất của ĐTN với tư cách là một phép đo lườngtrong giáo dục là phép đo ấy đo được cái cần đo Nói cách khác, phép đo ấycần phải đạt được mục tiêu đề ra cho nó Chăng hạn, mục tiêu đề ra cho tuyểnsinh đại học là kiểm tra xem TS có năm chắc những kiến thức và kỹ năng cơban được trang bị qua chương trình phổ thông trung học hay không dé chon
vào học đại học Phép đo bởi DTN dat được mục tiêu đó là phép đo có giá tri.
Nói cách khác, độ giá trị của ĐTN là đại lượng biểu thị mức độ đạt được mụctiêu dé ra cho phép đo nhờ DTN
Dé DTN có độ giá trị cao, cần phải xác định tỉ mi mục tiêu cần do qua
ĐTN và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng CH Yêu cầuquan trọng nhất của DTN với tư cách là một phép đo lường trong giáo dục là
phép đo ấy đo được cái cần đo Nói cách khác, phép đo ấy cần phải đạt được
mục tiêu đề ra cho nó Chang han, muc tiéu dé ra cho tuyén sinh đại hoc làkiểm tra xem TS có nắm chắc những kiến thức và kỹ năng cơ bản được trang
bị qua chương trình phổ thông trung học hay không dé chọn vào học dai học.Phép đo bởi DTN dat được mục tiêu đó là phép do có giá trị Nói cách khác,
độ giá trị của DTN là đại lượng biểu thị mức độ đạt được mục tiêu dé ra cho
phép đo nhờ DTN.
Dé DTN có độ giá tri cao, cân phải xác định tỉ mỉ mục tiêu cân đo qua
14
Trang 24DTN và bam sát mục tiêu đó trong quá trình xây dựng ngân hàng CH
1.2.2 Kiểm tra đánh giá
Trong lịch sử phát triển ngành đo lường và đánh giá trong dạy hoc, đã có
không ít quan điểm/cách tiếp cận khác nhau khi xác định khái niệm kiểm tra
không đề cập mục đích của hoạt động
Trong tài liệu “Educational Assessment of Student” về Assessment
Theo A Nitko đã nhận định: “ Kiểm tra đánh giá (assessment) là một thuật
ngữ rộng, được định nghĩa như một quá trình thu nhận thông tin được sử dụng
các thông tin này cho việc ra quyết định về học sinh; chương trình học, trườnghọc và các chính sách giáo dục Các quyết định liên quan tới học sinh baogồm quản lí hoạt động giảng dạy, sắp xếp học sinh theo các chương trình giáodục khác nhau, phân lớp, hướng dẫn và tư vấn, tuyên chon học sinh chonhững cơ hội giáo dục, xác nhận năng lực của học sinh Các quyết định vềgiáo trình, chương trình học và trường học bao gồm các quyết định về hiệuquả của chúng (đánh giá tổng kết) và về các phương pháp để phát huy khảnăng của học sinh (đánh giá trong tiến trình)
Theo Chương trình hiệu quả dạy học, “ Kiểm tra đánh giá là quá trìnhthu thập và thảo luận về thông tin từ nhiều nguồn khác nhau nhằm có đượcmột sự hiểu biết sâu sắc về những điều người học biết, hiểu và có thé làm vớikiến thức của mình, như là kết quả của quá trình học tập của người học;
mục đích cuối cùng của quá trình KTĐG là kết quả KTĐG được sử dụng dé
nâng cao chất lượng học tập” Tuy định nghĩa không đề cập bản chất của quá
trình đánh giá là xử lý thông tin thu thập được, nhưng đã cho chúng ta mộtkhái niệm tương đối cụ thể, đặt trong bối cảnh giáo dục — dạy học Mục tiêu
15
Trang 25cuối cùng, cao nhất của hoạt động KTĐG đã được nêu rõ: nâng cao chất
lượng học tập.
Khi nhắc tới kiểm tra đánh giá trong giáo dục, người ta thường hay thay
các thuật ngữ: Bài kiểm tra (test), đo lường (measurement), Kiểm tra đánh giá(Assessment) và Đánh giá (Evaluation) Có thể hiểu một cách đơn giản: Bài
kiểm tra là công cụ được sử dụng trong kiểm tra đánh giá, Do lường là quá
trình gan các con số vào các cá thé theo một hệ thống quy tắc nào đó dé phục
vụ cho kiểm tra đánh giá Ngoài thông tin từ đo lường trong kiểm tra đánhgiá, dựa trên các thông tin khác để các nhà giáo dục đưa ra các quyết định,
đây chính là Đánh giá.
1.2.3 Cân bằng dé thi (test equating)
1.2.3.1 Dé thi
Trong tiếng Anh, có 2 thuật ngữ tương đương với từ đề thi trong tiếng
Việt Đó là “test” và “exam”.
Cả hai từ “test” và “exam” có thé được coi là đồng nghĩa và có thé được
sử dụng thay thế cho nhau Về cơ bản, cả hai đều được hiểu là công cụ để
đánh giá kỹ năng hoặc kiến thức, trình độ của người học Người ta có thể
phân biệt hai thuật ngữ này dựa trên ngữ cảnh mà chúng được sử dụng Tuy
nhiên, trên thực tế, giữa hai từ vẫn có khác biệt nhất định Khác biệt đó chính
là “Exam” mang tính chính thức hơn so với “Test” Nếu như “Test” là công
cụ để kiểm tra trình độ, kiến thức của học sinh, giáo viên dựa trên kết quả dé
điều chỉnh nội dung, tài liệu giảng dạy Thi “Exam” có tinh quyết định học
sinh đã đậu hay trượt một khóa học/lớp học Nhưng về CƠ ban, “test” là thuật
ngữ chung được sử dụng rộng rãi hơn.
Trong phần Glossary của cuốn "Assessment Standards for SchoolMathematics" (1995), nhóm tác giả đưa ra định nghĩa về Test như sau “Test:Một công cụ đo lường để đánh giá kết quả học tập của học sinh Kiểm tratruyền thong là một hoạt động được tô chức một lần, một chiều, và có quy
định thời gian.” Tác giả Brown (1970) nhận định rằng “Test” là công cụ đo
16
Trang 26lường khả năng, kiến thức của một cá nhân.
Tại Việt Nam, khi nhắc tới kiểm tra, người ta thường nghĩ ngay tới
“bài/đề kiểm tra” hoặc “bài/đề thi” Cũng giống như tiếng Anh, hai từ “kiểmtra” và “thi” thường có thể sử dụng thay thế cho nhau, dùng để chỉ “công cụ
đo lường trình độ, kiến thức của hoc sinh” Và từ “thi” mang tính chính thứchơn từ “kiểm tra” Kiểm tra có nhiều hình thức như kiểm tra miệng, kiểm traviết, kiểm tra thực hành; và nhiều loại như kiểm tra thường xuyên, kiểm trađịnh kỳ Câu hỏi trong bài kiểm tra có thể là câu trắc nghiệm hoặc câu tựluận Kiểm tra có thé tô chức trong trường, lớp hoặc ngay tại nhà, và thường
số lượng mẫu không lớn Còn đối với thi, thường được dùng cho phạm vi lớnnhư thi Tốt nghiệp, thi Đại học Mặc dù vậy, hai thuật ngữ này vẫn có thểcoi là đồng nghĩa và có thé dùng thay thé cho nhau trong nhiều trường hop
Ở phạm vi nghiên cứu của đề tài, tất cả các bài kiểm tra hay thi đềuđược hiểu “dé thi”
1.2.3.2 Cân bằng dé thi (test equating)
oe
Thuật ngữ “equating” xuất phát từ động từ “equate” Theo từ điểnCambridge, “equate” có nghĩa là “coi một thứ giống hoặc bằng một thứ khác”
Cân bằng trong lĩnh vực đo lường đánh giá được hiểu là quá trình thống
kê được sử dụng dé điều chỉnh điểm trên các bài kiểm tra sao cho điềm trên
các bài kiểm tra có thê được sử dụng thay thế cho nhau Việc cân bằng chỉđiều chỉnh sự khác biệt về độ khó của hình thức kiểm tra, không phải sự khác
biệt về nội dung “Test equating” — “Cân bằng đề thi” theo Angoff (1971) là
quá trình thống kê để xác định điểm số có thể so sánh được trên các hình thứckhác nhau của một kì thi Nó có thé được thực hiện dựa trên lý thuyết cô điểnhoặc lý thuyết ứng đáp câu hỏi Trong IRT, cân bằng được hiểu là quá trình xếp
điểm từ hai hoặc nhiều bài kiểm tra vào một thang điểm chung Kết quả của cân
bằng là điểm của hai hoặc nhiều bài kiểm tra được đặt trên cùng một thang đo và
có thé so sánh với nhau Định nghĩa này cho thay giới hạn của “cân bằng đề thi” ởđây chi là việc “cân băng điểm thi” Nói một cách chính xác, “test equating” trong
17
Trang 27định nghĩa của Angoff thực chat là “equating test score”.
Trên thực tế, sự khác biệt về điểm số không chỉ do sự khác biệt về độkhó của các dạng bài kiểm tra Có thê xảy ra trường hợp một nhóm thí sinh có
khả năng hơn nhóm còn lại Theo nghĩa này, định nghĩa cân băng nên coiđiểm của hai hình thức kiểm tra là tương đương nhau trong một nhóm người
dự thi nếu họ đại diện cho cùng một vi tri tương đối trong nhóm (Livingston2004) Quá trình cân bằng các bài kiểm tra không chỉ bao gồm việc điều chỉnhđiểm số sao cho sự khác biệt về độ khó có thé được san băng mà còn cần xemxét các khía cạnh ban đầu để xây dựng các bài kiêm tra một cách can thận(hay nói cách khác các hình thức kiểm tra khác nhau về nội dung hoặc có sốlượng câu hỏi không thể được coi là song song) Do đó, cân băng đề thi ở đâyđược hiểu là việc sử dụng mô hình và phương pháp thống kê dé so sánh điểmkiểm tra giữa hai hoặc nhiều bài kiểm tra, để cho điểm trên các bài kiểm trakhác nhau này, nhằm đo lường cùng một thuộc tính nào đó có thé được sửdụng thay thế cho nhau (Holland và Rubin 1982; von Davier và cộng sự 2004;
Dorans và cộng sự 2007; von Davier 2011; Kolen và Brennan 2014) Với
định nghĩa này “test equating” có thé hiểu là “equating test dạng thức” Theođịnh nghĩa này, cân bằng dé thi không phải chỉ dừng lại ở việc cân bang điểm
số, mà phải đi xa hơn Từ cân bằng điểm số dé đánh giá lại các đặc điểm củacác thành phần của đề thi (câu hỏi, độ tin cậy, số lượng câu hỏi ), từ đóchỉnh sửa để chúng tương đương, có thể thay thế cho nhau
1.2.4 Vai trò của cân bằng dé thi trong kiểm tra đánh giá
Trong các lĩnh vực khác nhau, người ta thường quan tâm đến việc sosánh các phép đo đến từ một hiện tượng chung: “Tính so sánh của các phép
đo được thực hiện trong các trường hợp khác nhau bằng các phương pháp và
người thực hiện khác nhau là tiền đề cơ bản cho tất cả các ngành khoa học”
(Dorans và Holland 2000) Đặc biệt trong lĩnh vực đo lường giáo dục, khả
năng so sánh của điểm các bài kiểm tra được quan tâm vì những điểm số nàyđược sử dụng để đưa ra các quyết định Các chương trình đánh giá giáo dục
18
Trang 28hiện đại được sử dụng cho nhiều mục đích khác nhau: để cải thiện việc họctập của học sinh, điều chỉnh các tiêu chuẩn nội dung thông qua hướng dẫn cải
tiến dựa trên kết quả đánh giá; để bổ sung cho chương trình giảng dạy hoặc
phương pháp giảng dạy; dé thông báo cho giáo viên/ học sinh về sự tiễn bộcủa họ; dé thông báo cho công chúng về kết quả hoạt động của trường; được
sử dụng như một hướng dẫn trong việc ra quyết định về học sinh, giáo viênhoặc trường học; và cung cấp các so sánh dữ liệu khác nhau (Redfield, 2001).Đôi khi, kết quả từ điểm số không dẫn đến hậu quả nghiêm trọng ví dụ nhưcác bài kiểm tra miệng, 15 phút, 1 tiết , nhưng rất nhiều trường hợp, điểm sốmang tính quyết định Ví dụ: Điểm số rất quan trọng trong việc xác định
tuyển sinh đại học, cấp học bồng, dé theo dõi sự tiến bộ trong thành tích, dé
xác định nang lực trong một nhiệm vu cụ thé ; Vi vay, diéu quan trong 1a
phải báo cáo điểm số một cách công bằng và chính xác Trên thế giới, vì ly dobảo mật, các chương trình đo lường thường tạo ra các dạng bài kiểm tra khácnhau nhăm đo cùng một thuộc tính Mặc dù, trong việc xây dựng đề, người
làm dé đã cố gắng hết sức dé tạo ra các bài kiểm tra song song nhất có thé,
nhưng sự khác biệt về độ khó của các bài kiểm tra khác nhau là không thểtránh khỏi Do đó, rất có thé một số thí sinh làm bài kiểm tra dé hơn so với thi
sinh khác Khi mức độ của các đặc điểm như vậy là quan trọng đối với các
quyết định, sẽ không công bằng khi xác định điểm cao hơn cho một số nhómthí sinh chỉ vì bài kiểm tra của họ đễ dàng hơn so với bài kiểm tra cuả nhóm
khác Nói cách khác, nếu các bài kiểm tra được cân băng thì sẽ công bằng khi
thực hiện với các nhóm thí sinh khác nhau và có thể coi điểm số của các bàikiểm tra đó cùng từ một bài kiểm tra Cân bằng đề thi được sử dụng để giảiquyết những vẫn đề đó (Kolen & Brennan, 2004; vonDavier, Holland, &
Trang 29- Thur nhất, cân bằng đề thi giúp điểm thi của các thí sinh thi các mã đề
hoặc thi các đợt thi khác nhau sẽ có ý nghĩa tương đồng Điểm được cân bang
sẽ có ý nghĩa đo lường độc lập với độ khó của các mã đề khác nhau Điều này
tạo ra sự công bằng cho thí sinh thi các mã đề khác nhau
- Thứ hai, cân băng điểm thi giúp cho một định dạng đề thi có thể
được sử dụng nhiều lần từ năm này qua năm khác mà không làm thay đổi giá
trị của điểm thi Một thí sinh có thé sử dụng điểm thi từ năm trước dé ứngtuyển vào một cơ sở giáo dục đại học ở năm nay Khi đó, các cơ sở giáo dụcđại học cũng không phải lo lắng về giá tri điểm thi
- Thứ ba, cân bằng điểm thi giúp tăng độ bao mật của các kỳ thi Khimột kỳ thi có càng nhiều bài kiểm tra, thì khả năng để thí sinh gian lận (nhìn
bài, học thuộc) càng giảm di.
1.3 Thuộc tính của cân bằng đề thi
Đối với cân bang dé thi, có một số thuộc tính cơ bản mà hầu như dù ởphương pháp nào cũng có thê thấy được, bao gồm:
e Tính đối xứng: thuộc tính này yêu cầu rằng hàm số (function) được
sử dung dé chuyền đổi điểm từ dạng thức X theo thang điểm của dạng thức Y phải là nghịch đảo của hàm được sử dụng đề chuyên đổi điểm từ dạng thức Y
theo thang điểm dạng thức X:
Form X Form Y
—_——_>
Hình 1.1 Tinh đối xứng của cân bằng
e Thông số kỹ thuật giống nhau: các thông số ở đây có thé là cầu trúc dé
hoặc độ tin cậy của 2 hoặc nhiều đề thi không có cùng cấu trúc thì gần
20
Trang 30như không thể đưa ra được các thông số kết quả tương đương nhau.Mặt khác, độ tin cậy không tương đương sẽ ảnh hưởng đến tính côngbăng của điểm số Cần có đủ độ tin cậy để đảm bảo rằng các kết quảđược liên kết để cân bằng có đủ thông tin để được chấp nhận sử dụng
cho từng cá nhân (Dorans NJ, 2004).
e Tính công bằng: Thuộc tính này có nghĩa là không có sự khác biệt đối
với thí sinh dù là Dạng thức X hay Dạng thức Y Hay nói cách khác, thí
sinh được công bố điểm thực (true score), diém này có cùng độ khó, độ
lệch chuẩn, phân bố phổ điểm khi chuyển đổi từ Dạng thức X hoặc
Dạng thức Y.
e Điểm số quan sát (observed score) tương đương: Phương pháp điểm số
quan sát không trực tiếp xem xét điểm số thực hoặc các biến số khôngđược quan sát khác, do đó ít phức tạp hơn Trong cân bằng điểm sốquan sat, các đặc điểm của sự phân bố điểm số được đặt băng nhau cho
một nhóm người kiểm tra cụ thể (Angoff, 1971) Đối với thuộc tính cân
băng phân vị tương đương (EEP), điểm được chuyển đổi trên Dạngthức X có cùng phân phối với điểm trên Dạng thức Y Thuộc tính nàyngụ ý rằng phân phối tích lũy của điểm cân bằng trên Dạng thức Xbăng với phân phối tích lũy của điểm trên Dạng thức Y
e Nhóm/mẫu bat biến: Mối quan hệ cân bang là như nhau bat kể nhóm
kiểm tra được sử dụng dé tiến hành cân bang Vi du: nhóm nam, nhóm
nữ Dorans va Holland (2000) đã phat triển các quy trình và thống kê
dé điều tra sự bat biến của nhóm
Từ những thuộc tính trên, có thể thấy, dé cân băng đề thi được tiến hành một
cách thuận lợi, cần đáp ứng được các yêu cầu:
e Điều kiện đo giống nhau, ví dụ: kiểm tra có hoặc không có máy tính,
kiểm tra trước và sau khi tham gia một khóa học;
e Mau tham gia 2 bài kiểm tra là như nhau Vi dụ: cùng học lớp 5, cùng
học chương trình mới.
21
Trang 31So sánh cân bằng và các kiểu liên kết khác
Năm 1992, Mislevy đã mô tả bốn kiểu liên kết (linking) các dạng thứckiểm tra: moderation (điều tiết), projection (suy chiếu), calibration (hiệuchuẩn) và equating (cân băng) (Mislevy, 1992, trang 21-26) (Liên kết ở đây
là việc điều chỉnh các mô hình thống kê đối với điểm số của các bài kiểm trakhác nhau về nội dung hoặc độ khó hoặc cả hai Về lý thuyết, bất kỳ tập hợpđiểm nào cũng có thể được liên kết bằng cách sử dụng nhiều quy trình (Linn,1993; Mislevy, 1992)) Trong mô hình của Mislevy, điều tiết là hình thức yếunhất của các bài kiểm tra liên kết (linking test), trong khi cân bằng được coi là
hình thức mạnh nhất Vì vậy, cân băng được thực hiện dé làm cho các điểm số
có thê hoán déi cho nhau tốt nhất có thể
Sẽ rất hữu ích khi xem xét cân bằng như là một phần của một chuỗi liên
kết, như thê hiện trong Hình 1.2 dưới đây Hình này cho thấy cân bằng được
coi là loại liên kết mạnh nhất, với tất cả các hình thức liên kết khác yếu hơn ở
phía bên trái.
Scores do NOT Scores have
have the same the SAME
Linear Common ltem
Equipercentile Common Person
Pool/Item Bank Development Pre- and Post-equating
Hinh 1.2 Chudi lién két
22
Trang 32Hình thức cân bằng của chuỗi liên kết này cũng đại diện cho các giảđịnh khắt khe nhất cho phép điểm số từ hai hoặc nhiều dạng thức kiểm trađược sử dụng thay thế cho nhau Các liên kết không thé đáp ứng các yêu cầunghiêm ngặt của việc cân bằng vẫn có thé được mô tả là một phần của chuỗi
liên kết, nhưng không thể mang lại sự tương đương như hình thức cân bằng
Có thê hiểu 4 thuật ngữ như sau:
- Cân bằng (equating): Theo Kolen và Brennan (2004), cân bằng là hìnhthức cho phép đo lường cùng một thứ (một nội dung); điểm số có thé hoán đổicho nhau và mối quan hệ bất biến cho các nhóm mẫu Đồng thời, trong cânbăng, các dạng thức có độ khó tương đương và độ tin cậy ngang nhau
- Hiệu chuẩn (calibration): Theo Kolen và Brennan (2004), hiệu chuẩn
là hình thức liên kết thực hiện với các dạng thức kiểm tra có cùng thông số kỹthuật về nội dung nhưng khác về các thông số kỹ thuật thống kê (số lượng câuhỏi) (Feuer và cộng sự, 1999) Ngoài ra, có thể hiểu hiệu chuẩn là việc đặt tất
cả các câu hỏi lên cùng một miền trên một thang đo chung Ví dụ như: mộtnhóm các câu hỏi không tốt đã được hiệu chỉnh được sử dụng dé xây dungcác dang thức có cùng nội dung và thong số kỹ thuật thống kê sao cho điểm
số thực có thê tương đương nhau Các mối quan hệ của hiệu chuẩn không cókhả năng bat biến giữa các nhóm mẫu khác nhau
- Suy chiếu (projection): Đây là hình thức dự đoán điểm của một bàikiểm tra từ một bài kiểm tra khác Kolen và Brennan (2004) cho rằng khácbiệt chính giữa suy chiếu và cân bằng, hiệu chuan là: (i) suy chiếu chỉ có tínhmột chiều; (ii) chi dùng cho thiết kế nhóm đơn; (iii) không có yêu cầu ưu tiênrang cấu trúc giữa các dạng thức phải giống nhau; (iv) mối quan hệ suy chiếuhầu như đều thực hiện cho mô hình hồi quy (tuyến tính hoặc phi tuyến tính)
- Điều tiết (moderation): Theo Mislevy (1992), mục tiêu của điều tiết là
để so sánh điểm số từ các bài kiểm tra khác nhau không đo cùng một thứ Nếuhai bài kiểm tra có thể được thực hiện hợp lý cho cùng một học sinh, thì việc
23
Trang 33điều tiết các thống kê chỉ cần áp dụng công thức cân bằng đơn giản mà khôngyêu cầu các giải thích từ lý thuyết đo lường Theo Feuer và cộng sự (1999),điều tiết là hình thức liên kết yếu nhất Nó được sử dụng khi các bài kiểm tra
có các thiết kế khác nhau và được giao cho các nhóm mẫu khác nhau, khôngtương đương Kết quả của điều tiết chỉ có giá tri dé thực hiện một số so sánh
chung chung.
Có nhiều công cụ hoặc quy trình khác nhau để liên kết các dạng thứckiểm tra, một số sử dụng Lý thuyết khảo thí cô điển (CTT) trong khi nhữngcông cụ khác dựa trên Lý thuyết ứng đáp câu hỏi (IRT) Tat cả các quy trìnhnày có thể được sử dụng để cho hình thức cân bằng cũng như các hình thứcliên kết khác Tuy nhiên, điều cần quan tâm là khi được sử dụng để cân bằng,các quy trình này áp dụng cho các bài kiểm tra được xây dung “song song” déđiểm số trên nhiều dạng thức có cùng ý nghĩa hoặc cách giải thích Có nhữngđịnh nghĩa kỹ thuật nghiêm ngặt về “song song” trong bối cảnh này nhưng về
cơ bản, nó có nghĩa là các dạng thức kiểm tra được xây dựng dé đo lường
cùng một nội dung, ở cùng mức độ về nhận thức, và có cùng sự tô chức của
các câu hỏi (định dạng câu hỏi, số lượng câu hỏi ) và sử dụng cùng một địnhdạng kiểm tra (ví dụ: kiểm tra trên giấy, kiểm tra trên máy) Khi các dạngthức kiểm tra được thiết kế song song, nhiệm vụ còn lại để cân bằng là tạo ra
sự tương đương giữa các điểm số, điều này cho phép điểm số của mỗi dạngthức được sử dụng thay thế cho nhau
24
Trang 34CHUONG 2: THIẾT KE VA TO CHỨC NGHIÊN CỨU2.1 Các phương pháp cân bằng đề thi
2.1.1 Nhóm tương đương/ngẫu nhiên (Equivalent/Random groups design)
Trong hầu hết các tình huống như nhau, không có cơ hội dé cùng một thí
sinh làm hai dang bài thi Vậy chúng ta có thé làm gì nếu mỗi thí sinh chỉ làmmột dạng bài thi? Giải pháp đơn giản nhất là có một nhóm thí sinh riêng biệtlàm từng dạng bài, đảm bảo rằng cả hai nhóm đều đồng đều về kiến thức và
kỹ năng mà bài thi đo được Nhưng có thể thực sự làm điều đó hay không?Thông thường, không bao giờ có thể làm cho các nhóm mẫu bằng nhau mộtcách chính xác, nhưng nếu số lượng người dự thi đủ lớn, chúng ta có thể xemxét rằng các nhóm mẫu đã tiệm cận nhau, hay nói cách khác là hai nhóm mẫu
đã tương đương nhau về trình độ (Brennan, 2006) Cách tốt nhất dé làm điều
đó là "xoay vòng các hình thức kiểm tra” Thuật ngữ này có nghĩa là: đóng
gói hai dạng thức bài kiểm tra theo trình tự xen kẽ: dạng thức mới, dạng thức
tham chiếu, dạng thức mới, dạng thức tham chiéu, Cách giao dạng thứckiểm tra cho thí sinh này đảm bảo rằng các nhóm thí sinh tham gia hai dạngthức này sẽ giống nhau về nhiều mặt: địa điểm làm bài, thời điểm làm bài, vịtrí ngồi trong phòng thi Nếu bat kỳ sự khác biệt nào trong số này có liênquan đến sự khác biệt về kiến thức hoặc kỹ năng của thí sinh, thì việc xoayvòng các dạng thức kiểm tra sẽ có xu hướng cân bằng sự khác biệt Ví dụ,
những người dự thi tại một địa điểm thi cụ thể có thé đặc biệt giỏi hơn Việc
xoay vòng các dạng thức thi đảm bảo rằng người dự thi tại điểm thi đó sẽđược chia đều giữa dạng thức mới và dạng thức tham chiếu
Nhóm 1 Người dự thi
ngẫu nhiên
Hình thức kiểm tra A
Nhóm 2
Người dự thi
ngẫu nhiên Hình thức kiểm tra B
Hình 2.1 Thiết kế nhóm tương đương
25
Trang 35Giả định của thiết kế các nhóm tương đương là mối quan hệ đồngđều được quan sát thấy giữa hai nhóm người dự thi sẽ tổng quát cho tổngthé thí sinh Hai nhóm có thể khác với tổng thé thi sinh, miễn là cả haiđều khác theo cùng một cách Nếu nhóm lấy mẫu mới nhiều hơn tổng théthí sinh, thì nhóm lấy mẫu tham chiếu cũng phải nhiều hon tông thé thí sinh,
ở cùng một mức độ.
Thiết kế nhóm tương đương có một số ưu điểm thực tế quan trọng
e Việc quản lý, giám sát khá thuận tiện — miễn là những người quản
lý, giám sát và thực hiện triển khai kiểm tra hiểu răng họ phải phân phát các
dạng thức kiểm tra theo thứ tự mà chúng đã được đóng gói Nó thậm chí còn
dễ thực hiện hơn nếu bài kiểm tra được quản lý bằng máy tính Việc để máytính ấn định một mẫu bài thi cho mỗi thí sinh sẽ giúp loại bỏ nguy cơ ngườiquản lý bài thi sẽ không phân phát các tập tài liệu thi theo thứ tự mà chúng đã
được đóng gói Thiết kế này không yêu cầu hai dạng thức kiểm tra có bất kỳ
câu hỏi chung nao, nhưng nó có thé được sử dụng ngay cả khi chúng có
e Tác động đối với thí sinh là tương đối thấp khi không có thí sinh nàophải làm cả hai dạng thức kiểm tra Do đó, thiết kế này tránh được van dé vềhiệu ứng thứ tự Đây là hiệu ứng đề cập đến sự khác biệt trong kết quả thi do
học sinh đã có kinh nghiệm làm một dạng thức trước, từ đó có khả năng làm
tăng kết quả làm dạng thức sau
Tuy nhiên, thiết kế nhóm tương đương cũng có một số hạn chế lớn
e Hạn chế chính của nó là để tạo ra kết quả cân bằng chính xác, nó đòihỏi một số lượng lớn người dự thi So với thiết kế đối trọng, thiết kế nhómtương đương có thé yêu cau số lượng người dự thi nhiều gấp từ 5 đến 15 lần
cho cùng một mức độ chính xác.
e Hạn chế thứ hai liên quan đến bảo mật thử nghiệm Trong hầu hếtcác trường hợp, dạng thức tham chiếu sẽ được quản lý trước đó Trong một sốbài kiểm tra, có một rủi ro đáng ké là nhiều người dự thi sẽ nhìn thấy (và thậmchí đã nghiên cứu) các câu hỏi trong dạng thức kiểm tra tham chiếu đã được
26
Trang 36sử dụng trước đó Trong các bài kiểm tra đó, có thé không thé lấy dữ liệu cânbằng hợp lệ từ thiết kế các nhóm tương đương, vì việc chuyền đổi từ điểm thô
ở dạng thức tham chiếu có thể không chính xác đối với những người dự thi đã
xem trước các câu hỏi.
2.1.2 Nhóm đơn (Single group design)
Phương pháp cân bằng đơn giản nhất là để cùng một thí sinh làm cảdạng thức mới và dạng thức tham chiếu Phương pháp cân bang này được gọi
là Phương pháp "nhóm đơn" Giả định thứ nhất là mối quan hệ cân bằng màchúng ta quan sát được ở nhóm người dự thi này sẽ tổng quát cho nhóm đốitượng mục tiêu Giả định thứ hai: một số hoạt động nhất định có thể ảnhhưởng đến kết quả làm bài giữa hai dạng thức nhưng ảnh hưởng này khôngđáng ké (Ví dụ: dang thức A có những câu hỏi có nội dung gợi ý cho dạngthức B; ) Không nhất thiết nhóm người dự thi phải là mẫu đại diện cho tổngthé thí sinh Nhóm làm bài kiểm tra có thể mạnh hon so với nhóm đối tượng,miễn là những người tham dự bài kiểm tra mạnh hơn ở cùng một mức độ trênbiểu mẫu mới như trên mẫu tham khảo Tương tự, nhóm thực hiện bài kiểmtra có thể yếu hơn so với tổng thể thí sinh, hoặc đa dạng hơn, hoặc ít đa dạnghơn — miễn là những người làm bài kiểm tra khác với nhóm tông thể thí sinh
theo cùng một cách trên biêu mau mới cũng như trên biêu mâu tham khảo.
Trang 37Ưu điểm:
e Ưu điểm chính của thiết kế nhóm don là do những người dự thi giống
nhau thực hiện cả hai hình thức của bài thi nên nó có ý nghĩa lớn về mặt thống kê
So với hầu hết các thiết kế cân bằng khác, nó cung cấp một sự cân bằng chính xác
cao liên quan đến số lượng thí sinh dự thi có trong thiết kế Theo cách khác, nó
yêu cầu ít người dự thi hơn cho một mức độ chính xác nhất định
e Ngoài mục đích phục vụ cho cân băng đề thi, thiết kế nhóm don cóthể được dùng dé tạo ra các phiên bản nhỏ của một dạng thức kiểm tra lớn,sau khi người kiểm tra hoàn thành tất cả các phiên bản nhỏ, có thể loại bỏ một
số câu hỏi và tạo thành một phiên bản đề mới ngắn gon hơn bản gốc
Hạn chế:
e Hạn chế chính của thiết kế nhóm đơn là hiệu suất của thí sinh ở dạng
thức kiểm tra thứ hai mà họ thực hiện có thể bị ảnh hưởng sau khi tham giadạng thức kiểm tra đầu tiên Thiết kế nhóm đơn rất nhạy cảm với hiệu ứng thứ
tự Trừ khi chấp nhận giả định cho răng những ảnh hưởng này là không đáng
kể, còn không chỉ có thể sử dụng thiết kế nhóm đơn nếu thí sinh làm cả hai
hình thức cùng một lúc.
Nhưng làm thế nào chúng ta có thể có cùng một người dự thi làm cảdạng thức mới và dạng thức tham chiếu cùng một lúc? Một tình huống nhưvậy xảy ra khi chúng ta phải xóa một hoặc nhiều câu hỏi khỏi bài kiểm tratrước khi sử dụng lại (Điều đó có thể xảy ra vì một số lý do khác nhau, baogồm cả kiến thức mới trong môn học được kiểm tra hoặc thay đổi trong cáchdạy môn học.) Trong tình huống này, dạng thức mới chỉ đơn giản là dạng thứctham khảo trừ đi các câu hỏi bị xóa Dé cân bằng, chúng ta cần sử dụng dữliệu từ một nhóm thí sinh đã làm bài kiểm tra trước khi những câu hỏi đó bịxóa Sau đó tính hai điểm số khác nhau cho mỗi người dự thi: điểm số làmdạng thức tham chiếu bao gồm các câu hỏi đã xóa và điểm số làm dạng thức
mới Những điểm số này là cơ sở dé cân bằng
Chúng ta cũng có thé sử dụng thiết kế nhóm đơn khi một hoặc nhiều câu
28
Trang 38hỏi được thêm vào bài kiểm tra Để cân băng, chúng ta sử dụng dữ liệu từ mộtnhóm thí sinh đã làm bài kiểm tra với các câu hỏi mới được đưa vào Trongtrường hợp này, điểm số của dạng thức mới sẽ bao gồm các câu hỏi mới;điểm của dạng thức tham chiếu sẽ loại trừ chúng.
Một tình huống khác xảy ra trong kiểm tra có sử dụng các câu hỏi luận(kiểm tra tiểu luận, đánh giá hiệu suất, v.v.) Đôi khi, dạng thức mới của bàikiểm tra chứa các câu hỏi hoặc van đề giống hệt như dạng thức tham chiếu —
sự khác biệt nằm ở quy tắc hoặc quy trình cho điểm Trong trường hợp đó,chúng ta có thể cân bằng điểm của biểu mẫu mới với điểm của dạng thứctham chiếu bằng cách cho một nhóm câu trả lời của thí sinh đạt điểm số hailần Vì các câu hỏi giống nhau ở cả hai dạng thức, nên những câu trả lời này
có thê đến từ những thí sinh làm bài theo dạng thức mới hoặc từ những thí
sinh làm theo dạng thức tham chiếu (hoặc cả hai) Việc chấm điểm đầu tiên
được thực hiện với các quy tắc và quy trình cho điểm được sử dụng trên dạngthức tham chiếu; việc ghi điểm thứ hai được thực hiện với các quy tắc và quy
trình tính điểm được sử dụng trên dạng thức mới Đối với mỗi người dự thi,
tính điểm dạng thức mới dựa trên xếp hạng được chỉ định với quy tắc và quytrình chấm điểm dạng thức mới, và điểm dạng thức tham chiếu dựa trên xếp
hạng được chỉ định với quy tắc và quy trình cho điểm của dạng thức thamchiếu
2.1.3 Đối trọng (Counterbalanced design)
Trong tình huống cân bằng thông thường — hai dạng thức kiểm tra thực
sự là những dạng thức khác nhau, không chỉ là những phiên bản khác nhau
của cùng một dạng thức — van đề về hiệu ứng thứ tự làm cho thiết kế cânbăng nhóm đơn không phù hợp Một cách dé khắc phục van dé là chia thí sinhthành hai nhóm và đối trọng thứ tự các nhóm làm hai dạng Một nhóm làmdạng thức mới trước và dạng thức tham chiếu sau; nhóm còn lại làm dạngthức tham chiếu trước, sau đó mới làm dạng thức mới Thí sinh phải hoànthành 2 dạng thức gần nhau về mặt thời gian — đủ gần để không có sự thayđối thực sự về mức độ kiến thức và kỹ năng mà bài thi đo lường Cách tốt
29
Trang 39nhất là hai nhóm người dự thi càng giống nhau càng tốt (Trong thực tế, thiết
kế này thường tạo ra kết quả tốt ngay cả khi các nhóm khác nhau đôi chút,miễn là sự khác biệt không lớn.) Với thiết kế cân bằng này, tốt nhất là haidạng thức không có bất kỳ điểm chung nào Khi đó, vì các nhóm thí sinhgiống nhau làm cả hai dạng thức kiểm tra, nên bất kỳ khác biệt nào về điểm
số có thể là do độ khó khác nhau của các dạng thức (điều này dựa trên giảthiết rằng các dạng thức được xây dựng song song về nội dung)
Giả định chính của thiết kế đối trọng là bất kỳ hiệu ứng thứ tự nào cũng
sẽ cân bằng Khi sử dụng thiết kế này, chúng ta giả định rằng quá trình làmdạng thức mới sẽ ảnh hưởng đến hiệu suất làm dạng thức tham chiếu cũnggiống như việc làm dạng thức tham chiếu sẽ ảnh hưởng đến hiệu suất làmdạng thức mới Vì lý đo này, nên tránh để hai nhóm có chênh lệch về năng lựckhi làm các dạng thức Nếu nhóm làm dạng thức mới trước về cơ bản giỏi hơnnhóm làm dạng thức tham chiếu trước (hoặc ngược lại), có thể có hiệu ứngthứ tự không cân bằng
Như trong thiết kế nhóm đơn, các nhóm không nhất thiết phải đại diệncho tổng thể thí sinh Chúng có thé mạnh hơn một chút hoặc yếu hơn hoặc dadạng hơn hoặc ít đa dạng hơn Thông tin mà chúng tôi giả định sẽ tổng quáthóa từ các nhóm thí sinh này đến tổng thé thí sinh là mối quan hệ cân bằng
Trang 40Uu diém:
e© Ưu điểm chính của thiết kế đối trong cũng giống như thiết kế nhóm
đơn: kết quả chính xác từ một số lượng tương đối nhỏ người dự thi
e Mặt khác, thiết kế này kiểm soát khá tốt hiệu ứng thứ tự
Hạn chế: Hạn chế chính của phương pháp này là nó gần như khôngthực tế Bởi vì, thông thường, thiết kế cân bằng này yêu cầu một nghiêncứu cân bằng đặc biệt dé thu thập dữ liệu, làm cho hai nhóm học sinhgiống nhau một cách chính xác
2.1.4 Câu hỏi neo (Anchor Test design)
Trong nhiều chương trình kiểm tra đánh giá quy mô lớn, việc kiểm trađược tô chức thành các “dot thi” Mỗi dot thi là một khoảng thời gian ngắn(có thể là một ngày) trong đó một số lượng lớn thí sinh dự thi cùng một bàithi Thông thường, tat cả các thí sinh làm bài kiểm tra tại một địa điểm cụ théđều có cùng một dạng bài kiểm tra Nếu hình thức kiểm tra đó chưa được đưa
ra trước đó, điểm số sẽ cần được tính bằng điểm của một dạng thức thamchiếu đã được đưa ra trước đó Trong tình huống phổ biến này, chúng takhông thể cho răng các nhóm thí sinh thi theo dạng thức mới và dạng thức
tham chiếu là ngang nhau về kỹ năng làm bài thi Để cân bằng điểm số, chúng
ta cần sự liên kết giữa các nhóm đó — một số loại thông tin sẽ cho chúng tathấy các nhóm khác nhau như thế nào về các kỹ năng mà bài kiểm tra đolường Và ở đây, sự liên kết đó được thực hiện thông qua các câu hỏi chung.Trong thuật ngữ kiểm tra đánh giá, liên kết này được gọi là "neo" Thiết kếcâu hỏi neo (Anchor Test Design) còn được gọi là thiết kế câu hỏi chung cho
nhóm không tương đương (Common-ltem Nonequivalent Groups Design)(Kolen & Brennan, 2004) hoặc Thiết kế câu hỏi neo cho nhóm không tương
đương (Non Equivalent groups with Anchor Test) (von Davier, 2004) Cac
tên gọi nay đều chỉ ra việc sử dụng một tập hop con các câu hỏi chung/neotrong mỗi dạng thức kiểm tra được đưa vào cân bằng
31