Luận văn thạc sĩ Đo lường và đánh giá trong giáo dục: Các phương pháp cân bằng đề thi trong kiểm tra đánh giá

Hiện nay, tai Việt Nam đã có nhiều kỳ thi sử dụng hình thức thi vớinhiều bài thi có cùng một cấu trúc và/hoặc với nhiều đợt thi khác nhau như kỳthi THPT Quốc gia; kỳ thi đánh giá năng lự

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC GIÁO DỤC

NGUYEN THỊ THU HƯƠNG

CÁC PHƯƠNG PHAP CAN BẰNG DE THỊ

TRONG KIEM TRA ĐÁNH GIÁ

LUAN VAN THAC Si DO LUONG

VA DANH GIA TRONG GIAO DUC

HÀ NOI - 2022

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC GIÁO DỤC

NGUYEN THỊ THU HƯƠNG

CÁC PHƯƠNG PHÁP CAN BANG DE THI

TRONG KIEM TRA DANH GIA

CHUYEN NGANH:

MA SO: 8140115

LUẬN VĂN THẠC SĨ DO LUONG

VÀ ĐÁNH GIÁ TRONG GIÁO DỤC

Người hướng dẫn khoa học: PGS.TS VU DO LONG

HÀ NỘI - 2022

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan, nghiên cứu này là do tôi thực hiện

Các số liệu do tôi khảo sát, các kết luận trình bày trong luận văn là trung

thực và chưa được công bố ở bat kì nghiên cứu nào khác.

Tôi xin cam đoan hoàn toàn chịu trách nhiệm về nghiên cứu của mình

Học viên

Nguyễn Thị Thu Hương

Trang 4

LOI CAM ONTôi xin được bay tỏ lòng cảm cảm on sâu sắc đến PGS.TS Vũ Đỗ Long,người Thầy đã tận tình hướng dẫn, hỗ trợ và động viên tôi trong suốt quá trình

thực hiện luận văn này.

Tôi xin chân thành cảm ơn các chuyên gia về đo lường và đánh giá trong

giáo dục đã tận tình hỗ trợ, tạo nhiều điều kiện giúp tôi hoàn thành luận văn

Cuối cùng tôi xin cảm ơn các Thầy Cô công tác tại Trung tâm Khảo thí đãchỉ bảo tận tình, các thầy cô Trường Tiểu học Yên Phú, Trường Tiểu học Yên

Hưng, Ý Yên, Nam Định giúp tôi có cơ sở dữ liệu dé thực hiện nghiên cứu

Vì luận văn còn nhiều hạn chế nên tôi rất mong nhận được sự góp ý,hướng dẫn của Quý, Thầy, Cô để luận văn hoàn thiện hơn và để rút kinhnghiệm cho những lần nghiên cứu tiếp theo

Xin chân thành cảm on!

Hà Nội, tháng 7 năm 2022

Học viên

Nguyễn Thị Thu Hương

Trang 5

95210005 |

1 Lý do chọn đề tài ¿ - 5c S123 3E E1 1217121111111 1111111111011 erreg |

2 Mục đích nghiên CỨU - - - - G1111 HH kh 3

3 Giới han và phạm vi nghiên cứu của đề tài + + 2+s+s+x+z+ezezrsrxes 3

4 Câu hỏi nghiÊn CỨU - - - - G0011 101 1119 ng nh 3

5 Giả thiết nghiên cứu -2 5c SE2E‡ESE2EEE2EE1E21212121 2111112111111 3

6 Khách thé và đối tượng nghiên cứu - ¿+ +S2+E+E££zEeEerzxrrerszed 3

7 Phương pháp nghiÊn CỨU - - - - c E33 3211333111183 1E 1111 EErkerere 3

8 Cấu trúc của luận văn -:-:- tt St S SE SE SE E nHng ng ri 4CHƯƠNG 1: CƠ SỞ LÝ LUẬN VA TONG QUAN CUA VAN DE NGHIÊN

0005 ,ôÔỎ 51.1 Tổng quan các nghiên cứu về cân bằng đề thi 5-5c s+cccxccsccec 5

1.1.1 Do lường đánh giá trong gid0 ỤC - s65 + 1S ssseekesseeeree 5

1.1.2 Cân băng để thi - ¿+ - SE 321 191911111 1171111111 1111111111 re 7

©0000 o- 10 1.2.1 Các khái niệm cơ bản - - 9S SSSSSSSS SE 10

1.2.2 Kiểm tra đánh giá -¿-5£ Ss+E+ESE2EEEEEEEEEEE12121 2121112111 T.cxeE 151.2.3 Cân bằng dé thi (test equating) -+ 5- + +c++E+Ee£kzEererxrrerreee l61.2.4 Vai trò của cân bang dé thi trong kiểm tra đánh giá . 181.3 Thuộc tính của cân bằng đề thi -¿2-5 2 SE+E+E££E+EeE£EzEerrkereree 20

So sánh cân bang và các kiểu liên kết khác -¿2 z+s+s+s+zszzzxez 22CHƯƠNG 2: THIẾT KE VÀ TÔ CHỨC NGHIÊN CỨU 252.1 Các phương pháp cân bang đề thi 2-5 2 52+E££E£EzEezzxcrxzei 25

2.1.1 Nhóm tương đương/ngẫu nhiên (Equivalent/Random groups design) 25

2.1.2 Nhóm don (Single group desIgn)) - 5s *s**++svvesseesseesrrrs 27

2.1.3 Đối trọng (Counterbalanced design), -. 2-5 s+secs+szxzzzzxee: 29

2.1.4 Câu hỏi neo (Anchor Test design) . <5 s + s+sseessexs 31

Trang 6

2.2 Các phương pháp cân bằng điểm thi ¿2-5 2+s+£+£+EzEe£zx+eecxz 422.2.1 Cân băng tuyến tính ¿ + 5 E+SSE2E£EEEEEEEEEEEEEEEEEEEEEEEEEEEerkrkrree 43

2.2.2 Cân băng phân vị ¿+ ¿5222293212121 21212121212121 1211 ce 47

2.2.3 Cân bằng điểm với [TT -¿+ 2+E+SE+E£EE+EEEEEEEEEEEEErkrrrrrees 502.2.4 Cân bang bằng cách áp dụng hằng số cân bằng - -5- 512.2.5 Can bang bang cách hiệu chuẩn đồng thời (calibration concurrent) 532.2.6 Cân băng thông qua các đường cong đặc tính đề thi 53CHƯƠNG 3: KET QUA PHAN TICH VA THẢO LUẬN - 56

3.1 Thi điểm phương pháp cân bằng đề thi bang câu hỏi neo bên trong 56

3.1.1 Quy trình + SH re 56

3.1.2 Triển khai thí điỂm -2 52 SE+EEE£E2EEEE2EEEEEEEEEEEEEerkrkrrrrei 573.2 Kết quả khảo sát 4 dang thức đề + + s+S£+x££zEezxzEcrxrrerxees 593.3 Cân bằng điểm ¿ 56s S1 E1 E9212121211211121112171211 111111111 ce 623.4 Xây dựng đề thi cân bằng ¿-2 S22 2E 2E 2212121211121 2E xe 653.5 Đánh giá mức độ tương đương của dé thi + 25 +s+s+£sezccscez 69

KET LUẬN VÀ KHUYEN NGHỊ, 2- ¿5 2+SS+2E£x2Ezxezzxrrxzes 73

IV 100)2009:7 0/84.(0 Ồ 75

:1608090 9.1 80

PHU LUC 2 - - G1 1n ni S0

Trang 7

DANH MỤC CHU VIET TAT

ACT American College Testing

CH Cau hoi

Classical Test Theory

CTT Ly thuyết khảo thí cổ điển

ĐHQGHN _ | Đại học Quốc gia Hà Nội

DTN Dé trac nghiém

Item Response Theory

IRT 4 ky Taree

Ly thuyét ứng dap câu hỏi

KTDG Kiểm tra đánh giá

SAT Scholastic Assessment Test

TCC Duong cong dac điểm đặc tính dé thi

TL Tự luận

TS Thí sinh

THPT Trung học phổ thông

Trang 8

DANH MỤC BANG BIEUBảng 2.1 Tóm tắt những ưu điểm và hạn chế chính của các phương pháp cânbăng để thi ¿5c S221 2121 21111 21221212121121112111111111111111111 11 011 1tr 41

Bảng 3.1 Ma trận môn Toán Chung << << S1 kEEkssssseeeese 57

Bảng 3.2 Thiết kế câu hỏi neo ¿52 525v £E£E£EEEEeErEeErrxrkerrree 58Bang 3.3 Thống kê mẫu - ¿2 5£ SE2E£EEEE2EEEEEEEEEEEEEEEEEEEEEEEErrkrree 58

Bang 3.4 Tỷ lệ % tra lời đúng các câu hỏi neo ở từng mã đề 59

Bảng 3.5 Độ khó câu hỏi ở từng mã đề ¿2 + 2+s+Ec££xzEezzxrreree 60

Bang 3.6 Mã hóa câu hỎI - c1 vn HH kt 62

Bang 3.7 Thiết kế dit liệu cân bằng điểm ¿2-5-5252 +££xzE+Ecxzce2 62

Bảng 3.8 Các câu hỏi bi loại ĐỎ - - 5 3332111111 11 kkrresee 64

Bảng 3.9 Xây dựng ma trận đề thi sau cân bằng điểm -. - 66

Bang 3.10 Ma trận sử dụng trong thực nghiệm -.- «<5 << +ssx+ 67

Bảng 3.11 Các thông số về điểm năng lực của thí sinh - 70

Bang 3.12 Kiểm định khác biệt trung bình -2-5-5 2+s+secszx+<cs2 72

Trang 9

DANH MỤC HÌNH

Hình 1.1 Tính đối xứng của cân bằng + 2 +2+s+£z+E+E+ErxzEerrecee 20Hình 1.2 Chuỗi liên kẾt -2-2 52 SSE+E£EE£EE£E£EE£EEEEEEEEEEEErEerkrrerkrei 22Hình 2.1 Thiết kế nhóm tương đương 2 + + 2+s+£+z£+£+z£ezx+zzzxee: 25

Hình 2.2 Thiết kế nhóm đơn - - 2 ¿5252 2ES£+E£E+2E£EE2E£E£EEzEezxzxerxzss 27Hình 2.3 Thiết kế nhóm đối trọng 2 2+ 2+£+E+£££E+E+Ee£xzEezzxzxee 30Hình 2.4 Minh họa thiết kế nhóm câu hỏi neo ¿2 ¿5 2+5: 33

Hình 2.5 Thiết kế câu neo xen kẽ bên trong 2s 2 s+++s+£zs+£+=s2 34

Hình 2.6 Thiết kế câu neo liên tục ¿-¿2 2s 2+x+2++£££++Ezxzzzxezxzxs 34

Hình 2.7 Biéu đồ độ khó: tỷ lệ thí sinh trả lời đúng trong mỗi nhóm 36Hình 2.8 Thiết kế neo bên ngoài 22 + £+E+E+E££E+EeEe£EzEerrxzreree 38Hình 2.9 Phép cân bằng tuyến tính ¿2 + s+S£+x+£++Ee£+zEczxezezxeei 44Hình 2.10 Cân bằng tuyến tính trong nhóm thí sinh tốt và trong nhóm yếu 46Hình 2.11 Thứ hạng phần trăm -2 + 2s s+£££E+E££E+EE+E££x+Ezxezszxees 48

Hình 2.12 Tương đương phân vi tương đương; dang mới khó hơn dạng tham

11 49

Hình 2.13 Minh họa 3 câu hỏi neo ở cấp độ dễ -2 + s+s+sz s2 51

Hình 2.14 Minh họa 3 câu hỏi neo ở cấp độ khó -cc << << <<<<<<⁄ 51Hình 2.15 Cân bằng 2 dạng thức ¿2 + 2 s+E+E££k+EeEezxzEerrxsreree 52Hình 2.16 Hai dạng thức dé sau khi cân băằng -¿2-5 2s +cz+sz s2 52Hình 2.17 Đường cong đặc trưng đề thi ¿5 + z+s+Ee£zxzEezzxsrerez 54Hình 3.1 Quy trình thí điểm phương pháp cân bằng đề thi 56Hình 3.2 Đối sánh điểm năng lực thí sinh -2 2s+s+cz+x+£e£zzx+Eecxz 71

Trang 10

MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm gan đây, đổi mới kiểm tra đánh giá kết qua học tập

được coi là khâu rất quan trọng trong quá trình đổi mới giáo dục Kiểm tra

đánh giá khách quan, nghiêm túc, đúng cách, đúng hướng sẽ là động lựcmạnh mẽ khích lệ sự vươn lên trong học tập, thúc day su tim toi sang tao cua

người học; đồng thời cung cấp thông tin kịp thời dé giáo viên có thé cải tiếnphương pháp giảng dạy Công cụ kiểm tra đánh giá được sử dung phô biếnnhất và thường xuyên nhất là bài kiểm tra Các bài kiểm tra được sử dung détheo dõi, đánh giá trình độ của người học Thông qua kết quả bài kiểm tra, cácquyết định sẽ được đưa ra Có những quyết định đơn giản như xác định học

sinh có học thuộc nội dung bài học hay không, hoặc đánh giá học sinh nào

học tốt nhất, được nhận băng khen Nhưng có những quyết định rất quantrọng Ví dụ như ở cấp độ cá nhân, học sinh dựa trên điểm thi đại học đểquyết định khoa, ngành, trường sẽ đăng ký Cũng căn cứ vào điểm thi đại học,

ở cấp cơ sở giáo dục, nhà trường quyết định điểm chuẩn cho từng khoa

ngành Hoặc như ở cấp cao hơn, chính phủ có thể đưa ra quyết định điều

chỉnh chương trình giảng dạy dựa trên các kết quả kiểm tra đánh giá Dù bất

kế là quyết định gì, thì tính chính xác của thông tin đánh giá cũng là yêu cầuhang đầu Chính vì vậy, kết qua mà cụ thé là điểm số thu được từ các bài kiểmtra phải chính xác đề đưa ra quyết định công bằng, chính xác

Cùng một kỳ kiểm tra đánh giá có thể sử dụng nhiều bài kiểm tra Mặc

dù các bài kiểm tra được xây dựng trên cùng một thang đo, ma trận, cấu trúcnhưng vẫn luôn có thé xuất hiện việc bài kiểm tra này dé hơn bài kiểm trakhác Việc này khiến cho điểm của bài kiểm tra là khác nhau, việc so sánh

xếp hang dựa trên điểm của từng bài kiểm tra là không chính xác Van dé này

càng nghiêm trọng hơn đối với các kỳ kiểm tra được diễn ra ở nhiều thời điểmkhác nhau, ví dụ các kỳ kiểm tra diễn ra trong nhiều năm sử dụng chung một

ngân hàng câu hỏi Trong trường hợp đó, cân băng đề là biện pháp hiệu quả

Trang 11

dé khắc phục những khó khăn kể trên Các phương pháp cân bằng được sửdụng dé cân bằng điểm số từ các bài kiểm tra khác nhau có cùng một định

dạng, băng việc xây dựng một thang đo chung cho tất cả các bài kiểm tra

Cùng với sự phát triển của Khoa học đo lường và đánh giá trong giáo dục, sự

ra đời của các phần mềm phân tích câu hỏi thị, đề thi như R, Quest, Conquest,IATA càng tạo điều kiện hỗ trợ cho sự phát triển của các phương pháp cânbang dé thi Chính vì vậy, có rất nhiều tô chức đã sử dụng cân bằng đề thitrong quá trình ra đề như Viện Khảo thí Giáo dục Hoa kỳ (ETS) với các bài

thi được chấp nhận rộng rãi trên toàn thế giới như TOEFL, TOEIC, GRE,

SAT

Hiện nay, tai Việt Nam đã có nhiều kỳ thi sử dụng hình thức thi vớinhiều bài thi có cùng một cấu trúc và/hoặc với nhiều đợt thi khác nhau như kỳthi THPT Quốc gia; kỳ thi đánh giá năng lực của Dai học Quốc gia Hà Nội,Đại học Quốc gia thành phố Hồ Chí Minh, Đại học Sư phạm Hà Nội, kỳ thiđánh giá tư duy của Dai hoc Bach Khoa Hà Nội ; các ky thi kết thúc họcphần của các trường đại học như Đại học Ngoại thương, Đại học Kinh tế quốcdân ; các chương trình đánh giá diện rộng cấp quốc gia Bên cạnh đó, cáctrường phổ thông cũng đang dần áp dụng hình thức thi như trên trong quátrình đạy và học Tuy nhiên, vẫn còn khá nhiều người đặt ra nghi vấn về tínhcân bằng của các bài thi trong các kỳ thi kế trên Cho tới thời điểm hiện tai,theo hiểu biết của tác giả chưa có một nghiên cứu nào được công bố làm sáng

tỏ cho câu hỏi đó.

Là cán bộ hiện dang công tác tại Trung tâm khảo thí DHQGHN, với

mong muốn được tìm hiểu sâu về lĩnh vực ứng dụng khoa học đo lường giáodục hiện đại để phục vụ tốt hơn cho công tác xây dựng ngân hàng câu hỏi và

đề thi, tạo sự công bằng khách quan, niềm tin cho thí sinh nói riêng và xã hội

nói chung trong các kỳ thi, tác giả quyết định chọn đề tài nghiên cứu “Các

phương pháp cân bằng dé thi trong kiểm tra đánh gia”

Trang 12

2 Mục đích nghiên cứu

- Hệ thống hóa lý thuyết liên quan tới các phương pháp cân bằng đề thi

đã và đang được sử dụng trên thế giới trong các công tác xây dựng đề thi baogồm: các nghiên cứu, các khái niệm, phương pháp sử dung

- Áp dụng và thí điểm phương pháp cân bằng đề thi băng câu hỏi neobên trong đối với đề thi môn Toán lớp 5

3 Giới hạn và phạm vi nghiên cứu của đề tài

Giới han thời gian: Nghiên cứu được thực hiện trong giai đoạn từ năm

4 Câu hỏi nghiên cứu

Câu hỏi 1: Có những phương pháp cân bang đề thi nào trên thế giới?

Câu hỏi 2: Phương pháp cân bằng đề thi bằng câu hỏi neo bên trong có

thực sự hiệu quả?

5 Giả thiết nghiên cứu

Tác giả tiến hành thí điểm một trong các phương pháp cân bằng đề thi

đã được nghiên cứu, đó là phương pháp: cân bằng đề thi bằng câu hỏi neo bêntrong Giả thiết được đặt ra là phương pháp đã đạt được mục tiêu cân bằng đề

6 Khách thể và đối tượng nghiên cứu

Khách thể nghiên cứu: Hoạt động xây dựng đề thi

Đối tượng nghiên cứu: Các phương pháp cân bằng đề thi

7 Phương pháp nghiên cứu

- Phương pháp nghiên cứu tài liệu: tác giả thu thập thông tin từ các tài liệu

trong và ngoài nước về các vân dé liên quan tới đê thi và can băng đê thi.

Trang 13

- Phương pháp phân tích và tổng hợp: từ các thông tin thu thập được, tác giả

đã phân tích và tổng hợp để xây dựng nên hệ thống các vấn đề lý luận và thực

tiễn có liên quan tới đề tài

- Phương pháp toán thống kê: đối với mục tiêu thí điểm, tác giả cần xử lý vàphân tích các số liệu Phần mềm được sử dụng là phần mềm PARSCALE,

SPSS

§ Cấu trúc của luận văn

Cấu trúc của luận văn gồm:

- Phần mở đầu

- Chương I: Cơ sở lý luận và tổng quan của van đề nghiên cứu

- Chương II: Thiết kế và tổ chức nghiên cứu

- Chương III: Kết quả phân tích và thảo luận

- Kết luận và khuyến nghị

Trang 14

CHUONG 1: CƠ SỞ LÝ LUẬN VA TONG QUAN CUA VAN ĐÈ

NGHIEN CUU

1.1 Tổng quan các nghiên cứu về cân bằng đề thi

1.1.1 Đo lường đánh gia trong giáo dục

Lĩnh vực khoa học về đánh giá, đặc biệt là đo lường đánh giá trong giáodục bắt đầu được phát trién mạnh mẽ từ đầu thế kỷ 20 ở những nước châu Âu

và Mỹ “Đánh giá trong giáo dục được định nghĩa là quá trình thu thập thông

tin dé đưa ra những quyết định giáo dục liên quan tới học sinh, dé phan hồi

cho học sinh về sự tiến bộ, những điểm mạnh và điểm tôn tại trong học tập

của chúng, dé đưa ra phan quyết về hiệu quả của công tác giảng day và sự

phù hợp cua chương trình đào tạo, va cuối cùng là để cung cấp thông tin xây

dựng chính sách."(AFT, NCME, NEA, 1990:1) Cột mốc đánh dấu cho sựbùng nổ của lĩnh vực này là sự ra đời của hàng loạt các bài trắc nghiệm ở Mỹnhư trắc nghiệm trí tuệ Stanford-Binet (1916), bộ trắc nghiệm thành quả họctập tong hop Stanford Achievement Test (1923), Cùng với su phát triển liên

tục của lĩnh vực khoa học này, các lý thuyết liên quan cũng được ra đời, trong

đó điển hình là Lý thuyết khảo thí cổ điển (Classical Test Theory) va Lythuyết ứng đáp câu hỏi (Item Response Theory - IRT) Lý thuyết khảo thí cổđiển bắt đầu phát triển khoảng đầu thế kỷ 20 và được hệ thống hóa vào thậpniên 1970 Lý thuyết Ứng đáp Câu hỏi ra đời muộn hơn, được bắt đầu xâydựng từ khoảng đầu nửa sau của thế kỷ 20, dựa trên các mô hình toán học.Hai lý thuyết này được coi là kim chỉ nam cho các phát triển lý thuyết sau

này Hàng loạt các nghiên cứu quan trọng đã được ra đời dựa trên các lý

thuyết này với những tên tuổi nổi tiếng như Ralph Tyler — người được coi là

đi đầu trong phát triển chương trình và đánh giá giáo dục, tạo ra nền tảng cho

tư duy và thực hành đánh giá với cuôn “Các nguyên tắc cơ bản của chương

Trang 15

dục; B.S Bloom, Jum C Nunnally với “Do lường và đánh giá trong giáo dục”

(1964), Robert L.Ebel với “Do lường thành tích giáo dục” (1965), George F.

Madaus va J Thomas Hastings với cuốn “Đánh giá để thúc đây họctập”(1971), hay Anthony J Nitko với “Đánh giá học sinh” (1996, 2008,

2010) Những cuốn sách này cung cấp cho người đọc một cơ sở lý thuyếtvững chắc về đo lường đánh giá trong giáo dục, cũng như các kỹ thuật,

phương pháp được sử dụng trong đo lường đánh giả.

Các lý thuyết về đo lường đánh giá trong giáo dục bắt đầu xuất hiện ởViệt Nam từ những năm 1975 khi một số nhà giáo dục được đảo tạo về khoahọc này từ các nước phương Tây Một trong những nghiên cứu đầu tiên vềlĩnh vực này là nghiên cứu khoa học công nghệ cấp nhà nước của Hoàng ĐứcNhuận, Lê Đức Phúc với “Cơ sở lý luận của việc đánh giá chất lượng học tậpcủa học sinh phô thông” (3/1995) Nghiên cứu này đưa ra các khái niệm, cácthuật ngữ về đánh giá giáo dục cũng như những yêu cầu về nội dung và kỹthuật đánh giá Tuy nhiên, nghiên cứu chưa đi sâu về phương pháp, kỹ thuật

đánh giá kết quả học tập của học sinh Bên cạnh đó, phải nhắc tới tác giả

Dương Thiệu Tống với cuốn sách “Trắc nghiệm và đo lường thành quả họctập” (1995) Cuốn sách là một hệ thống các khái niệm về đo lường thành quảhọc tập, các nguyên lý đo lường, các nguyên tắc soạn thảo câu hỏi trắcnghiệm, quy trình tổ chức, chấm thi, một số kỹ thuật phân tích câu hỏi theo

mô hình Rasch Cuốn sách được coi là một trong những cơ sở đầu tiên chohoạt động đánh giá định lượng kết quả học tập của học sinh

Đến đầu thé kỷ 21, khoa học về đo lường đánh giá trong giáo dục bắtđầu phát triển mạnh mẽ ở Việt Nam với hàng loạt các nghiên cứu và đôi mới

trong phương pháp, nội dung, chương trình giáo dục Có thé ké đến các tácgiả như Trần Bá Hoành với cuốn sách “ Đánh giá trong giáo dục” (1997)

dùng cho các trường Đại học sư phạm và Cao đăng sư phạm; cuốn “Lí thuyết

và thực hành về đo lường và đánh giá trong giáo dục” (2006), “Do lường

trong giáo dục, lý thuyết và ứng dụng” (2010) của Lâm Quang Thiệp,

Trang 16

cuốn “Kiểm tra đánh giá trong dạy học” của nhóm tác giả Sái Công

Hồng, Lê Thái Hưng, Lê Thị Hoàng Hà, Lê Đức Ngọc (2017) Đây lànhững tài liệu, giáo trình cung cấp cho người đọc những kiến thức về

đánh giá giáo dục bắt đầu từ các khái niệm cơ bản đo lường, đánh giá,kiểm tra; các lý thuyết CTT, IRT; cho tới các thang đo sử dụng trong đo

lường; các kỹ thuật phân tích câu hỏi

Từ năm 2005, Đại học Quốc gia Hà Nội đã cho mở lớp đào tạo thạc

sĩ và tiễn sĩ về Do lường đánh giá trong giáo dục Chương trình dao tạovới những giảng viên hàng đầu cả nước, có kinh nghiệm lâu năm trong đolường đánh giá trong giáo dục Đây được coi là cái nôi để đào tạo các cán

bộ có kinh nghiệm, góp phan cho sự phát triển của lĩnh vực Do lường

đánh giá trong giáo dục.

1.1.2 Cân bằng đề thi

Đánh giá trong giáo dục, người ta hay nhắc tới đo lường trong giáo dục(Educational measurement) Day là hoạt động gán các con số vào các cá thé

sự vật theo một hệ thống quy tắc nào đó dé biểu diễn đặc tính của sự vật đó

(GS.TSKH.Lâm Quang Thiệp, 2010) Hoạt động đo lường trong giáo dục

thường là được tiến hành thông qua các bài kiểm tra Kết quả làm bài của thísinh được thu thập và phân tích nham xác định năng luc/diém số của thí sinh

Các lý thuyết quan trọng được dựa vào để triển khai tính toán nhằm đolường trong giáo dục chính là Lý thuyết khảo thí cổ điển (Classical Test

theory - CTT) và Lý thuyết Ứng đáp Câu hỏi (Item Response Theory - IRT).

Đối với các kỳ thi sử dụng nhiều bài kiểm tra, hoặc được triển khai thànhnhiều đợt, một trong các mục tiêu quan trọng của việc sử dụng các lý thuyếtnói trên vào đo lường trong giáo dục là việc đặt các kết quả đo lường nhờ các

đề kiểm tra khác nhau triển khai ở các mẫu thí sinh khác nhau trên cùng mộtthang đo dé có thé so sánh các kết quả đó với nhau Quy trình nói trên đượcgọi là so bằng hoặc cân bằng (equating)

Trang 17

Với sự ra đời và ngày càng phổ biến của các bài thi chuẩn hóa như

SAT, ACT, các vấn đề liên quan đến cân bằng đề thi (Test equating) bắt đầuđược nghiên cứu và mô tả một cách có hệ thong Bắt dau từ giữa thé kỷ 20,

các nghiên cứu về cân bằng đề thi bắt đầu phát triển, sau khi ngày càng cónhiều van dé nảy sinh khi sử dụng nhiều bài kiểm tra trong một kỳ thi và xãhội đang dan phản đối các kỹ thuật kiểm tra truyền thống Có thể ké tới cáctác giả nồi tiếng như Angoff (1971); Harris và Crouse (1993); Lord (1980);

Braun và Holland (1982); Petersen và cộng sự (1989) Đây là những nghiên

cứu gia nỗi tiếng trong lĩnh vực tâm lý học và thông kê Tiếp thu và phát triểncác lý thuyết từ những nghiên cứu của các tác giả này, Michael J.Kolen; Robert L Brennan đã cho xuất bản cuốn “Test equating : methods andpractices” (Cân bang đề thi: phương pháp và thực hành) (1995) Đây có thécoi là cam nang cho các nhà giáo dục tham khảo khi muốn tìm hiểu về Cânbăng đề thi Cuốn sách này đưa ra các khái niệm về cân băng đề kiểm tra,phân biệt cân băng với các quy trình tương tự khác, mô tả các kỹ thuật được

sử dụng trong cân bằng và đưa ra các vấn đề thực tế khác nhau liên quan đến

việc tiến hành cân bằng Không chỉ là mô tả lý thuyết thuần túy, cuốn sáchgiúp người đọc hiểu được bản chất của cân bằng, biết cách thiết kế và thực

hiện quy trình cân bằng, đánh giá được những kết quả trong quá trình cân

bang một cách hợp lý Nếu như Angoff (1971) sử dụng các lý thuyết cô điển

để cân băng điểm thi, thì Kolen & Brennan đề cập đầy đủ và có hệ thống hơn

về chủ đề cân bằng điểm thi và đề thi từ cách tiếp cận của lý thuyết khảo thí

cô điển cũng như lý thuyết ứng đáp câu hỏi Sau cuốn sách đầu tiên năm

1995, hai tác giả đã liên tục cập nhật, chỉnh sửa, áp dụng các lý thuyết,phương pháp mới, và cho ra đời các ấn bản như “Test Equating, Scaling, and

Linking: Methods and Practices” (Cân bang dé thi, lập thang đo và liên kết:

phương pháp và thực hành) (2004, 2013; 2014).

Một trong những nghiên cứu khác về cân bằng đề thi được đánh giá cao

là cuốn “Statistical models for test equating, scaling, and linking” (Các mô

Trang 18

hình thống kê để cân bằng, lập thang đo và liên kết) của tác giả Alina Avon

Davier (2011) Mục tiêu của cuốn sách này là nhắn mạnh các đặc điểm thống

kê chính thức của các hoạt động cân bằng, lập thang đo và liên kết Cuốn sách

đưa ra các quan điểm va thảo luận về chất lượng của các kết quả cân băng từgóc độ thông kê (mô hình mới, tính chặt chẽ, độ phù hợp, các giả thuyết kiêmtra, giám sát thông kê) thay vì đặt trọng tâm vào các chính sách và các tất suy,mặc dù chúng cũng có vai trò rất quan trọng, thể hiện các khía cạnh khác củacân bằng Cuốn sách này đưa ra một quy trình khung cho việc cân bằng, các

hiểu biết đúng dan về các giả định làm nền tảng cho các mô hình đo lường

tâm lý và việc sử dụng các thử nghiệm thống kê và quy trình thống kê, giúpngười thực hiện lựa chọn hàm cân băng phù hợp với mục đích đề ra Cuốnsách này là tài liệu tham khảo có giá trị cho: (a) các nhà thống kê và nhà đolường tâm lý quan tâm đến lý thuyết đăng sau các phương pháp cân bằng,trong việc sử dụng các phương pháp thống kê dựa trên mô hình để làm mịn

dữ liệu và đánh giá kết quả cân băng; (b) những người cần cân bằng các bài

kiểm tra và (c) những người có nhiệm vụ hướng dẫn trong các chương trình

đo lường tâm lý, đo lường và tâm lý học.

Ngoài những nghiên cứu với các lý thuyết và phương pháp chung cho

cân bằng, những nghiên cứu đi sâu vào từng phương pháp cụ thé cũng được

triển khai Có thể kế tới như cuốn “The Kernel method of test equating”(Phương pháp Kernel dé cân bằng dé thi) của Alina AvonDavier, Paul WHolland, Dorothy T Thayer (2004) Phuong phap can bang Kernel là mộtphương pháp được sử dụng khá nhiều trong những năm gần đây Trong cuốnsách này, các tác giả đã áp dụng phương pháp Kernel cho 4 thiết kế cân bằng

dé phổ biến hiện nay Hoặc cuốn “Applying test equating methods: Using R”

(Ap dụng phương pháp cân bang dé thi: sử dụng phần mềm R) của tác giả

Jorge Gonzalez, Marie Wiberg (2017) Trong cuốn sách này, ngoài việc đưa

ra các lý thuyết và thảo luận về hoạt động cân bằng, tác giả đã mô tả cách sửdụng các phương pháp cân bằng kiểm tra trong thực tế Phần mềm R được sử

Trang 19

dụng dé minh họa cách thực hiện của tất cả các phương pháp và các thiết kếkhác nhau Cuốn sách đề cập tới các phương pháp cân bằng điểm thi truyền

thống như cân bằng tuyến tính qua điểm trung bình, cân bằng tuyến tính qua

giá trị trung bình và độ lệch chuẩn và các phương pháp hiện đại như phươngpháp Kernel, phương pháp cân bằng cục bộ; và kết hợp của các phương pháp

Bên cạnh các ấn phâm được xuất bản, một loạt các nghiên cứu đượcviết thành các bài báo Có thể nói, việc cân bằng đề không còn là hoạt động

xa lạ trong lĩnh vực đo lường đánh giá Nó đã được quan tâm, nghiên cứu và

áp dụng từ rất lâu Tuy nhiên, ở Việt Nam, hoạt động này lại chưa được chú

trọng Hiện nay, chưa có một nghiên cứu nào công bố các tính toán về việccân bằng đề Thuật ngữ “cân bằng đề” mới chỉ xuất hiện từ khi Đại học quốc

gia Hà Nội triển khai kỳ thi đánh giá năng lực với việc một budi thi có thé có

tới hàng trăm bài thi khác nhau Tuy nhiên, dù đã quan tâm tới việc cân băng

đề, nhưng các kỹ thuật đang được áp dụng cho việc xây dựng đề thi củatrường còn quá thô sơ, mang tính chất chủ quan nhiều, độ chính xác còn gâynhiều tranh cãi Chính vì vậy, cần có những nghiên cứu về các phương phápcân bằng đề, nhằm nâng cao độ tin cậy, tính công bằng cho các kỳ thi

1.2 Cơ sở lý luận

1.2.1 Các khái niệm cơ bản

1.2.1.1 Các loại điểm trắc nghiệm

Dé đo năng lực của một nhóm thí sinh (TS) về một môn học hoặc mộtchương trình học nào đó, ta thường cho họ làm một đề kiểm tra Vì phân bốtần suất của năng lực thường có dạng chuẩn nên phân bố tần suất điểm kiểmtra của TS (nếu điểm phan ánh đúng năng lực) cũng thường theo dạng chuẩn.Điểm thô

Một Đề trắc nghiệm (ĐTN) thường bao gồm nhiều câu hỏi (CH), mỗi

CH được gán một điểm số, chang han CH nhị phân thường là điểm 1 nếu làmđúng, điểm 0 nếu làm sai Sau khi chấm bài trắc nghiệm và cộng các điểm sốcủa từng TS ta thu được các điểm số của các TS, được gọi là điểm thô (raw

10

Trang 20

score) Đối với đề tự luận (TL) người ta có thé gan mot điểm nao đó cho tung

ý, từng nội dung ma TS tra lời được, và sau khi cham xong cộng điểm của

mỗi TS lại người ta cũng được một điểm thô Cách cho điểm TL được dùng ở

Việt Nam thường ngầm định trước một khung điểm, chang hạn từ 0 đến 10,

và chỉ được cho điểm trong khung đó Điểm thô thu được như vậy tính chất

có khác với điểm thô thu được từ một DTN

Đề có thé so sánh các điểm số thu được của DTN trên một phạm vi rộng,người ta phải biến đổi các điểm đó theo hai cách: 1) so sánh với một tiêuchuẩn (standard) tuyệt đối đã định trước (liên quan với độ khó về nội dung);2) so sánh với một nhóm TS nao đó dùng làm chuẩn (norm)

Điểm tiêu chuẩn tuyệt đối

Các điểm số loại này được xác định dựa trên việc so sánh điểm thô củamột TS với điểm tối đa có thé dat được từ DTN, do đó nó hoàn toàn không biảnh hưởng bởi điểm số của những người khác trong nhóm khảo sát Một cáchcho điểm thường được ưa dùng thuộc loại này là điểm phần trăm đúng Điểm

được tính theo tỷ lệ phần trăm số CH làm đúng trên tong số CH của DTN

x= Số câu đúng

Tổng số câu

Nhiều giáo viên thích dùng điểm phần trăm đúng này vì cách biến đổi

đơn giản Họ còn thường quy định trước tiêu chuẩn tối thiểu mà TS phải làmđược dé đạt yêu cầu, chăng hạn lam được 50% hay 60% CH của DTN Việcquy định trước tiêu chuẩn đó là hoàn toàn tuỳ tiện, không có tính khách quan.1.2.1.2 Các tham số đặc trưng cua một câu hỏi trắc nghiệm và một dé trắc

nghiệm

Đồ khó của câu hỏi

Khái niệm đầu tiên cần lưu ý là độ khó của CH trắc nghiệm Người ta

xác định độ khó dựa vào việc thử nghiệm CH trắc nghiệm trên các đối tượng

TS phù hợp, và định nghĩa độ khó p bằng tỷ số phần trăm TS làm đúng CH

II

Trang 21

trên tổng số TS tham gia làm CH đó:

Độ khóp của CH = _Tổng số TS làm đúng CH

Tổng số TS tham gia làm CH

Việc sử dụng trị số p dé do độ khó như trên cho ta biết mức khó dé củacác CH chỉ dựa vào số liệu thống kê chứ không cần xem xét nội dung của

chúng thuộc các lĩnh vực khoa học khác nhau.

Các CH của một DTN thường có độ khó khác nhau Theo công thức tính

độ khó như trên, rõ ràng giá tri p càng bé CH càng khó và ngược lại (đáng lẽ

gọi p là độ dễ, nhưng thế giới đã quen dùng là độ khó - difficulty nên chúng

tôi vẫn giữ định nghĩa này) Thông thường độ khó của một CH có thể chấp

nhận được nằm trong khoảng 0,25 - 0,75; CH có độ khó lớn hơn 0,75 là quá

dễ, có độ khó nhỏ hơn 0,25 là quá khó.

Vậy p có giá trị như thế nào thì CH có thể được xem là có độ khó

trung bình? Muốn xác định được khái niệm này cần phải lưu ý đến xác suất

làm đúng CH bằng cách chọn hú họa Như đã biết, giả sử một CH có 5

phương án chọn thì xác suất làm đúng CH do sự lựa chon hú hoạ của một

TS không biết gì là 20% Vậy độ khó trung bình của CH 5 phương án chọn

phải nằm giữa 20% và 100%, tức là 60% Như vậy, nói chung độ khó trung

bình của một CH có n phương án chọn là (100% + 1/n)/2 Độ khó trung

bình của một CH dung-sai là 75% Đối với các CH loại trả lời tự do, như

loại câu điền khuyết, thì độ khó trung bình là 50%

Khi chọn lựa các câu trắc nghiệm theo độ khó người ta thường phảiloại các câu quá khó (không ai làm đúng) hoặc quá dễ (ai cũng làm đúng)

Một ĐTN tốt thường là đề có nhiều CH ở độ khó trung bình

Độ phân biệt của câu hỏi

Khi ra một CH hoặc một DTN cho một nhóm TS nào đó, người ta

thường muốn phân biệt trong nhóm TS ấy những người có năng lực khácnhau: giỏi, trung bình, kém Khả năng của câu trắc nghiệm thực hiện

12

Trang 22

được sự phân biệt ấy được gọi là độ phân biệt Muốn cho CH có độ phânbiệt, phản ứng của nhóm TS giỏi và nhóm TS kém lên CH đó hiển nhiên

phải khác nhau Người ta thường thống kê các phản ứng khác nhau đó đểtính độ phân biệt.

Độ phân biệt của một CH hoặc một DTN liên quan đến độ khó Thậtvậy, nếu một ĐTN dễ đến mức mọi TS đều làm tốt, các điểm số đạt đượcchụm ở phần điểm cao, thì độ phân biệt của nó rất kém, vì mọi TS đều cóphản ứng như nhau đối với ĐTN đó Cũng vậy, nếu một ĐTN khó đến mức

mọi TS đều làm không được, các điểm số đạt được chụm ở phần điểm

thấp, thì độ phân biệt của nó cũng rất kém Từ các trường hợp giới hạn nóitrên có thể suy ra rằng một DTN muốn có độ phân biệt tốt thì nó phải bao

gồm nhiều CH có độ khó ở mức trung bình Khi ấy điểm số thu được của

nhóm TS sẽ có phổ trải rộng

D6 tin cậy cua DTN

Độ tin cậy là điều kiện cần của các dé thi — kiểm tra dé đánh giá chính

xác kết quả học tập của học sinh: học sinh có năng lực tốt hơn phải đạt được

kết qua cao hơn Độ tin cậy có thé tăng lên nhờ bổ sung những câu hỏi đồngnhất (tăng độ dài của dé thi) hay tăng độ phân biệt của các câu hỏi

Đề trắc nghiệm có độ tin cậy cao hơn dé tự luận vì giảm được tính chủquan khi chấm

Trắc nghiệm là một phép đo: dùng thước đo là ĐTN để đo lường một

năng lực nao đó của TS Độ tin cậy của DTN chính là đại lượng biểu thị mức

độ chính xác của phép đo nhờ DIN.

Người ta có thé tính độ tin cậy của DTN bang các cách sau đây:

- Phương pháp trắc nghiệm - trắc nghiệm lại, tức là dùng một DTN chomột nhóm TS làm hai lần và tính hệ số tương quan giữa hai bộ điểm Phương

pháp này có nhược điểm: một là các ứng đáp của TS trong lần thứ hai khôngđộc lập so với trong lần thứ nhất, hai là năng lực của TS trong lần thứ hai cóthé đã thay đồi

13

Trang 23

- Phương pháp các DTN tương đương: cho một nhóm TS làm hai DTNtương đương rồi tính độ tương quan giữa hai bộ điểm Vấn đề là phải tốnnhiều công sức dé soạn các DTN thực sự tương đương.

- Phương pháp phân đôi DTN: thực chat là tạo 2 DTN tương đương, mỗi

dé là một nửa của DTN chung Dé hai nửa DTN có sự tương đương cao,người ta sắp xếp từng cặp câu chan và lẻ tương đương nhau dé có 2 nửa DTNmột gồm các câu chăn và một gồm các câu lẻ Độ tin cậy của nửa DTN bằng

hệ số tương quan giữa hai bộ điểm của hai nửa DTN, còn độ tin cậy của toànDTN có thé thu được khi hiệu chỉnh việc tăng độ dài gấp đôi

D6 giá trị của DTN

Yêu cầu quan trọng nhất của ĐTN với tư cách là một phép đo lườngtrong giáo dục là phép đo ấy đo được cái cần đo Nói cách khác, phép đo ấycần phải đạt được mục tiêu đề ra cho nó Chăng hạn, mục tiêu đề ra cho tuyểnsinh đại học là kiểm tra xem TS có năm chắc những kiến thức và kỹ năng cơban được trang bị qua chương trình phổ thông trung học hay không dé chon

vào học đại học Phép đo bởi DTN dat được mục tiêu đó là phép đo có giá tri.

Nói cách khác, độ giá trị của ĐTN là đại lượng biểu thị mức độ đạt được mụctiêu dé ra cho phép đo nhờ DTN

Dé DTN có độ giá trị cao, cần phải xác định tỉ mi mục tiêu cần do qua

ĐTN và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng CH Yêu cầuquan trọng nhất của DTN với tư cách là một phép đo lường trong giáo dục là

phép đo ấy đo được cái cần đo Nói cách khác, phép đo ấy cần phải đạt được

mục tiêu đề ra cho nó Chang han, muc tiéu dé ra cho tuyén sinh đại hoc làkiểm tra xem TS có nắm chắc những kiến thức và kỹ năng cơ bản được trang

bị qua chương trình phổ thông trung học hay không dé chọn vào học dai học.Phép đo bởi DTN dat được mục tiêu đó là phép do có giá trị Nói cách khác,

độ giá trị của DTN là đại lượng biểu thị mức độ đạt được mục tiêu dé ra cho

phép đo nhờ DTN.

Dé DTN có độ giá tri cao, cân phải xác định tỉ mỉ mục tiêu cân đo qua

14

Trang 24

DTN và bam sát mục tiêu đó trong quá trình xây dựng ngân hàng CH

1.2.2 Kiểm tra đánh giá

Trong lịch sử phát triển ngành đo lường và đánh giá trong dạy hoc, đã có

không ít quan điểm/cách tiếp cận khác nhau khi xác định khái niệm kiểm tra

không đề cập mục đích của hoạt động

Trong tài liệu “Educational Assessment of Student” về Assessment

Theo A Nitko đã nhận định: “ Kiểm tra đánh giá (assessment) là một thuật

ngữ rộng, được định nghĩa như một quá trình thu nhận thông tin được sử dụng

các thông tin này cho việc ra quyết định về học sinh; chương trình học, trườnghọc và các chính sách giáo dục Các quyết định liên quan tới học sinh baogồm quản lí hoạt động giảng dạy, sắp xếp học sinh theo các chương trình giáodục khác nhau, phân lớp, hướng dẫn và tư vấn, tuyên chon học sinh chonhững cơ hội giáo dục, xác nhận năng lực của học sinh Các quyết định vềgiáo trình, chương trình học và trường học bao gồm các quyết định về hiệuquả của chúng (đánh giá tổng kết) và về các phương pháp để phát huy khảnăng của học sinh (đánh giá trong tiến trình)

Theo Chương trình hiệu quả dạy học, “ Kiểm tra đánh giá là quá trìnhthu thập và thảo luận về thông tin từ nhiều nguồn khác nhau nhằm có đượcmột sự hiểu biết sâu sắc về những điều người học biết, hiểu và có thé làm vớikiến thức của mình, như là kết quả của quá trình học tập của người học;

mục đích cuối cùng của quá trình KTĐG là kết quả KTĐG được sử dụng dé

nâng cao chất lượng học tập” Tuy định nghĩa không đề cập bản chất của quá

trình đánh giá là xử lý thông tin thu thập được, nhưng đã cho chúng ta mộtkhái niệm tương đối cụ thể, đặt trong bối cảnh giáo dục — dạy học Mục tiêu

15

Trang 25

cuối cùng, cao nhất của hoạt động KTĐG đã được nêu rõ: nâng cao chất

lượng học tập.

Khi nhắc tới kiểm tra đánh giá trong giáo dục, người ta thường hay thay

các thuật ngữ: Bài kiểm tra (test), đo lường (measurement), Kiểm tra đánh giá(Assessment) và Đánh giá (Evaluation) Có thể hiểu một cách đơn giản: Bài

kiểm tra là công cụ được sử dụng trong kiểm tra đánh giá, Do lường là quá

trình gan các con số vào các cá thé theo một hệ thống quy tắc nào đó dé phục

vụ cho kiểm tra đánh giá Ngoài thông tin từ đo lường trong kiểm tra đánhgiá, dựa trên các thông tin khác để các nhà giáo dục đưa ra các quyết định,

đây chính là Đánh giá.

1.2.3 Cân bằng dé thi (test equating)

1.2.3.1 Dé thi

Trong tiếng Anh, có 2 thuật ngữ tương đương với từ đề thi trong tiếng

Việt Đó là “test” và “exam”.

Cả hai từ “test” và “exam” có thé được coi là đồng nghĩa và có thé được

sử dụng thay thế cho nhau Về cơ bản, cả hai đều được hiểu là công cụ để

đánh giá kỹ năng hoặc kiến thức, trình độ của người học Người ta có thể

phân biệt hai thuật ngữ này dựa trên ngữ cảnh mà chúng được sử dụng Tuy

nhiên, trên thực tế, giữa hai từ vẫn có khác biệt nhất định Khác biệt đó chính

là “Exam” mang tính chính thức hơn so với “Test” Nếu như “Test” là công

cụ để kiểm tra trình độ, kiến thức của học sinh, giáo viên dựa trên kết quả dé

điều chỉnh nội dung, tài liệu giảng dạy Thi “Exam” có tinh quyết định học

sinh đã đậu hay trượt một khóa học/lớp học Nhưng về CƠ ban, “test” là thuật

ngữ chung được sử dụng rộng rãi hơn.

Trong phần Glossary của cuốn "Assessment Standards for SchoolMathematics" (1995), nhóm tác giả đưa ra định nghĩa về Test như sau “Test:Một công cụ đo lường để đánh giá kết quả học tập của học sinh Kiểm tratruyền thong là một hoạt động được tô chức một lần, một chiều, và có quy

định thời gian.” Tác giả Brown (1970) nhận định rằng “Test” là công cụ đo

16

Trang 26

lường khả năng, kiến thức của một cá nhân.

Tại Việt Nam, khi nhắc tới kiểm tra, người ta thường nghĩ ngay tới

“bài/đề kiểm tra” hoặc “bài/đề thi” Cũng giống như tiếng Anh, hai từ “kiểmtra” và “thi” thường có thể sử dụng thay thế cho nhau, dùng để chỉ “công cụ

đo lường trình độ, kiến thức của hoc sinh” Và từ “thi” mang tính chính thứchơn từ “kiểm tra” Kiểm tra có nhiều hình thức như kiểm tra miệng, kiểm traviết, kiểm tra thực hành; và nhiều loại như kiểm tra thường xuyên, kiểm trađịnh kỳ Câu hỏi trong bài kiểm tra có thể là câu trắc nghiệm hoặc câu tựluận Kiểm tra có thé tô chức trong trường, lớp hoặc ngay tại nhà, và thường

số lượng mẫu không lớn Còn đối với thi, thường được dùng cho phạm vi lớnnhư thi Tốt nghiệp, thi Đại học Mặc dù vậy, hai thuật ngữ này vẫn có thểcoi là đồng nghĩa và có thé dùng thay thé cho nhau trong nhiều trường hop

Ở phạm vi nghiên cứu của đề tài, tất cả các bài kiểm tra hay thi đềuđược hiểu “dé thi”

1.2.3.2 Cân bằng dé thi (test equating)

oe

Thuật ngữ “equating” xuất phát từ động từ “equate” Theo từ điểnCambridge, “equate” có nghĩa là “coi một thứ giống hoặc bằng một thứ khác”

Cân bằng trong lĩnh vực đo lường đánh giá được hiểu là quá trình thống

kê được sử dụng dé điều chỉnh điểm trên các bài kiểm tra sao cho điềm trên

các bài kiểm tra có thê được sử dụng thay thế cho nhau Việc cân bằng chỉđiều chỉnh sự khác biệt về độ khó của hình thức kiểm tra, không phải sự khác

biệt về nội dung “Test equating” — “Cân bằng đề thi” theo Angoff (1971) là

quá trình thống kê để xác định điểm số có thể so sánh được trên các hình thứckhác nhau của một kì thi Nó có thé được thực hiện dựa trên lý thuyết cô điểnhoặc lý thuyết ứng đáp câu hỏi Trong IRT, cân bằng được hiểu là quá trình xếp

điểm từ hai hoặc nhiều bài kiểm tra vào một thang điểm chung Kết quả của cân

bằng là điểm của hai hoặc nhiều bài kiểm tra được đặt trên cùng một thang đo và

có thé so sánh với nhau Định nghĩa này cho thay giới hạn của “cân bằng đề thi” ởđây chi là việc “cân băng điểm thi” Nói một cách chính xác, “test equating” trong

17

Trang 27

định nghĩa của Angoff thực chat là “equating test score”.

Trên thực tế, sự khác biệt về điểm số không chỉ do sự khác biệt về độkhó của các dạng bài kiểm tra Có thê xảy ra trường hợp một nhóm thí sinh có

khả năng hơn nhóm còn lại Theo nghĩa này, định nghĩa cân băng nên coiđiểm của hai hình thức kiểm tra là tương đương nhau trong một nhóm người

dự thi nếu họ đại diện cho cùng một vi tri tương đối trong nhóm (Livingston2004) Quá trình cân bằng các bài kiểm tra không chỉ bao gồm việc điều chỉnhđiểm số sao cho sự khác biệt về độ khó có thé được san băng mà còn cần xemxét các khía cạnh ban đầu để xây dựng các bài kiêm tra một cách can thận(hay nói cách khác các hình thức kiểm tra khác nhau về nội dung hoặc có sốlượng câu hỏi không thể được coi là song song) Do đó, cân băng đề thi ở đâyđược hiểu là việc sử dụng mô hình và phương pháp thống kê dé so sánh điểmkiểm tra giữa hai hoặc nhiều bài kiểm tra, để cho điểm trên các bài kiểm trakhác nhau này, nhằm đo lường cùng một thuộc tính nào đó có thé được sửdụng thay thế cho nhau (Holland và Rubin 1982; von Davier và cộng sự 2004;

Dorans và cộng sự 2007; von Davier 2011; Kolen và Brennan 2014) Với

định nghĩa này “test equating” có thé hiểu là “equating test dạng thức” Theođịnh nghĩa này, cân bằng dé thi không phải chỉ dừng lại ở việc cân bang điểm

số, mà phải đi xa hơn Từ cân bằng điểm số dé đánh giá lại các đặc điểm củacác thành phần của đề thi (câu hỏi, độ tin cậy, số lượng câu hỏi ), từ đóchỉnh sửa để chúng tương đương, có thể thay thế cho nhau

1.2.4 Vai trò của cân bằng dé thi trong kiểm tra đánh giá

Trong các lĩnh vực khác nhau, người ta thường quan tâm đến việc sosánh các phép đo đến từ một hiện tượng chung: “Tính so sánh của các phép

đo được thực hiện trong các trường hợp khác nhau bằng các phương pháp và

người thực hiện khác nhau là tiền đề cơ bản cho tất cả các ngành khoa học”

(Dorans và Holland 2000) Đặc biệt trong lĩnh vực đo lường giáo dục, khả

năng so sánh của điểm các bài kiểm tra được quan tâm vì những điểm số nàyđược sử dụng để đưa ra các quyết định Các chương trình đánh giá giáo dục

18

Trang 28

hiện đại được sử dụng cho nhiều mục đích khác nhau: để cải thiện việc họctập của học sinh, điều chỉnh các tiêu chuẩn nội dung thông qua hướng dẫn cải

tiến dựa trên kết quả đánh giá; để bổ sung cho chương trình giảng dạy hoặc

phương pháp giảng dạy; dé thông báo cho giáo viên/ học sinh về sự tiễn bộcủa họ; dé thông báo cho công chúng về kết quả hoạt động của trường; được

sử dụng như một hướng dẫn trong việc ra quyết định về học sinh, giáo viênhoặc trường học; và cung cấp các so sánh dữ liệu khác nhau (Redfield, 2001).Đôi khi, kết quả từ điểm số không dẫn đến hậu quả nghiêm trọng ví dụ nhưcác bài kiểm tra miệng, 15 phút, 1 tiết , nhưng rất nhiều trường hợp, điểm sốmang tính quyết định Ví dụ: Điểm số rất quan trọng trong việc xác định

tuyển sinh đại học, cấp học bồng, dé theo dõi sự tiến bộ trong thành tích, dé

xác định nang lực trong một nhiệm vu cụ thé ; Vi vay, diéu quan trong 1a

phải báo cáo điểm số một cách công bằng và chính xác Trên thế giới, vì ly dobảo mật, các chương trình đo lường thường tạo ra các dạng bài kiểm tra khácnhau nhăm đo cùng một thuộc tính Mặc dù, trong việc xây dựng đề, người

làm dé đã cố gắng hết sức dé tạo ra các bài kiểm tra song song nhất có thé,

nhưng sự khác biệt về độ khó của các bài kiểm tra khác nhau là không thểtránh khỏi Do đó, rất có thé một số thí sinh làm bài kiểm tra dé hơn so với thi

sinh khác Khi mức độ của các đặc điểm như vậy là quan trọng đối với các

quyết định, sẽ không công bằng khi xác định điểm cao hơn cho một số nhómthí sinh chỉ vì bài kiểm tra của họ đễ dàng hơn so với bài kiểm tra cuả nhóm

khác Nói cách khác, nếu các bài kiểm tra được cân băng thì sẽ công bằng khi

thực hiện với các nhóm thí sinh khác nhau và có thể coi điểm số của các bàikiểm tra đó cùng từ một bài kiểm tra Cân bằng đề thi được sử dụng để giảiquyết những vẫn đề đó (Kolen & Brennan, 2004; vonDavier, Holland, &

Trang 29

- Thur nhất, cân bằng đề thi giúp điểm thi của các thí sinh thi các mã đề

hoặc thi các đợt thi khác nhau sẽ có ý nghĩa tương đồng Điểm được cân bang

sẽ có ý nghĩa đo lường độc lập với độ khó của các mã đề khác nhau Điều này

tạo ra sự công bằng cho thí sinh thi các mã đề khác nhau

- Thứ hai, cân băng điểm thi giúp cho một định dạng đề thi có thể

được sử dụng nhiều lần từ năm này qua năm khác mà không làm thay đổi giá

trị của điểm thi Một thí sinh có thé sử dụng điểm thi từ năm trước dé ứngtuyển vào một cơ sở giáo dục đại học ở năm nay Khi đó, các cơ sở giáo dụcđại học cũng không phải lo lắng về giá tri điểm thi

- Thứ ba, cân bằng điểm thi giúp tăng độ bao mật của các kỳ thi Khimột kỳ thi có càng nhiều bài kiểm tra, thì khả năng để thí sinh gian lận (nhìn

bài, học thuộc) càng giảm di.

1.3 Thuộc tính của cân bằng đề thi

Đối với cân bang dé thi, có một số thuộc tính cơ bản mà hầu như dù ởphương pháp nào cũng có thê thấy được, bao gồm:

e Tính đối xứng: thuộc tính này yêu cầu rằng hàm số (function) được

sử dung dé chuyền đổi điểm từ dạng thức X theo thang điểm của dạng thức Y phải là nghịch đảo của hàm được sử dụng đề chuyên đổi điểm từ dạng thức Y

theo thang điểm dạng thức X:

Form X Form Y

—_——_>

Hình 1.1 Tinh đối xứng của cân bằng

e Thông số kỹ thuật giống nhau: các thông số ở đây có thé là cầu trúc dé

hoặc độ tin cậy của 2 hoặc nhiều đề thi không có cùng cấu trúc thì gần

20

Trang 30

như không thể đưa ra được các thông số kết quả tương đương nhau.Mặt khác, độ tin cậy không tương đương sẽ ảnh hưởng đến tính côngbăng của điểm số Cần có đủ độ tin cậy để đảm bảo rằng các kết quảđược liên kết để cân bằng có đủ thông tin để được chấp nhận sử dụng

cho từng cá nhân (Dorans NJ, 2004).

e Tính công bằng: Thuộc tính này có nghĩa là không có sự khác biệt đối

với thí sinh dù là Dạng thức X hay Dạng thức Y Hay nói cách khác, thí

sinh được công bố điểm thực (true score), diém này có cùng độ khó, độ

lệch chuẩn, phân bố phổ điểm khi chuyển đổi từ Dạng thức X hoặc

Dạng thức Y.

e Điểm số quan sát (observed score) tương đương: Phương pháp điểm số

quan sát không trực tiếp xem xét điểm số thực hoặc các biến số khôngđược quan sát khác, do đó ít phức tạp hơn Trong cân bằng điểm sốquan sat, các đặc điểm của sự phân bố điểm số được đặt băng nhau cho

một nhóm người kiểm tra cụ thể (Angoff, 1971) Đối với thuộc tính cân

băng phân vị tương đương (EEP), điểm được chuyển đổi trên Dạngthức X có cùng phân phối với điểm trên Dạng thức Y Thuộc tính nàyngụ ý rằng phân phối tích lũy của điểm cân bằng trên Dạng thức Xbăng với phân phối tích lũy của điểm trên Dạng thức Y

e Nhóm/mẫu bat biến: Mối quan hệ cân bang là như nhau bat kể nhóm

kiểm tra được sử dụng dé tiến hành cân bang Vi du: nhóm nam, nhóm

nữ Dorans va Holland (2000) đã phat triển các quy trình và thống kê

dé điều tra sự bat biến của nhóm

Từ những thuộc tính trên, có thể thấy, dé cân băng đề thi được tiến hành một

cách thuận lợi, cần đáp ứng được các yêu cầu:

e Điều kiện đo giống nhau, ví dụ: kiểm tra có hoặc không có máy tính,

kiểm tra trước và sau khi tham gia một khóa học;

e Mau tham gia 2 bài kiểm tra là như nhau Vi dụ: cùng học lớp 5, cùng

học chương trình mới.

21

Trang 31

So sánh cân bằng và các kiểu liên kết khác

Năm 1992, Mislevy đã mô tả bốn kiểu liên kết (linking) các dạng thứckiểm tra: moderation (điều tiết), projection (suy chiếu), calibration (hiệuchuẩn) và equating (cân băng) (Mislevy, 1992, trang 21-26) (Liên kết ở đây

là việc điều chỉnh các mô hình thống kê đối với điểm số của các bài kiểm trakhác nhau về nội dung hoặc độ khó hoặc cả hai Về lý thuyết, bất kỳ tập hợpđiểm nào cũng có thể được liên kết bằng cách sử dụng nhiều quy trình (Linn,1993; Mislevy, 1992)) Trong mô hình của Mislevy, điều tiết là hình thức yếunhất của các bài kiểm tra liên kết (linking test), trong khi cân bằng được coi là

hình thức mạnh nhất Vì vậy, cân băng được thực hiện dé làm cho các điểm số

có thê hoán déi cho nhau tốt nhất có thể

Sẽ rất hữu ích khi xem xét cân bằng như là một phần của một chuỗi liên

kết, như thê hiện trong Hình 1.2 dưới đây Hình này cho thấy cân bằng được

coi là loại liên kết mạnh nhất, với tất cả các hình thức liên kết khác yếu hơn ở

phía bên trái.

Scores do NOT Scores have

have the same the SAME

Linear Common ltem

Equipercentile Common Person

Pool/Item Bank Development Pre- and Post-equating

Hinh 1.2 Chudi lién két

22

Trang 32

Hình thức cân bằng của chuỗi liên kết này cũng đại diện cho các giảđịnh khắt khe nhất cho phép điểm số từ hai hoặc nhiều dạng thức kiểm trađược sử dụng thay thế cho nhau Các liên kết không thé đáp ứng các yêu cầunghiêm ngặt của việc cân bằng vẫn có thé được mô tả là một phần của chuỗi

liên kết, nhưng không thể mang lại sự tương đương như hình thức cân bằng

Có thê hiểu 4 thuật ngữ như sau:

- Cân bằng (equating): Theo Kolen và Brennan (2004), cân bằng là hìnhthức cho phép đo lường cùng một thứ (một nội dung); điểm số có thé hoán đổicho nhau và mối quan hệ bất biến cho các nhóm mẫu Đồng thời, trong cânbăng, các dạng thức có độ khó tương đương và độ tin cậy ngang nhau

- Hiệu chuẩn (calibration): Theo Kolen và Brennan (2004), hiệu chuẩn

là hình thức liên kết thực hiện với các dạng thức kiểm tra có cùng thông số kỹthuật về nội dung nhưng khác về các thông số kỹ thuật thống kê (số lượng câuhỏi) (Feuer và cộng sự, 1999) Ngoài ra, có thể hiểu hiệu chuẩn là việc đặt tất

cả các câu hỏi lên cùng một miền trên một thang đo chung Ví dụ như: mộtnhóm các câu hỏi không tốt đã được hiệu chỉnh được sử dụng dé xây dungcác dang thức có cùng nội dung và thong số kỹ thuật thống kê sao cho điểm

số thực có thê tương đương nhau Các mối quan hệ của hiệu chuẩn không cókhả năng bat biến giữa các nhóm mẫu khác nhau

- Suy chiếu (projection): Đây là hình thức dự đoán điểm của một bàikiểm tra từ một bài kiểm tra khác Kolen và Brennan (2004) cho rằng khácbiệt chính giữa suy chiếu và cân bằng, hiệu chuan là: (i) suy chiếu chỉ có tínhmột chiều; (ii) chi dùng cho thiết kế nhóm đơn; (iii) không có yêu cầu ưu tiênrang cấu trúc giữa các dạng thức phải giống nhau; (iv) mối quan hệ suy chiếuhầu như đều thực hiện cho mô hình hồi quy (tuyến tính hoặc phi tuyến tính)

- Điều tiết (moderation): Theo Mislevy (1992), mục tiêu của điều tiết là

để so sánh điểm số từ các bài kiểm tra khác nhau không đo cùng một thứ Nếuhai bài kiểm tra có thể được thực hiện hợp lý cho cùng một học sinh, thì việc

23

Trang 33

điều tiết các thống kê chỉ cần áp dụng công thức cân bằng đơn giản mà khôngyêu cầu các giải thích từ lý thuyết đo lường Theo Feuer và cộng sự (1999),điều tiết là hình thức liên kết yếu nhất Nó được sử dụng khi các bài kiểm tra

có các thiết kế khác nhau và được giao cho các nhóm mẫu khác nhau, khôngtương đương Kết quả của điều tiết chỉ có giá tri dé thực hiện một số so sánh

chung chung.

Có nhiều công cụ hoặc quy trình khác nhau để liên kết các dạng thứckiểm tra, một số sử dụng Lý thuyết khảo thí cô điển (CTT) trong khi nhữngcông cụ khác dựa trên Lý thuyết ứng đáp câu hỏi (IRT) Tat cả các quy trìnhnày có thể được sử dụng để cho hình thức cân bằng cũng như các hình thứcliên kết khác Tuy nhiên, điều cần quan tâm là khi được sử dụng để cân bằng,các quy trình này áp dụng cho các bài kiểm tra được xây dung “song song” déđiểm số trên nhiều dạng thức có cùng ý nghĩa hoặc cách giải thích Có nhữngđịnh nghĩa kỹ thuật nghiêm ngặt về “song song” trong bối cảnh này nhưng về

cơ bản, nó có nghĩa là các dạng thức kiểm tra được xây dựng dé đo lường

cùng một nội dung, ở cùng mức độ về nhận thức, và có cùng sự tô chức của

các câu hỏi (định dạng câu hỏi, số lượng câu hỏi ) và sử dụng cùng một địnhdạng kiểm tra (ví dụ: kiểm tra trên giấy, kiểm tra trên máy) Khi các dạngthức kiểm tra được thiết kế song song, nhiệm vụ còn lại để cân bằng là tạo ra

sự tương đương giữa các điểm số, điều này cho phép điểm số của mỗi dạngthức được sử dụng thay thế cho nhau

24

Trang 34

CHUONG 2: THIẾT KE VA TO CHỨC NGHIÊN CỨU2.1 Các phương pháp cân bằng đề thi

2.1.1 Nhóm tương đương/ngẫu nhiên (Equivalent/Random groups design)

Trong hầu hết các tình huống như nhau, không có cơ hội dé cùng một thí

sinh làm hai dang bài thi Vậy chúng ta có thé làm gì nếu mỗi thí sinh chỉ làmmột dạng bài thi? Giải pháp đơn giản nhất là có một nhóm thí sinh riêng biệtlàm từng dạng bài, đảm bảo rằng cả hai nhóm đều đồng đều về kiến thức và

kỹ năng mà bài thi đo được Nhưng có thể thực sự làm điều đó hay không?Thông thường, không bao giờ có thể làm cho các nhóm mẫu bằng nhau mộtcách chính xác, nhưng nếu số lượng người dự thi đủ lớn, chúng ta có thể xemxét rằng các nhóm mẫu đã tiệm cận nhau, hay nói cách khác là hai nhóm mẫu

đã tương đương nhau về trình độ (Brennan, 2006) Cách tốt nhất dé làm điều

đó là "xoay vòng các hình thức kiểm tra” Thuật ngữ này có nghĩa là: đóng

gói hai dạng thức bài kiểm tra theo trình tự xen kẽ: dạng thức mới, dạng thức

tham chiếu, dạng thức mới, dạng thức tham chiéu, Cách giao dạng thứckiểm tra cho thí sinh này đảm bảo rằng các nhóm thí sinh tham gia hai dạngthức này sẽ giống nhau về nhiều mặt: địa điểm làm bài, thời điểm làm bài, vịtrí ngồi trong phòng thi Nếu bat kỳ sự khác biệt nào trong số này có liênquan đến sự khác biệt về kiến thức hoặc kỹ năng của thí sinh, thì việc xoayvòng các dạng thức kiểm tra sẽ có xu hướng cân bằng sự khác biệt Ví dụ,

những người dự thi tại một địa điểm thi cụ thể có thé đặc biệt giỏi hơn Việc

xoay vòng các dạng thức thi đảm bảo rằng người dự thi tại điểm thi đó sẽđược chia đều giữa dạng thức mới và dạng thức tham chiếu

Nhóm 1 Người dự thi

ngẫu nhiên

Hình thức kiểm tra A

Nhóm 2

Người dự thi

ngẫu nhiên Hình thức kiểm tra B

Hình 2.1 Thiết kế nhóm tương đương

25

Trang 35

Giả định của thiết kế các nhóm tương đương là mối quan hệ đồngđều được quan sát thấy giữa hai nhóm người dự thi sẽ tổng quát cho tổngthé thí sinh Hai nhóm có thể khác với tổng thé thi sinh, miễn là cả haiđều khác theo cùng một cách Nếu nhóm lấy mẫu mới nhiều hơn tổng théthí sinh, thì nhóm lấy mẫu tham chiếu cũng phải nhiều hon tông thé thí sinh,

ở cùng một mức độ.

Thiết kế nhóm tương đương có một số ưu điểm thực tế quan trọng

e Việc quản lý, giám sát khá thuận tiện — miễn là những người quản

lý, giám sát và thực hiện triển khai kiểm tra hiểu răng họ phải phân phát các

dạng thức kiểm tra theo thứ tự mà chúng đã được đóng gói Nó thậm chí còn

dễ thực hiện hơn nếu bài kiểm tra được quản lý bằng máy tính Việc để máytính ấn định một mẫu bài thi cho mỗi thí sinh sẽ giúp loại bỏ nguy cơ ngườiquản lý bài thi sẽ không phân phát các tập tài liệu thi theo thứ tự mà chúng đã

được đóng gói Thiết kế này không yêu cầu hai dạng thức kiểm tra có bất kỳ

câu hỏi chung nao, nhưng nó có thé được sử dụng ngay cả khi chúng có

e Tác động đối với thí sinh là tương đối thấp khi không có thí sinh nàophải làm cả hai dạng thức kiểm tra Do đó, thiết kế này tránh được van dé vềhiệu ứng thứ tự Đây là hiệu ứng đề cập đến sự khác biệt trong kết quả thi do

học sinh đã có kinh nghiệm làm một dạng thức trước, từ đó có khả năng làm

tăng kết quả làm dạng thức sau

Tuy nhiên, thiết kế nhóm tương đương cũng có một số hạn chế lớn

e Hạn chế chính của nó là để tạo ra kết quả cân bằng chính xác, nó đòihỏi một số lượng lớn người dự thi So với thiết kế đối trọng, thiết kế nhómtương đương có thé yêu cau số lượng người dự thi nhiều gấp từ 5 đến 15 lần

cho cùng một mức độ chính xác.

e Hạn chế thứ hai liên quan đến bảo mật thử nghiệm Trong hầu hếtcác trường hợp, dạng thức tham chiếu sẽ được quản lý trước đó Trong một sốbài kiểm tra, có một rủi ro đáng ké là nhiều người dự thi sẽ nhìn thấy (và thậmchí đã nghiên cứu) các câu hỏi trong dạng thức kiểm tra tham chiếu đã được

26

Trang 36

sử dụng trước đó Trong các bài kiểm tra đó, có thé không thé lấy dữ liệu cânbằng hợp lệ từ thiết kế các nhóm tương đương, vì việc chuyền đổi từ điểm thô

ở dạng thức tham chiếu có thể không chính xác đối với những người dự thi đã

xem trước các câu hỏi.

2.1.2 Nhóm đơn (Single group design)

Phương pháp cân bằng đơn giản nhất là để cùng một thí sinh làm cảdạng thức mới và dạng thức tham chiếu Phương pháp cân bang này được gọi

là Phương pháp "nhóm đơn" Giả định thứ nhất là mối quan hệ cân bằng màchúng ta quan sát được ở nhóm người dự thi này sẽ tổng quát cho nhóm đốitượng mục tiêu Giả định thứ hai: một số hoạt động nhất định có thể ảnhhưởng đến kết quả làm bài giữa hai dạng thức nhưng ảnh hưởng này khôngđáng ké (Ví dụ: dang thức A có những câu hỏi có nội dung gợi ý cho dạngthức B; ) Không nhất thiết nhóm người dự thi phải là mẫu đại diện cho tổngthé thí sinh Nhóm làm bài kiểm tra có thể mạnh hon so với nhóm đối tượng,miễn là những người tham dự bài kiểm tra mạnh hơn ở cùng một mức độ trênbiểu mẫu mới như trên mẫu tham khảo Tương tự, nhóm thực hiện bài kiểmtra có thể yếu hơn so với tổng thể thí sinh, hoặc đa dạng hơn, hoặc ít đa dạnghơn — miễn là những người làm bài kiểm tra khác với nhóm tông thể thí sinh

theo cùng một cách trên biêu mau mới cũng như trên biêu mâu tham khảo.

Trang 37

Ưu điểm:

e Ưu điểm chính của thiết kế nhóm don là do những người dự thi giống

nhau thực hiện cả hai hình thức của bài thi nên nó có ý nghĩa lớn về mặt thống kê

So với hầu hết các thiết kế cân bằng khác, nó cung cấp một sự cân bằng chính xác

cao liên quan đến số lượng thí sinh dự thi có trong thiết kế Theo cách khác, nó

yêu cầu ít người dự thi hơn cho một mức độ chính xác nhất định

e Ngoài mục đích phục vụ cho cân băng đề thi, thiết kế nhóm don cóthể được dùng dé tạo ra các phiên bản nhỏ của một dạng thức kiểm tra lớn,sau khi người kiểm tra hoàn thành tất cả các phiên bản nhỏ, có thể loại bỏ một

số câu hỏi và tạo thành một phiên bản đề mới ngắn gon hơn bản gốc

Hạn chế:

e Hạn chế chính của thiết kế nhóm đơn là hiệu suất của thí sinh ở dạng

thức kiểm tra thứ hai mà họ thực hiện có thể bị ảnh hưởng sau khi tham giadạng thức kiểm tra đầu tiên Thiết kế nhóm đơn rất nhạy cảm với hiệu ứng thứ

tự Trừ khi chấp nhận giả định cho răng những ảnh hưởng này là không đáng

kể, còn không chỉ có thể sử dụng thiết kế nhóm đơn nếu thí sinh làm cả hai

hình thức cùng một lúc.

Nhưng làm thế nào chúng ta có thể có cùng một người dự thi làm cảdạng thức mới và dạng thức tham chiếu cùng một lúc? Một tình huống nhưvậy xảy ra khi chúng ta phải xóa một hoặc nhiều câu hỏi khỏi bài kiểm tratrước khi sử dụng lại (Điều đó có thể xảy ra vì một số lý do khác nhau, baogồm cả kiến thức mới trong môn học được kiểm tra hoặc thay đổi trong cáchdạy môn học.) Trong tình huống này, dạng thức mới chỉ đơn giản là dạng thứctham khảo trừ đi các câu hỏi bị xóa Dé cân bằng, chúng ta cần sử dụng dữliệu từ một nhóm thí sinh đã làm bài kiểm tra trước khi những câu hỏi đó bịxóa Sau đó tính hai điểm số khác nhau cho mỗi người dự thi: điểm số làmdạng thức tham chiếu bao gồm các câu hỏi đã xóa và điểm số làm dạng thức

mới Những điểm số này là cơ sở dé cân bằng

Chúng ta cũng có thé sử dụng thiết kế nhóm đơn khi một hoặc nhiều câu

28

Trang 38

hỏi được thêm vào bài kiểm tra Để cân băng, chúng ta sử dụng dữ liệu từ mộtnhóm thí sinh đã làm bài kiểm tra với các câu hỏi mới được đưa vào Trongtrường hợp này, điểm số của dạng thức mới sẽ bao gồm các câu hỏi mới;điểm của dạng thức tham chiếu sẽ loại trừ chúng.

Một tình huống khác xảy ra trong kiểm tra có sử dụng các câu hỏi luận(kiểm tra tiểu luận, đánh giá hiệu suất, v.v.) Đôi khi, dạng thức mới của bàikiểm tra chứa các câu hỏi hoặc van đề giống hệt như dạng thức tham chiếu —

sự khác biệt nằm ở quy tắc hoặc quy trình cho điểm Trong trường hợp đó,chúng ta có thể cân bằng điểm của biểu mẫu mới với điểm của dạng thứctham chiếu bằng cách cho một nhóm câu trả lời của thí sinh đạt điểm số hailần Vì các câu hỏi giống nhau ở cả hai dạng thức, nên những câu trả lời này

có thê đến từ những thí sinh làm bài theo dạng thức mới hoặc từ những thí

sinh làm theo dạng thức tham chiếu (hoặc cả hai) Việc chấm điểm đầu tiên

được thực hiện với các quy tắc và quy trình cho điểm được sử dụng trên dạngthức tham chiếu; việc ghi điểm thứ hai được thực hiện với các quy tắc và quy

trình tính điểm được sử dụng trên dạng thức mới Đối với mỗi người dự thi,

tính điểm dạng thức mới dựa trên xếp hạng được chỉ định với quy tắc và quytrình chấm điểm dạng thức mới, và điểm dạng thức tham chiếu dựa trên xếp

hạng được chỉ định với quy tắc và quy trình cho điểm của dạng thức thamchiếu

2.1.3 Đối trọng (Counterbalanced design)

Trong tình huống cân bằng thông thường — hai dạng thức kiểm tra thực

sự là những dạng thức khác nhau, không chỉ là những phiên bản khác nhau

của cùng một dạng thức — van đề về hiệu ứng thứ tự làm cho thiết kế cânbăng nhóm đơn không phù hợp Một cách dé khắc phục van dé là chia thí sinhthành hai nhóm và đối trọng thứ tự các nhóm làm hai dạng Một nhóm làmdạng thức mới trước và dạng thức tham chiếu sau; nhóm còn lại làm dạngthức tham chiếu trước, sau đó mới làm dạng thức mới Thí sinh phải hoànthành 2 dạng thức gần nhau về mặt thời gian — đủ gần để không có sự thayđối thực sự về mức độ kiến thức và kỹ năng mà bài thi đo lường Cách tốt

29

Trang 39

nhất là hai nhóm người dự thi càng giống nhau càng tốt (Trong thực tế, thiết

kế này thường tạo ra kết quả tốt ngay cả khi các nhóm khác nhau đôi chút,miễn là sự khác biệt không lớn.) Với thiết kế cân bằng này, tốt nhất là haidạng thức không có bất kỳ điểm chung nào Khi đó, vì các nhóm thí sinhgiống nhau làm cả hai dạng thức kiểm tra, nên bất kỳ khác biệt nào về điểm

số có thể là do độ khó khác nhau của các dạng thức (điều này dựa trên giảthiết rằng các dạng thức được xây dựng song song về nội dung)

Giả định chính của thiết kế đối trọng là bất kỳ hiệu ứng thứ tự nào cũng

sẽ cân bằng Khi sử dụng thiết kế này, chúng ta giả định rằng quá trình làmdạng thức mới sẽ ảnh hưởng đến hiệu suất làm dạng thức tham chiếu cũnggiống như việc làm dạng thức tham chiếu sẽ ảnh hưởng đến hiệu suất làmdạng thức mới Vì lý đo này, nên tránh để hai nhóm có chênh lệch về năng lựckhi làm các dạng thức Nếu nhóm làm dạng thức mới trước về cơ bản giỏi hơnnhóm làm dạng thức tham chiếu trước (hoặc ngược lại), có thể có hiệu ứngthứ tự không cân bằng

Như trong thiết kế nhóm đơn, các nhóm không nhất thiết phải đại diệncho tổng thể thí sinh Chúng có thé mạnh hơn một chút hoặc yếu hơn hoặc dadạng hơn hoặc ít đa dạng hơn Thông tin mà chúng tôi giả định sẽ tổng quáthóa từ các nhóm thí sinh này đến tổng thé thí sinh là mối quan hệ cân bằng

Trang 40

Uu diém:

đơn: kết quả chính xác từ một số lượng tương đối nhỏ người dự thi

e Mặt khác, thiết kế này kiểm soát khá tốt hiệu ứng thứ tự

Hạn chế: Hạn chế chính của phương pháp này là nó gần như khôngthực tế Bởi vì, thông thường, thiết kế cân bằng này yêu cầu một nghiêncứu cân bằng đặc biệt dé thu thập dữ liệu, làm cho hai nhóm học sinhgiống nhau một cách chính xác

2.1.4 Câu hỏi neo (Anchor Test design)

Trong nhiều chương trình kiểm tra đánh giá quy mô lớn, việc kiểm trađược tô chức thành các “dot thi” Mỗi dot thi là một khoảng thời gian ngắn(có thể là một ngày) trong đó một số lượng lớn thí sinh dự thi cùng một bàithi Thông thường, tat cả các thí sinh làm bài kiểm tra tại một địa điểm cụ théđều có cùng một dạng bài kiểm tra Nếu hình thức kiểm tra đó chưa được đưa

ra trước đó, điểm số sẽ cần được tính bằng điểm của một dạng thức thamchiếu đã được đưa ra trước đó Trong tình huống phổ biến này, chúng takhông thể cho răng các nhóm thí sinh thi theo dạng thức mới và dạng thức

tham chiếu là ngang nhau về kỹ năng làm bài thi Để cân bằng điểm số, chúng

ta cần sự liên kết giữa các nhóm đó — một số loại thông tin sẽ cho chúng tathấy các nhóm khác nhau như thế nào về các kỹ năng mà bài kiểm tra đolường Và ở đây, sự liên kết đó được thực hiện thông qua các câu hỏi chung.Trong thuật ngữ kiểm tra đánh giá, liên kết này được gọi là "neo" Thiết kếcâu hỏi neo (Anchor Test Design) còn được gọi là thiết kế câu hỏi chung cho

nhóm không tương đương (Common-ltem Nonequivalent Groups Design)(Kolen & Brennan, 2004) hoặc Thiết kế câu hỏi neo cho nhóm không tương

đương (Non Equivalent groups with Anchor Test) (von Davier, 2004) Cac

tên gọi nay đều chỉ ra việc sử dụng một tập hop con các câu hỏi chung/neotrong mỗi dạng thức kiểm tra được đưa vào cân bằng

31

Tiêu đề	Các Phương Pháp Cân Bằng Đề Thi Trong Kiểm Tra Đánh Giá
Tác giả	Nguyễn Thị Thu Hương
Người hướng dẫn	PGS.TS Vũ Đỗ Long
Trường học	Đại Học Quốc Gia Hà Nội - Trường Đại Học Giáo Dục
Chuyên ngành	Đo Lường Và Đánh Giá Trong Giáo Dục
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	103
Dung lượng	52,8 MB

Luận văn thạc sĩ Đo lường và đánh giá trong giáo dục: Các phương pháp cân bằng đề thi trong kiểm tra đánh giá

KÉT QUÁ PHÂN TÍCH VÀ THẢO LUẬN