T¹p chÝ y d−îc häc qu©n sù sè 4 2021 134 PHÂN TÍCH, ĐÁNH GIÁ CÂU HỎI VÀ ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN HỌC PHẦN BỆNH HỌC NHI KHOA BẰNG PHẦN MỀM CONQUEST TẠI HỌC VIỆN QUÂN Y Hoàng Anh Tuấn1, Đặng Văn Ca[.]
Trang 1PHÂN TÍCH, ĐÁNH GIÁ CÂU HỎI VÀ ĐỀ THI TRẮC NGHIỆM
Hoàng Anh Tu ấn 1 , Đặng Văn Cao 1 , Nguy ễn Việt Hưng 1
TÓM T ẮT
M ục đích: Đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng
câu h ỏi (IRT) Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học
ph ần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số
của câu hỏi, đề thi trắc nghiệm K ết quả: Hệ số tin cậy (Sr - Separation reliability) = 0,905 Câu
h ỏi trắc nghiệm được phân thành 3 nhóm: Câu hỏi tốt, câu hỏi chưa tốt cần chỉnh sửa, câu hỏi
c ần loại bỏ) Độ khó của câu hỏi được chia thành 3 nhóm: Câu hỏi có độ khó trung bình, câu
hỏi dễ, câu hỏi quá dễ so với năng lực của thí sinh K ết luận: Câu hỏi thi trắc nghiệm khách
quan có thông s ố phù hợp, đề thi phù hợp với mô hình Rash, độ tin cậy cao, đánh giá đúng nội dung, d ễ so với năng lực của thí sinh
* T ừ khóa: Trắc nghiệm; Lý thuyết khảo thí cổ điển; Thuyết đáp ứng câu hỏi; Phần mềm Conquest
Analysis and Evaluation of Questions and Objective Test of Pediatric Disease Software by Conquest Software at Vietnam Military Medical University
Summary
Objectives: To evaluate the quality of questions and on multiple-choice questions using
question-response theory (IRT) Subjects and methods: Multiple-choice questions and
multiple-choice questions in the Pediatric Pathology section were processed using Conquest
software to provide the parameters of the questions and multiple-choice questions Results:
Separation reliability = 0.905 Multiple choice questions were divided into 3 groups: Good questions, bad questions that need editing, and questions that need to be eliminated The difficulty of the question was divided into 3 groups: Medium difficulty questions, easy questions,
and too easy questions compared to the competitor's ability Conclusion: Objective
multiple-choice questions with appropriate parameters, exam questions suitable for the Rash model, high reliability, correct content assessment, easy compared to the candidate's capacity
* Keywords: Testing; Classic test theory; Theory of response to the question; Conquest software
Ng ười phản hồi: Hoàng Anh Tuấn (hoanganhtuan@vmmu.edu.vn)
Ngày nh ận bài: 20/2/2021
Ngày bài báo được đăng: 28/4/2021
Trang 2ĐẶT VẤN ĐỀ
Kiểm tra đánh giá là một khâu rất quan
trọng trong quá trình đổi mới đào tạo
Kiểm tra đánh giá khách quan, nghiêm
túc, công bằng, đúng cách sẽ tạo động
lực cho người học, khích lệ người học
trên con đường chiếm lĩnh tri thức Mặt
khác, thông qua hoạt động kiểm tra đánh
giá giúp giảng viên và các nhà quản lý đổi
mới về phương pháp giảng dạy, phương
pháp quản lý để hỗ trợ người học đạt
được các mục tiêu trong học tập Những
năm gần đây, tại Học viện Quân y, bên
cạnh việc đổi mới chương trình và
phương pháp giảng dạy, hoạt động đổi
mới phương pháp kiểm tra đánh giá cũng
được quan tâm, chú trọng bằng việc thay
đổi quan điểm tiếp cận về lý luận kiểm tra
đánh giá, thay đổi phương pháp kiểm tra
đánh giá phù hợp với yêu cầu của hoạt
động giảng dạy Hình thức thi trắc nghiệm
khách quan là phương pháp đánh giá có
nhiều ưu điểm được sử dụng trong nhiều
kỳ thi quan trọng như: Thi tuyển sinh Đại
học, thi tốt nghiệp Trung học phổ thông
Quốc gia… và ngày càng được áp dụng
với nhiều môn thi tại Học viện Quân y
trong những năm gần đây Tuy nhiên,
hiện nay các câu hỏi trắc nghiệm khách
quan và đề thi trắc nghiệm được sử dụng
tại Học viện Quân y chưa được đánh giá
một cách khoa học và khách quan Do đó,
việc nâng cao chất lượng của câu hỏi trắc
nghiệm, cũng như đánh giá mức độ phù
hợp của đề thi với năng lực của sinh viên
là rất quan trọng để hoạt động kiểm tra
đánh giá thực hiện được vai trò và chức
năng của nó Chúng tôi nghiên cứu đề tài này nhằm: Đánh giá chất lượng câu hỏi
ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP
NGHIÊN C ỨU
1 Đối tượng nghiên cứu
Dữ liệu thu thập từ kết quả thi của 86 thí sinh với đề thi 50 câu hỏi trắc nghiệm khách quan môn Bệnh học Nhi khoa tại
Học viện Quân y năm 2021 Ngân hàng câu hỏi thi trắc nghiệm sau khi được biên
soạn đảm bảo đáp ứng được nội dung yêu cầu của chương trình đào tạo
2 Ph ương pháp nghiên cứu
Sử dụng phần mềm Conquest xử lý kết quả thi được trích xuất từ phần mềm thi trắc nghiệm sau khi thi xong
Chương trình Conquest cho ra các thông số về mức độ phù hợp của câu hỏi với mô hình Rash, năng lực thí sinh với
độ khó của câu hỏi, độ tin cậy của đề thi
và các đặc trưng của câu hỏi đó là độ khó, độ phân biệt, hệ số tương quan của câu hỏi với toàn bài, độ tin cậy và sai số
Sau khi câu hỏi trắc nghiệm khách quan được nghiệm thu về nội dung, cần định lượng các tham số của câu hỏi bằng
kết quả trả lời của thí sinh với câu hỏi đó Theo lý thuyết khảo thí cổ điển, câu hỏi
cần đạt được các giá trị về độ khó, độ phân biệt Các giá trị này được tính toán
Trang 3dựa trên kết quả về thống kê mà không
xem xét nội dung thuộc vào lĩnh vực nào
- Độ khó của câu hỏi (p): Là tỷ lệ phần
trăm thí sinh trả lời đúng câu hỏi/tổng số
thí sinh tham gia trả lời Giá trị của p nằm
trong khoảng 0,1, p càng lớn thì câu hỏi
càng dễ và ngược lại Giá trị của có thể
chấp nhận được nằm trong khoảng
0,25 - 0,75; câu hỏi có p < 0,25 là quá
khó, câu hỏi có p > 0,75 là quá dễ với thí
sinh (Lord [2])
- Độ phân biệt của câu hỏi trắc nghiệm
hoặc đề thi trắc nghiệm: Là khả năng
phân biệt được năng lực của thí sinh:
giỏi, khá, trung bình, kém… Độ phân biệt
của câu hỏi liên quan đến độ khó của câu
hỏi Nếu một câu hỏi quá khó hay quá dễ
thì phản ứng của thí sinh có năng lực
khác nhau là giống nhau: Hoặc sai hết
hoặc đúng hết, do đó không phân biệt
được năng lực của thí sinh Vì vậy, 1 câu
hỏi có khả năng phân biệt tốt cần có độ
khó ở mức trung bình và 1 đề thi trắc
nghiệm tốt cần có nhiều câu hỏi có mức
độ trung bình Khi đó, điểm số của thí
sinh có phổ trải rộng Để xác định độ
phân biệt của câu hỏi, tính hệ số tương
quan giữa điểm của câu hỏi với điểm của
cả bài thi trắc nghiệm (hệ số R-pearson)
Thông thường, giá trị Rp > 0,2 (Lord [2])
- Độ tin cậy: Là giá trị dùng để đánh
giá chất lượng của đề thi trắc nghiệm,
là đại lượng biểu thị mức độ chính xác
của phép đo nhờ đề trắc nghiệm Độ tin
cậy của đề trắc nghiệm có thể được đánh giá bằng nhiều phương pháp như:
Trắc nghiệm - trắc nghiệm lại; đề thi trắc nghiệm tương đương; phân đôi đề thi trắc nghiệm; phương pháp Kuder-Richardson;
hệ số Cronbach alpha: là biểu thức dùng ước lượng độ tin cậy của một đề kiểm tra tổng thể (có thể gồm nhiều đề trắc nghiệm con nhị phân hoặc đa phân, được
sử dụng nhiều trong tâm lý và giáo dục)
Về lý thuyết, giá trị độ tin cậy nằm trong khoảng 0 - 1 Độ tin cậy cao nghĩa là các câu hỏi có độ gắn kết với nhau Thí sinh trả lời được câu hỏi này có xu hướng trả
lời được các câu hỏi cùng nhóm Đề thi
có độ tin cậy > 0,8 là rất tốt và có thể sử dụng cho đề thi trên lớp; độ tin cậy từ 0,7 - 0,8 là tốt, tuy nhiên cần chỉnh sửa một số câu hỏi; độ tin cậy < 0,7 là tương đối thấp (Brenan [4])
- Độ giá trị của đề thi trắc nghiệm: Là yêu cầu quan trọng nhất vì nó phản ánh đúng giá trị nội dung cần đo, biểu thị mức
độ đạt được mục tiêu đề ra cho phép đo
nhờ đề trắc nghiệm Để độ giá trị của đề
trắc nghiệm cao, cần xác định tỉ mỉ mục tiêu cần đo và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng câu hỏi
Độ giá trị và độ tin cậy của đề thi trắc nghiệm có liên quan với nhau Đề thi có
độ tin cậy thấp không thể có giá trị Nhưng ngược lại, độ tin cậy cao chưa chắc có giá trị vì có thể không phản ánh đúng đối tượng cần đo (Samuel Messick [7])
Trang 4* Lý thuy ết khảo thí hiện đại và phần
Thuyết đáp ứng câu hỏi (Item Response
Theory), còn gọi là lý thuyết khảo thí hiện
đại, được ra đời vào thế kỷ XX và phát
triển mạnh mẽ cho đến nay Lý thuyết
khảo thí hiện đại đã khắc phục được một
số nhược điểm của lý thuyết khảo thí cổ
điển là không tách biệt được các đặc
trưng của thí sinh độc lập (năng lực) với
đặc trưng của đề trắc nghiệm; thuyết
khảo thí cổ điển coi sai số tiêu chuẩn của
phép đo năng lực giữa các thí sinh là như
nhau, quan tâm mức độ đáp ứng của thí
sinh với đề thi mà không chú trọng mức
độ đáp ứng của thí sinh với các câu hỏi
riêng biệt (Lâm Quang Thiệp [1])
quan sát là năng lực của thí sinh và xác
Wu và CS [3], lý thuyết ứng đáp câu hỏi
đoán xác suất trả lời đúng 1 câu hỏi, dựa
trên chỉ số về năng lực của người trả lời
Độ khó, độ phân biệt và độ phán đoán
đưa ra bao gồm: Mô hình đáp ứng 1
tham số: sử dụng cả 2 biến là độ khó và
độ phân biệt của câu hỏi; mô hình 3 tham
đánh giá và phân tích câu hỏi, cho phép
cung cấp cho người sử dụng các thông tin: Thông số cơ bản của việc phân tích câu hỏi theo mô hình IRT; thông số độ
phân bố độ khó của câu hỏi với năng lực của thí sinh; đường cong đặc trưng của câu hỏi; trường hợp bất thường của người trả lời
K ẾT QUẢ NGHIÊN CỨU
Đề thi gồm 50 câu hỏi trắc nghiệm khách quan ở học phần Bệnh học Nhi khoa với thời gian 60 phút của 85 sinh viên y khoa năm thứ 5 Đề thi nhằm đánh giá năng lực nhận thức ở 3 mức độ: Nhớ (25 câu), thông hiểu (15 câu) và vận dụng (10 câu)
1 M ức độ phù hợp với mô hình IRT
Tiến hành phân tích kết quả trong file SHW cho thấy, các câu hỏi trong bài kiểm tra có giá trị Unweighted fit nằm trong giới
hạn 0,7 - 1,30 và chỉ số của Weighted MNSQ của các câu hỏi đều xấp xỉ 1 cho
thấy dữ liệu dùng để phân tích phù hợp
với mô hình IRT
Trang 5B ảng 1: Mức độ phù hợp của câu hỏi với mô hình IRT
Cả 50 câu hỏi trong đề thi trắc nghiệm hoàn toàn phù hợp, đánh giá đúng nội dung cần đánh giá Bài thi trắc nghiệm có độ tin cậy cao với hệ số tin cậy Sr = 0,905
2 Các đặc tính của câu hỏi
Câu hỏi trắc nghiệm khách quan tốt là câu hỏi đảm bảo chuẩn về nội dung, các tham số của câu hỏi như độ khó, độ phân biệt, các phương án nhiễu đều hợp lý Câu
hỏi không phù hợp với mô hình, quá khó, quá dễ, phương án nhiễu không hiệu quả
cần loại bỏ hoặc điều chỉnh cho phù hợp
- Nhóm câu hỏi tốt (44, 33, 29, 9, 5, 4): Là câu hỏi có độ khó phù hợp, phương án nhiễu có giá trị Ví dụ phân tích câu hỏi số 9:
Trang 6Hình 2: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 9
Câu hỏi có độ khó theo lý thuyết khảo thí cổ điển là 0,65, nằm trong giới hạn (0,25 -0,75), có 65,88% thí sinh trả lời đúng kết quả Độ phân biệt của câu hỏi ở mức khá (Discrimnation = 0,48 > 0,2), tức câu hỏi có khả năng phân biệt được nhóm học sinh có năng lực cao và nhóm học sinh có năng lực thấp Chỉ số Pt Bis ở các phương
án nhiễu (A, B, C) đều có giá trị âm, trong khi phương án đúng (D) có giá trị dương và cao nhất Chứng tỏ các phương án nhiễu có giá trị trong việc đánh giá năng lực của thí sinh So sánh cấu trúc đề thi và ý kiến của chuyên gia về nội dung câu hỏi cho thấy, câu hỏi số 9 dùng để đánh giá năng lực nhận thức ở mức độ vận dụng, do đó độ khó
bằng 0,65 là khá phù hợp, độ phân biệt 0,48 ở mức chấp nhận được Phân tích đường cong đặc trưng của câu hỏi cũng thấy khá phù hợp
- Nhóm câu hỏi cân nhắc điều chỉnh (40, 27, 26, 25, 21, 17, 10, 8, 42): Là câu hỏi có
độ phân biệt rất thấp, phương án nhiễu không hiệu quả hoặc có độ khó không phù hợp Ví dụ phân tích câu hỏi số 27:
Trang 7Hình 3: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 27
Kết quả phân tích cho thấy câu hỏi có độ khó 0,77, độ phân biệt 0,1 Tham khảo ý
kiến chuyên gia cho thấy câu hỏi được sử dụng để đánh giá năng lực mức thông hiểu
Do câu hỏi dễ nên không có khả năng phân biệt năng lực của thí sinh Xem xét giá trị
Pt Bis thấy các đáp án A, D có chỉ số dương, chỉ có 1/85 thí sinh chọn đáp án A Chứng tỏ phương án nhiễu không hiệu quả
- Nhóm câu hỏi chưa tốt (32, 30, 24, 23, 20, 15, 6, 2, 41): Là câu hỏi có độ khó, độ
phân biệt hoặc phương án nhiễu không hợp lý Ví dụ phân tích câu hỏi số 20: