Sử dụng MCQ để lượng giá kiến thức đã được dùng rộng rãi tại Khoa Y, đại học Y Dược Thành phố Hồ Chí Minh, nhưng rất ít nghiên cứu đã được thực hiện về chất lượng của những kỳ thi MCQ này. Bài viết trình bày xác định tính giá trị và độ tin cậy của đề thi MCQ sản khoa sinh viên y năm thứ tư năm học 2014-2015.
Trang 1TÍNH GIÁ TRỊ VÀ ĐỘ TIN CẬY CỦA ĐỀ THI MCQ SẢN KHOA CHO
SINH VIÊN Y NĂM THỨ TƯ NĂM HỌC 2014-2015
Đoàn Thị Thu Hoa 1 , Âu Nhựt Luân 2
TÓM TẮT
Đặt vấn đề: Sử dụng MCQ để lượng giá kiến thức đã được dùng rộng rãi tại Khoa Y, đại học Y Dược Thành phố Hồ Chí Minh, nhưng rất ít nghiên cứu đã được thực hiện về chất lượng của những kỳ thi MCQ này Mục tiêu: Xác định tính giá trị và độ tin cậy của đề thi MCQ sản khoa sinh viên y năm thứ tư năm học 2014-2015
Đối tượng - Phương pháp nghiên cứu: Sinh viên Y4 tham gia thi trắc nghiệm Sản khoa học kỳ 1 và học kỳ
2 năm học 2014-2015 được thăm dò ý kiến bằng bảng câu hỏi về các yếu tố bên ngoài ảnh hưởng đến tính giá trị
đề thi và về nội dung đề thi Kết quả thi của sinh viên được thu thập để tính độ tin cậy của đề thi bằng hệ số Kuder Richardson 20 và các chỉ số của câu hỏi Phỏng vấn người chịu trách nhiệm chính trong việc ra đề thi về quá trình hình thành đề thi Một nhóm 4 giảng viên của bộ môn Sản đánh giá đề thi của học kỳ 1 và học kỳ 2 để xem xét liệu 2 đề thi có tương đồng với nhau về mặt nội dung Kết quả thống kê mô tả được phân tích và so sánh
dữ liệu từ đề thi hai học kỳ
Kết quả: Một số yếu tố bên ngoài có thể ảnh hưởng đến tính giá trị của đề thi đã được loại trừ, tuy nhiên đề thi được sinh viên đánh giá là khó và thời gian thi không đủ Độ tin cậy của đề thi ở 2 học kỳ thấp (0,4920 ở học
kỳ 1 và 0,6235 ở học kỳ 2) Đề thi có độ khó trung bình (0,560 học kỳ 1 và 0,563 học kỳ 2), nhưng độ phân cách không cao ở mức tạm được (0,203 và 0,230) Quá trình xây dựng đề thi không được chặt chẽ do không có test blueprint cụ thể Tỷ lệ các câu hỏi phân bố chưa cân đối Hệ số tương quan Pearson giữa 2 đề thi là 0,73 (p <0,01) khi xét phân bố câu hỏi theo bài học, tuy nhiên, khi xét theo chủ đề thì hệ số tương quan Pearson không có ý nghĩa thống kê (hệ số tương quan Pearson 0,601, p=0,051)
Kết luận: Đề thi trắc nghiệm Sản cho sinh viên y năm thứ tư năm học 2014-2015 có độ tin cậy thấp, tính giá trị về mặt nội dung chưa cao
Từ khóa: tính giá trị, độ tin cậy
ABSTRACT
VALIDITY AND RELIABILITY OF MCQ EXAMS OF OBSTETRICS-GYNECOLOGY FOR FOURTH
YEAR STUDENTS IN ACADEMIC YEAR 2014-2015
Doan Thi Thu Hoa, Au Nhut Luan
* Ho Chi Minh City Journal of Medicine * Vol 25 - No 1 - 2021: 182 - 189
Background: MCQ has been widely used to assess knowledge in Faculty of Medicine, University of Medicine and Pharmacy at Hochiminh city, but very few researches have been done on the quality of these MCQ exams
Objective: Investigate validity and reliability of MCQ exams of Obstetrics-Gynecology for fourth year students in academic year 2014-2015
Methods: Fourth year students in academic year 2014-2015 participating in MCQ final exams of OB-GYN were asked for their opinions by a questionaire (14 items) about test content and extraneous factors that could
1 Trung tâm huấn luyện nâng cao mô phỏng lâm sàng, Khoa Y, Đại học Y Dược TP Hồ Chí Minh
2 Bộ môn Sản phụ khoa, Khoa Y, Đại học Y Dược TP Hồ Chí Minh
Tác giả liên lạc: BS Đoàn Thị Thu Hoa ĐT: 0918992334 Email: doanthuhoa@ump.edu.vn
Trang 2influence test validity Student test results were collected to calculate test reliability using the Kuder Richardson
20 coefficient and item analysis Interviewing the test developer about test construction and a panel of 4 OBGYN lecturers judged whether the two exams assessed similar content The descriptive statistical results were analyzed and data from two semester exams were compared
Results: Extraneous factors that could influence test validity had been excluded, however, according to student’s perspectives, tests were considered as difficult and had inadequate testing time Test reliability was low
in the 2 semesters (0.4920 in semester 1 and 0.6235 in semester 2) The tests had moderate difficulty index (0.560 semesters 1 and 0.563 semesters 2), and moderate discrimination index (0.203 and 0.230) The test construction process was not rigorous as a formal specific test blueprint had not been developed Items were distributed at some extent disproportion The Pearson correlation coefficient between the two tests was 0.73 (p <0.01) when considering the item distribution across lessons, however, when considering item distribution across topics, the Pearson correlation coefficient was not statistically significant (coefficient 0.601, p=0.051)
Conclusion: MCQ exams of Obstetrics-Gynecology for fourth year students in academic year 2014-2015 has low reliability and not high content validity
Keywords: validity, reliability
ĐẶT VẤN ĐỀ
Lượng giá sinh viên đóng vai trò quan trọng
trong chương trình giảng dạy Việc lượng giá
trong giáo dục y khoa có xu hướng dùng các
phương pháp lượng giá khách quan, cụ thể là thi
trắc nghiệm câu hỏi nhiều lựa chọn Multiple
Choice Question (MCQ)
Tổng quan tài liệu cho thấy rằng để xây
dựng được một đề thi có tính giá trị cao đòi hỏi
một qui trình chặt chẽ nhất định Quá trình xây
dựng đề thi bao gồm những bước sau(1,2,3,4): (1)
Xác định mục đích của kỳ thi; (2) Xây dựng test
blueprint, bao gồm liệt kê các mục tiêu và nội
dung, tỉ lệ các câu hỏi phân bố cho mỗi mục tiêu
và nội dung đó; (3) Viết câu hỏi hoặc rút câu hỏi
từ ngân hàng theo test blueprint, cần rút câu hỏi
nhiều hơn số câu hỏi đã dự định để đảm bảo
rằng sẽ có sẵn câu hỏi dự bị nếu như có những
câu hỏi bị loại bỏ, mục tiêu của bước này là có
được đề thi có tính đại diện; (4) Xem lại câu hỏi
đã được lấy ra, bao gồm kiểm tra lại nội dung
mục tiêu, đáp án và lỗi kĩ thuật của các mồi nhử;
(5) Bản thảo đề thi được kiểm tra một lần nữa và
sửa chữa những lỗi đánh máy và câu hỏi trùng
lắp; (6) Sau khi thi xong, các câu hỏi được xem
xét một lần nữa dựa trên phân tích thống kê và ý
kiến sinh viên
Sử dụng MCQ để lượng giá kiến thức đã
được dùng rộng rãi tại Khoa Y, Đại học Y Dược Thành phố Hồ Chí Minh Dù đã được dùng rộng rãi, nhưng rất ít nghiên cứu đã được thực hiện
về chất lượng của những kỳ thi MCQ này Tính giá trị và độ tin cậy là 2 đặc tính quan trọng đối với bất kỳ một kỳ thi nào, do đó tính giá trị và độ tin cậy phản ánh chất lượng của đề thi Một nghiên cứu về tính giá trị và độ tin cậy của đề thi MCQ Nhi khoa cho sinh viên y năm thứ tư năm học 2002-2003(5) đã cho thấy các vấn đề gồm: chưa xây dựng test blueprint, các câu hỏi phân
bố không cân đối giữa các bài học, hệ số tương quan giữa hai đề thi khi xem xét số câu hỏi phân
bố giữa các bài học là 0,6, và độ tin cậy của đề thi
là 0,79
Nhằm mục tiêu nhận diện thực trạng của
đề thi MCQ, nghiên cứu này nhằm mục đích xác định tính giá trị và độ tin cậy của đề thi MCQ sản khoa sinh viên y năm thứ tư năm học 2014-2015
ĐỐI TƯỢNG - PHƯƠNG PHÁP NGHIÊN CỨU Đối tượng nghiên cứu
311 sinh viên Y4 thi Sản học kỳ 1 và 280 sinh viên Y4 thi Sản học kỳ 2 đã trả lời bảng thăm dò
ý kiến về đề thi MCQ mới vừa thi xong bằng bảng questionaire gồm 14 câu hỏi về những yếu
tố bên ngoài có ảnh hưởng đến tính giá trị của đề thi và về nội dung đề thi Đối với mỗi câu hỏi,
Trang 3sinh viên trả lời theo mức độ rất không đồng ý,
không đồng ý, trung lập, đồng ý, rất đồng ý
Thống kê mô tả để trình bày kết quả
Phương pháp nghiên cứu
Dữ liệu kết quả thi của 315 sinh viên Y4 học
kỳ 1 và 285 sinh viên học kỳ 2 thi MCQ trong
năm học 2014-2015 được thu thập để tính độ tin
cậy của đề thi và các chỉ số của câu hỏi Độ tin
cậy của 2 kỳ thi MCQ được đo lường bằng hệ số
Kuder Richardson 20 Chỉ số khó, chỉ số phân
cách và hiệu quả của các mồi nhử được tính cho
mỗi câu hỏi trong đề thi MCQ
Phỏng vấn người chịu trách nhiệm chính
trong việc ra đề thi về quá trình hình thành đề
thi, về test blueprint, về xây dựng/rút câu hỏi,
chỉnh sửa câu hỏi, thống kê sau khi thi
Một nhóm 4 giảng viên của bộ môn Sản
đánh giá đề thi về nội dung Đối với mỗi câu hỏi
trong đề thi, mỗi giảng viên sẽ đánh giá như sau:
xác định câu hỏi thuộc chủ đề nào (trong 7 chủ
đề), thuộc nội dung nào (thuộc bài học nào trong
34 bài học); xác định mức độ tư duy sinh viên
cần vận dụng để trả lời câu hỏi: mức độ nhớ lại,
mức độ hiểu giải thích, mức độ áp dụng giải
quyết vấn đề; đánh giá mức độ quan trọng của kiến thức được hỏi theo thang điểm từ 1-4 (từ mức độ “không cần lượng giá” đến mức độ
‘phải lượng giá”); nhận xét chung về đề thi có cân đối theo chủ đề và bài học hay không
Thống kê mô tả phần đánh giá của giảng viên về đề thi theo 7 chủ đề và 34 nội dung bài học Hệ số tương quan về số câu hỏi được phân
bố theo chủ đề và theo các nội dung bài học giữa
2 đề thi học kỳ 1 và học kỳ 2 sẽ được tính Thống
kê mô tả số câu hỏi đề thi theo 3 mức độ tư duy nhớ, hiểu, ứng dụng Điểm trung bình về mức
độ quan trọng của kiến thức được lượng giá trong mỗi câu hỏi sẽ được tính, nếu >2,5 nghĩa là kiến thức được lượng giá là quan trọng
KẾT QUẢ
Ý kiến sinh viên
Ý kiến sinh viên về mỗi phát biểu liên quan đến các yếu tố bên ngoài và các yếu tố liên quan
nội dung đề thi được trình bày trong Bảng 1 theo
tỷ lệ phần trăm Điểm trung bình của mỗi phát biểu cũng được tính
Bảng 1: Ý kiến sinh viên ở học kỳ 1 và học kỳ 2
Học kỳ (HK)
Rất không đồng ý (%)
Không đồng ý (%)
Trung lập (%)
Đồng ý (%)
Rất đồng
ý (%)
Trung bình
Rất khó 42,5
Khó 49,0
Vừa sức 7,8
Dễ 0,3
Rất dễ
Thiếu giờ 59,5
Đủ giờ 37,9
Dư giờ
7 Đề thi có những câu hỏi dùng từ ngữ khó hiểu
phức tạp làm bạn mất thời gian để hiểu ý câu
hỏi
8 Đề thi có những câu hỏi có manh mối gợi ý
cho câu trả lời đúng
Trang 4Học kỳ (HK)
Rất không đồng ý (%)
Không đồng ý (%)
Trung lập (%)
Đồng ý (%)
Rất đồng
ý (%)
Trung bình
11 Nội dung bài thi phù hợp với nội dung đã
được dạy
12 Nhìn chung tỷ lệ câu hỏi cho các
chương/các phần cân đối với số giờ học các
chương/các phần đó
13 Có các phần quan trọng của chương trình
môn học không được hỏi trong đề thi này
14 Đề thi có những câu hỏi mà nội dung của nó
không có trong chương trình giảng dạy
Về các yếu tố bên ngoài
Các phát biểu về “hướng dẫn cụ thể cách
làm bài”, “tổ chức thi nghiêm túc”, “câu hỏi nói
chung dễ hiểu” đều có trung bình cao hơn 3
(thang điểm giữa của thang 5) Đối với các phát
biểu “câu hỏi dùng từ ngữ phức tạp khó hiểu”,
“câu hỏi có manh mối gợi ý câu trả lời đúng” có
điểm trung bình <3, cho thấy đa số cho rằng câu
hỏi không có từ ngữ phức tạp khó hiểu, không
có manh mối đoán mò được câu trả lời đúng
Tuy nhiên phát biểu “đề thi có những câu hỏi
gây hiểu nhầm ý” có trung bình 3,02 và 2,98 ở
học kỳ 1 và học kỳ 2 cho thấy tỷ lệ sinh viên
đồng ý và tỷ lệ không đồng ý là gần bằng nhau,
có thể dẫn đến giả định rằng có khả năng có một
số câu hỏi được viết không tốt, dẫn đến gây hiểu
nhầm ý
Phần lớn sinh viên cho rằng đề thi là khó Ý
kiến của sinh viên về “độ khó của đề thi” có
điểm trung bình thấp dưới 2 ở cả học kỳ 1 (1,67)
và 2 (1,76) Thời gian làm bài thi ở học kỳ 1 chỉ có
37,9 % cho rằng đủ giờ, còn 59,5% cho rằng thiếu
giờ; ở học kỳ 2 23,9% cho là thiếu giờ 70% cho là
đủ giờ
Về nội dung đề thi dưới góc nhìn của sinh viên
Các phát biểu về “đề thi đánh giá đúng
khả năng”, về “nội dung thi phù hợp mục
tiêu”, về “tỉ lệ câu hỏi cân đối” có điểm trung
bình cao hơn 3 Tuy nhiên, phát biểu về “đề thi
phù hợp nội dung đã được dạy” có trung bình
quanh mức 3 ở cả hai học kỳ 3,12 (học kỳ 1) và
3,06 (học kỳ 2), với 35,7% sinh viên ở học kỳ 1
và 33,7% sinh viên ở học kỳ 2 không đồng ý với phát biểu “nội dung bài thi phù hợp với nội dung đã được dạy”
Phát biểu “có các phần quan trọng của chương trình môn học không được hỏi trong đề thi này” có điểm trung bình là 2,69 (học kỳ 1) và 2,82 (học kỳ 2) cho thấy rằng số đông sinh viên nghĩ rằng các phần quan trọng đã được hỏi trong đề thi
Độ tin cậy của đề thi, chất lượng câu hỏi về chỉ
số khó, chỉ số phân cách và mồi nhử
Độ tin cậy của đề thi
Đề thi mỗi học kỳ có 60 câu hỏi với 4 lựa chọn Kết quả đánh giá độ tin cậy của từng đề thi MCQ, thống kê mô tả số câu hỏi có độ khó
và độ phân cách khác nhau được trình bày
trong Bảng 2
Bảng 2: Kết quả độ tin cậy, thống kê mô tả số câu hỏi
có độ khó và độ phân cách khác nhau
HK 1 HK 2
Số câu hỏi dễ có độ khó >0,7 12 17
Số câu hỏi có độ khó trung bình 0,3-0,7 44 40
Số câu hỏi có độ phân cách <0,2 28 22
Số câu hỏi có độ phân cách 0,2 - <0,3 19 18
Số câu hỏi có độ phân cách 0,3 - <0,4 13 13
Số câu hỏi có độ phân cách >= 0,4 0 7
Độ tin cậy của cả hai đề thi học kỳ 1 và học
kỳ 2 cùng thấp hơn 0,8, cho thấy độ tin cậy chưa cao Nếu sử dụng công thức Spearman Brown
Trang 5để dự đoán sự gia tăng độ tin cậy bằng cách tăng
chiều dài đề trắc nghiệm như sau:
rn = nrs/((n-1)rs + 1)), với n là số lần tăng
chiều dài đề trắc nghiệm, rs là độ tin cậy của đề
thi hiện tại, rn là độ tin cậy của đề thi được gia
tăng số câu hỏi thì khi tăng gấp đôi số câu (tức
đề thi có 120 câu) thì hệ số tin cậy của đề thi
giả định sẽ là 0,76
Độ khó và độ phân cách của các đề thi, hiệu
quả mồi nhử của các câu hỏi
Đề thi có độ khó trung bình ở cả học kỳ (HK)
1 (0,560) và học kỳ 2 (0,563), tuy nhiên độ phân
cách của để thi chưa cao (0,203 và 0,230), có 22/60
(36,6%) câu hỏi ở học kỳ 1 và 28/60 (46,6%) câu
hỏi ở học kỳ 2 có độ phân cách kém <0,2 Trung
bình số mồi nhử hiệu quả là 2,23 (75%) ở học kỳ
1 và 2,48 (82,7%) ở học kỳ 2
Một câu hỏi lý tưởng là câu hỏi có độ khó
trung bình (0,3-0,7), độ phân cách cao (>=0,4) và
hiệu quả mồi nhử 100%
Phỏng vấn người chịu trách nhiệm chính trong
việc ra đề thi
Phỏng vấn cho thấy rằng ở thời điểm nghiên
cứu (năm 2014), bộ môn chưa xây dựng một
cách chính thức test blueprint Các giảng viên
khi được phân công giảng bài nào thì sẽ được
yêu cầu gửi câu hỏi của bài mình chịu trách
nhiệm người phụ trách đề thi Người phụ trách
đề thi của bộ môn có phân nhóm câu hỏi theo
các chủ đề tình huống, mỗi chủ đề có 3 câu Số
câu hỏi được gửi khoảng 100 câu Các câu hỏi
được chọn lọc lại theo chủ đề phù hợp để lấy 60
câu cho thi Các câu được chọn sẽ được chỉnh
sửa các mồi nhử về mặt kĩ thuật viết câu (khi cần
thiết) Bản thảo đề thi có kiểm tra về định dạng,
lỗi chính tả, lỗi kỹ thuật, và kiểm tra có phù hợp
với các chủ đề Sau khi thi xong, các câu hỏi
được xem xét một lần nữa dựa trên phân tích
câu hỏi
Ý kiến của 4 giảng viên đánh giá về nội dung
Kết quả đề thi lý thuyết sản được đánh giá
theo chủ đề và bài học
Kết quả số câu hỏi được phân bố theo 7 chủ
đề theo đánh giá của giảng viên được trình bày
trong Bảng 3
Bảng 3: So sánh số câu hỏi phân bố giữa các chủ đề
HK 1
Đề thi
HK 2 Chủ đề 1 Tam cá nguyệt thứ nhất và nửa
Chủ đề 2 Nửa sau tam cá nguyệt thứ nhì và
Chủ đề 3 Chăm sóc một thai phụ chuyển dạ
Chủ đề 4 Chăm sóc một thai phụ chuyển dạ
Chủ đề 5 Chăm sóc bà mẹ và sơ sinh những
Chủ đề 7 Phết mỏng tế bào cổ tử cung Tiết
Chủ đề 8 (Không thuộc 7 chủ đề) “Sinh lý chu
Chủ đề 9 (Không thuộc 7 chủ đề) “Các phương pháp tránh thai tạm thời” 3 3 Chủ đề 10 (Không thuộc 7 chủ đề) “Lựa chọn
Chủ đề 11 (Không thuộc 7 chủ đề) “Khung
Có 9 câu hỏi của học kỳ 1 và 12 câu hỏi của học kỳ 2 được nhận định là “không thuộc 7 chủ
đề lớn” Những câu không xếp được vào 7 chủ
đề là các câu hỏi về “Sinh lý chu kỳ buồng trứng”, “Các phương pháp tránh thai tạm thời”,
“Lựa chọn phương pháp tránh thai”, “Khung chậu về phương diện sản khoa” Như vậy, việc phân theo 7 chủ đề như trên vẫn chưa đầy đủ,
bộ môn và người phụ trách đề thi cần xem lại cách phân chia chủ đề sao cho toàn diện, tránh
bỏ sót
Xét phân bố câu hỏi theo chủ đề giữa 2 đề thi, hệ số tương quan Pearson giữa 2 đề thi (0,601) không có ý nghĩa thống kê (p=0,051) Kết quả số câu hỏi được phân bố theo 34 bài học theo đánh giá của giảng viên được trình bày
trong Bảng 4
Có một số câu hỏi không được nhóm giảng viên xếp vào nội dung bài học nào là các câu
22, 23, 24, 43, 44, 45 ở học kỳ 2, đây là những câu hỏi liên quan tăng huyết áp thai kỳ, băng huyết sau sanh Ngoài ra, có một số bài học
Trang 6không có câu hỏi thi nào ở cả học kỳ 1 và học
kỳ 2 Thực ra, trong bối cảnh lồng ghép, việc
phân định rạch ròi là không đơn giản Vì vậy,
khi thiết kế chương trình, cần lưu ý những chủ
đề giảng dạy lý thuyết để bao phủ đủ những mục tiêu quan trọng
Bảng 4: So sánh số câu hỏi phân bố giữa các nội dung bài học
Xét phân bố câu hỏi theo bài học giữa 2 đề
thi, hệ số tương quan Pearson giữa 2 đề thi là
0,73 có ý nghĩa thống kê (p <0,01)
Hệ số tương quan cao khi xếp câu hỏi theo
bài học có thể là do việc giảng viên gửi câu hỏi
theo bài học rồi tập hợp lại thành đề thi nên có
sự tương hợp nhất định giữa đề học kỳ 1 và học
kỳ 2 Tuy nhiên hệ số tương quan thấp khi xếp
câu hỏi theo 7 chủ đề lớn và có một số đáng kể
các câu hỏi không thể xếp vào 7 chủ đề, cũng như có một số câu hỏi không thể xếp vào nội dung bài học Vì vậy bộ môn cần xem lại thiết kế tiếp cận dạy và học để phù hợp với mục tiêu cần lượng giá
Ý kiến của giảng viên đánh giá về mức độ quan trọng của kiến thức được lượng giá
Khi đánh giá về “mức độ quan trọng của kiến thức được lượng giá”, nhóm giảng viên đã
Trang 7nhận định có 59/60 câu hỏi (98,3%) ở cả học kỳ 1
và học kỳ 2 có điểm trung bình >2,5 nghĩa là kiến
thức được lượng giá là quan trọng, chỉ có 1 câu
hỏi có (1,7%) có điểm trung bình là 2,5
Ý kiến của giảng viên đánh giá về mức độ đại
diện được nội dung cần lượng giá và cân đối của
đề thi
Ý kiến của 4 giảng viên đối với phát biểu
“nhìn chung, các câu hỏi thi được hỏi đại diện
được nội dung cần lượng giá đối với sinh viên
Y4”, ở học kỳ 1 có 3 trong 4 giảng viên phát
biểu đồng ý và ở học kỳ 2 có 4 trong 4 phát
biểu đồng ý
Khi nhận xét về tính cân đối với chủ đề có
3/4 giảng viên đồng ý với phát biểu “Nhìn
chung, tỷ lệ câu hỏi trong đề thi cho các chủ đề
cân đối với số giờ học các chủ đề” Tuy nhiên,
khi nhận xét về tính cân đối với bài học chỉ có 2/4
đồng ý với phát biểu “Nhìn chung, tỷ lệ câu hỏi
trong đề thi cho các các bài học cân đối với số giờ
học các bài học đó”
Ý kiến của giảng viên đánh giá về mức độ kiến
thức cần vận dụng để trả lời câu hỏi
Kết quả cho thấy hầu hết các câu hỏi được
cho là lượng giá kiến thức ở mức áp dụng giải
quyết vấn đề, cụ thể ở học kỳ 1 có 46 câu ở mức
áp dụng, 14 câu ở mức hiểu; ở học kỳ 2 có 41 câu
ở mức áp dụng, 19 câu ở mức hiểu, không có câu
nào ở mức nhớ lại
BÀN LUẬN
Về các yếu tố bên ngoài
Từ kết quả khảo sát ý kiến sinh viên cho
phép nhận định rằng trong hai kỳ thi MCQ đã
được khảo sát, một số yếu tố bên ngoài có thể
ảnh hưởng đến tính giá trị của đề thi đã được
loại trừ Đề thi có hướng dẫn cụ thể cách làm bài,
tổ chức thi nghiêm túc Việc dùng câu hỏi không
phạm phải các lỗi kĩ thuật viết câu, và được
đánh giá là rõ ràng và dễ hiểu (câu hỏi dễ hiểu
có điểm trung bình >3; câu hỏi dùng từ ngữ
phức tạp khó hiểu, câu hỏi có manh mối gợi ý
đoán mò được câu trả lời đúng có điểm trung
bình <3)
Dù rằng độ khó của đề thi là trung bình, nhưng đề thi vẫn được đánh giá là khó theo ý kiến của sinh viên Thiếu thời gian làm bài (59,5% ý kiến ở học kỳ 1 và 23,9% ý kiến ở học
kỳ 2) có vẻ như một yếu tố có thể đã ảnh hưởng đến độ tin cậy và tính giá trị của đề thi
Về nội dung đề thi
Từ kết quả khảo sát ý kiến sinh viên, sinh viên cho rằng đề thi đã đo lường đúng khả năng, phù hợp mục tiêu, các phần quan trọng đã được hỏi trong đề thi Phát biểu “nội dung bài thi phù hợp với nội dung đã được dạy” có trung bình chỉ ở quanh mức 3, cho thấy rằng tính nhất quán giữa nội dung được dạy và nội dung thi vẫn chưa tốt; hay nói cách khác là các tiếp cận dạy và học chưa thoả mãn được các mục tiêu lượng giá
Từ kết quả đánh giá đề thi của nhóm giảng viên cho thấy các câu hỏi được cho là lượng giá kiến thức quan trọng và đa số lượng giá kiến thức ở mức độ tư duy cao là mức áp dụng, tuy nhiên tỷ lệ các câu hỏi phân bố chưa cân đối Theo phỏng vấn, dường như là đề thi được cho theo một test blueprint ẩn Điều này thể hiện qua khi phân tích sự tương quan giữa hai đề thi Nhìn chung hai đề thi dường như lượng giá những nội dung bài học giống nhau với hệ số tương quan Pearson 0,73 có ý nghĩa thống kê (p <0,01), khi xét phân bố câu hỏi theo bài học Tuy nhiên, khi xét phân bố câu hỏi theo chủ đề thì có vẻ không tương đồng với hệ số tương quan Pearson không có ý nghĩa thống kê (hệ số tương quan Pearson 0,601, p=0,051) Ngoài ra có một số câu hỏi không thể xếp vào bài học hoặc chủ đề là một yếu tố cần xem xét có ảnh hưởng đến tính giá trị về mặt nội dung của đề thi Việc thiếu một test blueprint cụ thể có thể là nguyên nhân của hiện tượng này Cần xây dựng test blueprint cụ thể để đảm bảo đề thi lượng giá những nội dung cần thiết và các đề thi khác nhau có thể tương đồng nhau về mặt nội dung
Về quá trình xây dựng đề thi Quá trình xây dựng đề thi không được chặt
Trang 8chẽ do không có test blueprint cụ thể Trong suốt
quá trình xây dựng đề thi chỉ có 1 người duy
nhất kiểm tra tính bao phủ nội dung của đề thi
Chính điều này cùng với việc không xây dựng
testblueprint cụ thể trước có lẽ là nguyên nhân
dẫn đến việc phân bố các câu hỏi giữa các chủ đề
và bài học có chỗ chưa cân đối làm cho hệ số
tương quan không cao giữa 2 đề thi khi xét theo
chủ đề và bài học
Sau khi thi xong, bộ môn có phân tích thống
kê để xem lại chất lượng câu hỏi thi
Về độ tin cậy và phân tích câu hỏi
Các test có 80-120 câu MCQ có hệ số tin cậy
0,64-0,99(6) Đối với các kỳ thi có mức độ quan
trọng vừa phải như thi cuối năm chẳng hạn thì
đòi hỏi độ tin cậy ít nhất là 0,8(7)
Độ tin cậy của đề thi ở 2 học kỳ thấp (0,4920
và 0,6235) đặc biệt ở học kỳ 1 thấp hơn ở học kỳ
2 có thể là do yếu tố thời gian thi không đủ góp
phần ảnh hưởng đến độ tin cậy của đề thi học kỳ
1 Để cải thiện độ tin cậy, trong giả định rằng với
cùng một chất lượng câu hỏi như hiện tại, thì
một phương án khả thi là điều chỉnh thời gian
thi phù hợp sao cho đủ thời gian và cần tăng
thêm số câu hỏi thi (120 câu), để đạt độ tin cậy
chấp nhận được
Phân tích chỉ số khó, chỉ số phân cách và
hiệu quả của các mồi nhử đề thi học kỳ 1 và 2
cho thấy đa số các câu hỏi có độ khó trung bình
nhưng độ phân cách chưa cao ở mức tạm được
(0,203 và 0,230), hiệu quả mồi nhử 75%-82,7%
KẾT LUẬN
Chất lượng của kỳ thi MCQ được khảo sát là
chưa thoả đáng Thời gian làm bài không đủ
Mặc dù các câu hỏi được cho là lượng giá kiến
thức quan trọng và lượng giá kiến thức ở mức
độ tư duy cao là mức áp dụng, tuy nhiên tỷ lệ
các câu hỏi phân bố chưa cân đối chủ yếu do
chưa có test blueprint cụ thể
Đề thi trắc nghiệm Sản cho sinh viên y năm thứ tư năm học 2014-2015 có độ tin cậy thấp, tính giá trị về mặt nội dung chưa cao
Làm gì để tốt hơn?
Việc xây dựng một test blueprint chính thức chặt chẽ cụ thể là cần thiết, làm cơ sở cho việc hình thành đề thi, đánh giá đề thi Sau khi đã có bản thảo đề thi cần thiết có giảng viên/nhóm giảng viên khác kiểm tra xem đề thi có phù hợp với test blueprint hay không Bộ môn cần xem lại các chủ đề và nội dung bài học cần lượng giá, đồng thời cần xem lại chương trình phù hợp với mục tiêu học tập và lượng giá, nhằm hạn chế các
lỗ hổng đã thấy qua nghiên cứu này Cần chú ý thời gian thi phù hợp để đủ thời gian làm bài và tăng thêm số câu hỏi thi để cải thiện độ tin cậy của đề thi Thực hiện điều chỉnh câu hỏi sau thi dựa trên phân tích câu hỏi để gia tăng chất lượng câu hỏi
TÀI LIỆU THAM KHẢO
1 Downing SM, Haladyna TM (1997) Test item development:
Validity evidence from quality assurance procedures Applied measurement Education, 10(1):61-82
2 Gjerde CL (1981) “Curriculum mapping”: objectives,
instruction, and evaluation Journal of Medical Education,
56:316-323
3 Sireci SG (1998) Gathering and analyzing content validity data
Educational Measurement, 5(4):299-231
4 Verhoeven BH, Verwijnen GM, Scherpbier AJJA, Schuwirth LWT, Van der Vleuten CPM (1999) Quality assurance in test construction: the approach of a multidisciplinary central test
committee Education for Health: Change in Learning & Practice,
12:49-60
5 Đoàn Thị Thu Hoa, Trần Quang Trung (2005) Tính giá trị của
đề thi trắc nghiệm nhi khoa sinh viên y năm thứ tư năm học
2002-2003 Y học Thành phố Hồ Chí Minh, 9(1):123-128
6 Fenderson BA, Damjanov I (1997) The virtues of extended matching and uncued tests as alternatives to multiple choice
questions Human Pathology, 28:526-532
7 Downing SM (2004) Reliability: on the reproducibility of
assessment data Medical Education, 38(9):1006–1012
Ngày nhận bài báo: 11/12/2020 Ngày nhận phản biện nhận xét bài báo: 06/02/2021 Ngày bài báo được đăng: 10/03/2021