Phân tích, đánh giá câu hỏi và đề thi trắc nghiệm khách quan học phần bệnh học nhi khoa bằng phần mềm Conquest tại Học viện Quân y

Bài viết trình bày đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng câu hỏi (IRT). Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học phần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số của câu hỏi, đề thi trắc nghiệm.

Trang 1

PHÂN TÍCH, ĐÁNH GIÁ CÂU HỎI VÀ ĐỀ THI TRẮC NGHIỆM

Hoàng Anh Tu ấn 1 , Đặng Văn Cao 1 , Nguy ễn Việt Hưng 1

TÓM T ẮT

M ục đích: Đánh giá chất lượng của câu hỏi và đề thi trắc nghiệm bằng lý thuyết đáp ứng

câu h ỏi (IRT) Đối tượng và phương pháp: Câu hỏi thi trắc nghiệm và đề thi trắc nghiệm học

ph ần Bệnh học Nhi khoa được xử lý kết quả bằng phần mềm Conquest để đưa ra các thông số

của câu hỏi, đề thi trắc nghiệm K ết quả: Hệ số tin cậy (Sr - Separation reliability) = 0,905 Câu

h ỏi trắc nghiệm được phân thành 3 nhóm: Câu hỏi tốt, câu hỏi chưa tốt cần chỉnh sửa, câu hỏi

c ần loại bỏ) Độ khó của câu hỏi được chia thành 3 nhóm: Câu hỏi có độ khó trung bình, câu

hỏi dễ, câu hỏi quá dễ so với năng lực của thí sinh K ết luận: Câu hỏi thi trắc nghiệm khách

quan có thông s ố phù hợp, đề thi phù hợp với mô hình Rash, độ tin cậy cao, đánh giá đúng nội dung, d ễ so với năng lực của thí sinh

* T ừ khóa: Trắc nghiệm; Lý thuyết khảo thí cổ điển; Thuyết đáp ứng câu hỏi; Phần mềm Conquest

Analysis and Evaluation of Questions and Objective Test of Pediatric Disease Software by Conquest Software at Vietnam Military Medical University

Summary

Objectives: To evaluate the quality of questions and on multiple-choice questions using

question-response theory (IRT) Subjects and methods: Multiple-choice questions and

multiple-choice questions in the Pediatric Pathology section were processed using Conquest

software to provide the parameters of the questions and multiple-choice questions Results:

Separation reliability = 0.905 Multiple choice questions were divided into 3 groups: Good questions, bad questions that need editing, and questions that need to be eliminated The difficulty of the question was divided into 3 groups: Medium difficulty questions, easy questions,

and too easy questions compared to the competitor's ability Conclusion: Objective

multiple-choice questions with appropriate parameters, exam questions suitable for the Rash model, high reliability, correct content assessment, easy compared to the candidate's capacity

* Keywords: Testing; Classic test theory; Theory of response to the question; Conquest software

1 Phòng Khoa h ọc Quân sự, Học viện Quân y

Ng ười phản hồi: Hoàng Anh Tuấn (hoanganhtuan@vmmu.edu.vn)

Ngày nh ận bài: 20/2/2021

Ngày bài báo được đăng: 28/4/2021

Trang 2

ĐẶT VẤN ĐỀ

Kiểm tra đánh giá là một khâu rất quan

trọng trong quá trình đổi mới đào tạo

Kiểm tra đánh giá khách quan, nghiêm

túc, công bằng, đúng cách sẽ tạo động

lực cho người học, khích lệ người học

trên con đường chiếm lĩnh tri thức Mặt

khác, thông qua hoạt động kiểm tra đánh

giá giúp giảng viên và các nhà quản lý đổi

mới về phương pháp giảng dạy, phương

pháp quản lý để hỗ trợ người học đạt

được các mục tiêu trong học tập Những

năm gần đây, tại Học viện Quân y, bên

cạnh việc đổi mới chương trình và

phương pháp giảng dạy, hoạt động đổi

mới phương pháp kiểm tra đánh giá cũng

được quan tâm, chú trọng bằng việc thay

đổi quan điểm tiếp cận về lý luận kiểm tra

đánh giá, thay đổi phương pháp kiểm tra

đánh giá phù hợp với yêu cầu của hoạt

động giảng dạy Hình thức thi trắc nghiệm

khách quan là phương pháp đánh giá có

nhiều ưu điểm được sử dụng trong nhiều

kỳ thi quan trọng như: Thi tuyển sinh Đại

học, thi tốt nghiệp Trung học phổ thông

Quốc gia… và ngày càng được áp dụng

với nhiều môn thi tại Học viện Quân y

trong những năm gần đây Tuy nhiên,

hiện nay các câu hỏi trắc nghiệm khách

quan và đề thi trắc nghiệm được sử dụng

tại Học viện Quân y chưa được đánh giá

một cách khoa học và khách quan Do đó,

việc nâng cao chất lượng của câu hỏi trắc

nghiệm, cũng như đánh giá mức độ phù

hợp của đề thi với năng lực của sinh viên

là rất quan trọng để hoạt động kiểm tra

đánh giá thực hiện được vai trò và chức

năng của nó Chúng tôi nghiên cứu đề tài này nhằm: Đánh giá chất lượng câu hỏi

ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP

NGHIÊN C ỨU

1 Đối tượng nghiên cứu

Dữ liệu thu thập từ kết quả thi của 86 thí sinh với đề thi 50 câu hỏi trắc nghiệm khách quan môn Bệnh học Nhi khoa tại

Học viện Quân y năm 2021 Ngân hàng câu hỏi thi trắc nghiệm sau khi được biên

soạn đảm bảo đáp ứng được nội dung yêu cầu của chương trình đào tạo

2 Ph ương pháp nghiên cứu

Sử dụng phần mềm Conquest xử lý kết quả thi được trích xuất từ phần mềm thi trắc nghiệm sau khi thi xong

Chương trình Conquest cho ra các thông số về mức độ phù hợp của câu hỏi với mô hình Rash, năng lực thí sinh với

độ khó của câu hỏi, độ tin cậy của đề thi

và các đặc trưng của câu hỏi đó là độ khó, độ phân biệt, hệ số tương quan của câu hỏi với toàn bài, độ tin cậy và sai số

Sau khi câu hỏi trắc nghiệm khách quan được nghiệm thu về nội dung, cần định lượng các tham số của câu hỏi bằng

kết quả trả lời của thí sinh với câu hỏi đó Theo lý thuyết khảo thí cổ điển, câu hỏi

cần đạt được các giá trị về độ khó, độ phân biệt Các giá trị này được tính toán

Trang 3

dựa trên kết quả về thống kê mà không

xem xét nội dung thuộc vào lĩnh vực nào

- Độ khó của câu hỏi (p): Là tỷ lệ phần

trăm thí sinh trả lời đúng câu hỏi/tổng số

thí sinh tham gia trả lời Giá trị của p nằm

trong khoảng 0,1, p càng lớn thì câu hỏi

càng dễ và ngược lại Giá trị của có thể

chấp nhận được nằm trong khoảng

0,25 - 0,75; câu hỏi có p < 0,25 là quá

khó, câu hỏi có p > 0,75 là quá dễ với thí

sinh (Lord [2])

- Độ phân biệt của câu hỏi trắc nghiệm

hoặc đề thi trắc nghiệm: Là khả năng

phân biệt được năng lực của thí sinh:

giỏi, khá, trung bình, kém… Độ phân biệt

của câu hỏi liên quan đến độ khó của câu

hỏi Nếu một câu hỏi quá khó hay quá dễ

thì phản ứng của thí sinh có năng lực

khác nhau là giống nhau: Hoặc sai hết

hoặc đúng hết, do đó không phân biệt

được năng lực của thí sinh Vì vậy, 1 câu

hỏi có khả năng phân biệt tốt cần có độ

khó ở mức trung bình và 1 đề thi trắc

nghiệm tốt cần có nhiều câu hỏi có mức

độ trung bình Khi đó, điểm số của thí

sinh có phổ trải rộng Để xác định độ

phân biệt của câu hỏi, tính hệ số tương

quan giữa điểm của câu hỏi với điểm của

cả bài thi trắc nghiệm (hệ số R-pearson)

Thông thường, giá trị Rp > 0,2 (Lord [2])

- Độ tin cậy: Là giá trị dùng để đánh

giá chất lượng của đề thi trắc nghiệm,

là đại lượng biểu thị mức độ chính xác

của phép đo nhờ đề trắc nghiệm Độ tin

cậy của đề trắc nghiệm có thể được đánh giá bằng nhiều phương pháp như:

Trắc nghiệm - trắc nghiệm lại; đề thi trắc nghiệm tương đương; phân đôi đề thi trắc nghiệm; phương pháp Kuder-Richardson;

hệ số Cronbach alpha: là biểu thức dùng ước lượng độ tin cậy của một đề kiểm tra tổng thể (có thể gồm nhiều đề trắc nghiệm con nhị phân hoặc đa phân, được

sử dụng nhiều trong tâm lý và giáo dục)

Về lý thuyết, giá trị độ tin cậy nằm trong khoảng 0 - 1 Độ tin cậy cao nghĩa là các câu hỏi có độ gắn kết với nhau Thí sinh trả lời được câu hỏi này có xu hướng trả

lời được các câu hỏi cùng nhóm Đề thi

có độ tin cậy > 0,8 là rất tốt và có thể sử dụng cho đề thi trên lớp; độ tin cậy từ 0,7 - 0,8 là tốt, tuy nhiên cần chỉnh sửa một số câu hỏi; độ tin cậy < 0,7 là tương đối thấp (Brenan [4])

- Độ giá trị của đề thi trắc nghiệm: Là yêu cầu quan trọng nhất vì nó phản ánh đúng giá trị nội dung cần đo, biểu thị mức

độ đạt được mục tiêu đề ra cho phép đo

nhờ đề trắc nghiệm Để độ giá trị của đề

trắc nghiệm cao, cần xác định tỉ mỉ mục tiêu cần đo và bám sát mục tiêu đó trong quá trình xây dựng ngân hàng câu hỏi

Độ giá trị và độ tin cậy của đề thi trắc nghiệm có liên quan với nhau Đề thi có

độ tin cậy thấp không thể có giá trị Nhưng ngược lại, độ tin cậy cao chưa chắc có giá trị vì có thể không phản ánh đúng đối tượng cần đo (Samuel Messick [7])

Trang 4

* Lý thuy ết khảo thí hiện đại và phần

Thuyết đáp ứng câu hỏi (Item Response

Theory), còn gọi là lý thuyết khảo thí hiện

đại, được ra đời vào thế kỷ XX và phát

triển mạnh mẽ cho đến nay Lý thuyết

khảo thí hiện đại đã khắc phục được một

số nhược điểm của lý thuyết khảo thí cổ

điển là không tách biệt được các đặc

trưng của thí sinh độc lập (năng lực) với

đặc trưng của đề trắc nghiệm; thuyết

khảo thí cổ điển coi sai số tiêu chuẩn của

phép đo năng lực giữa các thí sinh là như

nhau, quan tâm mức độ đáp ứng của thí

sinh với đề thi mà không chú trọng mức

độ đáp ứng của thí sinh với các câu hỏi

riêng biệt (Lâm Quang Thiệp [1])

quan sát là năng lực của thí sinh và xác

Wu và CS [3], lý thuyết ứng đáp câu hỏi

đoán xác suất trả lời đúng 1 câu hỏi, dựa

trên chỉ số về năng lực của người trả lời

Độ khó, độ phân biệt và độ phán đoán

đưa ra bao gồm: Mô hình đáp ứng 1

tham số: sử dụng cả 2 biến là độ khó và

độ phân biệt của câu hỏi; mô hình 3 tham

đánh giá và phân tích câu hỏi, cho phép

cung cấp cho người sử dụng các thông tin: Thông số cơ bản của việc phân tích câu hỏi theo mô hình IRT; thông số độ

phân bố độ khó của câu hỏi với năng lực của thí sinh; đường cong đặc trưng của câu hỏi; trường hợp bất thường của người trả lời

K ẾT QUẢ NGHIÊN CỨU

Đề thi gồm 50 câu hỏi trắc nghiệm khách quan ở học phần Bệnh học Nhi khoa với thời gian 60 phút của 85 sinh viên y khoa năm thứ 5 Đề thi nhằm đánh giá năng lực nhận thức ở 3 mức độ: Nhớ (25 câu), thông hiểu (15 câu) và vận dụng (10 câu)

1 M ức độ phù hợp với mô hình IRT

Tiến hành phân tích kết quả trong file SHW cho thấy, các câu hỏi trong bài kiểm tra có giá trị Unweighted fit nằm trong giới

hạn 0,7 - 1,30 và chỉ số của Weighted MNSQ của các câu hỏi đều xấp xỉ 1 cho

thấy dữ liệu dùng để phân tích phù hợp

với mô hình IRT

Trang 5

B ảng 1: Mức độ phù hợp của câu hỏi với mô hình IRT

Cả 50 câu hỏi trong đề thi trắc nghiệm hoàn toàn phù hợp, đánh giá đúng nội dung cần đánh giá Bài thi trắc nghiệm có độ tin cậy cao với hệ số tin cậy Sr = 0,905

2 Các đặc tính của câu hỏi

Câu hỏi trắc nghiệm khách quan tốt là câu hỏi đảm bảo chuẩn về nội dung, các tham số của câu hỏi như độ khó, độ phân biệt, các phương án nhiễu đều hợp lý Câu

hỏi không phù hợp với mô hình, quá khó, quá dễ, phương án nhiễu không hiệu quả

cần loại bỏ hoặc điều chỉnh cho phù hợp

- Nhóm câu hỏi tốt (44, 33, 29, 9, 5, 4): Là câu hỏi có độ khó phù hợp, phương án nhiễu có giá trị Ví dụ phân tích câu hỏi số 9:

Trang 6

Hình 2: Kết quả phân tích tham số và đường cong đặc trưng câu hỏi 9

Câu hỏi có độ khó theo lý thuyết khảo thí cổ điển là 0,65, nằm trong giới hạn (0,25 -0,75), có 65,88% thí sinh trả lời đúng kết quả Độ phân biệt của câu hỏi ở mức khá (Discrimnation = 0,48 > 0,2), tức câu hỏi có khả năng phân biệt được nhóm học sinh có năng lực cao và nhóm học sinh có năng lực thấp Chỉ số Pt Bis ở các phương

án nhiễu (A, B, C) đều có giá trị âm, trong khi phương án đúng (D) có giá trị dương và cao nhất Chứng tỏ các phương án nhiễu có giá trị trong việc đánh giá năng lực của thí sinh So sánh cấu trúc đề thi và ý kiến của chuyên gia về nội dung câu hỏi cho thấy, câu hỏi số 9 dùng để đánh giá năng lực nhận thức ở mức độ vận dụng, do đó độ khó

bằng 0,65 là khá phù hợp, độ phân biệt 0,48 ở mức chấp nhận được Phân tích đường cong đặc trưng của câu hỏi cũng thấy khá phù hợp

- Nhóm câu hỏi cân nhắc điều chỉnh (40, 27, 26, 25, 21, 17, 10, 8, 42): Là câu hỏi có

độ phân biệt rất thấp, phương án nhiễu không hiệu quả hoặc có độ khó không phù hợp Ví dụ phân tích câu hỏi số 27:

Trang 7

Kết quả phân tích cho thấy câu hỏi có độ khó 0,77, độ phân biệt 0,1 Tham khảo ý

kiến chuyên gia cho thấy câu hỏi được sử dụng để đánh giá năng lực mức thông hiểu

Do câu hỏi dễ nên không có khả năng phân biệt năng lực của thí sinh Xem xét giá trị

Pt Bis thấy các đáp án A, D có chỉ số dương, chỉ có 1/85 thí sinh chọn đáp án A Chứng tỏ phương án nhiễu không hiệu quả

- Nhóm câu hỏi chưa tốt (32, 30, 24, 23, 20, 15, 6, 2, 41): Là câu hỏi có độ khó, độ

phân biệt hoặc phương án nhiễu không hợp lý Ví dụ phân tích câu hỏi số 20:

Trang 8

Kết quả phân tích cho thấy câu hỏi có độ khó 0,85, độ phân biệt -0,11 Có thể thấy, câu hỏi không có khả năng phân biệt năng lực giữa các nhóm thí sinh Điều này cũng

thấy rõ ở chỉ số Pt Bis khi đáp án đúng A có 85,88% sinh viên trả lời đúng nhưng có giá trị -0,01, nhỏ hơn giá trị của đáp án sai B, C

3 Phân b ố độ khó của câu hỏi với năng lực thí sinh

Trang 9

Độ khó của câu hỏi với các mức năng

lực của thí sinh từ -2 đến +2 theo đơn vị

logic

Câu hỏi trắc nghiệm phân thành 3

nhóm chính: Nhóm câu hỏi có độ khó

trung bình, nhóm câu hỏi dễ và nhóm câu

hỏi rất dễ

- Nhóm câu hỏi có độ khó trung bình:

36, 47, 24, 11, 29, 44, 8, 4, 3, 42, 21, 33, 38

- Nhóm câu hỏi dễ: 9, 16, 30, 26, 31, 5,

48, 7, 13, 32, 49, 6, 27, 40, 46, 17, 14, 23,

37, 1, 18, 2, 10, 20, 22, 35

- Nhóm có câu hỏi quá dễ: 43, 19, 34,

28, 41, 50, 12, 15, 25, 39

Nhiều thí sinh (16/85 thí sinh) có năng

lực cao hơn câu hỏi có độ khó cao nhất

Ngược lại, nhiều câu hỏi ở mức độ quá

dễ khi độ khó của câu hỏi nằm dưới năng

lực của tất cả thí sinh tham gia kiểm tra

(các câu hỏi 43, 28, 41, 50, 12, 15, 25, 39)

K ẾT LUẬN

Từ kết quả phân tích các đặc tính của

câu hỏi bằng lý thuyết đáp ứng IRT (mức

độ phù hợp mô hình, độ tin cậy, độ giá trị,

độ phân biệt và phân bố độ khó của câu

hỏi với năng lực thí sinh, đường cong đặc

trưng câu hỏi) kết hợp ý kiến chuyên gia,

chúng tôi rút ra một số kết luận:

- Đề thi phù hợp với mô hình Rash, có

độ giá trị và độ tin cậy cao Tuy nhiên, đề

thi còn dễ so với năng lực của thí sinh,

thể hiện qua việc nhiều thí sinh (16/85) có

năng lực vượt qua mức độ khó của câu

hỏi và có 14/50 câu hỏi có mức độ khó

dưới năng lực của tất cả các thí sinh

- Phần mềm Conquest hỗ trợ việc

phân tích đánh giá chất lượng câu hỏi

trắc nghiệm và đề thi trắc nghiệm rất hiệu

quả theo lý thuyết khảo thí hiện đại Qua

đó giúp giảng viên và các nhà quản lý lựa

chọn được những câu hỏi tốt, đề xuất những câu hỏi cần chỉnh sửa và loại bỏ

những câu hỏi không chất lượng, từ đó nâng cao chất lượng ngân hàng câu hỏi, góp phần đánh giá đúng năng lực của

người học, nâng cao chất lượng đào tạo

TÀI LI ỆU THAM KHẢO

1 Lâm Quang Thi ệp Đo lường và đánh giá ho ạt động học tập trong nhà trường NXB Đại học Sư phạm Hà Nội 2012

2 Lord FM Tài li ệu dịch: Psychometrika -

M ối quan hệ giữa độ tin cậy của câu hỏi đa

l ựa chọn và phân bổ độ khó của câu hỏi 1952; 18:181-194

3 Wu M, Adams R Applying the Rasch Model to Psycho-social Measurement: A practical approach Tài li ệu tập huấn Thiết kế công cụ đánh giá do Ngân hàng Thế giới phối hợp với ACER t ổ chức năm 2007-2008 tại Việt Nam

2007

4 Brennan LR Educational Measurement (4th ed.) American Council on Education Washington DC 2006

5 Harris D Comparison of 1-, 2-, and 3-paramater ITR models A module in NCME series of Instructional Topics in Educational Measurement NCME Journal of Educational Measurement: Issues and Practices 1989; 35-41

6 Margaret L, Wu Raymond J, Adams Mark R, Wilson Samuel A Haldane ACER Conquest version 2.0: Generalised item response modelling software ACER Press 2007.

7 Messick S Validity of psychological assessment: Validation of inferences from persons’ responses and performances as scientific inquiry into score meaning American Psychologist 1995; 50:741-749

8 Rasch G Probablistic models for some intelligence and attainment tests Danish Institute for Educational Research Copenhagen, Denmark 1960

Định dạng
Số trang	9
Dung lượng	348,66 KB