• Đánh giá năng lực của thí sinh: chính là xem xét lượng kiến thức mà thí sinh đạt đượcqua việc trả lời các câu hỏi trắc nghiệm đã được định chuẩn dựa vào một lý thuyết trắcnghiệm cụ thể
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÀNH PHỐ HỒ CHÍ MINH
LÝ TRẦN THÁI HỌC
ĐÁNH GIÁ CHẤT LƯỢNG
CÂU HỎI VÀ ĐỀ TRẮC NGHIỆM
BẰNG LÝ THUYẾT ỨNG ĐÁP CÂU HỎI
LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
Thành phố Hồ Chí Minh, tháng 03 năm 2018
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÀNH PHỐ HỒ CHÍ MINH
LÝ TRẦN THÁI HỌC
ĐÁNH GIÁ CHẤT LƯỢNG CÂU HỎI VÀ ĐỀ TRẮC NGHIỆM
BẰNG LÝ THUYẾT ỨNG ĐÁP CÂU HỎI
Trang 3TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÀNH PHỐ HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học: TS Nguyễn An Khương
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP HCM ngày 17 tháng 6năm 2018
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn Thạc sĩ sau khi Luận văn đã được
sửa chữa (nếu có):
Chủ tịch Hội đồng đánh giá luận văn
Trang 4VIỆN ĐÀO TẠO SAU ĐẠI HỌC Độc lập - Tự do - Hạnh phúc
TP HCM, ngày 26 tháng 9 năm 2016
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Lý Trần Thái Học Giới tính: Nam
Ngày, tháng, năm sinh: 15/3/1987 Nơi sinh: Long An
Chuyên ngành: Công nghệ thông tin MSHV: 1541860008
I-Tên đề tài:
Đánh giá chất lượng câu hỏi và đề trắc nghiệm bằng lý thuyết ứng đáp câu hỏi
II-Nhiệm vụ và nội dung: Nội dung nghiên cứu là các tư liệu, tài liệu có liên quan đến trắc nghiệm khách quan nói chung; lý thuyết trắc nghiệm cổ điển và lý thuyết ứng đáp câu hỏi; ứng dụng ngôn ngữ R trong thống kê, phân tích và đánh giá câu hỏi và đề trắc nghiệm
III-Ngày giao nhiệm vụ: 26/09/2016
IV-Ngày hoàn thành nhiệm vụ: 17/03/2018
V-Cán bộ hướng dẫn: TS Nguyễn An Khương
Trang 5
LỜI CAM ĐOAN
Tôi xin cam đoan rằng nội dung của luận văn này chính là công trình nghiên cứu của chínhbản thân Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bốtrong bất kỳ công trình nghiên cứu nào khác
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn
và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc
Học viên thực hiện luận văn
(Ký và ghi rõ họ tên)
Lý Trần Thái Học
Trang 6Tôi trân trọng ghi nhận và cảm ơn về những kiến thức nền tảng mà Thầy/Cô tham giagiảng dạy chương trình đào tạo sau đại học ngành Công nghệ thông tin, Đại học Công nghệThành phố Hồ Chí Minh đã cung cấp trong quá trình giảng dạy Tôi xin cảm ơn Viện đào tạoSau Đại học về những sự hỗ trợ trong suốt quá trình học tập Bên cạnh đó tôi cũng xin gửilời cảm ơn đến Thầy - PGS TS Võ Đình Bảy cùng đồng sự đã hỗ trợ tôi rất nhiều trong quátrình học tập tại trường cũng như trong quá trình thực hiện luận văn này.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, người thân, bạn bè và đồng nghiệp đãđộng viên, chia sẻ, hỗ trợ và cảm thông trong suốt quá trình học tập cũng như thực hiện luậnvăn
Lý Trần Thái Học
Trang 7Mục lục
1 TỔNG QUAN VỀ
1.1 Tổng quan về đo lường, kiểm tra đánh giá trong giáo dục 4
1.1.1 Khái niệm về đo lường, đánh giá trong giáo dục 4
1.1.2 Lý thuyết đo lường trong giáo dục 4
1.2 Tổng quan về trắc nghiệm khách quan 5
1.2.1 Lý thuyết trắc nghiệm cổ điển 5
1.2.2 Lý thuyết trắc nghiệm hiện đại 9
2 CƠ CỞ LÝ THUYẾT 11 2.1 Lý thuyết ứng đáp câu hỏi và mô hình Rasch 11
2.2 Đường cong đặc trưng của câu hỏi 13
2.2.1 Mô hình đường cong chuẩn 14
2.2.2 Mô hình đường cong logistic 14
2.2.3 Mô hình một tham số 23
2.2.4 Mô hình hai tham số 24
2.2.5 Mô hình ba tham số 25
2.3 Đường cong đặc trưng của đề trắc nghiệm - điểm thực 25
2.4 Ước lượng các tham số của câu hỏi 28
2.5 Ước lượng năng lực của thí sinh 33
2.6 Hàm thông tin 36
2.6.1 Hàm thông tin câu hỏi 36
2.6.2 Hàm thông tin của bài trắc nghiệm 40
2.7 Ước lượng đồng thời các tham số của câu hỏi và năng lực thí sinh và quá trình chuẩn hóa đề trắc nghiệm 45
Trang 83 THỰC NGHIỆM, PHÂN TÍCH VÀ ĐÁNH GIÁ 46
3.1 Thực nghiệm và phân tích 46
3.1.1 Mô tả dữ liệu 46
3.1.2 Thực nghiệm và phân tích 50
3.2 Đánh giá chất lượng câu hỏi và đề trắc nghiệm 61
3.3 Đề xuất áp dụng mô hình phù hợp với dữ liệu 63
4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 68 4.1 Kết luận 68
4.2 Hướng phát triển 69
Trang 10Danh sách bảng
1.2.1 Bảng độ khó của câu hỏi 6
2.2.1 Dữ liệu đường cong đặc trưng câu hỏi trong mô hình đường cong chuẩn vớibi = 0.3, ai = 1.5 15
2.2.2 Dữ liệu đường cong đặc trưng của câu hỏi theo mô hình logistic vớibi = 0.3, a∗i = 1.5 16
2.2.3 Các mức độ phân biệt của câu hỏi 21
2.2.4 Các mức độ khó của câu hỏi 21
2.3.5 Xác suất trả lời đúng các câu hỏi với mức năng lựcθ = 0 27
2.5.6 Các tham số của câu hỏi trong một đề gồm 3 câu trắc nghiệm 34
2.5.7 Dữ liệu minh họa quá trình ước lượng năng lực thí sinh trong mô hình IRT 2 tham số 35
2.6.8 I(θ)ứng với 7 mức năng lực dưới mô hình hai tham số cho câu hỏi có độ phân biệta = 0.8và độ khób = 1.0 37
2.6.9 I(θ) ứng với 7 mức năng lực dưới mô hình một tham số cho câu hỏi có b = 1.0 38
2.6.10 I(θ)ứng với 7 mức năng lực dưới mô hình ba tham số cho câu hỏi có độ phân biệta = 0.8, độ khób = 1.0và độ phân biệtc = 0.2 39
2.6.11 Thông tin đề trắc nghiệm trong mô hình hai tham số 42
2.6.12 Thông tin đề trắc nghiệm trong mô hình một tham số 43
2.6.13 Thông tin đề trắc nghiệm trong mô hình ba tham số 44
3.1.1 Minh họa dữ liệu trả lời 20 câu hỏi của 100 thí sinh 47
3.1.2 Kết quả phân tích mức độ khó của 20 câu hỏi trong đề thi dưới mô hình Rasch 52
3.1.3 Kết quả phân tích mức độ khó của 20 câu hỏi trong đề thi dưới mô hình hai tham số 57
Trang 113.1.4 Kết quả phân tích độ phân biệt của các câu hỏi trong đề thi dưới mô hình
hai tham số 58
3.1.5 Kết quả phân tích mức độ khó của 20 câu hỏi trong đề thi dưới mô hình ba tham số 61
3.1.6 Kết quả phân tích độ phân biệt của các câu hỏi trong đề thi dưới mô hình ba tham số 61
3.2.7 Đánh giá chất lượng câu hỏi dựa vào độ khó và độ phân biệt 64
3.2.8 Đánh giá chất lượng 20 câu hỏi dựa vào mô hình hai tham số 65
3.2.9 Đánh giá chất lượng 20 câu hỏi dựa vào mô hình ba tham số 66
Trang 12Danh sách hình vẽ
2.2.1 Biểu đồ đường cong đặc trưng của câu hỏi trong mô hình đường cong
chuẩn vớibi = 0.3, ai = 1.5 15
2.2.2 Biểu đồ đường cong đặc trưng của câu hỏi trong mô hình logistic với bi = 0.3,a∗i = 1.5 16
2.2.3 Biểu đồ đường cong đặc trưng câu hỏi dựa vào mô hình đường cong chuẩn và đường cong logistic vớib = 0.3, a = 1.5 17
2.2.4 Biểu đồ đường cong đặc trưng của câu hỏi trong việc ứng đáp đúng và sai của một câu hỏi 18
2.2.5 Biểu đồ đường cong đặc trưng câu hỏi 19
2.2.6 Biểu đồ đường cong đặc trưng câu hỏi trong mô hình ba tham số với ai = 1.5,bi = 0,ci = 0.25 20
2.2.7 Biểu đồ đường cong đặc trưng các câu hỏi có cùng tham số độ phân biệt (a) và độ đoán mò (c) nhưng khác tham số về độ khó (b) 22
2.2.8 Các đường cong đặc trưng câu hỏi trong mô hình một tham số 23
2.2.9 Các đường cong đặc trưng câu hỏi hai tham số với cùng giá trị độ khó b = 0nhưng độ phân biệtalà khác nhau 24
2.2.10 Ba đường cong đặc trưng câu hỏi trong mô hình ba tham số với giá trị a = 2, b = 0vàccó giá trị lần lượt là0.1, 0.2, 0.3 26
2.3.11 20 đường cong đặc trưng của câu hỏi theo mô hình hai tham số 27
2.3.12 Đường cong đề đặc trưng của trắc nghiệm 28
2.6.13 Đường cong thông tin câu hỏi trong mô hình IRT hai tham số 38
2.6.14 Đường cong thông tin câu hỏi trong mô hình một tham số 39
2.6.15 Đường cong thông tin của câu hỏi với độ phân biệta = 0.8, độ khób = 1.0 và độ phân biệtc = 0.2trong mô hình ba tham số 40
2.6.16 3 đường thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm dưới mô hình IRT 2 tham số 42
Trang 132.6.17 3 đường thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm
dưới mô hình một tham số 43
2.6.18 3 đường thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm dưới mô hình ba tham số 44
3.1.1 Đường cong đặc trưng của 20 câu hỏi trong mô hình Rasch 52
3.1.2 Đường cong đặc trưng câu hỏi 20 54
3.1.3 Đường cong đặc trưng đề trắc nghiệm trong mô hình Rasch 54
3.1.4 Đường cong đặc trưng câu hỏi, đường cong thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm cho dữ liệu NTTU_DATA dưới mô hình Rasch 55
3.1.5 Đường cong đặc trưng của 20 câu hỏi theo mô hình hai tham số 56
3.1.6 Đường cong đặc trưng câu hỏi 9 trong mô hình hai tham số 57
3.1.7 Đường cong đặc trưng đề trắc nghiệm trong mô hình hai tham số 58
3.1.8 Đường cong đặc trưng câu hỏi, đường cong thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm cho dữ liệu NTTU_DATA dưới mô hình hai tham số 59
3.1.9 Đường cong đặc trưng của 20 câu hỏi theo mô hình ba tham số 60
3.1.10 Đường cong đặc trưng câu hỏi 5 trong mô hình ba tham số 62
3.1.11 Đường cong đặc trưng câu hỏi, đường cong thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm cho dữ liệu NTTU_DATA dưới mô hình ba tham số 62
Trang 14LỜI MỞ ĐẦU
Kiểm tra - đánh giá là một khâu rất quan trọng trong quá trình dạy học, có ý nghĩa quyếtđịnh trong việc nâng cao chất lượng và hiệu quả của giáo dục Kiểm tra là hình thức và làphương tiện của quá trình đánh giá Không có một hình thức kiểm tra - đánh giá nào là toànvẹn, hoàn hảo, mỗi hình thức đều có ưu điểm và nhược điểm riêng Nổi bật nhất là hình thứctrắc nghiệm, mặc dù còn hạn chế nhưng hình thức này đã chứng tỏ được những ưu điểm sovới tự luận trong việc kiểm tra - đánh giá với số lượng thí sinh lớn
Trắc nghiệm (TN) là một phương pháp của khoa học về đo lường trong nhiều lĩnh vựckhác nhau như tâm lý học, thần kinh học và giáo dục học Cũng như mọi phép đo khác trong
khoa học và đời sống, ở phép đo bằng trắc nghiệm người ta cũng có thước đo và một đối
tượng cần đo Thước đo là đề trắc nghiệm (ĐTN) và đối tượng cần đo là năng lực của thí
sinh (TS) Yêu cầu cần thỏa mãn để phép đo được chính xác là kết quả chuẩn hóa (xem Mục2.7) ĐTN không phụ thuộc vào mẫu TS được dùng để trắc nghiệm thử, và sau đó các điểm
số đo được của TS không phụ thuộc vào ĐTN cụ thể, tức là các điểm số đo được sẽ như nhau
dù đo bằng ĐTN nào trong các ĐTN đã được định chuẩn Cụ thể, một TS có năng lực tiếngAnh mức 7 điểm thì đưa bất kỳ ĐTN nào (đã được chuẩn hóa) cho TS đó làm thì cũng sẽ thuđược xấp xỉ gần 7 điểm
Hiện nay, trắc nghiệm khách quan (TNKQ) được đưa vào trong các kỳ thi tốt nghiệptrung học phổ thông quốc gia [6] và tuyển sinh đại học cũng như kiểm tra đánh giá kết thúchọc phần tại các cơ sở giáo dục, nên sự quan tâm của các cơ sở giáo dục và đội ngũ nhà giáođến chất lượng của câu hỏi trắc nghiệm (CHTN), đề trắc nghiệm (ĐTN) ngày càng nhiềuhơn Do đó, việc thống kê, phân tích, ước lượng và đánh giá CHTN, ĐTN và ước lượng nănglực của thí sinh là hết sức cần thiết
Trong trắc nghiệm, hai vấn đề chúng ta phải quan tâm đến đó là: Ngân hàng câu hỏi trắcnghiệm đạt chất lượng hay không? Việc đánh giá năng lực thí sinh có chính xác và kháchquan hay không?
• Ngân hàng câu hỏi trắc nghiệm: để ngân hàng câu hỏi đạt chất lượng thì yêu cầu mỗicâu hỏi trong ngân hàng câu hỏi phải đạt chất lượng Chất lượng của câu hỏi thườngđược xem xét ở các tham số đặc trưng của câu hỏi như độ khó(b), độ phân biệt(a),mức độ đoán mò(c)
Trang 15• Đánh giá năng lực của thí sinh: chính là xem xét lượng kiến thức mà thí sinh đạt đượcqua việc trả lời các câu hỏi trắc nghiệm đã được định chuẩn dựa vào một lý thuyết trắcnghiệm cụ thể.
Việc xác định các tham số đặc trưng của câu hỏi cũng như đánh giá năng lực thí sinh cóquan hệ mật thiết với nhau và dựa trên cơ sở của lý thuyết trắc nghiệm Hiện nay có hai lýthuyết trắc nghiệm cơ bản là: lý thuyết trắc nghiệm cổ điển (Classical Test Theory - CTT)
và lý thuyết ứng đáp câu hỏi (Item Response Theory - IRT) Lý thuyết ứng đáp câu hỏi (haycòn gọi là lý thuyết trắc nghiệm hiện đại) ra đời sau và đã khắc phục được một số nhượcđiểm cơ bản của lý thuyết trắc nghiệm cổ điển đó là: Việc xác định các tham số của câu hỏikhông phụ thuộc vào nhóm thí sinh trả lời câu hỏi trắc nghiệm; Việc đánh giá năng lực thísinh không phụ thuộc vào đề trắc nghiệm mà thí sinh làm
Điểm nổi bật của IRT chính là việc ước lượng đồng thời các tham số của câu hỏi và năng
lực của thí sinh với một độ chính xác nhất định, điều mà CTT không thể thực hiện được Việc
áp dụng IRT trong phân tích, đánh giá CHTN, ĐTN và đánh giá năng lực của thí sinh nhằm:
• Xác định các tham số đặc trưng của câu hỏi để từ đó loại bỏ ra các câu hỏi kém chấtlượng (nếu có)
• Đánh giá năng lực của thí sinh một cách khách quan, chính xác với độ tin cậy cao
Trên thế giới, việc nghiên cứu và áp dụng lý thuyết trắc nghiệm hiện đại vào đo lường vàđánh giá được phát triển từ những năm 1960 Những nhà nghiên cứu có nhiều đóng góp quantrọng cho sự phát triển của lý thuyết này có thể kể đến như là Rasch , Birnbaum, Baker (xem[15], [16], [17])
Ở Việt Nam, việc áp dụng lý thuyết trắc nghiệm hiện đại vào đánh giá kết quả học tập củangười học chưa thực sự được quan tâm đúng mức Theo nhận định của chúng tôi thì hầu hếtcác cơ sở giáo dục hiện nay đều đánh giá qua việc thí sinh trả lời đúng bao nhiêu câu hỏi trêntổng số câu hỏi của bài thi (mà theo lý thuyết ứng đáp câu hỏi đây chỉ là điểm số thô khôngphản ánh chính xác năng lực của thí sinh) Kỳ thi tốt nghiệp THPT quốc gia năm 2017 BộGiáo Dục và Đào Tạo đã sử dụng phương pháp trắc nghiệm khách quan vào đánh giá nănglực thí sinh Điều này cho thấy phương pháp trắc nghiệm khách quan sẽ ngày càng được sửdụng rộng rãi Việc tìm hiểu và ứng dụng lý thuyết ứng đáp câu hỏi vào phân tích đánh giácâu hỏi và đề trắc nghiệm là hết sức cần thiết trong giai đoạn hiện nay và tác giả đã chọn nó
là vấn đề chính cần giải quyết trong luận văn này
Trang 16Với mong muốn góp phần nâng cao chất lượng giáo dục thông qua việc chuẩn hóa câuhỏi và đề trắc nghiệm bằng việc áp dụng một lý thuyết trắc nghiệm cụ thể vào việc đánh giá,
tôi chọn đề tài “Đánh giá chất lượng câu hỏi và đề trắc nghiệm bằng lý thuyết ứng đáp câu hỏi” cho hướng nghiên cứu của mình.
Luận văn tập trung việc trình bày lý thuyết ứng đáp câu hỏi và ứng dụng lý thuyết này vàoviệc phân tích, ước lượng, đánh giá CHTN và ĐTN bằng phương pháp thống kê toán học Sửdụng ngôn ngữ R trong phân tích, ước lượng đánh giá CHTN và ĐTN từ bộ dữ liệu thật củaTrung Tâm Tin Học - Trường Đại học Nguyễn Tất Thành thông qua việc xử lý kết quả trả lờicác câu hỏi trắc nghiệm của bài thi lý thuyết kiểm tra năng lực tin học Trình độ A - Quốc gia,khóa thi ngày 18 tháng 10 năm 2015 Hướng phát triển về sau, tác giả sẽ áp dụng lý thuyếtứng đáp câu hỏi vào một hệ thống cụ thể để đánh giá câu hỏi trắc nghiệm, đề trắc nghiệm.Luận văn được chia thành 4 chương:
CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
Tổng quan về đo lường, kiểm tra đánh giá trong giáo dục
Tổng quan về trắc nghiệm khách quan
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
Lý thuyết ứng đáp câu hỏi và mô hình Rasch
Đường cong đặc trưng của câu hỏi
Đường cong đặc trưng của đề trắc nghiệm - điểm thực
Ước lượng các tham số của câu hỏi
Ước lượng năng lực của thí sinh
Hàm thông tin
Ước lượng đồng thời các tham số của câu hỏi và năng lực của thí sinh
CHƯƠNG 3: THỰC NGHIỆM, PHÂN TÍCH VÀ ĐÁNH GIÁ
Thực nghiệm và phân tích
Đánh giá chất lượng câu hỏi và đề trắc nghiệm
Đề xuất áp dụng mô hình phù hợp với dữ liệu
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Kết luận
Hướng phát triển
Trang 17Chương 1
TỔNG QUAN VỀ
LĨNH VỰC NGHIÊN CỨU
1.1 Tổng quan về đo lường, kiểm tra đánh giá trong giáo dục
1.1.1 Khái niệm về đo lường, đánh giá trong giáo dục
Đo lường(measurement) là phép so sánh một đại lượng nào đó với một vật chuẩn đã biết, vàđưa ra các con số để đánh giá Để thực hiện một phép đo trong bất kỳ lĩnh vực khoa học kỹ
thuật nào cũng cần một thước đo tác động lên đối tượng cần đo, trên thước đo có xác định
đơn vị đo Bất kỳ một phép đo nào cũng được thực hiện với một độ chính xác nào đó, nghĩa
là phép đo nào cũng có sai số (xem [5]).
Đánh giá (evaluation) là một khâu rất quan trọng trong quá trình giáo dục để xác định,một là mục tiêu giáo dục đặt ra có phù hợp hay không và có đạt được hay không, hai là việcgiảng dạy có thành công hay không, người học có tiến bộ hay không Để đánh giá được đúng
đắn người ta phải triển khai đo lường.
1.1.2 Lý thuyết đo lường trong giáo dục
Việc đo lường và đánh giá trong giáo dục đã phát triển từ xa xưa Tuy nhiên có thể nói, mộtngành khoa học thật sự về đo lường tâm lý và giáo dục chỉ mới bắt đầu hình thành từ cuốithế kỷ 19 và phát triển mạnh mẽ trong thế kỷ 20 với những dấu mốc quan trọng như “trắcnghiệm trí tuệ Simon-Binet” được xây dựng bởi hai nhà tâm lý học người Pháp Binet vàSimon vào khoảng năm 1905 Nó liên tục được cải tiến và ngày nay được biết đến với têngọi là Trắc nghiệm chỉ số thông minh (Intelligence Quotient Test) Bộ trắc nghiệm thành quả
Trang 18học tập tổng hợp đầu tiên Standford Achievement Test - SAT ra đời vào năm 1923 ở Mỹ Vớiviệc chấm trắc nghiệm bằng máy của IBM năm 1935, việc thành lập Hội đồng quốc gia về
đo lường trong giáo dục Mỹ (National Council on Measurement in Education - NCME) vàothập niên 1950 cũng như sự ra đời của hai tổ chức làm dịch vụ trắc nghiệm lớn nhất Hoa Kỳ(Educational Testing Service - ETS năm 1947, American College Testing - ACT năm 1959)
đánh dấu một ngành công nghiệp về trắc nghiệm đã hình thành (xem [5]).
Tại Việt Nam, trước năm 1975, ở miền Bắc, khoa học về trắc nghiệm cũng như ứng dụngcủa nó vào thực tiễn chưa được chú trọng; ở miền Nam trắc nghiệm được áp dụng sớm hơnnhờ một số học giả du học từ các nước Phương Tây trong đó có Giáo sư Dương Thiệu Tống(xem [5]), và điển hình là kỳ thi tú tài IBM năm 1974 đã áp dụng phương pháp trắc nghiệmkhách quan (TNKQ)
1.2 Tổng quan về trắc nghiệm khách quan
Lý thuyết trắc nghiệmlà cơ sở khoa học để đánh giá chất lượng của một đề trắc nghiệm vàxác định năng lực của thí sinh Cho đến thời điểm hiện nay có hai lý thuyết trắc nghiệm đượcbiết đến và được sử dụng trong nhiều ngành khoa học trong đó có khoa học về đo lường giáodục
1.2.1 Lý thuyết trắc nghiệm cổ điển
Lý thuyết trắc nghiệm cổ điển(Classical Test Theory - CTT) ra đời từ cuối Thế kỷ 19 và hoànthiện vào khoảng thập niên 1970, đã có nhiều đóng góp quan trọng cho hoạt động đánh giátrong giáo dục Lý thuyết này quan niệm rằng năng lực của mỗi TS được xác định bởi điểmthực (True Score -T) thu được trong trường hợp phép đo không có sai số (Error -E) Điểmthực được xác định như là điểm trả lời đúng kỳ vọng khi triển khai đề kiểm tra độc lập vô sốlần Tuy nhiên, điểm thựcT của TS không bao giờ có thể thu được trực tiếp ĐiểmX được
gọi là “điểm quan sát” (observed score) của TS dựa vào công thức
X = T + E,
trong đó:
• X(observed score): điểm quan sát là điểm mà thí sinh nhận được sau khi thực hiện bàithi, điểm này thường được tính là tổng điểm của các câu hỏi trong bài thi;
Trang 19• T (true score): điểm thực là một số đo năng lực thực sự của một thí sinh, điểm nàykhông thể đo được trực tiếp;
• E(error): sai số
Trong CTT, việc đánh giá năng lực của thí sinh chủ yếu dựa vào điểm bài thi trắc nghiệm.Trong đó, một đề thi trắc nghiệm là tập hợp các câu hỏi trắc nghiệm Xét một đề thi trắcnghiệm gồmN câu hỏi được thực hiện bởiM thí sinh Khi đó:
Định nghĩa 1.2.1 (Độ khó, xem [5]) Độ khó của một câu hỏi chính là tỉ số giữa số thí sinh
trả lời đúng câu hỏi so với tổng số thí sinh tham gia trả lời câu hỏi đó và được xác định bởicông thức
Di = ri
M,trong đó:
• Di: là độ khó câu hỏi thứi;
• ri: là số thí sinh trả lời đúng câu hỏi thứi;
• M: là tổng số thí sinh tham gia trả lời câu hỏi thứi
Bảng 1.2.1 Bảng độ khó của câu hỏi
Theo đó, giá trị độ khó củaDi sẽ nằm trong khoảng từ0đến1 Giá trị củaDi càng caothì câu hỏi càng dễ và ngược lại Chúng tôi phân chia mức độ khó của các câu hỏi dựa vào tỉ
lệ trả lời đúng câu hỏi trên tổng số thí sinh tham gia trả lời câu hỏi được trình bày như Bảng1.2.1
Định nghĩa 1.2.2 (Độ phân biệt, xem [5]) Độ phân biệt của một câu hỏi được tính bằng
công thức
Disci = Hi− Li
S ,
Trang 20trong đó:
• Disci: là độ khó câu hỏi thứi;
• Hi: là số thí sinh thuộc nhóm năng lực cao trả lời đúng câu hỏi thứi;
• Li: là số thí sinh thuộc nhóm năng lực thấp trả lời đúng câu hỏi thứi;
• S: là tổng số thí sinh tham gia của mỗi nhóm
Trong CTT, độ phân biệt được xem là một đại lượng được sử dụng để đo mức độ phânbiệt giữa các thí sinh trong nhóm Khi ra một câu hỏi trắc nghiệm hoặc bài thi trắc nghiệm,chúng ta thường muốn phân biệt trong nhóm thí sinh đó những người có các mức năng lựckhác nhau như: giỏi, khá, trung bình, yếu, Khả năng của câu trắc nghiệm thực hiện được
sự phân biệt ấy được gọi là độ phân biệt.
Một câu hỏi có độ phân biệt cao thì tỉ lệ trả lời đúng câu hỏi đó giữa nhóm thí sinh giỏi
và nhóm thí sinh kém phải có sự khác nhau cao
Định nghĩa 1.2.3 (Độ tin cậy, xem [5]) Độ tin cậy của bài trắc nghiệm chính là đại lượng
biểu thị cho mức độ chính xác của phép đo nhờ bài trắc nghiệm và được tính dựa theo phươngpháp Kuder-Richarson1như sau
• N: số câu hỏi của đề trắc nghiệm;
• p: tỉ lệ trả lời đúng cho một câu hỏi;
• q: tỉ lệ trả lời không đúng cho câu hỏi;
• σ2: phương sai của tổng điểm mọi thí sinh đối với cả đề trắc nghiệm
Độ tin cậy càng cao, điểm số thu được từ bài trắc nghiệm càng chính xác
Định nghĩa 1.2.4 (Độ giá trị, xem [5]) Độ giá trị của bài trắc nghiệm là đại lượng biểu thị
mức độ đạt được mục tiêu đề ra cho phép đo nhờ bài trắc nghiệm
1 Phương pháp Kuder-Richarson dựa trên ý tưởng xem mỗi câu hỏi trắc nghiệm trong một đề trắc nghiệm là một đề trắc nghiệm tương đương, tức là chúng có cùng điểm trung bình và cùng phương sai.
Trang 21Phát triển từ đầu Thế kỷ 20 cho đến thập niên 1970, lý thuyết trắc nghiểm cổ điển đã đạtđược nhiều thành tựu, tạo cơ sở khoa học để thiết kế các phép đo tương đối chính xác Tuynhiên lý thuyết này còn các hạn chế chính sau [3, Ch 3, tr 70-72]:
• Hạn chế cơ bản nhất của lý thuyết trắc nghiệm cổ điển chính là không thể tách biệtđược các đặc trưng của TS độc lập với các đặc trưng của ĐTN, đặc trưng này chỉ cóthể giải thích trong mối quan hệ với đặc trưng kia
Một đặc trưng quan trọng mà ta quan tâm là năng lực của TS Trong lý thuyết trắcnghiệm cổ điển, năng lực được diễn tả bởi điểm của TS mà một ĐTN có thể đo được.Khi ĐTN khó thì TS sẽ thể hiện năng lực thấp, khi ĐTN dễ thì TS sẽ thể hiện nănglực cao Nhưng ĐTN như thế nào được gọi là khó hay dễ? Độ khó của một CH được
định nghĩa là tỉ số giữa số TS trả lời đúng CH trên tổng số TS tham gia trả lời CH, tức
là độ khó CH tùy thuộc vào năng lực của các TS được đo Độ phân biệt của CH cũngnhư độ tin cậy và độ giá trị của ĐTN cũng được xác định phụ thuộc vào một nhóm TS
cụ thể được đo Các đặc trưng của CH và ĐTN thay đổi khi trình trạng TS thay đổi, và
các đặc trưng của TS thay đổi khi tình trạng ĐTN thay đổi.Điều này rất khó so sánhcác TS khi họ làm các ĐTN khác nhau, cũng như rất khó so sánh các ĐTN khi đượclàm bởi các nhóm TS khác nhau
hàng câu hỏi Việc mở rộng một ngân hàng CH sẽ gặp khó khăn nếu các đặc trưngcủa CH bổ sung thu được nhờ một nhóm TS khác với nhóm TS trước đó được dựa vào
để xác định các đặc trưng của ngân hàng CH cũ Năng lực xác định được của TS phụ
thuộc vào ĐTN: rất khó so sánh điểm biểu diễn năng lực của các TS làm các ĐTN khácnhau thậm chí khi cho các nhóm TS làm các ĐTN tương đương vì khi các nhóm TS cónăng lực khác nhau thì các điểm thu được của TS từ ĐTN đó có sai số khác nhau
• Việc xác định độ tin cậy của các đề trắc nghiệm phải dựa vào các đề trắc nghiệm tươngđương Đây là mặt hạn chế khác của lý thuyết trắc nghiệm cổ điển Theo lý thuyết này,
độ tin cậy là “tương quan giữa các điểm của hai ĐTN tương đương” Nhưng trong thực
tế không thể có các ĐTN thỏa mãn tiêu chí tương đương Liên quan với độ tin cậy làsai số tiêu chuẩn của phép đo năng lực TS Lý thuyết trắc nghiệm cổ điển quan niệmrằng các sai số tiêu chuẩn của phép đo năng lực TS là như nhau trong khi thực tế độchính xác của phép đo năng lực là khác nhau đối với các TS có năng lực khác nhau
Trang 22• Một hạn chế nữa của lý thuyết trắc nghiệm cổ điển là lý thuyết này xem xét việc ứngđáp dựa vào cấp độ ĐTN chứ không phải cấp độ CH trắc nghiệm Định nghĩa điểmthực trong trắc nghiệm cổ điển không lưu ý tới việc TS ứng đáp một CH như thế nào.
Cụ thể hơn, lý thuyết trắc nghiệm cổ điển không cho phép dự báo về một TS hay mộtnhóm TS nào ứng đáp một CH ra sao Câu hỏi “xác suất để một TS ứng đáp đúng một
CH xác định là bao nhiêu?” là rất quan trọng trong nhiều ứng dụng trắc nghiệm nhưngkhông trả lời được trong lý thuyết trắc nghiệm cổ điển
Từ những hạn chế nêu trên, có thể thấy lý thuyết trắc nghiệm cổ điển không cho phép giảiquyết tốt một số vấn đề trong thực tiễn trắc nghiệm Nhiều nhà tâm trắc học cố gắng tìm một
lý thuyết mới để thay thế lý thuyết trắc nghiệm cổ điển với kỳ vọng đạt được các yêu cầu sau:
• Các đặc trưng câu hỏi không phụ thuộc vào nhóm thí sinh;
• Đánh giá năng lực thí sinh không phụ thuộc vào đề trắc nghiệm mà thí sinh làm;
• Mô hình xem xét ở cấp độ câu hỏi chứ không phải cấp độ đề trắc nghiệm;
• Mô hình không đòi hỏi các đề trắc nghiệm hoàn toàn tương đương để đánh giá độ tincậy;
• Mô hình cung cấp các sai số khác nhau của phép đo ở từng mức năng lực của thí sinh
1.2.2 Lý thuyết trắc nghiệm hiện đại
Lý thuyết trắc nghiệm hiện đại hay còn gọi là Lý thuyết ứng đáp câu hỏi (Item Response
Theory - IRT)là một lý thuyết của khoa học về đo lường trong giáo dục đã ra đời từ nửa cuốiThế kỷ 20 và phát triển mạnh mẽ cho đến nay Để đánh giá đối tượng nào đó, lý thuyết trắcnghiệm cổ điển tiếp cận ở cấp độ một đề kiểm tra, còn lý thuyết ứng đáp câu hỏi tiếp cận ởcấp độ từng câu hỏi
IRT được xây dựng dựa trên khoa học về xác suất và thống kê để xử lý dữ liệu dựa trênnghiên cứu mọi cặp tương tác nguyên tố “Thí sinh - Câu hỏi” (TS, CH) Mỗi TS sẽ ứng đápnhư thế nào trước một CH sẽ phụ thuộc vào năng lực (được ký hiệu làθ) của TS và các tham
số đặc trưng (a-độ phân biệt,b-độ khó,c-độ đoán mò) của CH Mối quan hệ giữa xác suấttrả lời đúng CH và năng lực của TS được mô tả bởi hàm đặc trưng câu hỏi có dạng
P (θ) = c + 1 − c
Trang 23và có đồ thị của hàm đặc trưng (hay còn gọi là đường cong đặc trưng câu hỏi (Item teristic Curves - ICC)).
Charac-Hiện nay có ba mô hình ứng đáp câu hỏi thông dụng: mô hình một tham số chỉ xét đếnmột tham số đặc trưng duy nhất của câu hỏi đó chính là độ khó (b), mô hình hai tham số cóxét thêm đến đặc trưng thứ hai của câu hỏi là độ phân biệt (a), và mô hình ba tham số xétthêm đến tham số đặc trưng thứ ba của câu hỏi là mức độ đoán mò (c) của TS khi trả lời câuhỏi So với lý thuyết trắc nghiệm cổ điển, lý thuyết ứng đáp câu hỏi có những ưu điểm nổibật:
• Trong lý thuyết cổ điển: độ khó, độ phân biệt của các CH tính được sẽ phụ thuộc vàomẫu TS được chọn thử nghiệm, và năng lực xác định được của TS phụ thuộc vào ĐTN
mà TS làm
• Với lý thuyết ứng đáp câu hỏi, thành tựu kỳ diệu nhất mà các mô hình tính toán manglại là các tham số đặc trưng của CH (độ khó (b), độ phân biệt (a), mức độ đoán mò (c))không phụ thuộc vào mẫu thử để định cỡ CH và năng lực (θ) đo được của TS khôngphụ thuộc vào ĐTN cụ thể được lấy từ ngân hàng câu hỏi (NHCH) đã được định chuẩn
Như vậy theo IRT, mỗi CH có các thuộc tính đặc trưng của nó, mỗi TS ở một trình độ nào
đó có một năng lực xác định, các thuộc tính đặc trưng này không phụ thuộc vào phép đo,hay nói cách khác chúng là bất biến (invariance) Việc ứng dụng IRT sẽ góp phần gia tăng
độ chính xác của phép đo lường trong giáo dục Từ đó, chúng ta có thể đề xuất quy trình xâydựng ngân hàng câu hỏi (NHCH), phân tích kết quả trả lời các câu hỏi TNKQ để xác địnhchất lượng câu hỏi, chủ động trong việc thiết kế, xây dựng đề kiểm tra trắc nghiệm đáp ứngtốt các mục đích đã đề ra
Trang 24Chương 2
CƠ CỞ LÝ THUYẾT
2.1 Lý thuyết ứng đáp câu hỏi và mô hình Rasch
Trong những thập niên cuối của Thế kỷ 20, cùng với sự tiến bộ vượt bậc của tin học và sựtăng nhanh về tốc độ tính toán của máy tính Phương hướng mô hình hóa quá trình đo lườngbằng trắc nghiệm cũng đạt được những thành tựu to lớn Một trong những thành tựu đó chính
là lý thuyết ứng đáp câu hỏi (Item Response Theory - IRT) Để hiểu rõ hơn về lý thuyết này,
chúng ta xét đến ví dụ cụ thể sau:
Ví dụ 1 Giả sử chúng ta tạo ra một đề trắc nghiệm 20 câu cho một kỳ thi có 100 TS tham
gia để xác định năng lực Tin học cơ bản của TS Mỗi TS có một năng lực (θ) nào đó và mỗi
CHTN có một độ khó (b) nào đó Phải xem xét TS thứj có năng lực θj sẽ ứng đáp như thếnào trước CH thứicó độ khóbi
Trong ví dụ nêu trên, ta dễ dàng nhận thấy có 2000 mối quan hệ tương tác giữa thí sinh
và câu hỏi Nhà toán học người Đan Mạch, Rasch đã đưa ra một mô hình ứng đáp để mô tảmối quan hệ tương tác này Đối với TS, Rasch chọn tham số năng lực (θ) Đối với CH, Raschchỉ chọn một tham số duy nhất đó là độ khó (b) Rasch đã phát biểu: “Một TS có khả nănghơn một TS khác thì phải có xác suất trả lời đúng câu trắc nghiệm bất kỳ cao hơn TS còn lại,cũng tương tự như vậy, một CH khó hơn một CH khác thì xác suất để một TS bất kỳ trả lờiđúng CH sau sẽ cao hơn câu hỏi trước.”(xem [15])
Từ phát biểu của Rasch, có thể rút ra hệ quả: xác suất P trả lời đúng câu hỏi phụ thuộcvào tương quan giữa năng lực (θ) của TS và độ khó (b) của CH được biểu diễn qua công thức
f (P ) = θ
Trang 25trong đóf là một hàm nào đó của xác suất trả lời đúng.
Để đơn giản trong việc tính toán, người ta sử dụng hệ thống cộng trừ thay cho hệ thống
nhân chia Chính vì vậy, người ta thường lấy logarit của (2.1) thành
hay còn gọi là tỉ số odds, tức là tỉ lệ xác suất của sự kiện xảy ra so với xác suất sự kiện không
xảy ra Như vậy
ln
P
Pi(θj) = e
(θ j −bi)
1 + e(θ j −b i )
trong đóelà hằng số Euler có giá trị gần bằng 2.718281828 , và chính là cơ số của logarit
tự nhiên Trong ví dụ nêu trên chúng ta có chỉ sốjchạy từ 1 đến 100 ứng với 100 thí sinh, chỉ
sốichạy từ 1 đến 20 ứng với 20 câu hỏi, và ta có 2000 giá trị ứng với 2000 cặp (TSj,CHi).Qua ví dụ đã trình bày ở trên, chúng ta dễ dàng nhận thấy được lý thuyết ứng đáp câu hỏiđược xây dựng dựa trên một hàm phân bố xác suất phụ thuộc năng lực thí sinh và các tham
số câu hỏi Một số giả định cơ bản trong IRT là:
• Việc trả lời một câu hỏi của thí sinh bị tác động bởi hai yếu tố cơ bản: đặc trưng củacâu hỏi (độ khó, độ phân biệt, độ đoán mò), năng lực của thí sinh
• Năng lực của thí sinh là đại lượng không thể đo lường trực tiếp mà chỉ có thể ước lượng
Trang 26được thông qua việc trả lời các câu hỏi trắc nghiệm.
• Mối quan hệ giữa xác suất trả lời đúng câu hỏi và năng lực thí sinh được mô tả thôngqua hàm đặc trưng câu hỏi hay còn gọi là đường cong đặc trưng câu hỏi (Item Charac-teristic Curve - ICC)
2.2 Đường cong đặc trưng của câu hỏi
Cơ sở lý thuyết của phần trình bày này được tôi tham khảo chủ yếu từ tài liệu [11] của tác giảBaker và Kim
Định nghĩa 2.2.1 (Đường cong đặc trưng của câu hỏi) Đường cong đặc trưng của câu hỏi
được định nghĩa bởi công thức toán học sau [11, Ch 1, tr 5]
Pi(θj) = P (ai, bi, θj) (2.3)
trong đó:
• Pi(θj): xác suất để thí sinh thứj có năng lựcθj trả lời đúng câu hỏi thứi;
• ai: tham số độ phân biệt của câu hỏi thứi, (−∞ ≤ ai ≤ +∞);
• bi: tham số độ khó của câu hỏi thứi, (−∞ ≤ bi ≤ +∞);
• θj: tham số năng lực của thí sinh thứj, (−∞ ≤ θj ≤ +∞)
Xác suất trả lời đúng một câu hỏi thứiphụ thuộc vào giá trị các tham số (ai, bi) của câuhỏi và năng lực (θj) của thí sinh thứj Đường cong đặc trưng của câu hỏi biểu diễn mối liên
hệ giữa xác suất trả lời đúng câu hỏi và năng lực của thí sinh Nó có một số đặc điểm sau:
• Đường cong được biểu diễn trên đồ thị với trục hoànhx (−∞ < x < +∞)biểu diễncho mức năng lựcθvà trục tungy (0 < y < 1)biểu diễn cho xác suất trả lời đúng câuhỏi (P (θ))
• Đường cong đi lên nếu năng lực (θ) tăng Điều này có nghĩa xác suất trả lời đúng câuhỏi sẽ tăng nếu năng lực của thí sinh tăng:P (θ)sẽ tiến về1khiθ → +∞và tiến về0
khiθ → −∞
• Đường cong nhận giá trịy = 1làm tiện cận trên vày = 0làm tiệm cận dưới
Trang 272.2.1 Mô hình đường cong chuẩn
Hàm phân phối tích lũy của biến ngẫu nhiênθj đối với CH thứilà
(−1/2)Z 2
trong đó: µi: trung bình,σi: độ lệch chuẩn,θj: năng lực, Zij: là các giá trị tuân theo phânphối chuẩn tắc (normal deviate)
Ví dụ 2 Hàm phân phối tích lũy (2.4) được sử dụng để vẽ đường cong đặc trưng của câu hỏi
với tham số độ khób = 0.3và độ phân biệta = 1.5 Từ công thức
Dựa vào công thức (2.5) chúng ta dễ dàng xác định đượcZij và từ đó áp dụng công thức (2.4)
ta sẽ tính được giá trịPi(θj)ứng với các mứcθtrong khoảng từ −3đến3với mỗi giá trịθ
cách nhau0.5 Đường cong tương ứng với dữ liệu tại Bảng 2.2.1 được vẽ như Hình 2.2.1
2.2.2 Mô hình đường cong logistic
Xác suất để một thí sinh có năng lựcθnào đó trả lời đúng một câu hỏi phụ thuộc vào giá trịcác tham số của câu hỏi Xác suất này được biểu diễn bởi hàm logistic có dạng [11, Ch 1, tr.15]
trong đó:Zij = a∗i(θj − bi)và được gọi là logit,bi là điểm uốn cong mà khi đó giá trị của
Pi(θ) = 0.5,a∗i là tham số độ phân biệt
Ví dụ 3 Sử dụng mô hình logistic để vẽ đường cong đặc trưng câu hỏi với cùng giá trị độ
khóbi = 0.3và độ phân biệtai = 1.5 Áp dụng công thức (2.6) chúng ta cũng dễ dàng tínhđược các giá trịPi(θj)theo thang đo năng lực θj(−3 ≤ θj ≤ 3) và vẽ được biểu đồ Hình
Trang 28Bảng 2.2.1 Dữ liệu đường cong đặc trưng câu hỏi trong
mô hình đường cong chuẩn vớibi = 0.3, ai= 1.5
Hình 2.2.1 Biểu đồ đường cong đặc trưng của câu hỏi trong
mô hình đường cong chuẩn vớibi = 0.3, ai= 1.52.2.2 dựa vào dữ liệu được minh họa tại Bảng 2.2.2
Theo [11, Ch 1, tr 16], Haley chỉ ra rằng, trị tuyệt đối giá trị chênh lệch củaPi(θj)trong
Trang 29Bảng 2.2.2 Dữ liệu đường cong đặc trưng của câu hỏi theo
mô hình logistic vớibi= 0.3, a∗i = 1.5
Hình 2.2.2 Biểu đồ đường cong đặc trưng của câu hỏi trong
mô hình logistic vớibi = 0.3,a∗i = 1.5
mô hình đường cong chuẩn và mô hình đường logistic là nhỏ hơn.01trong cùng giá trịθ Vì
Trang 30|Φ(Z) − Ψ[(1.702)Z]| < 01 (2.7)
Do đó, giá trịa∗i được sử dụng trong công thức (2.6) chính bằng1.702aivà aiđược sử dụngtrong công thức (2.5) Ví dụ, trong Bảng 2.2.2, khiθ = −0.5thìZij = −1.2vớia∗i = 1.5, vàxác suất trả lời đúngPi(θj)khi đó sẽ là0.2315 Mặc khác, trong Bảng 2.2.1, khiθ = −0.5
thìZij cũng có giá trị là−1.2, nhưng xác suấtPi(θj) = 0.11507 Nếu chúng ta lấyZij nhâncho1.702, giá trị sẽ là−2.0424dẫn đếnPi(θj) = 0.1148, nó thì rất gần với giá trị củaPi(θj)
trong mô hình đường cong chuẩn Hình 2.2.3 cho thấy dạng thức của đường cong trong hai
mô hình (mô hình đường cong chuẩn, mô hình đường cong logistic) là giống nhau, chỉ độ uốncong là khác nhau Điều này thể hiện rõ sự giống nhau giữa tham sốbi cũng như mối quan
hệ giữaai trong mô hình đường cong chuẩn so vớia∗i trong mô hình đường cong logistic là
a∗i = 1.702ai Do mỗi câu hỏi đều có các giá trị tham số câu hỏi là khác nhau nên các đườngcong đặc trưng của các câu hỏi sẽ là khác nhau
Hình 2.2.3 Biểu đồ đường cong đặc trưng câu hỏi dựa vào
mô hình đường cong chuẩn và đường cong logistic vớib = 0.3, a = 1.5
Xác suất trả lời không đúng một câu hỏiQi(θj)cũng có thể được biểu diễn ở dạng đườngcong và đường cong này đối xứng với đường cong câu hỏi cho việc trả lời đúng Chúng sẽ
có cùng giá trị về độ khó, còn độ phân biệt thì cùng giá trị số nhưng trái dấu Hình 2.2.4 bên
Trang 31dưới thể hiện đường cong câu hỏi cho việc trả lời đúng (bi = 0.3, ai = 1.5) và đường congcâu hỏi cho việc trả lời không đúng (bi = 0.3, ai = −1.5) một câu hỏi.
Hình 2.2.4 Biểu đồ đường cong đặc trưng của câu hỏi trong việc
ứng đáp đúng và sai của một câu hỏi
Xác suất thí sinh trả lời không đúng câu hỏi Qi(θj) = 1 − Pi(θj) Tỉ số odds chính là
tỉ lệ giữa xác suất trả lời đúng so với xác suất trả lời không đúng của cùng một câu hỏi(Pi(θj)/Qi(θj)) Nếu lấy logarithm tự nhiên của tỉ số này, ta có
Zij = log
Pi(θj)
Qi(θj)
= ai(θj− bi) = i + λiθj
Trang 32θ = bnhư Hình 2.2.5.
Hình 2.2.5 Biểu đồ đường cong đặc trưng câu hỏi
Không phải mọi đường cong đặc trưng của câu hỏi đều tuân thủ theo công thức (2.4).Theo Baker và Kim (2004) [11, Ch 1, tr 21 ], hàm đặc trưng của câu hỏi còn có thể có dạng
Pi(θj) = ci+ (1 − ci) 1
1 + e−ai(θ j −bi), (2.8)
trong đó:
• Pi(θj): xác suất để thí sinh thứj có năng lựcθtrả lời đúng câu hỏi thứi;
• ai: tham số độ phân biệt của câu hỏi thứi, (−∞ ≤ ai ≤ +∞);
• bi: tham số độ khó của câu hỏi thứi, (−∞ ≤ bi ≤ +∞);
• ci: tham số đoán mò (tham số cơ hội) để trả lời đúng câu hỏi Tham số này cho biết
Trang 33một xác suất nào đó để một thí sinh có mức năng lực thấp nhất vẫn có thể trả lời đúngcâu hỏi,(0 ≤ ci ≤ 1).
Hàm (2.8) chính là hàm đặc trưng của câu hỏi trong mô hình ba tham số Hình 2.2.6 thể hiệnđường cong đặc trưng của một câu hỏi theo mô hình ba tham số vớia = 1.5, b = 0, c = 0.25
Hình 2.2.6 Biểu đồ đường cong đặc trưng câu hỏi trong mô hình ba tham số với
ai = 1.5,bi = 0,ci = 0.25
Ý nghĩa của các tham số câu hỏi trong lý thuyết ứng đáp câu hỏi:
• Độ phân biệt (a): trong [17, Ch 2, tr 35] tác giả đề xuất quy ước các mức độ của độphân biệt theo giá trị như trong Bảng 2.2.3 Độ phân biệt của câu hỏi đặc trưng chokhả năng phân loại thí sinh Thông thường độ phân biệt câu hỏi có giá trị dương, trongquá trình xây dựng câu hỏi nếu câu hỏi nào có độ phân biệt âm thì cần xem xét lại vềmặt nội dung hoặc loại bỏ ngay câu hỏi đó ra khỏi ngân hàng câu hỏi Câu hỏi nào có
độ phân biệt càng lớn thì sự chênh lệch giữa xác suất trả lời đúng của thí sinh có nănglực cao và thí sinh có năng lực thấp càng lớn Câu hỏi có độ phân biệt càng cao thì cótính phân loại thí sinh tốt hơn câu hỏi có độ phân biệt thấp
• Độ khó (b): khi một thí sinh có năng lựcθtrả lời một câu hỏi, nếu độ khóbcủa câu hỏibằng với năng lựcθcủa thí sinh thì xác suất trả lời đúng câu hỏi này của thí sinh chính
Trang 34Mức độ Dãy giá trị(a)
Độ phân biệt trung bình 65 - 1.34
Bảng 2.2.3 Các mức độ phân biệt của câu hỏi
độ khó theo các mức độ như trình bày tại Bảng 2.2.4
Bảng 2.2.4 Các mức độ khó của câu hỏi
• Mức độ đoán mò (c): nếu một câu hỏi có độ đoán mòc > 0thì xác suất để thí sinh cónăng lực vô cùng thấp (θ → −∞) trả lời đúng câu hỏi chính bằng độ đoán mòc
Khi so sánh các câu hỏi có cùng độ phân biệt, cùng tham số cơ hội (đoán mò) Nếu câuhỏi càng khó thì xác suất trả lời đúng câu hỏi đó của thí sinh càng thấp Các đường cong đặctrưng câu hỏi tại Hình 2.2.7 có cùng độ phân biệt (a = 1.5) và tham số đoán mò (c = 0.25)
Trang 35Hình 2.2.7 Biểu đồ đường cong đặc trưng các câu hỏi có
cùng tham số độ phân biệt (a) và độ đoán mò (c) nhưng khác tham số về độ khó (b)
nhưng có tham số độ khó (b) là khác nhau Câu hỏi thứ 1 (1 - màu xanh dương) là câu hỏi dễnhất, khi đó tại mỗi điểm trên thang đo năng lực (trục hoành), xác suất trả lời đúng câu hỏi(1 - màu xanh dương) đều cao hơn câu hỏi thứ 2 (2 - màu xanh lá) và câu hỏi thứ 3 (3 - màu
đỏ)
Lý thuyết ứng đáp câu hỏi cố gắng mô hình hóa mối quan hệ giữa một biến không quansát được, thường định nghĩa là năng lực (θ) của thí sinh, và xác suất thí sinh trả lời đúng mộtcâu hỏi bất kỳ Ba mô hình ứng đáp câu hỏi thường được sử dụng là mô hình ba tham số, môhình hai tham số và mô hình một tham số Tất cả các mô hình đều giả định thí sinh có mộtnăng lực cơ bản làθ và câu hỏi có các tham sốa, b, clần lượt là độ phân biệt, độ khó và độđoán mò
Trong cả ba mô hình, các câu hỏi đều có một tham số về độ khó (b), đó chính là điểm uốncong theo năng lực (θ) Câu hỏi với giá trịbcao được gọi là câu khó, với thí sinh có năng lựcthấp thì xác suất trả lời đúng câu hỏi này là thấp Câu hỏi với giá trịbthấp được gọi là câu
dễ, với hầu hết thí sinh thậm chí cả thí sinh có năng lực thấp cũng có một xác suất vừa phải
để trả lời đúng
Trong mô hình ba tham số và mô hình hai tham số đều có tham số độ phân biệt (a) đểcho phép câu hỏi có sự phân biệt giữa các thí sinh có mức năng thức thấp và thí sinh có mức
Trang 36năng lực cao.
Trong mô hình ba tham số cũng có một tham số tiệm cận dưới (c), còn được biết đến làmtham số cơ hội (độ đoán mò) Tham số này cho phép thí sinh, ngay cả những thí sinh có mứcnăng thấp vẫn có xác suất cao trả lời đúng câu hỏi Về mặt lý thuyếtcnằm trong khoảng từ
0.0đến1.0
2.2.3 Mô hình một tham số
Một trong những mô hình IRT đơn giản nhất chính là mô hình một tham số (hay còn gọi là
mô hình Rasch) Khi xây dựng mô hình đặc trưng của câu hỏi, Rasch chỉ sử dụng một tham
số đặc trưng duy nhất của câu hỏi đó chính là tham số về độ khó (b), nên mô hình Rasch cònđược gọi là mô hình một tham số
Mô hình một tham số có dạng
P (θ) = e
(θ−b)
Nếu biểu diễn tất cả các đường cong đặc trưng câu hỏi một tham số trên trục hoành (θ) thì ta
có một họ đường cong đặc trưng câu hỏi cùng hình dạng như Hình 2.2.8
Hình 2.2.8 Các đường cong đặc trưng câu hỏi trong mô hình một tham số
Trang 372.2.4 Mô hình hai tham số
Mô hình hai tham số có dạng
Hình 2.2.9 Các đường cong đặc trưng câu hỏi hai tham số với cùng
giá trị độ khób = 0nhưng độ phân biệtalà khác nhau.
Hàm đặc trưng của câu hỏi trong mô hình hai tham số (2.10) và hàm đặc trưng của câuhỏi trong mô hình một tham số (2.9) có cùng dạng thức, chỉ khác nhau ở giá trị tham số a
(đối với mô hình một tham sốa = 1)
Hình 2.2.9 biểu diễn các đường cong đặc trưng của câu hỏi theo mô hình hai tham số vớicác tham số về độ phân biệtacó giá trị khác nhau nhưng có cùng tham số về độ khób = 0.Như vậy, mô hình một tham số chỉ xét đến một tham số duy nhất liên quan đến độ khó là
b, còn mô hình hai tham số thì ngoài tham số về độ khób còn có tham số liên quan đến độphân biệta
Trang 382.2.5 Mô hình ba tham số
Quan sát các đường cong đặc trưng câu hỏi trong mô hình một tham số (Hình 2.2.8) và đườngcong đặc trưng câu hỏi trong mô hình hai tham số (Hình 2.2.9), chúng ta dễ dàng nhận thấytiệm cận trái của các đường cong có giá trị bằng0 Điều đó có nghĩa rằng: nếu thí sinh cónăng lực vô cùng thấp (θ → −∞) thì xác suất để thí sinh đó trả lời câu hỏi đúng câu hỏicũng bằng 0 (P (θ) = 0)
Tuy nhiên trong thực tế khi triển khai trắc nghiệm chúng ta đều biết một thí sinh có nănglực thấp nhưng do đoán mò để trả lời một câu hỏi nên thí sinh đó vẫn có một xác suất trả lờiđúng câu hỏi Với trường hợp đó thì tiệm cận trái của đường cong đặc trưng câu hỏi khôngphải bằng0mà bằng một giá trị xác địnhc (0 ≤ c ≤ 1)
Từ thực tế trên, Birnbaum đã đưa thêm tham sốcphản ánh hiện tượng đoán mò vào hàmđặc trưng để thu được tiệm cận trái của đường cong khác0 Mô hình ba tham số có dạng [17,
Hình 2.2.10 biểu diễn các đường cong đặc trưng của câu hỏi theo mô hình ba tham số với
độ phân biệta = 2, độ khób = 0và tham số đoán mòccó giá trị lần lượt là0.1, 0.2, 0.3
2.3 Đường cong đặc trưng của đề trắc nghiệm - điểm thực
Lý thuyết ứng đáp câu hỏi đánh giá dựa vào từng câu hỏi của bài kiểm tra Khi tính điểmbài kiểm tra, chúng ta xem xét phản ứng của thí sinh trên từng câu hỏi Nếu trả lời chính xácđược1điểm , trả lời không chính xác được0điểm Điểm số thô của thí sinh thu được sẽ bằngtổng điểm của các câu hỏi, điểm số này là một số nguyên nằm trong khoảng từ0đếnN-sốcâu hỏi trong bài kiểm tra Nếu thí sinh làm lại bài kiểm tra lần nữa, giả sử rằng TS khôngnhớ cách trả lời các câu hỏi, lúc này sẽ thu được điểm số thực khác so với lần đầu Theo giảthuyết, một thí sinh có thể làm một bài kiểm tra nhiều lần và sẽ có được một loạt các điểm
số nằm xung quanh một giá trị trung bình Trong lý thuyết đo lường, giá trị này được gọi là
Trang 39Hình 2.2.10 Ba đường cong đặc trưng câu hỏi trong mô hình ba tham số với
giá trịa = 2, b = 0vàccó giá trị lần lượt là0.1, 0.2, 0.3điểm số thực (true score) và định nghĩa của nó phụ thuộc vào lý thuyết cụ thể được áp dụng.Trong lý thuyết ứng đáp câu hỏi, Lawley định nghĩa điểm số thực dựa vào công thức [17,
cộng tất cả các đường cong đặc trưng của câu hỏi chúng ta sẽ thu được một đường cong đặc
trưng đề trắc nghiệm (Test Characteristic Curve - TCC), hoặc cũng gọi là đường cong điểm
thực(True Score Curve - TSC)
Ví dụ 4 Để tính điểm thực của một thí sinh ở mức năng lựcθ = 0, ta cần tính xác suất trả lờitất cả các câu hỏi trong đề trắc nghiệm ở cùng mức năng lực đó Áp dụng công thức (2.10)trong mô hình hai tham số với giá trị ước lượng củaab1 = 1.3319249vàbb1 = −0.2544415, tatính được xác suất trả lời đúng câu hỏi thứ 1 làp1 = 0.583922559
Trang 40Bảng 2.3.5 Xác suất trả lời đúng các câu hỏi với mức năng lựcθ = 0
câu hỏi tính theo các số liệu trên Bảng 2.3.5 được biểu diễn trên Hình 2.3.11
Hình 2.3.11 20 đường cong đặc trưng của câu hỏi theo mô hình hai tham số
Để biết điểm thực ở mức năng lựcθ = 0, ta tiến hành tính tổng xác suất trả lời đúng của
... thường độ phân biệt câu hỏi có giá trị dương, trongq trình xây dựng câu hỏi câu hỏi có độ phân biệt âm cần xem xét lại vềmặt nội dung loại bỏ câu hỏi khỏi ngân hàng câu hỏi Câu hỏi cóđộ... dương) câu hỏi dễnhất, điểm thang đo lực (trục hoành), xác suất trả lời câu hỏi( 1 - màu xanh dương) cao câu hỏi thứ (2 - màu xanh lá) câu hỏi thứ (3 - màu
đỏ)
Lý thuyết ứng đáp câu hỏi. .. trắc nghiệm - điểm thực
Lý thuyết ứng đáp câu hỏi đánh giá dựa vào câu hỏi kiểm tra Khi tính điểmbài kiểm tra, xem xét phản ứng thí sinh câu hỏi Nếu trả lời xácđược1điểm , trả lời