Đánh giá chất lượng câu hỏi và đề trắc nghiệm bằng lý thuyết ứng đáp câu hỏi

• Đánh giá năng lực của thí sinh: chính là xem xét lượng kiến thức mà thí sinh đạt đượcqua việc trả lời các câu hỏi trắc nghiệm đã được định chuẩn dựa vào một lý thuyết trắcnghiệm cụ thể

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÀNH PHỐ HỒ CHÍ MINH

LÝ TRẦN THÁI HỌC

ĐÁNH GIÁ CHẤT LƯỢNG

CÂU HỎI VÀ ĐỀ TRẮC NGHIỆM

BẰNG LÝ THUYẾT ỨNG ĐÁP CÂU HỎI

LUẬN VĂN THẠC SĨ

Chuyên ngành: Công nghệ thông tin

Mã số ngành: 60480201

Thành phố Hồ Chí Minh, tháng 03 năm 2018

Trang 2

LÝ TRẦN THÁI HỌC

ĐÁNH GIÁ CHẤT LƯỢNG CÂU HỎI VÀ ĐỀ TRẮC NGHIỆM

BẰNG LÝ THUYẾT ỨNG ĐÁP CÂU HỎI

Trang 3

Cán bộ hướng dẫn khoa học: TS Nguyễn An Khương

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP HCM ngày 17 tháng 6năm 2018

Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:

Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn Thạc sĩ sau khi Luận văn đã được

sửa chữa (nếu có):

Chủ tịch Hội đồng đánh giá luận văn

Trang 4

VIỆN ĐÀO TẠO SAU ĐẠI HỌC Độc lập - Tự do - Hạnh phúc

TP HCM, ngày 26 tháng 9 năm 2016

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên: Lý Trần Thái Học Giới tính: Nam

Ngày, tháng, năm sinh: 15/3/1987 Nơi sinh: Long An

Chuyên ngành: Công nghệ thông tin MSHV: 1541860008

I-Tên đề tài:

Đánh giá chất lượng câu hỏi và đề trắc nghiệm bằng lý thuyết ứng đáp câu hỏi

II-Nhiệm vụ và nội dung: Nội dung nghiên cứu là các tư liệu, tài liệu có liên quan đến trắc nghiệm khách quan nói chung; lý thuyết trắc nghiệm cổ điển và lý thuyết ứng đáp câu hỏi; ứng dụng ngôn ngữ R trong thống kê, phân tích và đánh giá câu hỏi và đề trắc nghiệm

III-Ngày giao nhiệm vụ: 26/09/2016

IV-Ngày hoàn thành nhiệm vụ: 17/03/2018

V-Cán bộ hướng dẫn: TS Nguyễn An Khương

Trang 5

LỜI CAM ĐOAN

Tôi xin cam đoan rằng nội dung của luận văn này chính là công trình nghiên cứu của chínhbản thân Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bốtrong bất kỳ công trình nghiên cứu nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn

và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc

Học viên thực hiện luận văn

(Ký và ghi rõ họ tên)

Lý Trần Thái Học

Trang 6

Tôi trân trọng ghi nhận và cảm ơn về những kiến thức nền tảng mà Thầy/Cô tham giagiảng dạy chương trình đào tạo sau đại học ngành Công nghệ thông tin, Đại học Công nghệThành phố Hồ Chí Minh đã cung cấp trong quá trình giảng dạy Tôi xin cảm ơn Viện đào tạoSau Đại học về những sự hỗ trợ trong suốt quá trình học tập Bên cạnh đó tôi cũng xin gửilời cảm ơn đến Thầy - PGS TS Võ Đình Bảy cùng đồng sự đã hỗ trợ tôi rất nhiều trong quátrình học tập tại trường cũng như trong quá trình thực hiện luận văn này.

Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, người thân, bạn bè và đồng nghiệp đãđộng viên, chia sẻ, hỗ trợ và cảm thông trong suốt quá trình học tập cũng như thực hiện luậnvăn

Lý Trần Thái Học

Trang 7

Mục lục

1 TỔNG QUAN VỀ

1.1 Tổng quan về đo lường, kiểm tra đánh giá trong giáo dục 4

1.1.1 Khái niệm về đo lường, đánh giá trong giáo dục 4

1.1.2 Lý thuyết đo lường trong giáo dục 4

1.2 Tổng quan về trắc nghiệm khách quan 5

1.2.1 Lý thuyết trắc nghiệm cổ điển 5

1.2.2 Lý thuyết trắc nghiệm hiện đại 9

2 CƠ CỞ LÝ THUYẾT 11 2.1 Lý thuyết ứng đáp câu hỏi và mô hình Rasch 11

2.2 Đường cong đặc trưng của câu hỏi 13

2.2.1 Mô hình đường cong chuẩn 14

2.2.2 Mô hình đường cong logistic 14

2.2.3 Mô hình một tham số 23

2.2.4 Mô hình hai tham số 24

2.2.5 Mô hình ba tham số 25

2.3 Đường cong đặc trưng của đề trắc nghiệm - điểm thực 25

2.4 Ước lượng các tham số của câu hỏi 28

2.5 Ước lượng năng lực của thí sinh 33

2.6 Hàm thông tin 36

2.6.1 Hàm thông tin câu hỏi 36

2.6.2 Hàm thông tin của bài trắc nghiệm 40

2.7 Ước lượng đồng thời các tham số của câu hỏi và năng lực thí sinh và quá trình chuẩn hóa đề trắc nghiệm 45

Trang 8

3 THỰC NGHIỆM, PHÂN TÍCH VÀ ĐÁNH GIÁ 46

3.1 Thực nghiệm và phân tích 46

3.1.1 Mô tả dữ liệu 46

3.1.2 Thực nghiệm và phân tích 50

3.2 Đánh giá chất lượng câu hỏi và đề trắc nghiệm 61

3.3 Đề xuất áp dụng mô hình phù hợp với dữ liệu 63

4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 68 4.1 Kết luận 68

4.2 Hướng phát triển 69

Trang 10

Danh sách bảng

1.2.1 Bảng độ khó của câu hỏi 6

2.2.1 Dữ liệu đường cong đặc trưng câu hỏi trong mô hình đường cong chuẩn vớibi = 0.3, ai = 1.5 15

2.2.2 Dữ liệu đường cong đặc trưng của câu hỏi theo mô hình logistic vớibi = 0.3, a∗i = 1.5 16

2.2.3 Các mức độ phân biệt của câu hỏi 21

2.2.4 Các mức độ khó của câu hỏi 21

2.3.5 Xác suất trả lời đúng các câu hỏi với mức năng lựcθ = 0 27

2.5.6 Các tham số của câu hỏi trong một đề gồm 3 câu trắc nghiệm 34

2.5.7 Dữ liệu minh họa quá trình ước lượng năng lực thí sinh trong mô hình IRT 2 tham số 35

2.6.8 I(θ)ứng với 7 mức năng lực dưới mô hình hai tham số cho câu hỏi có độ phân biệta = 0.8và độ khób = 1.0 37

2.6.9 I(θ) ứng với 7 mức năng lực dưới mô hình một tham số cho câu hỏi có b = 1.0 38

2.6.10 I(θ)ứng với 7 mức năng lực dưới mô hình ba tham số cho câu hỏi có độ phân biệta = 0.8, độ khób = 1.0và độ phân biệtc = 0.2 39

2.6.11 Thông tin đề trắc nghiệm trong mô hình hai tham số 42

2.6.12 Thông tin đề trắc nghiệm trong mô hình một tham số 43

2.6.13 Thông tin đề trắc nghiệm trong mô hình ba tham số 44

3.1.1 Minh họa dữ liệu trả lời 20 câu hỏi của 100 thí sinh 47

3.1.2 Kết quả phân tích mức độ khó của 20 câu hỏi trong đề thi dưới mô hình Rasch 52

3.1.3 Kết quả phân tích mức độ khó của 20 câu hỏi trong đề thi dưới mô hình hai tham số 57

Trang 11

3.1.4 Kết quả phân tích độ phân biệt của các câu hỏi trong đề thi dưới mô hình

hai tham số 58

3.1.5 Kết quả phân tích mức độ khó của 20 câu hỏi trong đề thi dưới mô hình ba tham số 61

3.1.6 Kết quả phân tích độ phân biệt của các câu hỏi trong đề thi dưới mô hình ba tham số 61

3.2.7 Đánh giá chất lượng câu hỏi dựa vào độ khó và độ phân biệt 64

3.2.8 Đánh giá chất lượng 20 câu hỏi dựa vào mô hình hai tham số 65

3.2.9 Đánh giá chất lượng 20 câu hỏi dựa vào mô hình ba tham số 66

Trang 12

Danh sách hình vẽ

2.2.1 Biểu đồ đường cong đặc trưng của câu hỏi trong mô hình đường cong

chuẩn vớibi = 0.3, ai = 1.5 15

2.2.2 Biểu đồ đường cong đặc trưng của câu hỏi trong mô hình logistic với bi = 0.3,a∗i = 1.5 16

2.2.3 Biểu đồ đường cong đặc trưng câu hỏi dựa vào mô hình đường cong chuẩn và đường cong logistic vớib = 0.3, a = 1.5 17

2.2.4 Biểu đồ đường cong đặc trưng của câu hỏi trong việc ứng đáp đúng và sai của một câu hỏi 18

2.2.5 Biểu đồ đường cong đặc trưng câu hỏi 19

2.2.6 Biểu đồ đường cong đặc trưng câu hỏi trong mô hình ba tham số với ai = 1.5,bi = 0,ci = 0.25 20

2.2.7 Biểu đồ đường cong đặc trưng các câu hỏi có cùng tham số độ phân biệt (a) và độ đoán mò (c) nhưng khác tham số về độ khó (b) 22

2.2.8 Các đường cong đặc trưng câu hỏi trong mô hình một tham số 23

2.2.9 Các đường cong đặc trưng câu hỏi hai tham số với cùng giá trị độ khó b = 0nhưng độ phân biệtalà khác nhau 24

2.2.10 Ba đường cong đặc trưng câu hỏi trong mô hình ba tham số với giá trị a = 2, b = 0vàccó giá trị lần lượt là0.1, 0.2, 0.3 26

2.3.11 20 đường cong đặc trưng của câu hỏi theo mô hình hai tham số 27

2.3.12 Đường cong đề đặc trưng của trắc nghiệm 28

2.6.13 Đường cong thông tin câu hỏi trong mô hình IRT hai tham số 38

2.6.14 Đường cong thông tin câu hỏi trong mô hình một tham số 39

2.6.15 Đường cong thông tin của câu hỏi với độ phân biệta = 0.8, độ khób = 1.0 và độ phân biệtc = 0.2trong mô hình ba tham số 40

2.6.16 3 đường thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm dưới mô hình IRT 2 tham số 42

Trang 13

2.6.17 3 đường thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm

dưới mô hình một tham số 43

2.6.18 3 đường thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm dưới mô hình ba tham số 44

3.1.1 Đường cong đặc trưng của 20 câu hỏi trong mô hình Rasch 52

3.1.2 Đường cong đặc trưng câu hỏi 20 54

3.1.3 Đường cong đặc trưng đề trắc nghiệm trong mô hình Rasch 54

3.1.4 Đường cong đặc trưng câu hỏi, đường cong thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm cho dữ liệu NTTU_DATA dưới mô hình Rasch 55

3.1.5 Đường cong đặc trưng của 20 câu hỏi theo mô hình hai tham số 56

3.1.6 Đường cong đặc trưng câu hỏi 9 trong mô hình hai tham số 57

3.1.7 Đường cong đặc trưng đề trắc nghiệm trong mô hình hai tham số 58

3.1.8 Đường cong đặc trưng câu hỏi, đường cong thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm cho dữ liệu NTTU_DATA dưới mô hình hai tham số 59

3.1.9 Đường cong đặc trưng của 20 câu hỏi theo mô hình ba tham số 60

3.1.10 Đường cong đặc trưng câu hỏi 5 trong mô hình ba tham số 62

3.1.11 Đường cong đặc trưng câu hỏi, đường cong thông tin câu hỏi và đường cong hàm thông tin đề trắc nghiệm cho dữ liệu NTTU_DATA dưới mô hình ba tham số 62

Trang 14

LỜI MỞ ĐẦU

Kiểm tra - đánh giá là một khâu rất quan trọng trong quá trình dạy học, có ý nghĩa quyếtđịnh trong việc nâng cao chất lượng và hiệu quả của giáo dục Kiểm tra là hình thức và làphương tiện của quá trình đánh giá Không có một hình thức kiểm tra - đánh giá nào là toànvẹn, hoàn hảo, mỗi hình thức đều có ưu điểm và nhược điểm riêng Nổi bật nhất là hình thứctrắc nghiệm, mặc dù còn hạn chế nhưng hình thức này đã chứng tỏ được những ưu điểm sovới tự luận trong việc kiểm tra - đánh giá với số lượng thí sinh lớn

Trắc nghiệm (TN) là một phương pháp của khoa học về đo lường trong nhiều lĩnh vựckhác nhau như tâm lý học, thần kinh học và giáo dục học Cũng như mọi phép đo khác trong

khoa học và đời sống, ở phép đo bằng trắc nghiệm người ta cũng có thước đo và một đối

tượng cần đo Thước đo là đề trắc nghiệm (ĐTN) và đối tượng cần đo là năng lực của thí

sinh (TS) Yêu cầu cần thỏa mãn để phép đo được chính xác là kết quả chuẩn hóa (xem Mục2.7) ĐTN không phụ thuộc vào mẫu TS được dùng để trắc nghiệm thử, và sau đó các điểm

số đo được của TS không phụ thuộc vào ĐTN cụ thể, tức là các điểm số đo được sẽ như nhau

dù đo bằng ĐTN nào trong các ĐTN đã được định chuẩn Cụ thể, một TS có năng lực tiếngAnh mức 7 điểm thì đưa bất kỳ ĐTN nào (đã được chuẩn hóa) cho TS đó làm thì cũng sẽ thuđược xấp xỉ gần 7 điểm

Hiện nay, trắc nghiệm khách quan (TNKQ) được đưa vào trong các kỳ thi tốt nghiệptrung học phổ thông quốc gia [6] và tuyển sinh đại học cũng như kiểm tra đánh giá kết thúchọc phần tại các cơ sở giáo dục, nên sự quan tâm của các cơ sở giáo dục và đội ngũ nhà giáođến chất lượng của câu hỏi trắc nghiệm (CHTN), đề trắc nghiệm (ĐTN) ngày càng nhiềuhơn Do đó, việc thống kê, phân tích, ước lượng và đánh giá CHTN, ĐTN và ước lượng nănglực của thí sinh là hết sức cần thiết

Trong trắc nghiệm, hai vấn đề chúng ta phải quan tâm đến đó là: Ngân hàng câu hỏi trắcnghiệm đạt chất lượng hay không? Việc đánh giá năng lực thí sinh có chính xác và kháchquan hay không?

• Ngân hàng câu hỏi trắc nghiệm: để ngân hàng câu hỏi đạt chất lượng thì yêu cầu mỗicâu hỏi trong ngân hàng câu hỏi phải đạt chất lượng Chất lượng của câu hỏi thườngđược xem xét ở các tham số đặc trưng của câu hỏi như độ khó(b), độ phân biệt(a),mức độ đoán mò(c)

Trang 15

• Đánh giá năng lực của thí sinh: chính là xem xét lượng kiến thức mà thí sinh đạt đượcqua việc trả lời các câu hỏi trắc nghiệm đã được định chuẩn dựa vào một lý thuyết trắcnghiệm cụ thể.

Việc xác định các tham số đặc trưng của câu hỏi cũng như đánh giá năng lực thí sinh cóquan hệ mật thiết với nhau và dựa trên cơ sở của lý thuyết trắc nghiệm Hiện nay có hai lýthuyết trắc nghiệm cơ bản là: lý thuyết trắc nghiệm cổ điển (Classical Test Theory - CTT)

và lý thuyết ứng đáp câu hỏi (Item Response Theory - IRT) Lý thuyết ứng đáp câu hỏi (haycòn gọi là lý thuyết trắc nghiệm hiện đại) ra đời sau và đã khắc phục được một số nhượcđiểm cơ bản của lý thuyết trắc nghiệm cổ điển đó là: Việc xác định các tham số của câu hỏikhông phụ thuộc vào nhóm thí sinh trả lời câu hỏi trắc nghiệm; Việc đánh giá năng lực thísinh không phụ thuộc vào đề trắc nghiệm mà thí sinh làm

Điểm nổi bật của IRT chính là việc ước lượng đồng thời các tham số của câu hỏi và năng

lực của thí sinh với một độ chính xác nhất định, điều mà CTT không thể thực hiện được Việc

áp dụng IRT trong phân tích, đánh giá CHTN, ĐTN và đánh giá năng lực của thí sinh nhằm:

• Xác định các tham số đặc trưng của câu hỏi để từ đó loại bỏ ra các câu hỏi kém chấtlượng (nếu có)

• Đánh giá năng lực của thí sinh một cách khách quan, chính xác với độ tin cậy cao

Trên thế giới, việc nghiên cứu và áp dụng lý thuyết trắc nghiệm hiện đại vào đo lường vàđánh giá được phát triển từ những năm 1960 Những nhà nghiên cứu có nhiều đóng góp quantrọng cho sự phát triển của lý thuyết này có thể kể đến như là Rasch , Birnbaum, Baker (xem[15], [16], [17])

Ở Việt Nam, việc áp dụng lý thuyết trắc nghiệm hiện đại vào đánh giá kết quả học tập củangười học chưa thực sự được quan tâm đúng mức Theo nhận định của chúng tôi thì hầu hếtcác cơ sở giáo dục hiện nay đều đánh giá qua việc thí sinh trả lời đúng bao nhiêu câu hỏi trêntổng số câu hỏi của bài thi (mà theo lý thuyết ứng đáp câu hỏi đây chỉ là điểm số thô khôngphản ánh chính xác năng lực của thí sinh) Kỳ thi tốt nghiệp THPT quốc gia năm 2017 BộGiáo Dục và Đào Tạo đã sử dụng phương pháp trắc nghiệm khách quan vào đánh giá nănglực thí sinh Điều này cho thấy phương pháp trắc nghiệm khách quan sẽ ngày càng được sửdụng rộng rãi Việc tìm hiểu và ứng dụng lý thuyết ứng đáp câu hỏi vào phân tích đánh giácâu hỏi và đề trắc nghiệm là hết sức cần thiết trong giai đoạn hiện nay và tác giả đã chọn nó

là vấn đề chính cần giải quyết trong luận văn này

Trang 16

Với mong muốn góp phần nâng cao chất lượng giáo dục thông qua việc chuẩn hóa câuhỏi và đề trắc nghiệm bằng việc áp dụng một lý thuyết trắc nghiệm cụ thể vào việc đánh giá,

tôi chọn đề tài “Đánh giá chất lượng câu hỏi và đề trắc nghiệm bằng lý thuyết ứng đáp câu hỏi” cho hướng nghiên cứu của mình.

Luận văn tập trung việc trình bày lý thuyết ứng đáp câu hỏi và ứng dụng lý thuyết này vàoviệc phân tích, ước lượng, đánh giá CHTN và ĐTN bằng phương pháp thống kê toán học Sửdụng ngôn ngữ R trong phân tích, ước lượng đánh giá CHTN và ĐTN từ bộ dữ liệu thật củaTrung Tâm Tin Học - Trường Đại học Nguyễn Tất Thành thông qua việc xử lý kết quả trả lờicác câu hỏi trắc nghiệm của bài thi lý thuyết kiểm tra năng lực tin học Trình độ A - Quốc gia,khóa thi ngày 18 tháng 10 năm 2015 Hướng phát triển về sau, tác giả sẽ áp dụng lý thuyếtứng đáp câu hỏi vào một hệ thống cụ thể để đánh giá câu hỏi trắc nghiệm, đề trắc nghiệm.Luận văn được chia thành 4 chương:

CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

Tổng quan về đo lường, kiểm tra đánh giá trong giáo dục

Tổng quan về trắc nghiệm khách quan

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

Lý thuyết ứng đáp câu hỏi và mô hình Rasch

Đường cong đặc trưng của câu hỏi

Đường cong đặc trưng của đề trắc nghiệm - điểm thực

Ước lượng các tham số của câu hỏi

Ước lượng năng lực của thí sinh

Hàm thông tin

Ước lượng đồng thời các tham số của câu hỏi và năng lực của thí sinh

CHƯƠNG 3: THỰC NGHIỆM, PHÂN TÍCH VÀ ĐÁNH GIÁ

Thực nghiệm và phân tích

Đánh giá chất lượng câu hỏi và đề trắc nghiệm

Đề xuất áp dụng mô hình phù hợp với dữ liệu

CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Kết luận

Hướng phát triển

Trang 17

Chương 1

TỔNG QUAN VỀ

LĨNH VỰC NGHIÊN CỨU

1.1 Tổng quan về đo lường, kiểm tra đánh giá trong giáo dục

1.1.1 Khái niệm về đo lường, đánh giá trong giáo dục

Đo lường(measurement) là phép so sánh một đại lượng nào đó với một vật chuẩn đã biết, vàđưa ra các con số để đánh giá Để thực hiện một phép đo trong bất kỳ lĩnh vực khoa học kỹ

thuật nào cũng cần một thước đo tác động lên đối tượng cần đo, trên thước đo có xác định

đơn vị đo Bất kỳ một phép đo nào cũng được thực hiện với một độ chính xác nào đó, nghĩa

là phép đo nào cũng có sai số (xem [5]).

Đánh giá (evaluation) là một khâu rất quan trọng trong quá trình giáo dục để xác định,một là mục tiêu giáo dục đặt ra có phù hợp hay không và có đạt được hay không, hai là việcgiảng dạy có thành công hay không, người học có tiến bộ hay không Để đánh giá được đúng

đắn người ta phải triển khai đo lường.

1.1.2 Lý thuyết đo lường trong giáo dục

Việc đo lường và đánh giá trong giáo dục đã phát triển từ xa xưa Tuy nhiên có thể nói, mộtngành khoa học thật sự về đo lường tâm lý và giáo dục chỉ mới bắt đầu hình thành từ cuốithế kỷ 19 và phát triển mạnh mẽ trong thế kỷ 20 với những dấu mốc quan trọng như “trắcnghiệm trí tuệ Simon-Binet” được xây dựng bởi hai nhà tâm lý học người Pháp Binet vàSimon vào khoảng năm 1905 Nó liên tục được cải tiến và ngày nay được biết đến với têngọi là Trắc nghiệm chỉ số thông minh (Intelligence Quotient Test) Bộ trắc nghiệm thành quả

Trang 18

học tập tổng hợp đầu tiên Standford Achievement Test - SAT ra đời vào năm 1923 ở Mỹ Vớiviệc chấm trắc nghiệm bằng máy của IBM năm 1935, việc thành lập Hội đồng quốc gia về

đo lường trong giáo dục Mỹ (National Council on Measurement in Education - NCME) vàothập niên 1950 cũng như sự ra đời của hai tổ chức làm dịch vụ trắc nghiệm lớn nhất Hoa Kỳ(Educational Testing Service - ETS năm 1947, American College Testing - ACT năm 1959)

đánh dấu một ngành công nghiệp về trắc nghiệm đã hình thành (xem [5]).

Tại Việt Nam, trước năm 1975, ở miền Bắc, khoa học về trắc nghiệm cũng như ứng dụngcủa nó vào thực tiễn chưa được chú trọng; ở miền Nam trắc nghiệm được áp dụng sớm hơnnhờ một số học giả du học từ các nước Phương Tây trong đó có Giáo sư Dương Thiệu Tống(xem [5]), và điển hình là kỳ thi tú tài IBM năm 1974 đã áp dụng phương pháp trắc nghiệmkhách quan (TNKQ)

1.2 Tổng quan về trắc nghiệm khách quan

Lý thuyết trắc nghiệmlà cơ sở khoa học để đánh giá chất lượng của một đề trắc nghiệm vàxác định năng lực của thí sinh Cho đến thời điểm hiện nay có hai lý thuyết trắc nghiệm đượcbiết đến và được sử dụng trong nhiều ngành khoa học trong đó có khoa học về đo lường giáodục

1.2.1 Lý thuyết trắc nghiệm cổ điển

Lý thuyết trắc nghiệm cổ điển(Classical Test Theory - CTT) ra đời từ cuối Thế kỷ 19 và hoànthiện vào khoảng thập niên 1970, đã có nhiều đóng góp quan trọng cho hoạt động đánh giátrong giáo dục Lý thuyết này quan niệm rằng năng lực của mỗi TS được xác định bởi điểmthực (True Score -T) thu được trong trường hợp phép đo không có sai số (Error -E) Điểmthực được xác định như là điểm trả lời đúng kỳ vọng khi triển khai đề kiểm tra độc lập vô sốlần Tuy nhiên, điểm thựcT của TS không bao giờ có thể thu được trực tiếp ĐiểmX được

gọi là “điểm quan sát” (observed score) của TS dựa vào công thức

X = T + E,

trong đó:

• X(observed score): điểm quan sát là điểm mà thí sinh nhận được sau khi thực hiện bàithi, điểm này thường được tính là tổng điểm của các câu hỏi trong bài thi;

Trang 19

• T (true score): điểm thực là một số đo năng lực thực sự của một thí sinh, điểm nàykhông thể đo được trực tiếp;

• E(error): sai số

Trong CTT, việc đánh giá năng lực của thí sinh chủ yếu dựa vào điểm bài thi trắc nghiệm.Trong đó, một đề thi trắc nghiệm là tập hợp các câu hỏi trắc nghiệm Xét một đề thi trắcnghiệm gồmN câu hỏi được thực hiện bởiM thí sinh Khi đó:

Định nghĩa 1.2.1 (Độ khó, xem [5]) Độ khó của một câu hỏi chính là tỉ số giữa số thí sinh

trả lời đúng câu hỏi so với tổng số thí sinh tham gia trả lời câu hỏi đó và được xác định bởicông thức

Di = ri

M,trong đó:

• Di: là độ khó câu hỏi thứi;

• ri: là số thí sinh trả lời đúng câu hỏi thứi;

• M: là tổng số thí sinh tham gia trả lời câu hỏi thứi

Bảng 1.2.1 Bảng độ khó của câu hỏi

Theo đó, giá trị độ khó củaDi sẽ nằm trong khoảng từ0đến1 Giá trị củaDi càng caothì câu hỏi càng dễ và ngược lại Chúng tôi phân chia mức độ khó của các câu hỏi dựa vào tỉ

lệ trả lời đúng câu hỏi trên tổng số thí sinh tham gia trả lời câu hỏi được trình bày như Bảng1.2.1

Định nghĩa 1.2.2 (Độ phân biệt, xem [5]) Độ phân biệt của một câu hỏi được tính bằng

công thức

Disci = Hi− Li

S ,

Trang 20

trong đó:

• Disci: là độ khó câu hỏi thứi;

• Hi: là số thí sinh thuộc nhóm năng lực cao trả lời đúng câu hỏi thứi;

• Li: là số thí sinh thuộc nhóm năng lực thấp trả lời đúng câu hỏi thứi;

• S: là tổng số thí sinh tham gia của mỗi nhóm

Trong CTT, độ phân biệt được xem là một đại lượng được sử dụng để đo mức độ phânbiệt giữa các thí sinh trong nhóm Khi ra một câu hỏi trắc nghiệm hoặc bài thi trắc nghiệm,chúng ta thường muốn phân biệt trong nhóm thí sinh đó những người có các mức năng lựckhác nhau như: giỏi, khá, trung bình, yếu, Khả năng của câu trắc nghiệm thực hiện được

sự phân biệt ấy được gọi là độ phân biệt.

Một câu hỏi có độ phân biệt cao thì tỉ lệ trả lời đúng câu hỏi đó giữa nhóm thí sinh giỏi

và nhóm thí sinh kém phải có sự khác nhau cao

Định nghĩa 1.2.3 (Độ tin cậy, xem [5]) Độ tin cậy của bài trắc nghiệm chính là đại lượng

biểu thị cho mức độ chính xác của phép đo nhờ bài trắc nghiệm và được tính dựa theo phươngpháp Kuder-Richarson1như sau

• N: số câu hỏi của đề trắc nghiệm;

• p: tỉ lệ trả lời đúng cho một câu hỏi;

• q: tỉ lệ trả lời không đúng cho câu hỏi;

• σ2: phương sai của tổng điểm mọi thí sinh đối với cả đề trắc nghiệm

Độ tin cậy càng cao, điểm số thu được từ bài trắc nghiệm càng chính xác

Định nghĩa 1.2.4 (Độ giá trị, xem [5]) Độ giá trị của bài trắc nghiệm là đại lượng biểu thị

mức độ đạt được mục tiêu đề ra cho phép đo nhờ bài trắc nghiệm

1 Phương pháp Kuder-Richarson dựa trên ý tưởng xem mỗi câu hỏi trắc nghiệm trong một đề trắc nghiệm là một đề trắc nghiệm tương đương, tức là chúng có cùng điểm trung bình và cùng phương sai.

Trang 21

Phát triển từ đầu Thế kỷ 20 cho đến thập niên 1970, lý thuyết trắc nghiểm cổ điển đã đạtđược nhiều thành tựu, tạo cơ sở khoa học để thiết kế các phép đo tương đối chính xác Tuynhiên lý thuyết này còn các hạn chế chính sau [3, Ch 3, tr 70-72]:

• Hạn chế cơ bản nhất của lý thuyết trắc nghiệm cổ điển chính là không thể tách biệtđược các đặc trưng của TS độc lập với các đặc trưng của ĐTN, đặc trưng này chỉ cóthể giải thích trong mối quan hệ với đặc trưng kia

Một đặc trưng quan trọng mà ta quan tâm là năng lực của TS Trong lý thuyết trắcnghiệm cổ điển, năng lực được diễn tả bởi điểm của TS mà một ĐTN có thể đo được.Khi ĐTN khó thì TS sẽ thể hiện năng lực thấp, khi ĐTN dễ thì TS sẽ thể hiện nănglực cao Nhưng ĐTN như thế nào được gọi là khó hay dễ? Độ khó của một CH được

định nghĩa là tỉ số giữa số TS trả lời đúng CH trên tổng số TS tham gia trả lời CH, tức

là độ khó CH tùy thuộc vào năng lực của các TS được đo Độ phân biệt của CH cũngnhư độ tin cậy và độ giá trị của ĐTN cũng được xác định phụ thuộc vào một nhóm TS

cụ thể được đo Các đặc trưng của CH và ĐTN thay đổi khi trình trạng TS thay đổi, và

các đặc trưng của TS thay đổi khi tình trạng ĐTN thay đổi.Điều này rất khó so sánhcác TS khi họ làm các ĐTN khác nhau, cũng như rất khó so sánh các ĐTN khi đượclàm bởi các nhóm TS khác nhau

hàng câu hỏi Việc mở rộng một ngân hàng CH sẽ gặp khó khăn nếu các đặc trưngcủa CH bổ sung thu được nhờ một nhóm TS khác với nhóm TS trước đó được dựa vào

để xác định các đặc trưng của ngân hàng CH cũ Năng lực xác định được của TS phụ

thuộc vào ĐTN: rất khó so sánh điểm biểu diễn năng lực của các TS làm các ĐTN khácnhau thậm chí khi cho các nhóm TS làm các ĐTN tương đương vì khi các nhóm TS cónăng lực khác nhau thì các điểm thu được của TS từ ĐTN đó có sai số khác nhau

• Việc xác định độ tin cậy của các đề trắc nghiệm phải dựa vào các đề trắc nghiệm tươngđương Đây là mặt hạn chế khác của lý thuyết trắc nghiệm cổ điển Theo lý thuyết này,

độ tin cậy là “tương quan giữa các điểm của hai ĐTN tương đương” Nhưng trong thực

tế không thể có các ĐTN thỏa mãn tiêu chí tương đương Liên quan với độ tin cậy làsai số tiêu chuẩn của phép đo năng lực TS Lý thuyết trắc nghiệm cổ điển quan niệmrằng các sai số tiêu chuẩn của phép đo năng lực TS là như nhau trong khi thực tế độchính xác của phép đo năng lực là khác nhau đối với các TS có năng lực khác nhau

Trang 22

• Một hạn chế nữa của lý thuyết trắc nghiệm cổ điển là lý thuyết này xem xét việc ứngđáp dựa vào cấp độ ĐTN chứ không phải cấp độ CH trắc nghiệm Định nghĩa điểmthực trong trắc nghiệm cổ điển không lưu ý tới việc TS ứng đáp một CH như thế nào.

Cụ thể hơn, lý thuyết trắc nghiệm cổ điển không cho phép dự báo về một TS hay mộtnhóm TS nào ứng đáp một CH ra sao Câu hỏi “xác suất để một TS ứng đáp đúng một

CH xác định là bao nhiêu?” là rất quan trọng trong nhiều ứng dụng trắc nghiệm nhưngkhông trả lời được trong lý thuyết trắc nghiệm cổ điển

Từ những hạn chế nêu trên, có thể thấy lý thuyết trắc nghiệm cổ điển không cho phép giảiquyết tốt một số vấn đề trong thực tiễn trắc nghiệm Nhiều nhà tâm trắc học cố gắng tìm một

lý thuyết mới để thay thế lý thuyết trắc nghiệm cổ điển với kỳ vọng đạt được các yêu cầu sau:

• Các đặc trưng câu hỏi không phụ thuộc vào nhóm thí sinh;

• Đánh giá năng lực thí sinh không phụ thuộc vào đề trắc nghiệm mà thí sinh làm;

• Mô hình xem xét ở cấp độ câu hỏi chứ không phải cấp độ đề trắc nghiệm;

• Mô hình không đòi hỏi các đề trắc nghiệm hoàn toàn tương đương để đánh giá độ tincậy;

• Mô hình cung cấp các sai số khác nhau của phép đo ở từng mức năng lực của thí sinh

1.2.2 Lý thuyết trắc nghiệm hiện đại

Lý thuyết trắc nghiệm hiện đại hay còn gọi là Lý thuyết ứng đáp câu hỏi (Item Response

Theory - IRT)là một lý thuyết của khoa học về đo lường trong giáo dục đã ra đời từ nửa cuốiThế kỷ 20 và phát triển mạnh mẽ cho đến nay Để đánh giá đối tượng nào đó, lý thuyết trắcnghiệm cổ điển tiếp cận ở cấp độ một đề kiểm tra, còn lý thuyết ứng đáp câu hỏi tiếp cận ởcấp độ từng câu hỏi

IRT được xây dựng dựa trên khoa học về xác suất và thống kê để xử lý dữ liệu dựa trênnghiên cứu mọi cặp tương tác nguyên tố “Thí sinh - Câu hỏi” (TS, CH) Mỗi TS sẽ ứng đápnhư thế nào trước một CH sẽ phụ thuộc vào năng lực (được ký hiệu làθ) của TS và các tham

số đặc trưng (a-độ phân biệt,b-độ khó,c-độ đoán mò) của CH Mối quan hệ giữa xác suấttrả lời đúng CH và năng lực của TS được mô tả bởi hàm đặc trưng câu hỏi có dạng

P (θ) = c + 1 − c

Trang 23

và có đồ thị của hàm đặc trưng (hay còn gọi là đường cong đặc trưng câu hỏi (Item teristic Curves - ICC)).

Charac-Hiện nay có ba mô hình ứng đáp câu hỏi thông dụng: mô hình một tham số chỉ xét đếnmột tham số đặc trưng duy nhất của câu hỏi đó chính là độ khó (b), mô hình hai tham số cóxét thêm đến đặc trưng thứ hai của câu hỏi là độ phân biệt (a), và mô hình ba tham số xétthêm đến tham số đặc trưng thứ ba của câu hỏi là mức độ đoán mò (c) của TS khi trả lời câuhỏi So với lý thuyết trắc nghiệm cổ điển, lý thuyết ứng đáp câu hỏi có những ưu điểm nổibật:

• Trong lý thuyết cổ điển: độ khó, độ phân biệt của các CH tính được sẽ phụ thuộc vàomẫu TS được chọn thử nghiệm, và năng lực xác định được của TS phụ thuộc vào ĐTN

mà TS làm

• Với lý thuyết ứng đáp câu hỏi, thành tựu kỳ diệu nhất mà các mô hình tính toán manglại là các tham số đặc trưng của CH (độ khó (b), độ phân biệt (a), mức độ đoán mò (c))không phụ thuộc vào mẫu thử để định cỡ CH và năng lực (θ) đo được của TS khôngphụ thuộc vào ĐTN cụ thể được lấy từ ngân hàng câu hỏi (NHCH) đã được định chuẩn

Như vậy theo IRT, mỗi CH có các thuộc tính đặc trưng của nó, mỗi TS ở một trình độ nào

đó có một năng lực xác định, các thuộc tính đặc trưng này không phụ thuộc vào phép đo,hay nói cách khác chúng là bất biến (invariance) Việc ứng dụng IRT sẽ góp phần gia tăng

độ chính xác của phép đo lường trong giáo dục Từ đó, chúng ta có thể đề xuất quy trình xâydựng ngân hàng câu hỏi (NHCH), phân tích kết quả trả lời các câu hỏi TNKQ để xác địnhchất lượng câu hỏi, chủ động trong việc thiết kế, xây dựng đề kiểm tra trắc nghiệm đáp ứngtốt các mục đích đã đề ra

Trang 24

Chương 2

CƠ CỞ LÝ THUYẾT

2.1 Lý thuyết ứng đáp câu hỏi và mô hình Rasch

Trong những thập niên cuối của Thế kỷ 20, cùng với sự tiến bộ vượt bậc của tin học và sựtăng nhanh về tốc độ tính toán của máy tính Phương hướng mô hình hóa quá trình đo lườngbằng trắc nghiệm cũng đạt được những thành tựu to lớn Một trong những thành tựu đó chính

là lý thuyết ứng đáp câu hỏi (Item Response Theory - IRT) Để hiểu rõ hơn về lý thuyết này,

chúng ta xét đến ví dụ cụ thể sau:

Ví dụ 1 Giả sử chúng ta tạo ra một đề trắc nghiệm 20 câu cho một kỳ thi có 100 TS tham

gia để xác định năng lực Tin học cơ bản của TS Mỗi TS có một năng lực (θ) nào đó và mỗi

CHTN có một độ khó (b) nào đó Phải xem xét TS thứj có năng lực θj sẽ ứng đáp như thếnào trước CH thứicó độ khóbi

Trong ví dụ nêu trên, ta dễ dàng nhận thấy có 2000 mối quan hệ tương tác giữa thí sinh

và câu hỏi Nhà toán học người Đan Mạch, Rasch đã đưa ra một mô hình ứng đáp để mô tảmối quan hệ tương tác này Đối với TS, Rasch chọn tham số năng lực (θ) Đối với CH, Raschchỉ chọn một tham số duy nhất đó là độ khó (b) Rasch đã phát biểu: “Một TS có khả nănghơn một TS khác thì phải có xác suất trả lời đúng câu trắc nghiệm bất kỳ cao hơn TS còn lại,cũng tương tự như vậy, một CH khó hơn một CH khác thì xác suất để một TS bất kỳ trả lờiđúng CH sau sẽ cao hơn câu hỏi trước.”(xem [15])

Từ phát biểu của Rasch, có thể rút ra hệ quả: xác suất P trả lời đúng câu hỏi phụ thuộcvào tương quan giữa năng lực (θ) của TS và độ khó (b) của CH được biểu diễn qua công thức

f (P ) = θ

Trang 25

trong đóf là một hàm nào đó của xác suất trả lời đúng.

Để đơn giản trong việc tính toán, người ta sử dụng hệ thống cộng trừ thay cho hệ thống

nhân chia Chính vì vậy, người ta thường lấy logarit của (2.1) thành

hay còn gọi là tỉ số odds, tức là tỉ lệ xác suất của sự kiện xảy ra so với xác suất sự kiện không

xảy ra Như vậy

ln

P

Pi(θj) = e

(θ j −bi)

1 + e(θ j −b i )

trong đóelà hằng số Euler có giá trị gần bằng 2.718281828 , và chính là cơ số của logarit

tự nhiên Trong ví dụ nêu trên chúng ta có chỉ sốjchạy từ 1 đến 100 ứng với 100 thí sinh, chỉ

sốichạy từ 1 đến 20 ứng với 20 câu hỏi, và ta có 2000 giá trị ứng với 2000 cặp (TSj,CHi).Qua ví dụ đã trình bày ở trên, chúng ta dễ dàng nhận thấy được lý thuyết ứng đáp câu hỏiđược xây dựng dựa trên một hàm phân bố xác suất phụ thuộc năng lực thí sinh và các tham

số câu hỏi Một số giả định cơ bản trong IRT là:

• Việc trả lời một câu hỏi của thí sinh bị tác động bởi hai yếu tố cơ bản: đặc trưng củacâu hỏi (độ khó, độ phân biệt, độ đoán mò), năng lực của thí sinh

• Năng lực của thí sinh là đại lượng không thể đo lường trực tiếp mà chỉ có thể ước lượng

Trang 26

được thông qua việc trả lời các câu hỏi trắc nghiệm.

• Mối quan hệ giữa xác suất trả lời đúng câu hỏi và năng lực thí sinh được mô tả thôngqua hàm đặc trưng câu hỏi hay còn gọi là đường cong đặc trưng câu hỏi (Item Charac-teristic Curve - ICC)

2.2 Đường cong đặc trưng của câu hỏi

Cơ sở lý thuyết của phần trình bày này được tôi tham khảo chủ yếu từ tài liệu [11] của tác giảBaker và Kim

Định nghĩa 2.2.1 (Đường cong đặc trưng của câu hỏi) Đường cong đặc trưng của câu hỏi

được định nghĩa bởi công thức toán học sau [11, Ch 1, tr 5]

Pi(θj) = P (ai, bi, θj) (2.3)

trong đó:

• Pi(θj): xác suất để thí sinh thứj có năng lựcθj trả lời đúng câu hỏi thứi;

• ai: tham số độ phân biệt của câu hỏi thứi, (−∞ ≤ ai ≤ +∞);

• bi: tham số độ khó của câu hỏi thứi, (−∞ ≤ bi ≤ +∞);

• θj: tham số năng lực của thí sinh thứj, (−∞ ≤ θj ≤ +∞)

Xác suất trả lời đúng một câu hỏi thứiphụ thuộc vào giá trị các tham số (ai, bi) của câuhỏi và năng lực (θj) của thí sinh thứj Đường cong đặc trưng của câu hỏi biểu diễn mối liên

hệ giữa xác suất trả lời đúng câu hỏi và năng lực của thí sinh Nó có một số đặc điểm sau:

• Đường cong được biểu diễn trên đồ thị với trục hoànhx (−∞ < x < +∞)biểu diễncho mức năng lựcθvà trục tungy (0 < y < 1)biểu diễn cho xác suất trả lời đúng câuhỏi (P (θ))

• Đường cong đi lên nếu năng lực (θ) tăng Điều này có nghĩa xác suất trả lời đúng câuhỏi sẽ tăng nếu năng lực của thí sinh tăng:P (θ)sẽ tiến về1khiθ → +∞và tiến về0

khiθ → −∞

• Đường cong nhận giá trịy = 1làm tiện cận trên vày = 0làm tiệm cận dưới

Trang 27

2.2.1 Mô hình đường cong chuẩn

Hàm phân phối tích lũy của biến ngẫu nhiênθj đối với CH thứilà

(−1/2)Z 2

trong đó: µi: trung bình,σi: độ lệch chuẩn,θj: năng lực, Zij: là các giá trị tuân theo phânphối chuẩn tắc (normal deviate)

Ví dụ 2 Hàm phân phối tích lũy (2.4) được sử dụng để vẽ đường cong đặc trưng của câu hỏi

với tham số độ khób = 0.3và độ phân biệta = 1.5 Từ công thức

Dựa vào công thức (2.5) chúng ta dễ dàng xác định đượcZij và từ đó áp dụng công thức (2.4)

ta sẽ tính được giá trịPi(θj)ứng với các mứcθtrong khoảng từ −3đến3với mỗi giá trịθ

cách nhau0.5 Đường cong tương ứng với dữ liệu tại Bảng 2.2.1 được vẽ như Hình 2.2.1

2.2.2 Mô hình đường cong logistic

Xác suất để một thí sinh có năng lựcθnào đó trả lời đúng một câu hỏi phụ thuộc vào giá trịcác tham số của câu hỏi Xác suất này được biểu diễn bởi hàm logistic có dạng [11, Ch 1, tr.15]

trong đó:Zij = a∗i(θj − bi)và được gọi là logit,bi là điểm uốn cong mà khi đó giá trị của

Pi(θ) = 0.5,a∗i là tham số độ phân biệt

Ví dụ 3 Sử dụng mô hình logistic để vẽ đường cong đặc trưng câu hỏi với cùng giá trị độ

khóbi = 0.3và độ phân biệtai = 1.5 Áp dụng công thức (2.6) chúng ta cũng dễ dàng tínhđược các giá trịPi(θj)theo thang đo năng lực θj(−3 ≤ θj ≤ 3) và vẽ được biểu đồ Hình

Trang 28

Bảng 2.2.1 Dữ liệu đường cong đặc trưng câu hỏi trong

mô hình đường cong chuẩn vớibi = 0.3, ai= 1.5

Hình 2.2.1 Biểu đồ đường cong đặc trưng của câu hỏi trong

mô hình đường cong chuẩn vớibi = 0.3, ai= 1.52.2.2 dựa vào dữ liệu được minh họa tại Bảng 2.2.2

Theo [11, Ch 1, tr 16], Haley chỉ ra rằng, trị tuyệt đối giá trị chênh lệch củaPi(θj)trong

Trang 29

Bảng 2.2.2 Dữ liệu đường cong đặc trưng của câu hỏi theo

mô hình logistic vớibi= 0.3, a∗i = 1.5

Hình 2.2.2 Biểu đồ đường cong đặc trưng của câu hỏi trong

mô hình logistic vớibi = 0.3,a∗i = 1.5

mô hình đường cong chuẩn và mô hình đường logistic là nhỏ hơn.01trong cùng giá trịθ Vì

Trang 30

|Φ(Z) − Ψ[(1.702)Z]| < 01 (2.7)

Do đó, giá trịa∗i được sử dụng trong công thức (2.6) chính bằng1.702aivà aiđược sử dụngtrong công thức (2.5) Ví dụ, trong Bảng 2.2.2, khiθ = −0.5thìZij = −1.2vớia∗i = 1.5, vàxác suất trả lời đúngPi(θj)khi đó sẽ là0.2315 Mặc khác, trong Bảng 2.2.1, khiθ = −0.5

thìZij cũng có giá trị là−1.2, nhưng xác suấtPi(θj) = 0.11507 Nếu chúng ta lấyZij nhâncho1.702, giá trị sẽ là−2.0424dẫn đếnPi(θj) = 0.1148, nó thì rất gần với giá trị củaPi(θj)

trong mô hình đường cong chuẩn Hình 2.2.3 cho thấy dạng thức của đường cong trong hai

mô hình (mô hình đường cong chuẩn, mô hình đường cong logistic) là giống nhau, chỉ độ uốncong là khác nhau Điều này thể hiện rõ sự giống nhau giữa tham sốbi cũng như mối quan

hệ giữaai trong mô hình đường cong chuẩn so vớia∗i trong mô hình đường cong logistic là

a∗i = 1.702ai Do mỗi câu hỏi đều có các giá trị tham số câu hỏi là khác nhau nên các đườngcong đặc trưng của các câu hỏi sẽ là khác nhau

Hình 2.2.3 Biểu đồ đường cong đặc trưng câu hỏi dựa vào

mô hình đường cong chuẩn và đường cong logistic vớib = 0.3, a = 1.5

Xác suất trả lời không đúng một câu hỏiQi(θj)cũng có thể được biểu diễn ở dạng đườngcong và đường cong này đối xứng với đường cong câu hỏi cho việc trả lời đúng Chúng sẽ

có cùng giá trị về độ khó, còn độ phân biệt thì cùng giá trị số nhưng trái dấu Hình 2.2.4 bên

Trang 31

dưới thể hiện đường cong câu hỏi cho việc trả lời đúng (bi = 0.3, ai = 1.5) và đường congcâu hỏi cho việc trả lời không đúng (bi = 0.3, ai = −1.5) một câu hỏi.

Hình 2.2.4 Biểu đồ đường cong đặc trưng của câu hỏi trong việc

ứng đáp đúng và sai của một câu hỏi

Xác suất thí sinh trả lời không đúng câu hỏi Qi(θj) = 1 − Pi(θj) Tỉ số odds chính là

tỉ lệ giữa xác suất trả lời đúng so với xác suất trả lời không đúng của cùng một câu hỏi(Pi(θj)/Qi(θj)) Nếu lấy logarithm tự nhiên của tỉ số này, ta có

Zij = log

Pi(θj)

Qi(θj)

= ai(θj− bi) = i + λiθj

Trang 32

θ = bnhư Hình 2.2.5.

Hình 2.2.5 Biểu đồ đường cong đặc trưng câu hỏi

Không phải mọi đường cong đặc trưng của câu hỏi đều tuân thủ theo công thức (2.4).Theo Baker và Kim (2004) [11, Ch 1, tr 21 ], hàm đặc trưng của câu hỏi còn có thể có dạng

Pi(θj) = ci+ (1 − ci) 1

1 + e−ai(θ j −bi), (2.8)

trong đó:

• Pi(θj): xác suất để thí sinh thứj có năng lựcθtrả lời đúng câu hỏi thứi;

• ai: tham số độ phân biệt của câu hỏi thứi, (−∞ ≤ ai ≤ +∞);

• bi: tham số độ khó của câu hỏi thứi, (−∞ ≤ bi ≤ +∞);

• ci: tham số đoán mò (tham số cơ hội) để trả lời đúng câu hỏi Tham số này cho biết

Trang 33

một xác suất nào đó để một thí sinh có mức năng lực thấp nhất vẫn có thể trả lời đúngcâu hỏi,(0 ≤ ci ≤ 1).

Hàm (2.8) chính là hàm đặc trưng của câu hỏi trong mô hình ba tham số Hình 2.2.6 thể hiệnđường cong đặc trưng của một câu hỏi theo mô hình ba tham số vớia = 1.5, b = 0, c = 0.25

Hình 2.2.6 Biểu đồ đường cong đặc trưng câu hỏi trong mô hình ba tham số với

ai = 1.5,bi = 0,ci = 0.25

Ý nghĩa của các tham số câu hỏi trong lý thuyết ứng đáp câu hỏi:

• Độ phân biệt (a): trong [17, Ch 2, tr 35] tác giả đề xuất quy ước các mức độ của độphân biệt theo giá trị như trong Bảng 2.2.3 Độ phân biệt của câu hỏi đặc trưng chokhả năng phân loại thí sinh Thông thường độ phân biệt câu hỏi có giá trị dương, trongquá trình xây dựng câu hỏi nếu câu hỏi nào có độ phân biệt âm thì cần xem xét lại vềmặt nội dung hoặc loại bỏ ngay câu hỏi đó ra khỏi ngân hàng câu hỏi Câu hỏi nào có

độ phân biệt càng lớn thì sự chênh lệch giữa xác suất trả lời đúng của thí sinh có nănglực cao và thí sinh có năng lực thấp càng lớn Câu hỏi có độ phân biệt càng cao thì cótính phân loại thí sinh tốt hơn câu hỏi có độ phân biệt thấp

• Độ khó (b): khi một thí sinh có năng lựcθtrả lời một câu hỏi, nếu độ khóbcủa câu hỏibằng với năng lựcθcủa thí sinh thì xác suất trả lời đúng câu hỏi này của thí sinh chính

Trang 34

Mức độ Dãy giá trị(a)

Độ phân biệt trung bình 65 - 1.34

Bảng 2.2.3 Các mức độ phân biệt của câu hỏi

độ khó theo các mức độ như trình bày tại Bảng 2.2.4

Bảng 2.2.4 Các mức độ khó của câu hỏi

• Mức độ đoán mò (c): nếu một câu hỏi có độ đoán mòc > 0thì xác suất để thí sinh cónăng lực vô cùng thấp (θ → −∞) trả lời đúng câu hỏi chính bằng độ đoán mòc

Khi so sánh các câu hỏi có cùng độ phân biệt, cùng tham số cơ hội (đoán mò) Nếu câuhỏi càng khó thì xác suất trả lời đúng câu hỏi đó của thí sinh càng thấp Các đường cong đặctrưng câu hỏi tại Hình 2.2.7 có cùng độ phân biệt (a = 1.5) và tham số đoán mò (c = 0.25)

Trang 35

Hình 2.2.7 Biểu đồ đường cong đặc trưng các câu hỏi có

cùng tham số độ phân biệt (a) và độ đoán mò (c) nhưng khác tham số về độ khó (b)

nhưng có tham số độ khó (b) là khác nhau Câu hỏi thứ 1 (1 - màu xanh dương) là câu hỏi dễnhất, khi đó tại mỗi điểm trên thang đo năng lực (trục hoành), xác suất trả lời đúng câu hỏi(1 - màu xanh dương) đều cao hơn câu hỏi thứ 2 (2 - màu xanh lá) và câu hỏi thứ 3 (3 - màu

đỏ)

Lý thuyết ứng đáp câu hỏi cố gắng mô hình hóa mối quan hệ giữa một biến không quansát được, thường định nghĩa là năng lực (θ) của thí sinh, và xác suất thí sinh trả lời đúng mộtcâu hỏi bất kỳ Ba mô hình ứng đáp câu hỏi thường được sử dụng là mô hình ba tham số, môhình hai tham số và mô hình một tham số Tất cả các mô hình đều giả định thí sinh có mộtnăng lực cơ bản làθ và câu hỏi có các tham sốa, b, clần lượt là độ phân biệt, độ khó và độđoán mò

Trong cả ba mô hình, các câu hỏi đều có một tham số về độ khó (b), đó chính là điểm uốncong theo năng lực (θ) Câu hỏi với giá trịbcao được gọi là câu khó, với thí sinh có năng lựcthấp thì xác suất trả lời đúng câu hỏi này là thấp Câu hỏi với giá trịbthấp được gọi là câu

dễ, với hầu hết thí sinh thậm chí cả thí sinh có năng lực thấp cũng có một xác suất vừa phải

để trả lời đúng

Trong mô hình ba tham số và mô hình hai tham số đều có tham số độ phân biệt (a) đểcho phép câu hỏi có sự phân biệt giữa các thí sinh có mức năng thức thấp và thí sinh có mức

Trang 36

năng lực cao.

Trong mô hình ba tham số cũng có một tham số tiệm cận dưới (c), còn được biết đến làmtham số cơ hội (độ đoán mò) Tham số này cho phép thí sinh, ngay cả những thí sinh có mứcnăng thấp vẫn có xác suất cao trả lời đúng câu hỏi Về mặt lý thuyếtcnằm trong khoảng từ

0.0đến1.0

2.2.3 Mô hình một tham số

Một trong những mô hình IRT đơn giản nhất chính là mô hình một tham số (hay còn gọi là

mô hình Rasch) Khi xây dựng mô hình đặc trưng của câu hỏi, Rasch chỉ sử dụng một tham

số đặc trưng duy nhất của câu hỏi đó chính là tham số về độ khó (b), nên mô hình Rasch cònđược gọi là mô hình một tham số

Mô hình một tham số có dạng

P (θ) = e

(θ−b)

Nếu biểu diễn tất cả các đường cong đặc trưng câu hỏi một tham số trên trục hoành (θ) thì ta

có một họ đường cong đặc trưng câu hỏi cùng hình dạng như Hình 2.2.8

Hình 2.2.8 Các đường cong đặc trưng câu hỏi trong mô hình một tham số

Trang 37

2.2.4 Mô hình hai tham số

Mô hình hai tham số có dạng

Hình 2.2.9 Các đường cong đặc trưng câu hỏi hai tham số với cùng

giá trị độ khób = 0nhưng độ phân biệtalà khác nhau.

Hàm đặc trưng của câu hỏi trong mô hình hai tham số (2.10) và hàm đặc trưng của câuhỏi trong mô hình một tham số (2.9) có cùng dạng thức, chỉ khác nhau ở giá trị tham số a

(đối với mô hình một tham sốa = 1)

Hình 2.2.9 biểu diễn các đường cong đặc trưng của câu hỏi theo mô hình hai tham số vớicác tham số về độ phân biệtacó giá trị khác nhau nhưng có cùng tham số về độ khób = 0.Như vậy, mô hình một tham số chỉ xét đến một tham số duy nhất liên quan đến độ khó là

b, còn mô hình hai tham số thì ngoài tham số về độ khób còn có tham số liên quan đến độphân biệta

Trang 38

2.2.5 Mô hình ba tham số

Quan sát các đường cong đặc trưng câu hỏi trong mô hình một tham số (Hình 2.2.8) và đườngcong đặc trưng câu hỏi trong mô hình hai tham số (Hình 2.2.9), chúng ta dễ dàng nhận thấytiệm cận trái của các đường cong có giá trị bằng0 Điều đó có nghĩa rằng: nếu thí sinh cónăng lực vô cùng thấp (θ → −∞) thì xác suất để thí sinh đó trả lời câu hỏi đúng câu hỏicũng bằng 0 (P (θ) = 0)

Tuy nhiên trong thực tế khi triển khai trắc nghiệm chúng ta đều biết một thí sinh có nănglực thấp nhưng do đoán mò để trả lời một câu hỏi nên thí sinh đó vẫn có một xác suất trả lờiđúng câu hỏi Với trường hợp đó thì tiệm cận trái của đường cong đặc trưng câu hỏi khôngphải bằng0mà bằng một giá trị xác địnhc (0 ≤ c ≤ 1)

Từ thực tế trên, Birnbaum đã đưa thêm tham sốcphản ánh hiện tượng đoán mò vào hàmđặc trưng để thu được tiệm cận trái của đường cong khác0 Mô hình ba tham số có dạng [17,

Hình 2.2.10 biểu diễn các đường cong đặc trưng của câu hỏi theo mô hình ba tham số với

độ phân biệta = 2, độ khób = 0và tham số đoán mòccó giá trị lần lượt là0.1, 0.2, 0.3

2.3 Đường cong đặc trưng của đề trắc nghiệm - điểm thực

Lý thuyết ứng đáp câu hỏi đánh giá dựa vào từng câu hỏi của bài kiểm tra Khi tính điểmbài kiểm tra, chúng ta xem xét phản ứng của thí sinh trên từng câu hỏi Nếu trả lời chính xácđược1điểm , trả lời không chính xác được0điểm Điểm số thô của thí sinh thu được sẽ bằngtổng điểm của các câu hỏi, điểm số này là một số nguyên nằm trong khoảng từ0đếnN-sốcâu hỏi trong bài kiểm tra Nếu thí sinh làm lại bài kiểm tra lần nữa, giả sử rằng TS khôngnhớ cách trả lời các câu hỏi, lúc này sẽ thu được điểm số thực khác so với lần đầu Theo giảthuyết, một thí sinh có thể làm một bài kiểm tra nhiều lần và sẽ có được một loạt các điểm

số nằm xung quanh một giá trị trung bình Trong lý thuyết đo lường, giá trị này được gọi là

Trang 39

Hình 2.2.10 Ba đường cong đặc trưng câu hỏi trong mô hình ba tham số với

giá trịa = 2, b = 0vàccó giá trị lần lượt là0.1, 0.2, 0.3điểm số thực (true score) và định nghĩa của nó phụ thuộc vào lý thuyết cụ thể được áp dụng.Trong lý thuyết ứng đáp câu hỏi, Lawley định nghĩa điểm số thực dựa vào công thức [17,

cộng tất cả các đường cong đặc trưng của câu hỏi chúng ta sẽ thu được một đường cong đặc

trưng đề trắc nghiệm (Test Characteristic Curve - TCC), hoặc cũng gọi là đường cong điểm

thực(True Score Curve - TSC)

Ví dụ 4 Để tính điểm thực của một thí sinh ở mức năng lựcθ = 0, ta cần tính xác suất trả lờitất cả các câu hỏi trong đề trắc nghiệm ở cùng mức năng lực đó Áp dụng công thức (2.10)trong mô hình hai tham số với giá trị ước lượng củaab1 = 1.3319249vàbb1 = −0.2544415, tatính được xác suất trả lời đúng câu hỏi thứ 1 làp1 = 0.583922559

Trang 40

Bảng 2.3.5 Xác suất trả lời đúng các câu hỏi với mức năng lựcθ = 0

câu hỏi tính theo các số liệu trên Bảng 2.3.5 được biểu diễn trên Hình 2.3.11

Hình 2.3.11 20 đường cong đặc trưng của câu hỏi theo mô hình hai tham số

Để biết điểm thực ở mức năng lựcθ = 0, ta tiến hành tính tổng xác suất trả lời đúng của

độ... dương) câu hỏi dễnhất, điểm thang đo lực (trục hoành), xác suất trả lời câu hỏi( 1 - màu xanh dương) cao câu hỏi thứ (2 - màu xanh lá) câu hỏi thứ (3 - màu

đỏ)

Lý thuyết ứng đáp câu hỏi. .. trắc nghiệm - điểm thực

Lý thuyết ứng đáp câu hỏi đánh giá dựa vào câu hỏi kiểm tra Khi tính điểmbài kiểm tra, xem xét phản ứng thí sinh câu hỏi Nếu trả lời xácđược1điểm , trả lời

Định dạng
Số trang	89
Dung lượng	0,99 MB