1. Trang chủ
  2. » Giáo án - Bài giảng

Triển khai đánh giá kết quả học tập môn toán lớp 12 bằng một đề tổng hợp với các câu hỏi nhị phân, đa phân và đa chiều

134 132 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 134
Dung lượng 4,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

LỜI CAM ĐOAN Tôi xin cam đoan, Luận văn Thạc sĩ Đo lường và đánh giá trong giáo dục với đề tài: “Triển khai đánh giá kết quả học tập môn toán lớp 12 bằng một đề tổng hợp với các câu hỏi

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC GIÁO DỤC

-    -

TRẦN VĂN THANH

TRIỂN KHAI ĐÁNH GIÁ KẾT QUẢ HỌC TẬP MÔN TOÁN LỚP

12 BẰNG MỘT ĐỀ TỔNG HỢP VỚI CÁC CÂU HỎI NHỊ PHÂN,

ĐA PHÂN VÀ ĐA CHIỀU

LUẬN VĂN THẠC SĨ NGÀNH GIÁO DỤC HỌC

Hà Nội - 2017

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

CHUYÊN NGÀNH: ĐO LƯỜNG VÀ ĐÁNH GIÁ TRONG GIÁO DỤC

Mã số: 8140115

LUẬN VĂN THẠC SĨ NGÀNH GIÁO DỤC HỌC

Người hướng dẫn khoa học: GS.TSKH LÂM QUANG THIỆP

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan, Luận văn Thạc sĩ Đo lường và đánh giá trong giáo dục với

đề tài: “Triển khai đánh giá kết quả học tập môn toán lớp 12 bằng một đề tổng hợp với các câu hỏi nhị phân, đa phân và đa chiều” là công trình nghiên cứu

riêng của tôi, dưới sự hướng dẫn của GS.TSKH LÂM QUANG THIỆP

Tôi xin cam đoan:

- Luận văn là sản phẩm nghiên cứu của tôi

- Các thông tin, số liệu, kết quả nghiên cứu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ phương tiện thông tin đại chúng nào trước đây Tôi xin chịu trách nhiệm về kết quả nghiên cứu của mình

Tác giả luận văn

Trần Văn Thanh

Trang 4

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn trân trọng đến những người đã giúp đỡ tôi hoàn thành luận văn này

Trước hết, tôi xin trân trọng cảm ơn các lãnh đạo Trường Đại Học Giáo dục,

Bộ môn Đo lường và đánh giá, các thầy, cô của trường Đại Học Giáo dục đã tận tình giảng dạy, hướng dẫn và giúp đỡ tôi trong quá trình học tập, nghiên cứu và làm luận văn

Tôi xin bày tỏ sự biết ơn sâu sắc đến: GS.TSKH Lâm Quang Thiệp, thầy

đã tận tâm giúp đỡ, hướng dẫn tôi trong quá trình nghiên cứu, thực hiện đề tài Đặc biệt trong những lúc tôi gặp khó khăn về định hướng, động lực nghiên cứu, thầy đã động viên và hướng dẫn tôi cặn kẽ

Tôi xin chân thành cảm ơn đồng nghiệp, gia đình và bạn bè đã luôn động viên, khuyến khích tôi trong suốt quá trình học tập và nghiên cứu

Xin chân thành cảm ơn

Tác giả luận văn

Trần Văn Thanh

Trang 5

MỤC LỤC

Trang LỜI CAM ĐOAN

LỜI CÁM ƠN

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TĂT ……… vi

DANH MỤC CÁC HÌNH VẼ ……… vii

DANH MỤC CÁC BẢNG BIỂU ……… viii

MỞ ĐẦU ……… 1

1 Lý do chọn đề tài ……… 1

2 Mục đích nghiên cứu ……… 2

3 Đối tượng và khách thể nghiên cứu ……… 3

4 Câu hỏi nghiên cứu và giả thuyết nghiên cứu ……… 3

5 Phương pháp nghiên cứu ……… 4

6 Giới hạn và phạm vi nghiên cứu ……… 4

7 Cấu trúc của luận văn ……… 4

Chương 1: Cơ sở lý luân và tổng quan vấn đề nghiên cứu ……… 5

1 1 Tổng quan về đo lường trong giáo dục ……… 5

1.1.1 Các khái niệm cơ bản về đo lường đánh giá ……… 5

1.1.2 Các phương pháp đo lường trong giáo dục ……… 7

1.1.3 Đánh giá kết quả học tập của học sinh ……… 8

1.1.4 Công cụ đo lường kết quả học tập ……… 9

1.1.5 Sơ lược về khoa học đo lường đánh giá trên thế giới và Việt Nam … 12

1.2 Lý thuyết đánh giá cổ điển ……… 15

1.2.1 Các tham số đặc trưng của câu hỏi trắc nghiệm và phân tích đề trắc nghiệm ……… 16

1.2.2 Điểm số học tập ……… 20

1.3 Lý thuyết ứng đáp câu hỏi ……… 24

Trang 6

1.3.1 Tổng quan về lý thuyết ứng đáp câu hỏi ……… 24

1.3.2 Hàm đặc trưng câu hỏi ……… 25

1.3.3 Điểm thực và đường cong đặc trưng đề trắc nghiệm ……… 29

1.3.4 Hàm thông tin của câu hỏi và của đề trắc nghiệm ……… 30

1.3.5 Ước lượng năng lực thí sinh và tham số câu hỏi ……… 33

1.3.6 So bằng và kết nối các đề trắc nghiệm ……… … 33

1.3.7 Về trắc nghiệm đa phân và trắc nghiệm đa chiều ……… … 34

1.3.8 Ví dụ về ước lượng tham số câu hỏi ……… … 38

Chương 2: Tổ chức và thực hiện xây dựng đề thi ……… 47

2.1 Đặt vấn đề ……… 47

2.2 Quy trình xây dựng một đề thi, đề kiểm tra ……… 47

2.2.1 Qui trình xây dựng ngân hàng câu hỏi trắc nghiệm khách quan …… 49

2.2.2 Quy trình triển khai một kỳ thi trắc nghiệm khách quan ……… 50

2.3 Xây dựng đề thi môn toán ……… 52

2.3.1 Chuẩn bị ……… 53

2.3.2 Xây dựng bảng ma trận trọng số ……… 53

2.3.3 Biên soạn câu hỏi thi ……… 60

2.4 Thử nghiệm đề thi ……… 66

2.4.1 Chọn mẫu nghiên cứu ……… 66

2.4.2 Kế hoạch thực hiện ……… 66

2.4.3 Kết quả thử nghiệm ……… 66

Chương 3: Kết quả nghiên cứu ……… 68

3.1 Giới thiệu ……… 68

3.2 Phân tích tham số câu hỏi thi ……… 69

3.2.1 Phân tích câu hỏi thi bằng CTT ……… 70

3.2.2 Phân tích câu hỏi thi bằng lý thuyết khảo thí hiện đại ……… 71

3.2.3 Phân tích câu hỏi thi đa chiều ……… 80

3.2.4 Phân tích câu hỏi thi đa phân ……… 85

3.3 Một số kết quả phân tích câu hỏi thi ……… 85

Trang 7

3.3.1 Quy trình hiệu chuẩn đề kiểm tra ……… 85

3.3.2 Các đặc trưng về các đề thử nghiệm ……… 86

KẾT LUẬN ……… 91

KHUYẾN NGHỊ ……… 92

DANH MỤC TÀI LIỆU THAM KHẢO ……… 93

PHỤ LỤC ……… 94

Phụ lục 1: Phân phối chương trình toán Lớp 12 ……… 94

Phụ lục 2: Phụ lục 2: Mẫu đặc tả kiến thức môn toán 12 theo chuẩn kiến thức kĩ năng bộ giáo dục ban hành ……… 95

Phụ lục 3: Định dạng biên soạn câu hỏi thi ……… 100

Phụ lục 4: Đặc tả nội dung kiến thức từng câu hỏi theo ma trận trọng số trong đề thi ……… 101

Phụ lục 5: Đề thi thử nghiệm 01 ……… 106

Trang 8

IRT Item response theory ICF Item Curve Function NHCH Ngân hàng câu hỏi PCM Partial Credit Model THPT Trung học phổ thông

TNKQ Trắc nghiệm khách quan

Trang 9

DANH MỤC CÁC BẢNG BIỂU

1 Bảng 1.1 So sánh ƣu nhƣợc điểm của đề thi TNKQ và tự luận 10

3 Bảng 1.3 Mô tả câu nhóm các câu hỏi trắc nghiệm 19

4 Bảng 1.4 Dữ liệu thử nghiệm của câu hỏi thi 41

5 Bảng 1.5 Dữ liệu tính toán ƣớc lƣợng hàm đặc trƣng câu hỏi 43

6 Bảng 1.6 Dữ liệu tính toán ƣớc lƣợng hàm đặc trƣng câu hỏi 43

9 Bảng 2.3 Bảng mô tả chi tiết từng câu hỏi trong đề thi 55

10 Bảng 2.4 Quy trình biên soạn câu hỏi thi 60

13 Bảng 3.1 Độ khó P của một câu hỏi trắc nghiệm số 1 70

14 Bảng 3.2 Bảng tham số các hỏi thi về mức độ phù hợp 71

15 Bảng 3.3 Phân tích đa chiều năng lực của TS với đề thi 01 81

Trang 10

6 Hình 1.6 Các đường cong ĐTCH trắc nghiệm nhị phân ứng với xác

7 Hình 1.7 Các đường cong ĐTCH của một CH PCM có 3 hạng điểm

8 Hình 1.8 Mặt ĐTCH với 2 chiều năng lực θ1,θ2 37

9 Hình 1 9 Hai kiểu biểu hiện tính đa chiều của các câu hỏi trắc

12 Hình 1.12 Ước lượng hàm đặc trưng của câu hỏi 41

13 Hình 1.13 Tham số ước lượng của câu hỏi 42

14 Hình 1.14 Đồ thị hàm đặc trưng của câu hỏi 42

15 Hình 1.15 Đồ thị của hàm đặc trưng câu hỏi 44

16 Hình 1.16 Hình ảnh ước lượng tham số câu hỏi với tập mẫu có

17 Hình 1.17 Hình ảnh ước lượng tham số câu hỏi với tập mẫu có

Trang 11

18 Hình 1.18 Hình ảnh ước lượng tham số câu hỏi với tập mẫu có

23 Hình 3.5 Bản đồ phân bố độ khó câu hỏi thi và năng lực thí sinh 75

24 Hình 3.6 Đường cong đặc trưng của đề thi số 1 77

25 Hình 3.7 Hàm thông tin của đề thi số 1 78

26 Hình 3.8 Hàm thông tin của đề thi số 2 78

27 Hình 3.9 Hàm thông tin của đề thi số 3 79

28 Hình 3.10 Hàm thông tin của đề thi số 4 79

Trang 12

Hình thức kiểm tra trắc nghiệm cũng được triển khai trên thế giới từ những năm đầu thế kỷ 20, và được du nhập vào nước ta tại một số thời điểm trước năm 75 ở miền Nam Đặc biệt bộ giáo dục (BGD) đã bắt đầu đưa vào kì thi Quốc gia với các môn Lí, Hóa, Sinh, Ngoại ngữ từ năm 2007 và các môn Toán, Sử, Địa từ năm 2017 hình thức thi trắc nghiệm khách quan Các ưu điểm nổi bật của kì thi đã được chứng minh như khách quan, công bằng, tiết kiệm thời gian, tiền bạc Tuy vậy việc đưa kì thi vào tương đối vội vàng, chưa có chuẩn bị đào tạo một cách bài bản nên gây nhiều khó khăn cho giáo viên, học sinh trong các khâu kiểm tra, đánh giá Đặc biệt hơn do chưa có kinh nghiệm nên các đề thi trắc nghiệm khách quan được biên soạn chủ yếu với đo được kiến thức ở mức nhận biết, thông hiểu, còn các thang kiến thức ở mức áp dụng, phân tích, tổng hợp chưa đo lường một cách chính xác Điều đó là một phần khó khăn cho việc phân loại học sinh với các môn tư duy logic cao như môn toán

Việc học và thi trên thế giới đã diễn ra hàng nghìn năm trước đây, nhưng một khoa học về đo lường trong giáo dục thật sự có thể xem như bắt đầu từ thế kỉ XX, tại châu Âu và phát triển mạnh khi du nhập vào Hoa Kỳ [3, tr 51]

Trong đo lường giáo dục, hai hệ lý thuyết đánh giá cơ bản đang được sử dụng:

Trang 13

Lý thuyết đánh giá cổ điển (Classical Test Theory - CTT)

Lý thuyết đánh giá hiện đại (Modern Test Theory)

Hiện nay cách thức xây dựng đề thi đa số dựa theo lý thuyết đánh giá cổ điển, nhưng cách phân tích đánh giá câu hỏi thi, đề thi thường kết hợp cả lý thuyết đánh giá

cổ điển lẫn lý thuyết đánh giá hiện đại Hai hình thức đánh giá này thường bổ xung các

ưu nhược điểm cho nhau nên chúng thường được sử dụng đồng thời Một trong những trở ngại của lý thuyết khảo thí cổ điển là vấn đề chọn mẫu, chuẩn hóa và so bằng Lý thuyết khảo thí hiện đại, thường được gọi là lý thuyết ứng đáp câu hỏi (IRT) hoàn toàn

dễ dàng khắc phục các khó khăn này nhưng lại có những tính toán ước lượng phức tạp Khoảng hai chục năm gần đây, các nghiên cứu sâu về IRT diễn ra ở nhiều nơi trên thế giới đặc biệt là Hoa Kì Tuy vậy các bài viết về IRT chủ yếu mang tính lí thuyết, nặng

nề về các công thức toán học nên việc triển khai, ứng dụng IRT trong công tác xây dựng đề là chưa nhiều, chủ yếu sử dụng IRT trong công việc phân tích đánh giá đề thi

Lý thuyết đo lường hiện đại đã dần chứng tỏ các ưu điểm của nó so với lý thuyết đo lường cổ điển Hiện nay các công cụ hỗ trợ tính toán phức hợp (máy tính điện tử, phần mềm chuyên dụng,…) được phổ biến thì nhu cầu ứng dụng các kết quả nghiên cứu của lý thuyết khảo thí hiện đại vào thực tế ra đề thi trong các kì thi quốc gia hay trong các nhà trường phổ thông càng trở nên bức thiết Với mong muốn lý thuyết IRT sớm được phổ biến trong công tác khảo thí đo lường ở Việt Nam, tôi chọn

nghiên cứu đề tài “Triển khai đánh giá kết quả học tập môn toán lớp 12 bằng một đề tổng hợp với các câu hỏi nhị phân, đa phân và đa chiều” nhằm thiết kế bộ đo năng lực

môn toán của học sinh phổ thông, kiểm tra đánh giá được một cách hệ thống và toàn diện kiến thức và kỹ năng của học sinh sau khi học xong môn toán lớp 12 Đồng thời đưa ra một quy trình xây dựng đề thi có ứng dụng lý thuyết khảo thí hiện đại vào quá trình xây dựng đề Từ đó có thể đánh giá ưu nhược điểm của các hình thức và cách thức ra đề Xem xét hai hình thức đo lường đánh giá này có bổ xung, tồn tại cùng nhau hay loại trừ nhau Điều này làm cho các kì thi kiểm tra, đánh giá năng lực của học sinh trở nên đơn giản và chính xác hơn

2 Mục đích nghiên cứu

Trang 14

Nghiên cứu tập chung tìm hiểu cách xây dựng, thiết kế một đề thi môn toán lớp

12 và phân tích đánh giá đề thi theo lý thuyết đánh giá hiện đại (IRT)

3 Đối tượng và khách thể nghiên cứu

Đối tượng nghiên cứu: Cơ sở lý luận của việc kiểm tra đánh giá kết quả học tập của học sinh ở nhà trường phổ thông, phương pháp soạn thảo, phân tích hệ thống câu hỏi thi theo lý thuyết đánh giá hiện đại

Khách thể nghiên cứu: Nội dung và các yêu cầu về kiến thức, kĩ năng môn toán lớp 12 Học sinh đã hoàn thành chương trình toán 12

4 Câu hỏi nghiên cứu và giả thuyết nghiên cứu

Việc xây dựng đề thi nói chung và đề thi THPT quốc gia nói riêng cho đến nay vẫn đang diễn ra chủ yếu dựa trên cơ sở của lý thuyết đánh giá cổ điển, phụ thuộc nhiều vào các chuyên gia (cảm tính) ra đề Mức độ khó dễ, phân biệt, giá trị, tin cậy của câu hỏi trong các đề thi phụ cảm tính nhiều vào hội đồng ra đề thi (tuổi tác, giới tính, vùng miền, trình độ,…) nên việc chỉnh sửa những câu hỏi thi không tốt trong các

đề thi thử nghiệm là rất khó khăn Xây dựng ngân hàng câu hỏi một cách khách quan, tin cậy, giá trị luôn được đặt lên hàng đầu trong mỗi kì thi Mặc dù có nhiều khó khăn khi tiếp cận IRT (các nghiên cứu về IRT chủ yếu là lí thuyết chưa có nhiều triển khai mang tính ứng dụng, các công thức tính toán nhiều, cần phần mềm chuyên dụng, …) nhưng lý thuyết IRT sẽ phần nào đáp ứng được việc xây dựng một ngân hàng câu hỏi, ngân hàng đề theo sát các tiêu chí của một đề thi quốc gia trung học phổ thông Do vậy việc xây dựng ngân hàng câu hỏi thi theo định dạng câu hỏi nhị phân, đa phân, đa chiều đang là bài toán được tập chung nghiên cứu nhiều gần đây không chỉ ở trên thế giới mà ở Việt Nam cũng đang được quan tâm

Câu hỏi nghiên cứu:

Câu hỏi 1: Việc xây đề thi môn toán lớp 12 ứng dụng theo lý thuyết đánh giá hiện đại cần thực hiện như thế nào?

Câu hỏi 2: Phân tích các câu hỏi thi nhị phân, đa phân, đa chiều trong một đề thi

có giúp nâng cao chất lượng đề thi hay không?

Trang 15

Giả thuyết nghiên cứu: Dựa trên mục đích của kì thi, nguyên tắc viết câu hỏi

thi, ta có ma trận chi tiết của đề thi từ đó xây dựng đề thi Thử nghiệm và xác định tham số đặc trƣng của câu hỏi thi từ đó đánh giá chất lƣợng câu hỏi thi, tiến đến chuẩn hóa đề thi

Trang 16

5 Phương pháp nghiên cứu

Nghiên cứu sử dụng cả phương pháp định tính và định lượng trong việc thu thập và xử lí thông tin Nghiên cứu dự định tiến hành thông qua ba giai đoạn: Nghiên của cơ sở lý thuyết, xây dựng mô hình nghiên cứu và các thử nghiệm Các phương pháp nghiên cứu được sử dụng kết hợp phù hợp trong từng giai đoạn nghiên cứu

Nghiên cơ sở lý thuyết: Cơ sở lý luận của kiểm tra đánh giá trong dạy học, lý

thuyết ứng đáp câu hỏi Nghiên cứu những tài liệu về kĩ thuật viết câu hỏi thi Nghiên cứu về các phần mềm phân tích đánh giá kết quả thi đặc biệt là phần mềm Conquest

Xây dựng mô hình nghiên cứu: Nghiên cứu cơ sở lý thuyết của lý thuyết khảo

thí hiện đại (IRT) Xây dựng ma trận đề thi và viết các câu hỏi thi Dùng phần mềm

Conquest để phân tích các câu hỏi thi.Từ đó định chuẩn một đề thi mẫu và có các đánh

giá phân tích sơ bộ các tham số đặc trưng: Độ khó, độ sai biệt, độ tin cậy

Thực nghiệm: Thực nghiệm lấy mẫu, nhằm đánh giá đề kiểm tra trắc nghiệm

khách quan về độ tin cậy, độ giá trị và tính khả thi của nó Phân tích đánh giá chất lượng của đề thi

6 Giới hạn và phạm vi nghiên cứu

Xây dựng và phân tích một đề thi môn toán lớp 12 và phân tích một đề thi môn toán bằng phần mềm Conquest

7 Cấu trúc của luận văn

Ngoài phần mở đầu, phần kết luận, khuyến nghị, luận văn gồm 3 phần sau:

Chương 1: Cơ sở lý luận và tổng quan vấn đề nghiên cứu

Chương 2: Tổ chức và thực hiện xây dựng đề thi

Chương 3: Kết quả nghiên cứu

Trang 17

CHƯƠNG 1

CƠ SỞ LÝ LUẬN VÀ TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU

1.1 Tổng quan về đo lường trong giáo dục

Cùng với xu hướng chung là đổi mới nội dung và phương pháp giảng dạy trong nhà trường Đo lường, đánh giá trong giáo dục là một quá trình quan trọng, quyết định

sự thành bại của quá trình đổi mới đó Đo lường trong giáo dục là công cụ để xác định năng lực nhận thức người học, điều chỉnh quá trình dạy học, điều chỉnh nội dung, phương tiện hỗ trợ quá trình dạy học nhằm đạt được được các mục tiêu, mục đích giáo dục đề ra Đổi mới phương pháp, nội dung dạy học được chú trọng để đáp ứng những yêu cầu mới của mục tiêu giáo dục Do vậy việc kiểm tra, đánh giá phải phải theo sát quá trình giảng dạy và mục tiêu giáo dục đề ra

Hầu hết các đại lượng tâm lý là các thuộc tính của tư duy, mà tư duy thì không thể quan sát trực tiếp (đại lượng ẩn), nhưng vẫn có thể đo một cách gián tiếp thông qua các hành vi có thể quan sát được của con người Ví dụ: để biết một học sinh có nắm được nội dung của môn học hay không sau khi học xong môn học đó, một bài kiểm tra

có thể cho chúng ta biết một cách chính xác: học sinh đó hiểu đến mức nào (chỉ nhận biết khái niệm một cách máy móc hay còn có khả năng đánh giá, chuyển giao nhận thức của mình) Các công cụ đo lường, quan sát (ví dụ bài kiểm tra) cần được thiết kế cẩn thận, có độ tin cậy cao để ghi nhận chính xác các hành vi, làm cơ sở để xác định đại lượng ẩn Đo lường nói chung đòi hỏi độ chính xác và chính xác, vì kết quả được

hỗ trợ để có ý nghĩa đủ để cung cấp thông tin đáng tin cậy cho các hình thức ra quyết định khác nhau

1.1.1 Các khái niệm cơ bản về đo lường đánh giá

Đo lường là quá trình mô tả mức độ cá nhân đạt được (hay đã có) một đặc điểm

nào đó (như khả năng, thái độ,…) được ước lượng bằng những con số cụ thể Ví dụ: Học sinh X làm bài kiểm tra đạt điểm 8 Học sinh Y làm được 3/4 số điểm tối đa của bài thi trắc nghiệm Toán Bài của học sinh M được xếp hạng k trong lớp Các điểm số

8, 3/4 hay thứ hạng k là những ký hiệu gián tiếp chỉ ra khả năng của học sinh về mặt

định tính hay định hạng [4, tr 352 - 353] Đo lường thành quả học tập là lượng giá

Trang 18

mức độ đạt được các mục tiêu cuối cùng (terminal) hay tiêu chí (criterion) trong một khóa học, một giai đoạn học

Trắc nghiệm là một dụng cụ hay một phương thức hệ thống nhằm đo lường

thành tích của một cá nhân so với các cá nhân khác hay so với những yêu cầu, nhiệm

vụ học tập đã được dự kiến Trong lĩnh vực giáo dục, thường dùng chữ “trắc nghiệm

thành quả học tập” hay “trắc nghiệm thành tích” Trong trường học, từ “trắc nghiệm” được dùng như là một hình thức kiểm tra, đánh giá học sinh “Trắc nghiệm khách quan”, không phải hiểu theo nghĩa đối lập với một đo lường chủ quan nào, mà nên hiểu là hình thức kiểm tra này có tính khách quan cao hơn cách kiểm tra, đánh giá

bằng luận đề (hình thức kiểm tra tự luận) chẳng hạn Các điểm số thu thập được từ một

bài trắc nghiệm thành tích có thể cung cấp hai loại thông tin: (1) loại thứ nhất là mức

độ người học thực hiện được tiêu chí đã được ấn định, chẳng hạn như giải được đúng một bài Toán thông kê mô tả, giải thích đúng các kết xuất (output) của một chương trình thống kê v.v., không cần biết người ấy làm giỏi hơn hay kém hơn những người khác, (2) loại thứ hai là sự xếp hạng tương đối của các cá nhân liên quan đến mức độ thực hiện của họ về bài trắc nghiệm đã ra, chẳng hạn học viên A có thể giải các bài toán nhanh hơn, hoặc giỏi hơn học viên B – [4, tr 364 - 366]

Kiểm tra là một hoạt động nhằm cung cấp những số liệu, những thông tin làm

cơ sở cho việc giám sát, đánh giá Kiểm tra là một phần của quá trình dạy học và có

ảnh hưởng đến cuộc đời của tất cả học sinh Vì vậy giáo viên cần quan tâm đến những yếu tố ảnh hưởng đến việc kiểm tra như: đề thi phải rõ ràng, phù hợp với mục đích kiểm tra, phải đọc và kiểm tra nhiều lần để không có những sai sót; phía học sinh không bị mất tập trung chú ý trong suốt thời gian làm bài

Lượng giá là đưa ra những thông tin ước lượng về trình độ, năng lực, phẩm

chất của một cá nhân, một sản phẩm, v.v, dựa trên các số đo cụ thể hoặc quan sát được Trong dạy học, dựa vào các điểm số một học sinh đạt được, người thầy giáo (hay nhà quản lý giáo dục) có thể ước lượng trình độ kiến thức, kỹ năng kỹ xảo của học sinh đó Ví dụ: học sinh A hoàn thành xong 2/3 bài thi toán đại số được lượng giá

là thuộc loại trung bình

Trang 19

Đánh giá là quá trình thu thập, điều tra, phân tích và giải thích thông tin một

cách có chủ đích, hệ thống nhằm xác định mức độ đạt đến các mục tiêu đã đề ra Như vậy, số đo cung cấp cho ta số liệu dùng để đánh giá, còn việc suy đoán, diễn giải những con số này biến chúng thành sự đánh giá Ta có thể nói thêm về đánh giá như sau: Đánh giá là một quá trình trong đó ta đưa ra những giá trị hoặc ấn định những giá trị cho một cái gì dó Đặc điểm quan trọng của sự đánh giá đó là khả năng xét đoán Đánh giá thường mang tính định lượng Nó dựa trên những con số hoặc các tỉ lệ phần trăm Sự xét đoán khi đánh giá gắn với một giá trị (định lượng) hay sự mô tả định tính căn cứ vào số đo trên một bài kiểm tra Đánh giá là một quá trình gồm hai bước Bước thứ nhất đó là kiểm tra, trong đó số liệu thu thập từ việc sử dụng một hoặc một chuỗi các bài kiểm tra Khi việc kiểm tra được thực hiện thì sự xét đoán cũng được thực hiện

về trình độ, thường là trong bối cảnh các mục đích có hướng dẫn

Tin cậy: Độ tin cậy của một dụng cụ đo là khái niệm cho biết mức độ ổn định,

vững chãi của các kết quả đo được khi tiến hành đo vật thể đó nhiều lần Thí dụ có một gói mứt khi đặt lên cân, lần đầu báo 750 gam sang lần thứ hai báo 735 gam, lần thứ ba báo 765 gam, v.v… Ta nói cái cân này tin cậy Tương tự một bài trắc nghiệm được gọi

là tin cậy khi một học sinh làm nhiều lần bài trắc nghiệm này vào những thời điểm cách xa nhau thì các kết quả điểm số thu được đều khá ổn định (các điểm số của các lần đo không chênh lệch qua nhiều) Độ tin cậy thường được biểu hiện bằng một con

số trong khoảng từ 0 đến 1 Độ lớn càng gần với 1 thì dụng cụ càng tin cậy Ví dụ: nếu từ 0.80 trở lên thì độ tin cậy được gọi là cao từ 0.40 đến 0.79 thì tương đối tin cậy, dưới 0.40 là tin cậy thấp

Giá trị: Độ giá trị của một dụng cụ đo là một khái niệm chỉ ra rằng dụng cụ này

có khả năng đo đúng được cái cần đo Thí dụ: Một vật có trọng lượng thực là 800 gam

Nếu khi bỏ lên cân thấy báo trị số 800 gam, ta nói cái cân này giá trị Còn thấy báo là

700 gam, cân sẽ không giá trị vì không đo đúng được trọng lượng cần đo Đặt vật lên, xuống đế cân nhiều lần, lần nào kết quả cũng không xê dịch khỏi 700 gam, ta nói cân

đó tin cậy nhưng không giá trị

1.1.2 Các phương pháp đo lường trong giáo dục

Trang 20

Hiện nay ở Việt Nam đã biết đến một hệ thống phương pháp và kỹ thuật đánh giá khá phong phú Về phương pháp đánh giá có thể kể ra: quan sát, vấn đáp, viết Trong viết còn bao gồm nhiều hình thức như: trắc nghiệm tự luận (tự luận), trắc nghiệm khách quan hay còn gọi là trắc nghiệm

Theo [3] và ý kiến của các chuyên gia về đo lường đánh giá, ta nên sử hình thức kiểm tra tự luận để khảo sát thành quả học tập trong những trường hợp dưới đây:

(1) Khi nhóm học sinh dự thi hay kiểm tra không quá đông và đề thi chỉ được

sử dụng một lần, không dùng lại nữa

(2) Khi thầy cô giáo cố gắng tìm mọi cách có thể được để khuyến khích và khen thưởng sự phát triển kỹ năng diễn tả bằng văn viết

(3) Khi thầy giáo muốn thăm dò thái độ hay tìm hiểu tư tưởng của học sinh về một vấn đề nào đó hơn là khảo sát thành quả học tập của chúng

(4) Khi giáo viên tin tưởng vào tài năng phê phán và chấm bài luận đề một cách

vô tư và chính xác hơn là khả năng soạn thảo những câu trắc nghiệm thật tốt

(5) Khi thời gian soạn thảo bài khảo sát không nhiều

Mặt khác, ta nên sử dụng trắc nghiệm khách quan trong những trường hợp sau: (1) Khi ta cần khảo sát kết quả học tập của một số lượng lớn học sinh, hay muốn rằng bài khảo sát ấy có thể sử dụng lại vào một lúc khác

(2) Khi ta những điểm số chính xác khách quan, công bằng và nhanh chóng (3) Khi ta cần kiểm tra toàn diện kiến thức, ngăn ngừa gian lận thi cử

Cả trắc nghiệm lẫn tự luận đều có thể sử dụng để:

(1) Đo lường mọi thành quả học tập mà học sinh thu nhận được ở các mức độ nhận thức

(2) Khảo sát được các khả năng hiểu, suy nghĩ có phê phán, giải quyết các vấn

đề mới, phân tích, tổng hợp

(3) Khuyến khích, gợi động cơ học tập để nắm vững kiến thức

1.1.3 Đánh giá kết quả học tập của học sinh

Trang 21

Với từng môn học thì các mục tiêu trên được cụ thể hóa thành các mục tiêu về kiến thức, kỹ năng và thái độ Mục đích của giáo dục là sự tiến bộ của học sinh Đây chính là kết quả cuối cùng của quá trình học tập nhằm thay đổi hành vi của học sinh Khi nhìn nhận mục tiêu giáo dục theo hướng kết quả học tập, cần phải lưu tâm rằng chúng ta đang đề cập đến những sản phẩm của quá trình học tập chứ không phải bản thân quá trình đó Mối liên hệ giữa mục tiêu giáo dục (sản phẩm) và kinh nghiệm học tập (quá trình) được thiết kế nhằm hướng tới những thay đổi hành vi theo như mong muốn Vậy đánh giá kết quả học tập là quá trình phản hồi thông tin, chất lượng giảng dạy tới người quản lý, người dạy và người học

Khoa học đánh giá ngày càng phát triển, các loại hình đánh giá kết quả học tập của học sinh được phân loại theo các quan điểm tiếp cận mà có các loại hình đánh giá sau: đánh giá trên diện rộng và đánh giá trên lớp học, đánh giá chẩn đoán, đánh giá ban đầu, đánh giá trong tiến trình và đánh giá tổng kết Ngoài ra xét theo mục tiêu học tập sẽ có hai loại đánh giá là Assessment for Learning (Đánh giá để cải tiến việc học tập) và Assessment of Learning (Đánh giá kết thúc giai đoạn học tập) Mỗi loại đánh giá sẽ có mục đích đánh giá, phương pháp đánh giá, công cụ đánh giá và các khuyến nghị khác nhau

1.1.4 Công cụ đo lường kết quả học tập

Hoạt động đánh giá đào tạo được ra đời và phát triển song song cùng với hoạt động đào tạo Việc lượng hóa giá trị kết quả học tập nhờ sử dụng hình thức thi trắc nghiệm (test) là một công đoạn quan trọng trong quá trình dạy học Trắc nghiệm theo nghĩa rộng là một hoạt động được thực hiện để đo lường năng lực của các đối tượng nào đó nhằm những mục đích xác định, chẳng hạn, phân loại thí sinh, tìm ra thí sinh nổi trội, sàng lọc ra những thí sinh chưa đạt chuẩn Trong giáo dục trắc nghiệm được tiến hành thường xuyên ở các kỳ thi, kiểm tra hay sát hạch nhằm đánh giá kết quả học tập và giảng dạy đối với một phần của môn học hoặc toàn bộ môn học hay đối với cả một cấp học Ngoài ra trắc nghiệm cũng có thể được sử dụng nhằm lọc chọn một số người có năng lực cao nhất vào học một khoá học nào đó Hiện nay trong giáo dục phổ thông có hai hình thức chủ yếu đo lường kết quả học tập của học sinh là câu hỏi trắc nghiệm tự luận gọi tắt là câu hỏi tự luận và câu hỏi trắc khách quan (TNKQ) Ta xem xét hai hình thức thi dưới bảng so sánh sau:

Trang 23

Bảng 1.1 So sánh ưu nhược điểm của đề thi TNKQ và tự luận

Áp dụng được công nghệ mới trong việc nâng cao chất lượng

kỳ thi, giữ bí mật đề thi, hạn chế quay cóp khi thi, hạn chế

tiêu cực trong chấm thi và giúp phân tích kết quả thi x

Nắm vững bản chất từng phương pháp cùng điều kiện cơ sở vật chất và công nghệ triển khai cụ thể, để sử dụng hợp lí, tối ưu mỗi phương pháp Theo [3, tr 29 – 36]

ta có bảng so sánh ưu nhược điểm của các hình thức thi TL và TN như sau

Một bộ câu hỏi trong đó mỗi câu hỏi không kèm theo các phương án trả lời mà học sinh phải tự luận để đưa ra câu trả lời

Mức độ phức

tạp khi viết câu

hỏi và tổ hợp

đề

Khó soạn câu hỏi Dễ soạn câu hỏi

Dễ sai về diễn đạt, nội dung câu hỏi thiếu chính xác (vì có nhiều câu hỏi nên khó rà soát)

Ít bị sai sót về diễn đạt, nội dung rõ ràng

Dễ chuẩn bị đáp án, hướng dẫn chấm

Khó xây dựng đáp án, hướng dẫn chấm, xây dựng đáp án phức tạp

Trang 24

Có nhiều câu hỏi nên khó nhớ,

dễ bảo mật

Khó bảo mật đề thi do có ít câu hỏi

Phải dành nhiều thời gian cho học sinh làm bài, khó kiểm tra toàn bộ chương trình

Tốn nhiều thời gian cho việc

in ấn, nhân đề Không tốn nhiều công sức in ấn đề Học sinh khó sử dụng tài liệu,

loại trừ tiêu cực trong thi cử

Học sinh dễ quay cóp sử dụng tài liệu, tiêu cực trong thi cử Vấn đề đoán

mò phương án

trả lời đúng

Học sinh có thể đoán mò Học sinh không đoán được câu

trả lời đúng

Độ tin cậy của

Tính giá trị của

đề thi

Có thể đánh giá đầy đủ các mức nhận thức nếu các câu hỏi được soạn kỹ

Dễ đánh giá được các mức nhận thức cao (phân tích, tổng hợp, đánh giá)

Bao quát toàn bộ chương trình nên đánh giá chính xác hơn, có thể có độ giá trị cao hơn

Không bao quát toàn bộ chương trình nên độ giá trị có thể không cao

Khó phân tích, đánh giá câu hỏi

Trang 25

1.1.5 Sơ lược về khoa học đo lường đánh giá trên thế giới và Việt Nam

1.1.5.1 Sơ lược về khoa học đo lường đánh giá trên thế giới

Lý thuyết trắc nghiệm đã được xây dựng và đưa vào ứng dụng trong các trường đại học ở Mỹ và một số nước khác từ khá sớm (bắt đầu từ những năm 1920) Lý thuyết trắc nghiệm là cơ sở khoa học giúp đánh giá chất lượng của bài thi trắc nghiệm (thông qua đánh giá các câu hỏi) và ước lượng năng lực thí sinh (thông qua việc thí sinh trả lời các câu hỏi) Lĩnh vực khoa học đo lường phát triển mạnh ở Mĩ vào thời kỳ từ trước và sau thế chiến thứ hai với những dấu mốc quan trọng như trắc nghiệm trí tuệ Stanford-Binet xuất bản năm 1916, bộ trắc nghiệm thành quả học tập tổng hợp đầu tiên Stanford Achievement Test ra đời vào năm 1923 Cho đến nay có hai hệ lý luận chính dùng trong lý thuyết đo lường giáo dục, đó là: lý thuyết trắc nghiệm cổ điển (Classical Test Theory - CTT); lý thuyết ứng đáp câu hỏi (Item Response Theory - IRT) IRT ra đời sau CTT và hiện nay trên thế giới IRT được áp dụng rộng rãi trong các hệ thống đánh giá giáo dục, đặc biệt là ở Mỹ, Australia và một số nước phát triển khác

Hai cách tiếp cận thống kê về lý thuyết đo lường, thường được gắn nhãn như là

"cổ điển" và "hiện đại" (lý thuyết ứng đáp câu hỏi) (Gustaffson 1977, Crocker và Algina 1986) Mặc dù chúng tương đối khác nhau, nhưng không nên xem chúng như các đối thủ bởi chúng bổ sung các ưu nhược điểm cho nhau Có lẽ vấn đề khác biệt có thể được hiểu là sự phụ thuộc vào mẫu và so bằng của bài kiểm tra cổ điển Điểm số được tính trên cơ sở các thủ tục phân tích cổ điển cung cấp thông tin về khả năng của thí sinh chỉ ở một mức độ hạn chế Ngoài ra, vì kiểm tra các đặc tính của thí sinh được xác định trên cơ sở hồi đáp của một tập hợp học sinh, chỉ có thể được tái sử dụng với cùng một tập học sinh đó hoặc với một tập học sinh mới có những đặc điểm tương đồng với tập học sinh đã cho - một trở ngại lớn trong cách hiệu quả xây dựng ngân hàng câu hỏi

Bên cạnh về sự nghiên cứu và phát triển của lý thuyết khảo thí cổ điển (CTT) những năm đầu thế kỉ 20 ở châu Âu và Mỹ, từ thập niên 50 những công trình đầu tiên

về lý thuyết khảo thí hiện đại (IRT) đã được công bố Allen Birnbaum đã viết một loạt các báo cáo kỹ thuật về các mô hình và mô hình kiểm tra đánh giá tham số vào năm

Trang 26

1957 và 1958 George Rasch (1960) xuất bản cuốn sách của ông đề xuất một số mô hình cho ứng đáp câu hỏi Trong những năm 1960, nhiều công việc trong lĩnh vực này

đã được đóng góp bởi Baker (1961) về so sánh thực nghiệm giữa các tiêu chí của bài thi Có thể kể ra và Novick (1968), và Wright (1968) đã làm việc trên các mô hình nhị phân Samejima đề xuất mô hình đa phân trong năm 1969 Nhóm học giả này đã mang lại các kết quả đáng kể trong lĩnh vực này Thông qua những năm 1970 và 1980, một nhóm học giả mới nổi lên bao gồm Aldrich (1978), Anderson (1977, 1980), Hambleton và Swaminathan (1986), Wright and Stone (1979), Swaminathan và Rogers (1981), và Harris (1989) Cũng có những đóng góp quan trọng cho lý thuyết khảo thí hiện đại [B4] Vào những năm 2000, lĩnh vực IRT đã được thúc đẩy bởi một làn sóng các nhà nghiên cứu mới, những người không chỉ mở rộng các khía cạnh lý thuyết (dự toán, xác định mô hình, và sự phù hợp), mà còn nâng cao các khía cạnh tính toán và ứng dụng của nó Nghiên cứu sâu rộng về IRT trong 50 năm qua năm đã được thể hiện bằng sự gia tăng số lượng các gói phần mềm được thiết kế để phân tích câu hỏi dữ liệu phản hồi từ các khảo sát hoặc kiểm tra Nhiều phần mềm thương mại khác của IRT cũng được tạo ra như BILOG, MULTILOG, WINSTEPS, IRTPRO, MPLUS, QUEST, CONQUEST và HLM, là các ví dụ Quan trọng hơn nữa là một số gói IRT đã được phát triển trong phần mềm mã nguồn mở R để ước tính các mô hình IRT khác nhau cũng xuất hiện và đã được công nhận Bao gồm các gói ltm cho IRT không giới hạn ((Rizopoulos, 2006), eRm cho các mô hình Rasch mở rộng (Mair & Hatzinger, 2007), mlirt cho đánh giá đa cấp và Bayesian của một số mô hình IRT (Fox, 2007), gpcm (Johnson, 2007) cho một dự toán Bayesian của mô hình tín dụng một phần tổng quát, MCMCpack cho Bayesian IRT (Martin, Quinn, & Park, 2011), và mirt cho IRT

đa chiều (Chalmers, 2012) De Boeck (2008) và Wilson (2008) đã sử dụng gói thống

kê chung lme4 và kết hợp các mô hình Rasch theo mô hình hỗn hợp tuyến tính tổng quát Điều này làm cho có thể sử dụng SAS PROC NLMIXED (SAS Institute Inc.) cho IRT

Bước ngoặt cho sự phát triển nở rộ là ý tưởng thay mô hình dạng vòm chuẩn mà Birnbaum và Lord đề xuất cho hàm đặc trưng câu hỏi bằng mô hình logistic mà George Rasch đề xuất Từ đây các khó khăn về mô hình toán học trong IRT được tháo

gỡ Trên cơ sở IRT công nghệ trắc nghiệm thích ứng nhờ máy tính (Computer

Trang 27

Adaptive Test – CAT) ra đời Ngoài ra, trên cơ sở những thành tựu của IRT, công nghệ E-RATE chấm tự động các bài tự luận tiếng Anh nhờ máy tính của ETS đã được triển khai nhờ mạng Internet trong nhiều năm qua Hiện nay một số nước Nhật, Thái Lan, Trung Quốc bước đầu áp dụng lý thuyết IRT vào các kì thi diện rông của mình

Trang 28

1.1.5.2 Ứng dụng trắc nghiệm ở Việt Nam

Khoa học về đo lường và đánh giá trong giáo dục ở nước ta thực sự chưa được quan tâm đúng mức Trước đây do chiến tranh, nên các chuyên gia về đo lường đánh giá ở miền Bắc gần như không có Trước năm 1975, ở Miền Nam nước ta có một vài người được đào tạo bài bản về đo lường đánh giá như GS Dương Thiệu Tống Những năm 90 bộ giáo dục đã bước đầu có định hướng gửi đi đào tạo các nước phát triển các chuyên gia về đo lường đánh giá, nhưng số lượng còn quá ít Hiện nay ngay trong một

số trường sư phạm môn đo lường đánh giá vẫn chưa được giảng dạy như một môn học chính khóa Các sách viết về khoa học đo lường cho đến nay chủ yếu của hai giáo sư

GS Dương Thiệu Tống và GS Lâm Quang Thiệp Các cuốn sách này tương đối hàn lâm với đa số người đọc và giáo viên Tuy nhiên những năm gần đây các hội thảo, khóa học ngắn về đo lường đánh giá đã được các trường đại học, bộ giáo dục tổ chức thường xuyên nhằm từng bước “xóa mù”, phổ cập cho giáo viên và các nhà quản lý giáo dục Các kì thi trung học phổ thông quốc gia chuyển dần sang hình thức thi trắc nghiệm và ứng dụng khoa học khảo thí vào công việc thiết kế, xây dựng, phân tích đề thi Đây là một vấn đề khoa học tương đối mới nên đôi ngũ nghiên cứu, đào tạo làm chuyên môn về khỏa thí hiện đại chưa nhiều chủ yếu các nhóm nghiên cứu nằm trong trường hoặc liên quan đến ĐHQG HN

Trang 29

1.2 Lý thuyết đánh giá cổ điển

Mặc dù IRT đã được nghiên cứu trong 50 năm qua, CTT vẫn được nghiên cứu

và áp dụng liên tục Nhiều chương trình thử nghiệm vẫn còn thực hiện CTT trong thiết

kế và đánh giá kết quả kiểm tra Điều này là do một số lợi thế CTT so với IRT Ví dụ, CTT mô tả mối quan hệ giữa điểm số thực và điểm quan sát theo một cách tuyến tính làm cho mô hình CTT dễ hiểu và áp dụng nhiều nhà nghiên cứu Nó dựa hoàn toàn vào tổng số điểm hoặc điểm số của chính các câu trả lời Điểm quan sát của thí sinh là tổng

số điểm đạt được của mỗi thí sinh và nó khác với điểm số thực sự của một điểm số lỗi thông thường Phương pháp tính điểm này đã tạo ra một số lợi thế cũng như hạn chế Lợi thế đầu tiên của CTT là các phân tích yêu cầu kích cỡ mẫu nhỏ hơn IRT Thứ hai, CTT thủ tục toán học đơn giản hơn nhiều so với IRT, vì các mô hình trong CTT là tuyến tính trong khi các mô hình của IRT là phi tuyến Thứ ba, mô hình tham số ước tính trong CTT là khái niệm đơn giản và đòi hỏi tối thiểu giả định, làm cho các mô hình hữu ích và áp dụng rộng rãi Thứ tư, các phân tích không yêu cầu sự nghiêm chỉnh của các nghiên cứu phù hợp như trong IRT Tuy nhiên, CTT có một vài nhược điểm lớn Nền tảng của nhiều phân tích CTT là các đặc tính của các bài kiểm tra khó khăn và độ tin cậy Các chỉ số này được đo bằng tỷ lệ của phần %, p, của người kiểm tra, người mà trả lời câu hỏi một cách chính xác và tổng số câu hỏi tương quan, r: Tuy nhiên, các chỉ số không liên tục vì chúng hoàn toàn phụ thuộc vào mẫu của thí sinh được lấy Không thể sử dụng chúng để chỉ ra đặc trưng hoặc chất lượng của một bài kiểm tra Một nhược điểm nữa đó là điểm thi của thí sinh được kiểm chứng Nghĩa là, thí sinh có thể đạt được điểm cao hơn trên một bài kiểm tra dễ dàng hơn và điểm thấp hơn trên một khó kiểm tra, và do đó không có điểm số thực sự có thể được trích xuất Điều này không cho phép một cơ sở để kết hợp bài kiểm tra và mức độ khả năng Theo nghĩa này, IRT có nhiều lợi ích hơn CTT Trong khung IRT, các đặc điểm của mục là độc lập mẫu và điểm tiềm ẩn của một cá nhân được kiểm tra độc lập với điều kiện là các mô hình được lựa chọn phù hợp với dữ liệu Vì vậy, điểm số mô tả trình độ thí sinh không phụ thuộc vào số lượng cũng như năng lực của mẫu thử nghiệm Điểm số của họ có thể thấp hơn khi các bài kiểm tra khó hơn và cao hơn các bài kiểm tra dễ dàng hơn nhưng điểm số về khả năng của chúng vẫn không đổi so với bất kỳ bài kiểm tra nào tại thời điểm thử nghiệm hoặc khảo sát IRT cũng cho phép tính toán xác suất

Trang 30

của một người trả lời cụ thể chọn một trên một câu hỏi kiểm tra Các bài kiểm tra mẫu độc lập tạo điều kiện thuận lợi cho việc thiết kế bài kiểm tra thích nghi trên máy tính, cho phép so sánh chính xác hơn hoặc xác định rõ năng lực người kiểm tra Hơn nữa, IRT có thể được sử dụng để sàng lọc quy mô lớn hoặc rời rạc, vì nó có khả năng tính toán tiêu chuẩn lỗi và do đó cung cấp thông tin về chất lượng của mỗi câu hỏi thi Hỗ trợ này với việc làm quyết định lựa chọn các câu hỏi để loại trừ hoặc đưa vào một câu hỏi kiểm tra trong bài thi Ngoài ra, các câu hỏi cũng được lựa chọn dựa trên các chỉ số

độ khó, độ phân biệt của câu hỏi, nghĩa là khả năng của họ phân biệt các nhóm có đặc điểm tiềm ẩn thấp và cao Mặc dù có những ưu điểm, các mô hình IRT cũng có những thiếu sót hạn chế của nó Về mặt kỹ thuật, các mô hình thường quá phức tạp hơn và các phương pháp ước lượng tham số thường liên quan đến phương pháp số, các công thức toán học Các đặc điểm tiềm ẩn cũng như các thông số của câu hỏi thi cũng có thể khó giải thích cả bằng đồ họa và số Do vậy mà mô hình CTT vẫn được nghiên và dùng phổ biến hiện nay Để nắm chắc về lý thuyết khảo thí cổ điển chúng ta cần biết rõ

về các khái niệm thống kê, các đặc trưng của câu hỏi trắc nghiệm,…

1.2.1 Các tham số đặc trưng của cầu hỏi trắc nghiệm và phân tích đề trắc nghiệm

1.2.1.1 Công thức tính độ khó của câu trắc nghiệm

Đề thi được cho là dễ khi tỉ lệ học sinh làm đúng trên tổng số thí sinh dự thi là một số gần bằng 1, ngược lại, khi tỉ lệ này gần bằng 0 Từ ý tưởng đó, người ta đi đến công thức tính độ khó của câu trắc nghiệm như sau:

Độ khó của câu i =

Số người trả lời đúng câu i Tổng sổ người làm bài trắc nghiệm Khi nào độ khó của câu trắc nghiệm (TN) bằng 0? Khi nào độ khó của câu TN bằng 1? Như vậy độ khó của câu TN có thể có những giá trị từ bao nhiêu đến bao nhiêu? Độ khó càng gần 0 thì câu TN càng khó Độ khó càng gần 1 thì câu TN càng

dễ Thực ra độ khó ở đây được hiểu là năng lực thực hiện câu hỏi của TS

1.2.1.2 Xác định độ khó vừa phải của câu trắc nghiệm

Trang 31

Để có thể kết luận được rằng một câu TN là dễ, khó hay vừa sức học sinh (HS), trước hết ta phải tính độ khó của câu TN ấy rồi so sánh với độ khó vừa phải (ĐKVP) của loại câu TN ấy

- Nếu độ khó của câu TN > ĐKVP thì ta kết luận rằng câu TN ây là dễ so với trình độ HS lớp làm trắc nghiệm

- Nếu độ khó của câu TN < ĐKVP, thì ta kết luận rằng câu TN ấy là khó so với trình độ HS của lớp làm trắc nghiệm

- Nếu độ khó của câu TN xấp xỉ với ĐKVP, thì ta kết luận rằng câu TN vừa sức với trình độ HS của lớp làm trắc nghiệm

Ta có thể biểu diễn điều ấy trên một trục hoành như sau:

ĐKVP

Nhưng làm cách nào để tính được ĐKVP của câu TN?

Công thức tính ĐKVP:

Độ khó vừa phải câu i =

100% + % may rủi

2 Mỗi loại câu TN có tỉ lệ % may rủi khác nhau Loại câu đúng- sai có tỉ lệ % may rủi là 50%, loại câu có 4 lựa chọn có tỉ lệ % may rủi là 25%, loại câu có 5 lựa chọn có tỉ lệ % may rủi là 20% Từ đó bạn hãy tính độ khó vừa phải của từng loại câu

TN và nếu bạn có được độ khó của một câu TN, thì bạn có thể kết luận được rằng câu

TN ấy là khó hay dễ so với trình độ HS lớp làm trắc nghiệm

1.2.1.3 Độ phân biệt của câu hỏi

Độ phân biệt của một câu TN là một chỉ số giúp ta phân biệt được HS giỏi với

HS kém Cho nên, một bài TN gồm toàn những câu TN có độ phân cách tốt trở lên sẽ

là một công cụ đo lường có tính tin cậy cao Nhưng làm cách nào để tính được độ phân

Trang 32

cách của câu TN? Sau khi đã chấm và cộng tổng điểm của từng bài TN, ta có thể thực hiện các bước sau để biết được độ phân cách của một câu TN:

Bước 1: Xếp đặt các bài làm của học sinh (đã chấm, cộng điểm) theo thứ tự

tổng điểm từ cao đến thấp

Bước 2: Căn cứ trên tổng số bài TN, lấy 27% của tổng số bài làm có điểm từ bài

cao nhất trở xuống xếp vào nhóm CAO và 27% tổng số bài làm có điểm từ bài thấp nhất trở lên xếp vào nhóm THẤP

Bước 3: Tính tỉ lệ phần trăm học sinh làm đúng câu TN riêng cho từng nhóm

(CAO, THẤP) bằng cách đếm số người làm đúng trong mỗi nhóm và chia cho số người của nhóm (lưu ý: số người mỗi nhóm = 27% tổng số bài làm học sinh)

Bước 4: Tính độ phân cách câu (D) theo công thức: D = Tỉ lệ % nhóm cao làm

đúng câu TN - Tỉ lệ % nhóm thấp làm đúng câu TN

Lặp lại các bước 3 và 4 cho mỗi câu trắc nghiệm khác

Chú thích: Có thể tính độ phân cách của một câu trắc nghiệm theo cách tương

đương: Thực hiện bước 1 và 2 như mô tả trên Trong bước 3 đếm số người làm đúng trong mỗi nhóm, gọi là Đúng (CAO) và Đúng (THẤP) Sau đó thay vào công thức (bước 4):

* D ≥ 0.40 Câu TN có độ phân cách rất tốt

*0.30 ≤ D ≤0.39 Câu TN có độ phân cách khá tốt nhưng có thể làm cho tốt hơn

*0.20 ≤ D ≤0.29 Câu TN có độ phân cách tạm được, cần phải điều chỉnh

* D ≤0.19 Câu TN có độ phân cách kém cần phải loại bỏ hay phải sửa chữa nhiều

1.2.1.4 Phân tích đề thi

Trang 33

a) Phân tích đáp án: Đáp án là lựa chọn được xác định là ĐÚNG NHẤT trong số các

lựa chọn của phần trả lời câu MCQ (hoặc là giá trị ĐÚNG của mệnh đề trong câu

Đúng - Sai) Một câu hỏi tốt nếu số người trả lời đúng ở nhóm cao hơn số người trả lời

đúng ở nhóm thấp Một câu hỏi có độ phân biệt tốt là tỉ lệ % số người ở nhóm cao

chọn đáp án phải nhiều hơn số người ở nhóm thấp chọn đáp án từ 40% trở lên

b) Phân tích mồi nhử: Khác với đáp án, mồi nhử là những lựa chọn được xác định là

SAI trong phần trả lời Chúng được tập hợp từ những câu trả lời sai trong bài làm của

nhiều HS khi làm những câu hỏi dạng luận đề giáo viên đặt

Vì vậy, một mồi nhử được gọi là tốt khi HS thuộc nhóm CAO ít chọn nó, còn

HS thuộc nhóm THẤP chọn nó nhiều hơn, nghĩa là sự chênh lệch số người chọn (hoặc

tỉ lệ%) của hai nhóm là lớn Để làm rõ hơn ý vừa nói, ta hãy phân tích đáp án và mồi nhử của câu 1

Bảng 1.3 Mô tả câu nhóm các câu hỏi trắc nghiệm

Ghi chú: B* là đáp án

Nhân xét các lựa chọn câu 1: Quan sát các mồi nhử A, C, D ta thấy số người ở

nhóm thấp chọn nhiều hơn số người ở nhóm cao nhưng mức độ chênh lệch không nhiều, cho nên ta có thể nhận định đầy là những mồi nhử chưa tốt lắm Thêm vào đó, tỉ

lệ % số người ở nhóm cao chọn đáp án B hơn tỉ lệ % số người ở nhóm thấp chọn đáp

án B chỉ có 27% nên độ phân cách của câu này không cao Ta hãy xem lại nội dung cụ thể của câu trắc nghiệm số 1 này (đáp án = B):

1.2.1.5 Một số tiêu chuẩn để chọn câu trắc nghiệm

Khi chọn câu TN được chọn (lưu vào ngân hàng đề) ta cần chú ý:

(1) Những câu TN có độ khó quá thấp hay quá cao, đồng thời có độ phân cách

âm hoặc quá thấp là những câu kém cần phải xem lại để loại đi hay sửa chữa lại

Trang 34

(2) Với đáp án trong câu TN, số người nhóm cao chọn phải nhiều hơn số người nhóm thấp

(3) Với các mồi nhử, số người trong nhóm cao chọn phải ít hơn số người trong nhóm thấp

Dựa và các tiêu chí trên chúng ta hoàn toàn có thể xây dựng được các đề trắc nghiệm chất lượng Tuy nhiên như đã phân tích ở phần trước Với các mẫu thay đổi, thì các tham số đặc trưng của câu hỏi (độ khó, độ phân biệt, ) cũng thay đổi theo Nên trong lý thuyết CTT vẫn đề chọn mẫu là rất quan trọng

1.2.2 Điểm số học tập

1.2.2.1 Điểm thô (raw scores)

Điểm số trên một bài thi (bài tự luận, bài trắc nghiệm lớp học hay bài trắc nghiệm được tiêu chuẩn hóa) thường được xác định bởi điểm của mỗi câu Bài tự luận, điểm số một câu hỏi có thể lớn hơn 1, trong đó một số ý đặc trưng trong câu trả lời được cho điểm theo một thang điểm đã định trước Với bài trắc nghiệm, mỗi câu hỏi chỉ có thể quy về đúng hay sai Câu trả lời đúng thường được tính là 1 điểm Tổng cộng các điểm số từng câu trắc nghiệm được gọi là điểm thô Ta thấy điểm thô của bài trắc nghiệm không giúp ta so sánh giữa các bài trắc nghiệm có độ khó khác nhau Vì vậy thường phải đổi điểm thô thành các loại điểm khác phù hợp với việc nghiên cứu,

trình bày và giải thích Hiện nay ở nước ta áp dụng điểm từ 0 đến 10

1.2.2.2 Điểm phần trăm đúng

Điểm số này tính bằng tỉ lệ phần trăm, theo công thức: X = 100 Đ/T Trong đó:

X = điểm tính theo tỉ lệ %;

Đ = số câu học sinh làm đúng;

T = tổng số câu của bài trắc nghiệm

Điểm phần trăm đúng so sánh điểm của học sinh này với điểm số tôi đa có thể đạt được Đây là một loại điểm tuyệt đối Yếu tố xác định điểm số này là độ khó của nội dung bài trắc nghiệm, cần thận trọng khi sử dụng nó, vì dễ bị chủ quan của người

ra đề và thường không đo lường được mức khả năng thực của học sinh Bởi vì người

ra đề thi có thể thay đổi số câu trắc nghiệm dễ hay khó tùy theo ý muốn

Trang 35

1.2.2.3 Điểm chữ

Về căn bản cũng giống nhƣ điểm phần trăm đúng, điểm chữ dùng các mẫu tự A,

B, C, D, v.v… và có thể ấn định: điểm A gồm các điểm phần trăm đúng từ 90 đến 100, điểm B gồm các điểm phần trăm đúng từ 70 đến 89, điểm C gồm các điểm phần trăm

đúng từ 50 đến 69, v.v…

Trang 36

1.2.2.4 Thứ hạng bách phân (Percentile Ranks, thường viết là PR)

Đây là điểm có được do sự biến đổi các điểm thô ra thành các trị số phần trăm

trong một nhóm chọn làm chuẩn mực

a) Định nghĩa: Thứ hạng bách phân là một con số nằm giữa 0 và 100, cho biết có bao

nhiêu phần trăm trường hợp điểm số trong nhóm chuẩn mực rơi vào chính điểm số ấy

hay ở dưới nó

b) Ý nghĩa: Dùng điểm PR có thể so sánh điểm của các học sinh làm bài trắc nghiệm

này với một nhóm lớn đã được chọn làm chuẩn mực

1.2.2.5 Điểm tiêu chuẩn (Standard scores)

a) Mô tả: Điểm tiêu chuẩn là điểm biến đổi từ điểm thô dựa trên cơ sở độ lệch tiêu

chuẩn của phân bố điểm số Chúng có thể được xem như là những điểm số đã được gán cho một trung bình và một độ lệch tiêu chuân nào đó Nó thường được sử dụng trong trắc nghiệm vì một số đặc tính sau:

- Mỗi loại điểm tiêu chuẩn có trung bình và độ lệch tiêu chuẩn chung cho mọi bài trắc nghiệm và mọi nhóm người

- Điểm tiêu chuẩn cho phép ta thực hiện so sánh các trắc nghiệm hoặc giữa các nhóm người

- Có thể xử lý bằng mọi phương pháp toán học

b) Các loại điểm tiêu chuẩn thông dụng: điểm Z, điểm V Ở nước ngoài còn có

điểm Stanine (9 bậc), điểm C-Guilford, điểm T, Điểm AGCT, điểm CEEB Về trắc nghiệm trí tuệ người ta dùng thương số trí tuệ IQ (với các trắc nghiệm Vechsler,

Stanford - Binet, v.v…)

c) Ưu, nhược điểm của các loại điểm tiêu chuẩn: Điểm tiêu chuẩn có ưu điểm hơn

điểm % đúng, thứ hạng bách phân vị nó có thể dùng tính toán hoặc đối chiếu các kết quả Như: cộng các điểm tiêu chuẩn của nhiều bài trắc nghiệm môn học khác nhau để tính trung bình (ta vẫn hay làm trong điểm bài luận đề lâu nay); so sánh hai hay nhiều điểm trung bình của 1 bài trắc nghiệm ra trên nhiều nhóm, đối chiếu điểm trên các bài trắc nghiệm khác nhau; tính hệ số tương quan (với một bài trắc nghiệm đã chuẩn hóa)

Trang 37

để xác định tính giám của bài trắc nghiệm mới soạn Nhược điểm của điểm tiêu chuẩn

là:

+ Nếu các dữ kiện có độ xiên quá lớn thì việc sử dụng điểm tiêu chuẩn là không thích hợp vì là một loại điểm tương đối, nếu bài quá dễ hay quá khó đối với nhóm học sinh thì điểm trung bình bị lệch nhiều so với vùng trung tâm Các điểm số không còn phản ánh đúng thực chất khả năng lĩnh hội bài học của học sinh

+ Vì điểm tiêu chuẩn phụ thuộc vào độ lệch tiêu chuẩn nên khó giải thích ý nghĩa của các điểm số trắc nghiệm Học sinh đạt 7 môn Anh văn có thể là giỏi trong lớp, trong khi điểm 7 môn Toán chỉ là khá trong lớp đó

1.2.2.6 Công thức đổi điểm thô sang một số điểm tiêu chuẩn

a) Điểm Z (Z score): Điểm Z liên hệ đến phân bố bình thường tiêu chuẩn với trung

bình = 0 và độ lệch tiêu chuẩn = 1

Công thức chuyển đổi: Z = (X – điểm trung bình X) / s

Trong đó X là một điểm thô; X = điểm thô trung bình của nhóm làm trắc nghiệm; s = độ lệch tiêu chuẩn của nhóm

Điểm Z cho biết vị trí của một học sinh có điểm thô X so với trung bình của nhóm học sinh cùng làm bài trắc nghiệm

Bảng Z và công dụng: Đây là bảng cho các trị số là diện tích tính theo tỉ lệ %

Diện tích này chính là tích phân (tích phân Laplace) giới hạn bởi đường cong bình thường tiêu chuẩn (đường Gauss, N(0,1)) với trục hoành tính từ giá trị Z = 0 (tức ngay tại trị trung bình) đến giá trị Z > 0 xác định nào đó (xin xem bảng Z đính kèm cuối chương này) Do tính đối xứng của đường cong qua trục tung (Z=0) nên tổng diện tích trong bảng (từ trung bình trở lên) sẽ là 50%

Công dụng: trị số đọc trong bảng cho ta tính ước lượng tỉ lệ % học sinh ở phía dưới hay phía trên một học sinh đạt điểm số Z nào đó

b) Điểm tiêu chuẩn V: Căn bản giống như điểm Z, nhưng được quy về phân bố bình

thường có trung bình = 10 và độ lệch tiêu chuẩn là 4 Loại điểm này được áp dụng tại

Việt Nam trước 1975, với hệ thống điểm cho từ 0 -> 20 Để có điểm V, trước hết đổi

điểm thô X ra Z, sau đó áp dụng công thức và làm tròn số để nhận được giá trị nguyên:

Trang 38

Điểm tiêu chuẩn V = 4Z + 10 Ngày nay, để phù hợp với hệ thống điểm từ 0 -> 10, có thể dùng điểm tiêu chuẩn V mới với trung bình = 5 và độ lệch tiêu chuẩn là 2 Điểm V (mới) = 2Z + 5

Tổng quát, nếu ta đổi một điểm thô X sang một loại điểm tiêu chuẩn Xtc có trung bình = Mtc và độ lệch tiệu chuẩn = stc nhờ trung gian điểm Z thì áp dụng công thức: Điểm tiêu chuẩn Xtc = Stc Z + Mtc

Chúng ta đã làm quen với khái niệm điểm thô của bài trắc nghiệm cùng nhiều loại điểm số khác thường được sử dụng trong trắc nghiệm Điểm thô là tổng điểm các câu học sinh làm đúng Điểm phần trăm đúng, thứ bậc bách phân, điểm tiêu chuẩn là điểm được biến đổi từ điểm thô theo các cách khác nhau Trong quá trình tiếp cận các công thức tính ta cũng tìm hiểu cả ý nghĩa và giải thích công dụng của từng loại điểm Trong các loại điểm đã đề cập, ta chú ý nhiều đến điểm tiêu chuẩn vì các ưu điểm của

nó Tuy nhiên, ta cần nhớ rằng không có một loại điểm nào là hoàn hảo mà tùy thuộc vào mục đích sử dụng, vào tính chất của bài thi mà ta chọn một loại điểm phù hợp

Trang 39

1.3 Lý thuyết ứng đáp câu hỏi

Lý thuyết đánh giá cổ điển (CTT) là cách tiếp cận chi phối cho đến năm 1953 khi Frederic Lord đã công bố luận văn tiến sĩ của mình về Lý thuyết năng lực tiềm ẩn (Latent Trait Theory) Vào những năm 1970, lý thuyết ứng đáp câu hỏi (IRT – Item Response Theory) bước đầu có những nghiên cứu một cách đột phá và đầy đủ Đầu những năm 2000 khi các công cụ tính toán (phần mềm chuyên dụng) hỗ trợ tốt hơn ứng dụng IRT vào các hệ thống đánh giá, khảo thí mới thực sự diễn ra Tuy nhiên các trung tâm nghiên cứu về IRT chủ yếu vẫn Mỹ hoặc liên quan đến các trường đại học ở

Mỹ IRT được xây dựng dựa trên một số tiên đề và dựa trên một hàm phân bố xác suất của năng lực thí sinh theo các tham số (độ khó,…) của câu hỏi

1.3.1 Tổng quan về lý thuyết ứng đáp câu hỏi

Để đo lường năng lực của thí sinh (TS), chúng ta cần bộ câu hỏi (CH) được thiết kế đúng mục tiêu cần đo Khi đó năng lực của thí sinh là một đại lượng ẩn, nó chỉ được biểu hiện thông qua quan sát phản ứng của TS với các câu hỏi Chúng ta cần công nhận với nhau rằng:

- Năng lực tiềm ẩn (latent trait) cần đo chỉ có một chiều (unidimensionality),

hoặc ta chỉ quan tâm đo một chiều của năng lực đó mà các chiều năng lực khác không ảnh hưởng

- Các câu hỏi trong một bài thi là độc lập với nhau địa tức là việc trả lời một

CH không ảnh hưởng đến các CH khác trong cùng một đề thi

Khi đó chúng ta sẽ có một tương quan giữa năng lực của TS biểu hiện qua sự ứng đáp của TS vỡi mỗi câu hỏi và bộ công cụ đo (bộ CH) độc lập địa phương với nhau (các câu hỏi không ảnh hưởng lẫn nhau) Mô hình về mối tương quan này đã được Allen Birnbaum và Lord đề xuất mô hình vòm chuẩn (dạng phân phối chuẩn) để biểu diễn mỗi quan hệ năng lực ứng đáp của TS với CH Tuy nhiên mô hình toán học của dạng vòm chuẩn là quá phức tạp, và Birnbaum còn đề xuất một mô hình có luôn tham số độ khó, độ phân biệt nên việc tính toán ban đầu gặp rất nhiều khó khăn Năm

1960 (thực ra năm 1953) George Rasch đề xuất một mô hình mới là mô hình logistic thây thế cho mô hình vòm chuẩn, đồng thời Rasch chỉ đưa vào mô hình của mình một tham số là độ khó Do vậy Rasch đã xây dựng được cơ sở lý thuyết của nó, phá dỡ các

Trang 40

rào cản mà mô hình của Lord và Birnbaum gặp phải Thực tế sau này (những năm 70) các nhà nghiên cứu thế hệ hai đã dễ dàng chứng mình được hai mô hình: Vòm chuẩn

và logistic là tương đương nhau đồng thời trên mô hình logistic ta có thể đưa vào các tham số khác ngoài độ khó như độ phân biệt, độ đoán mò,… Chúng ta sẽ tiếp cận mô hình logistic lần lượt một, hai, ba tham số ở đoạn sau

Ứng với mỗi câu hỏi trong đề thi, dùng đề đo các năng lực khác nhau, mỗi năng lực có các đáp ứng khác nhau lên câu hỏi Theo [3, tr 87] người ta giả định là có

một hàm đặc trưng câu hỏi (Hàm ĐTCH - Item Characteristic Function) phản ánh mối

quan hệ giữa các biến không quan sát được (năng lực của TS) và các biến quan sát

được (việc trả lời CH) Đồ thị biểu diễn hàm đó được gọi là đường cong đặc trưng câu hỏi (Đường cong ĐTCH - Item Characteristic Curve)

Đối với các cặp TS – CH, cần xây dựng một thang đo chung để biểu diễn mối tương tác giữa năng lực tiềm ẩn và đáp ứng với độ khó câu hỏi Theo [3, tr 87 – 88],

ta có thể biểu diễn năng lực tiềm ẩn của các TS bằng một biến liên tục θ dọc theo một trục, từ –∞ đến +∞ Khi xét phân bố năng lực của một tập hợp TS nào đó, ta gán giá trị trung bình của phân bố năng lực của tập hợp TS đó bằng không làm gốc của thang đo năng lực, và độ lệch tiêu chuẩn của phân bố năng lực bằng 1 Chọn một thuộc tính của

CH để đối sánh với năng lực: tham số biểu diễn thuộc tính quan trọng nhất đó là độ khó b của CH (cần lưu ý là đại lượng độ khó ở đây sẽ được xác định khác với trong

CTT) Cũng theo cách tương tự có thể biểu diễn độ khó của các CH bằng một biến liên tục dọc theo một trục, từ –∞ đến +∞ Khi xét phân bố độ khó của một tập hợp CH nào

đó, ta chọn giá trị trung bình của phân bố độ khó đó bằng không (0), làm gốc của thang đo độ khó, và độ lệch tiêu chuẩn của phân bố độ khó CH bằng 1

1.3.2 Hàm đặc trưng câu hỏi

Có nhiều cách tiếp cận để xây dựng mô hình hàm đặc trưng câu hỏi, nhưng cách xây dựng của Baker [10] là dễ hiểu và dễ tiếp cận Tài liệu [3] của giáo sư Lâm Quang Thiệp viết về vấn đề này cũng hết sức logic, súc tích và dễ hiểu Theo [3, tr 89 – 91], Giả thiết cơ bản sau đây của George Rasch, nhà toán học Đan Mạch, được đưa

ra làm cơ sở để xây dựng mô hình hàm đáp ứng CH một tham số:

Ngày đăng: 10/10/2019, 11:29

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w