Nghiên cứu áp dụng cả ý kiến chuyên gia phản hồi nhận xét từ giảng viên và ý kiến của cộng đồng người dự thi nhằm đưa ra một cách giải quyết việc trộn đề thi từ cách phân bố ngẫu nhiên c
Trang 1Trang i
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG
NGHIÊN CỨU MÔ HÌNH BIỂU DIỄN KIẾN TRÚC
ĐỀ THI VÀ KHAI THÁC KẾT QUẢ THI NHẰM CHUẨN HÓA CHẤT LƯỢNG ĐỀ THI TẠI
TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM
MÃ SỐ: CS-2014-46
Chủ nhiệm: Đặng Thái Thịnh
TP Hồ Chí Minh, tháng 3/2015
Trang 2Trang ii
Trang 3Trang iii
NHẬN XÉT CỦA HỘI ĐỒNG NGHIỆM THU
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
………
Trang 4Trang iv
Trang 5Trang v
Danh mục các hình ảnh trong đề tài
Hình 1 Khung châu Âu CEFR 8
Hình 2 Biểu diễn câu hỏi dạng vector 12
Hình 3 Các câu hỏi được học không có giám sát để phân tách cụm 13
Hình 4 Ví dụ quá trình phân cụm 14
Hình 5 Phân cụm sử dụng K-means 15
Hình 6 Các bước của quá trình phân cụm 17
Hình 7 Giao diện phần mềm EMP Test 19
Hình 8 So sánh độ khó dựa ý kiến chuyên gia và cộng đồng (chưa sắp xếp) 27
Hình 9 So sánh độ khó dựa ý kiến chuyên gia và cộng đồng (đã sắp xếp) 27
Hình 10 Giao diện phần mềm khi làm thực nghiệm 27
Hình 11 Biểu đồ độ tương đồng giữa các đề thi (chuyên gia) 29
Hình 12 Biểu đồ độ tương đồng giữa các đề thi (cộng đồng) 29
Trang 6Trang vi
Danh mục các bảng biểu trong đề tài
Bảng 1 Bảng mô tả khung châu Âu CEFR 9
Bảng 2 Bảng so sánh các chứng chỉ tiếng Anh 10
Bảng 3 Ví dụ về đánh giá độ khó câu hỏi 11
Bảng 4 Ví dụ dữ liệu quá trình thi 11
Bảng 5 Ví dụ về tỷ lệ trả lời đúng ở câu hỏi 12
Bảng 6 Cách trộn đề ngẫu nhiên không phân cụm 19
Bảng 7 Cách trộn đề ngẫu nhiên có phân cụm 20
Bảng 8 Lượt trả lời câu hỏi ở thực nghiệm 24
Bảng 9 Tỷ lệ trả lời đúng ở các câu hỏi 25
Bảng 10 Độ khó dựa trên chuyên gia đánh giá 26
Bảng 11 Kết quả sinh đề thi 28
Bảng 12 So sánh bằng Pearson ý kiến chuyên gia giữa các đề thi 28
Bảng 13 So sánh bằng Pearson ý kiến cộng đồng giữa các đề thi 28
Trang 7Trang vii
Nội dung
Tóm tắt 1
Chương 1: Đặt vấn đề 2
1 Tính cấp thiết của nghiên cứu 2
2 Mục tiêu và phạm vi nghiên cứu 3
3 Bố cục của nghiên cứu: 4
Chương 2: Các nghiên cứu liên quan 5
Chương 3: Phương pháp thực hiện 11
1 Dữ liệu đầu vào 11
2 Biểu diễn phân cụm 12
3 Phân bố câu hỏi sau phân cụm 18
4 Kiến trúc trộn đề đề xuất 19
Chương 4: Thực nghiệm và kết quả 22
1 Sự tương đồng trong độ khó giữa các đề thi 22
2 Thực nghiệm 23
3 Đánh giá các phương pháp thực hiện: 29
Chương 5: Kết luận 32
Tài liệu tham khảo 33
Trang 8Trang 1
Tóm tắt
Nghiên cứu này nhằm áp dụng một số phương pháp trong tin học để biểu diễn kiến trúc đề thi; nghiên cứu cũng đề xuất cách thức khai thác kết quả thi nhằm chuẩn hóa, đánh giá lại ngân hàng đề thi; ứng dụng trong công tác khảo thí và chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM
Công tác ra đề thi hiện nay phụ thuộc hoàn toàn vào ý chí chủ quan của
cá nhân giảng viên hoặc hội đồng ra đề thi Tuy nhiên, kết quả thực tế từ thí sinh có thể phản ánh đúng hoặc không đúng qua điểm và nhận xét trước đó của người ra đề thi Nghiên cứu áp dụng cả ý kiến chuyên gia (phản hồi nhận xét từ giảng viên) và ý kiến của cộng đồng (người dự thi) nhằm đưa ra một cách giải quyết việc trộn đề thi từ cách phân bố ngẫu nhiên chuyển sang phân bố đề thi
ngẫu nhiên có chủ đích nhằm đạt đến mục tiêu: một là, phân bố ngẫu nhiên
đảm bảo theo điều kiện cho trước như phân bố theo đúng trật tự, số câu hỏi,
chương/mục/phần thỏa mãn tính bao quát của đề thi; hai là, phân bố câu hỏi
đảm bảo độ khó của nó được phân bố đều các đề thi, nghĩa là hai đề bất kỳ trong bộ đề mà sẽ mang cho thí sinh dự thi có độ khó tương đương nhau
Cách thức trộn đề thi được đề cập trên bắt đầu với dữ liệu chuyên gia (vì chưa có dữ liệu từ cộng đồng) và dần dần bị dữ liệu từ cộng đồng chi phối Nghĩa là, có sự kết hợp giữa ý kiến chủ quan của người ra đề và ý kiến khách quan của người dự thi qua nhiều lần Người ra đề có thể tham khảo kết quả phân tích, có thể thay đổi quan điểm của mình
Nghiên cứu này giả định rằng đề thi được bảo mật và có thể sử dụng nhiều lần trên các đối tượng khác nhau Các yếu tố như đề thi thi nhiều lần sẽ
bị lộ, người dự thi hầu như biết trước kết quả trả lời, hoặc các yếu tố khác ngoài nội dung câu hỏi làm ảnh hưởng đến tính phân loại độ khó của đề thi bị loại bỏ
Trang 9Trang 2
Chương 1: Đặt vấn đề
1 Tính cấp thiết của nghiên cứu
Hiện nay cách thức biểu diễn đề thi chủ yếu phụ thuộc vào phân cấp theo cây, tại mỗi node lá chứa nhiều câu hỏi Mỗi node lá tượng trưng cho một nhóm câu hỏi, khi trộn đề người giảng viên chia tỷ lệ chọn lựa câu hỏi trong mỗi nhóm để có một đề thi Quá trình này được lặp đi lặp lại thành ra nhiều đề thi Ưu điểm của cách trộn như trên một đề thi luôn giữ được cấu trúc định nghĩa trước về số lượng câu hỏi trong mỗi node lá (phần/chương/mục)
Tuy nhiên với cách truyền thống này, việc chọn câu hỏi trong từng node lá mang tính chất ngẫu nhiên, vì vậy:
Không thể hiện được độ khó tương đương của đề thi với nhau
Sự trùng lắp nhiều câu hỏi trong các đề thi có thể xảy ra do cách chọn ngẫu nhiên
Một số cách thức xây dựng ngân hàng câu hỏi có sự phân loại theo mức độ
“khó”, “dễ”, “trung bình”; hoăc sự phân loại theo nhóm câu hỏi thuộc về “phân tích”, “kiến thức” hay “kỹ năng” như tồn tại trong một số sách của nhà xuất bản Pearson tương tự như cách đề cập như trên nghĩa là chia nhỏ số lượng node
lá và làm cho người giảng viên vất vả hơn trong quá trình xác định số lượng câu hỏi phân hóa trong đề thi
Nghiên cứu nhằm đưa ra một cách tiếp cận kết hợp giữa cách phân nhóm câu hỏi, đưa ý kiến chuyên gia vào câu hỏi cùng với ý kiến thụ động của đại đa
số người dự thi nhằm tự động phân loại và điều chỉnh cách thức chọn câu hỏi nhằm đạt đến mục tiêu giảm thiểu sự trùng lắp câu hỏi giữa các đề thi nhưng đảm bảo độ khó tương đương giữa các đề thi với nhau
Ứng dụng tại Trường Đại học Kinh tế TP.HCM, phương pháp vừa được đề cập ở trên là cách thức hiện nay đang sử dụng tại Trường Ngoài ra, hệ thống thi trắc nghiệm trực tuyến được Phòng Công nghệ thông tin sử dụng có khả năng chọn lọc và lưu trữ liệu lịch sử thi đủ thông tin để quá trình khai thác kết quả thi (mining) có thể sử dụng để hiện thực hóa nghiên cứu trên
Hơn nữa, việc khai thác kết quả thi cung cấp cho giảng viên một cái nhìn lại
về cách đánh giá của mình qua ngân hàng đề thi Tính chủ quan có thể đúng hoặc sai, việc nhìn nhận trên dữ liệu thật trên các đối tượng dự thi khác nhau
Trang 10Trang 3
giúp người ra đề nhiều hơn thông tin để quyết định trong các lần sau, những quyết định có sự hỗ trợ của máy móc ra những báo cáo cho người ra quyết định
2 Mục tiêu và phạm vi nghiên cứu
Mục tiêu của nghiên cứu nhằm đưa ra một cách thức trộn đề thi từ cách thức khai thác kết quả thi từ hai nguồn dữ liệu:
Ý kiến chuyên gia (người ra đề/hội đồng ra đề)
Ý kiến thụ động của người dự thi
Mô hình được áp dụng, nghiên cứu nhằm đạt đến mục tiêu phân bố ngẫu nhiên đảm bảo theo điều kiện cho trước như phân bố theo đúng trật tự, số câu hỏi, chương/mục/phần thỏa mãn tính bao quát của đề thi; và phân bố câu hỏi đảm bảo độ khó của nó được phân bố đều các đề thi, nghĩa là hai đề bất kỳ trong bộ đề mà sẽ mang cho thí sinh dự thi có độ khó tương đương nhau
Nghiên cứu bị giới hạn bởi các yếu tố:
Thiếu ý kiến chuyên gia: việc đánh giá độ khó của câu hỏi phụ thuộc vào một vài chuyên gia, kết quả có thể chính xác hơn nếu có nhiều chuyên gia cùng thực hiện đánh giá câu hỏi Việc này làm phát sinh chi phí nhiều hơn
Ý kiến nhiễu từ người dự thi: nghiên cứu giả định rằng người
dự thi đã được đào tạo từ môn học hoặc lĩnh vực dự thi và cố gắng làm bài hết khả năng có thể Các mẫu nghiên cứu như làm bài thi bằng cách chọn ngẫu nhiên đáp án là rất nhỏ và không đáng kể
Các yếu tố khác ngoài nội dung câu hỏi như dấu hiệu nhận biết câu trả lời câu hỏi được loại bỏ
Ngân hàng đề thi được bảo mật và có thể sử dụng nhiều lần trên các đối tượng người dự thi khác nhau
Nghiên cứu nhằm đạt mục tiêu về độ khó tương đương giữa các đề thi, chưa quan tâm đến vấn đề làm rõ ràng thang điểm
“đạt” cho một người dự thi Nghĩa là, mục tiêu của bài thi được định nghĩa trước; đề thi tạo ra nhằm đáp ứng thế nào thì một thí sinh đạt được điểm đạt của đề thi đó (có thể đáp ứng tối thiểu mục tiêu bài thi) Mức điểm này do ý kiến chuyên
Trang 113 Bố cục của nghiên cứu:
Nghiên cứu được chia thành 5 chương: chương 1 nói về tổng quan nghiên cứu; chương 2 trình bày các nghiên cứu liên quan; chương 3 diễn tả phương pháp thực hiện; thực nghiệm và kết quả được trình bày ở chương 4; chương 5 tổng kết nghiên cứu, những hạn chế và hướng phát triển của đề tài
Trang 12Trang 5
Chương 2: Các nghiên cứu liên quan
Các kết luận đưa ra dựa trên tiêu chuẩn (standard) thử nghiệm quy mô lớn dựa vào sự tin cậy của các ngưỡng được sử dụng để cho thấy trình độ của một sinh viên có đạt được mức tiêu chuẩn hay không Các ngưỡng này, hay còn gọi là các tiêu chuẩn về trình độ, được đánh giá trong một quá trình thiết lập tiêu chuẩn và được định nghĩa như các vị trí trên thang điểm (cut-scores) Ví dụ điểm 5/10 là điểm đạt của rất nhiều môn học Không có tiêu chuẩn đánh giá trình độ nào là đúng, khách quan hay “vàng” (Kane, 1998a), và những tiêu chuẩn về trình độ chỉ có thể được coi như là một cách xét tính tin cậy nhiều hay
ít mà thôi Để đạt được các tiêu chuẩn trình độ đáng tin cậy, người ta đã đề xuất một số phương pháp
Nghiên cứu liên quan đến các tiêu chuẩn về trình độ, có thể được xem như là mục đích của quá trình học tập dựa trên việc đánh giá đối tượng có đạt được đủ trình độ kiến thức hoặc kỹ năng hay không (Hambleton & Pitoniak, 2006) Các tiêu chuẩn trình độ bao gồm cấp độ, mô tả và thang điểm (Hansche, 1998) Các cấp độ về trình độ như là dưới cơ bản, cơ bản, thành thạo và nâng cao – Chương trình đánh giá giáo dục quốc gia (Kane, 1998a) và rớt, qua, qua với mức ưu tú và qua với mức đặc biệt ưu tú – Chương trình thi quốc gia tại Thuỵ Điển (Skolverket, 2005) Mô tả trình độ là những mô tả tường thuật lại các đối tượng nên làm gì ở mỗi cấp độ trình độ (Hansche, 1998) Thang điểm là một mức điểm trên phạm vi điểm cho một bài kiểm tra thông thường để đánh giá một cấp độ (Kane, 2001) và chia các đối tượng thành hai loại trình độ dựa trên đánh giá thông thường (Cizek & Bunch, 2007)
Phương pháp thiết lập tiêu chuẩn
Số lượng lớn các phương pháp thiết lập tiêu chuẩn về trình độ mô tả trong tài liệu (xem tài liệu Cizek & Bunch, 2007) nói chung đều được mô tả dưới dạng lấy đối tượng làm trung tâm, lấy bài kiểm tra làm trung tâm hay sự kết hợp của cả hai phương pháp này (Jaeger, 1989) Phương pháp nào được chọn đều phụ thuộc vào những thuận lợi và bất lợi của những phương pháp khác nhau trong các bối cảnh khác nhau Kane (1994) đề xuất ba loại bằng chứng để bảo vệ các tiêu chuẩn về trình độ mà sử dụng phương pháp được chọn
Phương pháp lấy đối tượng làm trung tâm
Phương pháp lấy đối tượng làm trung tâm dựa trên những đánh giá về các đối tượng Phương pháp này phân loại đối tượng theo cấp độ - Practical Assessment, Research & Evaluation, Vol 13, No 9,Näsström & Nyström,
Trang 13Trang 6
Setting Performance Standards – (ví dụ như: không có khả năng, có khả năng, giới hạn) dựa trên một số tiêu chí bên ngoài khác với điểm bài kiểm tra (Giraud, Impara & Buckendahl, 1999/2000) Thông thường, bài kiểm tra được quản lý
để phân loại đối tượng và thang điểm được thiết lập dựa trên kết quả bài kiểm tra của họ (Cizek, 2006) Hai phương pháp lấy đối tượng làm trung tâm thông thường nhất là phương pháp nhóm giới hạn và phương pháp nhóm đối lập (xem
ví dụ Hambleton & Pitoniak, 2006) Phương pháp nhóm giới hạn được chọn làm phương pháp lấy đối tượng làm trung tâm trong bài nghiên cứu này, đơn giản chỉ bởi vì nó được coi là khái niệm đơn giản (Jaeger, 1989; Hambleton & Pitoniak, 2006) và được đề nghị cho những bài kiểm tra mang tính tổng thể và trả lời theo cấu trúc
Trong phương pháp nhóm giới hạn, những người đánh giá được yêu cầu định nghĩa đặc điểm của những đối tượng giới hạn và xác định đối tượng cụ thể phù hợp với những đặc điểm này (Livingstone & Zieky, 1982) Sau đó bài đánh giá được quản lý, cho điểm và phân tích, và điểm trung bình của các đối tượng giới hạn được sử dụng như là mốc điểm (Cizek, 2006) Nếu có nhiều hơn một mốc điểm, người ta sẽ thiết lập một nhóm giới hạn cho mỗi mốc điểm (Cohen, Kane & Crook, 1999) Theo Hambleton, Jaeger, Plake & Mills (2000), phương pháp nhóm giới hạn bị phụ thuộc, có nghĩa là nếu mẫu đối tượng và người đánh giá khác nhau thì độ tin cậy của thang điểm cũng cần phải đặt câu hỏi Tuy nhiên, việc xác định đối tượng giới hạn “chính xác” quan trọng hơn việc chọn mẫu đại diện (Lvingstone and Zieky, 1982)
Ưu của phương pháp nhóm giới hạn là sự đơn giản trong nội dung (Hambleton & Pitoniak, 2006), và thực tế những người đánh giá chỉ phải giải quyết những đối tượng tương tự nhau (Livingstone & Zieky, 1982) Nhược điểm của phương pháp này là tốn thời gian (Kane, 1998b), và yêu cầu phải có một nhóm lớn những người đánh giá (Hambleton & Pitoniak, 2006) và một nhóm mẫu lớn đối tượng (Cizek, 2006) Cũng có những người đánh giá có có
xu hướng đưa ra những yếu tố và trình độ không có trong bài đánh giá phân loại đối tượng (Hambleton, 2000) and xác định những đối tượng giới hạn khi không chắc chắn về trình độ của họ (Jaeger, 1989; Hambleton & Pitoniak, 2006) Có một vấn đề trong phương pháp nhóm giới hạn đó là thang điểm được cho bởi giảng viên có sinh viên có trình độ cao có xu hướng cao hơn giảng viên
Trang 14Trang 7
có sinh viên trình độ thấp (Livingstone & Zieky, 1989)
Phương pháp lấy bài kiểm tra làm trung tâm
Phương pháp lấy bài kiểm tra làm trung tâm dựa trên sự đánh giá về các mẫu trong việc đánh giá cụ thể Trong quá trình xem xét các mẫu đánh giá, người đánh giá sẽ quyết định cấp độ trình độ cần thiết để đáp ứng với từng tiêu chuẩn trình độ (Kane, 1998a) Việc này được thực hiện bởi những đánh giá về, trình độ mong muốn trên các đối tượng giả thiết là vừa đáp ứng các yêu cầu cho một tiêu chuẩn trình độ cụ thể (Hambleton & Pitoniak, 2006) Phương pháp Angoff, thủ tục của Ebel, phương pháp của Jaeger, thủ tục Nedelsky và phương pháp Bookmark là những ví dụ nổi tiếng của phương pháp lấy bài kiểm tra làm trung tâm, những phương pháp đó được mở rộng và sửa đổi theo nhiều cách (Kane, 1998b; Hambleton & Pitoniak, 2006) Phương pháp Angoff được chọn để đại diện cho các phương pháp lấy bài kiểm tra làm trung tâm bởi vì trong phiên bản ban đầu hay trong phiên bản được sửa đổi và mở rộng, nó là thủ tục được sử dụng rộng rãi nhất để thiết lập tiêu chuẩn (Hurtz & Auerbach, 2003) Ngoài ra, phiên bản mở rộng của phương pháp Angoff được sử dụng thường xuyên như là thủ tục thiết lập tiêu chuẩn của các kỳ thi toán quốc gia ở Thuỵ Điển
Khi phương pháp Angoff được áp dụng cho các bài kiểu tra với việc cho điểm đánh giá chỉ là đúng hoặc sai, những người đánh giá sẽ lên nội dung cho một các đối tượng chỉ vừa đủ tiêu chuẩn và ước tính tỷ trọng sẽ trả lời từng mục trong bài kiểm tra một cách chính xác (Cizek, 2006) Đối với mỗi người đánh giá, xác suất ước tính được tổng kết lại và tính trung bình để đề xuất ra một thang điểm (Ferdous & Plake, 2007)
Ưu điểm của phương pháp Angoff là dễ quản lý, có thang điểm bù (tức
là một điểm số cao trên một mẫu cân bằng với điểm số thấp trên một mẫu khác (Hambleton & Pitoniak, 2006), và phương pháp này có thể được thực hiện trước khi làm bài kiểm tra (Kane, 1998a) Nhược điểm của phương pháp này là tính chất phân tử (Hambleton, 2000), những người đánh giá gặp khó khăn trong việc đánh giá trình độ cho từng cá nhân trong một nhóm đối tượng chỉ có trình độ ở mức vừa đủ tiêu chuẩn, và có xu hướng đánh giá trình độ quá cao ở những mẫu dễ và đánh giá trình độ quá thấp ở những mẫu khó (Hambleton & Pitoniak, 2006)
Trang 15Trang 8
Nhận xét: Các phương pháp được đề cập ở trên đều xác định một mức
tiêu chuẩn và phân loại dựa trên đối tượng xét hoặc bài kiểm tra, kiến thức
đánh giá của chuyên gia còn quá nhiều, hoặc những phép toán thử nghiệm
thống kê còn đơn giản Việc mô tả các mức (điểm thấp, cao, rất cao…) còn quá
chung chung và khó lượng hóa
Đơn cử sau đây là một ví dụ về việc đề cập các mức lấy bài kiểm tra làm
trung tâm trong khung tiếng anh châu Âu (CEFR – Common European
Framework of Reference) [Tham khảo các tài liệu chuẩn tiếng anh]
Hình 1 Khung châu Âu CEFR
Nguồn ảnh hình 1: http://langgo.com/
Bảng mô tả khung châu Âu trong hình 1 được mô tả cụ thể theo bảng 1 sau đây
Có thể hiểu những chỉ dẫn, thông báo đơn giản liên quan đến các chủ điểm gần gũi, quen thuộc
Có thể điền
phiếu, biểu mẫu đơn giản liên quan đến bản thân (tên, tuổi, địa chỉ, ngày, giờ…)
A2 Có thể hiểu các từ và
cụm từ thường gặp
nhất liên quan trực
tiếp đến bản thân
như thông tin cá
nhân căn bản, mua
hoặc thông báo ngắn
nếu được phát âm rõ
ràng
Có thể bày tỏ ý kiến, yêu cầu đơn giản trong hoàn cảnh gần gũi với bản thân
Có thể hiểu nội dung chính những bài đọc ngắn, đơn giản, quen thuộc
Có thể điền vào các biểu mẫu, phiếu, bưu thiếp và viết thư đơn giản liên quan đến bản thân, gia đình, nhà trường
Trang 16Trang 9
B1 Nghe hiểu ý chính
các thông tin đơn
giản trong đời sống
xã hội thông thường
Có thể bày tỏ ý kiến một cách đơn giản về các vấn đề văn hoá,
xã hội quen thuộc
Đọc hiểu nội dung chính các tài liệu phổ thông liên quan đến các vấn đề văn hoá, xã hội quen thuộc
Có thể viết các đoạn vănngắn, đơn giản về các chủ đề quen thuộc phù hợp với sự hiểu biết của người học
B2 Có thể hiểu nội dung
đề quen thuộc
Đọc hiểu các thông tin cần thiết và thâu tóm được ý chính các văn bản liên quan đến chuyên môn và nghề nghiệp
Có thể ghi
chính về những điều
đã nghe hoặc đọc được Có thể viết thư giao dịch thông thường
C1 Nghe hiểu nội dung
và hoạt động xã hội thông thường
Có thể đọc đủ nhanh để nắm bắt các thông tin cần thiết qua các phương tiện thông tin đại chúng và tài liệu phổ thông
Có thể ghi chép tương đối chính xác nội dung chính trong các cuộc thảo luận, cuộc họp…và có thể viết các báo cáo liên quan đến chuyên môn
C2 Có thể hiểu dễ dàng
nội dung các cuộc
giao tiếp hàng ngày
và hoạt động chuyên
môn
Có thể nêu ý kiến hoặc trò chuyện
về các vấn đề tương đối phức tạp
Có thể hiểu các tài liệu, thư tín, báo cáo và hiểu nội dung cốt yếu của các văn bản phức tạp
Có thể viết về các vấn đề phục vụ nhu cầu cá nhân với cách diễn đạt tốt, chính xác
Bảng 1 Bảng mô tả khung châu Âu CEFR
Tuy nhiên lại tồn tại rất nhiều thang đo khác nhau là những chứng chỉ quy đổi lẫn nhau qua khung châu Âu Như vậy những giá trị điểm (cut-scores)
Trang 17Trang 10
được quy đổi bằng so sánh, thống kê, đối chiếu và ý kiến chuyên gia được thiết
kê như ví dụ sau (bảng 2):
CEFR TOEIC TOEIC TOEIC TOEFL TOEFL TOEFL TOEFL IELTS Cambridge
ESOL L&R S&W Bridge iBT CBT PBT ITP
Ơ mỗi bài thi các chứng chỉ trên (bảng 2), một khảo sát được thực hiện
trước khi bài thi xảy ra cho mỗi thí sinh nhằm nghiên cứu xem mức độ học
tiếng Anh của thí sinh và tự đánh giá năng lực trước khi có kết quả thi Vấn đề
này có thể sử dụng tham khảo để đánh giá và tìm các yếu tố ảnh hưởng đến kết
quả thí sinh Tuy nhiên phụ thuộc vào nhiễu hãng khảo sát khác nhau nên
những vấn đề này chưa được công bố đầy đủ
Nghiên cứu này đưa ra một cách tiếp cận khác nhằm kết hợp kiến thức
chuyên gia và dữ liệu thi để đưa ra một cách trộn đề thi, từ đó hỗ trợ người thực
hiện ra quyết định cho mức điểm đạt (cut-score) hoặc đưa ra các phân loại về
kết quả xếp hạng bài thi (classification) như giỏi, khá, trung bình, yếu Phương
pháp này được trình bày tiếp theo trong chương 3 của nghiên cứu này
Trang 18Trang 11
Chương 3: Phương pháp thực hiện
1 Dữ liệu đầu vào
Bước 1: Xây dựng ngân hàng câu hỏi;
Bước 2: Phân nhóm câu hỏi theo các phần/ chương/ mục;
Bước 3: Giảng viên đánh giá mức độ khó/dễ (như ví dụ ở bảng 3) cho từng câu hỏi trong ngân hàng trên thang điểm giá trị thập phân từ 0 đến 1 (tri thức chuyên gia) Trong đó càng khó thì số càng nhỏ (gần 0), càng dễ thì số càng cao (gần 10) Tất nhiên, không nên đánh giá 0 và 1 bởi lẽ, giảng viên đánh giá câu hỏi rất khó không ai trả lời được, hay câu hỏi quá dễ chắc chắn ai cũng trả lời được; thì câu hỏi có vấn đề về nội dung
gia)
Bảng 3 Ví dụ về đánh giá độ khó câu hỏi
Dữ liệu sau quá trình thi, gồm có:
Bảng 4 Ví dụ dữ liệu quá trình thi
Mỗi câu hỏi được mang đi thi nhiều lần, thí sinh của một lần thi nào đó có thể xảy ra 2 trường hợp: một là, đánh đúng; hai là, đánh sai Tất cả lịch sử này được lưu trữ lại (theo bảng 3 và 4)
Từ dữ liệu trên ta tính được:
- Tỷ lệ trả lời đúng câu hỏi i = Tổng số lần trả lời đúng câu i / Tổng số lần trả lời (câu i)
- Giá trị này từ 0 đến 1
Trang 19Bảng 5 Ví dụ về tỷ lệ trả lời đúng ở câu hỏi
2 Biểu diễn phân cụm
Như vậy, mỗi câu hỏi ci được biểu diễn thành 1 vector mang 2 tác động (hình 2)
là ( ci(x,y) ), và là 1 điểm trong trục tọa độ Oxy
Tác động 1: Từ ý kiến chuyên gia
Tác động 2: Từ ý kiến của cộng đồng
Hình 2 Biểu diễn câu hỏi dạng vector
Như vậy, n câu hỏi được mô tả thành các điểm giống như trên Dữ liệu thích hợp cho quá trình phân cụm (clustering) như hình 3
0
1
1
ci
Trang 20Trang 13
Hình 3 Các câu hỏi được học không có giám sát để phân tách cụm
Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập
dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định
Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không có giám sát Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và
mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm Ví dụ về quá trình phân cụm như hình 4