Nghiên cứu mô hình biểu diễn kiến trúc đề thi và khai thác kết quả thi nhằm chuẩn hóa chất lượng đề thi tại trường đại học kinh tế TP HCM

Nghiên cứu áp dụng cả ý kiến chuyên gia phản hồi nhận xét từ giảng viên và ý kiến của cộng đồng người dự thi nhằm đưa ra một cách giải quyết việc trộn đề thi từ cách phân bố ngẫu nhiên c

Trang 1

Trang i

ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG

NGHIÊN CỨU MÔ HÌNH BIỂU DIỄN KIẾN TRÚC

ĐỀ THI VÀ KHAI THÁC KẾT QUẢ THI NHẰM CHUẨN HÓA CHẤT LƯỢNG ĐỀ THI TẠI

TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM

MÃ SỐ: CS-2014-46

Chủ nhiệm: Đặng Thái Thịnh

TP Hồ Chí Minh, tháng 3/2015

Trang 2

Trang ii

Trang 3

Trang iii

NHẬN XÉT CỦA HỘI ĐỒNG NGHIỆM THU

………

Trang 4

Trang iv

Trang 5

Trang v

Danh mục các hình ảnh trong đề tài

Hình 1 Khung châu Âu CEFR 8

Hình 2 Biểu diễn câu hỏi dạng vector 12

Hình 3 Các câu hỏi được học không có giám sát để phân tách cụm 13

Hình 4 Ví dụ quá trình phân cụm 14

Hình 5 Phân cụm sử dụng K-means 15

Hình 6 Các bước của quá trình phân cụm 17

Hình 7 Giao diện phần mềm EMP Test 19

Hình 8 So sánh độ khó dựa ý kiến chuyên gia và cộng đồng (chưa sắp xếp) 27

Hình 9 So sánh độ khó dựa ý kiến chuyên gia và cộng đồng (đã sắp xếp) 27

Hình 10 Giao diện phần mềm khi làm thực nghiệm 27

Hình 11 Biểu đồ độ tương đồng giữa các đề thi (chuyên gia) 29

Hình 12 Biểu đồ độ tương đồng giữa các đề thi (cộng đồng) 29

Trang 6

Trang vi

Danh mục các bảng biểu trong đề tài

Bảng 1 Bảng mô tả khung châu Âu CEFR 9

Bảng 2 Bảng so sánh các chứng chỉ tiếng Anh 10

Bảng 3 Ví dụ về đánh giá độ khó câu hỏi 11

Bảng 4 Ví dụ dữ liệu quá trình thi 11

Bảng 5 Ví dụ về tỷ lệ trả lời đúng ở câu hỏi 12

Bảng 6 Cách trộn đề ngẫu nhiên không phân cụm 19

Bảng 7 Cách trộn đề ngẫu nhiên có phân cụm 20

Bảng 8 Lượt trả lời câu hỏi ở thực nghiệm 24

Bảng 9 Tỷ lệ trả lời đúng ở các câu hỏi 25

Bảng 10 Độ khó dựa trên chuyên gia đánh giá 26

Bảng 11 Kết quả sinh đề thi 28

Bảng 12 So sánh bằng Pearson ý kiến chuyên gia giữa các đề thi 28

Bảng 13 So sánh bằng Pearson ý kiến cộng đồng giữa các đề thi 28

Trang 7

Trang vii

Nội dung

Tóm tắt 1

Chương 1: Đặt vấn đề 2

1 Tính cấp thiết của nghiên cứu 2

2 Mục tiêu và phạm vi nghiên cứu 3

3 Bố cục của nghiên cứu: 4

Chương 2: Các nghiên cứu liên quan 5

Chương 3: Phương pháp thực hiện 11

1 Dữ liệu đầu vào 11

2 Biểu diễn phân cụm 12

3 Phân bố câu hỏi sau phân cụm 18

4 Kiến trúc trộn đề đề xuất 19

Chương 4: Thực nghiệm và kết quả 22

1 Sự tương đồng trong độ khó giữa các đề thi 22

2 Thực nghiệm 23

3 Đánh giá các phương pháp thực hiện: 29

Chương 5: Kết luận 32

Tài liệu tham khảo 33

Trang 8

Trang 1

Tóm tắt

Nghiên cứu này nhằm áp dụng một số phương pháp trong tin học để biểu diễn kiến trúc đề thi; nghiên cứu cũng đề xuất cách thức khai thác kết quả thi nhằm chuẩn hóa, đánh giá lại ngân hàng đề thi; ứng dụng trong công tác khảo thí và chuẩn hóa chất lượng đề thi tại Trường Đại học Kinh tế TP.HCM

Công tác ra đề thi hiện nay phụ thuộc hoàn toàn vào ý chí chủ quan của

cá nhân giảng viên hoặc hội đồng ra đề thi Tuy nhiên, kết quả thực tế từ thí sinh có thể phản ánh đúng hoặc không đúng qua điểm và nhận xét trước đó của người ra đề thi Nghiên cứu áp dụng cả ý kiến chuyên gia (phản hồi nhận xét từ giảng viên) và ý kiến của cộng đồng (người dự thi) nhằm đưa ra một cách giải quyết việc trộn đề thi từ cách phân bố ngẫu nhiên chuyển sang phân bố đề thi

ngẫu nhiên có chủ đích nhằm đạt đến mục tiêu: một là, phân bố ngẫu nhiên

đảm bảo theo điều kiện cho trước như phân bố theo đúng trật tự, số câu hỏi,

chương/mục/phần thỏa mãn tính bao quát của đề thi; hai là, phân bố câu hỏi

đảm bảo độ khó của nó được phân bố đều các đề thi, nghĩa là hai đề bất kỳ trong bộ đề mà sẽ mang cho thí sinh dự thi có độ khó tương đương nhau

Cách thức trộn đề thi được đề cập trên bắt đầu với dữ liệu chuyên gia (vì chưa có dữ liệu từ cộng đồng) và dần dần bị dữ liệu từ cộng đồng chi phối Nghĩa là, có sự kết hợp giữa ý kiến chủ quan của người ra đề và ý kiến khách quan của người dự thi qua nhiều lần Người ra đề có thể tham khảo kết quả phân tích, có thể thay đổi quan điểm của mình

Nghiên cứu này giả định rằng đề thi được bảo mật và có thể sử dụng nhiều lần trên các đối tượng khác nhau Các yếu tố như đề thi thi nhiều lần sẽ

bị lộ, người dự thi hầu như biết trước kết quả trả lời, hoặc các yếu tố khác ngoài nội dung câu hỏi làm ảnh hưởng đến tính phân loại độ khó của đề thi bị loại bỏ

Trang 9

Trang 2

Chương 1: Đặt vấn đề

1 Tính cấp thiết của nghiên cứu

Hiện nay cách thức biểu diễn đề thi chủ yếu phụ thuộc vào phân cấp theo cây, tại mỗi node lá chứa nhiều câu hỏi Mỗi node lá tượng trưng cho một nhóm câu hỏi, khi trộn đề người giảng viên chia tỷ lệ chọn lựa câu hỏi trong mỗi nhóm để có một đề thi Quá trình này được lặp đi lặp lại thành ra nhiều đề thi Ưu điểm của cách trộn như trên một đề thi luôn giữ được cấu trúc định nghĩa trước về số lượng câu hỏi trong mỗi node lá (phần/chương/mục)

Tuy nhiên với cách truyền thống này, việc chọn câu hỏi trong từng node lá mang tính chất ngẫu nhiên, vì vậy:

 Không thể hiện được độ khó tương đương của đề thi với nhau

 Sự trùng lắp nhiều câu hỏi trong các đề thi có thể xảy ra do cách chọn ngẫu nhiên

Một số cách thức xây dựng ngân hàng câu hỏi có sự phân loại theo mức độ

“khó”, “dễ”, “trung bình”; hoăc sự phân loại theo nhóm câu hỏi thuộc về “phân tích”, “kiến thức” hay “kỹ năng” như tồn tại trong một số sách của nhà xuất bản Pearson tương tự như cách đề cập như trên nghĩa là chia nhỏ số lượng node

lá và làm cho người giảng viên vất vả hơn trong quá trình xác định số lượng câu hỏi phân hóa trong đề thi

Nghiên cứu nhằm đưa ra một cách tiếp cận kết hợp giữa cách phân nhóm câu hỏi, đưa ý kiến chuyên gia vào câu hỏi cùng với ý kiến thụ động của đại đa

số người dự thi nhằm tự động phân loại và điều chỉnh cách thức chọn câu hỏi nhằm đạt đến mục tiêu giảm thiểu sự trùng lắp câu hỏi giữa các đề thi nhưng đảm bảo độ khó tương đương giữa các đề thi với nhau

Ứng dụng tại Trường Đại học Kinh tế TP.HCM, phương pháp vừa được đề cập ở trên là cách thức hiện nay đang sử dụng tại Trường Ngoài ra, hệ thống thi trắc nghiệm trực tuyến được Phòng Công nghệ thông tin sử dụng có khả năng chọn lọc và lưu trữ liệu lịch sử thi đủ thông tin để quá trình khai thác kết quả thi (mining) có thể sử dụng để hiện thực hóa nghiên cứu trên

Hơn nữa, việc khai thác kết quả thi cung cấp cho giảng viên một cái nhìn lại

về cách đánh giá của mình qua ngân hàng đề thi Tính chủ quan có thể đúng hoặc sai, việc nhìn nhận trên dữ liệu thật trên các đối tượng dự thi khác nhau

Trang 10

Trang 3

giúp người ra đề nhiều hơn thông tin để quyết định trong các lần sau, những quyết định có sự hỗ trợ của máy móc ra những báo cáo cho người ra quyết định

2 Mục tiêu và phạm vi nghiên cứu

Mục tiêu của nghiên cứu nhằm đưa ra một cách thức trộn đề thi từ cách thức khai thác kết quả thi từ hai nguồn dữ liệu:

 Ý kiến chuyên gia (người ra đề/hội đồng ra đề)

 Ý kiến thụ động của người dự thi

Mô hình được áp dụng, nghiên cứu nhằm đạt đến mục tiêu phân bố ngẫu nhiên đảm bảo theo điều kiện cho trước như phân bố theo đúng trật tự, số câu hỏi, chương/mục/phần thỏa mãn tính bao quát của đề thi; và phân bố câu hỏi đảm bảo độ khó của nó được phân bố đều các đề thi, nghĩa là hai đề bất kỳ trong bộ đề mà sẽ mang cho thí sinh dự thi có độ khó tương đương nhau

Nghiên cứu bị giới hạn bởi các yếu tố:

 Thiếu ý kiến chuyên gia: việc đánh giá độ khó của câu hỏi phụ thuộc vào một vài chuyên gia, kết quả có thể chính xác hơn nếu có nhiều chuyên gia cùng thực hiện đánh giá câu hỏi Việc này làm phát sinh chi phí nhiều hơn

 Ý kiến nhiễu từ người dự thi: nghiên cứu giả định rằng người

dự thi đã được đào tạo từ môn học hoặc lĩnh vực dự thi và cố gắng làm bài hết khả năng có thể Các mẫu nghiên cứu như làm bài thi bằng cách chọn ngẫu nhiên đáp án là rất nhỏ và không đáng kể

 Các yếu tố khác ngoài nội dung câu hỏi như dấu hiệu nhận biết câu trả lời câu hỏi được loại bỏ

 Ngân hàng đề thi được bảo mật và có thể sử dụng nhiều lần trên các đối tượng người dự thi khác nhau

 Nghiên cứu nhằm đạt mục tiêu về độ khó tương đương giữa các đề thi, chưa quan tâm đến vấn đề làm rõ ràng thang điểm

“đạt” cho một người dự thi Nghĩa là, mục tiêu của bài thi được định nghĩa trước; đề thi tạo ra nhằm đáp ứng thế nào thì một thí sinh đạt được điểm đạt của đề thi đó (có thể đáp ứng tối thiểu mục tiêu bài thi) Mức điểm này do ý kiến chuyên

Trang 11

3 Bố cục của nghiên cứu:

Nghiên cứu được chia thành 5 chương: chương 1 nói về tổng quan nghiên cứu; chương 2 trình bày các nghiên cứu liên quan; chương 3 diễn tả phương pháp thực hiện; thực nghiệm và kết quả được trình bày ở chương 4; chương 5 tổng kết nghiên cứu, những hạn chế và hướng phát triển của đề tài

Trang 12

Trang 5

Chương 2: Các nghiên cứu liên quan

Các kết luận đưa ra dựa trên tiêu chuẩn (standard) thử nghiệm quy mô lớn dựa vào sự tin cậy của các ngưỡng được sử dụng để cho thấy trình độ của một sinh viên có đạt được mức tiêu chuẩn hay không Các ngưỡng này, hay còn gọi là các tiêu chuẩn về trình độ, được đánh giá trong một quá trình thiết lập tiêu chuẩn và được định nghĩa như các vị trí trên thang điểm (cut-scores) Ví dụ điểm 5/10 là điểm đạt của rất nhiều môn học Không có tiêu chuẩn đánh giá trình độ nào là đúng, khách quan hay “vàng” (Kane, 1998a), và những tiêu chuẩn về trình độ chỉ có thể được coi như là một cách xét tính tin cậy nhiều hay

ít mà thôi Để đạt được các tiêu chuẩn trình độ đáng tin cậy, người ta đã đề xuất một số phương pháp

Nghiên cứu liên quan đến các tiêu chuẩn về trình độ, có thể được xem như là mục đích của quá trình học tập dựa trên việc đánh giá đối tượng có đạt được đủ trình độ kiến thức hoặc kỹ năng hay không (Hambleton & Pitoniak, 2006) Các tiêu chuẩn trình độ bao gồm cấp độ, mô tả và thang điểm (Hansche, 1998) Các cấp độ về trình độ như là dưới cơ bản, cơ bản, thành thạo và nâng cao – Chương trình đánh giá giáo dục quốc gia (Kane, 1998a) và rớt, qua, qua với mức ưu tú và qua với mức đặc biệt ưu tú – Chương trình thi quốc gia tại Thuỵ Điển (Skolverket, 2005) Mô tả trình độ là những mô tả tường thuật lại các đối tượng nên làm gì ở mỗi cấp độ trình độ (Hansche, 1998) Thang điểm là một mức điểm trên phạm vi điểm cho một bài kiểm tra thông thường để đánh giá một cấp độ (Kane, 2001) và chia các đối tượng thành hai loại trình độ dựa trên đánh giá thông thường (Cizek & Bunch, 2007)

Phương pháp thiết lập tiêu chuẩn

Số lượng lớn các phương pháp thiết lập tiêu chuẩn về trình độ mô tả trong tài liệu (xem tài liệu Cizek & Bunch, 2007) nói chung đều được mô tả dưới dạng lấy đối tượng làm trung tâm, lấy bài kiểm tra làm trung tâm hay sự kết hợp của cả hai phương pháp này (Jaeger, 1989) Phương pháp nào được chọn đều phụ thuộc vào những thuận lợi và bất lợi của những phương pháp khác nhau trong các bối cảnh khác nhau Kane (1994) đề xuất ba loại bằng chứng để bảo vệ các tiêu chuẩn về trình độ mà sử dụng phương pháp được chọn

Phương pháp lấy đối tượng làm trung tâm

Phương pháp lấy đối tượng làm trung tâm dựa trên những đánh giá về các đối tượng Phương pháp này phân loại đối tượng theo cấp độ - Practical Assessment, Research & Evaluation, Vol 13, No 9,Näsström & Nyström,

Trang 13

Trang 6

Setting Performance Standards – (ví dụ như: không có khả năng, có khả năng, giới hạn) dựa trên một số tiêu chí bên ngoài khác với điểm bài kiểm tra (Giraud, Impara & Buckendahl, 1999/2000) Thông thường, bài kiểm tra được quản lý

để phân loại đối tượng và thang điểm được thiết lập dựa trên kết quả bài kiểm tra của họ (Cizek, 2006) Hai phương pháp lấy đối tượng làm trung tâm thông thường nhất là phương pháp nhóm giới hạn và phương pháp nhóm đối lập (xem

ví dụ Hambleton & Pitoniak, 2006) Phương pháp nhóm giới hạn được chọn làm phương pháp lấy đối tượng làm trung tâm trong bài nghiên cứu này, đơn giản chỉ bởi vì nó được coi là khái niệm đơn giản (Jaeger, 1989; Hambleton & Pitoniak, 2006) và được đề nghị cho những bài kiểm tra mang tính tổng thể và trả lời theo cấu trúc

Trong phương pháp nhóm giới hạn, những người đánh giá được yêu cầu định nghĩa đặc điểm của những đối tượng giới hạn và xác định đối tượng cụ thể phù hợp với những đặc điểm này (Livingstone & Zieky, 1982) Sau đó bài đánh giá được quản lý, cho điểm và phân tích, và điểm trung bình của các đối tượng giới hạn được sử dụng như là mốc điểm (Cizek, 2006) Nếu có nhiều hơn một mốc điểm, người ta sẽ thiết lập một nhóm giới hạn cho mỗi mốc điểm (Cohen, Kane & Crook, 1999) Theo Hambleton, Jaeger, Plake & Mills (2000), phương pháp nhóm giới hạn bị phụ thuộc, có nghĩa là nếu mẫu đối tượng và người đánh giá khác nhau thì độ tin cậy của thang điểm cũng cần phải đặt câu hỏi Tuy nhiên, việc xác định đối tượng giới hạn “chính xác” quan trọng hơn việc chọn mẫu đại diện (Lvingstone and Zieky, 1982)

Ưu của phương pháp nhóm giới hạn là sự đơn giản trong nội dung (Hambleton & Pitoniak, 2006), và thực tế những người đánh giá chỉ phải giải quyết những đối tượng tương tự nhau (Livingstone & Zieky, 1982) Nhược điểm của phương pháp này là tốn thời gian (Kane, 1998b), và yêu cầu phải có một nhóm lớn những người đánh giá (Hambleton & Pitoniak, 2006) và một nhóm mẫu lớn đối tượng (Cizek, 2006) Cũng có những người đánh giá có có

xu hướng đưa ra những yếu tố và trình độ không có trong bài đánh giá phân loại đối tượng (Hambleton, 2000) and xác định những đối tượng giới hạn khi không chắc chắn về trình độ của họ (Jaeger, 1989; Hambleton & Pitoniak, 2006) Có một vấn đề trong phương pháp nhóm giới hạn đó là thang điểm được cho bởi giảng viên có sinh viên có trình độ cao có xu hướng cao hơn giảng viên

Trang 14

Trang 7

có sinh viên trình độ thấp (Livingstone & Zieky, 1989)

Phương pháp lấy bài kiểm tra làm trung tâm

Phương pháp lấy bài kiểm tra làm trung tâm dựa trên sự đánh giá về các mẫu trong việc đánh giá cụ thể Trong quá trình xem xét các mẫu đánh giá, người đánh giá sẽ quyết định cấp độ trình độ cần thiết để đáp ứng với từng tiêu chuẩn trình độ (Kane, 1998a) Việc này được thực hiện bởi những đánh giá về, trình độ mong muốn trên các đối tượng giả thiết là vừa đáp ứng các yêu cầu cho một tiêu chuẩn trình độ cụ thể (Hambleton & Pitoniak, 2006) Phương pháp Angoff, thủ tục của Ebel, phương pháp của Jaeger, thủ tục Nedelsky và phương pháp Bookmark là những ví dụ nổi tiếng của phương pháp lấy bài kiểm tra làm trung tâm, những phương pháp đó được mở rộng và sửa đổi theo nhiều cách (Kane, 1998b; Hambleton & Pitoniak, 2006) Phương pháp Angoff được chọn để đại diện cho các phương pháp lấy bài kiểm tra làm trung tâm bởi vì trong phiên bản ban đầu hay trong phiên bản được sửa đổi và mở rộng, nó là thủ tục được sử dụng rộng rãi nhất để thiết lập tiêu chuẩn (Hurtz & Auerbach, 2003) Ngoài ra, phiên bản mở rộng của phương pháp Angoff được sử dụng thường xuyên như là thủ tục thiết lập tiêu chuẩn của các kỳ thi toán quốc gia ở Thuỵ Điển

Khi phương pháp Angoff được áp dụng cho các bài kiểu tra với việc cho điểm đánh giá chỉ là đúng hoặc sai, những người đánh giá sẽ lên nội dung cho một các đối tượng chỉ vừa đủ tiêu chuẩn và ước tính tỷ trọng sẽ trả lời từng mục trong bài kiểm tra một cách chính xác (Cizek, 2006) Đối với mỗi người đánh giá, xác suất ước tính được tổng kết lại và tính trung bình để đề xuất ra một thang điểm (Ferdous & Plake, 2007)

Ưu điểm của phương pháp Angoff là dễ quản lý, có thang điểm bù (tức

là một điểm số cao trên một mẫu cân bằng với điểm số thấp trên một mẫu khác (Hambleton & Pitoniak, 2006), và phương pháp này có thể được thực hiện trước khi làm bài kiểm tra (Kane, 1998a) Nhược điểm của phương pháp này là tính chất phân tử (Hambleton, 2000), những người đánh giá gặp khó khăn trong việc đánh giá trình độ cho từng cá nhân trong một nhóm đối tượng chỉ có trình độ ở mức vừa đủ tiêu chuẩn, và có xu hướng đánh giá trình độ quá cao ở những mẫu dễ và đánh giá trình độ quá thấp ở những mẫu khó (Hambleton & Pitoniak, 2006)

Trang 15

Trang 8

Nhận xét: Các phương pháp được đề cập ở trên đều xác định một mức

tiêu chuẩn và phân loại dựa trên đối tượng xét hoặc bài kiểm tra, kiến thức

đánh giá của chuyên gia còn quá nhiều, hoặc những phép toán thử nghiệm

thống kê còn đơn giản Việc mô tả các mức (điểm thấp, cao, rất cao…) còn quá

chung chung và khó lượng hóa

Đơn cử sau đây là một ví dụ về việc đề cập các mức lấy bài kiểm tra làm

trung tâm trong khung tiếng anh châu Âu (CEFR – Common European

Framework of Reference) [Tham khảo các tài liệu chuẩn tiếng anh]

Hình 1 Khung châu Âu CEFR

Nguồn ảnh hình 1: http://langgo.com/

Bảng mô tả khung châu Âu trong hình 1 được mô tả cụ thể theo bảng 1 sau đây

Có thể hiểu những chỉ dẫn, thông báo đơn giản liên quan đến các chủ điểm gần gũi, quen thuộc

Có thể điền

phiếu, biểu mẫu đơn giản liên quan đến bản thân (tên, tuổi, địa chỉ, ngày, giờ…)

A2 Có thể hiểu các từ và

cụm từ thường gặp

nhất liên quan trực

tiếp đến bản thân

như thông tin cá

nhân căn bản, mua

hoặc thông báo ngắn

nếu được phát âm rõ

ràng

Có thể bày tỏ ý kiến, yêu cầu đơn giản trong hoàn cảnh gần gũi với bản thân

Có thể hiểu nội dung chính những bài đọc ngắn, đơn giản, quen thuộc

Có thể điền vào các biểu mẫu, phiếu, bưu thiếp và viết thư đơn giản liên quan đến bản thân, gia đình, nhà trường

Trang 16

Trang 9

B1 Nghe hiểu ý chính

các thông tin đơn

giản trong đời sống

xã hội thông thường

Có thể bày tỏ ý kiến một cách đơn giản về các vấn đề văn hoá,

xã hội quen thuộc

Đọc hiểu nội dung chính các tài liệu phổ thông liên quan đến các vấn đề văn hoá, xã hội quen thuộc

Có thể viết các đoạn vănngắn, đơn giản về các chủ đề quen thuộc phù hợp với sự hiểu biết của người học

B2 Có thể hiểu nội dung

đề quen thuộc

Đọc hiểu các thông tin cần thiết và thâu tóm được ý chính các văn bản liên quan đến chuyên môn và nghề nghiệp

Có thể ghi

chính về những điều

đã nghe hoặc đọc được Có thể viết thư giao dịch thông thường

C1 Nghe hiểu nội dung

và hoạt động xã hội thông thường

Có thể đọc đủ nhanh để nắm bắt các thông tin cần thiết qua các phương tiện thông tin đại chúng và tài liệu phổ thông

Có thể ghi chép tương đối chính xác nội dung chính trong các cuộc thảo luận, cuộc họp…và có thể viết các báo cáo liên quan đến chuyên môn

C2 Có thể hiểu dễ dàng

nội dung các cuộc

giao tiếp hàng ngày

và hoạt động chuyên

môn

Có thể nêu ý kiến hoặc trò chuyện

về các vấn đề tương đối phức tạp

Có thể hiểu các tài liệu, thư tín, báo cáo và hiểu nội dung cốt yếu của các văn bản phức tạp

Có thể viết về các vấn đề phục vụ nhu cầu cá nhân với cách diễn đạt tốt, chính xác

Bảng 1 Bảng mô tả khung châu Âu CEFR

Tuy nhiên lại tồn tại rất nhiều thang đo khác nhau là những chứng chỉ quy đổi lẫn nhau qua khung châu Âu Như vậy những giá trị điểm (cut-scores)

Trang 17

Trang 10

được quy đổi bằng so sánh, thống kê, đối chiếu và ý kiến chuyên gia được thiết

kê như ví dụ sau (bảng 2):

CEFR TOEIC TOEIC TOEIC TOEFL TOEFL TOEFL TOEFL IELTS Cambridge

ESOL L&R S&W Bridge iBT CBT PBT ITP

Ơ mỗi bài thi các chứng chỉ trên (bảng 2), một khảo sát được thực hiện

trước khi bài thi xảy ra cho mỗi thí sinh nhằm nghiên cứu xem mức độ học

tiếng Anh của thí sinh và tự đánh giá năng lực trước khi có kết quả thi Vấn đề

này có thể sử dụng tham khảo để đánh giá và tìm các yếu tố ảnh hưởng đến kết

quả thí sinh Tuy nhiên phụ thuộc vào nhiễu hãng khảo sát khác nhau nên

những vấn đề này chưa được công bố đầy đủ

Nghiên cứu này đưa ra một cách tiếp cận khác nhằm kết hợp kiến thức

chuyên gia và dữ liệu thi để đưa ra một cách trộn đề thi, từ đó hỗ trợ người thực

hiện ra quyết định cho mức điểm đạt (cut-score) hoặc đưa ra các phân loại về

kết quả xếp hạng bài thi (classification) như giỏi, khá, trung bình, yếu Phương

pháp này được trình bày tiếp theo trong chương 3 của nghiên cứu này

Trang 18

Trang 11

Chương 3: Phương pháp thực hiện

1 Dữ liệu đầu vào

Bước 1: Xây dựng ngân hàng câu hỏi;

Bước 2: Phân nhóm câu hỏi theo các phần/ chương/ mục;

Bước 3: Giảng viên đánh giá mức độ khó/dễ (như ví dụ ở bảng 3) cho từng câu hỏi trong ngân hàng trên thang điểm giá trị thập phân từ 0 đến 1 (tri thức chuyên gia) Trong đó càng khó thì số càng nhỏ (gần 0), càng dễ thì số càng cao (gần 10) Tất nhiên, không nên đánh giá 0 và 1 bởi lẽ, giảng viên đánh giá câu hỏi rất khó không ai trả lời được, hay câu hỏi quá dễ chắc chắn ai cũng trả lời được; thì câu hỏi có vấn đề về nội dung

gia)

Bảng 3 Ví dụ về đánh giá độ khó câu hỏi

Dữ liệu sau quá trình thi, gồm có:

Bảng 4 Ví dụ dữ liệu quá trình thi

Mỗi câu hỏi được mang đi thi nhiều lần, thí sinh của một lần thi nào đó có thể xảy ra 2 trường hợp: một là, đánh đúng; hai là, đánh sai Tất cả lịch sử này được lưu trữ lại (theo bảng 3 và 4)

Từ dữ liệu trên ta tính được:

- Tỷ lệ trả lời đúng câu hỏi i = Tổng số lần trả lời đúng câu i / Tổng số lần trả lời (câu i)

- Giá trị này từ 0 đến 1

Trang 19

Bảng 5 Ví dụ về tỷ lệ trả lời đúng ở câu hỏi

2 Biểu diễn phân cụm

Như vậy, mỗi câu hỏi ci được biểu diễn thành 1 vector mang 2 tác động (hình 2)

là ( ci(x,y) ), và là 1 điểm trong trục tọa độ Oxy

Tác động 1: Từ ý kiến chuyên gia

Tác động 2: Từ ý kiến của cộng đồng

Hình 2 Biểu diễn câu hỏi dạng vector

Như vậy, n câu hỏi được mô tả thành các điểm giống như trên Dữ liệu thích hợp cho quá trình phân cụm (clustering) như hình 3

0

1

ci

Trang 20

Trang 13

Hình 3 Các câu hỏi được học không có giám sát để phân tách cụm

Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập

dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định

Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không có giám sát Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác như là phân loại và

mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm Ví dụ về quá trình phân cụm như hình 4

Định dạng
Số trang	41
Dung lượng	1,74 MB