Xây dựng công cụ hỗ trợ phát hiện và phòng ngừa sao chép bài tập trong đào tạo trực tuyến

Mục đích nghiên cứu Từ tình hình trên, mục đích đề tài xây dựng công cụ phát sao chép các văn bản Tiếng Việt, có thể tích hợp trên Moodle để hỗ trợ giảng viên nhanh chóng phát hiện sinh

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

Lê Ngọc Hân

XÂY DỰNG CÔNG CỤ HỖ TRỢ PHÁT HIỆN VÀ PHÒNG NGỪA SAO CHÉP BÀI TẬP TRONG

ĐÀO TẠO TRỰC TUYẾN

LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Vũ Thị Hương Giang

Hà Nội – Năm 2018

Trang 2

Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ

Họ và tên tác giả luận văn: Lê Ngọc Hân

Đề tài luận văn: xây dựng công cụ hỗ trợ phát hiện và phòng ngừa

sao chép bài tập trong đào tạo trực tuyến

Chuyên ngành: Công nghệ Thông tin

Mã số SV: CB150281

Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 27 tháng 10 năm 2018 với các nội dung sau:

1 Sửa lỗi chình bày, chính tả:

Tác giả đã rà soát và chỉnh sửa toàn bộ lỗi chính tả, trình bày trong luận văn

2 Trình bày chi tiết về công thức và giải thuật so sánh hai văn bản

Luận văn đã trình bày, làm rõ công thwucs và giải thuật áp dụng tại Chương 3:

Đề xuất giải pháp, mục 1.1.3.6 đối sánh độ tương đông văn bản

3 Bổ sung, làm rõ phần thực nghiệm

Luận văn đã bổ sung phần thực nghiệm hiệu năng tại Chương IV: Cài đặt và thử nghiệm, mục 3.3 Kết quả thử nghiệm

4 Làm rõ kho lưu trữ, cơ sở dữ liệu

Luận văn đã bổ sung và làm rõ cơ sở dữ liệu lưu trữ tại Chương III: Đề xuất giải pháp, mục 1.1 Kiến trúc hệ thống

Ngày tháng năm

CHỦ TỊCH HỘI ĐỒNG

Trang 3

Lê Ngọc Hân – CNTT 2015B 1

LỜI CAM ĐOAN

Tôi là Lê Ngọc Hân học viên cao học khóa 2015B, Trường Đại học Bách khoa Hà Nội xin cam kết Luận văn này là công trình nghiên cứu của bản thân, dưới sự hướng dẫn khoa học của TS Vũ Thị Hương Giang, Viện Công nghệ thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội

Các kết quả trong Luận văn là trung thực và không sao chép từ bất kỳ công trình nào khác

Hà Nội, ngày 14 tháng 09 năm 2018 Học viên: Lê Ngọc Hân

Khóa: 2015B

Trang 4

LỜI CÁM ƠN

Lời đầu tiên cho em xin được gửi lời cảm ơn sâu sắc đến cô giáo TS Vũ Thị Hương Giang – Viện Công nghệ thông tin & Truyền thông – Đại học Bách khoa Hà Nội, đã tận tình hướng dẫn trong suốt quá trình thực hiện luận văn

Em xin chân thành cảm ơn quý thầy cô ở Viện Công nghệ thông tin & Truyền thông nói riêng và Đại học Bách khoa Hà Nội nói chung, đã giúp đỡ chúng em trong suốt khóa học

Cuối cùng tôi xin cảm ơn quý bạn bè và đồng nghiệp, những người đã tạo điều kiện cũng như giúp đỡ để tôi có thể hoàn thành khóa học

Trang 5

MỤC LỤC

I PHẦN MỞ ĐẦU 8

1 Tính cấp thiết của đề tài 8

2 Tình hình nghiên cứu 8

3 Mục đích nghiên cứu 9

4 Đối tượng nghiên cứu 9

5 Phạm vi nghiên cứu 9

6 Phương pháp nghiên cứu 10

7 Phát biểu bài toán 10

7.1 Đầu vào và đầu ra của bài toán 10

7.2 Quy trình xử lý của hệ thống 12

II CƠ SỞ LÝ THUYẾT 14

1 Mô hình đào tạo trực tuyến Moodle 14

1.1 Tổng quan về Moodle 14

1.2 Các đặc điểm của Moodle 14

1.3 Các tính năng chính của Moodle 16

2 Vấn đề sao chép hay đạo văn trong đào tạo trực tuyến 17

2.1 Các hình thức kiểm tra và đánh giá trong đào tạo trực tuyến và những hạn chế còn tồn tại 17

2.2 Quan niệm về đạo văn 19

3 Quy trình và phương pháp phát hiện đạo văn 20

3.1 Quy trình phát hiện đạo văn 20

3.2 Phương pháp phát hiện đạo văn 22

4 Phương pháp đánh giá độ tương đồng văn bản tiếng Việt 23

4.1 Giới thiệu chung 23

4.2 Phân loại độ tương đồng giữa hai văn bản 24

4.3 Phương pháp đo độ tương đồng văn bản trong tiếng Việt 25

5 Một số công cụ và phần mềm hỗ trợ 42

5.1 Công cụ và phần mềm nước ngoài 42

5.2 Công cụ và phần mềm trong nước 45

Trang 6

III ĐỀ XUẤT CÁC GIẢI PHÁP 48

1 Kiến trúc tổng quan của hệ thống 48

1.1 Kiến trúc của hệ thống 48

1.2 Thành phần của hệ thống 51

1.3 Module xử lý ngôn ngữ tự nhiên 52

2 Giải pháp phòng ngừa sao chép bài tập trong đào tạo trực tuyến 62

3 Giải pháp phát hiện sao chép bài tập trong đào tạo trực tuyến 63

IV CÀI ĐẶT VÀ THỬ NGHIỆM 65

1 Yêu cầu hệ thống 65

1.1 Yêu cầu các chức năng chính của hệ thống 65

1.2 Yêu cầu phi chức năng của hệ thống 65

1.3 Công nghệ sử dụng để phát triển hệ thống 65

2 Thiết kế hệ thống 70

2.1 Thiết kế giao diện 70

2.2 Lưu đồ hệ thống 72

3 Thử nghiệm hệ thống 74

3.1 Môi trường thử nghiệm 74

3.2 Kịch bản thử nghiệm 75

3.3 Kết quả thử nghiệm 80

V KẾT LUẬN VÀ KIẾN NGHỊ 81

VI TÀI LIỆU THAM KHẢO 82

Trang 7

DANH MỤC HÌNH VẼ

Hình 1: Mô hình hệ thống 10

Hình 2:Quy trình xử lý của hệ thống 13

Hình 3: Biểu tượng đại diện cho moodle 14

Hình 4:Các tính năng chính của Moodle 16

Hình 5: Quy trình 4 bước phát hiện đạo văn 21

Hình 6: Ví dụ về mạng từ tiếng Anh 30

Hình 7: Một số công cụ phát hiện đạo văn phổ biến 45

Hình 8: Mô hình cơ sở dữ liệu của kho lưu trữ 49

Hình 8: Kiến trúc tổng quan của hệ thống phòng ngừa và phát hiện đạo văn 50

Hình 9: Thành phần của hệ thống phát hiện và phòng ngừa đạo văn 52

Hình 13: Trên là top 50 từ xuất hiện nhiều nhất trong mỗi cuốn sách 54

Hình 14: Quy trình tách từ của vnTokenizer 55

Hình 15: Mô hình cơ sở dữ liệu 58

Hình 10: Quy trình xử lý của hệ thống phòng ngừa đạo văn 63

Hình 11: Quy trình xử lý của hệ thống phát hiện đạo văn 64

Hình 16: Mô hình hoạt động của Entity Framework 68

Hình 28: Lưu đồ hoạt động của sinh viên 72

Hình 29: Lưu đồ hoạt động của giảng viên 73

Trang 8

DANH MỤC BẢNG BIỂU

Bảng 1: Số câu được ghép bởi 5 từ “đến, sao, nó, bảo, không” 26 Bảng 2: Một số công cụ phát hiện đạo văn phổ biến trên thế giới 44 Bảng 3: Gán nhãn từ loại 56

Bảng 4: Thông tin khóa học Error! Bookmark not defined Bảng 5: Kết quả học tập Error! Bookmark not defined Bảng 6: Thông tin người dùng Error! Bookmark not defined

Trang 9

DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ

1 e-Learning Electronic learning: Giáo dục trực tuyến

5 PMI – Pointwise Mutual

Infomation

Thông tin theo điểm chung

6 Tokenization (Tokenizing) Tách từ, phân loại từ, gán nhãn từ

7 Sim (Simulation) Tương đồng, độ tương đồng

Trang 10

I PHẦN MỞ ĐẦU

1 Tính cấp thiết của đề tài

Phương thức học tập trực tuyến (e-Learning) với rất nhiều ưu điểm như: linh hoạt, tiện lợi, giảm chi phí đào tạo Người học có thể học bất cứ lúc nào, bất cứ ở đâu, với bất cứ ai, học những vấn đề bản thân quan tâm, phù hợp với năng lực và sở thích, phù hợp với yêu cầu công việc… mà chỉ cần có phương tiện là máy tính và mạng Internet Phương thức học tập này mang lại những hiệu quả cao trong giáo dục đào tạo Do đó, trên thế giới, nhiều nước đã tiến hành triển khai với mô hình đào tạo e-Learning toàn phần, hoặc mô hình e-Learning bổ trợ cho các khóa học chính quy Điểm hình phải kể đến Đại học Stanford của

Mỹ, Đại học Cambridge của Anh, Viện công nghệ Massachusetts (MIT) là một trong số các trường đại học hàng đầu thế giới về đào tạo chính quy cũng như e-Learning

Tại Việt Nam, chương trình đào tạo e-Learning đã được các trường đại học trong cả nước triển khai rộng khắp Bắt đầu bằng việc kết hợp học tập bằng phương thức e-Learning với phương thức học tập truyền thống và bước đầu cũng đem lại những hiệu quả nhất định Một số trường đại học đã đưa mô hình đào tạo e-Learning để giảng dạy và đào tạo hệ đại học từ xa như Viện Đại học Mở Hà Nội, Đại học Kinh tế Quốc dân, Đại học Quốc Gia TP.HCM …

Bên cạnh những ưu điểm đó cũng có cũng những đặc điểm khiến mô hình đào tạo Learning chưa thể thay thế hoàn toàn mô hình đào tạo truyền thống Giảng viên và sinh viên không có nhiều điều kiện gặp mặt trực tiếp, và vấn sinh viên sao chép bài tập trong các bài kiểm tra giữa kỳ Do vậy việc giám sát các hoạt động kiểm tra và đánh giá nhằm giảm thiểu gian lận và tăng chất lượng đào tạo là vô cùng cần thiết

e-Từ thực tế đó tác giả thực hiện đề tài “Xây dựng công cụ hỗ trợ phát hiện và phòng ngừa sao chép bài tập trong đào tạo trực tuyến” mong muốn tạo ra được công cụ có thể

hỗ trợ giảng viên phát hiện gian lận việc sao chép bài tập của sinh viên với nhau trong các lớp học trực tuyến

Trang 11

• Không hỗ trợ tiếng Việt

• Trả phí hoặc yêu cầu tạo tài khoản và có thời hạn dùng thử

• Mã nguồn đóng

Tại Việt Nam, cũng đã có rất nhiều công trình nghiên cứu về “Đối sánh văn bản Tiếng Việt”, cùng với đó là rất nhiều công cụ hữu ích nhằm tính toán độ tương đồng giữa hai văn bản Nhưng hầu hết các phần mềm đều được xây dựng dưới dạng các ứng dụng trên desktop hoặc các ứng dụng web Điều đó khiến giảng viên trong các lớp học trực tuyến muốn biết sinh viên mình có sao chép bài không thì phải tải bài của sinh viên trên lớp học về máy tính, tiếp đó dùng công cụ để kiểm tra thủ công Điều đó sẽ tốn thời gian và không đáp ứng được tính liên tục và nhanh chóng trong đào tạo trực tuyến

Do vậy, trọng tâm của đề tài là xây dựng công cụ hỗ trợ giảng viên phát hiện sinh viên sao chép bài tập trong các lớp học trực tuyến Bài toán ở trên cơ bản gồm 2 vấn đề chính:

• Xây dựng công cụ hỗ trợ giảng viên trong các lớp học trực tuyến (tích hợp với Moodle)

• Đối sánh độ tương đồng văn bản (các bài tập sinh viên)

3 Mục đích nghiên cứu

Từ tình hình trên, mục đích đề tài xây dựng công cụ phát sao chép các văn bản Tiếng Việt, có thể tích hợp trên Moodle để hỗ trợ giảng viên nhanh chóng phát hiện sinh viên sao chép bài tập trong cùng một lớp học trực tuyến dựa trên việc so khớp, đối sánh mức độ tương đồng văn bản dựa trên các bài tập của sinh viên

4 Đối tượng nghiên cứu

• Các bài tập của sinh viên nộp lên hệ thống (các văn bản số, văn bản tiếng Việt)

• Các thuật toán và phương pháp xử lý văn bản tiếng Việt

• Các thuật toán và phương pháp đo độ tương đồng văn bản tiếng Việt

5 Phạm vi nghiên cứu

• Các bài tập của sinh viên dưới dạng văn bản số bằng tiếng việt (không phải các tập mã nguồn, không hỗ trợ nhận dạng hình ảnh, công thức toán học và các ký

tự đặc biệt)

Trang 12

• Hệ thống áp dụng trên lớp học trực tuyến với quy mô: 20 đến 30 sinh viên/lớp

6 Phương pháp nghiên cứu

a Phương pháp nghiên cứu tài liệu

• Nghiên cứu phần mềm mã nguồn mở Moodle

• Nghiên cứu một số ứng dụng tách từ đối với văn bản tiếng Việt

• Khảo sát, đánh giá một số thuật toán đo độ tương đồng văn bản tiếng Việt

b Phương pháp thực nghiệm

• Dựa trên cơ sở lý thuyết đã nghiên cứu, xây dựng công cụ hỗ trợ đánh giá độ tương đồng giữa các bài tập của sinh viên dựa trên công nghệ

• Triển khai trong hệ thống Moodle 3.3.1 trên locallhost

7 Phát biểu bài toán

7.1 Đầu vào và đầu ra của bài toán

Bài toán đề tài muốn giải quyết được mô tả như sau:

Hình 1: Mô hình hệ thống

Trang 13

Khi sinh viên trên các lớp học trực tuyến (Moodle) nộp bài tập, tiểu luận:

• Dưới dạng văn bản số tiếng Việt

Hệ thống sẽ tiếp nhận file từ Moodle lưu trong folder theo từng lớp học (course) Sau

đó hệ thống sẽ thực hiện tiền xử lý văn bản, tách từ, loại bỏ các từ dừng và lưu vào kho dữ liệu (cơ sở dữ liệu) của hệ thống

Khi có thêm 1 sinh viên mới nộp bài, hệ thống cũng thực hiện tiền xử lý văn bản, tách

từ, loại bỏ các từ dừng và lưu vào kho dữ liệu (cơ sở dữ liệu) của hệ thống Tiếp đó hệ thống sẽ thực hiện đối sánh văn bản vừa nộp với các bài của sinh viên đã nộp trước đó Nếu độ tương đồng bài tập của sinh viên mới nộp với các bài sinh viên nộp trước đó vượt ngưỡng (ví dụ: 0.8) thì hệ thống sẽ gửi cảnh báo tới sinh viên “bài tập của sinh viên A có

độ trùng khớp 80% với bài của sinh viên B” ngay lập tức để sinh viên A có thể làm và nộp lại bài Nếu độ tương đồng của bài mới nộp với các bài trong kho dữ liệu nhỏ hơn ngưỡng quy định thì lưu bài vào kho

Khi sinh viên nộp lại bài, bài mới của sinh viên sẽ thay thế bài cũ trong kho dữ liệu của

hệ thống (cơ sở dữ liệu)

Đến cuối kỳ hạn nộp bài, giảng viên đăng nhập vào môn học và có nút kiểm tra mức độ tương đồng của các bài trong lớp với nhau Mỗi bài sẽ được đối sánh với các bài còn lại trong lớp, và đưa ra các bài có mức độ tương đồng cao nhất

Như vậy đầu vào và đầu ra của bài toán là:

• Đầu vào:

o Bài tập của sinh viên trên lớp học Moodle dưới dạng file text có thể đọc được bằng hệ thống (doc, docx, …)

o Ngưỡng mức độ tương đồng cho phép (ví dụ: 80%) Giảng viên quy định

• Đầu ra: Mức độ tương đồng của bài sinh viên nộp với các bài sinh viên đã nộp trước đó, từ đó đưa ra:

o Email cảnh báo tới sinh viên nếu bài tập có độ tương đồng với các bài nộp trước đó vượt quá ngưỡng cho phép

o Cuối kỳ hạn nộp bài xuất ra báo cáo mức độ tương đồng giữa các bài tập của sinh viên trong cùng 1 lớp Mỗi bài đưa ra 3 bài trong cùng lớp có mức độ tương đồng cao nhất với bài đó

Trang 14

7.2 Quy trình xử lý của hệ thống

Từ mô hình, đầu vào và đầu ra của hệ thống được mô tả ở trên, ta có thể chia quy trình

xử lý của hệ thống thành các bước:

Bước 1: Tiếp nhận và lưu trữ bài tập của sinh viên nộp theo từng lớp học (course) Đây

là bước đầu tiên của quy trình Mục đích của bước này là tích hợp hệ thống với nền tảng đào tạo trực tuyến Moodle Quản lý sinh viên theo lớp học, phân quyền giảng viên, sinh viên, …

Bước 2: Tiền xử lý văn bản: Sau khi kết thúc bước 1, các tài liệu của sinh viên được

upload lên hệ thống Hệ thống đã nhận và đọc được Tại bước này, hệ thống sẽ xử lý dữ liệu nhận được được chuyển dữ liệu từ định dạng (.doc) sang dạng (.txt) Dữ liệu sẽ được

sơ chế: loại bỏ bìa, tách header footer, loại bỏ hình ảnh, …

Bước 3: Tách câu, tách từ và gán nhãn từ loại Sau khi qua tiền xử lý ở bước 2 ta được

bản text chứa các câu tiếng Việt Tiếp đó hệ thống sẽ thực hiện tách câu, tách từ, loại bỏ từ dừng, từ nhiễu, … và thực hiện gán nhãn cho các từ

Bước 4: Lưu dữ liệu vào cơ sở dữ liệu Sau khi tài liệu của sinh viên được tách từ và

gán nhãn Tài liệu sẽ được lưu vào cơ sở dữ liệu của hệ thống Mỗi một sinh viên có một

ID tương ứng với 1 course học và chỉ lưu được 1 bài tập tương ứng Do đó khi sinh viên

up lại bài cơ sở dữ liệu của sinh viên sẽ được cập nhật thay thế

Bước 5: Đối sánh mức độ tương đồng của bài sinh viên vừa nộp Sau khi bài tập của

sinh viên đã được lưu trong cơ sở dữ liệu dưới dạng các từ loại đã được tách Công đoạn này nhằm mục đích so khớp các trường dữ liệu bài tập của sinh viên vừa nộp bài với các trường dữ liệu của các sinh viên đã nộp bài trước đó Nếu mức độ tương đồng vượt quá ngưỡng, thì tức là có sự trùng khớp quá lớp hoặc có sự sao chép bài tập giữa bài của sinh viên vừa nộp với bài của sinh viên đã nộp trước đó

Bước 6: Tự động gửi cảnh báo tới sinh viên nếu độ tương đồng vượt ngưỡng Sau khi

hệ thống thực hiện đối sánh bài của sinh viên vừa nộp với các bài đã nộp trước đó Ta sẽ thu được mức độ tương đồng của bài sinh viên vừa nộp với các bài sinh viên đã nộp trước

đó Nếu mức độ tương đồng vượt quá ngưỡng cho phép (giảng viên quy định ngưỡng, ví dụ: 80%), thì sẽ gửi mail cảnh báo tới sinh viên để sinh viên làm và nộp lại bài trước hạn

Trang 15

Bước 7: Xuất báo cáo đối sánh khi giảng viên yêu cầu Kết thúc kỳ hạn nộp bài, hệ

thống sẽ đối sánh các bài của sinh viên trong cùng một lớp với nhau Hệ thống sẽ xuất báo cáo tới giảng viên con số đánh giá mức độ tương đồng bài tập của từng sinh viên trong lớp với nhau

Hình 2:Quy trình xử lý của hệ thống

Trang 16

II CƠ SỞ LÝ THUYẾT

1 Mô hình đào tạo trực tuyến Moodle

1.1 Tổng quan về Moodle

Moodle (Modular Object Oriented Dynamic Learning Environment) được sáng lập năm 1999 bởi Martin Dougiamas với mục đích tạo ra những khóa học trực tuyến có sự tương tác cao Moodle là một nền tảng hỗ trợ việc học tập, được thiết kế để cung cấp cho những nhà giáo dục, người quản lý giáo dục và người học một hệ thống mạnh mẽ, an toàn

để tạo ra một môi trường học tập cá nhân Người dùng có thể tải phẩn mềm và cài đặt trên máy chủ riêng để sử dụng Moodle được xây dựng và điều phối bởi Moodle HQ – một công ty của Úc với sự hỗ trợ của một mạng lưới nhiều công ty dịch vụ trên toàn thế giới

Hình 3: Biểu tượng đại diện cho moodle

1.2 Các đặc điểm của Moodle

1.2.1 Được xây dựng cho việc học tập với quy mô toàn cầu

Là một phần mềm đã được kiểm chứng và đáng tin cậy trên thế giới: Moodle đã được nhiều tổ chức lớn và nhỏ trên thế giới đã sử dụng, bao gồm trường Kinh tế London, Đại học New York, tổ chức Microsoft và một số trường Đại học mở Moodle được phục vụ cho

cả 2 mục đích hỗ trợ việc học tập cũng như hỗ trợ cho doanh nghiệp với số người sử dụng hiện nay khoảng 80 triệu người, giúp cho Moodle trở thành một nền tảng được sử dụng rộng rãi trên thế giới

Được thiết kế để hỗ trợ cả việc giảng dạy lẫn việc học tập: hệ thống Moodle cung cấp một bộ công cụ mạnh mẽ dựa trên phương pháp “lấy người học làm trung tâm”, và đã tạo

ra được một môi trường học tập với sự tương tác của 2 đối tượng chính là “người dạy” và

“người học”

Trang 17

1.2.2 Tính linh hoạt và tùy biến cao

Vì là phần mềm mã nguồn mở nên Moodle có thể được tùy biến theo bất cứ cách nào phù hợp với nhu cầu của người sử dụng Thiết kế dạng mô-đun cho phép các nhà phát triển tạo ra các mô-đun (plug-in) để tích hợp vào chương trình để phục vụ cho một số chức năng

cụ thể

Hệ thống có thể đáp ứng cho một nhóm nhỏ sinh viên tới việc đáp ứng cho hàng triệu người Moodle có thể hỗ trợ từ các lớp học nhỏ tới các tổ chức lớn Moodle có thể được sử dụng để phục vụ giáo dục, các dự án phi lợi nhuận, hoặc kinh doanh, thậm chí một số dự

án chính phủ…

1.2.3 Sử dụng bất cứ khi nào, bất cứ nơi đâu, trên bất cứ thiết bị nào

Moodle dựa trên nền tàng Web, nên có thể được truy cập từ bất cứ đâu chỉ cần một thiết

bị có hỗ trợ vào mạng và có hỗ trợ trình duyệt Web Và hiện nay Moodle dần dần được nâng cấp để có thể phục vụ tốt hơn ở trên các thiết bị di động

Dễ dàng sử dụng: Giao diện Moodle dễ sử dụng khiến cho người dùng không mấy khó khăn để tiếp xúc với nó Giao diện trực quan giống các trang web, các bài học được thiết

kế theo các mô-đun tuần tự

1.2.4 Được hỗ trợ bởi một cộng đồng mạnh mẽ

Dự án Moodle nhận được sự hỗ trợ của một cộng đồng lớn người sử dụng, trong đó có

sự hỗ trợ từ một mạng lưới các công ty cộng tác viên của Moodle (Moodle Partner) Hiện nay hệ thống Moodle liên tục được kiểm tra, nâng cấp và cải tiển để hệ thống ngày một hoàn thiện hơn để đáp ứng được nhu cầu của người sử dụng

Luôn cập nhật và được hỗ trợ: dự án Moodle luôn được xem xét và cập nhật để phù hợp với nhu cầu của người sử dụng

Mã nguồn mở: Moolde được cung cấp miễn phí dưới dạng một phần mềm mã nguồn

mở, theo giấy phép GNU Bất cứ ai cũng được phép sử dụng, mở rộng, sửa đổi mã nguồn

vì mục đích thương mại hoặc phi thương mại mà không cần xin phép hay chia sẻ lợi nhuận cho việc sử dụng Moodle

Trang 18

1.3 Các tính năng chính của Moodle

Mục đích chính của Moodle là tạo ra những khóa học trực tuyến có sự tương tác cao, tạo sự thuận lợi và giảm chi phí nhất trong việc dạy và học Do đó, Moodle bao gồm các chức năng chính sau [8]:

• Chức năng quản lý sinh viên: Cho phép người quản trị tạo người dùng mới, chứng

thực và phân quyền sử dụng cho họ, đưa sinh viên vào các lớp học, giao bài tập và thời hạn hoàn thành cho sinh viên

• Chức năng quản lý khóa học (course): Cho phép thêm các khóa học mới cũng

như cập nhật, chỉnh sửa nội dung cho khóa học trước đó, các khóa học có thể sao lưu để sử dụng lại trong các chương trình và dự án khác

• Chức năng quản lý kết quả học tập của sinh viên: Kết quả của học viên phải được

quản lý, giám sát và có thể xuất báo cáo chi tiết, tiện cho việc quản lý của giáo viên Việc quản lý kết quả học tập của sinh viên để làm điều kiện tiên quyết xét sinh viên

có đủ điều kiện tham gia thi hết môn

• Chức năng quản lý các module hỗ trợ: do Moodle là nền tảng mã nguồn mở, linh

hoạt và mềm dẻo, có thể tích hợp thêm nhiều chức năng và hệ thống như: các hoạt động học tập, bộ lọc và các khối, … để đảm bảo hệ thống đồng bộ thông tin và hoạt động ổn định

Hình 4:Các tính năng chính của Moodle

Trang 19

2 Vấn đề sao chép hay đạo văn trong đào tạo trực tuyến

2.1 Các hình thức kiểm tra và đánh giá trong đào tạo trực tuyến và những

hạn chế còn tồn tại

2.1.1 Các hình thức kiểm tra và đánh giá trong đào tạo trực tuyến

Trong mô hình đào tạo trực tuyến có rất nhiều hình thức kiểm tra được đưa ra nhằm mục đích đánh giá năng lực và lượng kiến thức sinh viên tích lũy được trong mỗi khóa học Dưới đây là một số hình thức kiểm tra đã và đang được áp dụng tại Việt Nam cụ thể tại Trung tâm e-Learning thuộc Viện Đại học Mở Hà Nội

• Học viên có thể sẽ làm những bài trắc nghiệm nhỏ (Multiple choice, true/fale) trong quá trình học để ghi nhớ kiến thức trong bài

• Sinh viên phải hoàn thành một số bài tập kiểm tra dưới dạng trắc nghiệm (Multiple choice) để lấy điểm chuyên cần

• Học viên hoặc nhóm học viên phải làm những bài tiểu luận, bài tập lớn để lấy điểm giữa kỳ

• Thi tập trung để lấy điểm cuối kỳ Có thể thi dưới hình thức tự luận, trắc nghiệm, thực hành, vấn đáp …

• Với một số môn đặc thù như ngoại ngữ có thể áp dụng hình thức thi nói bằng hình thức ghi âm, ghi hình và nộp bài qua mạng hoặc thi vấn đáp sinh viên qua Skype,

…

2.1.2 Vấn đề gian lận kiểm tra đánh giá trong đào tạo trực tuyến

Dù dưới hình thức đào tạo truyền thống hay đào tạo trực tuyến thì việc thi cử và kiểm tra vẫn còn tồn tại những tiêu cực trong đánh giá đúng chất lượng của học viên Nhất là trong hình thức đào tạo trực tuyến luôn đề cao tính tự giác của học viên thì việc chống gian lận trong thi cử, kiểm tra lại càng trở thành nỗi lo của các nhà làm giáo dục Do vậy tại Việt Nam thi cuối kỳ vẫn phải được thi tập trung dưới sự giám sát của đơn vị đào tạo Với mỗi loại hình thức thi cử, kiểm tra thì luôn tồn tại cạnh đó những vấn đề tiêu cực, gian lận Một số nguy cơ về gian lận có thể gặp phải trong thi cử và kiểm tra trực tuyến là:

• Thi trắc nghiệm trực tuyến: học viên sao chép bài, nhờ người làm hộ bài …

• Nộp bài tiểu luận, bài tập lớn: sao chép bài, nhờ người làm hộ bài…

Trang 20

2.1.3 Một số giải pháp hiện nay nhằm ngăn chặn gian lận

Đã có rất nhiều giải pháp được đưa ra nhằm hạn chế gian lận trong thi cử và kiểm tra

• Với hình thức thi trắc nghiệm, việc thành lập ngân hàng câu hỏi, trộn đề thi đảo đáp

án đã hạn chế được tình trạng sinh viên sao chép bài làm

• Hình thức thi vấn đáp tập trung là hình thức thi cử, kiểm tra ít tiêu cực và có thể đánh giá kiến thức sinh viên tốt nhất Nhưng sẽ tốn thời gian và kinh phí đi lại và tổ chức, nên chỉ phù hợp cho các kỳ thi cuối kỳ

• Với hình thức làm tiểu luận, bài tập lớn thì hầu như chưa có phương pháp nào hỗ trợ giảng viên trong việc hạn chế gian lận trong thi cử và kiểm tra Giảng viên phải ngồi đọc, so sánh và đối chiếu tất cả các bài làm của sinh viên để có thể biết được học viên có sao chép bài hay không?

Do đó việc xây dựng công cụ hỗ trợ kiểm tra gian lận trong hình thức làm bài tiểu luận, bài tập lớn trên các khóa học trực tuyến là rất cần thiết nhằm ngày càng cải thiện và nâng cao chất lượng đào tạo trực tuyến, và hỗ trợ giảng viên đánh giá sơ bộ độ tương đồng giữa các bài tập của sinh viên Hướng nghiên cứu của đề tài tập trung giải quyết vấn đề gian lận thi cử của sinh viên khi nộp bài tiểu luận, bài kiểm tra giữa kỳ Mục đích phát hiện sớm những văn bản có tỷ lệ câu văn trùng lặp cao và đưa ra cảnh báo sớm tới sinh viên, để sinh viên có điều kiện làm lại bài và một phần cũng giảm bớt công việc của giảng viên tránh công việc phải đối chiếu và so sánh từng văn bản một

Hiện nay đào tạo trực tuyến mới phát triển ở Việt Nam trong khoảng một thập niên trở lại đây Một số trường đại học đã đưa hình thức học e-Learning áp dụng và đào tạo từ xa Ngoài hình thức thi trắc nghiệm được hỗ trợ chấm máy thì hầu hết mọi hình thức thi khác giảng viên đều phải chấm bài một cách thủ công bằng việc đọc và đánh giá từng văn bản một, nếu có phát hiện hai văn bản có nội dung trùng lặp hoặc tương tự thì giảng viên lại phải lục tìm lại và đối chiếu hai văn bản đó với nhau Điều đó tiêu tốn rất nhiều thời gian của giảng viên, và nếu có phát hiện ra được hai văn bản có nội dung trùng lặp thì phương

án giảng viên đưa ra thường là trừ điểm cả hai bài Nhưng nếu có một phần mềm hỗ trợ

Trang 21

giúp giảng viên có thể tính toán được số lượng văn bản trùng lặp khi sinh viên nộp bài và đưa ra cảnh báo để sinh viên có thể làm lại bài điều đó giúp giảng viên đỡ một phần công việc và còn giúp sinh viên có cơ hội làm lại bài nếu lỡ vi phạm Đây chính là mục đích hướng đến của đề tài

Đề tài chỉ dừng ở mức độ hỗ trợ giảng viên phát hiện gian lận trong việc sao chép bài tiểu luận và kiểm tra giữa kỳ và đưa ra cảnh báo dựa trên tỷ lệ văn bản trùng lặp chứ chưa thật sự giải quyết được vấn đề ngăn chặn gian lận khi sinh viên nhờ người làm bài hộ

2.2 Quan niệm về đạo văn

2.2.1 Quan niệm chung về đạo văn

Theo định nghĩa của Oxford English Dictionary: “Đạo văn là hành động hoặc việc lấy

sản phẩm, ý tưởng của người khác, v.v và chuyển nó thành của riêng mình.”

Đạo văn theo định nghĩa của Merriam-Webster Online Dictionary, “Đạo văn là hình

thức ăn cắp và hình thành những ý tưởng hay ngôn từ mới khởi nguồn từ ý tưởng của ai đó; sử dụng sản phẩm của một ai đó mà không công bố nguồn; hoặc giới thiệu một ý tưởng hay sản phẩm mới được chuyển hóa từ nguồn đã có từ trước.”

Ngoài những tác phẩm tác giả cố ý lấy kết quả, sản phẩm của người khác làm của mình (chiếm phần nhỏ) Thì hầu hết việc đạo văn là do vô tình tổng hợp hoặc cóp nhặt ý tưởng của các tác giả khác nhưng quên hoặc không biết là phải trích dẫn nguồn gốc

Một ví dụ thực tế có thể kể đến như việc cuối tháng 10 năm 2010, một nhóm tác giả Việt Nam đã bị rút bài trên tạp chí quốc tế uy tín về vật lý vì lí do đạo văn, nhưng chính họ cũng không biết rằng mình đã đạo văn khi biện hộ rằng “chỉ là đã không nêu rõ nguồn tài liệu tham khảo” Rõ ràng vấn đề đạo văn và sở hữu trí tuệ tại Việt Nam chưa được coi trọng đúng mức cần thiết

Hoặc như trong một nghiên cứu của Đại học Duy Tân về việc khảo sát hơn 2.000 tân sinh viên nhập học năm 2014, kết quả cho thấy 84% sinh viên từng chép từ nửa trang A4 trở lên trong sách tham khảo, giáo trình, tài liệu trên Internet mà không ghi nguồn và 84% sinh viên này đều cảm nhận việc làm ấy là “bình thường” Các lý do được đưa ra là:

• Không biết cách trích dẫn (36%)

• Không nhớ tên tác giả (12%)

• Không quan tâm (9%)

Trang 22

• Không thể viết hay hơn (15%)

2.2.2 Phân loại đạo văn

Đạo văn có nhiều hình thức Nó có thể xảy ra trong bất kỳ lĩnh vực nào liên quan đến quá trình tạo, viết văn bản, mã nguồn máy tính, nghệ thuật và thiết kế, và thậm chí cả các bản nhạc Vì trọng tâm của luận án này chỉ tập trung đạo văn dựa trên văn bản tiếng Việt, nên tác giả sẽ tập chung và đề cập ngắn gọn các hình thức đạo văn trên văn bản

• Đạo văn hoàn toàn (Copy & paste): đây là kiểu đạo văn mà tác giả đã lấy toàn bộ sản phẩm của người khác làm của mình, sự chỉnh sửa rất ít và gần như chỉ chỉnh sửa tên và đôi khi là đảo thứ tự các cụm văn bản Đây là kiểu đạo văn dễ phát hiện nhất

• Đạo văn trá hình (Disguised Plagiarism): được mô tả như là tác giả lấy tài liệu từ một nguồn và diễn giải lại ý, thay từ đồng nghĩa, đảo trật tự câu, hay dịch từ ngôn ngữ này sang ngôn ngữ khác

• Tự đạo văn (Self-plagiarism): đề cập một loại sử dụng ý tưởng, tài liệu của người khác, đem biến đổi nghĩa rộng hơn và cho đó là của mình mà không đưa ra trích dẫn nguồn phù hợp

Việc sinh viên sao chép bài tập của nhau (đạo văn) làm giảm khả năng tư duy học tập của sinh viên, điều đó dẫn đến làm giảm chất lượng giáo giáo dục vì vậy việc giám sát và đánh giá mức độ tương đồng giữa các bài tập của sinh viên là cần thiết Điều đó giúp sinh viên ý thức cảnh giác hơn về việc gian lận trong các bài kiểm tra và đánh giá, cũng như đưa ra thông số đánh giá sơ bộ độ tương đồng giữa các bài tập của sinh viên làm giảm bớt phần nào công việc của giảng viên Hy vọng công cụ phần nào làm giảm được tình trạng sinh viên sao chép bài tập của nhau và hỗ trợ giảng viên được phần nào trong việc đánh giá

sơ bộ bài tập của sinh viên trong cùng một lớp học

3 Quy trình và phương pháp phát hiện đạo văn

3.1 Quy trình phát hiện đạo văn

Tuy đã có nhiều công cụ và phần mềm hỗ trợ phát hiện đạo văn, nhưng nhìn chung để xác định chắc chắn rằng có hành vi đạo văn hay không trong một văn bản nào đó là điều khó xác định Đã có nhiều công trình nghiên cứu đưa ra nhằm tìm ra quy trình và phương pháp xác định sự sao chép hay đạo văn trong các tài liệu Nhìn chung lại thì hai tác giả Lancaster và Culwin đã tổng hợp quy trình các giai đoạn quan trọng được nhiều nhà nghiên

Trang 23

cứu sử dụng để phát hiện đạo văn là: thu thập ➔ phân tích ➔ xác nhận ➔ điều tra, được

mô tả như hình bên[6]

Hình 5: Quy trình 4 bước phát hiện đạo văn

❖ Giai đoạn 1 - thu thập: Đây là giai đoạn đầu tiên của quá trình phát hiện đạo văn,

và nó đòi hỏi các sinh viên hoặc tác giả nghiên cứu tải lên các kết quả hoặc bài viết thông qua công cụ web, các công cụ web hoạt động như một giao diện giữa các người dùng và hệ thống Quá trình sẽ tạo nên một kho ngữ liệu (corpus) bao gồm nhiều các tài liệu văn bản được thu thập

❖ Giai đoạn 2 – phân tích: Trong giai đoạn này tất cả các tài liệu, văn bản trong kho

ngữ liệu đã thu thập (corpus) sẽ được đưa vào một máy đánh giá độ tương tự (engine)

để xác định mức độ tương đồng giữa tài liệu này với các tài liệu khác Có hai loại máy đánh giá độ tương tự Thứ nhất là đánh giá trong tức đưa ra danh sách các cặp tài liệu có mức độ tương đồng từ cao xuống thấp Thứ hai ngược lại, là đánh giá ngoài tức sẽ trả về kết quả những đường dẫn web có chứa nội dung tương tự

❖ Giai đoạn 3 – xác nhận: Chức năng của giai đoạn này là xác định xem các văn bản

có liên quan đã bị ăn cắp ý tưởng từ các văn bản khác hoặc xác định nếu có một mức độ cao của sự tương đồng giữa một tài liệu và các tài liệu khác

❖ Giai đoạn 4 – điều tra: Đây là giai đoạn cuối cùng của quá trình phát hiện đạo văn

và nó dựa vào sự can thiệp của con người Trong giai đoạn này, một chuyên gia có trách nhiệm xác định sự đúng đắn của hệ thống, tức là xem xét kết quả đánh giá của

hệ thống có thực sự đạo văn hay chỉ đơn giản là sự trích dẫn khoa học

Tất cả bốn giai đoạn này phụ thuộc vào việc thừa nhận sự giống nhau giữa các tài liệu

và kết quả dựa trên một thuật toán hiệu quả để tìm ra những điểm tương đồng giữa các tài

Trang 24

liệu Ngoài ra còn có một yếu tố phức tạp cần nhiều thời gian để chuyên gia xác nhận và điều tra các trường hợp nghi ngờ, chưa thể khẳng định từ hệ thống

3.2 Phương pháp phát hiện đạo văn

Dưới sự bùng nổ về công nghệ thông tin thì sự sao chép thông tin trở nên dễ dàng hơn bao giờ hết Vấn nạn đạo văn càng ngày càng phát triển biến tướng và ngày càng tinh vi Chính vì vậy các kỹ thuật và công nghệ phát hiện đạo văn cũng phải phát triển theo để giám sát và quản lý chất lượng giáo dục Nhưng theo nhóm nghiên cứu của các tác giả Ahmed Hamza Osman, Naomie Salim, and Albaraa Abuobieda trong bài báo “khảo sát vấn

đề phát hiện đạo văn trong văn bản” đã thống kê và phân loại các kỹ thuật đạo văn thành các nhóm bao gồm[4]:

• Các phương pháp dựa trên ký tự: các kỹ thuật phát hiện đạo văn đơn giản là dựa

trên các phương pháp ký tự để so sánh các tài liệu cần xem xét với các tài liệu gốc Chuỗi ký tự giống nhau có thể được phát hiện một cách chính xác hoặc một phần bằng cách sử dụng các tiếp cận so khớp ký tự Có thể sử dụng thuật toán n-gram (16-gram, 8-gram, hay 5-gram) hoặc kỹ thuật fingerprint để tìm các chuỗi khớp nhau và phát hiện đạo văn dựa trên tỷ lệ các chuỗi khớp nhau tìm thấy

• Phương pháp dựa trên cấu trúc: nhiều tác giả nghiên cứu đề xuất các phương

pháp dựa vào các đặc điểm cấu trúc của văn bản như tiêu đề, các phần nội dung, đoạn văn, và tài liệu tham khảo Trong đó, biểu diễn các đặc trưng theo cấu trúc cây là một mô hình ánh xạ tự tổ chức nhiều tầng (ML-SOM) Hai tác giả Chow và Rahman đã xây dựng những ý tưởng dựa trên hai lớp, lớp trên cùng và lớp dưới cùng Lớp trên cùng biểu diễn việc phân cụm các tài liệu, trong khi lớp dưới cùng

sử dụng hệ số tương đồng Cosine để đánh giá văn bản giống nhau

• Các phương pháp dựa trên phân lớp và gom cụm: kỹ thuật gom cụm (clustering)

là một trong những kỹ thuật truy vấn thông tin được sử dụng trong nhiều lĩnh vực như tóm tắt văn bản, phân loại văn bản hay phát hiện đạo văn Nó được sử dụng để cải thiện hiệu quả với việc giảm thời gian tìm kiếm trong tài liệu để tóm tắt văn bản

và làm giảm thời gian so sánh trong việc phát hiện đạo văn Nhóm của Si, hay Zini

và cộng sự sử dụng từ khóa để tìm các cụm tương tự giữa các tài liệu

• Phương pháp dựa trên cú pháp: kỹ thuật này quan sát việc sử dụng các thẻ

part-of-speech (POS) mang tính cú pháp để biểu diễn cấu trúc của văn bản làm cơ sở so

Trang 25

sánh và phân tích Kỹ thuật này xếp hạng thứ tự các tài liệu dựa trên các thẻ POS Trong đó, tác giả Elhadi và Al-Tobi để xuất việc sử dụng dãy con chung dài nhất (LCS) để tính toán sự tương đồng giữa các tài liệu và xếp hạng chúng theo thứ tự các tài liệu theo mức độ liên quan

• Phương pháp cross-language: phương pháp này phát hiện sự giống nhau giữa tài

liệu cần xem xét với tài liệu gốc bằng cách sử dụng mô hình thống kê để tính toán xác suất tài liệu xem xét có liên quan đến tài liệu gốc mà không phụ thuộc vào thứ

tự các từ ngữ xuất hiện trong tài liệu Cách tiếp cận này đòi hỏi việc xây dựng kho ngữ liệu song ngữ, một công việc khó khăn để triển khai

• Phương pháp dựa trên ngữ nghĩa: nhiều nhà nghiên cứu đã hoàn thành một công

việc rất quan trọng đó là xây dựng mạng từ WordNet, qua đó để tính toán sự tương đồng ngữ nghĩa giữa các từ trong tài liệu Gelbukh đã xác định sự tương tự ngữ nghĩa giữa hai từ bằng cách tính toán mức độ liên hệ giữa các từ này bằng cách sử dụng thông tin từ một từ điển (mạng từ WordNet) Trên cơ sở xác định độ tương tự ngữ nghĩa giữa các từ, các phương pháp phát triển thành mức độ tượng tự ngữ nghĩa giữa các câu và đoạn trong tài liệu Phương pháp được nhiều nhóm nghiên cứu sử dụng và phát triển, đem lại hiệu quả rất khả quan bởi nó xem xét đến yếu tố ngữ nghĩa của ngôn ngữ

4 Phương pháp đánh giá độ tương đồng văn bản tiếng Việt

4.1 Giới thiệu chung

Một trong những ứng dụng đầu tiên của việc đối sánh văn bản được đưa ra bởi Salton

và Lesk vào năm 1971 là mô hình tìm kiếm thông tin Trong đó các văn bản cần tìm kiếm

sẽ được đối sánh với các tài liệu để trả về tài liệu có chứa văn bản chứa độ tương đồng cao nhất với chuỗi văn bản truy vấn Ứng dụng này đến ngày nay vẫn đang được ứng dụng và

sử dụng rộng khắp điển hình nhất là Google, việc Google đưa ra xếp hạng các trang web dựa theo các từ khóa bạn tìm kiếm Việc đo độ tương đồng của hai văn bản trước kia chủ yếu dựa trên kỹ thuật so khớp chuỗi (String-based) và so khớp từ (Word-base) Tuy nhiên ngày nay, dưới sự bùng nổ của khoa học máy tính và các ngành liên quan (trí tuệ nhân tạo, xác suất thống kê, …), thì việc so khớp từ dựa trên ngữ nghĩa làm cho việc so sánh trở nên thông minh và chính xác hơn [3]

Trang 26

Các nghiên cứu về đánh giá độ tương đồng giữa các văn bản tiếng Anh khá phổ biến

và đạt được những bước tiến khả quan Còn nghiên cứu về tiếng Việt còn khá ít, và hầu như kế thừa từ phương pháp đánh giá dựa trên mạng từ tiếng Anh Đối với mạng từ tiếng Việt, hiện đang được các cá nhân và tổ chức nghiên cứu xây dựng, trong đó một nhánh của

Đề tài Khoa học công nghệ cấp Nhà nước “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lý văn bản tiếng Việt” đang tập trung phát triển [1]

4.2 Phân loại độ tương đồng giữa hai văn bản

Các phương pháp đánh giá độ tương đồng giữa các văn bản chủ yếu dựa trên hai yếu

tố chính đó là:

• Độ tương đồng về mặt chuỗi: đây là phương pháp đánh giá độ tương đồng giữa

hai văn bản thông qua việc so khớp các ký tự, cấu trúc và trật tự của các từ trong văn bản (word-order) Ngoài ra đánh giá còn dựa trên tỷ số của tập các từ chung của hai văn bản đối với tổng số từ của cả hai văn bản đó (random walk

probability) Các yếu tố này được kết hợp với nhau theo trọng số nhất định để đưa

ra được một số thể hiện độ tương đồng giữa hai văn bản

• Độ tương đồng về mặt ngữ nghĩa: việc đánh giá này dựa trên việc sử dụng mạng

từ (wordnet), một số khác dựa trên kho ngữ liệu Web, hoặc dựa trên phân tích ngữ nghĩa ẩn Thông thường, các đánh giá này được dùng để tạo ra các véc-tơ đặc trưng của các văn bản tương ứng, rồi sau đó sử dụng các phép đo để xác định độ tương tự ngữ nghĩa giữa các văn bản Phương pháp đánh giá này đôi khi trở nên thông minh

và chính xác hơn với một tập dữ liệu đủ lớn Đo độ tương đồng ngữ nghĩa được nghiên cứu và áp dụng trong nhiều lĩnh vực từ y khoa (phân tích và so sánh gen), phân loại và quản lý văn bản (quản lý thư viện), tìm kiếm thông tin (CEO- Search Engine Optimization), …

Tất cả cho thấy tiềm năng ứng dụng của việc so khớp văn bản rất rộng lớn, đặc biệt là trong ngôn ngữ tiếng Việt Luận văn đề cập đến một vấn đề khá cơ bản là đánh giá độ tương đồng trong văn bản tiếng Việt dựa trên các yếu tố đánh giá kế thừa từ các phương pháp trong tiếng Anh Trong đó sẽ có phân tích đưa ra các kết hợp của những yếu tố này

để đem lại hiệu quả trong ứng dụng và triển khai một số thử nghiệm để minh họa

Trang 27

4.3 Phương pháp đo độ tương đồng văn bản trong tiếng Việt

4.3.1 Bài toàn tách từ trong tiếng Việt

Trong việc đánh giá độ tương tự văn bản việc đầu tiên cần phải làm là phân tách văn bản thành các đơn vị nhỏ hơn và thực hiện đánh giá độ tương đồng giữa hai văn bản dựa trên các đơn vị này Có thể thấy đơn vị có nghĩa nhỏ nhất trong tiếng Việt là từ vựng Trong tiếng Anh các từ được phân tách nhau bằng dấu khoảng trắng “space” Nhưng trong tiếng Việt dấu khoảng trắng “space” đôi khi chỉ được dùng để phân tách các âm tiết Bởi vì tiếng Việt từ vựng có thể là đơn âm tiết (từ đơn) hoặc đa âm tiết (từ phức) Ví dụ: từ “đất nước” được tạo ra từ 2 âm tiết “đất” và “nước”, cả 2 âm tiết này đều mang nghĩa riêng khi đứng độc lập, nhưng khi ghép lại sẽ mang một nghĩa khác Ngoài ra sắc thái và ý nghĩa của câu phụ thuộc rất nhiều vào trật tự của các từ trong câu [2]

Ví dụ: với 5 từ “đến, sao, nó, bảo, không” có thể ghép được 23 câu có nghĩa khác nhau

Câu “đến, sao, nó, bảo, không”

1 Sao nó bảo không đến?

2 Sao bảo nó không đến?

3 Sao không đến bảo nó?

4 Sao nó không bảo đến?

5 Sao? đến bảo nó không?

6 Sao? Bảo nó đến không?

7 Nó đến, sao không bảo?

8 Nó đến, không bảo sao?

9 Nó đến bảo không sao

10 Nó bảo sao không đến?

11 Nó đến, bảo sao không?

12 Nó bảo đến không sao

13 Nó bảo không đến sao?

14 Nó không bảo, sao đến?

15 Nó không bảo đến sao?

16 Nó không đến bảo sao?

17 Bảo nó sao không đến?

18 Bảo nó: Ðến không sao

Trang 28

19 Bảo sao nó không đến?

20 Bảo nó đến, sao không?

21 Bảo nó không đến sao?

22 Bảo không, sao nó đến?

23 Bảo! Sao, nó đến không?

Bảng 1: Số câu được ghép bởi 5 từ “đến, sao, nó, bảo, không”

Do đó bài toán tách từ vựng tiếng Việt là một trong những vấn đề cơ bản đầu tiên trong

xử lý ngôn ngữ tự nhiên Tách từ là một quá trình xử lý nhằm phân tách câu thành các phần

tử có nghĩa nhỏ nhất là từ (từ đơn, từ ghép) Khi đã xác định được từ ta mới phân loại được

nó là danh từ, động từ, tính từ …, những vấn đề học sinh đã được học cấp tiểu học, nhưng đối với máy tính đó là cả một bài toán khó để giải quyết được một cách tuyệt đối Chính vì

lý do đó, bài toán tách từ trong tiếng Việt là phần vô cùng quan trọng, ảnh hướng rất lớn đến kết quả của việc đo độ tương đồng giữa các văn bản

a Một số phương pháp tách từ tiếng Việt

Phương pháp khớp tối đa (MM - Maximum Matching): Ở phương pháp này sẽ duyệt

một từ ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển

và cứ thực hiện lặp lại như vậy cho đến hết câu Dạng đơn giản phương pháp dùng để giải quyết nhập nhằng từ đơn Giả sử chúng ta có một chuỗi ký tự C1, C2, …, Cn Chúng ta sẽ

áp dụng phương pháp từ đầu chuỗi Đầu tiên kiểm tra xem C1 có phải là từ hay không, sau

đó kiểm tra xem C1C2 có phải là từ hay không Tiếp tục thực hiện như thế cho đến khi tìm được từ dài nhất Dạng phức tạp quy tắc của dạng này là phân đoạn từ Thông thường người

ta chọn phân đoạn ba từ có chiều dài tối đa Thuật toán bắt đầu từ dạng đơn giản, cụ thể là nếu phát hiện ra những cách tách từ gây nhập nhằng, như ở ví dụ trên, giả sử C1 là từ và

C1C2 cũng là một từ, khi đó chúng ta kiểm tra ký tự kế tiếp trong chuỗi C1, C2, , Cn để tìm tất cả các đoạn có ba từ bắt đầu với C1 hoặc C1C2

Ví dụ: Giả sử chúng ta có được các đoạn sau:

Trang 29

thực hiện tách từ đơn giản, nhanh và chỉ cần dựa vào từ điển để thực hiện Tuy nhiên, khuyết điểm của phương pháp này cũng chính là từ điển, nghĩa là độ chính xác khi thực

hiện tách từ phụ thuộc hoàn toàn vào tính đủ, tính chính xác của từ điển

Phương pháp Transformation-based Learning (TBL): Phương pháp này tiếp cận dựa

trên tập ngữ liệu đã đánh dấu Theo cách tiếp cận này để cho máy tính có thể nhận biết ranh giới giữa các từ để có thể tách từ chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh dấu ranh giới giữa các từ đúng Rõ ràng chúng ta thấy phương pháp rất đơn giản, vì chỉ cần cho máy học các tập câu mẫu và sau đó máy sẽ tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính xác khi có những câu đúng theo luật mà máy đã rút ra Và rõ ràng để tách từ được hoàn toàn chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ

Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền: – IGATEC (Internet and Genetics Algorithm based Text Categorization for

Documents in Vietnamese) do H.Nguyễn đề xuất năm 2005 như một hướng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà không cần dùng đến một từ điển hay tập ngữ liệu học nào Trong hướng tiếp cận này, tác giả kết hợp giữa thuật toán di truyền với

dữ liệu thống kê được lấy từ Internet

b Một số công cụ tách từ tiếng Việt

vnTokenizer: Bộ công cụ tách từ vnTokenizer thuộc nhánh đề tài “Xử lý văn bản tiếng

Việt” nằm trong Đề tài thuộc Chương trình Khoa học Công nghệ cấp Nhà nước “Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lí tiếng nói và văn bản tiếng Việt - (VLSP)”

đã xây dựng công cụ tách từ tiếng Việt với sản phẩm vnTokenizer, công cụ này chuyên dùng để tách từ, gán nhãn từ loại cho tiếng Việt vnTokenizer được viết bằng Java Công

cụ được khá nhiều công trình nghiên cứu về đối sánh độ tương đồng tiếng Việt sử dụng với

độ chính xác cao, trên 97%

JvnTextPro: Bên cạnh vnTokenizer thì còn một công cụ cũng được sủ dụng khá phổ

biến trong lĩnh vực tách từ tiếng Việt là công cụ JVnTextPro JvnTextPro: công cụ tách từ

do nhóm tác giả Nguyễn Cẩm Tú, Khoa Công nghệ - Trường Đại học Quốc gia Hà Nội xây dựng có thể nhận biết được các danh từ riêng, các từ đơn và từ ghép với có độ chính xác trung bình khá cao, khoảng 94,5% JVnTextPro là một công cụ mã nguồn mở viết bằng Java, dựa trên các trường ngẫu nhiên có điều kiện (CRFs) và Entropy tối đa (Maxent), để

Trang 30

xử lý ngôn ngữ tự nhiên (NLP) bằng tiếng Việt Công cụ này bao gồm nhiều bước (hoặc các bài toán nhỏ hơn) đối với tiền xử lý và xử lý văn bản tiếng Việt được thiết kế theo cách thức mà trong đó đầu ra của một bước được sử dụng làm đầu vào cho bước tiếp theo Các bài toán nhỏ hơn là công cụ phân đoạn câu, công cụ mã thông báo câu, công cụ phân đoạn

từ và công cụ gắn thẻ Part-of-Speech

Mô hình tách từ bằng WFST (Weighted Finit State Transduce) và mạng Neural đã

được sử dụng trong công trình của tác giả Đình Điền (2001) Tác giả đã xây dựng hệ thống tách từ gồm tầng WFST để tách từ và xử lý các vấn đề liên quan đến một số đặc thù của tiếng Việt như từ láy, tên riêng… và tầng mạng Neural dùng để khử nhập nhằng về ngữ nghĩa sau khi đã tách từ nếu có Mô hình này đạt được độ chính xác trên 97% theo như công bố

Trong khuôn khổ luận văn tôi sử dụng công cụ vnTokenizer như là đầu vào cho việc áp dụng phương pháp đánh giá độ tương tự văn bản Khi đó mỗi văn bản sẽ được biểu diễn bằng một véc-tơ các từ vựng có dạng:

Ti = {w1, w2, …, wni}

trong đó, ni là số từ vựng tách được của văn bản di

4.3.2 Khái niệm độ tương đồng

“Độ tương đồng là một đại lượng dùng để so sánh hai hay nhiều đối tượng với nhau, phản ánh cường độ của mối quan hệ giữa các đối tượng với nhau.”

Ví dụ: xét 2 câu “Tôi là sinh viên ngành công nghệ thông tin” và “Hoa là sinh viên học ngành công nghệ thông tin”, ta có thể nhận thấy hai câu trên có sự tương đồng cao

Phát biểu bài toán tính độ tương đồng như sau: Xét 2 văn bản di và dj Mục tiêu là tìm

ra một giá trị S(di, dj), S €(0,1), thể hiện độ tương đồng giữa 2 văn bản di và dj Giá trị càng gần 1 thì sự giống nhau về nghĩa của hai văn bản càng nhiều

Ví dụ trong mô hình không gian vector, ta sử dụng độ đo Cosine để tính độ tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector Độ tương tự ngữ nghĩa là khái niệm thể hiện tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của tập các tài liệu hoặc các thuật ngữ trong một danh sách các thuật ngữ Độ tương đồng ngữ nghĩa phản ánh mối quan hệ ngữ nghĩa giữa các câu, các tài liệu văn bản

Trang 31

Trong nhiều trường hợp, độ tương tự giữa hai đoạn văn bản có thể xác định dựa trên so khớp từ đơn giản, mức độ tương đồng được xác định dựa trên tần suất đơn vị từ vựng xuất hiện trong cả hai văn bản so sánh Tuy nhiên phương pháp so sánh dựa trên thống kê này không thể khẳng định được độ tương tự ngữ nghĩa của văn bản do chưa thể giải quyết được vấn đề từ đồng nghĩa, từ đồng âm trong văn bản tiếng Việt, vị trí xuất hiện của từ và câu trong văn bản Các phương pháp đánh giá độ tương đồng giữa các văn bản chủ yếu dựa trên hai yếu tố:

Độ tương đồng ngữ nghĩa giữa các từ: có thể dùng phương pháp sử dụng mạng từ

(Wordnet), dựa trên kho ngữ liệu Web (Corpus), phân tích ngữ nghĩa ẩn hoặc sử dụng phương pháp thống kê

Độ tương đồng theo trật tự của từ trong văn bản: do trong tiếng Việt thứ tự các từ

trong câu ảnh hưởng rất nhiều đến ý nghĩa của mỗi câu, ví dụ tại Bảng 2 Do đó mục đích phương pháp này nhằm đưa ra được vector thứ tự các từ cho mỗi câu

Sau khi tách được từ trong các văn bản thì độ tương đồng hai văn bản sẽ được tính theo các bước:

Tính độ tương đồng giữa từ với từ: trong bước này, tập các từ được tách ra từ hai văn

bản sẽ được đối sánh với nhau để xác định độ tương đồng giữa các cặp từ vựng

Tính độ tương đồng giữa câu với câu: khi đã xác định mức độ tương đồng giữa các cặp

từ trong văn bản, ta tìm mức độ tương đồng của từng câu trong văn bản 1 với từng câu trong văn bản 2 dựa vào mức độ tương đồng của các từ trong câu và trật tự của từ

Tính độ tương đồng giữa hai văn bản: từ kết quả so sánh các từ và câu trong văn bản

xác định mức độ tương đồng giữa hai văn bản

Sau khi đã tách được từ trong văn bản công đoạn tiếp theo là đối sánh độ tương đồng ngữ nghĩa của các cặp từ để xác định chỉ số đánh giá mức độ tương đồng ngữ nghĩa của mỗi cặp từ, từ đó xác định mức độ tương đồng của các câu, sau đó sẽ xác định mức độ tương đồng của các văn bản

4.3.3 Tính độ tương đồng ngữ nghĩa giữa từ với từ

Mỗi văn bản gồm nhiều câu, mỗi câu gồm nhiều từ Do đó, để đánh giá mức độ tương đồng của hai văn bản, ta phải tách các câu thành các phần tử có ý nghĩa nhỏ nhất và đối sánh ngữ ngữ nghĩa của các phần tử đó (từ vựng) Có nhiều phương pháp để so sánh mức

Trang 32

có thể có nhiều nghĩa và khi đó mỗi nghĩa sẽ thuộc vào những tập đồng nghĩa khác nhau Ngược lại, mỗi tập đồng nghĩa lại có thể chứa một hoặc nhiều hơn các từ khác nhau Khi

đó quan hệ ngữ nghĩa có thể được xem như là con trỏ giữa các tập đồng nghĩa

Đã có nhiều nghiên cứu sâu rộng về các phương pháp được sử dụng WordNet với mục tiêu xác định sự giống nhau giữa các khái niệm Các nghiên cứu phân biệt ba khái niệm: mối quan ngữ nghĩa, khoảng cách ngữ nghĩa, và sự tương đồng Nghiên cứu cho rằng sự giống nhau là "một trường hợp đặc biệt của mối quan hệ ngữ nghĩa" Một ví dụ đã được đưa ra để phân biệt giữa các mối quan ngữ nghĩa và sự tương đồng là hai từ “ô tô” và

“xăng” Hai từ này có liên quan chặt chẽ hơn so với “ô tô” và “xe đạp”, tuy nhiên cặp từ

“ô tô” và “xe đạp” có nhiều tương tự hơn Họ định nghĩa khái niệm khoảng cách ngữ nghĩa như là nghịch đảo của độ tương tự ngữ nghĩa hoặc mức độ liên quan với nhau và cho rằng

"hai khái niệm gần gũi với nhau: nếu giống nhau hoặc mối quan hệ ở mức độ cao, và ngược lại chúng rất xa nhau"

Hình 6: Ví dụ về mạng từ tiếng Anh

Trang 33

• Chiều sâu của một nút là độ dài của đường dẫn đến nó tính từ nút gốc, nghĩa là

độ sâu của nút, ký hiệu depth(ci) = len (root, ci)

• Nút cha chung thấp nhất (lowest super-ordinate) của hai nút c1 và c2 được ký hiệu là lso(c1, c2)

• Đo hàm lượng thông tin (IC – information content) của khái niệm c là:

IC(c) = −log(P (c)), trong đó P(c) là xác suất của khái niệm c trong kho ngữ liệu (được tính toán và gắn vào mỗi nút trên Wordnet) P(c) = freq(c)/N với freq(c)

là tần suất của c và N là tổng số khái niệm

• Cho bất kỳ công thức rel(c1, c2) để tính toán mối quan hệ (hay liên hệ) ngữ nghĩa giữa hai khái niệm c1 và c2, khi đó mối liên hệ rel (w1, w2) giữa hai từ w1 và w2 được tính như sau,

Trong đó S(w) là tập hợp các khái niệm trong cùng một phân loại mà ở đó mang

ý nghĩa của từ w Như vậy, mức độ của mối liên hệ giữa hai từ là bằng mối liên hệ gần nhất của các cặp từ mà chúng thể hiện ý nghĩa cho hai từ đó

Sau đây chúng ta sẽ xem xét một số phương pháp xác định mối liên hệ giữ nghĩa giữa hai từ (nói cách khác là mức độ tương tự ngữ nghĩa - Sim) dựa trên mạng từ WordNet

• Phương pháp Leacock và Chodorow

• Phương pháp Resnik

• Phương pháp của Wu và Palmer

• Phương pháp Jiang và Conrath

• Phương pháp Yuhua Li

Trang 34

a Pointwise Mutual Information (PMI) – thông tin chung dựa trên điểm

PMI được đưa ra bởi Turney 2001 như một độ đo không giám sát để đánh giá độ tương tự ngữ nghĩa của từ Nó là một phương pháp đo sự quan hệ sử dụng trong nghiên cứu và thống kê, trong đó MI chỉ kết quả trung bình của khả năng xảy ra của các sự việc mà ta đang xét tới PMI sử dụng mô hình thống kê, tính điểm cho 2 đối tượng (ở đây là hai từ) đem ra so sánh Thông tin tương hỗ theo từng điểm PMI giữa hai từ x và

y so sánh khả năng quan sát hai từ với nhau để xác suất của quan sát x và y độc lập (xác suất xảy ra là ngẫu nhiên)[7]:

Các xác suất được tính xấp xỉ như sau:

Trong đó: C là số lần xuất hiện của từ trong Corpus, N là tổng số các từ trong tập ngữ liệu

Áp dụng thuật toán PMI vào việc tính độ tương tự giữa từ với từ: Để tìm ra một chỉ

số đánh giá sự tương đồng ngữ nghĩa giữa hai từ trong văn bản, ta đi tìm chỉ số thông tin chung PMI của hai từ này Để tìm chỉ số này ta đi tính số lần mỗi từ xuất hiện trong tổng số từ của tập Corpus và số lần hai từ xuất hiện cùng nhau trong một văn bản, sau

đó tính giá trị PMI theo logarit cơ số 2 theo công thức trên[6]

Ví dụ: Có 2 từ w1 và w2 trong tập Corpus có khoảng 1000000 từ Ta cần đi tìm độ tương đồng ngữ nghĩa của hai từ này Ta thấy rằng trong số lượng từ đó có khoảng

200000 từ w1, 250000 từ w2 và số lần w2 xuất hiện cùng với w1 trong cùng 1 văn bản

là khoảng 150000 lần

Trang 35

Như vậy có thể tìm được PMI(w1,w2) như sau:

b Latent Semantic Analysis (LSA) – phân tích ngữ nghĩa ẩn

Trong LSA các từ đồng xảy ra trong tập được ghi lại bằng việc giảm số chiều bởi SVD (Singular Value Decomposition) của một ma trận T (ma trận từ-tài liệu) thể hiện tập corpus SVD là thao tác trong đại số tuyến tính, cái có thể áp dụng cho bất kỳ ma trận chữ nhật nào để tìm ra mối tương quan giữa hàng và cột SVD có thể được xem là cách khắc phục một số hạn chế của mô hình không gian vector chuẩn như số chiều cao, giúp cho LSA được tính với số chiều thấp hơn và mối quan hệ giữa từ - văn bản được khai thác Độ tương tự trong không gian kết quả được đo bằng độ tương tự Cosine Ngoài ra, LSA cũng sinh ra một mô hình không gian vector thể hiện sự đồng nhất giữa các từ, cụm từ và các văn bản

4.3.4 Tính độ tương đồng giữa câu với câu

T = words(S1) ∪ words(S2), với words(S) là tập các từ vựng có trong câu S, gọi số từ của tập T là N

Giá trị của một thành phần trong vector đặc trưng ngữ nghĩa của một câu được xác định bởi sự tương đồng ngữ nghĩa của một từ wi tương ứng trong tập T với một từ wj

trong câu đó Từ wj được chọn là từ có độ tương tự lớn nhất với từ wi đã xem xét Độ tương tự này phải vượt ngưỡng quy định trước, nếu không nó sẽ được thiết lập giá trị 0 Tính toán giá trị của mỗi thành phần vi trong véc-tơ đặc trưng V1= {v1i: i=1…N} của câu

S1 như sau:

Trang 36

Tính theo cosine:

Trong phương pháp này, các văn bản được biểu diễn theo mô hình không gian vector, mỗi thành phần của vector chỉ đến một từ tương ứng trong danh mục từ đã thu được từ quá trình tiền xử lý văn bản đầu Không gian vector hay số chiều của vector có kích thước bằng

số mục từ trong danh sách mục từ Giá trị mỗi phần tử của vector là độ quan trọng của mục

từ trong câu Sự giống nhau về ngữ nghĩa giữa hai câu là hệ số Cosine góc giữa hai véc-tơ:

Tính theo theo mức độ tương quan:

Trang 37

Tính theo Die:

Các công thức trên có thể mở rộng ngoài việc đánh giá độ tương tự giữa hai đoạn văn,

ta cũng có thể sử dụng để đánh giá độ tương đồng của hai văn bản

Chẳng hạn, khi có hai văn bản:

T1 = {con_chó, cắn, con_mèo} và

T2 = {con_mèo, cắn, con_chuột}

Thì tập các từ phân biệt sẽ là T = {con_chó, cắn, con_mèo, con_chuột} Véc-tơ đặc trưng ngữ nghĩa cho văn bản T1, ký hiệu V1 = (v11, v12, …, v1m), sẽ được xây dựng như sau: xét lần lượt từng từ wi ∈ T, đánh giá độ tương tự ngữ nghĩa (sim) với mỗi từ trong T1 để tìm độ đo tương tự lớn nhất và đưa vào thành phần v1i tương ứng trong V1 Cụ thể:

v1i = max {sim (wi , w1j) | j =1,…,m1 }, với i=1,…,m

Giả sử kết quả:

• Sim (con_chó, con_mèo) = 0.85,

• Sim (con_chó, con_chuột) = 0.6,

• Sim (con_mèo, con_chuột)=0.7,

• Còn các cặp từ đồng nhất sẽ có Sim = 1

Ta có véc-tơ của câu T1 trong ví dụ sẽ là: V1 = (1,1,1,0.7) và

tương tự, tính toán véc-tơ cho câu T2 ta có V2 = (0.85,1,1,1)

Tiếp theo, đánh giá độ tượng tự ngữ nghĩa cho hai văn bản dựa trên hai véc-tơ đặc trưng ngữ nghĩa tương ứng chúng ta có thể sử dụng phương pháp hệ số cosin như sau:

Trang 38

Ví dụ hai câu trên chúng ta có độ đo tương tự dựa trên véc-tơ đặc trưng ngữ nghĩa của chúng sẽ là:

b Độ tương đồng về thứ tự của từ trong câu

Độ tương tự về thứ tự của từ là một yếu tố quan trọng ảnh hưởng đến độ tương tự của văn bản Các văn bản cùng chứa một tập từ vựng giống nhau nhưng khác nhau về vị trí có thể có ý nghĩa hoàn toàn khác nhau [4] Ta có thể ví dụ 2 câu:

T1 = {bạn_A, chép_bài, bạn_B}

T1 = {bạn_B, chép_bài, bạn_A}

Hai câu trên cùng chứa một tập các từ giống nhau và đảo nhau về thứ tự giữa chủ ngữ

và tân ngữ, của cặp từ “bạn_A” và “bạn_B” Nếu chỉ dựa trên độ tương tự ngữ nghĩa của văn bản thì hai văn bản nếu cùng chứa một tập từ giống nhau sẽ cho kết quả là hoàn toàn giống nhau, có nghĩa là sim(T1, T2)=1 Tuy nhiên, hai câu trên có ý nghĩa không giống nhau, sự khác nhau của hai câu chính là do sự sai khác về vị trí của các từ trong câu Đối với con người, việc xử lý về thông tin thứ tự của từ trong văn bản sẽ rất dễ dàng Tuy nhiên, việc kết hợp các thông tin thứ tự của từ trong việc các phương pháp tính toán để hiểu ngôn ngữ tự nhiên là một thách thức khó khăn

Tác giả Dương Thăng Long trong đề tài nghiên cứu của mình có nêu ra vấn đề và giải pháp dựa trên sự kế thừa một số phương pháp xử lý trên tiếng Anh để áp dụng vào xử lý văn bản tiếng Việt Trong nghiên cứu tác giả có nêu, mỗi cặp văn bản được cho T1 và T2, chúng ta xác định tập các từ vựng phân biệt của cả hai văn bản T = T1 ∪ T2 Sau đó, hai véc-tơ đặc trưng thứ tự từ của hai văn bản, tương ứng là R1 = (r11, r12, …, r1m) và R2 = (r21,

r22, …, r2m), được tính toán dựa trên tập T Véc-tơ này biểu diễn thứ tự của mỗi từ thuộc T nằm ở vị trí thứ bao nhiêu trong văn bản tương ứng Cụ thể, với mỗi từ wi ∈ T, chúng ta tìm một từ đúng hoặc giống nhất trong T1 so với wi để xác định phần tử cho R1 theo một trong ba trường hợp sau:

• Nếu từ wi có trong T1 (wi ∈ T1) thì đặt r1i (phần tử thứ i trong R1) là số thứ tự của

từ đó trong T1;

Trang 39

• Tìm từ trong T1 giống nhất với wi, sử dụng phương pháp đo độ giống nhau ngữ nghĩa giữa hai từ, nếu độ đo này giữa từ tìm thấy với wi vượt ngưỡng θ cho trước thì đặt r1i (phần tử thứ i trong R1) là số thứ tự của từ đó trong T1 Trong bài này tác giả sử dụng ngưỡng θ = 0.5 để thử nghiệm;

• Nếu không tìm thấy hoặc độ đo tương tự giữa từ tìm thấy trong T1 và wi không vượt ngưỡng thì đặt r1i (phần tử thứ i trong R1) là 0

Trong ví dụ trên, với T = {con_chó, cắn, con_mèo} và tính toán ta có R1 = (1,2,3) Tương tự, tính toán R2 = (3,2,1)

Có thể thấy rằng véc-tơ đặc trưng thứ tự của từ được xây dựng như trên biểu diễn thông tin cơ sở về cấu trúc của câu Tiếp theo chúng ta đánh giá mức độ giống nhau về cấu trúc của hai văn bản dựa trên véc-tơ đặc trưng thứ tự từ bằng công thức sau:

Ví dụ hai văn bản T1 và T2 ở trên ta có:

c Độ tương tự theo ma trận so sánh từng nhóm từ loại

Ngoài ra còn một phương pháp đánh giá độ tương tự văn bản dựa trên ma trận đối sánh của các cặp từ theo từ loại (part-of-speech) Theo đó, các từ vựng của mỗi văn bản được gán nhãn từ loại và phân thành các nhóm cùng loại, chúng ta sẽ sử dụng 4 nhóm chính đó

là danh từ (noun), động từ (verb), tính từ (adjective) và trạng từ (adverb) Sau đó, 4 ma trận được thành lập để biểu diễn sự so sánh từng cặp từ giữa hai văn bản theo từng nhóm từ loại được tính toán Mỗi ma trận có kích thước (số hàng, số cột) là số từ của hai văn bản trong nhóm từ loại tương ứng Mỗi phần tử trong ma trận là độ đo tương tự ngữ nghĩa của cặp từ tương ứng trên hàng và cột

Giả sử, cho hai văn bản:

• T1 = {w1, w2, w3, w4} và T2 = {w3, w5, w6},

Trang 40

• Tập các danh từ của T1 = {w1, w3} và T2 = {w3, w6 },

• Tập các động từ của T1 = {w2} và T2 = {w5},

• Trạng từ chỉ có trong T1 = {w4},

• Tính từ không có trong cả hai văn bản

Khi đó, chúng ta chỉ xây dựng được hai ma trận tương ứng là của nhóm danh từ (A) và của nhóm động từ (B), vì chúng đều có mặt trong cả hai văn bản, còn nhóm tính từ và trạng

từ đều không có trong cả hai văn bản Hai ma trận này có dạng như sau:

Định dạng
Số trang	85
Dung lượng	2,01 MB