1. Trang chủ
  2. » Luận Văn - Báo Cáo

Các yếu tố ngôn ngữ ảnh hưởng đến độ khó của văn bản tiếng việt (đối chiếu với tiếng anh)

212 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Các yếu tố ngôn ngữ ảnh hưởng đến độ khó của văn bản tiếng Việt (đối chiếu với tiếng anh)
Tác giả Nguyễn Thị Như Điệp
Người hướng dẫn PGS.TS. Đinh Ðiền
Trường học Trường Đại học Khoa học Xã hội và Nhân văn, Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Ngôn ngữ học so sánh - Đối chiếu
Thể loại Luận án tiến sĩ ngôn ngữ học
Năm xuất bản 2021
Thành phố Hồ Chí Minh
Định dạng
Số trang 212
Dung lượng 8,39 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu về các yếu tố ngôn ngữ ảnh hưởng đến độ khó của văn bản tiếng Anh của William, S.. Chính vì vậy, việc nghiên cứu “Các yếu tố ngôn ngữ ảnh hưởng đến độ khó của văn bản tiếng Vi

Trang 1

  

NGUYỄN THỊ NHƯ ĐIỆP

CÁC YẾU TỐ NGÔN NGỮ ẢNH HƯỞNG ĐẾN

ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT

(ĐỐI CHIẾU VỚI TIẾNG ANH)

LUẬN ÁN TIẾN SĨ NGÔN NGỮ HỌC

Thành phố Hồ Chí Minh - năm 2021

Trang 2

  

NGUYỄN THỊ NHƯ ĐIỆP

CÁC YẾU TỐ NGÔN NGỮ ẢNH HƯỞNG ĐẾN ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT (ĐỐI CHIẾU VỚI TIẾNG ANH)

Ngành: Ngôn ngữ học So sánh-Đối chiếu

Mã số: 9222024

LUẬN ÁN TIẾN SĨ NGÔN NGỮ HỌC

Người hướng dẫn khoa học:

PGS.TS ĐINH ĐIỀN

Phản biện độc lập:

PGS.TS NGUYỄN TẤT THẮNG PGS.TS LÂM QUANG ĐÔNG

Phản biện:

PGS.TS NGUYỄN TẤT THẮNG PGS.TS NGUYỄN NGỌC VŨ

TS HUỲNH THỊ HỒNG HẠNH

Thành phố Hồ Chí Minh - năm 2021

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu do chính tôi thực hiện Tư liệu trong Luận án là xác thực và có nguồn gốc, xuất xứ rõ ràng Các kết quả nghiên cứu của Luận án chưa được công bố trong bất cứ công trình khoa học nào

Tác giả

Nguyễn Thị Như Điệp

Trang 4

QUY ƯỚC VIẾT TẮT

2 CEFR/CEF Common European Framework of Reference for

Languages Khung tham chiếu trình độ ngôn ngữ chung của châu Âu

15 UBKHXHVN Ủy ban Khoa học xã hội Việt Nam

Trang 5

MỤC LỤC

MỞ ĐẦU 1

1 LÝ DO CHỌN ĐỀ TÀI 1

2 MỤC ĐÍCH VÀ NHIỆM VỤ NGHIÊN CỨU 3

2.1 Mục đích nghiên cứu 3

2.2 Nhiệm vụ nghiên cứu 3

3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 4

3.1 Đối tượng nghiên cứu 4

3.2 Phạm vi nghiên cứu 4

4 PHƯƠNG PHÁP NGHIÊN CỨU VÀ NGUỒN NGỮ LIỆU 4

4.1 Phương pháp nghiên cứu 4

4.2 Nguồn ngữ liệu 5

5 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN 7

6 BỐ CỤC LUẬN ÁN 7

CHƯƠNG 1 TỔNG QUAN NGHIÊN CỨU VÀ CƠ SỞ LÝ LUẬN 9

1.1 VĂN BẢN VÀ ĐỘ KHÓ CỦA VĂN BẢN 9

1.1.1 Văn bản 9

1.1.2 Độ khó của văn bản 10

1.2 CÁC MÔ HÌNH ĐO ĐỘ KHÓ CỦA VĂN BẢN TIẾNG ANH 12

1.2.1 Phương pháp đo từ khó của Lively và Pressey 12

1.2.2 Phương pháp của Vogel và Washburne 12

1.2.3 Phương pháp của Dale và Tyler 13

1.2.4 Phương pháp của William Gray và Bernice Leary 14

1.2.5 Lorge và ‘‘điểm chuẩn’’ 15

Trang 6

1.2.6 Công thức đo độ khó của văn bản Flesch 16

1.2.7 Công thức đo độ khó của văn bản Dale-Chall 19

1.2.8 Công thức đo độ khó của văn bản Gunning Fog 20

1.2.9 Đồ thị đo độ khó của văn bản Fry 21

1.2.10 Công thức đo độ khó của văn bản SMOG 22

1.2.11 Quy trình điền khuyết 23

1.2.12 Công cụ tính toán Coh-Metrix 24

1.3 PHƯƠNG PHÁP VÀ CÔNG THỨC ĐO ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT 26

1.4 CÁC YẾU TỐ NGÔN NGỮ ẢNH HƯỞNG ĐẾN ĐỘ KHÓ

CỦA VĂN BẢN 28

1.4.1 Nghiên cứu về các yếu tố ngôn ngữ ảnh hưởng đến độ khó của văn bản tiếng Anh của William, S Gray và Bernice, E Leary 28

1.4.2 Các yếu tố ngôn ngữ liên quan đến độ khó của văn bản 35

1.4.2.1 Từ và độ khó của văn bản 35

1.4.2.2 Câu và độ khó của văn bản 38

1.4.2.3 Yếu tố liên kết và độ khó của văn bản 42

1.4.2.4 Trường từ vựng, chủ đề, thể loại văn bản và độ khó của văn bản 45

1.4.2.5 Văn cảnh và độ khó của văn bản 48

1.5 CÁC ỨNG DỤNG THỰC TIỄN CỦA ĐỘ KHÓ CỦA VĂN BẢN

TIẾNG ANH 49

1.5.1 Công thức đo độ khó của văn bản FLESCH 49

1.5.2 Công cụ tính toán Coh – Mextric 51

1.5.3 Khung tham chiếu trình độ ngôn ngữ chung của Châu Âu 52

1.6 TIỂU KẾT 55

Trang 7

CHƯƠNG 2 SỰ ẢNH HƯỞNG CỦA YẾU TỐ TỪ ĐỐI VỚI ĐỘ KHÓ

CỦA VĂN BẢN TIẾNG VIỆT (ĐỐI CHIẾU VỚI TIẾNG ANH) 57

2.1 TỪ VÀ NGỮ 57

2.1.1 Phương thức cấu tạo từ tiếng Việt (đối chiếu với tiếng Anh) 57

2.1.2 Từ và nghĩa của từ 69

2.2 YẾU TỐ TẦN SUẤT TỪ 79

2.2.1 Ảnh hưởng của yếu tố tần suất từ đối với độ khó của văn bản tiếng Việt (đối chiếu với tiếng Anh) 80

2.2.2 Danh sách từ 87

2.2.3 Tần suất từ theo từ loại 88

2.2.4 Tần suất từ Hán-Việt 89

2.3 ẢNH HƯỞNG CỦA TRƯỜNG TỪ VỰNG ĐỐI VỚI ĐỘ KHÓ

CỦA VĂN BẢN TIẾNG VIỆT (ĐỐI CHIẾU VỚI TIẾNG ANH) 95

2.4 TIỂU KẾT 101

CHƯƠNG 3 SỰ ẢNH HƯỞNG CỦA YẾU TỐ CÂU ĐỐI VỚI ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT (ĐỐI CHIẾU VỚI TIẾNG ANH) 103

3.1 ẢNH HƯỞNG CỦA YẾU TỐ BỀ MẶT 103

3.1.1 Độ dài câu tiếng Việt 103

3.1.2 Đối chiếu độ dài câu tiếng Việt với tiếng Anh 106

3.2 ẢNH HƯỞNG CỦA YẾU TỐ TỪ LOẠI 110

3.2.1 Khảo sát yếu tố từ loại 110

3.2.2 Kết quả khảo sát 111

3.2.3 Đối chiếu yếu tố từ loại của văn bản tiếng Việt với tiếng Anh 116

3.3 ẢNH HƯỞNG CỦA YẾU TỐ TRẬT TỰ TỪ ĐỐI VỚI ĐỘ KHÓ

CỦA VĂN BẢN TIẾNG VIỆT (ĐỐI CHIẾU VỚI TIẾNG ANH) 118

Trang 8

3.4 ẢNH HƯỞNG CỦA CẤU TRÚC CÂU 120

3.4.1 Ảnh hưởng của câu nhập nhằng đối với độ khó của văn bản tiếng Việt (đối chiếu với tiếng Anh) 120

3.4.2 Ảnh hưởng của câu có thành phần ngoài nòng cốt đối với độ khó

của văn bản tiếng Việt (đối chiếu với tiếng Anh) 126

3.5 ĐỀ XUẤT CÔNG CỤ ĐÁNH GIÁ MỨC ĐỘ ẢNH HƯỞNG

CỦA YẾU TỐ CÂU ĐỐI VỚI ĐỘ KHÓ CỦA VĂN BẢN 130

3.5.1 Độ phức tạp của cây cú pháp 131

3.5.2 Số lượng mệnh đề, ngữ, tầng của cây cú pháp 132

3.5.3 Hướng đề xuất 137

3.6 TIỂU KẾT 142

CHƯƠNG 4 SỰ ẢNH HƯỞNG CỦA YẾU TỐ VĂN BẢN ĐỐI VỚI

ĐỘ KHÓ CỦA VĂN BẢN (ĐỐI CHIẾU VỚI TIẾNG ANH) 143

4.1 ẢNH HƯỞNG CỦA CÁC YẾU TỐ NGÔN NGỮ BỀ MẶT 143

4.1.1 Số lượng câu trong văn bản 143

4.1.2 Đối chiếu số lượng câu trong văn bản tiếng Việt với tiếng Anh 147

4.2 ẢNH HƯỞNG CỦA YẾU TỐ LIÊN KẾT 149

4.2.1 Kết từ và phép nối 149

4.2.2 Sở chỉ, phép lặp và phép thế 155

4.2.3 Đối chiếu các yếu tố liên kết của văn bản tiếng Việt với tiếng Anh 159

4.3 ẢNH HƯỞNG CỦA THỂ LOẠI VÀ KIỂU VĂN BẢN 165

4.3.1 Thể loại văn bản 166

4.3.2 Kiểu văn bản 170

4.4 ẢNH HƯỞNG CỦA YẾU TỐ VĂN CẢNH 174

4.5 TIỂU KẾT 181

Trang 9

KẾT LUẬN 183 DANH MỤC CÁC BÀI BÁO KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN 188 DANH MỤC TÀI LIỆU THAM KHẢO 191

Trang 10

DANH MỤC HÌNH VÀ BIỂU BẢNG

DANH MỤC HÌNH

1 1.1 Thang đo công thức đánh giá ĐKVB tiếng Việt,

nhóm Nguyễn Thanh Liêm

27

2 1.2 Đo ĐKVB bằng công thức Flesch tích hợp trong

Microsoft Word

50

4 1.4 Sử dụng công cụ Coh-Metrix để đo ĐKVB tiếng

Anh

52

5 1.5 Tích hợp các công thức đo ĐKVB trong CEFR 54

6 1.6 Tích hợp ĐKVB trong các kì thi tiếng Anh quốc tế 54

7 2.1 Tách câu, từ trong VB “Âm thanh thành phố” 58

8 2.2 Thống kê các đặc trưng ngôn ngữ của VB 60

9 2.3 Đo ĐKVB tiếng Anh bằng công thức FLESCH 66

10 2.4 Từ ‘‘tiếng’’ được xác định là từ đa nghĩa trong ‘‘Từ

điển Tiếng Việt’’

77

12 2.6 Nhận diện từ Hán–Việt trong VB tiếng Việt 92

13 2.7 Giới hạn chủ đề VB trong 6 cấp độ của khung

CEFR

99

14 3.1 Sự khác biệt trong tần suất sử dụng từ tiếng Việt,

đối chiếu với tiếng Anh

116

15 3.2 Biểu diễn trực quan cây cú pháp câu nhập nhằng

trong tiếng Anh

124

17 3.4 Xử lý tách câu trong VB “Bàn tay dịu dàng” 133

18 3.5 Cây cú pháp biểu diễn trực quan ví dụ 3.14 134

20 4.1 Đo ĐKVB Trump-Kim Talks bằng thang đo Flesch 147

Trang 11

Stt Số hiệu Tên hình Trang

21 4.2 Đo ĐKVB tiếng Anh bằng công cụ Coh- Metrix 163

DANH MỤC BẢNG

1 0.1 Số lượng VB SGK Tiếng Việt và Ngữ văn 6

2 1.1 Sự khác biệt giữa các nghiên cứu theo hướng tiếp

cận ĐHVB và ĐPTVB

11

5 1.4 Sáu mức độ năng lực ngôn ngữ chia theo CEFR 53

6 2.1 Kết quả khảo sát các YTNN bề mặt ảnh hưởng đến

ĐKVB tiếng Việt thuộc phạm vi từ

60

7 2.2 Độ dài VB tiếng Việt thuộc phạm vi từ theo bậc học 63

9 2.4 Trung bình chiều dài từ tính bằng chữ theo bậc học 70

11 2.6 Khái quát kết quả thống kê tần suất từ, ngữ liệu

SGK Tiếng Việt, SGK Ngữ Văn

82

14 2.9 Đánh giá ĐKVB bằng yếu tố từ Hán-Việt và các

YTNN khác

90

15 2.10 Số lượng từ Hán-Việt sử dụng trong báo tiếng Việt 91

16 2.11 Số lượng từ Hán-Việt, ngữ liệu SGK Tiếng Việt,

SGK Ngữ văn

93

17 2.12 Tỉ lệ từ Hán–Việt trong báo Tuổi Trẻ Online 95

18 2.13 Chủ đề văn bản, SGK Tiếng Việt bậc TH 98

19 3.1 Độ dài câu tiếng Việt tính bằng ký tự, chữ, từ 104

20 3.2 Số lượng các YTNN bề mặt trong một câu theo bậc

học

105

Trang 12

Stt Số hiệu Tên bảng Trang

22 3.4 Phân loại tần suất của yếu tố từ loại tiếng Việt 114

23 3.5 Trung bình số mệnh đề, số ngữ của các câu và số

tầng của cây cú pháp

135

24 4.1 Trung bình số lượng câu trong VB, ngữ liệu SGK

Tiếng Việt, SGK Ngữ văn

144

25 4.2 Hệ số tương quan giữa từ loại và ĐKVB tiếng Việt 153

26 4.3 YTNN hư từ và thực từ trong VB tiếng Việt, theo

29 4.6 Các YTNN bề mặt của các kiểu VB tiếng Việt 171

30 4.7 Trung bình tần suất sử dụng từ loại của các kiểu VB 173

DANH MỤC BIỂU ĐỒ

1 1.1 Các hướng tiếp cận khi nghiên cứu “Sự phù hợp giữa

văn bản với người đọc”

11

3 1.3 Bốn nhóm yếu tố cơ bản ảnh hưởng đến ĐKVB 28

4 2.1 Trung bình số lượng ký tự, chữ, từ trong VB theo

6 2.3 Trung bình chiều dài từ tính bằng chữ theo bậc học 70

7 2.4 Thống kê nghĩa của từ ở các lớp chuyển cấp và tổng

3 bậc học

79

8 2.5 Tần suất từ, ngữ liệu SGK Tiếng Việt, Ngữ văn, đối

chiếu trong Từ điển tần số tiếng Việt

86

Trang 13

Stt Số hiệu Tên biểu đồ Trang

10 2.7 Đối chiếu tỉ lệ từ Hán-Việt trong Báo Tuổi Trẻ

Online với “Từ điển Tiếng Việt”

96

11 3.1 Độ dài câu tiếng Việt, ngữ liệu SGK Tiếng Việt,

SGK Ngữ văn

105

13 3.3 Các YTNN ảnh hưởng đến độ sâu cây cú pháp theo

15 4.1 Trung bình số câu trong VB theo bậc học 145

16 4.2 Trung bình số lượng câu đơn, câu ghép theo cấp độ

Trang 14

MỞ ĐẦU

1 LÝ DO CHỌN ĐỀ TÀI

Trong việc biên soạn tài liệu, sách giáo khoa, sách báo, ngôn ngữ cần phải được chọn lọc về từ ngữ, cấu trúc cho phù hợp với từng độ tuổi, cũng như trình độ của người đọc vì “văn bản hữu ích không chỉ cung cấp thông tin chính xác cho người đọc mà còn cần được biên soạn phù hợp với trình độ của người đọc.” (Dubay, 2004)

Trong thực tiễn, thông điệp và nội dung được chuyển tải trong các lĩnh vực khác nhau với những mục đích và yêu cầu riêng đều cần có “mức độ đọc” tương thích đối với khả năng đọc hiểu của người sử dụng Chẳng hạn, sách hướng dẫn kỹ thuật trồng trọt cho người làm nông cần phải dễ hiểu, phù hợp với trình độ văn hóa với người nông dân để họ có thể hiểu và áp dụng được các hướng dẫn trong công việc trồng trọt và chăn nuôi; hướng dẫn sử dụng thuốc cần phải rõ ràng, tránh gây ra

sự nhập nhằng hay mơ hồ trong cách đọc hiểu, giúp bệnh nhân sử dụng đúng cách

và liều lượng; người phóng viên cần phải có bài viết dễ đọc, dễ hiểu, súc tích, nhằm thu hút độc giả phổ thông và đối tượng đọc chính của tờ báo; hợp đồng giao dịch cần phải được diễn đạt rõ ràng về quy định của hai bên nhằm tránh sự tranh chấp sau khi ký kết, v.v

Những kết quả nghiên cứu và các mô hình đo độ khó của văn bản được ứng dụng thực tiễn rất được giới nghiên cứu quan tâm, đặc biệt là các nhà khoa học thuộc ngành Ngôn ngữ học ứng dụng, Ngôn ngữ học tính toán, và Công nghệ thông tin trên thế giới hơn hai thế kỷ qua Sự ra đời của các công thức đo độ khó của văn bản theo cách tiếp cận truyền thống, chẳng hạn như công thức đo độ khó của văn bản tiếng Anh FLESCH (Flesch.R, 1943, 1946, 1948) được tích hợp trong phần mềm Mocrosoft Word; các phương pháp tiếp cận khác về độ khó của văn bản, chẳng hạn như Quy trình Cloze (Cloze procedure) (Taylor, 1953), là hình thức rất phổ biến trong việc đánh giá độ khó của văn bản cho tất cả các bài kiểm tra trong các khung xếp loại trình độ ngôn ngữ bao gồm ngôn ngữ thứ nhất và thứ hai; hoặc gần đây nhất là công cụ Coh-Metrix (Graesser và cộng sự, 2004), công cụ tính toán dựa vào nền tảng chính là cảc công thức đo độ khó của văn bản kinh điển và

Trang 15

phương pháp cloze (Bailin, A & Grafstein, A., 2016, tr.35) Sự tích hợp của công thức đo độ khó của văn bản FLESCH, quy trình đánh giá Cloze, và công cụ tính toán Coh-Metrix trong việc đánh giá của Khung tham chiếu trình độ ngôn ngữ chung của Châu Âu (Common European Framework of Reference for Languages) hay gọi tắt là CEFR cho thấy tầm quan trọng của các nghiên cứu về độ khó của văn bản không chỉ dừng lại ở tiếng Anh, ngôn ngữ đầu tiên được xem là nền móng xây dựng độ khó của văn bản, mà còn ngày càng được mở rộng đến các ngôn ngữ khác trên toàn thế giới

Rõ ràng, các nghiên cứu về độ khó của văn bản đóng một vai trò quan trọng trên nhiều phương diện, nhiều lĩnh vực, nhằm đáp ứng nhu cầu của người sử dụng trong xã hội ngày càng phát triển Tuy nhiên, đầu tiên tất cả các nghiên cứu là dành cho tiếng Anh, sau đó mở rộng ra các ngôn ngữ ở Châu Âu, và gần đây mới dần dần

mở rộng sang ngôn ngữ ở các châu lục khác, trong đó có vài nước ở Châu Á1 Điều đáng chú ý là rất ít nghiên cứu về độ khó của văn bản dành cho tiếng Việt; hơn nữa, trong khi tiếng Anh đã có rất nhiều công cụ ngôn ngữ tự nhiên để đo độ khó của văn bản viết thì trong tiếng Việt, ngôn ngữ hiện được xem là một trong những ngôn ngữ phổ biến và không ngừng mở rộng mức độ sử dụng trong số khoảng 6.000 ngôn ngữ trên thế giới2, chưa từng thấy xuất hiện

Như vậy, việc nghiên cứu độ khó của văn bản tiếng Việt nhằm đáp ứng các nhu cầu thực tiễn trong và ngoài nước hiện nay là rất cần thiết Điều đáng chú ý là nghiên cứu về độ khó của văn bản tiếng Việt vẫn còn là một vấn đề chưa được khai thác, đặc biệt là nghiên cứu về yếu tố ngôn ngữ và độ khó văn bản tiếng Việt Chính

vì vậy, việc nghiên cứu “Các yếu tố ngôn ngữ ảnh hưởng đến độ khó của văn bản tiếng Việt (đối chiếu với tiếng Anh)” là hướng nghiên cứu mới và có nhiều ứng dụng trong thực tiễn

Trang 16

2 MỤC ĐÍCH VÀ NHIỆM VỤ NGHIÊN CỨU

2.1 Mục đích nghiên cứu

Lịch sử nghiên cứu về độ khó của văn bản (viết tắt là ĐKVB), đặc biệt là các công trình nghiên cứu về ĐKVB tiếng Anh cho thấy văn bản (viết tắt là VB) có dễ hiểu hay khó hiểu phụ thuộc vào các yếu tố ngôn ngữ (viết tắt là YTNN) được sử dụng để chuyển tải nội dung trong văn bản đó; do vậy, luận án được thực hiện để xác định được vai trò, tác động, và sự ảnh hưởng của các YTNN đối với ĐKVB tiếng Việt, có đối chiếu với tiếng Anh

2.2 Nhiệm vụ nghiên cứu

Trước hết luận án khái quát, xem xét các nghiên cứu ĐKVB tiếng Anh, tiếng Việt được thể hiện trong chương tổng quan nghiên cứu và cơ sở lý luận để xác định đối tượng và phạm vi nghiên cứu của đề tài Việc đối chiếu tiếng Việt với tiếng Anh

để luận án có thể tìm ra những YTNN có ảnh hưởng đến ĐKVB trong tiếng Việt nhưng không phải là YTNN ảnh hưởng đến ĐKVB tiếng Anh và ngược lại Hoặc mặc dù có sự tương đồng giữa 2 ngôn ngữ nhưng trong sự tương đồng ấy vẫn có sự khác biệt Từ đó, ta có thể xác định được các YTNN ảnh hưởng đến ĐKVB tiếng Việt một cách hiệu quả hơn Việc thực hiện các bước khảo sát, thống kê, phân tích các yếu tố ảnh hưởng đến ĐKVB tiếng Việt (đối chiếu với tiếng Anh) giúp luận án giải quyết các vấn đề như sau:

(1) Khảo sát ngữ liệu để tìm ra sự giống và khác nhau của các YTNN ảnh hưởng đến ĐKVB tiếng Việt so với tiếng Anh; trên nền tảng đó, tìm ra cơ sở so sánh các yếu tố này trong tiếng Việt với tiếng Anh;

(2) Phân tích các mối quan hệ và sự tương quan giữa các YTNN ảnh hưởng đến ĐKVB tiếng Việt (đối chiếu với tiếng Anh) trong phạm vi: từ, câu và văn bản; (3) Phân tích tần suất, vị trí, vai trò, mối tương quan của những YTNN ảnh hưởng đến ĐKVB tiếng Việt và khái quát các đặc trưng của chúng;

(4) Xác định được các YTNN tiềm năng ảnh hưởng đến ĐKVB tiếng Việt trong các phạm vi được nêu ở phần (2) phần lớn theo hướng định lượng Trên cơ sở đó có những đề xuất hoặc giải pháp hợp lý để áp dụng đo ĐKVB tiếng Việt trong phạm vi của luận án

Trang 17

3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

3.1 Đối tượng nghiên cứu

Trong khuôn khổ của đề tài và mục đích của luận án, chúng tôi chỉ đề cập đến các YTNN ảnh hưởng đến ĐKVB tiếng Việt, không xét đến đến yếu tố bên ngoài chủ quan về khả năng đọc hiểu VB của con người

3.2 Phạm vi nghiên cứu

Các VB tiếng Việt trong sách giáo khoa Tiếng Việt bậc Tiểu học, sách giáo khoa Ngữ văn bậc Trung học cơ sở, Trung học phổ thông dành cho người Việt (Nxb Giáo Dục, 2016) và các VB tiếng Việt từ các sách báo với các chủ đề khác nhau

Bên cạnh đó, các VB tiếng Anh với nhiều chủ đề từ các sách báo, được trích

rõ nguồn gốc cũng được sử dụng trong luận án

Luận án tập trung nghiên cứu các YTNN ảnh hưởng đến ĐKVB tiếng Việt,

có đối chiếu với tiếng Anh, phần lớn là theo hướng định lượng, trên ba cấp độ ngôn ngữ: (1) từ; (2) câu; và (3) văn bản

4 PHƯƠNG PHÁP NGHIÊN CỨU VÀ NGUỒN NGỮ LIỆU

4.1 Phương pháp nghiên cứu

Trước hết, để thực hiện luận án, chúng tôi sử dụng các phương pháp nghiên cứu cơ bản và thông dụng trong ngôn ngữ học như sau:

(1) Phương pháp miêu tả (descriptive method) được dùng để mô tả quá trình xử lý

ngữ liệu, các hình thức biểu hiện của các YTNN ảnh hưởng đến ĐKVB trong tiếng Việt và tiếng Anh, mô tả các mức độ ảnh hưởng của các YTNN trong các VB; mô

tả các kết quả khảo sát từ các ngữ liệu đã được xử lý; mô tả các minh chứng trong quá trình diễn giải sự ảnh hưởng của các YTNN hưởng đến ĐKVB tiếng Việt, tiếng Anh

(2) Phương pháp đối chiếu (contrastive method) so sánh các YTNN ảnh hưởng đến

ĐKVB tiếng Việt với những YTNN tương đương trong tiếng Anh để tìm ra những điểm tương đồng và dị biệt giữa hai ngôn ngữ khi biểu đạt cùng một nội dung

Bên cạnh đó, chúng tôi cũng sử dụng một số phương pháp phổ biến trong nghiên cứu khoa học nhân văn nói chung:

Trang 18

(3) Phương pháp điển cứu (nghiên cứu trường hợp điển hình) (case study method)

được dùng để tập trung nghiên cứu các YTNN ảnh hưởng đến ĐKVB tiếng Việt, tiếng Anh: các điển cứu trong chương 2, chương 3, và chương 4 là các điển cứu minh họa (illustrative case study) mang tính mô tả, nhằm phân tích các ví dụ về các YTNN ảnh hưởng đến ĐKVB tiếng Việt, tiếng Anh cụ thể để có thể giải thích các vấn đề về sự ảnh hưởng cụ thể của từng YTNN nhằm nhận diện và phân tích đặc trưng trong quá trình xác định sự ảnh hưởng của từng YTNN đến ĐKVB tiếng Việt

(4) Phương pháp thống kê (statistical method) được dùng để xử lý ngữ liệu với số

lượng VB ở các bậc học, các cấp học khác nhau, từ nguồn ngữ liệu sách giáo khoa

và nguồn từ các nguồn sách báo với các chủ đề khác nhau

Ngoài ra, các thành quả nghiên cứu từ Từ điển Tần số Vcor, công cụ CLC-

Vietnamese Toolkit, công cụ CLC-VN-POS, hệ số tương quan Person, Công thức

đo ĐKVB tiếng Việt của Nguyễn Thanh Liêm và Alan B Henkin, công thức đo ĐKVB tiếng Anh Flesch, công cụ tính toán ĐKVB Coh-Metrix, công cụ hiển thị sơ đồ cây CLC Syntactic Tree Viewer, và các thuật toán tin cũng được áp dụng để giúp người thực hiện luận án tính toán, khảo sát và xác định được các YTNN ảnh hưởng đến ĐKVB tiếng Việt

4.2 Nguồn ngữ liệu

Luận án sử dụng bộ ngữ liệu 555 VB được tổng hợp từ các nguồn sau:

(1) 371 VB sách giáo khoa (viết tắt là SGK) Tiếng Việt, bậc Tiểu học (viết tắt là TH), SGK Ngữ văn, bậc Trung học cơ sở (viết tắt là THCS) và SGK Ngữ văn, bậc Trung học phổ thông (viết tắt là THPT) (Nxb Giáo dục, 2016);

(2) 100 VB SGK Sinh học lớp 10, Lịch sử lớp 10, Tin học lớp 10 (Nxb Giáo dục, 2016);

(3) 65 VB tiếng Việt và 19 VB tiếng Anh trích xuất từ các sách, báo tiếng Việt và tiếng Anh từ các nguồn sách, báo khác nhau, có xuất xứ và được trích rõ nguồn gốc

Mục đích của luận án là tìm ra và xác định được các YTNN ảnh hưởng đến ĐKVB tiếng Việt trên cơ sở nền tảng nghiên cứu lâu đời vốn có của ĐKVB tiếng Anh nên bên cạnh tìm hiểu luận án chọn lọc 19 VB tiếng Anh làm các điển cứu minh họa dưới góc độ ĐKVB cho luận án Bên cạnh đó, 371 VB từ SGK Tiếng Việt

Trang 19

bậc TH, sử dụng cho học sinh tiểu học; sách Ngữ văn sử dụng cho học sinh bậc THCS và học sinh bậc THPT Sách Tiếng Việt lớp 1 không được chọn làm ngữ liệu nghiên cứu vì nội dung sách chủ yếu là dạy đánh vần và dạy đọc các từ, ngữ và câu theo vần, kèm theo các hình vẽ minh họa Do vậy, với mục đích, yêu cầu giới hạn của luận án, chúng tôi chỉ tiến hành chọn các VB là văn xuôi trong các SGK nêu trên từ lớp 2 đến lớp 12 Các VB này có nội dung cung cấp các kiến thức phổ thông cho người đọc, chẳng hạn các VB miêu tả, tường thuật, nghị luận, các câu chuyện

kể, truyện ngụ ngôn, truyện vui và tác phẩm văn học Số lượng văn bản khảo sát được thể hiện trong bảng sau:

Số

VB

67 62 40 40 209 28 13 17 21 79 15 19 49 83 371

Bảng 0.1: Số lượng VB SGK Tiếng Việt và Ngữ văn

100 VB, lấy từ SGK Sinh học lớp 10, Lịch sử lớp 10, Tin học lớp 10, được dùng khảo sát, phân tích cho mục đích của luận án và được trình bày chi tiết trong mục 4.3.2

Ngữ liệu của luận án phần lớn được trích xuất từ SGK vì: (1) hiện không có công cụ đo tự động ĐKVB tiếng Việt nào có để xử lý phân cấp độ khó VB cho một

bộ ngữ liệu lớn; do vậy, việc phân cấp độ khó cho VB theo cấp lớp hoặc cấp học bằng thủ công và bán thủ công sẽ tốn nhiều thời gian, công sức và chi phí; (2) SGK môn tiếng Việt TH, Ngữ văn THCS, Ngữ văn THPT là nguồn ngữ liệu tiếng Việt chính thống đã được phân độ khó cho từng VB theo cấp lớp, cấp học và phổ biến trong toàn dân; (4) các VB môn Tiếng Việt TH có nội dung tổng quát mang tính giáo dục cơ bản nhất; thêm vào đó, ‘‘đại diện sự tiêu biểu cho tiếng Việt toàn dân thì ngôn ngữ văn chương là tiêu biểu nhất, tiêu biểu một cách toàn vẹn, bản chất nhất’’ (Cù Đình Tú, 2007); và (4) các VB đã được phân cấp, đặc biệt là SGK luôn

là sự chọn lựa hàng đầu trong hầu hết các nghiên cứu ĐKVB tiếng Anh từ trước đến nay

Để bổ trợ cho kết quả nghiên cứu của luận án, chúng tôi còn sử dụng nguồn Ngữ liệu Tiếng Việt ‘‘Vcor’’ (Đinh Điền và cộng sự, từ năm 2000 đến 2010) bao

Trang 20

gồm hơn 17 triệu câu với hơn 346 triệu từ và 443 triệu chữ thuộc 42 lĩnh vực và gom thành 18 chủ đề, và nguồn Ngữ liệu Từ Hán-Việt (kho Ngữ liệu CLC) thuộc trung tâm Ngôn ngữ học Tính toán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh

5 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN

Về mặt ý nghĩa khoa học, việc nghiên cứu các YTNN ảnh hưởng ĐKVB tiếng Việt (đối chiếu với tiếng Anh) cho thấy đây là nghiên cứu đầu tiên đưa ra một

cơ sở lý thuyết cho việc đo độ khó văn bản cho tiếng Việt; kết quả luận án góp phần đưa ra các tiêu chí để đánh giá ĐKVB, từ đó được mô hình hóa các công cụ đo độ khó tự động bên tin học

Việc ứng dụng ĐKVB không chỉ dành cho những chuyên gia mà còn cho cả những người không phải là chuyên gia trong việc tạo ra các bài kiểm tra chuẩn, giảng dạy kỹ năng viết và truyền đạt thông tin Về mặt lý thuyết, ĐKVB có liên quan nhiều đến các lĩnh vực như ngôn ngữ học ứng dụng, lý thuyết VB và lý thuyết diễn ngôn, và xử lý ngôn ngữ tự nhiên

Về mặt thực tiễn, trước hết, kết quả của luận án có thể trợ giúp người soạn thảo văn bản, các nhà biên soạn và cải tiến sách giáo khoa, giáo trình, các VB hiệu quả, tiết kiệm thời gian và công sức Bên cạnh đó, đây là bước xác định rất cần thiết nhằm trợ giúp việc xây dựng được một công cụ hay thước đo ĐKVB phù hợp cho từng cấp độ đọc cụ thể trong tiếng Việt; đồng thời, việc xác định được các YTNN ảnh hưởng đến ĐKVB tiếng Việt cũng sẽ được ứng dụng trong nhiều lĩnh vực khác nhau của xã hội như: lựa chọn VB phù hợp với người đọc, xây dựng chương trình dạy học tiếng Việt, chương đào tạo, bồi dưỡng có sử dụng tiếng Việt, thông tin hiệu quả trong kỹ thuật, y tế hoặc kinh doanh, xuất bản, huấn luyện, tuyển dụng, du lịch, quảng cáo, dịch vụ, báo chí, chăm sóc y tế, pháp luật, bảo hiểm, ngành công nghiệp, nông nghiệp, giáo dục và cả quân đội, nhằm đáp ứng nhu cầu thực tiễn của người sử dụng tiếng Việt tại Việt Nam cũng như các nước khác trên thế giới

6 BỐ CỤC LUẬN ÁN

Phần chính văn của luận án bao gồm phần Mở đầu, phần Kết luận và 4 chương chính với nội dung như sau:

Trang 21

Chương 1 trình bày về tổng quan và cơ sở lý luận của đề tài; trên cơ sở đó,

luận án có được một khung lý thuyết để tìm ra các YTNN ảnh hưởng đến ĐKVB tiếng Việt (đối chiếu với tiếng Anh) Bên cạnh đó, việc đúc rút thực tiễn từ kết quả nghiên cứu về các YTNN có ảnh hưởng đối với ĐKVB tiếng Anh của S.Gray và E Leary (1935), công thức đo ĐKVB tiếng Việt của Nguyễn Thanh Liêm và Alan B Henkin (1985), công cụ đo ĐKVB tiếng Anh và các khái niệm liên quan, đã vạch ra hướng đi và giới hạn lại các phạm vi nghiên cứu thành phần sẽ được đề cập trong 3 chương tiếp theo

Chương 2 trình bày sự ảnh hưởng của yếu tố từ đối với ĐKVB tiếng Việt

(đối chiếu với tiếng Anh) Trong phạm vi từ, luận án xem xét yếu tố từ trên các khía cạnh bề mặt, ngữ nghĩa, tần suất và các lớp từ vựng trong chủ đề VB Trên cơ sở khảo sát, phân tích ngữ liệu, đối chiếu tiếng Việt với tiếng Anh, luận án đã xác định được mức ảnh hưởng của các YTNN chi phối đến ĐKVB tiếng Việt trong phạm vi

từ, trong đó yếu tố tần suất từ là YTNN ảnh hướng lớn nhất trong phạm vi này

Chương 3 xem xét sự ảnh hưởng của yếu tố câu đối với ĐKVB tiếng Việt

trên cơ sở đối chiếu với tiếng Anh Trong phạm vi này, các YTNN bề mặt và bề sâu

có ảnh hưởng đến ĐKVB tiếng Việt đã được xác định Bên cạnh đó, việc khảo sát, đánh giá, phân tích các yếu tố bề sâu về mặt cấu trúc câu đã giúp cho luận án tìm ra

được vai trò và mức độ ảnh hưởng của yếu tố độ sâu của cây cú pháp đối với

ĐKVB tiếng Việt Trên cơ sở đó có hướng đề xuất để xác định ĐKVB tiếng Việt trong phạm vi câu

Chương 4 trình bày kết quả thống kê và phân tích các YTNN bề mặt và bề

sâu có ảnh hưởng đến ĐKVB tiếng Việt (đối chiếu với tiếng Anh) trong phạm vi văn bản Trên cơ sở đó, luận án có thể tổng kết được các YTNN ảnh hưởng đến ĐKVB tiếng Việt trong một chỉnh thể hoàn chỉnh: Từ, Câu, và Văn bản, phần lớn theo hướng định lượng

Trang 22

CHƯƠNG 1 TỔNG QUAN NGHIÊN CỨU VÀ CƠ SỞ LÝ LUẬN 1.1 VĂN BẢN VÀ ĐỘ KHÓ CỦA VĂN BẢN

1.1.1 Văn bản

Theo Diệp Quang Ban (2003, 2009), L.Hjelmsle là người đầu tiên đề xuất khái niệm "văn bản" với quan niệm: "Cái duy nhất đến với người nghiên cứu ngôn ngữ với tư cách khởi điểm (…) đó là văn bản trong tính hoàn chỉnh tuyệt đối và không tách rời của nó" (tr.39); "Văn bản được xét như một lớp phân chia được thành các khúc đoạn Tiếp theo các khúc đoạn đó lại được lấy làm các lớp và, đến lượt mình, chúng được phân chia thành các khúc đoạn, và cứ thế cho đến chừng nào

sự phân chia kết thúc" (tr.195)

Bên cạnh quan điểm cho rằng: "văn bản không phải là một phép cộng đơn thuần của các câu" (Trần Ngọc Thêm, 2013, tr.13) thì cũng có quan điểm: "văn bản bao gồm có thể chỉ một câu, có thể nhiều câu, thậm chí cả một cuốn sách" (Hoàng Tuệ, 1989, tr.936) Hay cụ thể hơn, Nguyễn Thị Ly Kha (2008) đã định nghĩa: "Văn bản là sản phẩm của quá trình tạo lời, có tính thống nhất trọn vẹn về nội dung ý nghĩa và hoàn chỉnh về hình thức" (tr.225)

Diệp Quang Ban (2009) đã đưa ra định nghĩa khái quát như sau: "Văn bản là một loại đơn vị được làm thành từ một khúc đoạn lời nói hay lời viết, hoặc lớn hoặc nhỏ, có cấu trúc, có đề tài…, như một truyện kể, một bài thơ, một đơn thuốc, một biển chỉ đường…" (tr.193)

Như vậy, được nhìn từ nhiều góc độ nghiên cứu, văn bản có thể có các khái niệm khác nhau, nhưng trong khuôn khổ của đề tài, luận án dùng khái niệm văn bản

theo nghĩa: Văn bản là sản phẩm của tạo lời, tồn tại dưới dạng thức viết, có tính

thống nhất về nội dung và hình thức nhằm thực hiện chức năng thông báo thông tin

Do vậy, ta thấy rằng thuộc tính vật chất của văn bản là sản phẩm ngôn ngữ, dạng thức tồn tại của văn bản là hình thức viết với nhiều thể loại khác nhau và chức năng của văn bản là dùng trong các phạm vi thông báo thông tin Theo đó, một văn bản (có thể là một từ, một câu, hoặc một đoạn văn) được xem xét để đánh giá mức

độ khó của nó dựa trên các YTNN bề mặt/hình thức và bề sâu/nội dung

Trang 23

1.1.2 Độ khó của văn bản

Văn bản có phù hợp với người đọc hay không, phụ thuộc vào hai nhân tố chính: (1) “Độ hiểu về văn bản” và (2) “Độ phức tạp của văn bản” Về nhân tố thứ nhất, nhân tố “Độ hiểu về văn bản” (Comprehensibility) là khả năng hiểu văn bản của người đọc Điều này liên quan đến các yếu tố như kiến thức có sẵn của họ, kỹ năng đọc của họ, sở thích và động lực Về nhân tố thứ hai, “Độ phức tạp của văn bản” (Complexibility) liên quan đến các yếu tố nội tại của chính văn bản đó, chẳng hạn: những yếu tố liên quan đến nội dung văn bản, cách trình bày ý tưởng; cấp độ của văn bản; cách thiết kế và kiểu in văn bản; bố cục của văn bản (Dubay, 2007) Căn cứ vào hai nhân tố này, các nghiên cứu về việc đánh giá sự phù hợp giữa văn bản với người đọc được chia thành hai hướng tiếp cận chính: (1) Độ hiểu về văn bản của người đọc và (2) Độ phức tạp của văn bản

“Độ phức tạp của văn bản” (viết tắt là ĐPTVB) lại được nghiên cứu trên hai phương diện cơ bản là: các yếu tố về “Độ rõ của văn bản” (Text Legibility/ Legibility) và các yếu tố về “Độ khó của văn bản” (Readability/ Text Readability Text Difficulty/ Textual Difficulty) “Độ rõ của văn bản” tập trung vào các yếu tố

về hình thức trình bày VB, chẳng hạn như các kiểu chữ, màu phông chữ, cỡ chữ, màu nền, hình ảnh, biểu đồ, v.v Trong khi đó hướng nghiên cứu về “độ khó của văn bản” tập trung vào các yếu tố về nội dung của VB, các yếu tố ngôn ngữ bề mặt

và các yếu tố ngôn ngữ bề sâu thuộc nội dung của văn bản, chẳng hạn như độ dài từ,

độ dài câu, độ dài trung bình câu theo từ, số lượng câu, từ vựng, cú pháp, phương tiện liên kết, v.v

Như vậy “độ hiểu về văn bản” (viết tắt là ĐHVB) là nghiên cứu về con người, mang tính cá nhân và chủ quan, nó phụ thuộc vào các yếu tố có sẵn của chính đối tượng sử dụng văn bản, trong khi đó “độ rõ của văn bản” (viết tắt là ĐRVB) và “độ khó của văn bản” là nghiên cứu về VB, mang tính khách quan, dành cho một nhóm độc giả và phụ thuộc vào các yếu tố có sẵn trong; trong đó, ĐRVB bao gồm các yếu tố về mặt hình thức, và ĐKVB bao gồm các yếu tố về mặt nội dung Đối tượng nghiên cứu của ĐHVB là con người, người đọc VB, còn đối tượng

Trang 24

nghiên cứu của ĐRVB và ĐKVB là các VB viết Các hướng tiếp cận khi nghiên cứu “Sự phù hợp giữa văn bản với người đọc” có thể được mô tả như sau:

Biểu đồ 1.1: Các hướng tiếp cận khi nghiên cứu “Sự phù hợp giữa văn bản với người đọc”

Độ rõ của văn bản Legibility

Độ khó của văn bản Readability

1 Đối tượng

nghiên cứu

- - Khả năng nhận thức của con người

- - Các yếu tố hình thức ảnh hưởng đến

độ rõ của văn bản

- - Các yếu tố nội dung ảnh hưởng đến độ khó của văn bản

3 Tính chất - - Giải mã

- Chủ quan

- - Không thể đo, tính toán

- - Đọc văn bản: kỹ năng đọc hiểu, giảng dạy ngôn ngữ

- - Mã hóa

- - Khách quan

- - Có thể đo, tính toán

- - Viết văn bản: ứng dụng (biên soạn giáo trình, tuyển phóng viên, viết hướng dẫn sử dụng)

- - Dựa trên nghiên cứu định lượng (thống kê trên kho ngữ liệu)

Bảng 1.1: Sự khác biệt giữa các nghiên cứu theo hướng tiếp cận ĐHVB và ĐPTVB

Nghiên cứu về ĐHVB là nghiên cứu về việc giải mã (decoding) khả năng đọc của người đọc, và nghiên cứu về ĐKVB là nghiên cứu về việc mã hóa (encoding) chính các VB đó Chúng ta không thể đo được kiến thức, động lực hay

Trang 25

sự say mê của người đọc, nhưng chúng ta có thể đo những yếu tố ảnh hưởng đến ĐPTVB Trong khi chúng ta không thể thay đổi được chủ đề viết, nhưng chúng ta

có thể thay đổi được cách diễn đạt trong phong cách viết, cách thiết kế và bố cục

VB cho phù hợp hơn với mục đích và nhu cầu của người đọc (Dubay, 2007) Nghiên cứu về ĐKVB là nghiên cứu về các yếu tố làm cho VB dễ hiểu, một văn bản càng dễ đọc, thì VB đó càng dễ hiểu (Donald C & Samson Jr., 1993, tr.58) Như vậy, nghiên cứu về ĐKVB là nghiên cứu về các yếu tố ngôn ngữ bề mặt và các yếu tố ngôn ngữ bề sâu thuộc nội dung của văn bản, nghiên cứu các yếu tố ngôn ngữ làm cho chính văn bản đó dễ hiểu hơn hoặc khó hiểu hơn

1.2 CÁC MÔ HÌNH ĐO ĐỘ KHÓ CỦA VĂN BẢN TIẾNG ANH 1.2.1 Phương pháp đo từ khó của Lively và Pressey

Công trình nghiên cứu Teacher's Word Book (Từ vựng cho người giảng dạy)

của Thorndike (1983) là cầu nối ý tưởng cho nghiên cứu về ĐKVB của Lively và

Pressey (1923) trong A Method for Measuring the 'Vocabulary Burden' of

Textbooks (Một phương pháp đo lường ‘Từ vựng khó’ của các SGK)

Nghiên cứu của Lively và Pressey được coi là công bố đầu tiên của công thức đo ĐKVB (Chall, 1947, tr.3; Klare, 1963, tr.30; Fry, 2002, tr.286) Họ đã sử dụng 3 yếu tố để đánh giá độ khó của từ vựng và hai trong số đó phụ thuộc vào danh sách từ của Thorndike

Công thức được tính toán bằng cách đếm tất cả các từ khác nhau trên 1.000

từ, và tính chỉ số trung bình (median index) của tất cả các từ tìm thấy trong danh sách Thorndike 10.000 từ Họ đã thực nghiệm công thức trên 11 SGK có độ khó khác nhau, cùng với các loại báo khác nhau Họ khẳng định rằng chỉ số trung bình được tính trong công thức là chỉ số tốt nhất cho việc loại bỏ các từ bị lặp lại trong

VB

Như vậy, nghiên cứu của họ đưa ra kết luận là tần suất từ càng cao thì từ càng dễ, ngược lại chỉ số này càng thấp thì từ càng khó

1.2.2 Phương pháp của Vogel và Washburne

Vogel và Washburne (1928) đã sử dụng từ của danh sách xếp hạng sách của Winnetka (Winnetka Graded Book List), có hơn 9.000 cuốn sách, và họ chọn lọc lại

Trang 26

700 cuốn sách với tiêu chí là mỗi cuốn đã nhận được 25 bản hồi âm có đánh giá của trẻ em cho là sách phù hợp với chúng Từ 700 cuốn sách trong Danh sách của Winnetka, Vogel và Washburne đã chọn 152 cuốn sách làm cơ sở cho nghiên cứu vào năm 1928

Họ đã xem xét các yếu tố ảnh hưởng đến ĐKVB tiếng Anh như sau: (i) độ

khó từ vựng (vocabulary difficulty); (ii) cấu trúc câu (sentence structure); (iii) từ loại (parts of speech); (iv) cấu trúc đoạn văn (paragraph construction); (v) cấu trúc tổng quát (general structure) (Vogel & Washburne, 1928, tr.374-5) Phương trình

Vogel và Washburne đã đưa ra để tính ĐKVB là:

X1 = 0,085X2 + 0,101X3 + 0,604X4 – 0,411X5 +17,43 Trong đó:

X1: số điểm đọc cần thiết để hiểu VB; X2: số lượng từ khác nhau trong một mẫu

1000 từ; X3: số lượng giới từ, bao gồm những từ lặp lại trong một mẫu 1000 từ; X4:

số lượng từ bao gồm những từ lặp lại trong một mẫu 1000 từ mà không nằm trong danh sách từ của Thorndike; X5: số lượng những câu đơn trong một mẫu có 75 câu

Tóm lại, nghiên cứu này cho thấy bên cạnh xem xét từ vựng được cho là khó, Vogel và Washburne (1928) cũng xem xét cấu trúc câu và từ loại trong công thức

đo ĐKVB mà họ phát triển Với giả định rằng yếu tố từ loại và cấu trúc câu được sử dụng khác nhau để tạo ra VB có mức độ khó khác nhau đã đánh dấu bước khởi đầu của một khuynh hướng quan trọng của các nghiên cứu ĐKVB với cách tiếp cận mang tính thống kê về hai YTNN này

1.2.3 Phương pháp của Dale và Tyler

Dale và Tyler (1934) đã nghiên cứu những chủ đề mà người lớn có khả năng đọc hạn chế quan tâm để tìm ra thể loại tài liệu mà họ có thể đọc được

Dựa trên độ khó của các bài đọc được tuyển chọn từ các bài kiểm tra đọc hiểu cho các đối tượng, Dale và Tyler đã xác định một tập hợp gồm 25 YTNN có mức độ tương quan với độ khó Từ con số 25 này, họ xác định được 10 YTNN liên quan gây ra khó khăn trong việc hiểu VB với hệ số tương quan là 0,30 hoặc cao

hơn Cuối cùng, họ chọn 3 YTNN với hệ số tương quan 0,511; chúng là: (i) số

lượng từ kỹ thuật khác nhau trong tài liệu được chọn (the number of different

Trang 27

technical words in the selection), (ii) số lượng từ khó khác không phải là từ kỹ thuật (the number of different hard non-technical words), và (iii) số mệnh đề không xác

định (the number of indeterminate clauses) trong văn cảnh

Trên cơ sở nghiên cứu này, Dale và Tyler đã phát triển phương trình hồi quy

để dự đoán độ khó của các tài liệu đọc cho độc giả ở cấp độ lớp từ 3 đến 5 như sau:

X1 = -9,4X2 - 0,4X3 + 2,2X4 +114,4 ± 9,0 Trong đó:

X1: tỉ lệ phần trăm của người lớn ở mức độ đọc từ lớp 3 đến lớp 5; X2: số từ kỹ thuật khác nhau trong mẫu; X3: số từ khó khác không là từ kỹ thuật; X4: số mệnh

đề không xác định; Số 9.0: tỉ lệ phần trăm chênh lệch có thể xảy ra giữa các dự đoán được thực hiện bởi công thức và điểm thực tế trên các bài kiểm tra đọc hiểu

Như vậy, nghiên cứu của Dale và Tyler tập trung vào việc tìm ra các yếu tố thuộc nội dung VB (từ kỹ thuật, mệnh đề không xác định) gây ra khó khăn trong việc đọc hiểu, trên cơ sở đó tìm ra cách thức viết VB và lựa chọn các tài liệu thích hợp cho đối tượng đọc Đây là nghiên cứu được phát triển thành công thức đo ĐKVB đầu tiên dành cho người lớn

1.2.4 Phương pháp của William Gray và Bernice Leary

Năm 1935, William, S G và Bernice, E L công bố nghiên cứu: What

Makes a Book Readable: With Special Reference to Adults of Limited Reading Ability- An Initial Study (Điều gì tạo nên một cuốn sách dễ đọc: với sự tham khảo ý

kiến đặc biệt dành cho người lớn có khả năng đọc hạn chế - một nghiên cứu khởi đầu), để đáp ứng nhu cầu thực tiễn là số lượng người trưởng thành, chiếm khoảng một nửa dân số Mĩ, không thể đọc và hiểu được phần lớn tài liệu đọc có sẵn một cách dễ dàng

Mục tiêu của Gray và Leary là tìm ra các tiêu chí khách quan để đánh giá ĐKVB, họ tập trung vào yếu tố có thể góp phần để phát triển một công thức đo ĐKVB

Bước đầu, họ đã tìm ra các kết quả 288 yếu tố có ảnh hưởng đến ĐKVB tiếng Anh và họ quyết định chỉ tập trung nghiên cứu vào phong cách viết của VB Trong giới hạn này, họ còn giới hạn vấn đề hẹp hơn là chỉ tập trung nghiên cứu các

Trang 28

yếu tố "có thể đáp ứng được với các quy trình thực nghiệm” với các đặc tính có thể nhận diện được rõ ràng và có thể đo được lường một cách "khách quan" Cuối cùng, kết quả của công trình nghiên cứu là một phương trình hồi quy được áp dụng cho

"tất cả các sách được chọn lọc là phù hợp nhất với độc giả có khả năng đọc từ trung bình trở xuống” (Gray & Leary, 1935, tr.239) Phương trình được đề xuất như sau: X1 = -0,01029X2 +0,009012X5 -0,02094X6 -0,03313X7 -0,01485X8 + 3,774 Trong đó:

X1: điểm số trung bình mà người đọc kém cần phải đạt được trong bài kiểm tra đọc hiểu; X2: số lượng từ "khó” khác nhau trong đoạn văn (trong danh sách từ của họ

và một số là trong sách The Teacher’s Word Book của Thorndike); X5: số lượng đại

từ nhân xưng; X6: trung bình số từ trong một câu của VB; X7: tỉ lệ phần trăm của tổng số từ có một nghĩa duy nhất; X8: số cụm giới từ trong VB

Tóm lại, kết quả trên cho thấy tần suất từ (từ khó, từ loại, nghĩa của từ) và trung bình câu tính bằng từ là YTNN quan trọng để đánh giá ĐKVB Lịch sử nghiên cứu ĐKVB tiếng Anh cho thấy nghiên cứu của William, S G và Bernice, E

L (1935) đã đề cập trên là một trong những nghiên cứu chuyên sâu và đồng thời được xem là nghiên cứu kinh điển về các YTNN ảnh hưởng đến ĐKVB tiếng Anh (các YTNN cụ thể sẽ được phân tích sâu hơn ở phần 1.4.1)

1.2.5 Lorge và ‘‘điểm chuẩn’’

Lorge (1939) áp dụng phương pháp của Gray và Leary dựa trên bộ ngữ liệu đọc hiểu đã được phân cấp độ khó

Để phân định mức độ khó cho các VB (đoạn văn), Lorge đã sử dụng tài liệu

Các bài kiểm tra đọc chuẩn của McCall và Crabb, cuốn II, III, IV và V (1925) để

đưa ra các điểm chuẩn (benchmarks); đối với mỗi đoạn, ông chấm điểm mức độ khó theo thang điểm như các bài kiểm tra dành cho người trả lời đúng 50% các câu hỏi kiểm tra trong bài đọc hiểu Sau này Dale và Chall, Flesch và Gunning đều sử dụng các bài kiểm tra đọc hiểu của McCall-Crabbs, khác nhau về phiên bản, cho nghiên cứu của họ

Trang 29

Ngoài việc kiểm tra "các yếu tố cấu trúc” như Gray và Leary, Lorge đã thêm một biến bổ sung là "chỉ số của từ khó" Chỉ số này là "tần suất của một từ” dựa trên cuốn sách 20.000 từ của Thorndike (Lorge, 1939, tr.230)

Ông đã cho rằng có thể thu được kết quả tốt hơn khi điều chỉnh tỉ trọng và sử

dụng các cách kết hợp khác nhau của 2 biến: (i) cụm giới từ và các từ khó khác

nhau, (ii) trung bình độ dài câu và các từ khó khác nhau, và (iii) số lượng các cụm giới từ và trung bình độ dài câu (Lorge, 1939, tr.230)

Năm 1944, Lorge chuyển các biến mà ông đã nghiên cứu năm 1939 thành

một công thức, gọi là công thức ‘‘Lorge Readability Index’’ (Chỉ số ĐKVB Lorge)

(Lorge, 1944, tr.408) Lorge tin rằng ‘‘Chỉ số đọc’’ này có thể được sử dụng cho các tài liệu dành cho người lớn cũng như trẻ em Ông đã công bố công thức như sau (Lorge, 1944, tr.415):

Chỉ số (Index) = 0,07(w/s) + 13,01(p/w) + 10,73(h/w) +1,6126

Trong đó:

w: tổng số từ trong một một mẫu; s: số câu; p: tổng số các cụm giới từ; h: số lượng

từ “khó” - những từ không nằm trong danh sách 769 từ dễ của Dale

Như vậy, nghiên cứu này một lần nữa cho thấy YTNN như tần suất từ, giới

từ và độ dài câu được xác định là 3 YTNN có mức ảnh hưởng cao nhất đối với ĐKVB tiếng Anh

1.2.6 Công thức đo độ khó của văn bản Flesch

Rudolf Flesch (1943, 1946, 1948) quan tâm đến việc phát triển các công thức

để đo ĐKVB trong các tài liệu viết dành cho người lớn và chỉ ra những hạn chế trong các công thức trước đó đối với các tài liệu đọc của người lớn

Flesch (1943) chọn các bài báo trong các tạp chí và xếp hạng độ khó của

chúng dựa trên “các phát hiện và quan sát” (findings and observations) của các

chuyên gia như các nhà giáo dục, nhà xuất bản, các thủ thư, cũng như xếp hạng chủ quan căn cứ vào “giá trị văn hóa’’ của các tạp chí có sự trùng khớp với sự đánh giá bởi một nhóm gồm 44 chuyên gia (tr.25)

Flesch (1943) kết luận rằng chỉ có biến trung bình số từ trong một câu là chỉ

số hữu dụng về sự khác nhau của độ khó trong các bài văn tả thực dành cho người

Trang 30

lớn Bên cạnh đó, ông thêm 2 biến khác vào độ dài câu: (1) số lượng phụ tố và (2) một biến được sử dụng trong công thức của Gray và Leary Ngoài ra còn 1 biến nhằm đại diện cho yếu tố chỉ sở thích của con người trong các bài đọc (tr.32-5)

Sử dụng các tài liệu mà Lorge đã giới thiệu trước đó là các tập văn tuyển của

McCall-Crabbs và các bài kiểm tra đọc hiểu được soạn cho trẻ em Ông phát triển

công thức sau (Flesch, 1943, tr.34):

Xc75 = 0,1338XS + 0,0645XM – 0,0659XH + 4,2498 Trong đó:

Xc75: điểm số trung bình của trẻ em trả lời đúng 75% câu hỏi kiểm tra (cùng thước

đo như Lorge sử dụng); S: trung bình độ dài câu; M: số lượng phụ tố; H: chỉ số tài liệu cá nhân quan tâm

Đến năm 1946 Flesch sử dụng công thức hồi quy mà ông phát triển năm

1943 để xây dựng một hướng dẫn thực hành nhằm giúp người viết mã hóa một VB

dễ hiểu, có tựa đề là The Art of Plain Talk (Nghệ thuật trong cách nói rõ ràng) Ông

cũng nêu ra một qui trình từng bước để áp dụng nó kết hợp với công thức phiên bản năm 1943, chỉ dẫn này cũng cung cấp một bảng hướng dẫn cách sử dụng các phép

tu từ phổ biến bao gồm các hướng dẫn làm thế nào để viết VB một cách rõ ràng

Flesch (1948) đã đơn giản hóa công thức của mình để dễ áp dụng hơn trong

công trình A New Readability Yardstick (Một thước đo ĐKVB mới) Ông chia thành

hai công thức liên quan, mỗi công thức đều có hai YTNN là độ dài từ và độ dài câu

Công thức thứ nhất gọi là "reading ease’’ được Flesch công bố như sau:

R.E ("reading ease") = 206,835 – 0,846 wl - 1,015 sl (1948, tr.225)

Trong đó:

wl: độ dài từ (số âm tiết trên 100 từ); sl: độ dài câu tính bằng từ

Công thức tính Reading Ease (Độ dễ đọc) không đưa ra cấp độ lớp cho VB

Điểm số càng cao (trên thang điểm từ 0 đến 100) thì VB càng dễ đọc Một đoạn văn

có điểm 0 là "không thể đọc được", trong khi điểm 100 là "dễ dàng đối với bất kỳ người biết chữ nào” (Flesch, 1948, tr.229) Cần chú ý điểm 100 là mức độ khó

tương đương với ĐKVB lớp 4 (Flesch, 1948, tr.225) Công thức Reading Ease được

Trang 31

sửa lại cho phù hợp (vẫn dùng các yếu tố trên nhưng có sự thay đổi trọng số) để sử dụng cho quân đội Mĩ (Flesch & cộng sự, 1975)

Flesch (1948) đã sử dụng các từ chỉ cá nhân (personal words) để mã hóa sự quan tâm của con người Để mã hóa điều này, Flesch đã thêm vào một yếu tố khác,

ông gọi là personal sentences (câu cá nhân); yếu tố này nhằm để đo lường chất

lượng hội thoại và sự hấp dẫn nội dung của VB (tr.223) Công thức thứ hai được

phân tích như sau:

HI = 3,635 pw + 0,314 ps (Flesch, 1948, tr.225) Trong đó:

HI: sở thích của con người (human interests); Pw: các từ cá nhân (personal words); Ps: những câu cá nhân (personal sentences)

Theo ông, các câu cá nhân bao gồm: câu gián tiếp (trong dấu ngoặc kép) hoặc trực tiếp; câu hỏi, câu mệnh lệnh, yêu cầu, câu cảm thán; các câu chưa hoàn

chỉnh về mặt ngữ pháp mà nghĩa được suy ra từ ngữ cảnh (1948, tr.223)

Cũng như công thức Reading Ease, điểm số càng cao, các “mối quan tâm của

con người” càng nhiều: điểm 100 nghĩa là VB có “đầy đủ các mối quan tâm của con người”, trong khi điểm 0 nghĩa là “không có mối quan tâm nào của con người” (Flesch, 1948, tr.230) Ông cho là “2 công thức mới hiệu quả hơn đối với việc dạy viết, bởi vì yếu tố bổ sung (câu cá nhân) và việc phân chia thành nhiều phần sẽ chỉ

ra những lỗi sai cụ thể trong kỹ năng viết một cách rõ ràng hơn” (1948, tr.226)

Sách The Art of Readable Writing (Nghệ thuật viết dễ đọc) (Flesch, 1949) là

một thành công nổi tiếng được biết đến như một cuốn sách “làm thế nào để viết một

VB dễ đọc’’; thành công tới nỗi mà một phần tư thế kỷ sau đó cuốn sách vẫn được tái bản có chỉnh sửa và bổ sung mới (Flesch, 1974)

Như vậy, công thức Flesch Reading Ease và công thức Flesch Kincaid Grade Level này tương đối dễ áp dụng, không cần phải có danh sách từ hoặc bất cứ yêu cầu kiến thức đặc biệt nào để đếm số âm tiết hoặc số từ Các YTNN được xác định

là quan trọng nhất để đánh giá ĐKVB tiếng Anh là: (1) Việc đếm (Counts): (i) các

từ (words), (ii) ký tự (characters), (iii) đoạn (paragraphs), (iv) câu (sentences); (2) Trung bình (Averages): (i) số câu trong một đoạn văn (sentences per paragraph), (ii)

Trang 32

số từ trong một câu (words per sentence), (iii) số ký tự trong một từ (characters per word), và (3) ĐKVB (Readability) của (i) các câu bị động (passive sentences), (ii) theo công thức Flesch Reading Ease, và (iii) theo công thức Flesch Kincaid Grade Level

Do vậy, công thức ĐKVB Flesch là công thức đo ĐKVB truyền thống được

sử dụng rộng rãi nhất trên thế giới so với các công thức đo ĐKVB khác Ngày nay công thức này có thể được tìm thấy như là một công cụ trong chương trình xử lý ĐKVB tiếng Anh tự động phổ biến nhất trên thế giới trong Microsoft Word (cách

sử dụng sẽ được trình bày trong phần 1.5.1)

1.2.7 Công thức đo độ khó của văn bản Dale-Chall

Dale và Chall cho là từ vựng là một trong những YTNN quan trọng nhất

trong các bài đọc hiểu (1948a, tr.17) Để đo độ khó của từ vựng, họ dùng danh sách

từ vựng của Dale gồm 3000 từ, những từ mà học sinh lớp 4 có thể hiểu được

khoảng 80% Đây là phiên bản mở rộng của danh sách 769 từ vựng Cấp độ Dễ của

Dale (năm 1931) Lorge đã sử dụng trong công trình Lorge Readability Index (Chỉ

số đo ĐKVB Lorge) (năm 1944)

Theo Dale và Chall (1948a, tr.16) độ khó của các đoạn văn của

McCall-Crabbs có độ tương quan cao với những từ vựng bên ngoài danh sách này Do vậy, yếu tố từ vựng được đánh giá là yếu tố có ảnh hưởng cao nhất và tiếp đến là yếu tố

độ dài câu Họ phát triển một công thức mới gồm hai biến như sau:

XC50 = 0,1579X1 + 0,0496X2 + 3,6365 Trong đó:

XC50: điểm số đọc hiểu của một sinh viên có thể trả lời đúng 50% câu hỏi

X1: số từ vựng không xuất hiện trong danh sách 3000 từ của Dale

X2: trung bình độ dài câu và 3,6365 là một hằng số

Dale và Chall cũng nhấn mạnh rằng khi xem xét lại chỉ số Reading Index của

Lorge (1939, 1944) và công thức Flesch (1943) thì từ vựng trong danh sách 3000 từ của Dale có giá trị tiên đoán lớn hơn các YTNN khác trong nghiên cứu của Lorge

và Flesch (Dale và Chall, 1948a, tr.16-18)

Trang 33

Gần 50 năm sau, Dale và Chall (1995) đã xem xét lại các công thức về ĐKVB và có cải tiến bằng cách sử dụng bản cập nhật danh sách 3000 từ của Dale; bản danh sách từ vựng này gồm những từ mà 80% học sinh lớp 4 đều đã biết, được công bố năm 1940, và cập nhập lại vào năm 1980 là những từ được khoảng 80% học sinh lớp 4 đã biết (tr.58)

Công thức mới của họ (1971) không còn sử dụng các cấp độ theo lớp được

chỉ định trong các bài kiểm tra tiêu chuẩn của McCall-Crabbs (được liệt kê trong

Chall và Dale 1926) mà sử dụng các điểm số đánh giá tương đương theo cấp lớp của Bormuth trong 32 đoạn văn (1971) vì các kết quả Bormuth có hệ số tương quan cao hơn so với công thức Dale-Chall cả cũ và mới Công thức mới như sau:

Dale-Chall cloze = 64 – 0,95 unfamiliar words (từ không quen thuộc)

– 0,69 average sentence length (trung bình độ dài câu)

(Chall & Dale, 1995, tr.66)

Từ công thức đo của Dale-Chale ta thấy tần suất từ và độ dài trung bình của

câu là YTNN được chú trọng để đánh giá ĐKVB

1.2.8 Công thức đo độ khó của văn bản Gunning Fog

Gunning Fog là nhà sáng lập của Robert Gunning Associates-Hiệp hội tư vấn

về viết VB Vì hiệp hội này có đối tượng khách hàng là các tác giả viết sách, báo chí và tạp chí, kinh doanh và các tác giả về lĩnh vực kỹ thuật nên ông quan tâm phát triển công cụ thực tiễn để hỗ trợ người viết Đây là một công cụ ứng dụng có thể tự sáng tạo VB và là một công thức đơn giản, dễ áp dụng giúp người viết đánh giá ĐKVB (Gunning, 1968, chương vii)

Gunning cho rằng việc áp dụng công thức, được gọi là chỉ số ‘‘Fog’’ cho các đoạn văn đọc hiểu của McCall-Crabbs có một "mối quan hệ không thay đổi và khá đơn giản so với việc xếp mức độ theo cấp lớp"(Gunning, 1968, tr.40) Công thức được đề cập như sau:

Grade Level = 0,4 x (average sentence length + hard words)

Trong đó :

Grade Level: cấp độ lớp; average sentence length: độ dài trung bình của câu; hard words: số từ khó có trên 2 âm tiết

Trang 34

Bảng sau trình bày chi tiết thang đo theo chỉ số ‘‘Fog’’ của công thức trên các tài liệu dành cho người trưởng thành

Nhóm Tổng số lưu hành

xấp xỉ

Độ dài trung bình của câu

Số từ khó Tổng số Chỉ số

Fog

Bảng 1.2: Thang đo theo chỉ số Fog

Như vậy, 2 YTNN mà Gunning chú trọng trong công thức đo ĐKVB tiếng

Anh là độ dài trung bình của câu để đo độ phức tạp của câu và số lượng các từ đa

âm tiết để đo lường độ khó của từ

1.2.9 Đồ thị đo độ khó của văn bản Fry

Edward Fry (1968) công bố đồ thị đo ĐKVB, cung cấp cấp độ theo lớp gần đúng của VB Đồ thị của Fry được công bố như sau :

Biểu đồ 1.2: Đồ thị Fry

Trang 35

Đồ thị hiển thị trên dùng để xác định cấp độ đọc, trong đó các đường cong biểu thị cấp độ VB Các điểm bên dưới đường cong biểu thị độ dài trung bình của câu dài hơn và các điểm trên đường cong biểu thị VB có từ khó hơn (như trong các

VB khoa học ở trường học) Điểm rơi vào trong các khu vực màu đen là không hợp

lệ Đồ thị này được sử dụng như sau:

- Chọn một mẫu ngẫu nhiên gồm 100 từ;

- Tìm y (chiều đứng) trung bình số câu trên 100 từ;

- Tìm x (chiều ngang) trung bình số âm tiết trên 100 từ;

- Tọa độ giao giữa 2 giá trị của 2 chiều là cấp độ lớp của VB

Như vậy, cùng quan điểm với Gunning Fog, Edward Fry (1968) cũng sử

dụng 2 yếu tố: độ dài câu và độ phức tạp của từ để đánh giá ĐKVB

1.2.10 Công thức đo độ khó của văn bản SMOG

Phương pháp tính ĐKVB tiếng Anh của G Harry McLaughlin (1969) là một biến thể của Gunning và Fry

McLaughlin lập luận rằng "Cái mà các nhà nghiên cứu trước đây đa số bỏ qua là trong thực tế, ngữ nghĩa và độ khó của cú pháp có sự tương tác với nhau” (1969, tr.640) Ông cho rằng kích cỡ mẫu (đếm bằng âm tiết) là một cách thể hiện chiều dài câu, do đó ảnh hưởng đến số lượng âm tiết trong phần lựa chọn; do vậy,

nó thể hiện sự tương tác giữa cú pháp và độ phức tạp của từ

Khi xem xét mối quan hệ giữa độ dài câu và số lượng từ McLaughlin cho

rằng độ dài câu tăng lên thì số lượng từ tính bằng âm tiết cũng tăng lên Vì vậy, các câu càng dài thì số âm tiết càng lớn; do vậy, số lượng âm tiết cũng liên quan đến độ dài từ (tr.641)

Sử dụng 390 đoạn văn ấn bản năm 1961 của Bài kiểm tra tiêu chuẩn Crabbs để phát triển một phương trình hồi quy bằng cách sử dụng ý tưởng mẫu 10 câu và một số từ đa âm tiết (McLaughlin, 1969, tr.641), công thức được công bố như sau:

McCall-g = 1, 0430 (3 + Vp) Trong đó:

Trang 36

g: cấp độ đọc được chỉ định bởi McCall-Crabbs cho học sinh trả lời chính xác 100% câu hỏi đọc cho các bài đọc đã chọn; Vp: số từ đa âm tiết trong 30 câu

McLaughlin cũng trình bày sự kiểm chứng trong nghiên cứu của ông với các nghiên cứu khác: (1) nhờ các chuyên gia xem các VB và liệt kê mười ý tưởng quan trọng nhất trong mỗi đoạn văn từ các tạp chí khác nhau; (2) nhờ sinh viên đại học đọc các đoạn văn; (3) yêu cầu sinh viên ghi lại nội dung càng đầy đủ càng tốt; (4) chấm điểm bài thu hoạch của sinh viên so với các danh sách của các chuyên gia trên thang điểm từ 0 đến 10; (5) phân cấp lớp dựa vào khoảng thời gian trung bình để học sinh đọc từng đoạn VB Trên cơ sở đó, ông đưa ra kết quả có "một mối tương quan hoàn toàn nghịch giữa số lượng từ đa âm tiết và việc đo lường hiệu quả đọc” (McLaughlin, 1969, tr.645)

Tóm lại, việc xác định ĐKVB của McLaughlin được kết hợp dựa trên các

YTNN là độ dài câu, từ đa âm tiết, nghĩa của từ, sự đánh giá của chuyên gia và

thực nghiệm

1.2.11 Quy trình điền khuyết

Năm 1953, Wilson L Taylor đề xuất một phương pháp tiếp cận mới cho ĐKVB được gọi là "cloze procedure” (quy trình điền khuyết) (Taylor,1953, tr 415)

Thuật ngữ "cloze” đã trở thành một trong những phương pháp chuẩn để đánh giá ĐKVB Phương pháp cloze bao gồm việc chọn một VB và xóa các phần của nó trong một mẫu ngẫu nhiên hoặc cố định Ví dụ, người ta có thể chọn một VB 500 từ

và xóa ngẫu nhiên 10% các từ này, hoặc cứ mỗi mười từ người ta lại xóa một từ Trong cả hai trường hợp, việc xóa được thực hiện bất kể tầm quan trọng của từ hoặc chức năng ngữ pháp của nó ĐKVB được đánh giá theo mức độ mà người đọc có thể cung cấp các từ/ngữ đã bị xóa Ý tưởng ở đây là khi người đọc càng hiểu rõ VB, thì họ càng thành công trong việc điền đầy những khoảng trống (Taylor, 1953, tr.416-17)

Giả thuyết này dựa trên một số giả định, cơ bản nhất là lấy ý tưởng của nhà tâm lý học Gestalt cho rằng mọi người có thể lấp đầy những khoảng trống trong một mẫu hình hoặc hình ảnh mà họ có thể nhận ra Khi áp dụng khái niệm này cho VB, cần có một giả thiết thứ hai đó là: người đọc có thể cung cấp các YTNN đã bị xóa

Trang 37

trong một VB dựa trên khả năng xác định các mẫu trong VB; vì vậy, người đọc có thể xác định được từ còn thiếu trong câu tiếp theo bằng cách xác định kiểu mẫu tiềm ẩn (Taylor, 1953, tr.416)

Ví dụ: Chickens cackle and _ quack

Từ “ducks” có thể được đoán chính xác nếu người đọc xác định cả ngữ nghĩa

và ngữ pháp giữa hai mệnh đề

Taylor cho rằng quy trình điền khuyết đo lường "sự giống nhau giữa các mẫu ngôn ngữ được sử dụng là thể hiện ý của người đọc VB, và những mẫu khác nhau này có thể đại diện cho sự suy đoán của độc giả với những gì người viết muốn thể hiện” (tr.417) Theo Taylor, người đọc sẽ hiểu VB dễ dàng hơn khi những từ ngữ trong VB sát với mong đợi của người đọc nhất Ngược lại, người đọc sẽ khó hiểu được VB hơn khi những từ ngữ trong VB khác xa với mong đợi của người đọc Vì vậy, khi người đọc hiểu được các mẫu VB của người viết, thì người đọc sẽ có thể điền vào chỗ trống một cách chính xác và các kiểu VB không phù hợp với kỳ vọng của một người đọc gần như vô nghĩa đối với người đó (tr.419)

Nghiên cứu của Taylor cho ta thấy việc đánh giá ĐKVB phải được xem xét

về mặt nghĩa của từ và mối quan hệ của từ với các YTNN khác trong VB

1.2.12 Công cụ tính toán Coh-Metrix

Mô hình tính toán ĐKVB tiếng Anh Coh- Metrix được phát triển bởi Crossley, Greenfield và McNamara từ năm 2004 "Coh-Metrix phân tích VB trên hơn 200 sự đo lường về liên kết, ngôn ngữ và ĐKVB Các mô-đun của nó sử dụng

từ vựng, phân loại từ loại, phân tích cú pháp, các mẫu, ngữ liệu, phân tích ngữ nghĩa tiềm ẩn và các thành tố khác mà được sử dụng rộng rãi trong ngôn ngữ học tính toán’’ (Graesser và các cộng sự, 2004, tr.193)

Một trong những mục tiêu chính của Coh-Metrix là xem xét các thuộc tính của ngôn ngữ vượt ra ngoài các tính năng được xem xét bởi các công thức truyền

thống: sự quen thuộc của từ, độ dài từ và độ dài câu Để làm điều này, Coh-Metrix

tập trung vào các thuộc tính diễn ngôn; đặc biệt, tính liên kết của VB, tính mạch lạc

và những kiến thức mà người đọc áp dụng cho việc đọc VB (Graesser và cộng sự,

2004, tr.201)

Trang 38

Coh-Metrix xử lý nhiều loại đặc trưng khác nhau của ngôn ngữ Bao gồm

những đặc trưng mà các nghiên cứu về ĐKVB kinh điển xem là cốt lõi như: độ

phức tạp của ngữ pháp và độ khó của từ (đếm số lượng câu trong một VB, số lượng

từ trung bình trong một câu và độ lệch chuẩn của trung bình đó) Khi kiểm tra các

từ, các nhà nghiên cứu có thể sử dụng Coh-Metrix để xác định trung bình số từ trong một đoạn văn và độ lệch chuẩn, cũng như trung bình các ký tự trong từ và độ lệch chuẩn từ mức trung bình đó

Coh-Metrix có độ phân tích cao hơn đối với yếu tố ngữ pháp và từ Chẳng hạn, trong việc đo lường sự phức tạp của ngữ pháp, Coh- Metrix có thể đếm số lượng trung bình của những phó từ trong các cụm từ danh từ và trung bình số từ xuất hiện trước động từ chính Thông tin này được cho là cung cấp một "chỉ số đáng tin cậy về tải bộ nhớ làm việc” (good index of working memory load) (Coh-Metrix Phiên bản 3.0 Chỉ số 2013, phần III, tr.8) Trong việc đo lường độ khó của từ, nó có thể đếm tỉ lệ của các loại từ và lần xuất hiện của các từ, ví dụ số lần của cùng một từ xuất hiện trong VB biểu hiện dưới một hoặc nhiều hình thức từ loại khác nhau Với giả thiết là có nhiều chuỗi từ loại hơn trong VB của cùng một từ, người đọc có thể càng dễ dàng và nhanh chóng xử lý VB hơn (Coh-Metrix Phiên bản 3.0 Chỉ số

2013, phần III, tr.5)

Bên cạnh đó, Crossley, Greenfield và McNamara (2008) còn lập luận rằng

VB "phải bao gồm các biện pháp đo lường tính liên kết văn bản và ngữ nghĩa trong việc xây dựng và mã hóa ĐHVB như là một quá trình đa cấp” (tr.477) Các tác giả

đã chọn ba biến: "tần số từ, sự tương đồng cú pháp và sự trùng lặp thực từ”

(tr.481) để thực hiện phép dự đoán chính xác hơn về ĐKVB (xem chi tiết phụ lục 1)

Sử dụng ba biến Coh-Metrix: tần suất từ, sự giống nhau về cú pháp, và phép

lặp thực từ, Crossley, Greenfield và McNamara (2008) đã phát triển công thức hồi

quy được gán các trọng số cho các biến như sau: 0,362 cho phép lặp thực từ, 0,412 cho sự giống nhau về cú pháp, và 0,416 cho tần suất từ Như vậy, điều đáng chú ý là tần suất từ được gán trọng số lớn nhất, giống như các công thức đo ĐKVB truyền thống

Trang 39

Công cụ tính toán ĐKVB Coh-Metrix có sẵn ở trang web: http://www.cohmetrix.com và mô hình này là sự kết hợp giữa các công thức cổ điển

và phương pháp Cloze Nó không phải là một công thức hay quy trình, mà là một

mô hình công cụ tính toán để đánh giá và xem xét mức độ khó của văn bản trên nhiều phương diện của các YTNN bề mặt và bề sâu vì vậy, Coh-Metrix được đánh giá là một trong những công cụ tính toán ĐKVB được tích hợp nhiều đặc trưng của các YTNN nhất hiện nay (cách sử dụng công cụ này được trình bày chi tiết trong mục 1.5.2)

Tóm lại, việc xem xét các nghiên cứu tiêu biểu trên cho thấy mặc dù vẫn có

sự khác nhau trong các quan niệm, nhưng các kết quả nghiên cứu đều cho thấy để xây dựng các cách thức, phương pháp, phương trình, công cụ, v.v đo ĐKVB tiếng Anh đều bắt đầu bằng việc xác định các YTNN ảnh hưởng đến ĐKVB Cụ thể hơn các yếu tố như: tần suất từ, từ khó (từ đa tiết, từ kỹ thuật), nghĩa của từ, từ loại (đại

từ, giới từ), độ dài từ, độ dài câu, cấu trúc câu (câu có mệnh đề không xác định, câu chủ động, câu bị động) là các YTNN được xem xét trong các nghiên cứu Đáng chú

ý là 3 yếu tố tần suất từ, độ dài từ, độ dài câu là YTNN luôn được chú trọng hàng đầu trong hầu hết các nghiên cứu

Tóm lại, việc nghiên cứu về các ứng dụng đo ĐKVB tiếng Anh nói riêng và các ngôn ngữ khác nói chung hiện nay vẫn không ngừng được quan tâm nghiên cứu

và cải tiến, trong đó hầu hết các YTNN trong phạm vi từ, cấu trúc câu và kết cấu văn bản có thể đo lường được thể hiện trong các mô hình đo ĐKVB và các YTNN không thể đo được như các phép tu từ, thể loại văn bản, v.v hiện vẫn được tiếp tục nghiên cứu và xác định ở các nghiên cứu theo hướng định tính

1.3 PHƯƠNG PHÁP VÀ CÔNG THỨC ĐO ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT

Hiện nay có hơn hàng trăm ngàn nghiên cứu về ĐKVB trong các ngôn ngữ,

đa số là đối với tiếng Anh, được công bố trên các tạp chí chuyên ngành3, nhưng nghiên cứu ĐKVB tiếng Việt còn rất hạn chế Theo khảo sát của chúng tôi, đối với

3 Theo thống kê của Google.Scholar tính đến ngày 14/03/2020 là 543.000 kết quả

Trang 40

tiếng Việt, ở thời điểm hiện tại chỉ có 2 công thức đo ĐKVB tiếng Việt cùng một nhóm tác giả Nguyễn Thanh Liêm và Alan B Henkin (1982, 1984)

Năm 1982, nhóm tác giả Nguyễn Thanh Liêm và Alan B Henkin đã đưa ra

Công thức 1 đo ĐKVB tiếng Việt như sau:

RL=2×WL + 0.2×SL- 6

Đến năm 1985, họ cải tiến công thức trên, sử dụng đặc trưng độ dài của câu

và đặc trưng tỉ lệ từ Hán-Việt trên VB để thiết lập Công thức 2 như sau:

có thang đo cụ thể như hình sau:

Hình 1.1: Thang đo công thức đánh giá ĐKVB tiếng Việt, nhóm Nguyễn Thanh Liêm

Ngày đăng: 01/07/2023, 20:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w