ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN & NGUYỄN THỊ NHƯ ĐIỆP CÁC YẾU TỐ NGÔN NGỮ ẢNH HƯỞNG ĐẾN Độ KHÓ CỦA VĂN BẢN TIẾNG VIỆT ĐỐI CHIẾU VỚI TIẾNG
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
&
NGUYỄN THỊ NHƯ ĐIỆP
CÁC YẾU TỐ NGÔN NGỮ ẢNH HƯỞNG ĐẾN
Độ KHÓ CỦA VĂN BẢN TIẾNG VIỆT
(ĐỐI CHIẾU VỚI TIẾNG ANH)
LUẬN ÁN TIẾN SĨ NGÔN NGỮ HỌC
Thành phố Hồ Chí Minh - năm 2021
Trang 2ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI VÀ NHÂN VĂN
&
NGUYỄN THỊ NHƯ ĐIỆP
CÁC YẾU TỐ NGÔN NGỮ ẢNH HƯỞNG ĐẾN
Độ KHÓ CỦA VĂN BẢN TIẾNG VIỆT
(ĐỐI CHIẾU VỚI TIẾNG ANH)
Ngành: Ngôn ngữ học So sánh-Đối chiếu
Mã số: 9222024
LUẬN ÁN TIẾN SĨ NGÔN NGỮ HỌC
Người hướng dẫn khoa học:
PGS.TS ĐINH ĐIỀN
Phản biện độc lập:
PGS.TS NGUYỄN TẤT THẮNG PGS.TS LÂM QUANG ĐÔNG
Phản biện:
PGS.TS NGUYỄN TẤT THẮNG PGS.TS NGUYỄN NGỌC VŨ
TS HUỲNH THỊ HỒNG HẠNH
Thành phố Hồ Chí Minh - năm 2021
Trang 31
Trang 4QUY ƯỚC VIẾT TẮT
2 CEFR/CEF Common European Framework of Reference for
LanguagesKhung tham chiếu trình độ ngôn ngữ chung của châu Âu
15 UBKHXHVN Ủy ban Khoa học xã hội Việt Nam
MỤC LỤC
MỞ ĐẦU 1
1 LÝ DO CHỌN ĐỀ TÀI 1
2
Trang 52 MỤC ĐÍCH VÀ NHIỆM VỤ NGHIÊN CỨU 3
2.1 Mục đích nghiên cứu 3
2.2 Nhiệm vụ nghiên cứu 3
3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 4
3.1 Đối tượng nghiên cứu 4
3.2 Phạm vi nghiên cứu 4
4 PHƯƠNG PHÁP NGHIÊN CỨU VÀ NGUỒN NGỮ LIỆU 4
4.1 Phương pháp nghiên cứu 4
4.2 Nguồn ngữ liệu 5
5 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN 7
6 BỐ CỤC LUẬN ÁN 7
CHƯƠNG 1 TỔNG QUAN NGHIÊN CỨU VÀ CƠ SỞ LÝ LUẬN 9
1.1 VĂN BẢN VÀ ĐỘ KHÓ CỦA VĂN BẢN 9
1.1.1 Văn bản 9
1.1.2 Độ khó của văn bản 10
1.2 CÁC MÔ HÌNH ĐO ĐỘ KHÓ CỦA VĂN BẢN TIẾNG ANH 12
1.2.1 Phương pháp đo từ khó của Lively và Pressey 12
1.2.2 Phương pháp của Vogel và Washburne 12
1.2.3 Phương pháp của Dale và Tyler 13
1.2.4 Phương pháp của William Gray và Bernice Leary 14
1.2.5 Lorge và ‘‘điểm chuẩn'' 15
1.2.6 Công thức đo độ khó của văn bản Flesch 16
1.2.7 Công thức đo độ khó của văn bản Dale-Chall 19
1.2.8 Công thức đo độ khó của văn bản Gunning Fog 20
1.2.9 Đồ thị đo độ khó của văn bản Fry 21
1.2.10 Công thức đo độ khó của văn bản SMOG 22
1.2.11 Quy trình điền khuyết 23
1.2.12 Công cụ tính toán Coh-Metrix 24
1.3 PHƯƠNG PHÁP VÀ CÔNG THỨC ĐO ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT 26
1.4 CÁC YẾU TỐ NGÔN NGỮ ẢNH HƯỞNG ĐẾN ĐỘ KHÓ CỦA VĂN BẢN 28
1.4.1 Nghiên cứu về các yếu tố ngôn ngữ ảnh hưởng đến độ khó của văn bản tiếng Anh của William, S Gray và Bernice, E Leary 28
1.4.2 Các yếu tố ngôn ngữ liên quan đến độ khó của văn bản 35
3
Trang 61.4.2.1 Từ và độ khó của văn bản 35
1.4.2.2 Câu và độ khó của văn bản 38
1.4.2.3 Yếu tố liên kết và độ khó của văn bản 42
1.4.2.4 Trường từ vựng, chủ đề, thể loại văn bản và độ khó của văn bản 45
1.4.2.5 Văn cảnh và độ khó của văn bản 48
1.5 CÁC ỨNG DỤNG THỰC TIỄN CỦA ĐỘ KHÓ CỦA VĂN BẢN TIẾNG ANH 49
1.5.1 Công thức đo độ khó của văn bản FLESCH 49
1.5.2 Công cụ tính toán Coh - Mextric 51
1.5.3 Khung tham chiếu trình độ ngôn ngữ chung của Châu Âu 52
1.6 TIỂU KẾT 55
CHƯƠNG 2 SỰ ẢNH HƯỞNG CỦA YẾU TỐ TỪ ĐỐI VỚI Độ KHÓ CỦA VĂN BẢN TIẾNG VIỆT (ĐỐI CHIẾU VỚI TIẾNG ANH) 57
2.1 TỪ VÀ NGỮ 57
2.1.1 Phương thức cấu tạo từ tiếng Việt (đối chiếu với tiếng Anh) 57
2.1.2 Từ và nghĩa của từ 69
2.2 YẾU TỐ TẦN SUẤT TỪ 79
2.2.1 Ảnh hưởng của yếu tố tần suất từ đối với độ khó của văn bản tiếng Việt (đối chiếu với tiếng Anh) 80
2.2.2 Danh sách từ 87
2.2.3 Tần suất từ theo từ loại 88
2.2.4 Tần suất từ Hán-Việt 89
2.3 ẢNH HƯỞNG CỦA TRƯỜNG TỪ VựNG ĐỐI VỚI ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT (ĐỐI CHIẾU VỚI TIẾNG ANH) 95
2.4 TIỂU KẾT 101
CHƯƠNG 3 SỰ ẢNH HƯỞNG CỦA YẾU TỐ CÂU ĐỐI VỚI Độ KHÓ CỦA VĂN BẢN TIẾNG VIỆT (ĐỐI CHIẾU VỚI TIẾNG ANH) 103
3.1 ẢNH HƯỞNG CỦA YẾU TỐ BỀ MẶT 103
3.1.1 Độ dài câu tiếng Việt 103
3.1.2 Đối chiếu độ dài câu tiếng Việt với tiếng Anh 106
3.2 ẢNH HƯỞNG CỦA YẾU TỐ TỪ LOẠI 110
4
Trang 73.2.1 Khảo sát yếu tố từ loại 110
3.2.2 Kết quả khảo sát 111
3.2.3 Đối chiếu yếu tố từ loại của văn bản tiếng Việt với tiếng Anh 116
3.3 ẢNH HƯỞNG CỦA YẾU TỐ TRẬT Tự TỪ ĐỐI VỚI ĐỘ KHÓ CỦA VĂN BẢN TIẾNG VIỆT (ĐỐI CHIẾU VỚI TIẾNG ANH) 118
3.4 ẢNH HƯỞNG CỦA CẤU TRÚC CÂU 120
3.4.1 Ảnh hưởng của câu nhập nhằng đối với độ khó của văn bản tiếng Việt (đối chiếu với tiếng Anh) 120
3.4.2 Ảnh hưởng của câu có thành phần ngoài nòng cốt đối với độ khó của văn bản tiếng Việt (đối chiếu với tiếng Anh) 126
3.5 ĐỀ XUẤT CÔNG CỤ ĐÁNH GIÁ MỨC ĐỘ ẢNH HƯỞNG CỦA YẾU TỐ CÂU ĐỐI VỚI ĐỘ KHÓ CỦA VĂN BẢN 130
3.5.1 Độ phức tạp của cây cú pháp 131
3.5.2 Số lượng mệnh đề, ngữ, tầng của cây cú pháp 1 32 3.5.3 Hướng đề xuất 1 37 3.6 TIỂU KẾT 142
CHƯƠNG 4 SỰ ẢNH HƯỞNG CỦA YẾU TỐ VĂN BẢN ĐỐI VỚI Độ KHÓ CỦA VĂN BẢN (ĐỐI CHIẾU VỚI TIẾNG ANH) 143
4.1 ẢNH HƯỞNG CỦA CÁC YẾU TỐ NGÔN NGỮ BỀ MẶT 143
4.1.1 Số lượng câu trong văn bản 143
4.1.2 Đối chiếu số lượng câu trong văn bản tiếng Việt với tiếng Anh 147
4.2 ẢNH HƯỞNG CỦA YẾU TỐ LIÊN KẾT 149
4.2.1 Kết từ và phép nối 149
4.2.2 Sở chỉ, phép lặp và phép thế 155
4.2.3 Đối chiếu các yếu tố liên kết của văn bản tiếng Việt với tiếng Anh .159 4.3 ẢNH HƯỞNG CỦA THỂ LOẠI VÀ KIỂU VĂN BẢN 165
4.3.1 Thể loại văn bản 166
4.3.2 Kiểu văn bản 170
4.4 ẢNH HƯỞNG CỦA YẾU TỐ VĂN CẢNH 174
4.5 TIỂU KẾT 181
KẾT LUẬN DANH MỤC CÁC BÀI BÁO KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN 188
DANH MỤC TÀI LIỆU THAM KHẢO 191
183
5
Trang 8DANH MỤC HÌNH VÀ BIỂU BẢNG DANH MỤC HÌNH
1 1.1 Thang đo công thức đánh giá ĐKVB tiếng Việt,
nhóm Nguyễn Thanh Liêm
27
2 1.2 Đo ĐKVB bằng công thức Flesch tích hợp trong
Microsoft Word
50
1
4 1.4 Sử dụng công cụ Coh-Metrix để đo ĐKVB tiếng
Anh
52
5 1.5 Tích hợp các công thức đo ĐKVB trong CEFR 5
10 2.4 Từ ‘‘tiếng'' được xác định là từ đa nghĩa trong ‘‘Từ
điển Tiếng Việt''
77
14 3.1 Sự khác biệt trong tần suất sử dụng từ tiếng Việt,
đối chiếu với tiếng Anh
116
15 3.2 Biểu diễn trực quan cây cú pháp câu nhập nhằng
trong tiếng Anh
124
17 3.4 Xử lý tách câu trong VB “Bàn tay dịu dàng” 133
18 3.5 Cây cú pháp biểu diễn trực quan ví dụ 3.14 134
20 4.1 Đo ĐKVB Trump-Kim Talks bằng thang đo Flesch 147
6
Trang 92 1.1 Sự khác biệt giữa các nghiên cứu theo hướng tiếp
cận ĐHVB và ĐPTVB
11
5 1.4 Sáu mức độ năng lực ngôn ngữ chia theo CEFR 53
6 2.1 Kết quả khảo sát các YTNN bề mặt ảnh hưởng đến
ĐKVB tiếng Việt thuộc phạm vi từ
0 11 2.52.6 Thống kê nghĩa của từKhái quát kết quả thống kê tần suất từ, ngữ liệu 77
SGK Tiếng Việt, SGK Ngữ Văn
Trang 103 3.5 Trung bình số mệnh đề, số ngữ của các câu và số tầng của cây cú pháp 1352
4
4.1 Trung bình số lượng câu trong VB, ngữ liệu SGK
Tiếng Việt, SGK Ngữ văn
1 1.1 Các hướng tiếp cận khi nghiên cứu “Sự phù hợp
giữa văn bản với người đọc”
11
3 1.3 Bốn nhóm yếu tố cơ bản ảnh hưởng đến ĐKVB 28
4 2.1 Trung bình số lượng ký tự, chữ, từ trong VB theo
6 2.3 Trung bình chiều dài từ tính bằng chữ theo bậc học 70
7 2.4 Thống kê nghĩa của từ ở các lớp chuyển cấp và tổng
3 bậc học
79
8 2.5 Tần suất từ, ngữ liệu SGK Tiếng Việt, Ngữ văn, đối
chiếu trong Từ điển tần số tiếng Việt
86
8
Trang 11Đối chiếu tỉ lệ từ Hán-Việt trong Báo Tuổi Trẻ
Trang96
11 3.1 Độ dài câu tiếng Việt, ngữ liệu SGK Tiếng Việt,
SGK Ngữ văn
105
13 3.3 Các YTNN ảnh hưởng đến độ sâu cây cú pháp theo
15 4.1 Trung bình số câu trong VB theo bậc học 145
16 4.2 Trung bình số lượng câu đơn, câu ghép theo cấp độ
Trang 1210
Trang 1311
Trang 1412
Trang 151
Trang 16Luận án sử dụng bộ ngữ liệu 555 VB được tổng hợp từ các nguồn sau:
(1) 371 VB sách giáo khoa (viết tắt là SGK) Tiếng Việt, bậc Tiểu học (viết tắt là TH),SGK Ngữ văn, bậc Trung học cơ sở (viết tắt là THCS) và SGK Ngữ văn, bậc Trung họcphổ thông (viết tắt là THPT) (Nxb Giáo dục, 2016);
(2) 100 VB SGK Sinh học lớp 10, Lịch sử lớp 10, Tin học lớp 10 (Nxb Giáo dục, 2016);(3) 65 VB tiếng Việt và 19 VB tiếng Anh trích xuất từ các sách, báo tiếng Việt và tiếngAnh từ các nguồn sách, báo khác nhau, có xuất xứ và được trích rõ nguồn gốc
Mục đích của luận án là tìm ra và xác định được các YTNN ảnh hưởng đến ĐKVBtiếng Việt trên cơ sở nền tảng nghiên cứu lâu đời vốn có của ĐKVB tiếng Anh nên bêncạnh tìm hiểu luận án chọn lọc 19 VB tiếng Anh làm các điển cứu minh họa dưới góc độĐKVB cho luận án Bên cạnh đó, 371 VB từ SGK Tiếng Việt bậc TH, sử dụng cho họcsinh tiểu học; sách Ngữ văn sử dụng cho học sinh bậc THCS và học sinh bậc THPT SáchTiếng Việt lớp 1 không được chọn làm ngữ liệu nghiên cứu vì nội dung sách chủ yếu làdạy đánh vần và dạy đọc các từ, ngữ và câu theo vần, kèm theo các hình vẽ minh họa Dovậy, với mục đích, yêu cầu giới hạn của luận án, chúng tôi chỉ tiến hành chọn các VB làvăn xuôi trong các SGK nêu trên từ lớp 2 đến lớp 12 Các VB này có nội dung cung cấpcác kiến thức phổ thông cho người đọc, chẳng hạn các VB miêu tả, tường thuật, nghị luận,các câu chuyện kể, truyện ngụ ngôn, truyện vui và tác phẩm văn học Số lượng văn bảnkhảo sát được thể hiện trong bảng sau:
Bậc
học
số VB Lớp 2 3 4 5 Tổng 6 7 8 9 Tổng 10 11 12 Tổng
Số
VB
67
62 40 40 209 28 13 17 21 79 15 19 49 83 371
Bảng 0.1: Số lượng VB SGK Tiếng Việt và Ngữ văn
100 VB, lấy từ SGK Sinh học lớp 10, Lịch sử lớp 10, Tin học lớp 10, được dùngkhảo sát, phân tích cho mục đích của luận án và được trình bày chi tiết trong mục 4.3.2
Ngữ liệu của luận án phần lớn được trích xuất từ SGK vì: (1) hiện không có công
cụ đo tự động ĐKVB tiếng Việt nào có để xử lý phân cấp độ khó VB cho một bộ ngữ liệulớn; do vậy, việc phân cấp độ khó cho VB theo cấp lớp hoặc cấp học bằng thủ công vàbán thủ công sẽ tốn nhiều thời gian, công sức và chi phí; (2) SGK môn tiếng Việt TH,Ngữ văn THCS, Ngữ văn THPT là nguồn ngữ liệu tiếng Việt chính thống đã được phân
2
Trang 17độ khó cho từng VB theo cấp lớp, cấp học và phổ biến trong toàn dân; (4) các VB mônTiếng Việt TH có nội dung tổng quát mang tính giáo dục cơ bản nhất; thêm vào đó, ‘‘đạidiện sự tiêu biểu cho tiếng Việt toàn dân thì ngôn ngữ văn chương là tiêu biểu nhất, tiêubiểu một cách toàn vẹn, bản chất nhất'' (Cù Đình Tú, 2007); và (4) các VB đã được phâncấp, đặc biệt là SGK luôn là sự chọn lựa hàng đầu trong hầu hết các nghiên cứu ĐKVBtiếng Anh từ trước đến nay.
Để bổ trợ cho kết quả nghiên cứu của luận án, chúng tôi còn sử dụng nguồn Ngữliệu Tiếng Việt ‘‘Vcor'' (Đinh Điền và cộng sự, từ năm 2000 đến 2010) bao gồm hơn 17triệu câu với hơn 346 triệu từ và 443 triệu chữ thuộc 42 lĩnh vực và gom thành 18 chủ đề,
và nguồn Ngữ liệu Từ Hán-Việt (kho Ngữ liệu CLC) thuộc trung tâm Ngôn ngữ học Tínhtoán, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh
5 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN
Về mặt ý nghĩa khoa học, việc nghiên cứu các YTNN ảnh hưởng ĐKVB tiếng Việt(đối chiếu với tiếng Anh) cho thấy đây là nghiên cứu đầu tiên đưa ra một cơ sở lý thuyếtcho việc đo độ khó văn bản cho tiếng Việt; kết quả luận án góp phần đưa ra các tiêu chí đểđánh giá ĐKVB, từ đó được mô hình hóa các công cụ đo độ khó tự động bên tin học
Việc ứng dụng ĐKVB không chỉ dành cho những chuyên gia mà còn cho cả nhữngngười không phải là chuyên gia trong việc tạo ra các bài kiểm tra chuẩn, giảng dạy kỹnăng viết và truyền đạt thông tin Về mặt lý thuyết, ĐKVB có liên quan nhiều đến cáclĩnh vực như ngôn ngữ học ứng dụng, lý thuyết VB và lý thuyết diễn ngôn, và xử lý ngônngữ tự nhiên
Về mặt thực tiễn, trước hết, kết quả của luận án có thể trợ giúp người soạn thảovăn bản, các nhà biên soạn và cải tiến sách giáo khoa, giáo trình, các VB hiệu quả, tiếtkiệm thời gian và công sức Bên cạnh đó, đây là bước xác định rất cần thiết nhằm trợ giúpviệc xây dựng được một công cụ hay thước đo ĐKVB phù hợp cho từng cấp độ đọc cụthể trong tiếng Việt; đồng thời, việc xác định được các YTNN ảnh hưởng đến ĐKVBtiếng Việt cũng sẽ được ứng dụng trong nhiều lĩnh vực khác nhau của xã hội như: lựachọn VB phù hợp với người đọc, xây dựng chương trình dạy học tiếng Việt, chương đàotạo, bồi dưỡng có sử dụng tiếng Việt, thông tin hiệu quả trong kỹ thuật, y tế hoặc kinhdoanh, xuất bản, huấn luyện, tuyển dụng, du lịch, quảng cáo, dịch vụ, báo chí, chăm sóc y
3
Trang 18tế, pháp luật, bảo hiểm, ngành công nghiệp, nông nghiệp, giáo dục và cả quân đội, nhằmđáp ứng nhu cầu thực tiễn của người sử dụng tiếng Việt tại Việt Nam cũng như các nướckhác trên thế giới.
6 BỐ CỤC LUẬN ÁN
Phần chính văn của luận án bao gồm phần Mở đầu, phần Kết luận và 4 chươngchính với nội dung như sau:
Chương 1 trình bày về tổng quan và cơ sở lý luận của đề tài; trên cơ sở đó, luận án
có được một khung lý thuyết để tìm ra các YTNN ảnh hưởng đến ĐKVB tiếng Việt (đốichiếu với tiếng Anh) Bên cạnh đó, việc đúc rút thực tiễn từ kết quả nghiên cứu về cácYTNN có ảnh hưởng đối với ĐKVB tiếng Anh của S.Gray và E Leary (1935), công thức
đo ĐKVB tiếng Việt của Nguyễn Thanh Liêm và Alan B Henkin (1985), công cụ đoĐKVB tiếng Anh và các khái niệm liên quan, đã vạch ra hướng đi và giới hạn lại cácphạm vi nghiên cứu thành phần sẽ được đề cập trong 3 chương tiếp theo
Chương 2 trình bày sự ảnh hưởng của yếu tố từ đối với ĐKVB tiếng Việt (đối
chiếu với tiếng Anh) Trong phạm vi từ, luận án xem xét yếu tố từ trên các khía cạnh bềmặt, ngữ nghĩa, tần suất và các lớp từ vựng trong chủ đề VB Trên cơ sở khảo sát, phântích ngữ liệu, đối chiếu tiếng Việt với tiếng Anh, luận án đã xác định được mức ảnh
hưởng của các YTNN chi phối đến ĐKVB tiếng Việt trong phạm vi từ, trong đó yếu tố tần suất từ là YTNN ảnh hướng lớn nhất trong phạm vi này.
Chương 3 xem xét sự ảnh hưởng của yếu tố câu đối với ĐKVB tiếng Việt trên cơ
sở đối chiếu với tiếng Anh Trong phạm vi này, các YTNN bề mặt và bề sâu có ảnh hưởngđến ĐKVB tiếng Việt đã được xác định Bên cạnh đó, việc khảo sát, đánh giá, phân tíchcác yếu tố bề sâu về mặt cấu trúc câu đã giúp cho luận án tìm ra được vai trò và mức độ
ảnh hưởng của yếu tố độ sâu của cây cú pháp đối với ĐKVB tiếng Việt Trên cơ sở đó có
hướng đề xuất để xác định ĐKVB tiếng Việt trong phạm vi câu
Chương 4 trình bày kết quả thống kê và phân tích các YTNN bề mặt và bề sâu có
ảnh hưởng đến ĐKVB tiếng Việt (đối chiếu với tiếng Anh) trong phạm vi văn bản Trên
cơ sở đó, luận án có thể tổng kết được các YTNN ảnh hưởng đến ĐKVB tiếng Việt trongmột chỉnh thể hoàn chỉnh: Từ, Câu, và Văn bản, phần lớn theo hướng định lượng
4
Trang 19CHƯƠNG 1 TỔNG QUAN NGHIÊN CỨU VÀ CƠ SỞ LÝ LUẬN
1.1 VĂN BẢN VÀ Độ KHÓ CỦA VĂN BẢN
Theo Diệp Quang Ban (2003, 2009), L.Hjelmsle là người đầu tiên đề xuất kháiniệm "văn bản" với quan niệm: "Cái duy nhất đến với người nghiên cứu ngôn ngữ với tưcách khởi điểm ( ) đó là văn bản trong tính hoàn chỉnh tuyệt đối và không tách rời củanó" (tr.39); "Văn bản được xét như một lớp phân chia được thành các khúc đoạn Tiếptheo các khúc đoạn đó lại được lấy làm các lớp và, đến lượt mình, chúng được phân chiathành các khúc đoạn, và cứ thế cho đến chừng nào sự phân chia kết thúc" (tr.195)
Bên cạnh quan điểm cho rằng: "văn bản không phải là một phép cộng đơn thuầncủa các câu" (Trần Ngọc Thêm, 2013, tr.13) thì cũng có quan điểm: "văn bản bao gồm cóthể chỉ một câu, có thể nhiều câu, thậm chí cả một cuốn sách" (Hoàng Tuệ, 1989, tr.936).Hay cụ thể hơn, Nguyễn Thị Ly Kha (2008) đã định nghĩa: "Văn bản là sản phẩm của quátrình tạo lời, có tính thống nhất trọn vẹn về nội dung ý nghĩa và hoàn chỉnh về hình thức"(tr.225)
Diệp Quang Ban (2009) đã đưa ra định nghĩa khái quát như sau: "Văn bản là mộtloại đơn vị được làm thành từ một khúc đoạn lời nói hay lời viết, hoặc lớn hoặc nhỏ, cócấu trúc, có đề tài., như một truyện kể, một bài thơ, một đơn thuốc, một biển chỉ đường."(tr.193)
Như vậy, được nhìn từ nhiều góc độ nghiên cứu, văn bản có thể có các khái niệmkhác nhau, nhưng trong khuôn khổ của đề tài, luận án dùng khái niệm văn bản theo nghĩa:
Văn bản là sản phẩm của tạo lời, tồn tại dưới dạng thức viết, có tính thống nhất về nội dung và hình thức nhằm thực hiện chức năng thông báo thông tin.
Do vậy, ta thấy rằng thuộc tính vật chất của văn bản là sản phẩm ngôn ngữ, dạngthức tồn tại của văn bản là hình thức viết với nhiều thể loại khác nhau và chức năng củavăn bản là dùng trong các phạm vi thông báo thông tin Theo đó, một văn bản (có thể làmột từ, một câu, hoặc một đoạn văn) được xem xét để đánh giá mức độ khó của nó dựatrên các YTNN bề mặt/hình thức và bề sâu/nội dung
1.1.2 Độ khó của văn bản
Văn bản có phù hợp với người đọc hay không, phụ thuộc vào hai nhân tố chính:
5
Trang 20(1) “Độ hiểu về văn bản” và (2) “Độ phức tạp của văn bản” Về nhân tố thứ nhất, nhân
tố “Độ hiểu về văn bản” (Comprehensibility) là khả năng hiểu văn bản của người đọc.Điều này liên quan đến các yếu tố như kiến thức có sẵn của họ, kỹ năng đọc của họ, sởthích và động lực về nhân tố thứ hai, “Độ phức tạp của văn bản” (Complexibility) liênquan đến các yếu tố nội tại của chính văn bản đó, chẳng hạn: những yếu tố liên quanđến nội dung văn bản, cách trình bày ý tưởng; cấp độ của văn bản; cách thiết kế và kiểu
in văn bản; bố cục của văn bản (Dubay, 2007) Căn cứ vào hai nhân tố này, cácnghiên cứu về việc đánh giá sự phù hợp giữa văn bản với người đọc được chia thànhhai hướng tiếp cận chính: (1) Độ hiểu về văn bản của người đọc và (2) Độ phức tạp củavăn bản
“Độ phức tạp của văn bản” (viết tắt là ĐPTVB) lại được nghiên cứu trên haiphương diện cơ bản là: các yếu tố về “Độ rõ của văn bản” (Text Legibility/ Legibility)
và các yếu tố về “Độ khó của văn bản” (Readability/ Text Readability Text Difficulty/Textual Difficulty) “Độ rõ của văn bản” tập trung vào các yếu tố về hình thức trình bày
VB, chẳng hạn như các kiểu chữ, màu phông chữ, cỡ chữ, màu nền, hình ảnh, biểu đồ,v.v Trong khi đó hướng nghiên cứu về “độ khó của văn bản” tập trung vào các yếu tố
về nội dung của VB, các yếu tố ngôn ngữ bề mặt và các yếu tố ngôn ngữ bề sâu thuộcnội dung của văn bản, chẳng hạn như độ dài từ, độ dài câu, độ dài trung bình câu theo
từ, số lượng câu, từ vựng, cú pháp, phương tiện liên kết, v.v
Như vậy “độ hiểu về văn bản” (viết tắt là ĐHVB) là nghiên cứu về con người,mang tính cá nhân và chủ quan, nó phụ thuộc vào các yếu tố có sẵn của chính đốitượng sử dụng văn bản, trong khi đó “độ rõ của văn bản” (viết tắt là ĐRVB) và “độ khócủa văn bản” là nghiên cứu về VB, mang tính khách quan, dành cho một nhóm độc giả
và phụ thuộc vào các yếu tố có sẵn trong; trong đó, ĐRVB bao gồm các yếu tố về mặthình thức, và ĐKVB bao gồm các yếu tố về mặt nội dung Đối tượng nghiên cứu củaĐHVB là con người, người đọc VB, còn đối tượng
6
Trang 21nghiên cứu của ĐRVB và ĐKVB là các VB viết Các hướng tiếpcận khi nghiên cứu “Sự phù hợp giữa văn bản với người đọc” cóthể được mô tả như sau:
Nghiên cứu về sự phù hợp giữa Vãn bân với Người đọc
Matching texts to the abilities of readers
Số
tt
Đặc điểm Độ hiểu về văn bản
Comprehensibility Độ phức tạp của văn bản Complexibility
Độ rõ của văn bản Legibility
Độ khó của văn bản Readability
1 Đối tượng
nghiên cứu
- Khả năng nhận thức củacon người
- Văn bản - Văn bản
2 Nội dun-g
nghiên cứu - Các đặc điểm của ngườ-iđọc ảnh hưởng tới khả
năng hiểu văn bản
- Các yếu tố hìn-h thức ảnh hưởng đến
độ rõ của văn bản
- Các yếu tố nội dung ảnh hưởng đến độ khó của văn bản
Chủ quan
Không thể đo, tính toán
- Đọc văn bản: kỹ năn-gđọc hiểu, giảng dạy ngônngữ
- Dựa trên nghiên cứu định lượng (thống kêtrên kho ngữ liệu)
7
Biểu đồ 1.1: Các hướng tiếp cận khi nghiên cứu “Sự phù hợp giữa văn bản với người đọc”
Nghiên cứu về ĐHVB là nghiên cứu về việc giải mã (decoding) khả năng đọccủa người đọc, và nghiên cứu về ĐKVB là nghiên cứu về việc mã hóa (encoding)chính các VB đó Chúng ta không thể đo được kiến thức, động lực hay
Bảng 1.1: Sự khác biệt giữa các nghiên cứu theo hướng tiếp cận ĐHVB và ĐPTVB
Trang 22với mục đích và nhu cầu của người đọc (Dubay, 2007) Nghiên cứu về ĐKVB là nghiêncứu về các yếu tố làm cho VB dễ hiểu, một văn bản càng dễ đọc, thì VB đó càng dễ hiểu(Donald C & Samson Jr., 1993, tr.58) Như vậy, nghiên cứu về ĐKVB là nghiên cứu vềcác yếu tố ngôn ngữ bề mặt và các yếu tố ngôn ngữ bề sâu thuộc nội dung của văn bản,nghiên cứu các yếu tố ngôn ngữ làm cho chính văn bản đó dễ hiểu hơn hoặc khó hiểuhơn.
1.2 CÁC MÔ HÌNH ĐO ĐỘ KHÓ CỦA VĂN BẢN TIẾNG ANH
1.2.1 Phương pháp đo từ khó của Lively và Pressey
Công trình nghiên cứu Teacher's Word Book (Từ vựng cho người giảng dạy) của
Thorndike (1983) là cầu nối ý tưởng cho nghiên cứu về ĐKVB của Lively và Pressey
(1923) trong A Method for Measuring the 'Vocabulary Burden' of Textbooks (Một phương pháp đo lường ‘Từ vựng khó' của các SGK).
Nghiên cứu của Lively và Pressey được coi là công bố đầu tiên của công thức đoĐKVB (Chall, 1947, tr.3; Klare, 1963, tr.30; Fry, 2002, tr.286) Họ đã sử dụng 3 yếu tố đểđánh giá độ khó của từ vựng và hai trong số đó phụ thuộc vào danh sách từ củaThorndike
Công thức được tính toán bằng cách đếm tất cả các từ khác nhau trên 1.000 từ, vàtính chỉ số trung bình (median index) của tất cả các từ tìm thấy trong danh sách Thorndike10.000 từ Họ đã thực nghiệm công thức trên 11 SGK có độ khó khác nhau, cùng với cácloại báo khác nhau Họ khẳng định rằng chỉ số trung bình được tính trong công thức là chỉ
số tốt nhất cho việc loại bỏ các từ bị lặp lại trong VB
Như vậy, nghiên cứu của họ đưa ra kết luận là tần suất từ càng cao thì từ càng dễ,ngược lại chỉ số này càng thấp thì từ càng khó
1.2.2 Phương pháp của Vogel và Washburne
Vogel và Washburne (1928) đã sử dụng từ của danh sách xếp hạng sách củaWinnetka (Winnetka Graded Book List), có hơn 9.000 cuốn sách, và họ chọn lọc lại 700cuốn sách với tiêu chí là mỗi cuốn đã nhận được 25 bản hồi âm có đánh giá của trẻ emcho là sách phù hợp với chúng Từ 700 cuốn sách trong Danh sách của Winnetka, Vogel
và Washburne đã chọn 152 cuốn sách làm cơ sở cho nghiên cứu vào năm 1928
Họ đã xem xét các yếu tố ảnh hưởng đến ĐKVB tiếng Anh như sau: (i) độ khó từ vựng (vocabulary difficulty); (ii) cấu trúc câu (sentence structure); (iii) từ loại (parts of
8
Trang 23speech); (iv) cấu trúc đoạn văn (paragraph construction); (v) cấu trúc tổng quát (general
structure) (Vogel & Washburne, 1928, tr.374-5) Phương trình Vogel và Washburne đã đưa
ra để tính ĐKVB là:
X1 = 0,085X2 + 0,101X3 + 0,604X4 - 0,411X5 +17,43Trong đó:
X1: số điểm đọc cần thiết để hiểu VB; X2: số lượng từ khác nhau trong một mẫu 1000 từ;X3: số lượng giới từ, bao gồm những từ lặp lại trong một mẫu 1000 từ; X4: số lượng từbao gồm những từ lặp lại trong một mẫu 1000 từ mà không nằm trong danh sách từ củaThorndike; X5: số lượng những câu đơn trong một mẫu có 75 câu
Tóm lại, nghiên cứu này cho thấy bên cạnh xem xét từ vựng được cho là khó,Vogel và Washburne (1928) cũng xem xét cấu trúc câu và từ loại trong công thức đoĐKVB mà họ phát triển Với giả định rằng yếu tố từ loại và cấu trúc câu được sử dụngkhác nhau để tạo ra VB có mức độ khó khác nhau đã đánh dấu bước khởi đầu của mộtkhuynh hướng quan trọng của các nghiên cứu ĐKVB với cách tiếp cận mang tính thống
kê về hai YTNN này
1.2.3 Phương pháp của Dale và Tyler
Dale và Tyler (1934) đã nghiên cứu những chủ đề mà người lớn có khả năng đọchạn chế quan tâm để tìm ra thể loại tài liệu mà họ có thể đọc được
Dựa trên độ khó của các bài đọc được tuyển chọn từ các bài kiểm tra đọc hiểu chocác đối tượng, Dale và Tyler đã xác định một tập hợp gồm 25 YTNN có mức độ tươngquan với độ khó Từ con số 25 này, họ xác định được 10 YTNN liên quan gây ra khó khăntrong việc hiểu VB với hệ số tương quan là 0,30 hoặc cao hơn Cuối cùng, họ chọn 3
YTNN với hệ số tương quan 0,511; chúng là: (i) số lượng từ kỹ thuật khác nhau trong tài liệu được chọn (the number of different technical words in the selection), (ii) số lượng từ khó khác không phải là từ kỹ thuật (the number of different hard non-technical words), và (iii) số mệnh đề không xác định (the number of indeterminate clauses) trong văn cảnh.
Trên cơ sở nghiên cứu này, Dale và Tyler đã phát triển phương trình hồi quy để dựđoán độ khó của các tài liệu đọc cho độc giả ở cấp độ lớp từ 3 đến 5 như sau:
X1 = -9,4X2 - 0,4X3 + 2,2X4 +114,4 ± 9,0Trong đó:
X1: tỉ lệ phần trăm của người lớn ở mức độ đọc từ lớp 3 đến lớp 5; X2: số từ kỹ thuật
9
Trang 24khác nhau trong mẫu; X3: số từ khó khác không là từ kỹ thuật; X4: số mệnh đề không xácđịnh; Số 9.0: tỉ lệ phần trăm chênh lệch có thể xảy ra giữa các dự đoán được thực hiện bởicông thức và điểm thực tế trên các bài kiểm tra đọc hiểu.
Như vậy, nghiên cứu của Dale và Tyler tập trung vào việc tìm ra các yếu tố thuộcnội dung VB (từ kỹ thuật, mệnh đề không xác định) gây ra khó khăn trong việc đọc hiểu,trên cơ sở đó tìm ra cách thức viết VB và lựa chọn các tài liệu thích hợp cho đối tượngđọc Đây là nghiên cứu được phát triển thành công thức đo ĐKVB đầu tiên dành chongười lớn
1.2.4 Phương pháp của William Gray và Bernice Leary
Năm 1935, William, S G và Bernice, E L công bố nghiên cứu: What Makes a Book Readable: With Special Reference to Adults of Limited Reading Ability- An Initial Study (Điều gì tạo nên một cuốn sách dễ đọc: với sự tham khảo ý kiến đặc biệt dành cho
người lớn có khả năng đọc hạn chế - một nghiên cứu khởi đầu), để đáp ứng nhu cầu thựctiễn là số lượng người trưởng thành, chiếm khoảng một nửa dân số Mĩ, không thể đọc vàhiểu được phần lớn tài liệu đọc có sẵn một cách dễ dàng
Mục tiêu của Gray và Leary là tìm ra các tiêu chí khách quan để đánh giá ĐKVB,
họ tập trung vào yếu tố có thể góp phần để phát triển một công thức đo ĐKVB
Bước đầu, họ đã tìm ra các kết quả 288 yếu tố có ảnh hưởng đến ĐKVB tiếng Anh
và họ quyết định chỉ tập trung nghiên cứu vào phong cách viết của VB Trong giới hạnnày, họ còn giới hạn vấn đề hẹp hơn là chỉ tập trung nghiên cứu các yếu tố "có thể đápứng được với các quy trình thực nghiệm” với các đặc tính có thể nhận diện được rõ ràng
và có thể đo được lường một cách "khách quan" Cuối cùng, kết quả của công trìnhnghiên cứu là một phương trình hồi quy được áp dụng cho "tất cả các sách được chọn lọc
là phù hợp nhất với độc giả có khả năng đọc từ trung bình trở xuống” (Gray & Leary,
1935, tr.239) Phương trình được đề xuất như sau:
X1 = -0,01029X2 +0,009012X5 -0,02094X6 -0,03313X7 -0,01485X8 + 3,774Trong đó:
X1: điểm số trung bình mà người đọc kém cần phải đạt được trong bài kiểm tra đọc hiểu;X2: số lượng từ "khó” khác nhau trong đoạn văn (trong danh sách từ của họ và một số là
trong sách The Teacher's Word Book của Thorndike); X5: số lượng đại từ nhân xưng; X6:
trung bình số từ trong một câu của VB; X7: tỉ lệ phần trăm của tổng số từ có một nghĩa
10
Trang 25duy nhất; X8: số cụm giới từ trong VB.
Tóm lại, kết quả trên cho thấy tần suất từ (từ khó, từ loại, nghĩa của từ) và trungbình câu tính bằng từ là YTNN quan trọng để đánh giá ĐKVB Lịch sử nghiên cứuĐKVB tiếng Anh cho thấy nghiên cứu của William, S G và Bernice, E L (1935) đã đềcập trên là một trong những nghiên cứu chuyên sâu và đồng thời được xem là nghiên cứukinh điển về các YTNN ảnh hưởng đến ĐKVB tiếng Anh (các YTNN cụ thể sẽ được phântích sâu hơn ở phần 1.4.1)
1.2.5 Lorge và ‘‘điểm chuẩn''
Lorge (1939) áp dụng phương pháp của Gray và Leary dựa trên bộ ngữ liệu đọchiểu đã được phân cấp độ khó
Để phân định mức độ khó cho các VB (đoạn văn), Lorge đã sử dụng tài liệu Các bài kiểm tra đọc chuẩn của McCall và Crabb, cuốn II, III, IV và V (1925) để đưa ra các
điểm chuẩn (benchmarks); đối với mỗi đoạn, ông chấm điểm mức độ khó theo thang điểmnhư các bài kiểm tra dành cho người trả lời đúng 50% các câu hỏi kiểm tra trong bài đọchiểu Sau này Dale và Chall, Flesch và Gunning đều sử dụng các bài kiểm tra đọc hiểucủa McCall-Crabbs, khác nhau về phiên bản, cho nghiên cứu của họ
Ngoài việc kiểm tra "các yếu tố cấu trúc” như Gray và Leary, Lorge đã thêm mộtbiến bổ sung là "chỉ số của từ khó" Chỉ số này là "tần suất của một từ” dựa trên cuốn sách20.000 từ của Thorndike (Lorge, 1939, tr.230)
Ông đã cho rằng có thể thu được kết quả tốt hơn khi điều chỉnh tỉ trọng và sử dụng
các cách kết hợp khác nhau của 2 biến: (i) cụm giới từ và các từ khó khác nhau, (ii) trung bình độ dài câu và các từ khó khác nhau, và (iii) số lượng các cụm giới từ và trung bình
độ dài câu (Lorge, 1939, tr.230).
Năm 1944, Lorge chuyển các biến mà ông đã nghiên cứu năm 1939 thành một
công thức, gọi là công thức ‘‘Lorge Readability Index'' (Chỉ số ĐKVB Lorge) (Lorge,
1944, tr.408) Lorge tin rằng ‘‘Chỉ số đọc'' này có thể được sử dụng cho các tài liệu dànhcho người lớn cũng như trẻ em Ông đã công bố công thức như sau (Lorge, 1944, tr.415):
Chỉ số (Index) = 0,07(w/s) + 13,01(p/w) + 10,73(h/w) +1,6126Trong đó:
w: tổng số từ trong một một mẫu; s: số câu; p: tổng số các cụm giới từ; h: số lượng từ
“khó” - những từ không nằm trong danh sách 769 từ dễ của Dale
11
Trang 26Như vậy, nghiên cứu này một lần nữa cho thấy YTNN như tần suất từ, giới từ và
độ dài câu được xác định là 3 YTNN có mức ảnh hưởng cao nhất đối với ĐKVB tiếngAnh
1.2.6 Công thức đo độ khó của văn bản Flesch
Rudolf Flesch (1943, 1946, 1948) quan tâm đến việc phát triển các công thức để
đo ĐKVB trong các tài liệu viết dành cho người lớn và chỉ ra những hạn chế trong cáccông thức trước đó đối với các tài liệu đọc của người lớn
Flesch (1943) chọn các bài báo trong các tạp chí và xếp hạng độ khó của chúng
dựa trên “các phát hiện và quan sát” (findings and observations) của các chuyên gia như
các nhà giáo dục, nhà xuất bản, các thủ thư, cũng như xếp hạng chủ quan căn cứ vào “giátrị văn hóa'' của các tạp chí có sự trùng khớp với sự đánh giá bởi một nhóm gồm 44chuyên gia (tr.25)
Flesch (1943) kết luận rằng chỉ có biến trung bình số từ trong một câu là chỉ sốhữu dụng về sự khác nhau của độ khó trong các bài văn tả thực dành cho người lớn Bêncạnh đó, ông thêm 2 biến khác vào độ dài câu: (1) số lượng phụ tố và (2) một biến được
sử dụng trong công thức của Gray và Leary Ngoài ra còn 1 biến nhằm đại diện cho yếu tốchỉ sở thích của con người trong các bài đọc (tr.32-5)
Sử dụng các tài liệu mà Lorge đã giới thiệu trước đó là các tập văn tuyển của
McCall-Crabbs và các bài kiểm tra đọc hiểu được soạn cho trẻ em Ông phát triển công
thức sau (Flesch, 1943, tr.34):
Xc75 = 0,1338XS + 0,0645XM - 0,0659XH + 4,2498Trong đó:
Xc75: điểm số trung bình của trẻ em trả lời đúng 75% câu hỏi kiểm tra (cùng thước đonhư Lorge sử dụng); S: trung bình độ dài câu; M: số lượng phụ tố; H: chỉ số tài liệu cánhân quan tâm
Đến năm 1946 Flesch sử dụng công thức hồi quy mà ông phát triển năm 1943 đểxây dựng một hướng dẫn thực hành nhằm giúp người viết mã hóa một VB dễ hiểu, có tựa
đề là The Art of Plain Talk (Nghệ thuật trong cách nói rõ ràng) Ông cũng nêu ra một qui
trình từng bước để áp dụng nó kết hợp với công thức phiên bản năm 1943, chỉ dẫn nàycũng cung cấp một bảng hướng dẫn cách sử dụng các phép tu từ phổ biến bao gồm cáchướng dẫn làm thế nào để viết VB một cách rõ ràng
12
Trang 27Flesch (1948) đã đơn giản hóa công thức của mình để dễ áp dụng hơn trong công
trình A New Readability Yardstick (Một thước đo ĐKVB mới) Ông chia thành hai công
thức liên quan, mỗi công thức đều có hai YTNN là độ dài từ và độ dài câu.
Công thức thứ nhất gọi là "reading ease'' được Flesch công bố như sau:
R.E ("reading ease") = 206,835 - 0,846 wl - 1,015 sl (1948, tr.225)
Trong đó:
wl: độ dài từ (số âm tiết trên 100 từ); sl: độ dài câu tính bằng từ
Công thức tính Reading Ease (Độ dễ đọc) không đưa ra cấp độ lớp cho VB Điểm
số càng cao (trên thang điểm từ 0 đến 100) thì VB càng dễ đọc Một đoạn văn có điểm 0
là "không thể đọc được", trong khi điểm 100 là "dễ dàng đối với bất kỳ người biết chữnào” (Flesch, 1948, tr.229) Cần chú ý điểm 100 là mức độ khó tương đương với ĐKVB
lớp 4 (Flesch, 1948, tr.225) Công thức Reading Ease được sửa lại cho phù hợp (vẫn dùng
các yếu tố trên nhưng có sự thay đổi trọng số) để sử dụng cho quân đội Mĩ (Flesch &cộng sự, 1975)
Flesch (1948) đã sử dụng các từ chỉ cá nhân (personal words) để mã hóa sự quantâm của con người Để mã hóa điều này, Flesch đã thêm vào một yếu tố khác, ông gọi là
personal sentences (câu cá nhân); yếu tố này nhằm để đo lường chất lượng hội thoại và sự
hấp dẫn nội dung của VB (tr.223) Công thức thứ hai được phân tích như sau:
HI = 3,635 pw + 0,314 ps (Flesch, 1948, tr.225)Trong đó:
HI: sở thích của con người (human interests); Pw: các từ cá nhân (personal words); Ps:những câu cá nhân (personal sentences)
Theo ông, các câu cá nhân bao gồm: câu gián tiếp (trong dấu ngoặc kép) hoặc trựctiếp; câu hỏi, câu mệnh lệnh, yêu cầu, câu cảm thán; các câu chưa hoàn chỉnh về mặt ngữ
pháp mà nghĩa được suy ra từ ngữ cảnh (1948, tr.223).
Cũng như công thức Reading Ease, điểm số càng cao, các “mối quan tâm của con
người” càng nhiều: điểm 100 nghĩa là VB có “đầy đủ các mối quan tâm của con người”,trong khi điểm 0 nghĩa là “không có mối quan tâm nào của con người” (Flesch, 1948,tr.230) Ông cho là “2 công thức mới hiệu quả hơn đối với việc dạy viết, bởi vì yếu tố bổsung (câu cá nhân) và việc phân chia thành nhiều phần sẽ chỉ ra những lỗi sai cụ thể trong
kỹ năng viết một cách rõ ràng hơn” (1948, tr.226)
13
Trang 28Sách The Art of Readable Writing (Nghệ thuật viết dễ đọc) (Flesch, 1949) là một
thành công nổi tiếng được biết đến như một cuốn sách “làm thế nào để viết một VB dễđọc''; thành công tới nỗi mà một phần tư thế kỷ sau đó cuốn sách vẫn được tái bản cóchỉnh sửa và bổ sung mới (Flesch, 1974)
Như vậy, công thức Flesch Reading Ease và công thức Flesch Kincaid GradeLevel này tương đối dễ áp dụng, không cần phải có danh sách từ hoặc bất cứ yêu cầu kiếnthức đặc biệt nào để đếm số âm tiết hoặc số từ Các YTNN được xác định là quan trọngnhất để đánh giá ĐKVB tiếng Anh là: (1) Việc đếm (Counts): (i) các từ (words), (ii) ký tự(characters), (iii) đoạn (paragraphs), (iv) câu (sentences); (2) Trung bình (Averages): (i) sốcâu trong một đoạn văn (sentences per paragraph), (ii) số từ trong một câu (words persentence), (iii) số ký tự trong một từ (characters per word), và (3) ĐKVB (Readability)của (i) các câu bị động (passive sentences), (ii) theo công thức Flesch Reading Ease, và(iii) theo công thức Flesch Kincaid Grade Level
Do vậy, công thức ĐKVB Flesch là công thức đo ĐKVB truyền thống được sửdụng rộng rãi nhất trên thế giới so với các công thức đo ĐKVB khác Ngày nay công thứcnày có thể được tìm thấy như là một công cụ trong chương trình xử lý ĐKVB tiếng Anh
tự động phổ biến nhất trên thế giới trong Microsoft Word (cách sử dụng sẽ được trình bàytrong phần 1.5.1)
1.2.7 Công thức đo độ khó của văn bản Dale-Chall
Dale và Chall cho là từ vựng là một trong những YTNN quan trọng nhất trong các bài đọc hiểu (1948a, tr.17) Để đo độ khó của từ vựng, họ dùng danh sách từ vựng của
Dale gồm 3000 từ, những từ mà học sinh lớp 4 có thể hiểu được khoảng 80% Đây là
phiên bản mở rộng của danh sách 769 từ vựng Cấp độ Dễ của Dale (năm 1931) Lorge đã
sử dụng trong công trình Lorge Readability Index (Chỉ số đo ĐKVB Lorge) (năm 1944)
Theo Dale và Chall (1948a, tr.16) độ khó của các đoạn văn của McCall- Crabbs có
độ tương quan cao với những từ vựng bên ngoài danh sách này Do vậy, yếu tố từ vựng được đánh giá là yếu tố có ảnh hưởng cao nhất và tiếp đến là yếu tố độ dài câu Họ phát
triển một công thức mới gồm hai biến như sau:
XC50 = 0,1579X1 + 0,0496X2 + 3,6365Trong đó:
XC50: điểm số đọc hiểu của một sinh viên có thể trả lời đúng 50% câu hỏi
14
Trang 29X1: số từ vựng không xuất hiện trong danh sách 3000 từ của Dale
X2: trung bình độ dài câu và 3,6365 là một hằng số
Dale và Chall cũng nhấn mạnh rằng khi xem xét lại chỉ số Reading Index của
Lorge (1939, 1944) và công thức Flesch (1943) thì từ vựng trong danh sách 3000 từ củaDale có giá trị tiên đoán lớn hơn các YTNN khác trong nghiên cứu của Lorge và Flesch(Dale và Chall, 1948a, tr.16-18)
Gần 50 năm sau, Dale và Chall (1995) đã xem xét lại các công thức về ĐKVB và
có cải tiến bằng cách sử dụng bản cập nhật danh sách 3000 từ của Dale; bản danh sách từvựng này gồm những từ mà 80% học sinh lớp 4 đều đã biết, được công bố năm 1940, vàcập nhập lại vào năm 1980 là những từ được khoảng 80% học sinh lớp 4 đã biết (tr.58)
Công thức mới của họ (1971) không còn sử dụng các cấp độ theo lớp được chỉ
định trong các bài kiểm tra tiêu chuẩn của McCall-Crabbs (được liệt kê trong Chall và
Dale 1926) mà sử dụng các điểm số đánh giá tương đương theo cấp lớp của Bormuthtrong 32 đoạn văn (1971) vì các kết quả Bormuth có hệ số tương quan cao hơn so vớicông thức Dale-Chall cả cũ và mới Công thức mới như sau:
Dale-Chall cloze = 64 - 0,95 unfamiliar words (từ không quen thuộc)
- 0,69 average sentence length (trung bình độ dài câu)
(Chall & Dale, 1995, tr.66)
Từ công thức đo của Dale-Chale ta thấy tần suất từ và độ dài trung bình của câu là
YTNN được chú trọng để đánh giá ĐKVB
1.2.8 Công thức đo độ khó của văn bản Gunning Fog
Gunning Fog là nhà sáng lập của Robert Gunning Associates-Hiệp hội tư vấn vềviết VB Vì hiệp hội này có đối tượng khách hàng là các tác giả viết sách, báo chí và tạpchí, kinh doanh và các tác giả về lĩnh vực kỹ thuật nên ông quan tâm phát triển công cụthực tiễn để hỗ trợ người viết Đây là một công cụ ứng dụng có thể tự sáng tạo VB và làmột công thức đơn giản, dễ áp dụng giúp người viết đánh giá ĐKVB (Gunning, 1968,chương vii)
Gunning cho rằng việc áp dụng công thức, được gọi là chỉ số ‘‘Fog'' cho các đoạnvăn đọc hiểu của McCall-Crabbs có một "mối quan hệ không thay đổi và khá đơn giản sovới việc xếp mức độ theo cấp lớp"(Gunning, 1968, tr.40) Công thức được đề cập như sau:
Grade Level = 0,4 x (average sentence length + hard words)
15
Trang 30Trong đó :
Grade Level: cấp độ lớp; average sentence length: độ dài trung bình của câu; hard words:
số từ khó có trên 2 âm tiết
16
Trang 31Bảng sau trình bày chi tiết thang đo theo chỉ số ‘‘Fog'' của công thức trên các tàiliệu dành cho người trưởng thành.
Nhóm Tổng số lưu hành xấp xỉ Độ dài trung bình của câu Số từ khó Tổng số Chỉ số Fog
Bảng 1.2: Thang đo theo chỉ số Fog
Như vậy, 2 YTNN mà Gunning chú trọng trong công thức đo ĐKVB tiếng Anh là
độ dài trung bình của câu để đo độ phức tạp của câu và số lượng các từ đa âm tiết để đo lường độ khó của từ.
1.2.9 Đồ thị đo độ khó của văn bản Fry
Edward Fry (1968) công bố đồ thị đo ĐKVB, cung cấp cấp độ theo lớp gần
đúng của VB Đồ thị của Fry được công bố như sau :
Biểu đồ 1.2: Đồ thị Fry
Đồ thị hiển thị trên dùng để xác định cấp độ đọc, trong đó các đường cong biểu thịcấp độ VB Các điểm bên dưới đường cong biểu thị độ dài trung bình của câu dài hơn và
17
Trang 32các điểm trên đường cong biểu thị VB có từ khó hơn (như trong các VB khoa học ởtrường học) Điểm rơi vào trong các khu vực màu đen là không hợp lệ Đồ thị này được
sử dụng như sau:
- Chọn một mẫu ngẫu nhiên gồm 100 từ;
- Tìm y (chiều đứng) trung bình số câu trên 100 từ;
- Tìm x (chiều ngang) trung bình số âm tiết trên 100 từ;
- Tọa độ giao giữa 2 giá trị của 2 chiều là cấp độ lớp của VB
Như vậy, cùng quan điểm với Gunning Fog, Edward Fry (1968) cũng sử dụng 2
yếu tố: độ dài câu và độ phức tạp của từ để đánh giá ĐKVB.
1.2.10 Công thức đo độ khó của văn bản SMOG
Phương pháp tính ĐKVB tiếng Anh của G Harry McLaughlin (1969) là một biếnthể của Gunning và Fry
McLaughlin lập luận rằng "Cái mà các nhà nghiên cứu trước đây đa số bỏ qua làtrong thực tế, ngữ nghĩa và độ khó của cú pháp có sự tương tác với nhau” (1969, tr.640).Ông cho rằng kích cỡ mẫu (đếm bằng âm tiết) là một cách thể hiện chiều dài câu, do đóảnh hưởng đến số lượng âm tiết trong phần lựa chọn; do vậy, nó thể hiện sự tương tácgiữa cú pháp và độ phức tạp của từ
Khi xem xét mối quan hệ giữa độ dài câu và số lượng từ McLaughlin cho rằng độ
dài câu tăng lên thì số lượng từ tính bằng âm tiết cũng tăng lên Vì vậy, các câu càng dàithì số âm tiết càng lớn; do vậy, số lượng âm tiết cũng liên quan đến độ dài từ (tr.641)
Sử dụng 390 đoạn văn ấn bản năm 1961 của Bài kiểm tra tiêu chuẩn Crabbs để phát triển một phương trình hồi quy bằng cách sử dụng ý tưởng mẫu 10 câu vàmột số từ đa âm tiết (McLaughlin, 1969, tr.641), công thức được công bố như sau:
McCall-g = 1, 0430 (3 + Vp)Trong đó: g: cấp độ đọc được chỉ định bởi McCall-Crabbs cho học sinh trả lờichính xác 100% câu hỏi đọc cho các bài đọc đã chọn; Vp: số từ đa âm tiết trong 30 câu
McLaughlin cũng trình bày sự kiểm chứng trong nghiên cứu của ông với cácnghiên cứu khác: (1) nhờ các chuyên gia xem các VB và liệt kê mười ý tưởng quan trọngnhất trong mỗi đoạn văn từ các tạp chí khác nhau; (2) nhờ sinh viên đại học đọc các đoạnvăn; (3) yêu cầu sinh viên ghi lại nội dung càng đầy đủ càng tốt; (4) chấm điểm bài thuhoạch của sinh viên so với các danh sách của các chuyên gia trên thang điểm từ 0 đến 10;
18
Trang 33(5) phân cấp lớp dựa vào khoảng thời gian trung bình để học sinh đọc từng đoạn VB Trên
cơ sở đó, ông đưa ra kết quả có "một mối tương quan hoàn toàn nghịch giữa số lượng từ
đa âm tiết và việc đo lường hiệu quả đọc” (McLaughlin, 1969, tr.645)
Tóm lại, việc xác định ĐKVB của McLaughlin được kết hợp dựa trên các YTNN
là độ dài câu, từ đa âm tiết, nghĩa của từ, sự đánh giá của chuyên gia và thực nghiệm.
1.2.11 Quy trình điền khuyết
Năm 1953, Wilson L Taylor đề xuất một phương pháp tiếp cận mới cho ĐKVBđược gọi là "cloze procedure” (quy trình điền khuyết) (Taylor,1953, tr 415)
Thuật ngữ "cloze” đã trở thành một trong những phương pháp chuẩn để đánh giáĐKVB Phương pháp cloze bao gồm việc chọn một VB và xóa các phần của nó trong mộtmẫu ngẫu nhiên hoặc cố định Ví dụ, người ta có thể chọn một VB 500 từ và xóa ngẫunhiên 10% các từ này, hoặc cứ mỗi mười từ người ta lại xóa một từ Trong cả hai trườnghợp, việc xóa được thực hiện bất kể tầm quan trọng của từ hoặc chức năng ngữ pháp của
nó ĐKVB được đánh giá theo mức độ mà người đọc có thể cung cấp các từ/ngữ đã bịxóa Ý tưởng ở đây là khi người đọc càng hiểu rõ VB, thì họ càng thành công trong việcđiền đầy những khoảng trống (Taylor, 1953, tr.416-17)
Giả thuyết này dựa trên một số giả định, cơ bản nhất là lấy ý tưởng của nhà tâm lýhọc Gestalt cho rằng mọi người có thể lấp đầy những khoảng trống trong một mẫu hìnhhoặc hình ảnh mà họ có thể nhận ra Khi áp dụng khái niệm này cho VB, cần có một giảthiết thứ hai đó là: người đọc có thể cung cấp các YTNN đã bị xóa trong một VB dựa trênkhả năng xác định các mẫu trong VB; vì vậy, người đọc có thể xác định được từ còn thiếutrong câu tiếp theo bằng cách xác định kiểu mẫu tiềm ẩn (Taylor, 1953, tr.416)
Ví dụ: Chickens cackle and _ quack
Từ “ducks” có thể được đoán chính xác nếu người đọc xác định cả ngữ nghĩa vàngữ pháp giữa hai mệnh đề
Taylor cho rằng quy trình điền khuyết đo lường "sự giống nhau giữa các mẫu ngônngữ được sử dụng là thể hiện ý của người đọc VB, và những mẫu khác nhau này có thểđại diện cho sự suy đoán của độc giả với những gì người viết muốn thể hiện” (tr.417).Theo Taylor, người đọc sẽ hiểu VB dễ dàng hơn khi những từ ngữ trong VB sát với mongđợi của người đọc nhất Ngược lại, người đọc sẽ khó hiểu được VB hơn khi những từ ngữtrong VB khác xa với mong đợi của người đọc Vì vậy, khi người đọc hiểu được các mẫu
19
Trang 34VB của người viết, thì người đọc sẽ có thể điền vào chỗ trống một cách chính xác và cáckiểu VB không phù hợp với kỳ vọng của một người đọc gần như vô nghĩa đối với người
đó (tr.419)
Nghiên cứu của Taylor cho ta thấy việc đánh giá ĐKVB phải được xem xét về mặtnghĩa của từ và mối quan hệ của từ với các YTNN khác trong VB
1.2.12 Công cụ tính toán Coh-Metrix
Mô hình tính toán ĐKVB tiếng Anh Coh- Metrix được phát triển bởi Crossley,Greenfield và McNamara từ năm 2004 "Coh-Metrix phân tích VB trên hơn 200 sự đolường về liên kết, ngôn ngữ và ĐKVB Các mô-đun của nó sử dụng từ vựng, phân loại từloại, phân tích cú pháp, các mẫu, ngữ liệu, phân tích ngữ nghĩa tiềm ẩn và các thành tốkhác mà được sử dụng rộng rãi trong ngôn ngữ học tính toán'' (Graesser và các cộng sự,
2004, tr.193)
Một trong những mục tiêu chính của Coh-Metrix là xem xét các thuộc tính của
ngôn ngữ vượt ra ngoài các tính năng được xem xét bởi các công thức truyền thống: sự quen thuộc của từ, độ dài từ và độ dài câu Để làm điều này, Coh-Metrix tập trung vào
các thuộc tính diễn ngôn; đặc biệt, tính liên kết của VB, tính mạch lạc và những kiến thức
mà người đọc áp dụng cho việc đọc VB (Graesser và cộng sự, 2004, tr.201)
Coh-Metrix xử lý nhiều loại đặc trưng khác nhau của ngôn ngữ Bao gồm những
đặc trưng mà các nghiên cứu về ĐKVB kinh điển xem là cốt lõi như: độ phức tạp của ngữ pháp và độ khó của từ (đếm số lượng câu trong một VB, số lượng từ trung bình trong
một câu và độ lệch chuẩn của trung bình đó) Khi kiểm tra các từ, các nhà nghiên cứu cóthể sử dụng Coh-Metrix để xác định trung bình số từ trong một đoạn văn và độ lệchchuẩn, cũng như trung bình các ký tự trong từ và độ lệch chuẩn từ mức trung bình đó
Coh-Metrix có độ phân tích cao hơn đối với yếu tố ngữ pháp và từ Chẳng hạn,trong việc đo lường sự phức tạp của ngữ pháp, Coh- Metrix có thể đếm số lượng trungbình của những phó từ trong các cụm từ danh từ và trung bình số từ xuất hiện trước động
từ chính Thông tin này được cho là cung cấp một "chỉ số đáng tin cậy về tải bộ nhớ làmviệc” (good index of working memory load) (Coh-Metrix Phiên bản 3.0 Chỉ số 2013,phần III, tr.8) Trong việc đo lường độ khó của từ, nó có thể đếm tỉ lệ của các loại từ vàlần xuất hiện của các từ, ví dụ số lần của cùng một từ xuất hiện trong VB biểu hiện dướimột hoặc nhiều hình thức từ loại khác nhau Với giả thiết là có nhiều chuỗi từ loại hơn
20
Trang 35trong VB của cùng một từ, người đọc có thể càng dễ dàng và nhanh chóng xử lý VB hơn(Coh-Metrix Phiên bản 3.0 Chỉ số 2013, phần III, tr.5).
Bên cạnh đó, Crossley, Greenfield và McNamara (2008) còn lập luận rằng VB
"phải bao gồm các biện pháp đo lường tính liên kết văn bản và ngữ nghĩa trong việc xâydựng và mã hóa ĐHVB như là một quá trình đa cấp” (tr.477) Các tác giả đã chọn ba biến:
"tần số từ, sự tương đồng cú pháp và sự trùng lặp thực từ” (tr.481) để thực hiện phép dự
đoán chính xác hơn về ĐKVB (xem chi tiết phụ lục 1)
Sử dụng ba biến Coh-Metrix: tần suất từ, sự giống nhau về cú pháp, và phép lặp thực từ, Crossley, Greenfield và McNamara (2008) đã phát triển công thức hồi quy được
gán các trọng số cho các biến như sau: 0,362 cho phép lặp thực từ, 0,412 cho sự giốngnhau về cú pháp, và 0,416 cho tần suất từ Như vậy, điều đáng chú ý là tần suất từ đượcgán trọng số lớn nhất, giống như các công thức đo ĐKVB truyền thống
Công cụ tính toán ĐKVB Coh-Metrix có sẵn ở trang web:http://www.cohmetrix.com và mô hình này là sự kết hợp giữa các công thức cổ điển vàphương pháp Cloze Nó không phải là một công thức hay quy trình, mà là một mô hìnhcông cụ tính toán để đánh giá và xem xét mức độ khó của văn bản trên nhiều phương diệncủa các YTNN bề mặt và bề sâu vì vậy, Coh-Metrix được đánh giá là một trong nhữngcông cụ tính toán ĐKVB được tích hợp nhiều đặc trưng của các YTNN nhất hiện nay(cách sử dụng công cụ này được trình bày chi tiết trong mục 1.5.2)
Tóm lại, việc xem xét các nghiên cứu tiêu biểu trên cho thấy mặc dù vẫn có sựkhác nhau trong các quan niệm, nhưng các kết quả nghiên cứu đều cho thấy để xây dựngcác cách thức, phương pháp, phương trình, công cụ, v.v đo ĐKVB tiếng Anh đều bắt đầubằng việc xác định các YTNN ảnh hưởng đến ĐKVB Cụ thể hơn các yếu tố như: tần suất
từ, từ khó (từ đa tiết, từ kỹ thuật), nghĩa của từ, từ loại (đại từ, giới từ), độ dài từ, độ dàicâu, cấu trúc câu (câu có mệnh đề không xác định, câu chủ động, câu bị động) là cácYTNN được xem xét trong các nghiên cứu Đáng chú ý là 3 yếu tố tần suất từ, độ dài từ,
độ dài câu là YTNN luôn được chú trọng hàng đầu trong hầu hết các nghiên cứu
Tóm lại, việc nghiên cứu về các ứng dụng đo ĐKVB tiếng Anh nói riêng và cácngôn ngữ khác nói chung hiện nay vẫn không ngừng được quan tâm nghiên cứu và cảitiến, trong đó hầu hết các YTNN trong phạm vi từ, cấu trúc câu và kết cấu văn bản có thể
đo lường được thể hiện trong các mô hình đo ĐKVB và các YTNN không thể đo được
21
Trang 36như các phép tu từ, thể loại văn bản, v.v hiện vẫn được tiếp tục nghiên cứu và xác định ởcác nghiên cứu theo hướng định tính.
1.3 PHƯƠNG PHÁP VÀ CÔNG THỨC ĐO ĐỘ KHÓ CỦA VĂN
BẢN TIẾNG VIỆT
Hiện nay có hơn hàng trăm ngàn nghiên cứu về ĐKVB trong các ngôn ngữ, đa số
là đối với tiếng Anh, được công bố trên các tạp chí chuyên ngành12, nhưng nghiên cứuĐKVB tiếng Việt còn rất hạn chế Theo khảo sát của chúng tôi, đối với
12Theo thống kê của Google Scholar tính đến ngày 14/03/2020 là 543.000 kết quả.
22
Trang 37tiếng Việt, ở thời điểm hiện tại chỉ có 2 công thức đo ĐKVBtiếng Việt cùng một nhóm tác giả Nguyễn Thanh Liêm và Alan B.Henkin (1982, 1984).
Năm 1982, nhóm tác giả Nguyễn Thanh Liêm và Alan B Henkin đã đưa ra
Công thức 1 đo ĐKVB tiếng Việt như sau:
RL=2*WL + 0.2*SL- 6
Đến năm 1985, họ cải tiến công thức trên, sử dụng đặc trưng độ dài của câu
và đặc trưng tỉ lệ từ Hán-Việt trên VB để thiết lập Công thức 2 như sau:
Hình 1.1: Thang đo công thức đánh giá ĐKVB tiếng Việt, nhóm Nguyễn Thanh Liêm
23
Grades
Grades 5-6 Moderately easy
Orados 3-4
Grades 1-2
Easy
Very easy
Trang 38Như vậy, kết quả nghiên cứu của hai tác giả bước đầu đưa ra công thức tínhĐKVB tiếng Việt theo kiểu cũ dựa vào 2 yếu tố “độ dài của từ” và “độ dài của câu”,
và công thức này chỉ tập trung vào mối liên hệ giữa các đặc điểm thống kê độ khódựa trên 2 YTNN bề mặt trên để đo ĐKVB trên một tập ngữ liệu nhỏ (24 VB) chứchưa đi vào phân tích các YTNN bề sâu của từ, ngữ pháp và văn bản Điều đáng chú
ý ở đây là muốn xác định được ĐKVB của một VB tiếng Việt theo cấp lớp học thì taphải tính hai yếu tố nêu trên bằng thủ công và tự áp dụng thang đo trên để xác địnhĐKVB tiếng Việt, đây là sự bất tiện của thang đo này so với một số thang đo ĐKVB
tự động tiếng Anh (ví dụ thang đo FLESCH được trình bày ở phần 1.5)
1.4 CÁC YẾU TỐ NGÔN NGỮ ẢNH HƯỞNG ĐẾN ĐỘ KHÓ
tố liên quan đến ĐKVB ảnh hưởng đến ĐHVB còn hạn chế của người trưởng thành
Họ xác định được 288 yếu tố ảnh hưởng đến ĐKVB thông qua khảo sát trên 800người trưởng thành, các yếu tố này được gom thành bốn nhóm chính (xem phụ lục2): nội dung (content), văn phong (style), định dạng (format) và đặc trưng về tổ chứcvăn bản (features of organization) Các yếu tố này được thể hiện khái quát như sau:
Biểu đồ 1.3: Bốn nhóm yếu tố cơ bản ảnh hưởng đến ĐKVB
Style
Semantic and Syntactic Elements
4, Structure
Chapters Headings Navigation
1 Content
Propositions Organization Coherence
Typography Format Illustrations
Trang 39Kết quả nghiên cứu bước đầu của họ chỉ ra rằng mức độ ảnh hưởng của bốnnhóm yếu tố đối với ĐKVB tiếng Anh như sau: (i) nội dung có mức ảnh hưởng caonhất, (ii) văn phong là yếu tố ảnh hưởng cao thứ hai, (iii) định dạng văn bản xếp vị tríảnh hưởng thứ ba; và (iv) đặc trưng về tổ chức văn bản có sự ảnh hưởng thấp nhất.
Tuy nhiên, vẫn có một số khác biệt giữa các nhóm được khảo sát ý kiến vềtầm quan trọng các nhóm yếu tố Đặc biệt là các thủ thư xếp hạng phong cách viết làYTNN ảnh hưởng cao nhất đối với ĐKVB; trong đó, yếu tố quan trọng nhất đượcxem là từ vựng, theo sau là loại câu được sử dụng Kết quả là không có sự nhất trígiữa các nhóm đánh giá để xác định yếu tố ảnh hưởng cao nhất đến ĐKVB tiếng Anh
là văn phong hay nội dung VB
Đặc biệt khi tranh luận về việc ĐHVB và ĐKVB, William, S G và Bernice,
E L đã đưa ra nhận định rằng ‘‘không phải bất cứ ai cũng có ĐHVB như nhau Nhưvậy, nguyên nhân không chỉ vì người ta có khả năng đọc khác nhau như nhữngnghiên cứu trước đã nhấn mạnh, mà còn là bởi các tài liệu đọc có độ khó khác nhaulại dành cho cùng một nhóm độc giả hay một nhóm người cùng cấp độ đọc.'' (1935,tr.95)
Hai nhà nghiên cứu này cũng đã cho thấy rằng các YTNN vốn gắn liền trongnội dung của một tài liệu đọc là các chỉ số trọng yếu cho thấy mức độ khó của chínhtài liệu đó Do vậy, việc xác định các YTNN này có thể xem là bước nghiên cứu thiếtyếu, nhằm trợ giúp ngành kỹ thuật trong việc giải quyết vấn đề sự phù hợp tài liệuđọc với độc giả Chính vì vậy, để nghiên cứu các yếu tố ảnh hưởng đến ĐKVB tiếng
Anh trong công trình What Makes a Book Readable (Điều gì tạo nên một cuốn sách
dễ đọc) được xuất bản năm 1935, họ đã xác định hướng nghiên cứu như sau:
(1) chọn lọc các yếu tố ảnh hưởng đến ĐKVB; (2) nghiên cứu các YTNN ảnh hưởngĐKVB tiếng Anh, phạm vi văn phong, theo hướng định lượng; và (3) xác định độtương quan của các yếu tố và các tiêu chí trong ĐKVB Các cơ sở này được dùng đểxác định các YTNN ảnh hưởng đến ĐKVB
Trên cơ sở định hướng nghiên cứu ban đầu, họ xác định được 288 yếu tố cóảnh hưởng đến ĐKVB (xem phụ lục 2), sau đó họ phân tích và thấy rằng trong khimột số yếu tố gắn liền với phân loại từ vựng (vocabulary to its range), tần suất sử
Trang 40dụng từ (frequency of usage), những từ quen thuộc (familiarity); thì một số yếu tốliên quan đến độ dài câu (the sentence to its length), cấu trúc câu (structure) và cách
sử dụng câu (use); còn lại một số yếu tố khác lại liên quan đến sự phát triển đoạn văn(paragraph development) và bố cục văn bản (organization) Trong giới hạn nghiêncứu các YTNN ảnh hưởng đến văn phong của VB và theo hướng định lượng, họchọn lọc ra 82 yếu tố (elements) đóng vai trò là “các chỉ tố tiềm năng” (potentialindicators) ảnh hưởng đến ĐKVB Trong đó có các YTNN được xem xét ở các
phương diện “Từ” (Words), “Câu” (Sentences), “Đoạn/ Trích đoạn” (Pharagraphs
or Entire Selections) Và mỗi phạm vi lại được xem xét trên nhiều phương diện khácnhau về các YTNN bề mặt và các YTNN bề sâu
Tuy nhiên, với mục đích nghiên cứu thực nghiệm và giới hạn của đề tài là xácđịnh các YTNN bằng phương pháp liệt kê các hằng số theo hướng định lượng(quantitative enumeration), họ đã chọn lọc được 64 YTNN từ 82 YTNN được đề cập
ở trên, trong đó, 18 YTNN (không được đánh dấu * trong phụ lục 4) không đượctuyển chọn cho việc phân tích sâu hơn trong nghiên cứu của họ vì những lý do sau:(1) Các yếu tố này không đáp ứng được cho các tiến trình thực nghiệm;
(2) Chưa xác định được định nghĩa cụ thể cho từng yếu tố này;
(3) Các yếu tố này không thể đo/đếm một cách khách quan trong phần lớn cáctrường hợp phân tích ngữ liệu
Chẳng hạn, khi đưa ra định nghĩa “từ có đặc trưng gắn liền với đời sống củangười lớn” (words associated with adult living), hai tác giả không thể giải thích nóvới các quan điểm về đối tượng (objectives), hoạt động (activities), quan điểm(attitudes),v.v và với việc khái quát hóa chúng Chính vì vậy, họ không thể địnhnghĩa rõ ràng được yếu tố này và đã loại yếu tố này ra khỏi phạm vi nghiên cứu Bêncạnh việc có thể xác định đặc điểm chính xác thì yếu tố này cũng phải thỏa mãn điềukiện đo/ đếm một cách khách quan trong phần lớn các tiến trình thực nghiệm, chẳnghạn như khi có khái niệm “từ dễ” (easy words) thì từ phải thỏa mãn điều kiện là từđơn tiết (monosyllables) và nghĩa của nó phải được sử dụng phổ biến (establisheduniversally) Vì vậy, khi nghi ngờ tính khách quan trong việc đo/đếm một yếu tố nàothì họ phải thực hiện việc đếm/đo lại các yếu tố này trong một tài liệu đọc và so sánh