Một số lượng lớn các yếu tố đã biết có thể ảnh hưởng đến tính dễ nhìn.Trong ngôn ngữ hàng ngày, tính dễ nhìn thường được sử dụng như một từ đồng nghĩa với khả năng đọc.. Các ứng dụng của
Trang 1BÁO CÁO MÔN HỌC XỬ LÝ NGÔN NGỮ TỰ NHIÊN
ĐỘ KHÓ VĂN BẢN Giảng viên: PGS.TS Đinh Điền
NHÓM 10
Danh sách thành viên:
1 Nguyễn Duy Minh Khôi 20C29027 ndminhkhoi46@gmail.com
2 Dương Quốc Đạt 20C29019 dat181197@gmail.com
3 Trần Duy Khang 20C29025 dktran.et@gmail.com
Trang 2I Giới thiệu: 2
Trang 3● Khả năng đọc hiểu ở một khoảng cách nhất định
● Khả năng đọc hiểu trong tầm nhìn ngoại vi
2 Những khái niệm dễ nhầm lẫn
● Legibility – Tính dễ nhìn
Tính dễ nhìn là sự dễ dàng mà người đọc có thể giải mã các ký hiệu Ngoài ngôn ngữ viết, nó cũng có thể đề cập đến hành vi hoặc kiến trúc, chẳng hạn Dưới góc độ nghiên cứu
Trang 4truyền thông , nó có thể được mô tả như là một thước đo tính thẩm thấu của một kênh truyền thông Một số lượng lớn các yếu tố đã biết có thể ảnh hưởng đến tính dễ nhìn.
Trong ngôn ngữ hàng ngày, tính dễ nhìn thường được sử dụng như một từ đồng nghĩa
với khả năng đọc Trong thiết kế đồ họa, tuy nhiên, tính dễ nhìn thường được phân biệt với độ
khó văn bản Độ khó văn bản là sự dễ dàng mà người đọc có thể theo dõi và hiểu các từ, câu vàđoạn văn Trong khi độ khó của văn bản thường đề cập đến sự rõ ràng trực quan của các ký hiệuriêng lẻ, tính dễ nhìn lại liên quan đến sự sắp xếp của chúng hoặc thậm chí là sự lựa chọn các từ.Tính dễ nhìn là một thành phần của độ khó văn bản
● Reading comprehension – Khả năng đọc hiểu
Khả năng đọc hiểu là kỹ năng đọc được chữ viết và thẩm thấu nội dung văn bản
3 Các ứng dụng của độ khó văn bản
Một số ứng dụng của độ khó văn bản bao gồm:
● Lựa chọn tài liệu để dùng trong sách giáo khoa
● Hiệu chỉnh ngôn ngữ dùng trong sách trẻ em
● Thúc đẩy quá trình học tập
● Giúp tăng số lượng đọc giả cho các nhà xuất bản sách, báo
● Kiểm soát độ khó cho các văn bản hành chính, giúp tiết kiệm thời gian và ngân sáchcho các công ty
II Các giai đoạn phát triển của độ khó văn bản:
● The origins (1880-1930): Là giai đoạn hình thành những nghiên cứu ban đầu Người
ta đi tìm tìm những yếu tố gây ra tính khó đọc của một cuốn sách đối với một nhómngười cụ thể
Trang 5Một trong những mục tiêu ban đầu của các nghiên cứu Readability là nhằm phát triển ramột phương pháp có thể chọn ra tài liệu đọc phù hợp với khả năng đọc của từng người và nângcao chất lượng giáo dục Những ứng dụng ban đầu của thống kê vào phân tích độ khó văn bản.Vào năm 1923, Bertha A Lively và Sidney L Pressey cho ra dời công thức đầu tiên để đo lường
độ khó văn bản Đây là công thức đầu tiên sử dụng các yếu tố từ vựng như số từ duy nhất hay tần
số từ Các nghiên cứu thời kì này chủ yếu xác định độ khó văn bản dựa trên từ vựng và cú pháp
● Classic Period (40-60): Sự ra đời của những công thức về đo lường độ khó đầu tiên.Các công thức thường được xây dựng nhờ vào thống kê và tận dụng các yếu tố liênquan đến tính chất từ vựng và cú pháp
Khi việc nghiên cứu ngày càng phát triển hơn và các công thức tính toán độ khó ngàycàng trở nên phức tạp hơn, việc sử dụng nhiều biến hơn để giải thích là không thể tránh khỏi Ởgiai đoạn này, các nghiên cứu về độ khó văn bản lại tìm kiếm những công thức có tính đơn giản
và hiệu quả hơn bởi 2 lý do sau:
- Nhiều biến dự đoán đã được đề ra để giải thích cho độ khó văn bản nhưngngười ta phát hiện ra có sự xuất hiện của hiện tượng đa cộng tuyến giữachúng
- Hầu hết các tính toán vẫn là thủ công, một công thức dễ dàng sẽ giúp việc tínhtoán được thực hiện nhanh hơn
● Structuro-cognitivitst period (70-80): Khi con người ta bắt đầu xét đến những khíacạnh khác của văn bản (liên kết, cấu trúc, suy luận…) vào việc tính toán độ khó
Do ảnh hưởng của thuyết kiến tạo trong giáo dục nên góc nhìn của các nghiên cứu vượt
ra khỏi mức độ từ và câu, hướng trọng tâm về con người thay vì văn bản Tính đến các quá trình
Trang 6tinh thần như là trí nhớ, hiểu biết, kiến thức người đọc (các yếu tố nhận thức) Trong ngôn ngữhọc, tập trung hơn vào tính liên kết, mạch lạc và ngữ pháp văn bản (các yếu tố cấu trúc).
Ngoài ra có những phê bình đối với các hướng nghiên cứu cổ điển như: Độ khó văn bảncần phải nghiên cứu sâu hơn thay vì chỉ trên câu, từ (các biến hình thức bên ngoài) Hầu hết cácnghiên cứu giai đoạn này hướng đến: tổ chức văn bản, liên kết, găn kết văn bản, cấu trúc tu từ…Nhưng các đặc trưng liên quan đến từ vựng, cú pháp vẫn thể hiện trọng số lớn trong mô hình dựđoán độ khó
● AI Readability (90-nay): Các đặc tính ngôn ngữ mới được tìm thấy bởi các công cụNLP tiên tiến và ứng dụng trong các thuật toán thống kê phức tạp Đâu là thời kì củaứng dụng Machine Learning trong độ khó văn bản
Những công cụ xử lý ngôn ngữ tự nhiên mạnh mẽ ra đời được ứng dụng trong việc tham
số hoá các đặc trưng, nhanh và dễ dàng hơn Sử dụng nhiều hơn các predictors trong mô hình dựđoán Độ khó văn bản được định nghĩa là một bài toán phân loại và ứng dụng những phươngpháp ML hiện đại nhất để giải quyết Mô hình sử dụng đa dạng hơn các biến từ từ vựng, cú phápcho đến ngữ nghĩa, diễn ngôn, nhận thức, liên kết Dựa trên các mô hình được nghiên cứu trước
đó, nâng cao và đưa vào các mô hình học máy Ứng dụng công cụ NLP như phân tích cú pháp,
sử dụng các features này vào mô hình như SVM
III Một số công thức tính độ khó văn bản nổi tiếng
1 Công thức Flesch-Kincaid
Vào năm 1943, Rudolf Flesch đã xây dựng nên một công thức tính độ khó văn bản dùng
để dự đoán độ khó của tài liệu đọc dành cho người lớn Một trong những biến được xét đến là
Trang 7tham chiếu cá nhân (personal references), chẳng hạn như tên và đại từ nhân xưng Một biến khác
là các phụ tố (affixes)
Năm 1948, ông công bố công thức Reading Ease bao gồm hai phần Thay vì sử dụng cáccấp độ lớp (grade levels), công thức được chuyển sang thang điểm từ 0 đến 100, với 0 tươngđương với lớp 12 và 100 tương đương với lớp 4 Công thức đã loại bỏ đi việc xử dụng phụ tố(affixes) Phần thứ hai của công thức dự đoán sự quan tâm của người đọc bằng cách sử dụng cáctham chiếu cá nhân và số lượng câu cá nhân Công thức mới này có độ tương quan 0.70 với cácbài kiểm tra đọc McCall-Crabbs Công thức ban đầu được định nghĩa như sau:
Reading Ease score = 206,835 - (1,015 × ASL) - (84,6 × ASW)
Trong đó: ASL = độ dài trung bình của câu (số từ chia cho số câu)
ASW = độ dài từ trung bình tính bằng âm tiết (số âm tiết chia cho số từ)
Các nhà xuất bản phát hiện ra rằng công thức Flesch có thể tăng lượng độc giả lên đến 60phần trăm Công việc của Flesch cũng tạo ra một tác động to lớn đối với ngành báo chí Côngthức Flesch Reading Ease đã trở thành một trong những thước đo khả năng đọc được sử dụngrộng rãi, được thử nghiệm và đáng tin cậy nhất Năm 1951, Farr, Jenkins và Patterson đã đơngiản hóa công thức hơn nữa bằng cách thay đổi số lượng âm tiết Công thức đã sửa đổi là:
Điểm dễ đọc mới = 1.599nosw - 1.015sl - 31.517
Trong đó: nosw = số từ một âm tiết trên 100 từ và
sl = độ dài câu trung bình tính bằng từ
Vào năm 1975, trong một dự án do Hải quân Hoa Kỳ tài trợ, công thức Reading Ease đãđược tính toán lại để cho điểm cấp lớp Công thức mới hiện được gọi là công thức cấp lớp Flesch– Kincaid Công thức Flesch – Kincaid là một trong những công thức phổ biến nhất và được thử
Trang 8nghiệm nhiều Nó tương quan 0,91 với khả năng đọc hiểu (comprehension) được đo bằng các bàikiểm tra đọc.
2 Công thức Dale-Chall
Công thức được xây dựng bởi giáo sư giáo dục Edgar Dale, một trong những nhà phêbình đầu tiên về danh sách tần suất từ của Thorndike (Thorndike's vocabulary-frequency lists).Ông tuyên bố rằng họ không phân biệt được các ý nghĩa khác nhau mà nhiều từ có Ông ấy đãtạo ra hai danh sách mới của riêng mình Một, "danh sách ngắn" gồm 769 từ đơn giản, đượcIrving Lorge sử dụng trong công thức của mình Cuốn còn lại là "danh sách dài" 3.000 từ dễ hiểucủa ông, được 80% học sinh lớp 4 hiểu được Tuy nhiên, người ta phải mở rộng danh sách từbằng danh từ số nhiều thông thường, dạng thông thường của thì quá khứ của động từ, dạng tăngdần của động từ, v.v Năm 1948, ông kết hợp danh sách này vào một công thức mà ông đã pháttriển cùng với Jeanne S Chall, người sau này thành lập Phòng thí nghiệm Đọc Harvard
Công thức được thực hiện theo các bước sau:
1 Chọn một số mẫu 100 từ trong suốt văn bản
2 Tính độ dài trung bình của câu bằng từ (chia số từ cho số câu)
3 Tính tỷ lệ phần trăm các từ KHÔNG có trong danh sách 3.000 từ dễ hiểu của Dale– Chall
4 Tính toán phương trình này từ năm 1948:
Raw score = 0.1579*(PDW) + 0.0496*(ASL) nếu phần trăm PDW nhỏ hơn 5%,nếu không thì tính
Raw score = 0.1579*(PDW) + 0.0496*(ASL) + 3.6365với:
Trang 9Raw score = điểm đọc chưa được hiệu chỉnh của một học sinh có thể trả lời mộtnửa số câu hỏi của bài kiểm tra trên một đoạn văn.
PDW = Tỷ lệ phần trăm các từ khó không có trong danh sách từ Dale – Chall.ASL = Độ dài câu trung bình
Cuối cùng, để bù cho "grade-equivalent curve", áp dụng bảng sau cho Điểm cuối cùng:
Với độ tương quan 0.93 với khả năng đọc hiểu (comprehension) được đo bằng các bàikiểm tra đọc, công thức Dale-Chall là công thức được tin cậy nhất và được xử dụng rộng rãitrong lĩnh vực nghiên cứu
Vào năm 1995, Dale và Chall đã xuất bản một phiên bản mới của công thức của họ vớimột danh sách từ được cập nhật, công thức độ khó văn bản mới như sau:
Raw score = 64 - 0.95 *(PDW) - 0.69 *(ASL)
3 Công thức Gunning fog
Vào những năm 1940, Robert Gunning đã giúp đưa nghiên cứu về khả năng đọc vào nơilàm việc Năm 1944, ông thành lập công ty tư vấn về khả năng đọc đầu tiên dành riêng cho việcgiảm "sương mù" trong báo chí và kinh doanh Năm 1952, ông xuất bản “Technique of Clear
Trang 10Writing” với chỉ số Fog Index, một công thức có độ tương quan 0,91 với khả năng hiểu được đobằng các bài kiểm tra đọc [9] Công thức là một trong những công thức đáng tin cậy nhất và đơngiản nhất để áp dụng:
Grade level= 0.4 * ( (average sentence length) + (percentage of Hard Words) )
với: Hard Words = các từ có nhiều hơn hai âm tiết
4 Biểu đồ Fry - (Fry readability graph)
Độ khó văn bản được tính bằng số câu trung bình trên 100 từ (trục y) và số âm tiếttrung bình trên 100 từ (trục x) Các điểm này lần lượt được vẽ lên đồ thị ở bên trên.Các đường thẳng cắt đường cong và tách thành các vùng có độ tương ứng với từ 1đến 15 Các điểm được vẽ trong vùng nào thì được xem như có độ khó xấp xỉ vớivùng đó Fry là công thức thường được sử dụng trong y tế, thư viện vì đơn giản vàthuận tiện đối với nhiều người
5 Công thức McLaughlin SMOG
G Harry McLaughlin đề xuất công thức “SMOG Readability Formula” vào năm 1969
thông qua một bài báo của ông, SMOG Grading – A New Readability Formula đăng trên tạp chí
Journal of Reading Công thức độ khó SMOG ước lượng số năm học tập cần thiết để một người
Trang 11có thể hiểu được một phần văn bản McLaughlin tạo ra công thức này như là một sự cải tiến đốivới các công thức xác định độ khó văn bản khác.
Các bước tính toán trong công thức SMOG là như sau:
Bước 1: Đưa vào toàn bộ văn bản
Bước 2: Lấy 10 câu liên tiếp ở gần đầu tiền, 10 câu ở giữa và 10 câu cuối văn bản
Bước 3: Đếm tất cả những từ có 3 âm tiết trong mỗi nhóm câu trong bước 2 Xét cả trường hợp
từ được lặp lại trong nhóm
Bước 4: Tính căn bậc 2 của số có được từ bước 3 sau đó làm tròn đến gần 10 nhất
Bước 5: Công thêm 3 vào kết quả của bước 4 để có được SMOG Grade, chính là cấp học mà mộtngười phải đạt được để hiểu toàn bộ văn bản đưa ra
SMOG grade = 3 + Square Root of Polysyllable CountCông thức SMOG được coi là phù hợp cho độc giả lứa tuổi trung học
Đối với trường hợp văn bản ngắn hơn 30 câu, công thức SMOG được điều chỉnh như sau:
1 Đếm toàn bộ từ đa âm tiết trong văn bản
2 Đếm số câu trong văn bản
3 Tính từ đa âm tiết trung bình trên câu bằng cách lấy kết quả (1) chia cho kết quả của (2)
4 Nhân kết quả từ (3) với 30
5 Cộng số có được với tổng số từ đa âm tiết
6 Tra bảng chuyển đổi SMOG
SMOG Conversion Table Total Polysyllabic Word
Count Approximate Grade Level (+1.5 Grades)
Trang 12Công thức như sau:
Grade level = 20 − (N / 10)
Where N = number of single-syllable words in a 150-word sample
Trang 13Công thức này, không như các công thức khác, không dựa trên câu hoàn chỉnh mà chỉ sửdụng một yếu tố từ vựng Ngoài ra nó cũng không thiết kế cho mục đích phân tích tài liệuhọc đường.
FORCAST là một giải pháp tốt cho các tài liệu kĩ thuật như tài liệu hướng dẫn đào tạo,câu hỏi khảo sát, biểu mẫu, bài kiểm trắc nghiệm Bởi tính dễ sử dụng, công thức này đãgiúp quân đội Mỹ cải thiện tính dễ đọc trong tài liệu của mình Không quân Hòa Kỳchính thức phê duyệt công thức này vào cuối 1970 Đề xuất cho những người viết kĩthuật, soạn thảo bảng câu hỏi khảo sát…là đặt mục tiệu FORCAST grade là 9-10 chovăn bản của mình
IV Bài toán độ khó văn bản với hướng tiếp cận sử dụng trí tuệ nhân tạo
Ba thành phần quan trọng của mọi mô hình Machine learning bao gồm Kho ngữ liệu, các đặctrưng và mô hình Text readability cũng không phải ngoại lệ
1 Các bộ ngữ liệu phổ biến:
a Weebit: 3125 bài báo giáo dục từ các website Weekly Reader và BBC-Bitesize vàđược chia ra thành 5 mức độ khó tương ứng với số tuổi từ 7 đến 16 tuổi Đây là bộngữ liệu thường được sử dụng trong các nghiên cứu readability có sử dụng ngữ liệu
b Newsela: hàng ngàn bài báo tin tức được các chuyên viên biên tập tại Newsela phânloại thành các mức độ khác nhau Đây là ngữ liệu thường được sử dụng trong cácnghiên cứu đơn giản hóa văn bản Nhưng cũng thường được dùng trong đo độ khóvăn bản
Trang 142 Các đặc trưng thường được sử dụng trong các mô hình độ khó văn bản:
Trong lịch sử của quá trình nghiên cứu độ khó văn bản, các phương pháp đánh giá đầu tiên đượcxây dựng từ những năm đầu của thế kỉ trước Ban đầu các nhà nghiên cứu đánh giá độ khó dựatrên các yếu tố mang tính chất hình thức bên ngoài của văn bản như trung bình độ dài từ theo ký
tự, trung bình độ dài câu theo từ Các đặc trưng này được phân tích định lượng tương đối dễ thựchiện nhưng lại chưa tính đến các khía cạnh khác của văn bản Giai đoạn sau này, nhiều đặc điểmngôn ngữ khác được đưa vào mô hình dự đoán độ khó như các đặc điểm về từ vựng, cú pháp,tính mạch lạc diễn ngôn, và cấu trúc văn bản Một hướng tiếp cận đáng chú ý khác là xem xétviệc đọc văn bản như là một quá trình nhận thức, nhiều nghiên cứu đã đề xuất xác định độ khóvăn bản dựa trên quá trình nhận thức trong việc đọc và tương tác giữa người đọc và nội dung vănbản Thực nghiệm cho thấy các đặc điểm features của văn bản có ảnh hưởng rất lớn trong việc đolường, dự đoán độ khó văn bản Thậm chí kết quả thực nghiệm kết luận rằng features được xácđịnh tốt ảnh hưởng nhiều hơn cả việc chọn mô hình Machine Learning phù hợp Một mô hìnhcho dù rất tốt, đáng tin cậy nhưng nếu thông tin các features đều không có ý nghĩa sẽ không thểcho kết quả tin cậy
a Khía cạnh từ vựng, ngữ nghĩa:
Văn bản ở một góc nhìn nào đó là tập hợp các từ vựng Do đó, các đặc tính về từ vựng có ảnhhưởng lớn đến độ khó văn bản Ví dụ: một cách tự nhiên thì văn bản có quá nhiều từ khó đọc,khó hiểu sẽ làm người đọc khó nắm bắt được ý nghĩa hơn, tức là độ khó văn bản tăng lên
Thông thường, các đặc trưng từ vựng được dùng trong xác định độ khó văn bản bao gồm từ loại
và độ dài từ, độ da dạng từ, độ khó của từ, cụ thể như sau:
● Số âm tiết trung bình trên một từ
Trang 15● Tỷ lệ số từ nằm ngoài bộ ngữ liệu trên tổng số từ trong ngữ liệu.
● Tỷ lệ số token riêng biệt trên tổng số token
● Tỷ lệ số từ hư trên tổng số từ trong ngữ liệu
● Tỷ lệ số đại từ trên tổng số từ trong ngữ liệu
● Chỉ số Perplexity của mô hình ngôn ngữ
● Mức độ dạng từ vựng (đối với các mô hình ứng dụng cho người đọc L2)
● Tần số từ phổ biến
b Khía cạnh cú pháp:
Độ phức tạp hay đơn giản trong cú pháp văn bản rõ ràng có sự ảnh hưởng lớn đối với độ khó vănbản Cụ thể là tương quan đối với nhân tố thời gian xử lý để hiểu văn bản Một văn bản vớinhững cấu trúc cú pháp quá phức tạp sẽ làm tăng độ khó văn bản lên nhiều Ngoài ra thì nếu cúpháp câu không tuân theo ngữ pháp chuẩn cũng có tác động giảm mức độ dễ đọc của văn bản Sự
ra đời của các giải thuật phân tích cây cú pháp đã hỗ trợ rất lớn trong việc trích xuất đặc trưng cúpháp văn bản
Các đặc trưng về cú pháp thường thấy trong các nghiên cứu gồm có:
● Chiều dài trung bình của câu
● Chiều cao trung bình của cây phân tích cú pháp
● Số cụm danh từ trung bình trong một câu
● Số cụm động từ trung bình trong một câu
● Số cụm giới từ trung bình trên một câu
● Số lượng trung bình các mệnh đề phụ thuộc trên mỗi câu
● Tỉ lệ câu có phân tích cú pháp bị khuyết (incomplete parse)