1. Trang chủ
  2. » Giáo Dục - Đào Tạo

TIỂU LUẬN môn xử lý NGÔN NGỮ tự NHIÊN ĐÁNH GIÁ độ KHÓ văn bản BẰNG MACHINE LEARNING

25 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 1,59 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sự thành công là mức độ độc giả hiểu, đọcvăn bản với tốc độ tối ưu và thấy thu hút.” 1.3 Các giai đoạn nghiên cứu độ khó văn bản 1.3.1 Thời kỳ cổ điển Mục đích đầu tiên của các nghiên cứ

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

TIỂU LUẬN MÔN XỬ LÝ NGÔN NGỮ TỰ NHIÊN

ĐÁNH GIÁ ĐỘ KHÓ VĂN BẢN BẰNG MACHINE LEARNING

GVHD: PGS TS ĐINH ĐIỀN

Tp Hồ Chí Minh - 2021

Trang 2

Mục lục

1.1 Đặt vấn đề 2

1.2 Định nghĩa 2

1.3 Các giai đoạn nghiên cứu độ khó văn bản 2

1.3.1 Thời kỳ cổ điển 2

1.3.2 Thời kỳ hiện đại 4

1.3.3 Thời kỳ đánh giá độ khó văn bản bằng máy tính 7

1.4 Tiêu chuẩn đánh giá độ khó văn bản 8

1.5 Ứng dụng của đánh giá độ khó văn bản tự động 8

2 Các đặc trưng đánh giá độ khó văn bản tự động 12 2.1 Đặc trưng về từ vựng 12

2.2 Đặc trưng về cú pháp 12

2.3 Đặc trưng về diễn ngôn 13

2.4 Các tính năng ổn định đọc sử dụng mô hình ngôn ngữ thống kê 13

2.5 Đặc trưng dựa trên từ loại 13

3 Machine Learning 14 3.1 Logistic Regression 14

3.2 Linear Discriminant Analysis 15

4 Support Vector Machine 17 4.1 Maximal Margin Classifer 17

4.2 Support Vector Classifier 18

4.3 Support Vector Machine 19

4.3.1 Phân loại ranh giới quyết định phi tuyến 19

4.3.2 Support Vector Machine 21

4.4 Áp dụng SVM đánh giá độ khó văn bản 22

Trang 3

và thông tin trên internet được tăng lên theo cấp số nhân, việc lựa chọn thông tin quan tâm theo

độ khó thích hợp cũng trở thành thách thức

1.2 Định nghĩa

Độ khó văn bản là một thông số quan trọng đã được triển khai trên các công cụ tìm kiếm Độkhó văn bản giúp công cụ có thể truy xuất văn bản cấp độ thích hợp trên các website Độ khó vănbản là điều làm cho một số văn bản trở nên dễ đọc hơn các văn bản khác

George Klare (1963) định nghĩa độ khó văn bản là việc đọc hiểu một cách dễ dàng do văn phongviết Định nghĩa này tập trung vào văn phong tách biệt với các đặc trưng khác như nội dung, bốcục và tính mạch lạc Tương tự, Gretchen Hargis và cộng sự tại IBM (1998) tuyên bố rằng độ khóvăn bản – việc dễ dàng đọc hiểu từ và câu – là một thuộc tính rõ ràng

G Harry McLaughlin là người tạo ra công thức đo độ khó văn bản SMOG (1969) định nghĩa độkhó văn bản là mức độ của một nhóm độc giả nhất định cảm thấy dễ dàng trong việc đọc hiểu vănbản Đinh nghĩa này nhấn mạnh sự tương tác giữa một lớp độc giả và văn bản, cụ thể là kỹ năngđọc, kiến thức trước đây và động lực Theo Edgar Dale và Janne Chall (1949), định nghĩa của độkhó văn bản được xem là toàn diện nhất: “Tổng (bao gồm tương tác) các yếu tố khi các văn bảnảnh hưởng đến sự thành công của một nhóm độc giả Sự thành công là mức độ độc giả hiểu, đọcvăn bản với tốc độ tối ưu và thấy thu hút.”

1.3 Các giai đoạn nghiên cứu độ khó văn bản

1.3.1 Thời kỳ cổ điển

Mục đích đầu tiên của các nghiên cứu về độ khó cổ điển là phát triển các phương pháp thực

tế phù hợp với khả năng đọc hiểu của học sinh và người lớn Các nghiên cứu bắt đầu vào cuối thế

kỷ 19 và kết thúc vào những năm 1940, phổ biến là công trình về công thức Flesch và Dale-Chall

Trang 4

Trong thời kỳ này, các nhà xuất bản, nhà giáo cục và giáo viên đã quan tâm đến việc phát hiện racác phương pháp thưc tế để tìm ra văn bản phù hợp với độc giả, người lớn và học sinh Các côngthức đánh giá độ khó văn bản ở thời kỳ này dựa trên hồi quy tuyến tính và hầu hết sử dụng haichỉ số từ vựng và cú pháp.

Công thức đo độ khó văn bản đầu tiên được phát triển bởi Bertha A Lively và Sidney L.Pressey (1923) tập trung vào ba đặc trưng: số lượng từ khác nhau, tỷ lệ không có trong danh sáchThorndike, xếp hạng tần số xuất hiện của các từ trong danh sách Họ thử nghiệm trên 11 cuốn sáchgiáo khoa với độ khó khác nhau và nhận thấy rằng chỉ số trung bình là chỉ số tốt nhất về từ vựngcủa các văn bản này: tần số càng cao, từ vựng càng dễ hiểu, tần số càng thấp, từ vựng càng khóhiểu Nghiên cứu này của Lively-Pressey có ảnh hưởng lớn đến các nghiên cứu về độ khó văn bảnsau đó

Đánh giá công thức ban đầu để dự đoán khả năng đọc dựa vào các đặc trưng bề mặt, chẳnghạn như độ dài từ trung bình hoặc độ dài câu trung bình

Công thức độ dễ đọc của Rodoft Flesch (1949)

Công thức đánh giá độ dễ đọc của Flesch là một cách tiếp cận đơn giản để đánh giá trình độcủa người đọc Đó cũng là một trong số ít thước đo chính xác mà được sử dụng mà không cần xemxét quá kỹ lưỡng Công thức này được sử dụng tốt nhất trên các văn bản giáo dục Kể từ đó, côngthức của Flesch đã trở thành một tiêu chuẩn được sử dụng bởi nhiều Cơ quan Chính phủ Hoa Kỳ,bao gồm Bộ Quốc phòng Hoa Kỳ

RE = 206.835 − (1.015 × ASL) − (84.6 × ASW )Trong đó:

ˆ RE: Độ dễ đọc

ˆ ASL: Độ dài câu trung bình (nghĩa là số từ chia cho số câu

ˆ ASW: Số âm tiết trung bình trên mỗi từ (số âm tiết chia cho số từ)

Kết quả - RE - nằm trong khoảng từ 0 đến 100, điểm càng cao nghĩa là văn bản càng dễ đọc

ˆ Điểm từ 90,0 đến 100,0 được xem là dễ hiểu với học sinh lớp 5

ˆ Điểm từ 60,0 đến 70,0 được xem là dễ hiểu với học sinh lớp 8 và lớp 9

ˆ Điểm từ 0,0 đến 30,0 được xem là dễ hiểu với sinh viên tốt nghiệp đại học

Công thức đánh giá độ khó văn bản của Dale-Chall (1948)

Dale và Chall đã tạo ra công thức Dale-Chall với mục đích cải thiện công thức đánh giá độ dễđọc của Flesch Công thức của Dale-Chall không giống với những công thức khác sử dụng độ dàicủa từ để đánh giá độ khó của từ mà sử dụng tần số xuất hiện của từ khó Công thức tính toán cấp

độ khó dựa trên dộ dài và số từ khó những từ khó này là những từ không xuất hiện trong danhsách các từ thông dụng được thiết kế cho hầu hết cho học sinh lớp 4

RS = 0, 1579 × P DW + 0, 0496 × ASLTrong đó:

ˆ RS: Điểm đọc thô của một người có thể hiểu văn bản từ lớp 3 trở xuống

Trang 5

ˆ PDW: Phần trăm các từ khó

ˆ ASL: Độ dài câu trung bình tính bằng từ

Nếu (PDW) lớn hơn 5%, thì:

ˆ Điểm đã điều chỉnh = Điểm thô + 3,6365, nếu không thì điểm được điều chỉnh = Điểm thô

ˆ Điểm đã Điều chỉnh = Điểm đọc của một người đọc có thể hiểu văn bản của bạn ở lớp 4 trởlên

Dale và Chall cũng đã công bố bảng điểm sau để điều chỉnh trình đô các cấp cao hơn

4,9 trở xuống Lớp 4 trở xuống5,0 - 5,9 Lớp 5 - 66,0 - 6,9 Lớp 7 - 87,0 - 7,9 Lớp 9 - 108,0 - 8,9 Lớp 11 - 129,0 - 9,9 Lớp 13 - 15

10 trở lên Lớp 16 trở lên (Đại học)Bảng 1.1: Bảng độ khó văn bản Dale-Chall

1.3.2 Thời kỳ hiện đại

Các phát triển mới bắt đầu vào năm 1950 và đã được củng cố và nghiên cứu sâu hơn Các nhànghiên cứu đã tìm ra các phương pháp hoạt động của công thức đo độ khó và cách cải thiện cáccông thức đó

Trong những năm 1950, một số phát triển khác đã thúc đẩy nghiên cứu về độ khó văn bản.Những thách thức của Spunil và công nghệ mới đòi hỏi trình độ đọc hiểu cao hơn của người laođộng Các ngành công nghiệp cũ đòi hỏi ít nhân viên có trình độ cao, trong khi đó công nghệ mớiđòi hỏi người lao động có trình độ cao hơn

Các nghiên cứu mới về độ khó văn bản tập trung vào các đặc trưng sau:

ˆ Cộng đồng các học giả: Các bản tóm tắt định kỳ về tiến trình nghiên cứu về độ khó văn bản(Klare 1952, 1963, 1974-75, 1984, Chall 1958, và Chall và Dale 1995) đề cập đến một cộngđồng các học giả Họ đã quan tâm đến cách thức và nguyên nhân các công thức hoạt động,cách cải thiện, và đưa ra quan điểm về không chỉ về đọc và còn về viết

ˆ Kiểm tra cloze: được giới thiệu bởi Wilson Taylor (1953), đưa ra phương pháp giúp các nhànghiên cứu kiểm tra thuộc tính của văn bản và độc giả ở độ chính xác và chi tiết hơn Bàikiểm tra Cloze là một bài tập, bài kiểm tra hoặc bài đánh giá bao gồm một phần văn bản cócác từ nhất định bị loại bỏ, trong đó người kiểm tra yêu cầu người tham gia điền khuyết các

từ bị thiếu Các bài kiểm tra cloze yêu cầu người tham gia hiểu ngữ cảnh và từ vựng để xácđịnh các từ chính xác thuộc các đoạn văn bị xóa

ˆ Khả năng đọc, trình độ có sẵn, mối quan tâm và động lực: các nghiên cứu xem xét cách thức

mà biến người đọc ảnh hưởng đến độ khó văn bản

Trang 6

ˆ Hiệu quả đọc: Trong khi các nghiên cứu khác xem xét tác dộng của độ khó văn bản đến sựđọc hiểu, những nghiên cứu này đã xem xét tác động lên tốc độ và sự kiên nhẫn khi đọc vănbản

ˆ Đo lường nội dung: sự ảnh hưởng của tâm lý học nhận thức và ngôn ngữ học những năm 1980

đã thúc đẩy các nghiên cứu về nhận thức và cấu trúc câu trong văn bản và sử dụng để dựđoán độ khó văn bản

ˆ Đồng nhất văn bản: lý thuyết nhận thức và ngôn ngữ đã thúc đẩy mối quan tâm đến đánhgiá định tính và chủ quan độ khó văn bản Với sự đào tạo, đồng nhất văn bản có hiệu quảtrong việc đánh giá các đặc trưng của văn bản mà không đánh giá được bằng các công thức

đo độ khó văn bản

ˆ Sản xuất và chuyển đổi văn bản: một số nghiên cứu đã kiểm tra hiệu quả của việc sử dụngcác biến công thức để soạn thảo và sửa đổi văn bản Khi độc giả tham gia vào việc sản xuấtnội dung, cách tổ chức và sự mạch lạc, sử dụng các biến dễ đọc có thể hiệu quả trong việc sảnxuât và chuyển đổi văn bản dddessn một cấp độ khác

ˆ Công thức mới đo độ khó văn bản: các nghiên cứu sâu hơn về độ khó văn bẳn của JohnBormuth và những nhà nghiên cứu khác đã xem xét độ tin cậy của một loạt các biến văn bản

có thể đánh giá Sự ra đời của kiểm tra cloze đã thúc đẩy sử phát triển các tiêu chí mới, côngthức mới, và các phiên bản có can thiệp của công nghệ

ˆ Sự khác biệt về công thức: Sự khác biệt giữa các kết quả của những công thức khác nhau vàcách người viết áp dụng công thức

Một số công thức đánh giá độ khó văn bản thời kỳ này

Công thức đo độ khó văn bản FOG của Gunning

Công thức độ khó văn bản chỉ số Gunning Fog, hay gọi đơn giản là Chỉ số FOG, do nhà xuấtbản sách giáo khoa người Mỹ, Robert Gunning

Các bước thực hiện để áp dụng công thức:

Bước 1: Chọn một đoạn văn bản mẫu gồm ít nhất 100 từ và đếm chính xác số từ và số câu.Bước 2: Chia tổng số từ trong đoạn văn cho số câu để tính được độ dài câu trung bình (ASL)

Bước 3: Đếm số lượng các từ có ba âm tiết trở lên không phải là (i) danh từ riêng, (ii) tổ hợpcác từ ghép hoặc các từ có dấu gạch nối, hoặc (iii) các động từ có hai âm tiết thêm hậu tố -es hoặc -ed

Bước 4: Chia số này cho số các từ trong đoạn văn mẫu Ví dụ: 25 từ dài chia cho 100 từ sẽ cho25% từ khó (PHW)

Bước 5: Thêm ASL từ Bước 2 và PHW từ Bước 4

Bước 6: Nhân kết quả với 0,4

Công thức toán học là:

Grade = 0, 4 × (ASL + P HW )Trong đó:

Trang 7

Công thức độ khó văn bản đồ thị Fry

Hình 1.1: Đồ thị Fry ước tính trình độ đọc hiểu

Edward Fry đã phát triển một trong những công thức đánh giá độ khó văn bản có mức độ phổbiến hơn - Công thức độ khó văn bản đồ thị Fry Bài kiểm tra dựa trên đồ thị này xác định khảnăng đọc thông qua trình độ trung học; công thức này được thẩm định với các tài liệu từ các trườngtiểu học và trung học cũng như với kết quả của các công thức dễ đọc khác

Các bước thực hiện để áp dụng công thức:

Bước 1: Chọn ngẫu nhiên 3 mẫu văn bản 100 từ (loại bỏ các chữ số)

Bước 2: Đếm số câu trong cả ba đoạn văn 100 từ, ước tính phân số của câu cuối cùng chính xácđến 1/10

Bước 3: Đếm số lượng âm tiết trong cả ba đoạn văn 100 từ Sau đó, lập bảng như sau:

Bước 4: Nhập biểu đồ với độ dài câu trung bình và số lượng âm tiết Vẽ dấu chấm nơi hai đườnggiao nhau Khu vực các dấu chấm biểu thị cấp độ khó gần đúng của nội dung

Trang 8

Số câu Số âm tiếtĐoạn văn thứ nhất

Đoạn văn thứ haiĐoạn văn thứ baTổng

Trung bình

Bảng 1.2: Bảng tính Fry

Bước 5: Nếu quan sát có nhiều sự thay đổi, bạn có thể đưa nhiều số mẫu hơn vào giá trị trungbình

Công thức đánh giá độ khó văn bản SMOG

Công thức đánh giá độ khó SMOG, được phát triển bởi G Harry McLaughlin, ước tính số nămhọc mà một người cần để hiểu một đoạn văn bản McLaughlin đã tạo ra công thức này như một sựcải tiến so với các công thức dễ đọc khác

Các ước thực hiện khi áp dụng công thức:

Bước 1: Lấy toàn bộ văn bản cần kiểm tra

Bước 2: Đếm 10 câu liên tiếp ở gần đầu, 10 ở giữa và 10 ở cuối để có tổng số 30 câu

Bước 3: Đếm số từ có ba âm tiết trở lên trong mỗi nhóm câu, ngay cả khi một từ xuất hiệnnhiều hơn một lần

Bước 4: Tính căn bậc hai của số ở bước 3 và làm tròn nó đến gần 10 Thêm 3 vào công thức đểbiết cấp độ SMOG, tức là cấp độ đọc mà một người phải đạt được nếu anh ta muốn hiểu đầy đủvăn bản được đánh giá

Cấp độ SMOG = 3 + Căn bậc hai của số từ có nhiều âm tiếtMcLaughlin đã xác thực công thức của mình dựa trên các đoạn McCall-Crabbs, sử dụng tiêu chíđiểm đúng 100%, trong khi hầu hết các bài kiểm tra công thức đều cho khả năng hiểu khoảng 50%-75%

1.3.3 Thời kỳ đánh giá độ khó văn bản bằng máy tính

Ban đầu, đánh giá độ khó văn bản tự động đi kèm với việc đơn giản hóa các thực tế ngôn ngữ.Daoust và cộng sự (1996) sử dụng các công cụ NLP, ví dụ như P.O.S – tagger, để tham số hóa cácđặc trưng của văn bản Foltz và cộng sự (1998) đánh giá tính mạch lạc của văn bản dựa trên LatentSemantic Analysis (LSA) Si và Callan (2001) định nghĩa độ khó văn bản được như một bài toánphân loại và áp dụng các phương pháp máy học hiện đại nhất để nghiên cứu

Các xu hướng chính của đánh giá độ khó văn bản bằng máy tính: Collins-Thompson và Callan(2005) rút ra và cải thiện từ mô hình ngôn ngữ của Si và Callan (2001), nâng cao nó và kết hợptrong bộ phân loại Na¨ıve Bayes Schwarm và Ostendorf (2005) triển khai các biến cú pháp, dựa trêntrên luật phân tích cú pháp và kết hợp tất cả các đặc trưng vào mô hình Support Vector Machine

Trang 9

(SVM), tuy nhiên các đặc điểm về cú pháp không đóng góp nhiều vào mô hình này Heilman vàcộng sự (2007) nghiên cứu sự đóng góp của đặc trưng cú pháp và chứng minh rằng các đặc trưngnày quan trọng.

Trong khi các nghiên cứu đầu tiên tập trung vào từ vựng và cú pháp, thì cũng các công trìnhnghiên cứu khác cũng xem xét các biến ngữ nghĩa, diễn ngôn hoặc nhận thức Crossley và cộng sự,(2007) thiết kế công thức khả năng đọc hỗ trợ NLP đầu tiên kết hợp các chiều từ vựng, cú pháp vàliên kết, dựa trên Coh-Metrix Tuy nhiên, yếu tố liên kết không có ý nghĩa trong mô hình Pitler

và Nenkova (2008) công bố một mô hình đánh giá độ khó văn bản và công nhận có sự ảnh hưởngcủa một số yếu tố nhận thức đến mô hình này Tanaka-Ishii và cộng sự (2010) xem xét độ khó vănbản là một bài toán sắp xếp Vajjala và Mekers (2012) giới thiệu các biến SLA trong mô hình và

có độ chính xác phân loại rất cao trên Weekly Reader (93,3%)

1.4 Tiêu chuẩn đánh giá độ khó văn bản

Một số tiêu chuẩn đặt ra và được dùng để đánh giá độ khó văn bản:

ˆ Đánh giá của chuyên gia: sự đồng ý của một số chuyên gia ngôn ngữ học về cấp độ khó củavăn bản

ˆ Văn bản từ sách giáo khoa: biến thể của tiêu chuẩn đánh giá của chuyên gia, dựa vào các vănbản được các chuyên gia cung cấp

ˆ Kiểm tra khả năng đọc hiểu: khả năng đọc hiểu văn bản đánh giá thông qua các câu hỏi

ˆ Kiểm tra cloze: tương tự kiểm tra khả năng đọc hiểu văn bản

ˆ Tốc độ đọc: đánh giá tốc độ đọc, thông thường sẽ kết hợp với câu hỏi để kiểm tra khả năngđọc hiểu

ˆ Ghi nhớ: tỷ lệ của một văn bản mà người đọc có thể nhớ lại sau khi đọc hiểu

ˆ Đánh giá không phải của chuyên gia: van Oosten và Hoste (2011) trình bày với số lượng N(N>10) người không phải chuyên gia có thể chú thích đáng tin cậy

1.5 Ứng dụng của đánh giá độ khó văn bản tự động

Sự dễ đọc cho người học ngôn ngữ thứ hai

Người đọc ngôn ngữ thứ nhất (L1) có kỹ năng và nhu cầu có sự khác biệt so với người đọc ngônngữ thứ hai (L2) Sự khác biệt chính giữa trình đọc L1 và L2 là quá trình và quy trình để tiếp thungôn ngữ Đối với những người học L1, việc tiếp thu bắt đầu từ giai đoạn sơ sinh và các cấu trúcngữ pháp cơ bản thường được học sau bốn tuổi (Bates, 2003) - trước khi bắt đầu đi học chính thức.Người học L2 thường ở độ tuổi đại học trở lên, có trình độ và có thể nắm bắt các ý tưởng và lậpluận phức tạp

Trong khi hầu hết các nghiên cứu phát triển các công cụ đánh giá độ khó văn bản đều tập trungvào người đọc L1, một số nghiên cứu gần đây đã phát triển các phương pháp đánh giá khả năngđọc tự động nhằm giải thích các khía cạnh đặc biệt này của người học ngôn ngữ thứ hai Một trongnhững nghiên cứu đầu tiên để phát triển công cụ đánh giá độ khó văn bản dựa trên máy học chongười đọc L2 là của Heilman và cộng sự (2007), các nhà nghiên cứu cho rằng các đặc điểm ngữpháp có thể đóng một vai trò quan trọng hơn trong việc dự đoán khả năng đọc của người học ngôn

Trang 10

ngữ thứ hai đối với người học ngôn ngữ thứ nhất.

Hỗ trợ ngôn ngữ quốc tế

Trước đây, phần lớn các nghiên cứu đánh giá độ khó văn bản truyền thống tập trung vào tiếngAnh, các ngôn ngữ khác được áp dụng từ các kết quả trước đó Ví dụ, sau khi công thức Flesch vềtính độ dễ đọc của văn bản tiếng Anh (Flesch, 1948) được xuất bản, một loạt các bản chuyển thểcho ngôn ngữ châu Âu và các ngôn ngữ khác theo sau: Kandel và Moles (1958) xuất bản một bảnchuyển thể cho tiếng Pháp, và ngay sau đó, José Fernández Huerta (1959) đã công bố một công thứctương ứng cho tiếng Tây Ban Nha vẫn được sử dụng rộng rãi Zakaluk và Samuel (1988) công bốmột danh sách đầy đủ các công thức dễ đọc truyền thống cho nhiều loại ngôn ngữ Gần đây, nhiềunghiên cứu mới được tiến hành trên các ngôn ngữ khác ngoài tiếng Anh Đặc biệt, các ngôn ngữchâu Á và châu Âu đã sớm trở thành nguồn gốc và thích nghi với các phương pháp tính toán cải tiến

Hỗ trợ độc giả khuyết tật

Ngoài những người bản ngữ và người học ngôn ngữ thứ hai từ các ngôn ngữ khác nhau, các biệnpháp khả năng đọc đang bắt đầu được điều chỉnh dành cho những người bị khuyết tật và ngườimắc hội chứng khó đọc tiếp cận với ngôn ngữ Abedi và cộng sự (2003) đã kiểm tra các độ khó vănbản cổ điển đối với các bài kiểm tra đọc hiểu nhằm xác định những đặc điểm ngữ pháp và nhậnthức phân tích độ khó đọc đối với học sinh khuyết tật Tuy nhiên, các nhà nghiên cứu nhận thấyrằng một số đặc điểm văn bản hoặc đặc trưng về hình ảnh có khả năng phân biệt cao giữa học sinhkhuyết tật và không khuyết tật, chẳng hạn như việc sử dụng các từ dài (lớn hơn bảy chữ cái), sựthay đổi về phông chữ, độ dài từ và khoảng cách, và giảm hình ảnh gây mất tập trung là nhữngyếu tố quan trọng trong khả năng đọc đối với nhóm người khuyết tật Các nghiên cứu liên quanđược thực hiện bởi Rello và cộng sự (2013) đối với nhóm độc giả mắc hội chứng khó đọc: khả nănghiểu không phụ thuộc vào khả năng đọc, độ dài của từ là rất quan trọng, ví dụ những từ ngắn hơn

sẽ tăng khả năng đọc hiểu văn bản Ngoài việc đánh giá, các kỹ thuật đơn giản hóa và tóm tắt vănbản hứa hẹn là phương pháp tiếp cận để cải thiện khả năng đọc cho những người học mắc chứngkhó đọc (Nandhini và Balasundaram, 2011)

Hệ thống giáo dục có máy tính hỗ trợ

Nhiều phương pháp giáo dục yêu cầu khả năng tìm kiếm thông tin ở mức độ khó phù hợp, do

đó, công cụ đánh gia độ khó văn bản tự động có thể đóng một vai trò quan trọng trong các cơ sởgiáo dục, đặc biệt là đối với các hệ thống dạy kèm học ngoại ngữ và đọc hiểu

Một ví dụ của hệ thống như vậy là trợ giảng từ vựng REAP được phát triển tại Viện Công nghệNgôn ngữ của Đại học Carnegie Mellon REAP sử dụng công nghệ lọc và xếp hạng độ phức tạp đểcung cấp hướng dẫn được cá nhân hóa bằng tiếng Anh, tiếng Pháp và tiếng Bồ Đào Nha REAP

đã giúp hàng trăm người học ngôn ngữ thứ hai đồng thời cung cấp một nền tảng thử nghiệm hấpdẫn để nghiên cứu về những yếu tố giúp học sinh học từ vựng hiệu quả nhất

Dự đoán độ khó văn bản từ các trang web

Tính chất đa dạng, hiện đại của nội dung từ các trang web, từ nhận xét trên blog, các trangkết quả của công cụ tìm kiếm đến quảng cáo trực tuyến, dẫn đến những thách thức mới đối với dựđoán khả năng đọc Ngoài văn bản có cấu trúc hiện đại, các trang web cũng có thể chứa hình ảnh,video, âm thanh, bảng và các thành phần có cấu trúc phong phú khác có thể ảnh hưởng đến khả

Trang 11

năng đọc của văn bản Khả năng đọc hiểu văn bản của người dùng dường như là một khía cạnhquan trọng đánh giá giá trị của văn bản đó.

Một số công cụ đánh giá độ khó văn bản tự động

AMesure cung cấp khả năng phân tích trực tiếp một văn bản hành chính và đánh giá mức độkhó đọc của nó trên thang gồm năm cấp

Hình 1.2: AMesure

Lexile Analyzer trong Lexile và Quantile Hub cho phép các nhà giáo dục nhập văn bản để nhậnphạm vi Lexile và xem các đặc điểm của văn bản cùng với các từ khó và định nghĩa của chúng.Lexile Analyzer đo độ phức tạp của văn bản bằng cách phân tích các đặc điểm như độ dài câu vàtần suất từ Nói chung, các câu dài và các từ có tần suất xuất hiện thấp dẫn đến các phương phápLexile cao hơn; các câu ngắn và các từ có tần suất cao dẫn đến các phương pháp Lexile thấp hơn

Trang 12

Hình 1.3: Lexile® Text Analyzer

Ngày đăng: 11/06/2022, 06:21

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w