1. Trang chủ
  2. » Thể loại khác

Nghiên cứu xây dựng kho ngữ liệu giáo khoa tiếng Anh chuyên ngành Xã hội học

179 11 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 179
Dung lượng 1,84 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

XÁC LẬ P NGUYÊN TẮ C, TIÊU CHÍ VÀ QUI TRÌNH XÂY DỰ NG KHO NGỮ LIỆ U GIÁO KHOA VÀ XÂY DỰ NG KHO NGỮ LIỆ U GIÁO KHOA TIẾ NG ANH CHUYÊN NGÀNH XÃ HỘ I HỌ C 2.1... KNL có thể sử dụ ng để hỗ t

Trang 2

ĐẠ I HỌ C QUỐ C GIA HÀ NỘ I TRƯ Ờ NG ĐẠ I HỌ C KHOA HỌ C XÃ HỘ I VÀ NHÂN VĂN

LUẬ N ÁN TIẾ N SĨ NGÔN NGỮ HỌ C

NGƯ Ờ I HƯ Ớ NG DẪ N KHOA HỌ C :

PGS.TS LÂM QUANG ĐÔNG

GS TS NGUYỄ N THIỆ N GIÁP

Hà Nộ i – 2017

Trang 3

LỜ I CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứ u củ a riêng tôi; các số liệ u, kế t

quả nghiên cứ u đư ợ c trình bày trong luậ n án là trung thự c, khách quan và chư a từ ng

đư ợ c công bố trong bấ t kỳ công trình nào khác

Tôi xin cam đoan rằ ng mọ i sự giúp đỡ cho việ c thự c hiệ n luậ n án đã đư ợ c cả m

ơ n, các thông tin trích dẫ n trong luậ n án này đề u đư ợ c chỉ rõ nguồ n gố c

Hà Nộ i, ngày 29 tháng 6 năm 2017

Tác giả luậ n án

Trang 4

LỜ I CẢ M Ơ N

Tôi xin chân thành cả m ơ n Ban chủ nhiệ m và các thầ y cô giáo trong KhoaNgôn ngữ họ c – Trư ờ ng Đạ i họ c Khoa họ c Xã hộ i và Nhân văn – Đạ i họ c Quố c gia

Hà Nộ i đã tạ o cho tôi mộ t môi trư ờ ng họ c tậ p và làm việ c tố t nhấ t , vớ i sự giúp đỡ

tậ n tình trong công việ c cũng như tạ o điề u kiệ n để tôi có thể bả o vệ trong thờ i gian

sớ m nhấ t

Tôi vô cùng trân trọ ng và biế t ơ n PGS.TS Lâm Quang Đông, GS.TS

Nguyễ n Thiệ n Giáp đã tậ n tình chỉ bả o và hư ớ ng dẫ n tôi trong suố t thờ i gian làm

luậ n án Tôi xin gử i lờ i cả m ơ n chân thành tớ i GS Vũ Đứ c Nghiệ u, PGS.TS Vũ ThịThanh Hư ơ ng, PGS.TS Nguyễ n Văn Chính, PGS.TS Trị nh Cẩ m Lan, PGS.TS

Nguyễ n Xuân Hòa, PGS.TS Lê Văn Canh, PGS.TS Nguyễ n Văn Trào, GS.TS Đỗ

Việ t Hùng cùng nhiề u thầ y cô giáo đã dành thờ i gian đọ c và đư a ra nhữ ng góp ý

nghiêm khắ c, xác đáng như ng cũng thậ t chân tình cho bả n thả o luậ n án Nhữ ng lờ i

khuyên bả o và độ ng viên củ a các thầ y cô là độ ng lự c để tôi cố gắ ng họ c tậ p và tin

tư ở ng vào bả n thân

Giúp tôi vư ợ t qua nhữ ng khó khăn trong suố t quá trình họ c tậ p và nghiên

cứ u là sự quan tâm, chăm sóc đầ y yêu thư ơ ng củ a mọ i thành viên trong gia đình, là

nhữ ng cổ vũ, độ ng viên và khích lệ củ a bạ n bè, đồ ng nghiệ p trong và ngoài Khoa

Tiế ng Anh, các thầ y cô và bạ n bè trong Trư ờ ng Đạ i họ c Ngoạ i ngữ và Trư ờ ng Đạ i

họ c Khoa họ c Xã hộ i và Nhân văn

Tôi xin trân trọ ng cả m ơ n

Trang 5

MỤ C LỤ C

Trang

Lờ i cam đoan……… i

Lờ i cám ơ n ……… ii

MỤ C LỤ C……… 1

Danh mụ c bả ng……… 3

Danh mụ c hình ……… 4

Danh mụ c chữ viế t tắ t……… 6

MỞ ĐẦ U 1 Lý do chọ n đề tài ……… 7

2 Đố i tư ợ ng và phạ m vi nghiên cứ u củ a luậ n án ……… 9

3 Mụ c đích và nhiệ m vụ nghiên cứ u ……… 11

4 Phư ơ ng pháp nghiên cứ u củ a luậ n án ……… 12

5 Ý nghĩa khoa họ c và thự c tiễ n củ a luậ n án……… 13

6 Cấ u trúc củ a luậ n án……… ……… 15

Chư ơ ng 1 TỔ NG QUAN TÌNH HÌNH NGHIÊN CỨ U VÀ CƠ SỞ LÝ LUẬ N CỦ A LUẬ N ÁN 1.1 Tổ ng quan tình hình nghiên cứ u ……… ……… 16

1.1.1 Tình hình nghiên cứ u kho ngữ liệ u giáo khoa tiế ng Anh chuyên ngành trên thế giớ i……… ……… …… 16

1.1.2 Tình hình nghiên cứ u kho ngữ liệ u giáo khoa tiế ng Anh chuyên ngành ở Việ t Nam……… ……… 23

1.2 Cơ sở lý luậ n củ a luậ n án ……… ……… 24

1.2.1 Nhữ ng khái niệ m cơ bả n củ a Ngôn ngữ họ c ngữ liệ u ……… 24

1.2.2 Kho ngữ liệ u giáo khoa……… 41

1.2.3 Kho ngữ liệ u giáo khoa tiế ng Anh chuyên ngành vớ i việ c đị nh lư ợ ng vố n từ trong dạ y và họ c tiế ng

1.2.4 Tiể u kế t ………

45 49 Chư ơ ng 2 XÁC LẬ P NGUYÊN TẮ C, TIÊU CHÍ VÀ QUI TRÌNH XÂY DỰ NG KHO NGỮ LIỆ U GIÁO KHOA VÀ XÂY DỰ NG KHO NGỮ LIỆ U GIÁO KHOA TIẾ NG ANH CHUYÊN NGÀNH XÃ HỘ I HỌ C 2.1 Các nguyên tắ c xây dự ng KNL giáo khoa tiế ng Anh chuyên ngành X HH 52 2.1.1 Nguyên tắ c chung……… 52

2.1.2 Nguyên tắ c xác lậ p cấ u trúc ……… 54

2.1.3 Nguyên tắ c lấ y mẫ u ……… 54

Trang 6

2.2 Các tiêu chí thiế t kế kho ngữ liệ u giáo khoa tiế ng Anh chuyên ngành XHH 56

2.2.2 Tiêu chí cấ u trúc Kho ngữ liệ u ….…… ……… 58

2.2.3 Tiêu chí mô tả văn bả n trong tậ p hợ p ngữ liệ u ……… 59

2.2.4 Tiêu chí độ lớ n Kho ngữ liệ u ……… 62

2.2.5 Tiêu chí về số lư ợ ng văn bả n trong Kho ngữ liệ u……… 63

2.2.6 Tiêu chí về mẫ u đơ n vị …… ……… 64

2.2.7 Tiêu chí chú giả i ……… 68

2.3 Qui trình thiế t kế kho ngữ liệ u giáo khoa tiế ng Anh chuyên ngành Xã hộ i họ c 69 2.3.1 Qui trình chung……… 69

2.3.2 Qui trình thiế t kế chi tiế t kho ngữ liệ u TESoC ……… 70

2.4 Xây dự ng kho ngữ liệ u giáo khoa tiế ng Anh chuyên ngành Xã hộ i họ c TESoC 90 2.5 Tiể u kế t……… 95

Chư ơ ng 3 KHAI THÁC ĐỊ NH LƯ Ợ NG TỪ VỰ NG TỪ KHO NGỮ LIỆ U GIÁO KHOA TIẾ NG ANH CHUYÊN NGÀNH XÃ HỘ I HỌ C (TESoC) 3.1 Nhữ ngđơ n vị liên quan đế n đị nh lư ợ ng từ vự ng ……… 97

3.2 Phân tích đị nh lư ợ ng tổ ng quát từ vự ng tro ng KNL TESoC…….… 101

3.2.1.Đị nh lư ợ ng vố n từ cơ bả n trong KNL TESoC … ……… 102

3.2.2 Phân tích đị nh lư ợ ng vố n từ cơ bả n củ a KNL TESoC trong tư ơ ng quan vớ i danh sách từ thông dụ ng tiế ng Anh 107 3.3 Đị nh lư ợ ng vố n từ trọ ng tâm trong KNL TESoC ……… ……… 113

3.4 Tiể u kế t……… 127

Chư ơ ng 4 SỬ DỤ NG KHO NGỮ LIỆ U GIÁO KHOA TIẾ NG ANH CHUYÊN NGÀNH XÃ HỘ I HỌ C TESoC TRONG GIẢ NG DẠ Y NGOẠ I NGỮ 4.1 Mố i quan hệ giữ a KNL giáo khoa vớ i việ c dạ y họ c ngoạ i ngữ ………… 130

4.2 Kho ngữ liệ u TESoC trong đánh giá kiế n thứ c từ vự ng trong sách giáo khoa 133 4.3 Kho ngữ liệ u TESoC trong đánh giá tư liệ u giả ng dạ y ……… 135

4.4 Kho ngữ liệ u TESoC trong thiế t kế bài tậ p kỹ năng ……… 143

4.5 Kho ngữ liệ u TESoC trong thiế t kế bài kiể m tra ……… 150

4.6 Tiể u kế t……… 154

KẾ T LUẬ N ……… ……… 156

DANH MỤ C CÁC CÔNG TRÌNH KHOA HỌ C CỦ A TÁC GIẢ CÓ LIÊN QUAN ĐẾ N LUẬ N ÁN ……… 159

TÀI LIỆ U THAM KHẢ O ………….… 160

PHỤ LỤ C……… ……… 180

Trang 7

DANH MỤ C CÁC BẢ NG

Trang

Bả ng 1.1 Mộ t phầ n thiế t kế củ a Kho ngữ liệ u Brown 34

Bả ng 2.1 Tỉ lệ lư ợ ng từ giữ a các tậ p SGK trong tiể u kho cơ sở 77

Bả ng 2.2 Tỉ lệ lư ợ ng từ giữ a các tậ p SGK trong kho ngữ liệ u 78

Bả ng 2.3 Số lư ợ ng hiệ n dạ ng lấ y thự c tế trên các tiể u kho 79

Bả ng 2.4 Xác đị nh độ phong phú từ vự ng (R) củ a kiể u từ và tổ từ 81

Bả ng 2.5 Lư u kho ngữ liệ u TESoC theo mả ng và loạ i tư liệ u 83

Bả ng 2.6 Lư u kho ngữ liệ u TESoC theo bài và chủ đề 84

Bả ng 3.1 Đị nh lư ợ ng từ bị loạ i và vố n từ cơ bả n theo hiệ n dạ ng 104

Bả ng 3.3 Tư ơ ng quan hiệ n dạ ng và tổ từ theo nhóm trình độ 108

Bả ng 3.4 Phân loạ i vố n từ cơ bả n theo trình độ 110

Bả ng 3.5 Thố ng kê tầ n số và phạ m vi phân bố tổ từ trong TESoC 112

Bả ng 3.6 Ma trậ n phân tích hiệ n dạ ng theo bậ c và phạ m vi tiể u kho 114

Bả ng 3.16 Hiệ n dạ ng củ a tổ từ trọ ng tâm các giai đoạ n 126

Bả ng 4.1 So sánh độ phong phú từ vự ng trong giáo trình 136

Bả ng 4.2 Phân bố từ vự ng trọ ng tâm trong giáo trình EAP 139

Trang 8

DANH MỤ C CÁC HÌNH

Trang

Hình 1.1 Thiế t kế và đánh dấ u trong Kho ngữ liệ u TeMa 21Hình 1.2 Các tham số trong thiế t kế Kho ngữ liệ u giáo khoa 44

Hình 2.1 Mứ c độ tăng củ a hiệ n dạ ng, kiể u từ và tổ từ trong sách giáo

khoa TACS

77

Hình 2.2 Số hiệ n dạ ng theo trình độ (từ TACS 1 đế n TACN 2) 79

Hình 2.4 Phầ n mề m xử lý từ vự ng trên mạ ng Compleat Lexical Tutor 88Hình 2.5 Trình hiệ n kế t quả củ a từ elements trong KNL TESoC 89

Hình 2.7 Kho ngữ liệ u TESoC trên giao diệ n củ a phầ n mề m AntConc 92Hình 2.8 Kho ngữ liệ u TESoC trên giao diệ n củ a phầ n mề m Range 93

Hình 3.1 Tư ơ ng quan giữ a hiệ n dạ ng và tổ từ trong vố n từ cơ bả n 106Hình 3.2 Mứ c độ tăng tổ từ giai đoạ n cơ sở và chuyên ngành 106Hình 3.3 Tư ơ ng quan lư ợ ng từ trong danh sách gữ a TACS và TACN 109Hình 3.4 Độ tăng giả m củ a lư ợ ng từ vự ng trong và ngoài danh sách

Hình 3.5 Mứ c độ sử dụ ng tổ từ nộ i dung và chứ c năng Bậ c 1 116Hình 3.6 Hiệ n dạ ng củ a tổ từ nộ i dung và chứ c năng Bậ c 1 117Hình 3.7 Mứ c độ sử dụ ng tổ từ nộ i dung và chứ c năng Bậ c 2 119Hình 3.8 Tư ơ ng quan hiệ n dạ ng giữ a nhóm tổ từ nộ i dung và chứ c năng

Hình 3.9 Mứ c độ sử dụ ng tổ từ nộ i dung và chứ c năng Bậ c 3 121Hình 3.10 Tư ơ ng quan hiệ n dạ ng giữ a nhóm tổ từ nộ i dung và chứ c năng

Hình 3.11 Mứ c độ sử dụ ng tổ từ nộ i dung và chứ c năng Bậ c 4 123Hình 3.12 Tư ơ ng quan hiệ n dạ ng giữ a nhóm tổ từ nộ i dung và chứ c năng

Trang 9

Hình 4.2 So sánh vố n từ trong EAP vớ i trọ ng tâm TESoC (mả ng cơ sở ) 137Hình 4.3 So sánh vố n từ trong EAP vớ i trọ ng tâm trọ ng tâm TESo C

Trang 10

MỞ ĐẦ U

1 Lý do chọ n đề tài

Nhữ ng năm cuố i thế kỷ 20 đầ u thế kỷ 21 chứ ng kiế n sự phát triể n mạ nh mẽ

củ a Ngôn ngữ họ c ngữ liệ u (NNHNL) và các nghiên cứ u về Kho ngữ liệ u (KNL)

Ngư ờ i ta nhắ c nhiề u đế n lĩnh vự c này bở i sự phát triể n đáng kinh ngạ c về số lư ợ ng

cũng như độ lớ n kế t hợ p vớ i công nghệ hiệ n đạ i trong xử lý ngôn ngữ tự nhiên đã

biế n các kho ngữ liệ u trở thành nguồ n dữ liệ u phong phú chư a từ ng có trong nghiên

cứ u ngôn ngữ Ngôn ngữ họ c ngữ liệ u (NNHNL) mang lạ i mộ t cái nhìn mớ i chonhiề u vấ n đề tư ở ng chừ ng đã cũ Nó chỉ ra nhữ ng khiế m khuyế t trong nghiên cứ u

đị nh tính đơ n thuầ n, thay đổ i quan niệ m củ a nhiề u nhà nghiên cứ u về nghiên cứ u

đị nh lư ợ ng và khẳ ng đị nh vị thế củ a đị nh lư ợ ng trong nghiên cứ u ngôn ngữ hiệ n

đạ i NNHNL cũng tạ o ra nhữ ng thay đổ i căn bả n trong giả ng dạ y ngoạ i ngữ , đặ c

biệ t là tiế ng Anh Các công trình về lý thuyế t cũng như thự c hành củ a Nation

(1990), Svatvik (1991), Kennedy (1992), Biber (1998), Biber, Conrad & Reppen(2006), Aijmer (2009), Simpson (2011), Flowerdew (2012), Kohn (2013), chothấ y vai trò không thể thiế u củ a NNHNL trong nghiên cứ u giả ng dạ y ngôn ngữ nóichung cũng như ngoạ i ngữ nói riêng

Trong khi đó, ở Việ t Nam, nhu cầ u hộ i nhậ p và xu hư ớ ng toàn cầ u hóa khiế n

giao tiế p quố c tế ngày càng trở nên quan trọ ng trong đào tạ o ngoạ i ngữ cũng nhưphát triể n kinh tế Trong hầ u hế t các lĩnh vự c, ngoạ i ngữ chuyên ngành không còn

bó hẹ p trong môi trư ờ ng họ c thuậ t củ a sinh viên mà còn mở rộ ng ra các ngànhnghề , hỗ trợ nâng cao kiế n thứ c chuyên môn và phát triể n giao tiế p nghề nghiệ p củ a

mộ t bộ phậ n không nhỏ ngư ờ i lao độ ng Kiế n thứ c tiế ng Anh chuyên ngành giờ đây

không nằ m ở điể m số hay tờ giấ y chứ ng nhậ n trong nhà trư ờ ng mà thể hiệ n trênphư ơ ng diệ n giao tiế p thự c tế Do đó, nghiên cứ u ngôn ngữ thự c và sử dụ ng ngôn

ngữ thự c trong giả ng dạ y và họ c tậ p là vô cùng cầ n thiế t và cấ p bách hiệ n nay

Để đáp ứ ng mụ c tiêu phát triể n năng lự c ngoạ i ngữ cho nguồ n nhân lự c trong

nư ớ c, Bộ Giáo dụ c và Đào tạ o Việ t Nam đã xây dự ng Đề án Ngoạ i ngữ Quố c gia

Trang 11

2020 (giai đoạ n từ 2011 đế n 2015) xác đị nh nhiệ m vụ cho các cơ sở đào tạ o, các

trư ờ ng đạ i họ c: “triể n khai chư ơ ng trình dạ y bằ ng ngoạ i ngữ mộ t số môn cơ bả n,

chuyên ngành và chuyên sâu ở mộ t số ngành trọ ng điể m ở năm cuố i bậ c đạ i họ c”(Đề án 2020: 40) Đề án cũng nhấ n mạ nh đế n đổ i mớ i giả ng dạ y ngoạ i ngữ bằ ng

cách khuyế n khích sử dụ ng “ các giả i pháp độ t phá nhằ m giả i quyế t các vấ n đề

cấ p bách trư ớ c mắ t trong việ c nhanh chóng nâng cao năng lự c ngoạ i ngữ củ a mộ t

số đố i tư ợ ng ư u tiên trong mộ t thờ i gian ngắ n, nhằ m đáp ứ ng ngay yêu cầ u hộ i nhậ p, hiệ n đạ i hoá, công nghiệ p hoá đấ t nư ớ c” (Đề án 2020: 25) Nhữ ng chủtrư ơ ng trên khẳ ng đị nh vị thế củ a đào tạ o ngoạ i ngữ nói chung cũng như ngoạ i ngữchuyên ngành nói riêng trong giáo dụ c đạ i họ c, dạ y nghề , và nâng cao năng lự c giaotiế p củ a độ i ngũ lao độ ng trí thứ c hiệ n nay

Tuy nhiên, việ c nâng cao trình độ giáo viên, đổ i mớ i giáo trình hay xây dự ng

khung năng lự c để đánh giá chuẩ n đào tạ o ngoạ i ngữ sẽ đạ t hiệ u quả hơ n nế u nộ i

dung và tư liệ u họ c, trong đó có từ vự ng, đư ợ c nghiên cứ u rõ ràng và cụ thể Hơ n

nữ a, việ c biên soạ n bài giả ng, giáo trình đặ c biệ t là giáo trình chuyên ngành cũng

không thể dự a mãi vào trự c giác cũng như kinh nghiệ m củ a giáo viên N gôn ngữ

họ c ngữ liệ u, trong đó có các kho ngữ liệ u, vớ i đặ c điể m vư ợ t trộ i trong đị nh lư ợ ng

và công nghệ xử lý ngôn ngữ có thể giúp xác đị nh mộ t cách chính xác các kiế n thứ c

mà các nhà giáo dụ c cầ n đư a vào giả ng dạ y, hỗ trợ hiệ u quả nâng cao chấ t lư ợ ng

dạ y và họ c, xây dự ng chư ơ ng trình, giáo trình và kiể m tra đánh giá đúng nộ i dung

đề ra

Thự c tế trong nư ớ c cho thấ y n ghiên cứ u Ngôn ngữ họ c ngữ liệ u nói chungcũng như kho ngữ liệ u (KNL) dành cho dạ y họ c ngoạ i ngữ nói riêng chư a phát

triể n Mộ t số công trình củ a Đào Hồ ng Thu (2010) và Phạ m Hiể n (2012) mớ i chỉ

dừ ng ở việ c khai thác và sử dụ ng phầ n mề m trong phân tích ngữ liệ u mà chư a đề

cậ p đế n việ c xây dự ng KNL, nhấ t là KNL dành cho dạ y và họ c tiế ng Anh chuyênngành Việ c xây dự ng KNL vẫ n còn là lĩnh vự c còn đang bỏ ngỏ ở Việ t Nam Do

đó, nghiên cứ u xây dự ng mộ t KNL giáo khoa tiế ng Anh chuyên ngành Xã hộ i họ c

không chỉ đáp ứ ng nhu cầ u phát triể n NNHNL trong nư ớ c mà còn hỗ trợ nghiên

Trang 12

cứ u giả ng dạ y tiế ng Anh chuyên ngành, góp phầ n đư a công nghệ vào dạ y họ c ngoạ ingữ , đồ ng thờ i giúp nâng cao chấ t lư ợ ng giả ng dạ y và họ c tậ p ngoạ i ngữ tạ i Việ t

Nam

2 Đố i tư ợ ng và phạ m vi nghiên cứ u củ a luậ n án

Đố i tư ợ ng nghiên cứ u củ a luậ n án là KNL giáo khoa tiế ng Anh chuyên

ngành Xã hộ i họ c hiệ n đạ i đư ợ c xử lý trên máy tính cá nhân có thể ứ ng dụ ng trong

dạ y và họ c tiế ng Do đó, luậ n án tìm hiể u các yế u tố hình thành nên KNL gồ m hệthố ng dữ liệ u ngôn ngữ cầ n có trong KNL, khung phầ n mề m phân tích để đư a ngữ

liệ u lên thành giao diệ n và tiế n hành các phân tích phù hợ p trong lĩnh vự c giả ng dạ y

và họ c tậ p tiế ng Anh

Luậ n án xác đị nh phạ m vi nghiên cứ u nằ m trong khuôn khổ xây dự ng mộ t

KNL giáo khoa qui mô nhỏ , đơ n ngữ , bằ ng tiế ng Anh, phù hợ p vớ i thự c tế giả ng

dạ y tiế ng Anh chuyên ngành Xã hộ i họ c hiệ n nay ở Đạ i họ c Quố c gia Hà Nộ i Vì

vậ y, dữ liệ u ngôn ngữ đư ợ c thu thậ p trong KNL đư ợ c giớ i hạ n trong phạ m vi sáchgiáo khoa tiế ng Anh đang đư ợ c giả ng dạ y cho sinh viên Xã hộ i họ c tạ i trư ờ ng Dothiế u sách giáo khoa tiế ng Anh chuyên ngành Xã hộ i họ c biên soạ n trong nư ớ c và

nư ớ c ngoài nên luậ n án xây dự ng mả ng ngữ liệ u tiế ng Anh chuyên ngành trong

KNL chủ yế u từ sách giáo khoa Xã hộ i họ c bằ ng tiế ng Anh Ngữ liệ u đư ợ c sử dụ ng

trong luậ n án gồ m :

- 3 bộ giáo trình New English Files bậ c sơ cấ p, sơ trung và trung cấ p

(Elementary, Pre-intermediate, Intermediate) củ a tác giả Clive Oxenden, ChristinaLatham-Koening và Paul Seligsondo Đạ i họ c Oxford xuấ t bả n năm 2004, bao gồ m

cả sách họ c, sách bài tậ p và bả n ghi bài nghe Ba bộ sách này hiệ n đang đư ợ c giả ng

dạ y ứ ng vớ i ba bậ c trình độ Tiế ng Anh cơ sở 1, cơ sở 2, cơ sở 3 tạ i Trư ờ ng Đạ i họ c

Khoa họ c Xã hộ i và Nhân văn, Đạ i họ c Quố c gia Hà Nộ i

- Giáo trình English for Students of Sociology (Tiế ng Anh chuyên ngành Xã

hộ i họ c) đư ợ c biên soạ n và thẩ m đị nh năm 2004 tạ i Trư ờ ng Đạ i họ c Khoa họ c Xã

hộ i và Nhân văn Giáo trình đư ợ c đư a vào giả ng dạ y trong chư ơ ng trình đào tạ o

Trang 13

chính qui cho sinh viên chuyên ngành Xã hộ i họ c và Công tác Xã hộ i từ 2004 đế n2011.

+ Hai giáo trình mang tên Introduction to Sociology (Nhậ p môn Xã hộ i họ c

đạ i cư ơ ng) bằ ng tiế ng Anh củ a Ryan T Cragun, Deborah Cragun & Piotr

Konieczny (2010) xuấ t bả n bở i Wikibooks và củ a Openstax College1 (2013), Đạ i

họ c Rice, bang Texas, Mỹ

Việ c lự a chọ n giáo trình New English Files làm tư liệ u giáo khoa là tấ t yế u

bở i các giáo trình này đư ợ c dùng làm tư liệ u chính phụ c vụ cho giả ng dạ y tiế ng Anhgiai đoạ n đầ u cho sinh viên trong toàn Đạ i họ c Quố c gia Hà Nộ i Tuy nhiên, các

giáo trình chuyên ngành Xã hộ i họ cđư ợ c sử dụ ng bở i nhiề u lý do

Thứ nhấ t, bên cạ nh ý kiế n chuyên gia về nộ i dung cầ n họ c đố i vớ i sinh viên

bắ t đầ u vào chuyên ngành , nộ i dung kiế n thứ c trong các tư liệ u này cũng phù hợ p

vớ i kiế n thứ c đạ i cư ơ ng Xã hộ i họ c mà đơ n vị đào tạ o xác đị nh

Thứ hai, các giáo trình vừ a nêu đề u phổ cậ p, văn phong chuẩ n mự c, kiế nthứ c chuyên ngành đạ i cư ơ ng dễ hiể u, không quá chuyên sâu vào các chuyên ngành

hẹ p nên không gây hiệ n tư ợ ng thiên lệ ch về đặ c ngữ hay biệ t ngữ củ a các phânngành trong Xã hộ i họ c

Thứ ba, chủ đề trong tư liệ u gầ n gũi vớ i kiế n thứ c cơ sở , tạ o mố i liên hệ cầ nthiế t trong giai đoạ n chuyể n kiế n thứ c từ vự ng từ cơ sở sang chuyên ngành

Thứ tư , chúng có sẵ n và đư ợ c phép sử dụ ng trong nghiên cứ u mà không đòi

hỏ i thủ tụ c và chi phí truy cậ p Lý do nàyđư ợ c coi là mộ t trong nhữ ng tiêu chí thiế t

kế quan trọ ng mang tính kinh tế mà mọ i KNL đề u cầ n phả i cân nhắ c khi thu thậ p dữliệ u

Ngoài ra, việ c quyế t đị nh loạ i sách, số lư ợ ng sách chuyên ngành Xã hộ i họ c

cầ n khai thác trong xây dự ng KNL cũng đư ợ c xem xét kỹ lư ỡ ng để đả m bả o tính

1 Openstax College: tiề n thân củ a đạ i họ c Rice (Mỹ ) là mộ t tổ chứ c phi lợ i nhuậ n cam kế t hỗ trợ sinh viên

ti ế p cậ n vớ i tài liệ u họ c tậ p ch ấ t lư ợ ng cao Các SGK củ a Openstax miễ n phí và đư ợ c các nhà giáo dụ c kiể m

duyệ t để đả m bả o độ chính xác, dễ đọ c và đáp ứ ng yêu cầ u củ a đào tạ o đạ i họ c hiệ n đạ i.

Trang 14

liên thông về từ vự ng giữ a các tiể u kho đạ i diệ n cho các bậ c trình độ trong KNL,

đồ ng thờ i đả m bả o sự nhấ t quán về độ tậ p trung từ vự ng củ a các tư liệ u trong mỗ i

tiể u kho Vấ n đề này sẽ đư ợ c trình bày cụ thể trong chư ơ ng 2

Chư ơ ng trình phầ n mề m sử dụ ng trong thiế t kế KNL và phân tích dữ liệ ungôn ngữ đư ợ c giớ i hạ n trong phạ m vi phân tích từ vự ng – yế u tố then chố t trong

quá trìnhđị nh lư ợ ng kiế n thứ c tiế ng Anh đư ợ c nhiề u giáo viên quan tâm

3 Mụ c đích và nhiệ m vụ nghiê n cứ u củ a luậ n án

Mụ c đích củ a luậ n án là xây dự ng mộ t KNL giáo khoa phụ c vụ dạ y và họ ctiế ng Anh chuyên ngành Xã hộ i họ c KNL có thể sử dụ ng để hỗ trợ quả n lý chư ơ ngtrình họ c trong sách giáo khoa, xây dự ng họ c liệ u, hỗ trợ tổ chứ c các hoạ t độ ng họ c,quả n lý và phát triể n vố n từ theo trình độ Vì vậ y, luậ n án xác đị nh các nhiệ m vụ cụthể sau:

- Nghiên cứ u cơ sở lý thuyế t và phư ơ ng pháp cho việ c xây dự ng mộ t kho

ngữ liệ u giáo khoa tiế ng Anh chuyên ngành Xã hộ i họ c để làm cơ sở cho nghiên

cứ u họ c liệ u tiế ng Anh chuyên ngành

- Xây dự ng KNL giáo khoa tiế ng Anh chuyên ngành Xã hộ i họ c phù hợ p vớ iđiề u kiệ n họ c tậ p tạ i Đạ i họ c Quố c gia Hà Nộ i

- Phân tích KNL giáo khoa đã xây dự ng đư ợ c để tìm hiể u về đị nh lư ợ ng từ

vự ng dành cho dạ y tiế ng trong phạ m vi các giáo trình đư ợ c lự a chọ n, từ đó xem xét

mứ c độ thể hiệ n từ vự ng qua các giáo trình hiệ n có đố i vớ i việ c giả ng dạ y và họ c

tậ p tiế ng Anh chuyên ngành Xã hộ i họ c

- Chỉ ra nhữ ng tiệ n ích và khả năng ứ ng dụ ng củ a KNL cũng như hư ớ ng khaithác KNL vào việ c dạ y và họ c tiế ng Anh

Xuấ t phát từ mụ c đích và nhiệ m vụ nghiên cứ u, luậ n án xác đị nh mộ t số câu

hỏ i nghiên cứ u như sau:

1- KNL giáo khoa tiế ng Anh chuyên ngành Xã hộ i họ c đư ợ c xây dự ng dự a trênnguyên tắ c và tiêu chí nào?

Trang 15

2- KNL giáo khoa tiế ng Anh chuyên ngành Xã hộ i họ c có đặ c điể m gì về mặ t

cấ u tạ o và nộ i dung ngôn ngữ ?

3- KNL giáo khoa tiế ng Anh chuyên ngành XHH đư ợ c sử dụ ng như thế nào

trong việ c dạ y và họ c tiế ng Anh chuyên ngành Xã hộ i họ c tạ i Đạ i họ c Quố cgia Hà Nộ i?

4 Phư ơ ng pháp nghiên cứ u củ a luậ n án

Xuấ t phát từ tính chấ t củ a đề tài, đố i tư ợ ng, cũng như mụ c đích nghiên cứ u,luậ n án chủ yế u sử dụ ng các phư ơ ng pháp sau:

- Phư ơ ng pháp chuyên gia (expert judgement) là phư ơ ng pháp thăm dò ý

kiế n chuyên gia nghiên cứ u sâu mộ t lĩnh vự c chuyên môn, nghiệ p vụ nào đó và cóhiể u biế t sâu sắ c về lĩnh vự c đó Trong luậ n án, phư ơ ng pháp chuyên gia đư ợ c sử

dụ ng trong việ c xác đị nh nguồ n tư liệ u có thể khai thác trư ớ c khi áp dụ ng các tiêuchí cụ thể hơ n củ a Ngôn ngữ họ c ngữ liệ u để lự a chọ n ngữ liệ u phù hợ p

- Phư ơ ng pháp thố ng kê ngôn ngữ (linguistic statistics)là phư ơ ng pháp dùng

để “đo đạ c các đơ n vị củ a lờ i nói và ngôn ngữ ”, phân xuấ t các đơ n vị theo từ ng cấ p

độ để tìm ra qui luậ t kế t hợ p củ a các đơ n vị đó, mố i quan hệ củ a các đơ n vị trong

cùng cấ p độ và giữ a các cấ p độ vớ i nhau” (Nguyễ n Đứ c Dân, 1984:11) Phư ơ ng

pháp thố ng kê ngôn ngữ đư ợ c sử dụ ng để nghiên cứ u đị nh lư ợ ng các đơ n vị từ vự ng

trong các giáo trình đư ợ c đư a vào xử lý, tính toán độ chênh lệ ch về từ vự ng giữ acác giáo trình, giúp đư a ra kế t luậ n về mố i quan hệ về vố n từ giữ a các trình độ làm

cơ sở xây dự ng các tiể u kho trong kho ngữ liệ u Ngoài ra, phư ơ ng pháp thố ng kê

cũng đư ợ c áp dụ ng để tính độ tậ p trung từ vự ng trong mỗ i tiể u kho và xác đị nh độ

lặ p chuẩ n củ a từ vự ng trong kho ngữ liệ u

- Phư ơ ng pháp phân tích ngữ liệ u (linguistic data analysis): đư ợ c thự c hiệ n

trên máy tính vớ i sự hỗ trợ củ a các phầ n mề m xử lý ngôn ngữ tự nhiên như Range,AntConc, và mộ t số chư ơ ng trình xử lý dữ liệ u trên trang mạ ng Compleat LexicalTutor.Phư ơ ng pháp phân tích ngữ liệ u giúp thố ng kê, sắ p xế p dạ ng từ , tổ từ , từ hìnhtrong phạ m vi tổ từ , hỗ trợ nhậ n diệ n tổ từ chứ c năng (hư từ ) và tổ từ nộ i dung (thự c

Trang 16

từ ), xác đị nh các yế u tố từ vự ng nằ m trong Danh sách từ bị loạ i (Stoplist), hỗ trợ

tính toán từ vự ng trọ ng tâm trong tiể u kho, tính toán hiệ n dạ ng và phân bố hiệ n

dạ ng cũng như tổ từ theo trình độ

- Phư ơ ng pháp tính toán trên máy (Computer-based approach)đư ợ c áp dụ ngphổ biế n trong tính toán từ vự ng trong KNL, trong đó ngư ờ i ta sử dụ ng quá trìnhtrích xuấ t thuậ t ngữ tự độ ng để xác đị nh thuậ t ngữ chuyên ngành Về cơ bả n, đây làphư ơ ng pháp thố ng kê so sánh tầ n số xuấ t hiệ n củ a mộ t từ trong KNL chuyên ngành

vớ i tầ n số xuấ t hiệ n trong KNL so sánh Phư ơ ng pháp này đư ợ c áp dụ ng trong KNLTESoC để xác đị nh từ vự ng trọ ng tâm chuyên ngành Xã hộ i họ c Phư ơ ng pháp tính

toán trên máy giúp loạ i các từ trong Danh sách từ bị loạ i (Stoplist) và từ vự ng có

tầ n số thấ p, nằ m dư ớ i Điể m ngắ t (cut-off point), ra khỏ i văn bả n gố c Ngoài ra,

phư ơ ng pháp tính toán trên máy còn hỗ trợ việ c lư u trữ , quả n lý và sắ p xế p dữ liệ u

ngôn ngữ vớ i số lư ợ ng lớ n trên máy tính như lư u trữ KNL, tính toán và sắ p xế p các

đơ n vị từ vự ng, đặ c biệ t là các đơ n vị nằ m ngoài phạ m vi phân loạ i mà các phầ n

mề m cung cấ p

Quá trình nhậ p liệ u văn bả n cho KNL đư ợ c tiế n hành mộ t phầ n thủ công do

không truy cậ p đư ợ c văn bả n mạ ng phù hợ p (trư ờ ng hợ p củ a ba bộ giáo trình tiế ng

Anh cơ sở New English Files), mộ t phầ n đư ợ c thu thậ p từ mạ ng internet Luậ n án

cũng sử dụ ng kỹ thuậ t xử lý dữ liệ u trên máy tính cá nhân để chuyể n dạ ng và phânloạ i từ vự ng và dùng các phầ n mề m đã đề cậ p ở trên để kiể m tra độ chính xác trongphân loạ i từ vự ng

Ngoài ra, luậ n án cũng sử dụ ng phư ơ ng pháp nghiên cứ u thự c tiễ n, bao gồ mnghiên cứ u hiệ n trạ ng ngôn ngữ họ c KNL ở Việ t Nam và nư ớ c ngoài, sử dụ ng tàiliệ u tiế ng Anh chuyên ngành Xã hộ i họ c tự biên soạ n để đư a vào nghiên cứ u

5 Ý nghĩa khoa họ c và thự c tiễ n củ a đề tài

5.1 Ý nghĩa khoa họ c

Vớ i tư cách là luậ n án đầ u tiên trong nư ớ c nghiên cứ u xây dự ng kho ngữ

liệ u tiế ng Anh chuyên ngành Xã hộ i họ c, luậ n án tiế p thu lý thuyế t cơ bả n trong

Trang 17

nghiên cứ u ngôn ngữ họ c ngữ liệ u trên thế giớ i để xây dự ng cơ sở lý luậ n cho việ cthành lậ p và phân tích KNL giáo khoa qui mô nhỏ có giá trị ứ ng dụ ng trong giả ng

dạ y tiế ng Anh cho các chuyên ngành bậ c đạ i họ c ở Việ t Nam Đây là hư ớ ng nghiên

cứ u mớ i trong xây dự ng Kho ngữ liệ u giáo khoa, đáp ứ ng xu hư ớ ng ứ ng dụ ng côngnghệ hiệ n đạ i trong dạ y họ c ngoạ i ngữ , phát huy tính liên ngành giữ a nghiên cứ u

ngôn ngữ vớ i giả ng dạ y ngoạ i ngữ và công nghệ thông tin ở trình độ cao, phù hợ p

vớ i xu thế phát triể n khoa họ c công nghệ trong giáo dụ c hiệ n nay

Trong phạ m vi nghiên cứ u, luậ n án đề cậ p đế n các vấ n đề về dạ y và họ c tiế ngAnh chuyên ngành trong nư ớ c trên phư ơ ng diệ n từ vự ng trọ ng tâm dành cho sinhviên đạ i họ c, đồ ng thờ i đư a ra giả i pháp ứ ng dụ ng KNL giáo khoa trong giả ng dạ y,

lự a chọ n tư liệ u theo trình độ , hỗ trợ đổ i mớ i tư liệ u dạ y họ c, nâng cao chấ t lư ợ ng

dạ y và họ c ngoạ i ngữ trong các trư ờ ng đạ i họ c ở Việ t Nam mà Đề án ngoạ i ngữ

quố c gia 2020 củ a Bộ Giáo dụ c và Đào tạ o đề ra

5.2 Ý nghĩa thự c tiễ n

Luậ n án nghiên cứ u xây dự ng KNL giáo khoa tiế ng Anh chuyên ngành Xã

hộ i họ c (TESoC) là đề tài đầ u tiên đư ợ c thự c hiệ n trong lĩnh vự c này ở Việ t Nam

Nghiên cứ u củ a luậ n án đáp ứ ng nhu cầ u cấ p thiế t trong nghiên cứ u đị nh lư ợ ng từ

vự ng tiế ng Anh dành cho giả ng dạ y và họ c tậ p chuyên ngành Xã hộ i họ c tạ i Đạ i họ c

Quố c gia Hà Nộ i và có thể sử dụ ng trong lĩnh vự c giao tiế p ngành nghề thự c tế Nghiên cứ u củ a luậ n án phù hợ p vớ i điề u kiệ n nghiên cứ u và giả ng dạ y trong nư ớ c,đáp ứ ng yêu cầ u đị nh lư ợ ng kiế n thứ c từ vự ng trọ ng tâm trong sách giáo khoa thuộ cchư ơ ng trình họ c, giúp điề u chỉ nh kiế n thứ c phù hợ p vớ i thay đổ i về thờ i lư ợ ng, đổ i

mớ i giáo trình cũng như điề u chỉ nh chư ơ ng trình củ a sinh viên không chuyên ngữ

Luậ n án hoàn thành việ c nghiên cứ u xây dự ng mộ t KNL giáo khoa tiế ngAnh chuyên ngành để tính toán tầ n số củ a các đơ n vị từ vự ng trong ngữ liệ u đư avào, qua đó xác đị nh các đơ n vị từ vự ng có tầ n số sử dụ ng cao cầ n chú trọ ng trong

giáo trình và tư liệ u họ c, đị nh hình vố n từ trọ ng tâm cầ n có trong chư ơ ng trình

giả ng dạ y KNL giáo khoa trong luậ n án này khác vớ i các mô hình KNL giáo khoa

Trang 18

đã đư ợ c nghiên cứ u và áp dụ ng ở mộ t số nư ớ c như Đứ c, Bỉ , Nhậ t, Trung Quố c

(Römer, 2004; Anping, 2004; Chujo, 2004; Meunier & Gouverneur, 2007) ở đó hệ

thố ng giáo khoa qui chuẩ n đư ợ c sử dụ ng làm tư liệ u và thư ớ c đo trong nghiên cứ ungôn ngữ

Trong giả ng dạ y thự c tế , KNL hỗ trợ phân tích, tổ ng hợ p và sử dụ ng dữ liệ ugiáo khoa thông qua các phầ n mề m hiệ n đạ i để nâng cao chấ t lư ợ ng bài giả ng vàthiế t kế bài tậ p trên lớ p trên cơ sở đị nh lư ợ ng kiế n thứ c phù hợ p Đồ ng thờ i, KNLgiúp đánh giá tư liệ u họ c phù hợ p vớ i từ ng đố i tư ợ ng họ c viên, xây dự ng và đa dạ ng

các hoạ t độ ng kiể m tra đánh giá trong phạ m vi chư ơ ng trình họ c Nhữ ng tính toántrong KNL giúp cho việ c chỉ nh lý, hoàn thiệ n và đổ i mớ i tư liệ u mộ t cách nhanh

gọ n, hiệ u quả và tiế t kiệ m

Đố i vớ i ngư ờ i họ c, KNL giúp tra cứ u các đơ n vị từ vự ng như từ , cụ m từ

cùng vớ i ngữ cả nh kèm theo để hỗ trợ quá trình tự họ c Trê n cơ sở danh sách từ

vự ng và trọ ng tâm kiế n thứ c đư ợ c xác đị nh cho từ ng trình độ , ngư ờ i họ c có thể đị nh

hư ớ ng, lên kế hoạ ch họ c tậ p phù hợ p cho bả n thân, tiế t kiệ m thờ i gian tra cứ u, nângcao chấ t lư ợ ng họ c tậ p

Ngoài ra, luậ n án gợ i mở mộ t số kiế n giả i giáo họ c pháp cho việ c xây dự ng

và quả n lý chư ơ ng trình, giáo trình tiế ng Anh chuyên ngành, cũng như nhữ ng tiêuchíđị nh lư ợ ng từ vự ng trong kiể m tra, đánh giá trên cơ sở tư liệ u họ c tậ p trong điề u

kiệ n giả ng dạ y hiệ n nay

6 Cấ u trúc củ a luậ n án

Ngoài phầ n mở đầ u, kế t luậ n, và tư liệ u tham khả o, luậ n án gồ m 4 chư ơ ng,

đư ợ c kế t cấ u như sau:

Chư ơ ng 1: Tổ ng quan tình hình nghiên cứ u và cơ sở lý luậ n củ a luậ n án

Chư ơ ng 2: Xác lậ p nguyên tắ c, tiêu chí, qui trình xây dự ng KNL giáo khoa và xây

dự ng KNL giáo khoa tiế ng Anh chuyên ngành Xã hộ i họ c

Trang 19

Chư ơ ng 3: Khai thác đị nh lư ợ ng từ vự ng từ kho ngữ liệ u giáo khoa tiế ng Anh

chuyên ngành Xã hộ i họ c (TESoC)

Chư ơ ng 4: Sử dụ ng kho ngữ liệ u giáo khoa tiế ng Anh chuyên ngành Xã hộ i họ c

trong giả ng dạ y ngoạ i ngữ

Trang 20

Chư ơ ng 1.TỔ NG QUAN TÌNH HÌNH NGHIÊN CỨ U VÀ CƠ SỞ LÝ LUẬ N

CỦ A LUẬ N ÁN

Sự phát triể n củ a ngôn ngữ họ c ngữ liệ u (NNHNL) vớ i các công cụ xử lýngôn ngữ tự nhiên hiệ u quả có ả nh hư ở ng sâu rộ ng đế n nhiề u ngành nghiên cứ ungôn ngữ Nhữ ng tính toán trong NNHNL về tầ n số sử dụ ng từ vự ng, mứ c độ phân

bố củ a các đơ n vị từ vự ng trong văn bả n giúp hình dung rõ nét bứ c tranh văn bả n

thuộ c nhiề u lĩnh vự c vớ i nhữ ng phổ màu từ vự ng đậ m nhạ t khác nhau Để nghiên

cứ u từ vự ng chuyên ngành thông qua KNL cầ n dự a trên việ c kế t hợ p cả hai lý

thuyế t, lý thuyế t về xây dự ng KNL vớ i lý thuyế t dạ y tiế ng liên quan đế n từ vự ngchuyên ngành Do đó, trong chư ơ ng đầ u, bên cạ nh việ c tổ ng quan các nghiên cứ u

NNHNL có liên quan, luậ n án tiế n hành nghiên cứ u lý thuyế t từ hai mả ng này để

mộ t mặ t có thể xây dự ng đư ợ c mộ t kho ngữ liệ u phù hợ p, mặ t khác có thể xác đị nhphạ m vi sử dụ ng từ vự ng trong khuôn khổ kho ngữ liệ u giáo khoa vừ a thành lậ p

Fang, 1992; Luzón, 2000; Romer, 2002; Hyland, 2007; Bin Zou, 2015 đã có nhữ ngđóng góp đáng kể trong nghiên cứ u thể loạ i, phân tích và đị nh lư ợ ng từ vự ng trong

lĩnh vự c họ c thuậ t và ngành nghề Tuy nhiên, xu hư ớ ng xây dự ng các KNL thế hệthứ hai (cuố i thế kỷ 20, đầ u thế kỷ 21) đi theo quan điể m tổ ng hợ p dữ liệ u qui mô

lớ n Chúng giố ng như tổ ng kho vớ i đa dạ ng các thể loạ i văn bả n khai thác từ nhiề unguồ n vớ i thờ i gian, không gian và đố i tư ợ ng tạ o văn bả n khác nhau như ng lạ i ít

Trang 21

phù hợ p vớ i nhữ ng nghiên cứ u trên lĩnh vự c cụ thể Do đó, việ c khai thác mả ngchuyên ngành từ các tổ ng kho lớ n thư ờ ng gặ p nhiề u bấ t cậ p.

Trong khoả ng mộ t thậ p kỷ trở lạ i đây, các nhà giáo dụ c quan tâm khai thác

ngữ liệ u ở phạ m vi hẹ p hơ n là giáo khoa và tài liệ u họ c tậ p (Chujo, 2004; Biber,

2004 ; Anping, 2004 ; Meunier & Gouverneur, 2007), tiế p tụ c hư ớ ng tớ i phân tích

ngôn ngữ trên ba mả ng: vĩ mô (thể loạ i và tính chân thự c củ a văn bả n, giao tiế p

khẩ u ngữ ), vi mô (phân tích các yế u tố từ vự ng, các tiêu chí ngữ pháp) và mô tả

chư ơ ng trình Các nghiên cứ u này hình thành nên các KNL giáo khoa Tuy nhiên,

các KNL vẫ n có xu hư ớ ng tổ ng hợ p ngữ liệ u đa ngành hoặ c mộ t nhóm các chuyên

ngành gầ n mà không hư ớ ng tớ i mộ t chuyên ngành nào cụ thể

Xuấ t phát từ quan điể m tìm hiể u các hư ớ ng thành lậ p KNL giáo khoa hơ n làphủ nhậ n toàn bộ nhữ ng thiế t kế KNL giáo khoa không nghiên cứ u mộ t chuyênngành như hiệ n nay, chúng tôi xem xét các KNL có quan hệ gầ n nhấ t vớ i phạ m vi

tìm hiể u củ a luậ n án Đó là các KNL lấ y tậ p hợ p ngôn ngữ từ sách, tư liệ u giáo

khoa và đư ợ c chú giả i dự a trên đặ c điể m củ a tậ p hợ p đó Chúng đư ợ c sử dụ ng trong

phân tích thể loạ i, đị nh lư ợ ng từ vự ng, đánh giá giáo trình, chư ơ ng trình giả ng dạ y

và thiế t kế sách giáo khoa

1.1.1.1 Kho ngữ liệ u giáo khoa dành cho phân tích thể loạ i

Các KNL giáo khoa dành chophân tích thể loạ i ngôn ngữ thư ờ ng xác đị nh tưliệ u theo tiêu chí tư ơ ng đồ ng về trình độ hoặ c chư ơ ng trình đào tạ o, đơ n cử nhưKNL giáo khoa tiế ng Anh họ c thuậ t TOEFL 2000 (thuộ c KNL T2K-SWAL) (Biber

2004) hayKNL giáo khoa tiế ng Anh-Đứ c (German English as a Foreign Language

Textbook Corpus (GEFL-TC) củ a Römer (2004).

Tuy nhiên, hai KNL trên khác nhau cả về độ lớ n lẫ n cách thứ c chú giả i KNLTOEFL 2000 thu thậ p ngôn ngữ họ c thuậ t từ SGK trong trư ờ ng đạ i họ c Mỹ vớ i

760.619 hiệ n dạ ng, còn KNL GEFL-TC nhỏ hơ n nhiề u, chỉ gồ m 108.424 hiệ n dạ ng

lấ y từ SGK dạ y tiế ng Anh ở trư ờ ng cấ p hai củ a Đứ c KNL TOEFL 2000 đư ợ c chúgiả i chi tiế t về loạ i từ , cú pháp, giúp phân tích đặ c điể m ngữ pháp, phân tích ngữ

Trang 22

pháp từ vự ng, phân bố từ vự ng, chuỗ i đồ ng hiệ n2 đa ngữ vự c, trong khi KNL củ a

Römer khá đơ n giả n về kế t cấ u, tậ p hợ p thủ công và không chú giả i Có thể lý giả i

mứ c độ chú giả i củ a hai KNL này qua mụ c đích nghiên cứ u KNL TOEFL 2000phân tích cả các yế u tố vĩ mô như tỉ lệ văn bả n đa ngữ vự c (36 ngành), và yế u tố vi

mô như từ loạ i, ngữ nghĩa, ngữ pháp, diễ n ngôn, KNL giúp tích hợ p các nộ i dung

vĩ mô và vi mô ngôn ngữ trong thiế t kế bài đọ c và nộ i dung kiể m tra đánh giá.Trong khi đó, KNL GEFL-TC chỉ tậ p trung nghiên cứ u trên ở phư ơ ng diệ n vi mô làdiễ n đạ t tình thái và tiế p diễ n ở các bài hộ i thoạ i trong SGK

Nhìn chung, cả hai KNL phân tích thể loạ i trên đề u không đư ợ c phổ biế n

rộ ng rãi Nguyên nhân là do KNL TOEFL 2000 cầ n đư ợ c bả o mậ t trong kiể m tra

đánh giá, còn KNL GEFL-TC bị hạ n chế về tính đạ i diệ n khẩ u ngữ có trong tư liệ uvăn bả n sách giáo khoa Xét về khả năng khai thác trong từ ng chuyên ngành cụ thể ,

TOEFL 2000 lấ y tư liệ u từ quá nhiề u ngành (36 ngành) nên số lư ợ ng ngữ liệ u củ a

mỗ i ngành ít, không đả m bả o phụ c vụ cho phân tích Trong khi đó, KNL GEFL-TC

lạ i tậ p hợ p ngôn ngữ trong sách giáo khoa phổ thông, nên về cơ bả n KNL nàykhông phụ c vụ cho nghiên cứ u chuyên ngành

1.1.1.2 Kho ngữ liệ u giáo khoa dành cho đị nh lư ợ ng từ vự ng và đánh giá giáo trình

Các KNL giáo khoa tiế ng Anh thiế t kế cho đị nh lư ợ ng từ vự ng hay đánh giá

giáo trìnhthư ờ ng lấ y ngữ liệ u giáo khoa toàn văn theo nhiề u bậ c trình độ như KNL

củ a Nhậ t (Chujo, 2004) và KNL giả ng dạ y tiế ng Anh ở Trung Quố c (Corpora of EFL Education in China - CEEC) (2005-2007) (Bin Zou et al, 2015). Mẫ u toàn văn

đả m bả o tỉ lệ củ a các tiể u kho chính là tỉ lệ củ a văn bả n thự c

Tuy nhiên, để đị nh lư ợ ng từ vự ng, KNL củ a Nhậ t đư ợ c thiế t kế trên ngữ liệ u

tĩnh (non-dynamic) gồ m 222.308 hiệ n dạ ng KNL bao gồ m các tiể u kho lấ y ngữliệ u từ giáo trình, bà i kiể m tra theo trình độ như năm đầ u và năm cuố i trung họ c phổthông,các bài thi vào cao đẳ ng và đạ i họ c, bài thi TOEFL và TOEIC, sách dạ y tiế ng

2 Chu ỗ i đồ ng hiệ n (lexical bundles): là chuỗ i từ vự ng xuấ t hiệ n nố i tiế p nhau theo tầ n số và c ác tiêu chí phân

bố nhấ t đị nh, đư ợ c trích xuấ t từ kho ngữ liệ u (Chan & Baker, 2010:30)

Trang 23

Anh cho sinh viên đạ i họ c từ cơ sở đế n chuyên ngành (thuộ c lĩnh vự c kỹ thuậ t vàcông nghệ ), và các bài báo tiế ng Anh thuộ c lĩnh vự c công nghệ trong trư ờ ng đạ i họ c

(Chujo, 2004) KNL củ a Nhậ t áp dụ ng kỹ thuậ t tính toán các đơ n vị từ vự ng trong

Danh sách từ cơ bả n (Base List) trong KNL Anh ngữ quố c gia BNC (British National Corpus)để đo lư ợ ng từ vự ng giả ng dạ y ở mỗ i trình độ

Điể m ư u việ t củ a nghiên cứ u KNL củ a Nhậ t là dự a hẳ n vào mộ t hệ thố ng

giáo trình sẵ n có để tính toán lư ợ ng từ trong sách giáo khoa vớ i 3.200 từ đầ u mụ c ở

bậ c đầ u trung họ c và 6.300 từ đầ u mụ c ở bậ c đạ i họ c (Chujo, 2004:239) Vố n từ ở

các trình độ theo đánh giá là phù hợ p vớ i giao tiế p thự c tế củ a ngư ờ i bả n ngữ dự a

trên Danh sách từ cơ bả n (Base list) trong KNL Anh ngữ quố c gia là nhóm từ vự ng

có tầ n số sử dụ ng cao nhấ t Tuy nhiên, nhậ n đị nh trên lạ i là như ợ c điể m củ a nghiên

cứ u bở i nó đồ ng nhấ t vố n từ cơ bả n củ a ngư ờ i bả n ngữ vớ i vố n từ củ a ngư ờ i họ cngoạ i ngữ Ngoài ra, tuy có đề cậ p đế n nhóm từ chuyên ngành khoa họ c và công

nghệ cầ n họ c như ng nghiên cứ u chư a đề cậ p đế n mứ c độ phù hợ p củ a vố n từ vự ng

đư ợ c xác đị nh đố i vớ i khả năng tiế p thu củ a ngư ờ i họ c Hơ n nữ a, KNL tậ p trungvào đo lư ợ ng từ vự ng hơ n là xem xét tỉ lệ từ vự ng giữ a các tiể u kho trong quá trình

tiế p thu kiế n thứ c theo từ ng bậ c họ c

Trong khi đó, cũng đư ợ c xây dự ng để đị nh lư ợ ng từ vự ng và đánh giáchư ơ ng trình, tiể u kho ngữ liệ u giáo khoa Anping (2004) nằ m trong KNL giám sát

CEEC có tính độ ng (dynamic) đư ợ c cậ p nhậ t hàng năm (đạ t 2,88 triệ u từ năm

2007) Tiể u kho này ban đầ u thố ng kê hơ n 1 triệ u hiệ n dạ ng vớ i các tiể u kho bậ c

dư ớ i đư ợ c xây dự ng từ ng ữ liệ u sách tiế ng Anh biên soạ n trong nư ớ c và nư ớ c ngoài

ở 5 trình độ từ trung họ c phổ thông đế n đạ i họ c Nó có chú giả i khá điể n hình bở i

vừ a mang tính giáo khoa, vừ a mang tính sư phạ m Nhờ hệ thố ng chú giả i này,ngư ờ i sử dụ ng có thể khai thác ngữ liệ u từ các dạ ng bài tậ p, tìm hiể u đặ c điể m nổ i

bậ t trong thiế t kế các loạ i bài tậ p khác nhau , nghiên cứ u về số lư ợ ng và chấ t lư ợ nggiáo trình, từ đó đánh giá mứ c độ phả n ánh lý thuyế t họ c tậ p và phư ơ ng pháp giả ng

dạ y hiệ n đạ i trong SGK Đố i vớ i ngư ờ i họ c, KNL nói chung và tiể u kho nói riêng

Trang 24

đư ợ c sử dụ ng để phát huy phư ơ ng pháp họ c qui nạ p, thông qua ngữ liệ u khai thác

để tổ ng hợ p kiế n thứ c cầ n thiế t trong chư ơ ng trình, đị nh hư ớ ng họ c tậ p

Mặ c dù tính chấ t độ ng củ a KNL Anping thích hợ p cho nghiên cứ u nhữ ngthay đổ i về ngôn ngữ hay kế t cấ u văn bả n như ng lạ i không ư u việ t trong nghiên cứ u

vố n từ cố đị nh cho các bậ c họ c bở i từ vự ng trong tậ p hợ p luôn thay đổ i Bên cạ nh

đó, do đư ợ c thiế t kế cho ngư ờ i họ c ở Trung Quố c nên KNL không sử dụ ng phổ biế ncho ngư ờ i họ c tiế ng Anh như mộ t ngoạ i ngữ (EFL) nói chung Điề u đáng nói là dù

tậ p hợ p từ các giáo trình chuyên ngành như ng phân tích củ a KNL không thể hiệ n sựkhác biệ t giữ a các nhóm văn bả n chuyên ngành và cơ sở Xét cho cùng,cũng giố ngnhư KNL giáo khoa Chujo, KNL giáo khoa Anping thu thậ p ngữ liệ u từ toàn bộSGK có trong chư ơ ng trình họ c, chú trọ ng đế n khai thác đị nh lư ợ ng hơ n là thiế t kế

khung lấ ymẫ u cho các tiể u kho

1.1.1.3 KNL giáo khoa tiế ng Anh dành cho thiế t kế giáo trình

KNL giáo khoa dành cho thiế t kế giáo trình đư ợ c xây dự ng dự a trên các tậ p

hợ p ngữ liệ u cùng trình độ , cùng cấ u trúc và có chú giả i văn bả n chi tiế t phụ c vụcho việ c khai thác ngữ liệ u theo tổ chứ c hay kế t cấ u dạ ng bài, đặ c trư ng thể loạ i

(ngôn bả n, văn bả n), và cả các yế u tố vi mô (từ vự ng, ngữ pháp) trong ngữ liệ u

SGK Mặ c dù KNL củ a Trung Quố c và Nhậ t đư ợ c coi là có thể sử dụ ng trong xây

dự ng giáo trình, như ng để khai thác chi tiế t mọ i đặ c trư ng trong thiế t kế , ngư ờ i tachỉ nhắ c tớ i mộ t đạ i diệ n duy nhấ t cho đế n nay là KNL TeMa củ a trung tâm CECL

(Centre for English Corpus Linguistics) thuộ c Đạ i họ c Cơ đố c giáo Louvain

(Université Catholique de Louvain)

KNL TeMa là KNL giáo khoa lớ n nhấ t từ trư ớ c đế n nay (Meunier &

Gouverneur 2007) vớ i tậ p hợ p ngữ liệ u đáng tin cậ y gồ m 724.174 hiệ n dạ ng, tậ p

hợ p từ 10 bộ sách dạ y tiế ng Anh (32 tậ p) trình độ trung và cao cấ p đư ợ c sử dụ ng

nhiề u nhấ t trên giả ng dạ y Anh ngữ quố c tế Ngữ liệ u trong KNL TeMa điể n hình và

phù hợ p vớ i nhiề u đố i tư ợ ng ngư ờ i họ c tiế ng Anh ở nhiề u nư ớ c trên thế giớ i

Trang 25

Hình 1.1 Thiế t kế và đánh dấ u trong KNL TeMa

(Nguồ n: Taal Ann Den Lijve, 2008)

Về tổ chứ c thiế t kế , KNL TeMa đư ợ c phân tầ ng và đánh dấ u ngữ liệ u theo 16

tiể u kho Các tiể u kho đư ợ c chia theo trình độ , loạ i tài liệ u (sách họ c, sách bài tậ p),

dạ ng dữ liệ u (văn bả n, bả n ghi khẩ u ngữ , bài tậ p từ vự ng, chỉ dẫ n, ) Ngư ờ i ta sử

dụ ng trên 80 đuôi (tag) để đánh dấ u, xác đị nh 7 dạ ng bài tậ p từ vự ng chính gồ m:hoàn thành câu, đị nh nghĩa, sắ p xế p từ trong nhóm, thay thế từ và cụ m từ , đọ c hiể u,

sử a lỗ i, viế t lạ i câu Các tiể u kho cũng đư ợ c chú giả i theo hư ớ ng sư phạ m vớ i cácđuôi đặ c biệ t (Ad hoc) đánh dấ u vấ n đề nhằ m phụ c vụ cho các mụ c tiêu nghiên cứ u

đặ c thù Hình 1.1 cho thấ y cách bố trí và đánh dấ u củ a mộ t bộ SGK có trong KNL

KNL giáo khoa TeMa cho phép khai thác đa dạ ng và hiệ u quả các thông tin

để phụ c vụ giả ng dạ y, họ c tậ p, đánh giá sách giáo khoa, nghiên cứ u siêu ngôn ngữ

trong sách giáo khoa Tuy nhiên, KNL này chỉ tậ p trung vào thiế t kế dạ ng bài vàsiêu ngôn ngữ hơ n là nghiên cứ u đị nh lư ợ ng từ vự ng Hơ n nữ a, việ c tậ p trung vàocác giáo trình trung và cao cấ p chư a thể hiệ n đặ c trư ng thiế t kế theo bậ c củ a các

Trang 26

1.1.1.4 Nhậ n xét chung

Từ nhữ ng nghiên cứ u về thiế t kế KNL giáo khoa tiế ng Anh trên thế giớ i, cóthể thấ y KNL mặ c dù chỉ đư ợ c khai thác trong phạ m vi SGK cũng rấ t đa dạ ng: mộ ttrình độ , đa trình độ , kế t hợ p cả ngôn ngữ cơ sở và chuyê n ngành Các tiể u khochứ a ngữ liệ u có thể đư ợ c thiế t kế ở dạ ng tĩnh hoặ c độ ng vớ i chú giả i phong phú vàlinh hoạ t Các KNL nghiên cứ u dạ ng và kế t cấ u tổ chứ c văn bả n đư ợ c đánh dấ u chú

giả i Các nghiên cứ u tậ p trung vào các yế u tố vi mô như ngữ pháp, từ v ự ng đư ợ c

chú giả i từ loạ i, cú pháp Các nghiên cứ u về đánh giá chư ơ ng trình, giáo trình pháthuy chú giả i văn bả n và đị nh lư ợ ng từ vự ng

Tuy nhiên, các KNL giáo khoa tậ p trung vào mộ t nhóm chuyên ngành hơ n là

mộ t chuyên ngành cụ thể Về tổ chứ c KNL, cách phân bố tiể u kho theo tỉ lệ mẫ u ít

đư ợ c chú trọ ng Do đó, nghiên cứ u vố n từ cũng như đị nh lư ợ ng từ vự ng chư a nêu

bậ t đư ợ c mố i quan hệ giữ a các nhóm từ theo từ ng trình độ , đặ c biệ t là đố i vớ i mộ tchuyên ngành cụ thể Hơ n nữ a, nghiên cứ u vố n từ và khả năng t iế p thu từ vự ng vẫ n

đi theo hư ớ ng khái quát Việ c đị nh lư ợ ng từ vự ng đư ợ c tiế n hành trên thư ớ c đo

lư ợ ng từ củ a ngư ờ i bả n ngữ để so sánh hơ n là đư a ra vố n từ khả thi có thể áp dụ ng

như ng KNL giáo khoa tiế ng Anh chuyên ngành vẫ n chư a đư ợ c xây dự ng ở Việ t

Nam Các nghiên cứ u KNL cũng rấ t hạ n chế , ngoạ i trừ mộ t số ứ ng dụ ng KNL trong

dị ch máy và phân tích ngữ pháp củ a các tác giả như Đào Hồ ng Thu (2011) vàPhạ m Hiể n (2012, 2014) Ngay cả các vấ n đề lý thuyế t về NNHNL và cách thành

lậ p KNL cũng rấ t ít đư ợ c đề cậ p

Trang 27

Xuấ t phát từ nhu cầ u thự c tế về nghiên cứ u xây dự ng KNL phụ c vụ giả ng

dạ y ngoạ i ngữ nói chung và tiế ng Anh chuyên ngành nói riêng , luậ n án tìm hiể u

mộ t số vấ n đề lý thuyế t cầ n thiế t cho việ c thành lậ p mộ t KNL giáo khoa tiế ng Anhphù hợ p vớ i tình hình giả ng dạ y trong nư ớ c, hư ớ ng tớ i mộ t chuyên ngành cụ thể -

chuyên ngành Xă hộ i họ c Bên cạ nh việ c bổ sung mộ t số lý luậ n để tạ o dự ng KNL

giáo khoa tiế ng Anh chuyên ngành, luậ n án còn làm rõ nhữ ng vấ n đề lý luậ n có liên

quan đế n Ngôn ngữ họ c ngữ liệ u và qui trình thành lậ p KNL phụ c vụ dạ y tiế ng, mộ t

mả ng nghiên cứ u vẫ n còn bỏ ngỏ ở Việ t Nam

Trư ớ c khi tiế n hành các nghiên cứ u cụ thể , luậ n án đề cậ p đế n mộ t số vấ n đề

lý luậ n có liên quan, bao gồ m việ c xác lậ p quan niệ m về NNHNL, KNL, mụ c đíchthành lậ p KNL trên phư ơ ng diệ n chi phố i sự hình thành các loạ i KNL, trong đó cóKNL giáo khoa, mộ t hư ớ ng phát triể n mớ i trong nghiên cứ u KNL sư phạ m

1.2 Cơ sở lý luậ n củ a luậ n án

1.2.1 Nhữ ng khái niệ m cơ bả n củ a ngôn ngữ họ c ngữ liệ u

1.2.1.1 Khái niệ m về ngôn ngữ họ c ngữ liệ u

Thuậ t ngữ Corpus Linguistics (Ngôn ngữ họ c ngữ liệ u) lầ n đầ u tiên đư ợ c

Aarts và Van den Heuvel sử dụ ng năm 1982 (dẫ n theo Taylor, 2008: 179) để chỉ

các nghiên cứ u liên quan đế n việ c xây dự ng và sử dụ ng Kho ngữ liệ u (KNL) Đế nnay, ngôn ngữ họ c ngữ liệ u (NNHNL) đư ợ c tiế p cậ n từ nhiề u góc độ và đư ợ c mô tả

ở nhiề u khía cạ nh khác nhau Mộ t số nghiên cứ u khai thác phư ơ ng diệ n phư ơ ng

pháp trong phân tích ngữ liệ u về mặ t đị nh lư ợ ng và đị nh tính (Wilson, 1996 ;Kennedy, 1998; Meyer, 2002; Müller & Wibel, 2016), trong khi số khác đề caotính hệ thố ng củ a các phư ơ ng pháp và nguyên tắ c ứ ng dụ ng KNL trong nghiên cứ u,khẳ ng đị nh tư cách lý thuyế t củ a NNHNL (McEnergy, Xiao and Tono, 2006: 7-8)

Các nhà nghiên cứ u như Leech (1992), McEnergy, Xiao and Tono (2006),Tognini Bonelli (2000, 2001), Stubbs (1993), Teubert (2005), Mahlberg (2005),Thompson and Hunston (2006), cũng thừ a nhậ n phư ơ ng diệ n lý thuyế t trong

Trang 28

nghiên cứ u NNHNL và đề cậ p đế n nó trong quá trình tạ o lậ p và khai thác KNL.

Leech (1992: 106) cho rằ ng “NNHNL máy tính (Computer Corpus Linguistics) xác

lậ p không chỉ mộ t hệ phư ơ ng pháp mớ i để nghiên cứ u ngôn ngữ mà còn là hoạ t

độ ng nghiên cứ u mớ i, trên thự c tế đây là cách tiế p cậ n về mặ t lý luậ n về chủ đề

này

Nguyễ n Thiệ n Giáp (2016: 308) cũng khẳ ng đị nh vị thế lý thuyế t củ a NNHNL

và bổ sung thêm vai trò củ a nó trong đị a hạ t ngôn ngữ Ông cho rằ ng “Ngôn ngữ

họ c kho ngữ liệ u (Corpus Linguistics) là sự nghiên cứ u ngôn ngữ như đư ợ c biể u lộ trong các mẫ u củ a các văn bả n thự c Đây là mộ t cách tiế p cậ n dễ hiể u để có đư ợ c

mộ t tậ p hợ p các qui tắ c trừ u tư ợ ng củ a các ngôn ngữ tự nhiên Ngôn ngữ họ c kho ngữ liệ u chia sẻ niề m tin rằ ng sự phân tích ngôn ngữ họ c diễ n ra ở nhữ ng mẫ u văn

bả n thu thậ p đư ợ c, trong ngữ cả nh tự nhiên, hạ n chế đế n mứ c thấ p nhấ t nhữ ng suy

đoán chủ quan thì sẽ đáng tin cậ y hơ n

Xét từ nhiề u phư ơ ng diệ n, có thể thấ y NNHNL tậ p hợ p lý thuyế t và phư ơ ngpháp nghiên cứ u đa ngàn h – ngôn ngữ , công nghệ và dạ y họ c – để phụ c vụ cácnghiên cứ u đa lĩnh vự c Cách thứ c xây dự ng và ứ ng dụ ng KNL kế t hợ p vớ i quanniệ m nghiên cứ u NNHNL hiệ n đạ i củ a Sinclair (2004), Tognini-Bonelli (2000,

2001), McEnery (2004), Bennett (2010), góp phầ n khẳ ng đị nh NNHNL là mộ t khoa họ c liên ngành trong đó xác lậ p hệ thố ng phư ơ ng pháp và lý th uyế t đặ c thù để

nghiên cứ u KNL ngôn ngữ Nó lấ y đố i tư ợ ng là các tậ p hợ p ngôn ngữ , kế t hợ p vớ i phầ n mề m phân tích để đư a ra các kế t quả đáng tin cậ y trong nghiên cứ u ngôn ngữ trên nhiề u phư ơ ng diệ n, đồ ng thờ i kiể m nghiệ m hiệ u quả củ a hệ thố ng phầ n mề m

xử lý.Các kế t quả trong nghiên cứ u NNHNL phụ c vụ và thúc đẩ y sự phát triể n trênnhiề u lĩnh vự c như ngôn ngữ họ c, công nghệ xử lý ngôn ngữ tự nhiên, và công nghệ

dạ y họ c ngoạ i ngữ Nhậ n đị nh trên đư ợ c minh chứ ng qua nhiề u nghiên cứ u củ aFang, 1992; Nunan, 1999; Biber, 2001; Hunston, 2001; Nation, 2001; Nation &Heatley, 2002; Gries, 2005; Bennett, 2010; Anthony, 2012; Glynn, 2012; Gardner,2013; Kohn, 2013,

Trang 29

1.2.1.2 Khái niệ m Kho ngữ liệ u (KNL)

Khái niệ m Kho ngữ liệ u (Corpus) phầ n nhiề u đư ợ c hình thành từ quan n iệ m

coi tậ p hợ p ngữ liệ u văn bả n, gồ m văn bả n viế t (văn bả n bút ngữ ) và văn bả n nói(bả n ghi khẩ u ngữ ), làm cơ sở cho phân tích và mô tả ngôn ngữ (Kennedy, 1998: 1).Trên thự c tế , dạ ng văn bả n hay hình thứ c ngữ liệ u cũng như việ c phân tích ngôn

ngữ chư a đủ để tạ o nên KNL, mà việ c tổ chứ c củ a tậ p hợ p ngữ liệ u văn bả n mớ i

tạ o nên diệ n mạ o cho các KNL Đố i vớ i mộ t KNL hiệ n đạ i, công nghệ xử lý ngônngữ tự nhiên đóng mộ t vai trò quan trọ ng không chỉ trong việ c thu thậ p, phân tíchngữ liệ u mà còn trong tổ chứ c, trình hiệ n ngữ liệ u Do đó, nói đế n các KNL hiệ n

đạ i không thể không đề cậ p đế n cách thứ c lư u trữ và xử lý ngữ liệ u

Công nghệ xử lý ngôn ngữ tự nhiên cuố i thế kỷ 20, đầ u thế kỷ 21 mang đế n

các KNL đồ sộ , đa dạ ng hơ n nhiề u so vớ i trư ớ c đó về loạ i văn bả n và phạ m vi khaithác văn bả n Yêu cầ u xử lý thông tin đa lĩnh vự c, đa chiề u mộ t cách chính xác và

nhanh chóng phủ nhậ n dầ n cách thứ c lư u trữ theo lố i thủ công và xác lậ p văn bả n

đư ợ c “lư u trữ dư ớ i dạ ng điệ n tử ” cùng tư cách “nguồ n tư liệ u ” củ a các KNL

(Leech, 1992: 116; Sinclair, 2004: 12; McEnery, 2004: 29; Bennett, 2010: 2) Cácnghiên cứ u NNHNL chú trọ ng hơ n đế n cách thứ c chọ n mẫ u ngôn ngữ (tậ p hợ p cácvăn bả n / đoạ n văn bả n), tính đạ i diệ n, cách thứ c lư u trữ và mụ c đích sử dụ ng (tham

chiế u chuẩ n) củ a KNL Bên cạ nh đó, khả năng đọ c đư ợ c trên máy và độ lớ n củ aKNL cũng đư ợ c coi trọ ng McCarthy (2004:1) đị nh nghĩa: “Kho ngữ liệ u là tậ p

hợ p ngữ liệ u văn bả n, bút ngữ và khẩ u ngữ , thư ờ ng đư ợ c lư u trữ dư ớ i dạ ng cơ sở

dữ liệ u trên máy tính Mộ t KNL có thể nh ỏ , gồ m 50.000 từ , cũng có thể rấ t lớ n vớ i nhiề u triệ u từ ” Nguyễ n Thiệ n Giáp (2016 : 211) cũng đư a ra đị nh nghĩa KNL là

“mộ t tậ p hợ p lớ n, đã cấ u trúc hóa củ a các văn bả n đư ợ c dùng như mộ t cơ sở để

nghiên cứ u ngôn ngữ Giá trị và phẩ m chấ t củ a KNL phầ n lớ n phụ thuộ c vào cách tiế p cậ n cụ thể và phư ơ ng pháp luậ n củ a khung lý thuyế t củ a sự nghiên cứ u Hiệ n

nay, KNL thư ờ ng đư ợ c xử lý và tàng trữ bằ ng điệ n tử

Trang 30

Trên thự c tế , cách thứ c lư u trữ văn bả n điệ n tử chiế m mộ t phầ n đáng kể trongnghiên cứ u KNL, giúp kéo các nghiên cứ u KNL lạ i gầ n hơ n vớ i Ngôn ngữ họ c tínhtoán trong việ c “sử dụ ng các thuậ t toán, thư ờ ng có sự trợ giúp củ a máy tính ( ) để

phân tích các dữ liệ u ngôn ngữ , chẳ ng hạ n, trong việ c xác lậ p thứ tự trong đó

ngư ờ i nói thụ đắ c các quy tắ c ngữ pháp khác nhau hoặ c tầ n số xuấ t hiệ n củ a mộ t số

đơ n vị nào đó”(Nguyễ n Thiệ n Giáp, 2016 : 316)

Trên cơ sở xem xét các quan niệ m về KNL hiệ n đạ i cùng vớ i tính c hấ t và hoạ t

độ ng củ a KNL, có thể thấ y mộ t tậ p hợ p các mẫ u ngôn ngữ tự nhiên (khẩ u ngữ hoặ c

bút ngữ ) để trở thành mộ t KNL cầ n đáp ứ ng các tiêu chí thiế t kế nhấ t đị nh, đư ợ c

lư u trữ và xử lý dư ớ i dạ ng điệ n tử , đạ i diệ n cho mộ t ngôn ngữ hay mộ t biế n thể

ngôn ngữ và đư ợ c dùng làm tư liệ u nguồ n phụ c vụ nghiên cứ u ngôn ngữ Nhữ ng

yế u tố trên thể hiệ n tính chấ t tổ ng hợ p củ a nghiên cứ u, xác lậ p tính tổ chứ c và tính

mô phỏ ng theo tỉ lệ sử dụ ng củ a mộ t biế n ngôn ngữ nhấ t đị nh mà KNL đư ợ c thành

lậ p Bên cạ nh đó, đặ c điể m độ lớ n củ a tậ p hợ p ngôn ngữ cũng đư ợ c nhấ n mạ nh vớ i

tư cách là tư liệ u nguồ n phụ c vụ nghiên cứ u

Ngôn ngữ họ c ngữ liệ u nghiên cứ u xây dự ng các KNL và dùng chúng để

nghiên cứ u ngôn ngữ Các KNL hỗ trợ mô tả về đị nh lư ợ ng và đị nh tính ngôn ngữthông qua phân tích ngữ liệ u và phân tích phân bố từ vự ng trong KNL Tuy nhiên,nhiề u yế u tố như phạ m vi, qui trình xử lý, phư ơ ng tiệ n, số lư ợ ng ngôn ngữ , đố i

tư ợ ng phát ngôn và cách chú giả i ngôn ngữ , chi phố i các hư ớ ng tiế p cậ n khácnhau đố i vớ i KNL Xét từ góc độ phạ m vi nghiên cứ u, KNL phổ thôn g nghiên cứ u

tổ ng thể ngôn ngữ phân biệ t vớ i KNL chuyên ngành phụ c vụ nghiên cứ u chuyênmôn hẹ p Từ góc độ qui trình xử lý, lự a chọ n văn bả n có thể tiế p cậ n KNL mẫ u văn

bả n và KNL toàn văn Tính năng độ ng củ a KNL mang tớ i nhữ ng phân tích KNL

“đóng” không đư ợ c cậ p nhậ t và KNL “mở ”, còn đư ợ c gọ i là KNL giám sát ha y

“ngân hàng văn bả n” Trên phư ơ ng diệ n phư ơ ng tiệ n có KNL bút ngữ , KNL khẩ u

ngữ và KNL tổ ng hợ p Số ngôn ngữ sử dụ ng trong mộ t KNL tạ o nên KNL đơ n ngữ ,

KNL song song hay đa ngữ Thờ i gian mà số liệ u ngôn ngữ thu thậ p mang lạ i KNL

Trang 31

đồ ng đạ i hay lị ch đạ i Đố i tư ợ ng phát ngôn tạ o ra KNL bả n ngữ hoặ c KNL củ angư ờ i họ c Và cách chú giả i KNL cho ra đờ i KNL thuầ n văn bả n hay KNL chú giả i.

Xuấ t phát từ mụ c đích nghiên cứ u, các kiể u KNL khác nhau đã đư ợ c xây

dự ng vớ i các đặ c trư ng trong tậ p hợ p ngôn ngữ , xử lý và phân tích tư liệ u Các

nghiên cứ u ngôn ngữ họ c ngữ liệ u hiệ n đạ i đề cậ p đế n 8 loạ i KNL thông dụ ng đư ợ cxây dự ng theo mụ c đích gồ m KNL phổ thông, KNL giám sát, KNL chuyên dụ ng,

KNL lị ch sử , KNL so sánh, KNL song song, KNL ngư ờ i họ c và KNL sư phạ m

(Hunston, 2002 : 14-16 ; Bennet, 2010)

KNL phổ thông (General Corpora) đư ợ c xây dự ng để nghiên cứ u toàn bộ

ngôn ngữ hoặ c các lĩnh vự c đa dạ ng bên trong ngôn ngữ Kho ngữ liệ u này thư ờ ngdùng như tài liệ u tham chiế u cho việ c họ c ngôn ngữ cũng như dị ch thuậ t và đư ợ c

biế t đế n vớ i cái tên KNL tham chiế u (Reference Corpora) Các KNL phổ thông

khá lớ n, chứ a tậ p hợ p ngôn ngữ gồ m nhiề u loạ i văn bả n, cả bút ngữ lẫ n khẩ u ngữ ,

lấ y từ mộ t hay nhiề u ngôn ngữ Các KNL phổ thông điể n hình đư ợ c biế t đế n nhiề u

nhấ t hiệ n nay là KNL Anh ngữ quố c gia (British National Corpus - BNC) gồ m 100triệ u hiệ n dạ ng (số lầ n xuấ t hiệ n củ a mộ t dạ ng hay mộ t đơ n vị từ vự ng trong văn

bả n – quan niệ m này sẽ đư ợ c đề cậ p cụ thể ở chư ơ ng 3), KNL Ngân hàng Anh ngữ

(Bank of English – BoE) gồ m trên 400 triệ u hiệ n dạ ng, KNL tiế ng Anh-Mỹ

(American National Corpus), KNL tiế ng Tây Ban Nha (http:

Mặ c dù có qui mô lớ n, các KNL phổ thông vớ i bả n chấ t tĩnh chỉ thể hiệ n tínhchấ t ngôn ngữ ở mộ t thờ i điể m nhấ t đị nh Các nghiên cứ u mang tính thờ i sự vềnhữ ng biế n đổ i củ a ngôn ngữ cầ n sử dụ ng các KNL đư ợ c cậ p nhậ t, bổ sung ngữ liệ u

thư ờ ng xuyên, đư ợ c gọ i là KNL giám sát (Monitor Corpora) Các KNL giám sát

thư ờ ng có qui mô rấ t lớ n, có dung lư ợ ng thay đổ i liên tụ c, chứ a đự ng các thông tin

mớ i nhấ t về ngôn ngữ thự c, cung cấ p tư liệ u ngôn ngữ phong phú trên nhiề u lĩnh

vự c KNL giám sát nổ i bậ t hiệ n nay cầ n kể đế n KNL tiế ng Anh Mỹ hiệ n đạ i

Trang 32

(COCA) gồ m 450 triệ u hiệ n dạ ng (2009-2012), KNL từ điể n tiế ng Anh củ a Đạ i họ cOxford (OED) chứ a gầ n 2,5 tỉ hiệ n dạ ng và KNL giám sát lớ n nhấ t Collins vớ i độ

lớ n đạ t trên 4,5 tỉ hiệ n dạ ng

Không giố ng vớ i KNL giám sát, KNL lị ch sử (Historical / Diachronic Corpora) đư ợ c xây dự ng để nghiên cứ u các biế n đổ i ngôn ngữ giữ a các giai đoạ n

lị ch sử Các KNL này không cậ p nhậ t ngữ liệ u liên tụ c mà thu thậ p ngữ liệ u theo

thể loạ i và các mố c thờ i gian cầ n nghiên cứ u nên đa dạ ng về độ lớ n Các dự án xây

dự ng KNL lị ch sử như Helsinki nghiên cứ u tiế ng Scotlen cổ từ 1450-1700, KNLArcher nghiên cứ u ngôn ngữ Anh trong khoả ng thờ i gian từ 1650-1990 chỉ phântích khoả ng 2-3 triệ u hiệ n dạ ng Trong khi đó, KNL lị ch sử tiế ng Anh-Mỹ COHA

(Corpus of Historial American English) tậ p hợ p ngữ liệ u từ 1810 đế n 2009 có độ

lớ n lên tớ i 400 triệ u hiệ n dạ ng Dự a trên KNL lị ch sử , các nhà nghiên cứ u có thể sosánh ngôn ngữ qua từ ng thờ i kỳ , so sánh từ vự ng, ngữ nghĩa, phong cách hay diễ n

ngôn củ a từ nggiai đoạ n phát triể n củ a ngôn ngữ dân tộ c

Xét từ góc độ so sánh ngôn ngữ đồ ng đạ i, KNL so sánh (Comparable Corpora)đư ợ c thành lậ p để "so sánh các ngôn ngữ vớ i nhau ( ), hoặ c so sánh các

biế n thể củ a mộ t ngôn ngữ cùng thờ i kỳ ” (Hunston, 2002: 15) Các KNL so sánhthư ờ ng đư ợ c xây dự ng thành từ ng cặ p hoặ c nhóm tư ơ ng ứ ng về độ lớ n, phạ m vi

khai thác ngữ liệ u, thờ i gian ra đờ i củ a các mẫ u, nhằ m thể hiệ n nhữ ng điể m khácbiệ t và tư ơ ng đồ ng giữ a hai hay nhiề u ngôn ngữ mộ t cách rõ nhấ t Ví dụ , cặ p KNLLOB (1961) và Brown (1961), FLOB (1992) và Frown (1992) dành để so sánh

tiế ng Anh-Anh và Anh-Mỹ , các KNL ICE New Zealand, Singapore, Canada, ICE-Hongkong,…dùng để so sánh đặ c trư ng biế n thể ngôn ngữ theo đị a

ICE-phư ơ ng (phư ơ ng ngữ )

KNL song song (Parallel Corpora) cũng đư ợ c thiế t kế theo cặ p hoặ c nhóm

tiể u kho tư ơ ng ứ ng về cả phư ơ ng diệ n ngôn ngữ lẫ n độ lớ n Thự c chấ t, ngữ liệ u củ atiể u kho này là văn bả n dị ch củ a tiể u kho kia trong cùng mộ t KNL KNL song song

đư ợ c sử dụ ng trong đố i chiế u ngôn ngữ trên phư ơ ng diệ n dị ch thuậ t, ngữ dụ ng họ c,

Trang 33

hay ngôn ngữ họ c văn hóa, hư ớ ng tớ i phụ c vụ đố i tư ợ ng làm công tác biên, phiên

dị ch, nghiên cứ u và cả đố i tư ợ ng ngư ờ i họ c trong việ c tìm kiế m các cách diễ n đạ t

tư ơ ng đư ơ ng củ a hai hay nhiề u ngôn ngữ

Các nghiên cứ u cụ thể hơ n về mộ t dạ ng (type) ngôn ngữ hay mộ t ngữ vự c

(register) thư ờ ng xây dự ng KNL chuyên dụ ng (Specialized Corpora) Chúng là

“KNL tậ p hợ p mộ t dạ ng văn bả n đặ c thù như bài báo, sách, bài báo họ c thuậ t về

mộ t chủ đề cụ thể , bài giả ng, các cuộ c hộ i thoạ i, bài viế t củ a sinh viên, ”(Hunston, 2002: 14) Các KNL chuyên dụ ng có thể là tiể u kho bộ phậ n nằ m trong

mộ t KNL lớ n Tuy nhiên, nhìn chung KNL chuyên dụ ng giớ i hạ n văn bả n theo thờ igian, bố i cả nh xã hộ i, đị a điể m phát ngôn, , chẳ ng hạ n KNL diễ n ngôn CANCODE(Cambridge and Nottingham Corpus of Discourse in English) nghiên cứ u 5 triệ uhiệ n dạ ng tiế ng Anh-Anh thông dụ ng, KNL khẩ u ngữ họ c thuậ t MICASE(Michigan Corpus of Academic Spoken English) thu thậ p 1 triệ u hiệ n dạ ng khẩ u

ngữ , hay các KNL dự a trên văn bả n viế t mộ t ngành như KNL tài chính (Financial

English Corpus), KNL pháp lý (Legal English Corpus), KNL điề u dư ỡ ng và y họ c

(Nurning and Medical English Corpus),

Trong lĩnh vự c nghiên cứ u ngôn ngữ phụ c vụ giả ng dạ y, KNL ngư ờ i họ c (Learner Corpus)đư ợ c đặ c biệ t chú trọ ng trong việ c xem xét sự khác biệ t về ngôn

ngữ mà ngư ờ i họ c sử dụ ng so vớ i ngôn ngữ chuẩ n KNL ngư ờ i họ c thu thậ p ngữ

liệ u sả n sinh (productive language) gồ m các bài viế t hoặ c khẩ u ngữ củ a ngư ờ i họ cngôn ngữ như ngư ờ i họ c ngôn ngữ thứ hai, ngư ờ i họ c ngoạ i ngữ , hay ngư ờ i bả n

ngữ ở các độ tuổ i hay ngành nghề nhấ t đị nh nhằ m nghiên cứ u các yế u tố ngôn ngữ

vĩ mô như văn phong, tính chân thự c, giao tiế p khẩ u ngữ , các yế u tố ngôn ngữ vi

mô như từ vự ng, các tiêu chí ngữ âm, ngữ pháp, hay mô tả chư ơ ng trình giả ng dạ y.KNL ngư ờ i họ c đư ợ c sử dụ ng nhiề u nhấ t hiệ n nay là KNL ngư ờ i họ c quố c tế ICLE

(International Corpus of Learner English) (1990s), KNL ngư ờ i họ c củ a Đạ i họ cCambridge CLC (Cambridge Learner’s Corpus),

Trang 34

Mặ c dù KNL ngư ờ i họ c đư ợ c sử dụ ng phổ biế n như ng KNL sư phạ m (Pedagogic Corpora) có ngữ liệ u bao quát hơ n Theo Hunston (2002: 16), ngữ liệ u

trong KNL sư phạ m là “toàn bộ ngôn ngữ mà ngư ờ i họ c tiế p xúc” trong quá trình

họ c tậ p như tư liệ u văn bả n, tài liệ u, khẩ u ngữ trong giao tiế p, ngôn ngữ từ các

phư ơ ng tiệ n truyề n thông, băng, đĩa, Mở rộ ng đị nh nghĩa trên, Meunier và

Gouverneur (dẫ n theo Aijmer, 2009: 186) cho rằ ng “KNL sư phạ m cầ n đủ lớ n và

mang tính đạ i diệ n củ a ngôn ngữ , khẩ u ngữ và bút ngữ , mà ngư ờ i họ c đã và có khả

năng tiế p xúc từ các tư liệ u họ c bao gồ m văn bả n, băng đĩa và bài tậ p” Do đó, có

thể nói KNL sư phạ m là mộ t khái niệ m lớ n, bao chứ a cả ngôn ngữ tiế p nhậ n(receptive) lẫ n sả n sinh (productive) từ KNL ngư ờ i họ c, KNL giáo khoa và các tưliệ u họ c tậ p khác Tuy nhiên, cũng chính vì bao chứ a quá nhiề u ngữ liệ u trên mộ tphạ m vi rộ ng nên các KNL sư phạ m phổ thông ít đư ợ c phát triể n Thay vào đó, các

KNL sư phạ m hiệ n nay chỉ tậ p trung khai thác vào mộ t mả ng ngôn ngữ nhấ t đị nh

mà KNL giáo khoa là mộ t phầ n trong đó

1.2.1.3 Cấ u tạ o củ a Kho ngữ liệ u

Cấ u tạ o củ a mộ t kho ngữ liệ u máy tính là kế t quả củ a việ c triể n khai thiế t kếtrên ba lĩnh vự c ngôn ngữ họ c mô tả (Descriptive Linguistics), ngôn ngữ họ c tínhtoán (Computational Linguistics), và nghiên cứ u văn phong (Literary Studies)(Kennedy 1998: 85) Do đó, cấ u tạ o củ a KNL máy tính gồ m tậ p hợ p ngữ liệ u mụ c

tiêu, phầ n mề m máy tính chi phố i bở i quyế t đị nh phân tích ngôn ngữ

- Tậ p hợ p ngữ liệ u mụ c tiêu

Trư ớ c khi xác đị nh tậ p hợ p ngữ liệ u mụ c tiêu cầ n đề cậ p đế n tậ p hợ p ngữ

liệ u Tậ p hợ p ngữ liệ u (population) “là nhóm bao chứ a toàn bộ các đơ n vị mẫ u”

(McEnery, 2006: 19) và đư ợ c xác đị nh trên ba phư ơ ng diệ n: sả n sinh ngôn ngữ

(language production), tiế p nhậ n ngôn ngữ (language reception), và sả n phẩ m ngônngữ (language as a product) Ngôn ngữ sả n sinh đư ợ c tạ o ra trong hoạ t độ ng giaotiế p bao gồ m khẩ u ngữ (lờ i nói, bài phát biể u, hộ i thoạ i, độ c thoạ i, ), hoặ c bút ngữ(câu, đoạ n, bài viế t, bài nghiên cứ u, ) Ngôn ngữ tiế p nhậ n tậ p hợ p các yế u tố

Trang 35

ngôn ngữ đư ợ c tiế p thu từ bên ngoài như các bài phát biể u, bài giả ng, chư ơ ng trình

phát thanh, truyề n hình, sách, báo, Ở hai phư ơ ng diệ n này, các tiêu chí liên q uan

đế n đố i tư ợ ng sả n sinh hay tiế p nhậ n đư ợ c chú trọ ng để phân loạ i ngôn ngữ Phư ơ ng diệ n sả n phẩ m ngôn ngữ đư ợ c nhìn nhậ n từ góc độ thể loạ i (genre) hay

dạ ng văn bả n (mode) Chẳ ng hạ n, vớ i mộ t KNL dùng để nghiên cứ u văn phong báo

chí Anh-Mỹ hiệ n đạ i, tậ p hợ p ngữ liệ u mụ c tiêu sẽ đư ợ c quyế t đị nh trên phư ơ ngdiệ n sả n phẩ m ngôn ngữ bao gồ m toàn bộ các bài báo xuấ t bả n bằ ng tiế ng Anh tạ i

Mỹ

Xuấ t phát từ tậ p hợ p ngữ liệ u, phạ m vi ngôn ngữ củ a Tậ p hợ p ngữ liệ u mụ c tiêu (Target population) đư ợ c xác đị nh sao cho phù hợ p và đáp ứ ng yêu cầ u đạ i

diệ n cho ngôn ngữ hay biế n thể ngôn ngữ cầ n nghiên cứ u Giớ i hạ n củ a tậ p hợ p

mụ c tiêu đư ợ c quyế t đị nh thông qua khung lấ y mẫ u và là cơ sở để hình thành nên

tậ p hợ p mẫ u ngôn ngữ Khung lấ y mẫ u xác lậ p hệ thố ng tiể u kho theo bậ c dự a vào

các tiêu chí bên trong và bên ngoài (Các tiêu chí này sẽ đư ợ c mô tả chi tiế t ở

chư ơ ng 2)

Tậ p hợ p mẫ u ngôn ngữ (Sample population) đư ợ c giớ i hạ n bở i ranh giớ i

củ a tậ p hợ p ngữ liệ u mụ c tiêu và tổ chứ c tầ ng bậ c bên trong tậ p hợ p (Biber (1993:243) Ranh giớ i củ a tậ p hợ p ngữ liệ u mụ c tiêu làm rõ loạ i văn bả n nào đư ợ c đư a

vào và văn bả n bị loạ i ra khỏ i tậ p hợ p Khi mộ t KNL đã xác đị nh rõ tậ p hợ p ngữliệ u mụ c tiêu, chẳ ng hạ n như toàn bộ văn bả n tiế ng Anh ấ n hành năm 1961 ở Mỹ

(KNL Brown),ranh giớ i củ a tậ p hợ p xác đị nh toàn bộ văn bả n trong cùng thờ i gian

(1961), cùng ngôn ngữ (tiế ng Anh) và cùng nơ i xuấ t bả n (Mỹ ) Các văn bả n khôngcùng nơ i xuấ t bả n, không cùng năm, hoặ c không cùng ngôn ngữ sẽ bị loạ i ra khỏ i

tậ p hợ p vừ a xác đị nh

Mộ t KNL đơ n giả n cấ u tạ o bở i “mộ t tậ p hợ p bao gồ m các tiể u kho

(sub-corpora) tư ơ ng đố i đồ ng nhấ t đư ợ c xác đị nh bở i mộ t khuôn dạ ng gồ m các biế n

ngôn ngữ (variables) tạ o thành mả ng (cell), mỗ i mả ng như thế tạ o nên mộ t tiể u

Trang 36

kho” (Anke Lüdeling and Merja Kytö 2008: 154) Tuy nhiên, vớ i các KNL có cấ u

tạ o phứ c tạ p hơ n, trong quá trình thu thậ p ngữ liệ u, các mẫ u văn bả n đư ợ c tổ chứ cthành tầ ng bậ c theo nhiề u tiêu chí khác nhau Mỗ i tiêu chí xác đị nh cho KNL số

lư ợ ng tiể u kho cầ n có ở mộ t bậ c và số lư ợ ng mẫ u đơ n vị trong mỗ i tiể u kho Mộ tKNL có thể có nhiề u bậ c Các phân cấ p ban đầ u tạ o mả ng (cell), các phân cấ p sau

tạ o tiể u kho Tiể u kho lớ n bao chứ a các tiể u kho nhỏ hơ n Các tiể u kho chứ a văn

bả n đư ợ c phân chia theo dạ ng thứ c, lĩnh vự c, thể loạ i,

Mỗ i tiể u kho đư ợ c xác đị nh bở i loạ i ngôn ngữ (khẩ u ngữ , bút ngữ ), số lư ợ ngvăn bả n và độ dài củ a mỗ i văn bả n đạ i diệ n Tỉ lệ trong KNL, hay độ lớ n củ a mỗ itiể u kho, phụ thuộ c vào mứ c độ sử dụ ng củ a mả ng ngôn ngữ đư ợ c khai thác theo

các tiêu chí đư a vào nghiên cứ u Số lư ợ ng mẫ u ngôn ngữ bên trong tiể u kho quyế t

đị nh độ lớ n củ a mỗ i tiể u kho cũng như củ a toàn bộ KNL Do đó, việ c thu thậ p

lư ợ ng văn bả n phù hợ p để lấ p đầ y khuôn dạ ng theo tỉ lệ đã đị nh quyế t đị nh độ lớ n

củ a KNL và đả m bả o nộ i dung củ a nó phù hợ p vớ i mụ c đích nghiên cứ u Các tiêuchí như tính chấ t văn bả n, mứ c độ tư ơ ng tác, ngữ cả nh, lĩnh vự c, hay thậ m chí cả

đặ c điể m củ a đố i tư ợ ng phát ngôn, v.v đư ợ c sử dụ ng làm căn cứ để thiế t lậ p hệ

thố ng tiể u kho Tiêu chí quan trọ ng xác lậ p các tiể u kho bậ c trên, tiêu chí chi tiế t

hơ n sẽ giúp phân chia các tiể u kho bậ c dư ớ i Các tiể u kho đư ợ c lấ y mẫ u theo tỉ lệ

củ a mỗ i nhóm và phân tầ ng dự a trên tiêu chí từ trên xuố ng

Hình thứ c và nộ i dung ngôn ngữ quyế t đị nh quá trình thu thậ p dữ liệ u cũng

như thiế t kế KNL Đố i vớ i KNL bút ngữ , các tiêu chí như phư ơ ng tiệ n (medium),

phong cách (style), hay thể loạ i (genre) thư ờ ng đư ợ c coi là tiên quyế t để nhị phânhay tam phân các mả ng trong KNL theo tỉ lệ sử dụ ng thự c tế củ a tậ p hợ p mụ c tiêu

Từ các mả ng, văn bả n đư ợ c lự a chọ n sao cho mỗ i mẫ u đạ i diệ n cho mộ t phạ m vi

cầ n nghiên cứ u Toàn bộ mẫ u thu thậ p đư ợ c tạ o thành mô hình thu nhỏ củ a cả ngônngữ mà KNL đạ i diệ n Có thể đơ n cử trư ờ ng hợ p KNL Brown năm 1967 củ a

Francis & Kuçera (Bả ng 1.1) Đư ợ c coi là điể n hình và là chuẩ n mự c trong nghiên

Trang 37

cứ u văn bả n đồ ng đạ i, KNL này có cấ u trúc rõ ràng, lự a chọ n tiêu chí phong cáchvăn bả n làm chủ đạ o, khai thác ngữ liệ u đạ i diệ n cho các xuấ t bả n phẩ m tiế ng Anh-

Tậ p hợ p ngôn ngữ trong KNL Brown gồ m 500 mẫ u văn bả n, mỗ i mẫ u gồ m

2000 hiệ n dạ ng, phân thành hai nhóm: Sách báo thông thư ờ ng (Informative prose)

và văn chư ơ ng hư cấ u (imaginative prose) Các tiêu chí cụ thể hơ n phân chia mỗ inhóm thành các tiể u kho Chẳ ng hạ n, Sách báo thông thư ờ ng chia thành 9 tiể u khonhỏ A, B, C, bao gồ m Phóng sự , Xã luậ n, Phê bình, Tôn giáo, Kỹ năng và Sở

thích,

Trong khi đó, vớ i KNL khẩ u ngữ , các yế u tố tình huố ng xã hộ i đư ợ c chú

trọ ng và thể hiệ n qua các loạ i phát ngôn Khẩ u ngữ đố i thoạ i có thể đư ợ c thự c hiệ n

trong giao tiế p thông thư ờ ng, trong hộ i nghị , họ p hành, giao dị ch, phỏ ng vấ n Khẩ ungữ độ c thoạ i đư ợ c thự c hiệ n trong các buổ i phát thanh, diễ n thuyế t, thuyế t trình

Mỗ i tình huố ng là mộ t tiêu chí đư ợ c xác đị nh để tạ o nên mộ t tiể u kho trong KNLkhẩ u ngữ Tùy vào mứ c độ chi tiế t về đố i tư ợ ng phát ngôn mà KNL khẩ u ngữ có thểtính đế n các yế u tố như giớ i tính, tuổ i tác, tôn giáo, tầ ng lớ p xã hộ i,

KNL tổ ng hợ p là kế t quả củ a việ c thu thậ p ngữ liệ u từ nhiề u thể loạ i văn

bả n cả bút ngữ lẫ n khẩ u ngữ ở phạ m vi rộ ng hơ n Số lư ợ ng tiể u kho trong KNL

Trang 38

tổ ng hợ p tư ơ ng ứ ng vớ i thể loạ i Do đó, tỉ lệ sử dụ ng ngôn ngữ ở các tiể u kho cầ n

đư ợ c tính toán cụ thể để lậ p ra mộ t khung lấ y mẫ u chi tiế t, có độ lớ n tư ơ ng ứ ng vớ i

mứ c độ sử dụ ng củ a từ ng loạ i ngôn ngữ đư ợ c khai thác đồ ng thờ i thể hiệ n rõ tínhchấ t ngôn ngữ củ a chúng Chẳ ng hạ n, trong KNL Anh ngữ quố c gia, tỉ lệ văn bả n

khẩ u ngữ là 22% so vớ i bút ngữ là 78% Mả ng văn bả n khẩ u ngữ đư ợ c phân chiatrên phư ơ ng diệ n cách thứ c tư ơ ng tác (đố i thoạ i, độ c thoạ i) và khu vự c phát ngôn

(miề n bắ c, nam, ) Các tiể u kho dư ớ i mả ng khẩ u ngữ chia theo ngữ cả nh, hoặ c theo

đặ c điể m củ a đố i tư ợ ng phát ngôn như tuổ i tác (thiế u niên, thanh niên, ), giớ i tính

(nam,nữ ), lĩnh vự c (giáo dụ c, kinh doanh, ) Trong khi đó, mả ng văn bả n bút ngữxác đị nh rõ các yế u tố thờ i gian, loạ i văn bả n (sách, tạ p chí, ), lĩnh vự c (văn họ c,thư ơ ng mạ i, khoa họ c, ), ngư ờ i viế t / tác giả , đố i tư ợ ng tiế p nhậ n, (Bả ng 1.2)

Bả ng 1.2 Kho ngữ liệ u Anh ngữ quố c gia BNC

I KHẨ U NGỮ (915)

Tư ơ ng tác: Đố i thoạ i (672), Độ c thoạ i (218), không xác đị nh (25)

Vùng: Nam (296), Trung du (208), Bắ c (334), không xác đị nh (77)

Loạ i văn bả n: Sách (1488), Tạ p chí (1167), Văn bả n tổ ng hợ p đã xuấ t bả n (181),

Văn bả n tổ ng hợ p không xuấ t bả n (245), Bài nói chuẩ n bị (49), Không xác đị nh (79)

Lĩnh vự c: Hư cấ u (625), Khoa họ c tự nhiên (144), Khoa họ c ứ ng dụ ng (364),

Khoa họ c xã hộ i (510), Các vấ n đề thế giớ i (453), Thư ơ ng mạ i (284), Nghệ thuậ t (259), Đứ c tin và Tư tư ở ng (146),

Trang 39

Tác giả : Loạ i tác giả (tậ p thể (397), nhiề u tác giả (1357), mộ t tác giả (1331),

không rõ tác giả (122), không xác đị nh (2),

Giớ i tính: (nam (948), nữ (445), cả nam và ngữ (208),

không rõ (117), không xác đị nh (1491),

Tuổ i: 0- 14 (22), 15-24 (15), 25-35 (38), 45-59 (80), 60+ (70),

không xác đị nh (2899),

Bổ sung: Nơ i xuấ t bả n:

Dạ ng mẫ u (toàn văn (267), phầ n đầ u (599), phầ n giữ a (555),

phầ n kế t (127), đoạ n ghép (18), không xác đị nh (1643),

Trạ ng thái tiế p nhậ n: (thấ p (801), trung bình (903), cao (1059),

không xác đị nh (446)

Điề u quan trọ ng trong thiế t kế tiể u kho bậ c dư ớ i là độ lớ n phù hợ p, đủ đả m

bả o tính chân thự c trong nghiên cứ u Tuy nhiên, độ lớ n củ a mộ t tiể u kho có thể ả nh

hư ở ng trự c tiế p đế n độ lớ n củ a các tiể u kho tư ơ ng ứ ng cũng như qui mô củ a toàn

KNL Trên thự c tế , nế u áp dụ ng mẫ u tỉ lệ , mộ t thay đổ i dù nhỏ trong tiể u kho bậ c

dư ớ i cũng đủ làm lư ợ ng từ trong KNL tăng lên rõ rệ t Ngư ợ c lạ i , nế u lấ y mẫ ukhông tuân theo tỉ lệ sẽ dẫ n đế n tình trạ ng mấ t cân đố i giữ a các tiể u kho và làm mấ ttính đạ i diệ n củ a KNL Xét cho cùng, yế u tố tác độ ng tớ i độ lớ n củ a từ ng tiể u kho

lạ i là các mẫ u đơ n vị (sampling units)

Mẫ u đơ n vị (Sampling units) là các văn bả n nằ m trong giớ i hạ n củ a mộ t

mẫ u (Sample) Thuậ t ngữ mẫ u đơ n vị đư ợ c sử dụ ng thay vì đơ n vị lấ y mẫ u bở i cách

chuyể n dị ch này giúp chỉ rõ tính chấ t mẫ u bậ c dư ớ i củ a các văn bả n đư ợ c sử dụ nglàm tiể u phầ n trong KNL Theo McEnery (2006:19), “mộ t KNL về căn bả n là mẫ u

(Sample) củ a mộ t tậ p hợ p ngữ liệ u lớ n hơ n”.Nói rõ hơ n, mẫ u chính là sự mô phỏ ng

củ a mộ t tậ p hợ p ngữ liệ u Trong nghiên cứ u NNHNL, mẫ u tái hiệ n rõ nhấ t các đặ c

Trang 40

điể m củ a tậ p hợ p cầ n nghiên cứ u Do đó, nó có liên hệ mậ t thiế t vớ i tính đạ i diệ n vàtính cân đố i mà tậ p hợ p ngữ liệ u thể hiệ n Tổ chứ c bên trong mẫ u mô phỏ ng (KNL)

là nhữ ng nhóm nhỏ gồ m các mẫ u đơ n vị Các mẫ u đơ n vị hình thành nên các t iể ukhotrong KNL, đồ ng thờ i làm nên KNL

Mặ c dù trên lý thuyế t, mẫ u đơ n vị đư ợ c tậ p hợ p theo khung lấ y mẫ u

(Sampling Frame) như ng trên thự c tế , chính danh sách các mẫ u đơ n vị tạ o nên

khung này Theo O’Keeffe (2010: 391-392) “khung lấ y mẫ u là toàn bộ tậ p hợ p văn

bả n có thể dùng để lấ y mẫ u” Tùy vào mụ c đích nghiên cứ u, tậ p hợ p mẫ u có thể có

số lư ợ ng bậ c nhiề u hay ít, mỗ i bậ c có thể bao gồ m số lư ợ ng mẫ u đơ n vị khác nhau

Số lư ợ ng mẫ u xác đị nh phạ m vi ngôn ngữ đặ c thù mà ngư ờ i ta muố n khái quát Tùyvào từ ng nghiên cứ u, khung lấ y mẫ u đư ợ c xây dự ng sao cho KNL đạ t đư ợ c tính đạ idiệ n và cân đố i cầ n thiế t

- Chư ơ ng trình phầ n mề m máy tính

Thành phầ n thứ hai trong cấ u tạ o KNL là các chư ơ ng trình phầ n mề m máy tính (software) Trong nghiên cứ u thiế t kế KNL hiệ n đạ i, phầ n mề m chi phố i kỹ

thuậ t phân tích đị nh lư ợ ng và là đặ c điể m căn bả n trong nghiên cứ u KN L (Biber et

al, 1998; Anthony, 2013) Các chư ơ ng trình phầ n mề m đư ợ c sử dụ ng tư ơ ng ứ ng vớ i

mụ c tiêu chú giả i và khai thác ngôn ngữ mà ngư ờ i thiế t kế KNL xác đị nh Phầ n

mề m máy tính trong KNL không giố ng các công cụ xử lý dữ liệ u thông thư ờ ng bở ibên cạ nh việ c giúp cung cấ p cho ngư ờ i dùng các thông tin trong KNL, chư ơ ng trìnhphầ n mề m giúp hiể n thị ngữ liệ u lên giao diệ n đọ c đư ợ c trên máy Vớ i mộ t KNLthờ i kỳ tiề n máy tính, sử dụ ng KNL là làm việ c vớ i các phiế u đụ c lỗ hay danh mụ ctrên giấ y Tuy nhiên, vớ i các KNL máy tính hiệ n đạ i, thiế t lậ p mộ t giao diệ n có thể

đọ c và truy xuấ t dữ liệ u là điề u không thể thiế u

Hiệ n nay, nhiề u KNL máy tính đư ợ c tích hợ p sẵ n phầ n mề m, đặ c biệ t là cácKNL mạ ng Các phầ n mề m thiế t kế đặ c dụ ng như vậ y đư ợ c dùng cố đị nh trên mộ tKNL tạ o nên giao diệ n rấ t rõ ràng Chẳ ng hạ n như phầ n mề m SARA và BCNwebdùng cho KNL Anh ngữ quố c gia BNC, ICE-CUP dùng cho KNL Anh ngữ quố c tế

Ngày đăng: 23/09/2020, 17:10

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w