ỨNG DỤNG NGÔN NGỮ HỌC TÍNH TOÁNTRONG NGHIÊN CỨU VÀ GIẢNG DẠY NGÔN NGỮ Trường ĐH Khoa học Tự nhiên-ĐHQG-HCM Trung tâm Ngôn ngữ học Tính toán C omputational L inguistics C enter www.c
Trang 1ỨNG DỤNG NGÔN NGỮ HỌC TÍNH TOÁN
TRONG NGHIÊN CỨU VÀ GIẢNG DẠY NGÔN NGỮ
Trường ĐH Khoa học Tự nhiên-ĐHQG-HCM
Trung tâm Ngôn ngữ học Tính toán ( C omputational L inguistics C enter)
www.clc.hcmus.edu.vn BCV: Đinh Điền ddien@fit.hcmus.edu.vn
29-8-2019
ĐẠI HỌC HOA SEN
HỘI THẢO
Trang 2Nội dung
Liên ngành Ngôn ngữ học Tính toán
Nghiên cứu ngôn ngữ
Giảng dạy tiếng Việt cho người nước ngoài
Giảng dạy ngoại ngữ cho người Việt
2
Trang 3Giới thiệu về Ngôn ngữ học Tính toán
(Computational Linguistics) là liên ngành (CMCN 4.0)
❑ Sử dụng các công cụ, mô hình tính toán của Tin học đểnghiên cứu và giải quyết các bài toán của Ngôn ngữ học
❖ Liên ngành NNHTT mang lại nhiều ứng dụng trong cáclĩnh vực của cuộc sống, như: kinh tế, xã hội, khoa học,
giáo dục, an ninh quốc phòng,…
➢ Ứng dụng liên ngành NNHTT trong việc nghiên cứu ngôn ngữ; giảng dạy tiếng Việt cho người nước ngoài
và giảng dạy ngoại ngữ cho người Việt.
3
Trang 4Nội dung
Liên ngành Ngôn ngữ học Tính toán
Nghiên cứu ngôn ngữ
Giảng dạy tiếng Việt cho người nước ngoài
Giảng dạy ngoại ngữ cho người Việt
4
Trang 5Nghiên cứu ngôn ngữ
✓ Khảo sát các hiện tượng/đơn vị trong ngôn ngữ
✓ Thống kê tần suất xuất hiện các hiện tượng/đơn vị trongngôn ngữ
✓ So sánh, đối chiếu các điểm tương đồng/dị biệt giữa cácngôn ngữ
✓ Phát hiện các quy luật của ngôn ngữ
✓ Kiểm chứng các giả thuyết trong ngôn ngữ
3
Trang 6Kho ngữ liệu (corpus)
❑ Dùng kho ngữ liệu để nghiên cứu ngôn ngữ
➢ Ứng dụng trong giảng dạy ngôn ngữ/ngoại ngữ/…
3
Trang 7Ngữ liệu có chú thích (annotated corpus)
⚫ PTB (Penn Tree Bank): [Pierre /NNP Vinken /NNP ], /, [61 /CD
years /NNS ] old /JJ , /, will /MD join /VB [the /DT board /NN ]
as /IN [a /DT nonexecutive /JJ director /NN Nov /NNP 29 /CD ] /.
⚫ CTB (Chinese Tree Bank): <S ID=12>( (IP-HLN (NP-SBJ
(NN 外商) (NN 投 资 ) ( NN 企业 )) (VP ( VV 成 为 ) (NP-OBJ (NP (NP-PN (NR 中国)) (NP (NN 外 贸 ))) (ADJP (JJ 重要)) (NP (NN 增 长点 ))))) ) </S>
⚫ (VTB: Vietnamese Tree Bank): <SEG id="1">
Nguyên_nhân/Nn/O là/Vc/O bão/Nn/O số/Nn/O 10/An/O
đang/R/O chịu/Vv/O ảnh_hưởng/Nn/O bởi/Cp/O
hệ_thống/Nn/O trục/Nn/O rãnh/Nn/O cao/Aa/O và/Cp/O
sự/Nc/O lôi_kéo/Vv/O từ/Cm/O siêu bão/Nn/TRM_B
Melor/Nr/TRM_I ở/Cm/O ngoài/Cm/O khơi/Nn/O
Philippines/Nr/LOC_B /PU/O </SEG
=> “Huấn luyện” cho máy cách gán nhãn (training corpus)
Trang 88
Trang 9Ngữ liệu song song đa ngữ (MultiLingual Parallel Corpus)
<S0071>
<en>We are learning a language.</en>
<fr>Nous apprenons une langue.</fr>
<eo>Ni lernas lingvon.</eo>
<vi>Chúng ta học một ngôn ngữ.</vi>
</S0071>
Trang 10Trường ngữ nghĩa: “bank”
5
Trang 11Ontology (thesaurus): WordNet
5
Trang 12WordNet ontology: thượng danh (hypernym)
Trang 13Khai thác kho ngữ liệu => ứng dụng
⚫ Lắng nghe mạng xã hội (social listening:
sentiment analysis, web mining, opinion
Trang 14Phân tích văn bản
Trang 15Độ đo phong cách ( stylometry)
Trang 16Điều tra tội phạm
Trang 17UC Berkeley
Điều tra tội phạm
Trang 18Phát hiện đạo văn (plagiarism detection)
Trang 19Đạo văn xuyên ngữ (cross-lingual plagiarism)
19
Trang 20Độ khó văn bản (text readability)
Trang 23Đo độ khó của văn bản (readability)
❑ Độ khó của văn bản phụ thuộc vào 3 yếu tố chính:
✓ Độ phổ biến của từ vựng (tần suất từ)
✓ Độ phức tạp của kết cấu câu (cú pháp)
✓ Tổ chức văn bản (kết cấu văn bản)
o Độ khó (người viết mã hóa)<> Khả năng đọc hiểu(comprehensibility: người đọc giải mã)
o Ứng dụng: biên soạn giáo trình: bài đọc, bài thi, vốn từ,CEFR (A1, A2, , C2),
o Biên soạn từ điển (câu định nghĩa)
o MS Word (tiếng Anh)
3
Trang 25Tần suất từ
Trang 27Tần suất từ tiếng Việt
No Word POS (en) f
Table 6 VN word frequency
Rank Word Eng POS f
Trang 28Tần suất từ tiếng Việt (đồng âm)
Trang 29Độ khó văn bản: cú pháp
Trang 30Độ khó văn bản: cú pháp
Trang 31Các ứng dụng độ khó của văn bản
❑ Độ khó văn bản còn được sử dụng trong việc:
✓ Tuyển phóng viên
✓ Viết hướng dẫn sử dụng thuốc trừ sâu cho nông dân
✓ Viết hướng dẫn lắp ráp thiết bị cho công nhân
✓ Bảo vệ khách hàng trong các hợp đồng (vd bảo hiểm)
➢ Áp dụng để biên soạn bài đọc có độ khó phù hợp cho
từng cấp học tiếng Việt
➢ Xây dựng sẵn các kho ngữ liệu bài đọc (đã phân theo chủđề) đã xếp loại độ khó (dễ, trung bình, khó)
➢ Người soạn giáo trình chỉ cần lựa chọn bài phù hợp chủ
đề (mạch /thread) và đúng với trình độ người học (tránhlựa chọn cảm tính)
Trang 32Đo độ khó của văn bản (Text Readability)
Trang 33Nội dung
Liên ngành Ngôn ngữ học Tính toán
Nghiên cứu ngôn ngữ
Giảng dạy tiếng Việt cho người nước ngoài
Giảng dạy ngoại ngữ cho người Việt
33
Trang 341 CHINESE, MANDARIN China 885,000,000
Trang 35Giảng dạy tiếng Việt
❖ Ngày càng có nhiều người nước ngoài quan tâm, học tập,nghiên cứu tiếng Việt
❑ Ngày càng có nhiều Trung tâm dạy tiếng Việt cho ngườinước ngoài
➢ Cần ứng dụng liên ngành NNHTT trong việc dạy tiếngViệt cho người nước ngoài theo công nghệ mới
✓ Dạy ngữ âm: thanh điệu
Trang 36Giảng dạy ngữ âm tiếng Việt
❑ Tiếng Việt là thứ tiếng có thanh điệu (tone)
➢ Khó đối với những người nước ngoài (Hàn, Nhật, Âu,…).
➢ Sử dụng từ điển âm thanh (thu âm giọng chuẩn)
➢ Ví dụ: mơ, mớ, mờ, mở, mỡ, mợ; chia sẻ, chia xẻ; trông chờ,
➢ Phần mềm đọc chính tả (dictation)
➢ Phân tích phổ, đặc trưng tiếng nói.
➢ So sánh giọng người học và giọng chuẩn.
➢ Kèm theo Video (hoạt hình)
➢ Mô phỏng cấu âm.
3
Trang 38❑ 10% loại từ phổ biến nhất (3.400 từ)
➢ Bao phủ 90% lượt từ xuất hiện trong văn bản
❖ Chỉ cần học 3.400 từ phổ biến nhất
➢ Có thể đọc hiểu được 90% nội dung văn bản tiếng Việt
Giảng dạy từ vựng tiếng Việt
Trang 39Ứng dụng từ điển tần số tiếng Việt
7
❑ Áp dụng: xây dựng các danh sách từ khác nhau (như:
top-1000, top-2000, top-3000 wordlist)
➢ Phù hợp với từng cấp độ của người học tiếng Việt
(như: A1, A2, B1,B2, C1, C2 trong CEFR)
➢ Biên soạn giáo trình, đề thi: có chứa những những từ
(theo tần số sử dụng), điểm văn phạm (theo độ phức
tạp) có độ khó (readability) phù hợp theo từng cấp độ
o Tránh dùng từ khó, như: “gà qué” (35.216), “con ngóe”
(23.670), …
Trang 40Giảng dạy ngữ pháp: dựa theo độ khó câu
Trang 42Ứng dụng: xây dựng học liệu theo từng cấp độ
▪ Oxford đã dùng tập 3.000 từ phổ biến nhất để giải
thích/định nghĩa tất cả các mục từ trong từ điển OALD8:
➢ Trong khi đó, từ điển tiếng Việt lại định nghĩa từ “đường”
(sugar) là: “một hợp chất kết tinh có vị ngọt” !
❑ Trong đó, tần suất sử dụng (mức độ phổ biến) của từ “hợpchất” hay từ “kết tinh” thấp hơn nhiều so với từ “chất”
3
Trang 43▪ Từ điển dạng điện tử (e-Dic): giao diện động, tùy chọn
(dynamic, customize) theo cấp độ người sử dụng
▪ Vốn từ: theo từ điển tần số: top-1000,2000,3000,…
▪ Nghĩa của từ: theo tần suất sử dụng (theo thứ tự giảm dần)
▪ Ví dụ minh họa: lựa chọn theo độ khó từ kho ngữ liệu
3
Trang 44Ứng dụng: từ điển điện tử (giao diện tùy biến)
3
A1
C2
Trang 46Ứng dụng: lựa chọn ví dụ minh họa “đắt giá” cho từ điển
3
✓ The rainbow was so bright, we could clearly see the seven colors.
✓ The balloon popped when it hit the sharp twig.
✓ My grandmother has a wardrobe in which she keeps her clothes.
✓ I took an aspirin for my headache.
✓ My jacket is missing a button.
✓ I pinned the notice to the bulletin board.
✓ Having a tin atep makes the house really hot when the sun shines.
✓ Your bad attitude and disrespect is going to get you into a lot of
_???_.
✓ we drove around town, he pointed out several buildings of
historical interest.
✓ The coroner stated that all the evidence points to it being a
simple case of heart failure.
Trang 47Nội dung
Liên ngành Ngôn ngữ học Tính toán
Nghiên cứu ngôn ngữ
Giảng dạy tiếng Việt cho người nước ngoài
Giảng dạy ngoại ngữ cho người Việt
47
Trang 48⚫ Dạy từ vựng qua chủ đề, tình huống, ngữ cảnh
(concordance): học viên quan sát cách dùng từ qua thực tế
từ kho ngữ liệu
▪ Ví dụ: đối chiếu từ “xảy ra” khi dịch sang tiếng Anh
▪ Ví dụ: đối chiếu từ “wear” khi dịch sang tiếng Việt
➢ Giúp học viên nắm bắt được cách dùng từ mới nhất trongthực tế mà các từ điển chưa kịp cập nhật
⚫ Ví dụ: trong các từ điển, từ “fondle” được ghi là “nâng
niu, vuốt ve” (mang nội dung tích cực),
⚫ nhưng qua ngữ liệu thực tế mới, người ta thấy hơn 60% từnày dùng với nghĩa tiêu cực (“sexual harassment” !)
Khai thác kho ngữ liệu Anh-Việt
Trang 5252
Trang 55Jet planes fly about nine miles high.
A 110
(côn trùng) ruồi, muỗi, gián, ong, kiến
M 28
bay, lượn,
Các phi_cơ phản_lực bay cao khoảng chín dặm
L47
(bay hơi, bay màu,
Nhãn lớp ngữ nghĩa
Trang 56Khai thác kho ngữ liệu song ngữ Hoa-Việt
✓ Đối chiếu hư từ giữa tiếng Hoa với tiếng Việt
✓ Đối chiếu trật tự từ giữa tiếng Hoa với tiếng Việt
✓ Đối chiếu sự từ vựng hóa giữa tiếng Hoa với tiếng Việt
5
Trang 57Chuyển đổi trật tự từ trong Hoa-Việt”
Trang 58Khai thác kho ngữ liệu Hàn-Việt
7
Trang 59Khai thác kho ngữ liệu Hàn-Việt
7
Trang 60Khai thác kho ngữ liệu Hàn-Việt
7
Trang 61Ngữ liệu song ngữ (parallel corpora)
5
Trang 62Phần mềm trợ giúp biên dịch
CAT: Computer Assisted Translation
Translation Memory, Glossary
Reuse
Translation
Add terms from Glossary
Update
TM and Glossary
62
Trang 63Lưu đồ CAT
Trang 64Giới thiệu bộ nhớ dịch (Translation Memory)
Dóng hàng đoạn:
Dóng hàng câu (cặp câu song song):
* Helicopters can rise straight up into the air and can go straight down + Máy bay trực thăng có thể lên thẳng trên không và đáp thẳng xuống đất.
* They can stand still in the air.
+ Chúng có thể đứng yên trên không.
* Helicopters do not have wings.
+ Máy bay trực thăng không có cánh.
Trang 65Hỗ trợ biên dịch (CAT: Computer Assisted Translation)
Trang 66Ích lợi của CAT
⚫ Tái sử dụng kết quả dịch cũ
⚫ Kiểm tra lỗi chính tả/ngữ pháp
⚫ Tìm kiếm từ theo ngữ cảnh (concordance)
⚫ Kiểm soát tính nhất quán cách dịch (thuật ngữ)
⚫ Hỗ trợ nhiều định dạng tập tin (Xls, Ppt, Pdf, AI)
⚫ Quản lý dự án: ngữ liệu, chất lượng, tiến độ, chi phí,
⚫ Quản lý nhóm: Manager, Translators, Reviewers
⚫ Quản lý trực tuyến: (online: Server, Cloud, …)
⚫ Khai thác sức mạnh cộng đồng (1 for N, N for 1)
66
Trang 67x 5 languages
67 Project Manager
Trang 68TRAINING
Trang 6969
Trang 70Tiếng Việt là thế mạnh của người Việt
Trang 72⚫ Date: 15-Oct-2015
From: Kohei Saito <AdvancedLinguisticsgmail.com>
Subject: Vietnamese; Computational Linguistics; Morphology; Phonology; Semantics; Syntax: Analytic Linguistic
Project Manager, Google, Inc., Singapore
University or Organization: Google, Inc.
Department: Natural Language Understanding
Job Location: Singapore, Singapore
Job Title: Analytic Linguistic Project Manager [Vietnamese]
Job Rank: Analytic Linguistic Project Manager; Manager
Specialty Areas: Computational Linguistics; Morphology; Phonology; Semantics; Syntax
Required Language(s):Vietnamese (vie)
Description:
The role of the Analytic Linguistic Project Manager is to consult with Natural Language Understanding Researchers on creating guidelines and setting standards for a variety of NLP projects as well as to manage the work of a team of junior linguists to achieve high quality data output.
This includes:
- Training, managing and overseeing the work of a team of junior linguists
- Creating guidelines for semantic, syntactic and morphological projects
- Evaluating and analyzing data quality
- Consulting with researchers and engineers on the development of linguistic databases
Job requirements:
- Native-level speaker of Vietnamese and fluent in English
- Master's degree or higher in Linguistics or Computational Linguistics, specializing in semantics, syntax,
morphology or lexicography
- Ability to quickly grasp technical concepts; should have an interest in natural language processing
- Excellent oral and written communication skills
- Good organizational skills
- Previous project management and people management experience preferred
- Some programming language or previous experience working in a Linux environment a plus
Trang 73KẾT LUẬN
Qua các phần trên, ta thấy:
❑ Liên ngành Ngôn ngữ học Tính toán có nhiều ứng
dụng trong thực tế
✓ Giáo dục là một ví dụ
✓ Tiếng Việt là thế mạnh quý giá của người Việt
❖ Nghiên cứu liên ngành là xu thế tất yếu của thời đại
Cách mạng Công nghiệp 4.0 hiện nay
o Hiện trạng nghiên cứu NNH Tính toán cho tiếng Việt
➢ Rất cần sự thay đổi để theo kịp thời đại
Trang 74TÀI LIỆU THAM KHẢO
1 Adam Przepiórkowski, Maciej Piasecki, Krzysztof Jassem, and Piotr Fuglewicz (2013), Computational Linguistics: Applications,
Berlin: Springer-Verlag Hedelberg Publisher.
2 Đinh Điền (2018) Ngôn ngữ học Ngữ liệu Tp HCM: NXB
ĐHQG-HCM.
3 Đinh Điền (2019) Từ điển học Tính toán Tp HCM: NXB
ĐHQG-HCM.
4 Alexander Clark, Chris Fox, and Shalom Lappin (2010), The
Handbook of Computational Linguistics and Natural Language Processing, UK: Blackwell Publishing
5 Sandra Kubler and Heike Zinsmeister (2015), Corpus Linguistics and Linguistically annotated corpora, USA: Bloomsbury