1. Trang chủ
  2. » Thể loại khác

ĐẠI HỌC HOA SEN HỘI THẢO ỨNG DỤNG NGÔN NGỮ HỌC TÍNH TOÁN TRONG NGHIÊN CỨU VÀ GIẢNG DẠY NGÔN NGỮ

74 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 9,02 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ỨNG DỤNG NGÔN NGỮ HỌC TÍNH TOÁNTRONG NGHIÊN CỨU VÀ GIẢNG DẠY NGÔN NGỮ  Trường ĐH Khoa học Tự nhiên-ĐHQG-HCM Trung tâm Ngôn ngữ học Tính toán C omputational L inguistics C enter www.c

Trang 1

ỨNG DỤNG NGÔN NGỮ HỌC TÍNH TOÁN

TRONG NGHIÊN CỨU VÀ GIẢNG DẠY NGÔN NGỮ



Trường ĐH Khoa học Tự nhiên-ĐHQG-HCM

Trung tâm Ngôn ngữ học Tính toán ( C omputational L inguistics C enter)

www.clc.hcmus.edu.vn BCV: Đinh Điền ddien@fit.hcmus.edu.vn

29-8-2019

ĐẠI HỌC HOA SEN

HỘI THẢO

Trang 2

Nội dung

Liên ngành Ngôn ngữ học Tính toán

Nghiên cứu ngôn ngữ

Giảng dạy tiếng Việt cho người nước ngoài

Giảng dạy ngoại ngữ cho người Việt

2

Trang 3

Giới thiệu về Ngôn ngữ học Tính toán

(Computational Linguistics) là liên ngành (CMCN 4.0)

❑ Sử dụng các công cụ, mô hình tính toán của Tin học đểnghiên cứu và giải quyết các bài toán của Ngôn ngữ học

❖ Liên ngành NNHTT mang lại nhiều ứng dụng trong cáclĩnh vực của cuộc sống, như: kinh tế, xã hội, khoa học,

giáo dục, an ninh quốc phòng,…

➢ Ứng dụng liên ngành NNHTT trong việc nghiên cứu ngôn ngữ; giảng dạy tiếng Việt cho người nước ngoài

giảng dạy ngoại ngữ cho người Việt.

3

Trang 4

Nội dung

Liên ngành Ngôn ngữ học Tính toán

Nghiên cứu ngôn ngữ

Giảng dạy tiếng Việt cho người nước ngoài

Giảng dạy ngoại ngữ cho người Việt

4

Trang 5

Nghiên cứu ngôn ngữ

✓ Khảo sát các hiện tượng/đơn vị trong ngôn ngữ

✓ Thống kê tần suất xuất hiện các hiện tượng/đơn vị trongngôn ngữ

✓ So sánh, đối chiếu các điểm tương đồng/dị biệt giữa cácngôn ngữ

✓ Phát hiện các quy luật của ngôn ngữ

✓ Kiểm chứng các giả thuyết trong ngôn ngữ

3

Trang 6

Kho ngữ liệu (corpus)

❑ Dùng kho ngữ liệu để nghiên cứu ngôn ngữ

➢ Ứng dụng trong giảng dạy ngôn ngữ/ngoại ngữ/…

3

Trang 7

Ngữ liệu có chú thích (annotated corpus)

⚫ PTB (Penn Tree Bank): [Pierre /NNP Vinken /NNP ], /, [61 /CD

years /NNS ] old /JJ , /, will /MD join /VB [the /DT board /NN ]

as /IN [a /DT nonexecutive /JJ director /NN Nov /NNP 29 /CD ] /.

⚫ CTB (Chinese Tree Bank): <S ID=12>( (IP-HLN (NP-SBJ

(NN 外商) (NN 投 资 ) ( NN 企业 )) (VP ( VV 成 为 ) (NP-OBJ (NP (NP-PN (NR 中国)) (NP (NN 外 贸 ))) (ADJP (JJ 重要)) (NP (NN 增 长点 ))))) ) </S>

⚫ (VTB: Vietnamese Tree Bank): <SEG id="1">

Nguyên_nhân/Nn/O là/Vc/O bão/Nn/O số/Nn/O 10/An/O

đang/R/O chịu/Vv/O ảnh_hưởng/Nn/O bởi/Cp/O

hệ_thống/Nn/O trục/Nn/O rãnh/Nn/O cao/Aa/O và/Cp/O

sự/Nc/O lôi_kéo/Vv/O từ/Cm/O siêu bão/Nn/TRM_B

Melor/Nr/TRM_I ở/Cm/O ngoài/Cm/O khơi/Nn/O

Philippines/Nr/LOC_B /PU/O </SEG

=> “Huấn luyện” cho máy cách gán nhãn (training corpus)

Trang 8

8

Trang 9

Ngữ liệu song song đa ngữ (MultiLingual Parallel Corpus)

<S0071>

<en>We are learning a language.</en>

<fr>Nous apprenons une langue.</fr>

<eo>Ni lernas lingvon.</eo>

<vi>Chúng ta học một ngôn ngữ.</vi>

</S0071>

Trang 10

Trường ngữ nghĩa: “bank”

5

Trang 11

Ontology (thesaurus): WordNet

5

Trang 12

WordNet ontology: thượng danh (hypernym)

Trang 13

Khai thác kho ngữ liệu => ứng dụng

⚫ Lắng nghe mạng xã hội (social listening:

sentiment analysis, web mining, opinion

Trang 14

Phân tích văn bản

Trang 15

Độ đo phong cách ( stylometry)

Trang 16

Điều tra tội phạm

Trang 17

UC Berkeley

Điều tra tội phạm

Trang 18

Phát hiện đạo văn (plagiarism detection)

Trang 19

Đạo văn xuyên ngữ (cross-lingual plagiarism)

19

Trang 20

Độ khó văn bản (text readability)

Trang 23

Đo độ khó của văn bản (readability)

❑ Độ khó của văn bản phụ thuộc vào 3 yếu tố chính:

✓ Độ phổ biến của từ vựng (tần suất từ)

✓ Độ phức tạp của kết cấu câu (cú pháp)

✓ Tổ chức văn bản (kết cấu văn bản)

o Độ khó (người viết mã hóa)<> Khả năng đọc hiểu(comprehensibility: người đọc giải mã)

o Ứng dụng: biên soạn giáo trình: bài đọc, bài thi, vốn từ,CEFR (A1, A2, , C2),

o Biên soạn từ điển (câu định nghĩa)

o MS Word (tiếng Anh)

3

Trang 25

Tần suất từ

Trang 27

Tần suất từ tiếng Việt

No Word POS (en) f

Table 6 VN word frequency

Rank Word Eng POS f

Trang 28

Tần suất từ tiếng Việt (đồng âm)

Trang 29

Độ khó văn bản: cú pháp

Trang 30

Độ khó văn bản: cú pháp

Trang 31

Các ứng dụng độ khó của văn bản

❑ Độ khó văn bản còn được sử dụng trong việc:

✓ Tuyển phóng viên

✓ Viết hướng dẫn sử dụng thuốc trừ sâu cho nông dân

✓ Viết hướng dẫn lắp ráp thiết bị cho công nhân

✓ Bảo vệ khách hàng trong các hợp đồng (vd bảo hiểm)

➢ Áp dụng để biên soạn bài đọc có độ khó phù hợp cho

từng cấp học tiếng Việt

➢ Xây dựng sẵn các kho ngữ liệu bài đọc (đã phân theo chủđề) đã xếp loại độ khó (dễ, trung bình, khó)

➢ Người soạn giáo trình chỉ cần lựa chọn bài phù hợp chủ

đề (mạch /thread) và đúng với trình độ người học (tránhlựa chọn cảm tính)

Trang 32

Đo độ khó của văn bản (Text Readability)

Trang 33

Nội dung

Liên ngành Ngôn ngữ học Tính toán

Nghiên cứu ngôn ngữ

Giảng dạy tiếng Việt cho người nước ngoài

Giảng dạy ngoại ngữ cho người Việt

33

Trang 34

1 CHINESE, MANDARIN China 885,000,000

Trang 35

Giảng dạy tiếng Việt

❖ Ngày càng có nhiều người nước ngoài quan tâm, học tập,nghiên cứu tiếng Việt

❑ Ngày càng có nhiều Trung tâm dạy tiếng Việt cho ngườinước ngoài

➢ Cần ứng dụng liên ngành NNHTT trong việc dạy tiếngViệt cho người nước ngoài theo công nghệ mới

✓ Dạy ngữ âm: thanh điệu

Trang 36

Giảng dạy ngữ âm tiếng Việt

❑ Tiếng Việt là thứ tiếng có thanh điệu (tone)

➢ Khó đối với những người nước ngoài (Hàn, Nhật, Âu,…).

➢ Sử dụng từ điển âm thanh (thu âm giọng chuẩn)

Ví dụ: mơ, mớ, mờ, mở, mỡ, mợ; chia sẻ, chia xẻ; trông chờ,

➢ Phần mềm đọc chính tả (dictation)

➢ Phân tích phổ, đặc trưng tiếng nói.

➢ So sánh giọng người học và giọng chuẩn.

➢ Kèm theo Video (hoạt hình)

➢ Mô phỏng cấu âm.

3

Trang 38

❑ 10% loại từ phổ biến nhất (3.400 từ)

➢ Bao phủ 90% lượt từ xuất hiện trong văn bản

❖ Chỉ cần học 3.400 từ phổ biến nhất

➢ Có thể đọc hiểu được 90% nội dung văn bản tiếng Việt

Giảng dạy từ vựng tiếng Việt

Trang 39

Ứng dụng từ điển tần số tiếng Việt

7

❑ Áp dụng: xây dựng các danh sách từ khác nhau (như:

top-1000, top-2000, top-3000 wordlist)

➢ Phù hợp với từng cấp độ của người học tiếng Việt

(như: A1, A2, B1,B2, C1, C2 trong CEFR)

➢ Biên soạn giáo trình, đề thi: có chứa những những từ

(theo tần số sử dụng), điểm văn phạm (theo độ phức

tạp) có độ khó (readability) phù hợp theo từng cấp độ

o Tránh dùng từ khó, như: “gà qué” (35.216), “con ngóe”

(23.670), …

Trang 40

Giảng dạy ngữ pháp: dựa theo độ khó câu

Trang 42

Ứng dụng: xây dựng học liệu theo từng cấp độ

▪ Oxford đã dùng tập 3.000 từ phổ biến nhất để giải

thích/định nghĩa tất cả các mục từ trong từ điển OALD8:

➢ Trong khi đó, từ điển tiếng Việt lại định nghĩa từ “đường”

(sugar) là: “một hợp chất kết tinh có vị ngọt” !

❑ Trong đó, tần suất sử dụng (mức độ phổ biến) của từ “hợpchất” hay từ “kết tinh” thấp hơn nhiều so với từ “chất”

3

Trang 43

▪ Từ điển dạng điện tử (e-Dic): giao diện động, tùy chọn

(dynamic, customize) theo cấp độ người sử dụng

▪ Vốn từ: theo từ điển tần số: top-1000,2000,3000,…

▪ Nghĩa của từ: theo tần suất sử dụng (theo thứ tự giảm dần)

▪ Ví dụ minh họa: lựa chọn theo độ khó từ kho ngữ liệu

3

Trang 44

Ứng dụng: từ điển điện tử (giao diện tùy biến)

3

A1

C2

Trang 46

Ứng dụng: lựa chọn ví dụ minh họa “đắt giá” cho từ điển

3

The rainbow was so bright, we could clearly see the seven colors.

The balloon popped when it hit the sharp twig.

My grandmother has a wardrobe in which she keeps her clothes.

I took an aspirin for my headache.

My jacket is missing a button.

I pinned the notice to the bulletin board.

Having a tin atep makes the house really hot when the sun shines.

Your bad attitude and disrespect is going to get you into a lot of

_???_.

we drove around town, he pointed out several buildings of

historical interest.

The coroner stated that all the evidence points to it being a

simple case of heart failure.

Trang 47

Nội dung

Liên ngành Ngôn ngữ học Tính toán

Nghiên cứu ngôn ngữ

Giảng dạy tiếng Việt cho người nước ngoài

Giảng dạy ngoại ngữ cho người Việt

47

Trang 48

⚫ Dạy từ vựng qua chủ đề, tình huống, ngữ cảnh

(concordance): học viên quan sát cách dùng từ qua thực tế

từ kho ngữ liệu

▪ Ví dụ: đối chiếu từ “xảy ra” khi dịch sang tiếng Anh

▪ Ví dụ: đối chiếu từ “wear” khi dịch sang tiếng Việt

➢ Giúp học viên nắm bắt được cách dùng từ mới nhất trongthực tế mà các từ điển chưa kịp cập nhật

⚫ Ví dụ: trong các từ điển, từ “fondle” được ghi là “nâng

niu, vuốt ve” (mang nội dung tích cực),

⚫ nhưng qua ngữ liệu thực tế mới, người ta thấy hơn 60% từnày dùng với nghĩa tiêu cực (“sexual harassment” !)

Khai thác kho ngữ liệu Anh-Việt

Trang 52

52

Trang 55

Jet planes fly about nine miles high.

A 110

(côn trùng) ruồi, muỗi, gián, ong, kiến

M 28

bay, lượn,

Các phi_cơ phản_lực bay cao khoảng chín dặm

L47

(bay hơi, bay màu,

Nhãn lớp ngữ nghĩa

Trang 56

Khai thác kho ngữ liệu song ngữ Hoa-Việt

✓ Đối chiếu hư từ giữa tiếng Hoa với tiếng Việt

✓ Đối chiếu trật tự từ giữa tiếng Hoa với tiếng Việt

✓ Đối chiếu sự từ vựng hóa giữa tiếng Hoa với tiếng Việt

5

Trang 57

Chuyển đổi trật tự từ trong Hoa-Việt”

Trang 58

Khai thác kho ngữ liệu Hàn-Việt

7

Trang 59

Khai thác kho ngữ liệu Hàn-Việt

7

Trang 60

Khai thác kho ngữ liệu Hàn-Việt

7

Trang 61

Ngữ liệu song ngữ (parallel corpora)

5

Trang 62

Phần mềm trợ giúp biên dịch

CAT: Computer Assisted Translation

Translation Memory, Glossary

Reuse

Translation

Add terms from Glossary

Update

TM and Glossary

62

Trang 63

Lưu đồ CAT

Trang 64

Giới thiệu bộ nhớ dịch (Translation Memory)

Dóng hàng đoạn:

Dóng hàng câu (cặp câu song song):

* Helicopters can rise straight up into the air and can go straight down + Máy bay trực thăng có thể lên thẳng trên không và đáp thẳng xuống đất.

* They can stand still in the air.

+ Chúng có thể đứng yên trên không.

* Helicopters do not have wings.

+ Máy bay trực thăng không có cánh.

Trang 65

Hỗ trợ biên dịch (CAT: Computer Assisted Translation)

Trang 66

Ích lợi của CAT

Tái sử dụng kết quả dịch cũ

⚫ Kiểm tra lỗi chính tả/ngữ pháp

⚫ Tìm kiếm từ theo ngữ cảnh (concordance)

⚫ Kiểm soát tính nhất quán cách dịch (thuật ngữ)

⚫ Hỗ trợ nhiều định dạng tập tin (Xls, Ppt, Pdf, AI)

Quản lý dự án: ngữ liệu, chất lượng, tiến độ, chi phí,

⚫ Quản lý nhóm: Manager, Translators, Reviewers

⚫ Quản lý trực tuyến: (online: Server, Cloud, …)

⚫ Khai thác sức mạnh cộng đồng (1 for N, N for 1)

66

Trang 67

x 5 languages

67 Project Manager

Trang 68

TRAINING

Trang 69

69

Trang 70

Tiếng Việt là thế mạnh của người Việt

Trang 72

Date: 15-Oct-2015

From: Kohei Saito <AdvancedLinguisticsgmail.com>

Subject: Vietnamese; Computational Linguistics; Morphology; Phonology; Semantics; Syntax: Analytic Linguistic

Project Manager, Google, Inc., Singapore

University or Organization: Google, Inc.

Department: Natural Language Understanding

Job Location: Singapore, Singapore

Job Title: Analytic Linguistic Project Manager [Vietnamese]

Job Rank: Analytic Linguistic Project Manager; Manager

Specialty Areas: Computational Linguistics; Morphology; Phonology; Semantics; Syntax

Required Language(s):Vietnamese (vie)

Description:

The role of the Analytic Linguistic Project Manager is to consult with Natural Language Understanding Researchers on creating guidelines and setting standards for a variety of NLP projects as well as to manage the work of a team of junior linguists to achieve high quality data output.

This includes:

- Training, managing and overseeing the work of a team of junior linguists

- Creating guidelines for semantic, syntactic and morphological projects

- Evaluating and analyzing data quality

- Consulting with researchers and engineers on the development of linguistic databases

Job requirements:

- Native-level speaker of Vietnamese and fluent in English

- Master's degree or higher in Linguistics or Computational Linguistics, specializing in semantics, syntax,

morphology or lexicography

- Ability to quickly grasp technical concepts; should have an interest in natural language processing

- Excellent oral and written communication skills

- Good organizational skills

- Previous project management and people management experience preferred

- Some programming language or previous experience working in a Linux environment a plus

Trang 73

KẾT LUẬN

Qua các phần trên, ta thấy:

❑ Liên ngành Ngôn ngữ học Tính toán có nhiều ứng

dụng trong thực tế

✓ Giáo dục là một ví dụ

✓ Tiếng Việt là thế mạnh quý giá của người Việt

❖ Nghiên cứu liên ngành là xu thế tất yếu của thời đại

Cách mạng Công nghiệp 4.0 hiện nay

o Hiện trạng nghiên cứu NNH Tính toán cho tiếng Việt

➢ Rất cần sự thay đổi để theo kịp thời đại

Trang 74

TÀI LIỆU THAM KHẢO

1 Adam Przepiórkowski, Maciej Piasecki, Krzysztof Jassem, and Piotr Fuglewicz (2013), Computational Linguistics: Applications,

Berlin: Springer-Verlag Hedelberg Publisher.

2 Đinh Điền (2018) Ngôn ngữ học Ngữ liệu Tp HCM: NXB

ĐHQG-HCM.

3 Đinh Điền (2019) Từ điển học Tính toán Tp HCM: NXB

ĐHQG-HCM.

4 Alexander Clark, Chris Fox, and Shalom Lappin (2010), The

Handbook of Computational Linguistics and Natural Language Processing, UK: Blackwell Publishing

5 Sandra Kubler and Heike Zinsmeister (2015), Corpus Linguistics and Linguistically annotated corpora, USA: Bloomsbury

Ngày đăng: 10/05/2021, 01:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w