1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giải pháp phiên âm từ vựng tiếng anh trong văn bản tiếng việt

25 197 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 1,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đã có nhiều hệ thống tổng hợp tiếng nói nhằm đáp ứng những ứng dụng thiết thực trong xã hội, cụ thể như ứng dụng đọc văn bản trên một màn hình, hay trong một cơ sở dữ liệu trong khi tham

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Người hướng dẫn khoa học: TS NINH KHÁNH DUY

Phản biện 1: TS PHẠM MINH TUẤN

Phản biện 2: PGS.TS TRẦN CAO ĐỆ

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật, chuyên ngành Khoa học máy tính họp

tại Trường Đại học Trà Vinh vào ngày 16 tháng 9 năm 2017

Có thể tìm hiểu luận văn tại:

- Trung tâm Học liệu, Đại học Đà Nẵng tại Trường Đại học

Bách khoa

- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách

khoa - Đại học Đà Nẵng

Trang 3

MỞ ĐẦU

1 Lý do chọn đề tài

Chuyển văn bản thành tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan Đã có nhiều hệ thống tổng hợp tiếng nói nhằm đáp ứng những ứng dụng thiết thực trong xã hội, cụ thể như ứng dụng đọc văn bản trên một màn hình, hay trong một cơ sở

dữ liệu trong khi tham gia giao thông cho người khiếm thị,… Tuy nhiên, với sự phát triển của xã hội ngày nay thì trên các phương tiện thông tin, phương tiện truyền thông, mạng xã hội,… Chúng ta thường hay bắt gặp những từ có nguồn gốc từ tiếng Anh xuất hiện với tần suất ngày càng nhiều trên các biển báo giao thông, bảng hướng dẫn đường và các văn bản tiếng Việt khác,… Trong thời đại hội nhập quốc tế như hiện nay thì xu thế đó là không tránh khỏi Tuy nhiên, việc xuất hiện những từ tiếng Anh này cũng gây khó khăn cho các công nghệ nghiên cứu xử lý ngôn ngữ tự nhiên, xử lý văn bản và

xử lý tiếng nói ví dụ như hệ thống chuyển văn bản thành tiếng nói,

hệ thống nhận diện tiếng nói,… Trong một hệ chuyển văn bản tiếng Việt thành tiếng nói, các từ viết bằng tiếng nước ngoài cần được Việt hóa cách phát âm để máy tính có thể chuyển thành tiếng nói của người Việt Trong một hệ nhận dạng tiếng nói không giới hạn từ vựng dành cho người Việt, các từ không nằm trong tập từ vựng của

hệ (out-of-vocabulary words) cần được Việt hóa cách phát âm để máy tính có thể giải mã đoạn tín hiệu âm thanh của từ đó

Vì vậy, tôi đã tiến hành nghiên cứu để tìm “Giải pháp phiên

âm từ vựng tiếng Anh trong văn bản tiếng Việt” Xây dựng công

cụ phiên âm một từ vựng tiếng Anh bất kỳ thành từ tiếng Việt, hay nói cánh khác là Việt hóa cách phát âm các từ vựng tiếng Anh trong văn bản tiếng Việt

Trang 4

2 Mục đích và ý nghĩa đề tài

2.1 Mục đích

Mục đích nghiên cứu của đề tài:

- Nghiên cứu và đề xuất giải pháp phiên âm từ vựng tiếng Anh trong văn bản tiếng Việt

- Tích hợp giải pháp đề xuất vào một hệ thống phiên âm một

từ vựng tiếng Anh bất kỳ thành một từ tiếng Việt

2.2 Ý nghĩa khoa học và thực tiễn của đề tài

Đóng góp về mặt phương pháp luận và thực nghiệm vào lĩnh vực chuẩn hóa văn bản, một nhánh nghiên cứu của xử lý ngôn ngữ tự nhiên

Công cụ này sẽ Việt hóa các từ vựng tiếng Anh nên khi tích hợp vào hệ thống chuyển văn bản tiếng Việt thành tiếng nói trên máy tính sẽ giúp cho hệ thống này phát huy được hiệu quả hơn

3 Mục tiêu và nhiệm vụ

3.1 Mục tiêu

- Nghiên cứu, so sánh và đối chiếu một số vấn đề trọng tâm về ngữ âm của tiếng Anh và tiếng Việt

- Nghiên cứu, tổng hợp bộ âm vị tiếng Anh, tiếng Việt

- Nghiên cứu và xây dựng thuật toán tổng quát để ánh xạ từ

âm vị tiếng Anh trong từ điển CMU thành âm vị tiếng Việt

3.2 Nhiệm vụ

Để đạt được mục tiêu đề tài thì nhiệm vụ cần thiết phải làm là:

- Tổng hợp các tài liệu về ngữ âm của tiếng Anh, tiếng Việt

- Thống kê bảng âm vị tiếng Anh, tiếng Việt

- Từ những đặc điểm về ngữ âm tiếng Anh, tiếng Việt đề xuất thuật toán tách nguyên âm, thêm phụ âm đầu, thêm phụ âm cuối, bổ sung nguyên âm,…

Trang 5

- Xây dựng ánh xạ âm vị tiếng Anh thành âm vị tiếng Việt

- Hệ thống các thuật toán tách nguyên âm, thêm phụ âm đầu, thêm phụ âm cuối, bổ sung nguyên âm,… thành một thuật toán tổng quát

- Cài đặt thuật toán và thực nghiệm với một số từ vựng xuất hiện nhiều trên các trang báo điện tử

- Dựa trên kết quả thực nghiệm để đánh giá kết quả của đề tài

4 Đối tượng và phạm vi nghiên cứu

- Các từ vựng tiếng Anh trong văn bản tiếng Việt

- Giải pháp phiên âm từ vựng tiếng Anh thành cách phát âm tiếng Việt

5 Phương pháp nghiên cứu

- Tìm, nghiên cứu và khai thác các công cụ phần mềm hỗ trợ

- Kiểm tra, thực nghiệm, nhận xét và đánh giá kết quả

Trang 6

Chương 1 TỔNG QUAN

1.1 GIỚI THIỆU

Chuẩn hóa văn bản đóng vai trò quan trọng trong hệ thống tổng hợp văn bản thành tiếng nói Đã có nhiều nghiên cứu về vấn đề này trong những năm gần đây, nhưng chúng ta vẫn còn nhiều vấn đề cần phải giải quyết Chuẩn hóa văn bản là một quá trình quyết định xem làm thế nào có thể đọc được những từ không chuẩn chẳng hạn như Nato, Facebook,… Quá trình này sẽ quyết định chất lượng của một hệ thống tổng hợp tiếng nói Tuy nhiên, nhiều hệ thống tổng hợp tiếng nói chỉ chú trọng vào việc làm thế nào để tạo ra được âm thanh nhân tạo Như một kết quả tất yếu, họ giả sử rằng những văn bản đầu vào luôn luôn ở dạng có thể phát âm được Tuy nhiên, những văn bản thực tế thì lại không phải lúc nào cũng bao gồm toàn những từ ở dạng chuẩn có thể phát âm chính xác Ví dụ, chúng có thể là những

số liệu, những chữ viết tắt (như GD viết tắt cho “Giáo dục”), những cấu trúc biểu diễn thời gian (như 12h30), tên nước ngoài và tên địa danh (như New York), những chữ số La Mã, … Ở Việt Nam, đã có nhiều hệ thống tổng hợp tiếng nói đã đạt được nhiều kết quả như SAOMAI, HOASUNG, VOICE OF SOUTHERN, VieTalk, … nhưng hầu hết các hệ thống này vẫn chưa dành đủ sự quan tâm cho chuẩn hóa văn bản Những hệ thống này không thể đọc được những

từ không chuẩn, hoặc nếu đọc được thì chỉ đọc bằng một cách rất đơn sơ mà hoàn toàn sai Vì vậy, trong nghiên cứu này nhằm đưa ra giải pháp góp phần vào việc chuẩn hóa văn bản bằng xây dựng công

cụ phiên âm một từ vựng tiếng Anh bất kỳ thành một từ tiếng Việt Công cụ này rất hữu ích nếu được tích hợp vào một hệ thống chuyển văn bản thành tiếng nói tiếng Việt

Trang 7

Trong quá trình nghiên cứu và xây dựng công cụ đã sử dụng

sự hỗ trợ từ một số công cụ như bộ từ điển CMU, công cụ t2p,…và căn cứ theo Bảng ký hiệu ngữ âm quốc tế IPA Với cách tiếp cận bằng việc nghiên cứu sự tương đồng về phát âm và ngữ âm giữa tiếng Anh và tiếng Việt cùng với các quy tắc ghép âm, thanh điệu, triển khai thuật toán tách chuỗi âm vị tiếng Anh thành âm tiết phát

âm được bằng tiếng Việt và ánh xạ một âm vị tiếng Anh trong CMU thành một âm vị tiếng Việt trong IPA Từ đó áp dụng các kỹ năng và

kỹ thuật lập trình để xây dựng thành công chương trình Việt hóa cách phát âm các từ vựng tiếng Anh trong các văn bản tiếng Việt Luận văn gồm có 03 phần chính trình bày quá trình nghiên cứu gồm những nội dung như giới thiệu ngữ âm tiếng Anh và tiếng Việt; dựa trên cơ sở sự tương đồng về phát âm, ngữ âm giữa tiếng Anh và tiếng Việt lập bảng Arpabet; trình bày và phân tích thuật toán tổng quát, thuật toán cơ bản về tìm biên nguyên âm, thêm phụ âm đầu,…; môi trường thực nghiệm và đánh giá; kết luận và hướng phát triển cho nghiên cứu

1.2 MỘT SỐ ĐỊNH NGHĨA VÀ THUẬT NGỮ

1.2.1 Arpabet

Arpabet là hệ thống mã sao chép âm vị phát triển bởi cơ quan Advanced Research Projects Agency (ARPA) như là một phần của

Dự án Thông hiểu tiếng nói (Speech Understanding Project) [3]

1.2.2 International Phonetic Alphabet

International Phonetic Alphabet (IPA) là một sản phẩm của International Phonetic Association (Hiệp hội Ngữ âm quốc tế) Mục đích của IPA là ghi lại và sắp xếp âm trong các ngôn ngữ trên thế giới dựa vào những quy tắc ngữ âm khớp nối (articulatory phonetics principles) [2]

Trang 8

b Nguyên lý hoạt động

t2p sử dụng từ điển CMU và xây dựng Cây quyết định (Decision Tree) để tạo mô hình cho các từ Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật (series of rules) Về bản chất thì giống như câu lệnh “if then else”

Trang 9

Chương 2 NGỮ ÂM VÀ ÂM VỊ HỌC CỦA TIẾNG ANH VÀ

TIẾNG VIỆT

2.1 MỞ ĐẦU

Để tìm ra được giải pháp phiên âm từ vựng tiếng Anh trong văn bản tiếng Việt thì một trong những cơ sở lý thuyết quan trọng là nghiên cứu, phân tích về hệ thống ngữ âm, âm vị của tiếng Anh và tiếng Việt Từ đó, cho thấy giữa tiếng Anh và tiếng Việt có những điểm tương đồng về ngữ âm và âm vị Tuy nhiên, song song với những điểm tương đồng thì luôn tồn tại sự khác biệt giữa chúng như tiếng Anh có những âm vị mà không xuất hiện trong tiếng Việt và điều này cũng diễn ra theo hướng ngược lại

Để hiểu rõ hơn về những vấn đề đã nêu thì chương này sẽ trình bày, phân tích và so sánh cụ thể những nội dung liên quan đến ngữ

âm, cấu trúc âm tiết, âm vị, nguyên âm và phụ âm của tiếng Anh và tiếng Việt

2.2 TỔNG QUAN VỀ NGỮ ÂM

2.2.1 Ngữ âm là gi?

2.2.2 Đơn vị kết cấu ngữ âm

2.3 ÂM TIẾT TIẾNG ANH VÀ TIẾNG VIỆT

2.3.1 Khái niệm

2.3.2 Cấu trúc

2.3.3 Đối chiếu cấu trúc âm tiết Việt – Anh

2.4 ÂM VỊ TIẾNG ANH VÀ TIẾNG VIỆT

Dựa trên cơ sở sự tương đồng về phát âm, ngữ âm trong tiếng Anh và tiếng Việt xây dựng các bảng âm vị tương ứng như sau

2.4.1 Âm vị tiếng Anh

2.4.2 Âm vị tiếng Việt

Trang 10

2.5 NGUYÊN ÂM TRONG TIẾNG ANH VÀ TIẾNG VIỆT 2.5.1 Nguyên âm trong tiếng Anh

2.5.2 Nguyên âm trong tiếng Việt

2.5.3 Đối chiếu

2.6 PHỤ ÂM TRONG TIẾNG ANH VÀ TIẾNG VIỆT

2.6.1 Phụ âm trong tiếng Anh

2.6.2 Phụ âm trong tiếng Việt

2.6.3 Đối chiếu

2.7 KẾT CHƯƠNG

Từ những phân tích đặc trưng về cấu trúc âm tiết, âm vị, nguyên âm, phụ âm, quy tắc ghép âm vần và thanh điệu trong tiếng Việt và tiếng Anh cho thấy được những điểm tương đồng và khác biệt giữa 2 ngôn ngữ Dựa trên cơ sở đó tìm ra được phương pháp thực hiện hiệu quả nhất trong việc phiên âm một từ vựng tiếng Anh sang chuỗi âm tiếng Việt được mô tả cụ thể trong chương sau

Trang 11

Chương 3 CÁC THUẬT TOÁN VÀ CÀI ĐẶT

3.1 MỞ ĐẦU

Khi phiên âm một từ vựng tiếng Anh bất kỳ thành chuỗi âm tiết tiếng Việt thực sự rất phức tạp và mơ hồ vì giữa 2 ngôn ngữ có nhiều điểm tương đồng nhưng bên cạnh đó lại có rất nhiều điểm rất khác biệt Ngoài ra, việc phiên âm cũng bị ảnh hưởng của vùng miền, giọng địa phương và mang tính chất cá nhân Vì vậy, một từ vựng tiếng Anh có thể được phát âm theo nhiều cách khác nhau nên trong chương này sẽ trình bày về các thuật toán nhằm giúp chúng ta Việt hóa cách phát âm một từ vựng tiếng Anh thống nhất [5]

3.2 THUẬT TOÁN TỔNG QUAN

Đầu vào:

Một từ vựng tiếng Anh Ví dụ: FACEBOOK

Chuyển từ vựng tiếng Anh thông qua công cụ t2p

Ví dụ: F EY S B UH KD

- Đánh dấu nguyên âm.Ví dụ: _EY UH_

- Thêm phụ âm vào trước các nguyên âm, ví dụ: 1FEY_1BUH_

- Thêm phụ âm vào cuối các nguyên âm, ví dụ: 1FEY_1BUHKD1

- Bổ sung nguyên âm, ví dụ: 1FEY1SAX1BUHKD1

Xử lý các ngoại lệ và ánh xạ sang chuỗi ký

hiệu có thể phát âm bằng tiếng Việt

Ví dụ: 1foUsji1soU1bu1t1

Chuỗi âm tiết tiếng Việt Ví dụ: phây xơ bút

Hình 3.1 Thuật toán tổng quát

Trang 12

Các bước thực hiện của thuật toán:

Bước 1: Đầu vào là một từ vựng tiếng Anh, ví dụ nhập một từ

vựng là “FACEBOOK”

Bước 2: Sử dụng công cụ t2p chuyển một từ vựng tiếng Anh

thành chuỗi âm vị, ví dụ chuyển từ vựng “FACEBOOK” thành chuỗi

âm vị “F EY S B UH KD”

Bước 3: Trên cơ sở lý thuyết đã phân tích, vị trí nguyên âm

đóng vai trò chính trong một âm tiết nên cần xác định vị trí nguyên

âm đầu tiên, tiếp theo thêm phụ âm đầu, cuối và bổ sung nguyên âm nếu cần để hoàn thiện các âm tiết tương đối hoàn chỉnh Vì vậy, từ chuỗi âm vị như ví dụ trên sẽ cho kết quả là chuỗi âm vị

“1FEY1SAX1BUHKD1”

Bước 4: Từ chuỗi âm vị tiếng Anh ban đầu sau khi đã qua các

bước xử lý để được chuỗi âm vị mới có thể ánh xạ thành một chuỗi

ký hiệu có thể phát âm tiếng Việt, cụ thể như ví dụ trên là chuỗi

“1FEY1SAX1BUHKD1” khi ánh xạ chuỗi ký hiệu và xử lý các

ngoại lệ để đạt kết quả là chuỗi “1foUsji1soU1bu1t1”

Bước 5: Ánh xạ chuỗi ký hiệu có thể phát âm tiếng Việt thành

chuỗi âm tiết tiếng Việt Ví dụ: “1foUsji1soU1bu1t1”  “phây

xơ bút”

Trang 13

3.3 THUẬT TOÁN TÌM BIÊN ÂM TIẾT DỰA VÀO NGUYÊN ÂM

Hình 3.2 Tìm biên âm tiết

Mảng a[n] gồm các chuỗi âm vị dưới dạng Arpabet

Ví dụ: a[n]={F, EY, S, B, UH, KD}

Trang 14

3.4 THUẬT TOÁN THÊM PHỤ ÂM VÀO ĐẦU ÂM TIẾT

Hình 3.3 Thêm phụ âm vào đầu âm tiết

a[i] là nguyên âm kiểm tra a[i-1]

có phải là phụ âm không?

Trang 15

3.5 THUẬT TOÁN THÊM PHỤ ÂM VÀO CUỐI ÂM TIẾT

Hình 3.4 Thêm phụ âm vào cuối âm tiết

Kiểm tra a[i-1] có phải là nguyên âm &&

a[i] là phụ âm cuối?

Trang 16

3.6 THUẬT TOÁN BỔ SUNG NGUYÊN ÂM ĐỂ TẠO ÂM TIẾT MỚI

Hình 3.5 Bổ sung nguyên âm vào âm tiết

Trang 17

3.7 XỬ LÝ CÁC TRƯỜNG HỢP NGOẠI LỆ VÀ ÁNH XẠ

Sau khi đã triển khai tách các âm tiết trong chuỗi âm vị, chuỗi

âm tiết được xử lý tuân thủ quy tắc ghép vần của tiếng Việt, sau đó ánh xạ sang chuỗi âm tiết có thể phát âm trong tiếng Việt

3.7.1 Tiền xử lý ngoại lệ

Chuỗi âm tiết thu được vẫn còn ngoại lệ cần được xử lý trước khi ánh xạ đó là trường hợp các cặp nguyên âm và phụ âm cuối không đi liền được với nhau Vì số lượng các nguyên âm và phụ âm cuối trong tiếng Việt là hữu hạn nên cần thống kê tất cả các nguyên

âm và phụ âm trong cột Arpabet, sau đó tổ hợp tất cả các trường hợp

có thể xảy ra để đưa ra kết luận và hướng giải quyết

Bảng 3.1 Tổ hợp các nguyên âm và phụ âm cuối

Phụ âm cuối

No coda*

Chú thích: 1: Cặp âm vị này có thể đi đôi với nhau

T: Cặp âm vị này cần được bổ sung thanh điệu (sắc hóa) 0: Cặp âm vị này không thể đi đôi với nhau

*No coda tức là nguyên âm đứng một mình, không đi kèm phụ âm

* Sắc hóa

Trong tiếng Việt, một âm tiết kết thúc bằng các âm bật hơi (k, p, t) thì luôn được thêm dấu sắc hoặc dấu nặng trong đó từ thêm

Trang 18

dấu sắc chiếm đa số Chính vì vậy, trong trường hợp xuất hiện âm bật hơi ở cuối âm tiết, việc bổ sung thanh điệu (sắc hóa) sẽ đưa âm tiết về đúng quy tắc tiếng VIệt và có thể phát âm được

* Xử lý các cặp nguyên âm và phụ âm cuối không thể đi đôi với nhau

Trên cơ sở những đặc điểm tương đồng một cách tương đối về phát âm giữa các âm vị trong tiếng Việt, vấn đề này được xử lý bằng cách thay thế một trong hai âm vị bằng một âm vị có cách phát âm tương đồng Quy tắc như sau: AHAX (âơ); NG, ENGEN (ngn); AX, IX, ER, AXR, UH R  AH (ơâ)

Trang 19

Chương 4 – THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1 MÔI TRƯỜNG THỰC NGHIỆM

Hình 4.1 Chương trình phiên âm

B2 Click vào đây

để chương trình thực hiện

Trang 20

đích nhận dạng tiếng nói Từ điển gồm 133.031 dòng với mỗi dòng ứng với một từ hoặc ký tự trong tiếng Anh cùng với cách phát âm của chúng [9]

4.3 KẾT QUẢ VÀ ĐÁNH GIÁ

Dựa trên kết quả thực nghiệm của 100 từ tiếng Anh xuất hiện nhiều trên các báo điện tử và việc đánh giá của các giảng viên giảng dạy chuyên ngành tiếng Anh đánh giá kết quả đạt được là có thể chấp nhận

Bảng 4.1: Thống kê kết quả thực nghiệm chương trình

tiếng Anh

Kết quả từ công cụ t2p

Phiên âm tiếng Việt

Trang 21

TT Từ tiếng Anh Phiên âm

tiếng Anh

Kết quả từ công cụ t2p

Phiên âm tiếng Việt

Ngày đăng: 01/04/2018, 12:17

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w