1. Trang chủ
  2. » Tất cả

Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt

12 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 760,58 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt Luận văn ThS Công nghệ thông tin Nguyễn Hồng Quân MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT .... 80 DANH MỤC TỪ VIẾT TẮT 1 CART Clasificat

Trang 1

Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt

Luận văn ThS Công nghệ thông tin

Nguyễn Hồng Quân

MỤC LỤC

DANH MỤC CÁC TỪ VIẾT TẮT 4

DANH MỤC CÁC BẢNG 5

DANH MỤC CÁC HÌNH VẼ 5

LỜI NÓI ĐẦU 6

Chương 1 TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI 8

1.1 Modul NLP 10

1.1.1 Phân tích văn bản 10

1.1.2 Modul LTS 10

1.1.3 Phát sinh ngôn điệu 11

1.2 Modul DSP 11

1.2.1 Tổng hợp theo cấu âm 12

1.2.2 Tổng hợp tiếng nói theo quy luật Formant 14

1.2.3 Tổng hợp xích chuỗi 15

1.2.4 Tổng hợp xích chuỗi sử dụng mã tiên đoán tuyến tính LPC 18

1.3 Các ứng dụng của TTS 22

Chương 2 CƠ SỞ LÝ THUYẾT NGÔN NGỮ TIẾNG VIỆT 24

2.1 Ngữ âm học 24

2.1.1 Cơ sở vật lí 24

2.1.2 Các đặc trưng về âm tiết tiếng Việt 24

2.1.3 Âm vị 26

2.1.4 Hiện tượng biến đổi ngữ âm 30

2.2 Đặc điểm của từ 31

2.2.1 Định nghĩa từ 31

2.2.2 Các quan niệm về hình vị và từ trong tiếng Việt 32

2.2.3 Phương thức cấu tạo từ 32

2.3 Chữ viết và chính tả tiếng Việt 33

Chương 3 PHÂN TÍCH VĂN BẢN CHO TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 39

3.1 Các modul 39

3.2 Từ điển 41

3.3 Xác định cấu trúc văn bản 41

Trang 2

3.3.1 Các tiêu đề của chương, mục 42

3.3.2 Danh sách 43

3.3.3 Các đoạn 44

3.3.4 Câu 45

3.3.5 Email 45

3.3.6 Trang Web 46

3.3.7 Hoạt động hội thoại 46

3.4 Chuẩn hoá văn bản 46

3.4.1 Chuẩn hoá y-i 47

3.4.2 Chuẩn hoá dấu thanh 47

3.4.5 Chữ viết tắt và các kí hiệu khác 48

3.4.4 Các con số 48

3.4.5 Ngày tháng 49

3.4.6 Thời gian 49

3.5 Phân tích ngôn ngữ 50

3.5.1 Tách từ 50

3.5.2 Gán nhãn từ loại 50

3.5.3 Phân tích cú pháp 51

3.5.4 Phân tích ngữ nghĩa 52

Chương 4 BÀI TOÁN TÁCH TỪ 53

4.1 Các khó khăn trong nhận dạng từ tiếng Việt 53

4.2 Một số phương pháp tách từ 54

4.2.1 Dựa theo luật 54

4.2.2 Dùng thống kê 55

4.2.3 Các cách khác 55

4.3 Đề xuất mới 58

4.3.1 Từ điển 58

4.3.2 Các giả thiết 59

4.3.3 Giải pháp tách từ 63

4.4 Xử lí tên riêng 66

4.4.1 Tên người, tên địa lí 66

4.4.2 Tên tổ chức 67

4.4.3 Các tên riêng khác 67

4.5 Tách đoạn – Tách câu 68

4.6 Nhận xét đánh giá 68

4.6.1 Tập ngữ liệu thô 68

4.6.2 Nhận xét 70

Chương 5 CÀI ĐẶT THỬ NGHIỆM ĐÁNH GIÁ 73

5.1 Chương trình thử nghiệm 73

5.1.1 Yêu cầu về cấu hình hệ thống 73

Trang 3

5.1.2 Ngôn ngữ lập tình và cơ sở dữ liệu 73

5.1.3 Giao diện chương trình 73

5.2 Cấu trúc chương trình 74

5.3 Các kết quả thực nghiệm 75

5.3.1 Kết quả phân tích 75

5.3.2 Đánh giá tốc độ thực hiện 77

Kết luận và định hướng nghiên cứu 79

Tài liệu tham khảo 80

DANH MỤC TỪ VIẾT TẮT

1 CART Clasification And Regression Tree

3 DSP Digital Sigal Procesing - Xử lí tín hiệu số

4 HMM Hidden Markov Model

5 LTS Letter To Sound – Biến đổi chữ viết thành dạng phát âm được

6 MMM Maximal Matching Model

7 NLP Natural Language Processing -Xử lí ngôn ngữ tự nhiên

8 TBL Tranformation Based Learning

9 TTS Text To Speech - Tổng hợp tiếng nói

10 WFST Weigthed Finite State Transducer

11 MMM Maximal Matching Model

Trang 4

STT Từ viết tắt Nội dung

12 TAM Text Analyzer Modul

DANH MỤC CÁC BẢNG BIỂU

Bảng 2.1 Hệ thống âm đầu 27

Bảng 2.2 Hệ thống âm chính 29

Bảng 4.1: Kết quả đánh giá phân tách từ 70

Bảng 5.1 Kết quả đánh giá phân tích văn bản 75

Bảng 5.1 Kết quả tốc độ thực hiện 77

DANH MỤC CÁC HÌNH VẼ VÀ BIỂU ĐỒ Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS 8

Hình 1.2 Modul NLP của một hệ thống TTS 9

Hình 1.3 Qui trình tổng hợp tiếng nói theo qui luật 14

Hình 1.4 Mô hình tuyến tính tạo tiếng nói 15

Hình 1.5 Mô hình qui trình tổng hợp tiếng nói theo xích chuỗi 16

Hình 1.6 Mô hình tiên đoán tuyến tính tiếng nói 19

Hình 1.7 Mô hình tổng hợp LPC 20

Hình 2.1- Cấu trúc âm tiết 25

Hình 3.1 Cấu trúc modun hóa bộ phân tích văn bản và ngữ âm 39

Trang 5

Hình 3.2 Ví dụ về chú thích XML trong một cuốn sách 43

Hình 3.3 Ví dụ về một danh sách được đánh dấu 43

Hình 3.4 Ví dụ về một đánh dấu câu 44

Hình 3.5: Ví dụ về e-mail được đánh dấu bởi các thẻ đánh dấu XML 46

Hình 3.6: Phân tích cú pháp 51

Hình 4.1 Biểu đồ phân bố từ theo số lượng tiếng trong từ 59

Hình 4.2 Thuật toán tách từ 65

Hình 5 1: Giao diện chính 73

Hình 5.2 Mô hình ứng dụng 74

LỜI NÓI ĐẦU

Trong những năm gần đây, trên thế giới và nhiều hệ thống tổng hợp và nhận dạng tiếng nói cho nhiều ngôn ngữ như Anh, Pháp, Nhật đã được hoàn thiện Sự phát triển của công nghệ xử lí tiếng nói trên thế giới đã buộc chúng ta phải thừa nhận rằng việc nghiên cứu tiếng Việt một cách toàn diện cả về ngôn ngữ , văn bản và tiếng nói để có thể đạt được những kết quả so sánh được với các ngôn ngữ khác là hoàn toàn hiện thực Tổng hợp tiếng nói từ văn bản có chức năng ngược với nhận dạng tiếng nói Nó có rất nhiều ứng dụng quan trọng trong khoa học công nghệ và đời sống Một hệ tổng hợp tiếng nói bao gồm hai quá trình xử lí chính là : Xử lí ngôn ngữ tự nhiên và Xử lí tín hiệu số Trong

đó phân tích văn bản là một giai đoạn quan trọng của quá trình xử lí ngôn ngữ tự nhiên,

nó bao gồm các nhiệm vụ chính sau:

- Xác định cấu trúc văn bản

- Chuẩn hoá văn bản

- Phân tích ngôn ngữ

Với nhiệm vụ Phân tích ngôn ngữ thì một loạt các bài toán cơ bản cần được giải

Trang 6

quyết: phân tách từ, gán nhãn từ loại, phân tích cú pháp và phân tích ngữ nghĩa Trong

đó bài toán phân tách từ là tương đối quan trọng, khi chưa giải quyết được bài toán này thì ta không thể tiến xa thêm một bước nào trong xử lí ngôn ngữ tự nhiên Cho đến nay đã

có khá nhiều phương pháp tách từ được đưa ra : các phương pháp dựa theo luật, các phương pháp theo mô hình xác suất thống kê, các phương pháp lai Tuy nhiên đối với từng ngôn ngữ cụ thể và phụ thuộc vào đặc điểm của ngôn ngữ mà mỗi phương pháp có kết quả thực hiện với độ chính xác khác nhau

Trong phạm vi của luận văn này tôi xin đề xuất một yếu tố mới trong việc phân tách từ tiếng Việt, đó là cường độ liên kết từ Qua một số khảo sát thực nghiệm, kết quả thu về là đáng khích lệ

Nội dung của luận văn được trình bày cụ thể trong 5 chương

Chương 1: Tổng quan về tổng hợp tiếng nói

Chương 2: Cơ sở ngôn ngữ tiếng Việt

Chương 3: Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt

Chương 4 : Bài toán tách từ tiếng Việt

Chương 5: Cài đặt và đánh giá thử nghiệm

Những công việc được thực hiện trong luận văn này chưa phải là nhiều Phần thực hiện được chỉ là bước đầu nghiên cứu về tổng hợp tiếng nói và các vấn đề liên quan đến phân tích văn bản cũng như xử lí ngôn ngữ tự nhiên nói chung

Tôi xin được bày tỏ lòng cảm ơn sâu sắc tới Tiến sĩ Lương Chi Mai, người đã tận tình hướng dẫn giúp đỡ và tạo mọi điều kiện thuận lợi cho công tác nghiên cứu hoàn thành luận văn này

Xin ghi nhớ công lao của những người thân trong gia đình đã luôn động viên, chia

sẻ, giúp đỡ để tôi hoàn thành khoá học và luận văn này

Hà Nội, ngày 2 tháng 1 năm 2006

Nguyễn Hồng Quân

Trang 7

Chương 1

TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI

Tiếng nói là phương tiện truyền thông chính giữa con người với nhau Một hệ thống tổng hợp tiếng nói (Text To Speech – TTS) là một hệ thống dựa trên máy tính có khả năng đọc to bất kỳ văn bản nào, nó bao gồm việc chuyển đổi các mô tả về mặt ngữ

âm và ngữ điệu của văn bản đầu vào thành dạng sóng tiếng nói ở đầu ra Dữ liệu về tiếng nói có thể được mã hóa hay tham số hóa ở một dạng nào đó và được lưu giữ trước ở trong

bộ nhớ Văn bản có thể được nhập vào máy tính từ bàn phím, hoặc bằng hệ thống nhận dạng chữ viết, hoặc nhận được từ một CSDL nào đó hay tải về từ Internet[14]

Công việc của hệ thống TTS có thể được xem như là ngược lại với nhận dạng tiếng nói Việc chuyển các từ ở dạng chữ viết ra thành tiếng nói không phải là việc làm đơn giản Thậm chí nếu chúng ta có thể lưu trữ một từ điển khổng lồ cho các từ phổ biến nhất trong tiếng Việt thì hệ thống TTS vẫn cần phải đối mặt với hàng triệu các tên riêng, các

từ viết tắt vẫn phát sinh hàng ngày Mặt khác để tiếng nói được sinh ra một cách tự nhiên thì ngữ điệu của câu cần được kết hợp một cách hợp lý

Trang 8

XỬ LÝ NGÔN NGỮ TỰ NHIÊN

- Các hình thức ngôn ngữ

- Các mô tơ suy diễn

- Các suy luận logic

XỬ LÝ TÍN HIỆU SỐ

- Các mô hình toán học

- Các thuật toán

- Các quá trình tính toán

BỘ TỔNG HỢP TIẾNG NÓI

Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS

Ngôn điệu

Hình 1.1 giới thiệu sơ đồ cơ bản của một bộ tổng hợp TTS nói chung [14] Giống như việc đọc của con người, hệ thống bao gồm:

Modul xử lí ngôn ngữ tự nhiên (NLP): Có chức năng phân tích văn bản đầu

vào để sinh ra sự biến đổi ngữ âm cho việc đọc văn bản cùng với ngữ điệu và nhịp điệu mong muốn (thường được gọi là ngôn điệu)

Modul xử lí tín hiệu số (DSP): có nhiệm vụ biến đổi các thông tin ở dạng ký

hiệu mà nó nhận được ở đầu vào thành tiếng nói ở đầu ra Các thuật toán và các hình thức được áp dụng để xử lí thường được dựa vào các tri thức của các mô hình ngữ âm và toán học để phát triển Tính chất quan trọng nhất của hệ thống tổng hợp tiếng nói là chất lượng tiếng nói đầu ra Các tiếp cận hiện nay thường bỏ qua một

số bước xử lí nào đó do bị hạn chế về vấn đề thời gian thực và tài nguyên của hệ thống Điều này dẫn đến chất lượng bị hạn chế trong cách phát âm cũng như tính biểu cảm, ít nhất là so với con người

1.1 Modul NLP

Hình 1.2 giới thiệu sơ đồ làm việc của modul NLP tổng quát cho nhiệm vụ TTS [14]

HỆ

THỐNG

XỬ

Bộ tiền xử lý

Bộ phân tích hình thái

Bộ phân tích ngữ cảnh

Bộ phân tích cú pháp,

Văn bản

Bộ phân tích

văn bản

Trang 9

1.1.1 Phân tích văn bản

Khối phân tích văn bản bao gồm các thành phần sau:

Module tiền xử lí: có nhiệm vụ tổ chức các câu đầu vào thành danh sách các từ

có khả năng xử lí được Nó có nhiệm vụ nhận biết các con số, các chữ viết tắt , các thành ngữ và biến đổi chúng thành dạng văn bản đầy đủ khi cần thiết Một vấn đề quan trọng

mà chúng ta phải đối mặt ngay ở mức xử lí kí tự là: sự nhập nhằng của các dấu chấm câu (bao gồm cả trường hợp chuẩn khi hết câu) Ở một vài phạm vi có có thể được giải quyết nhờ các văn phạm chính quy cơ bản

Module phân tích hình thái: có nhiệm vụ đưa ra tất cả các khả năng về từ loại

cho mỗi cách viết riêng biệt của từng từ trên cơ sở từ chính tả của chúng Những từ ghép,

từ có nhiều biến tố, từ dẫn xuất được tách ra thành các đơn vị tự vị cơ bản (hình thái) nhờ các văn phạm chính quy đơn giản sử dụng từ vựng gốc từ và phụ tố Module này là cần thiết cho xử lí các ngôn ngữ có hình thái

Module phân tích ngữ cảnh: có nhiệm vụ xem xét các từ xuất hiện trong ngữ

cảnh, từ đó cho phép giảm bớt danh sách từ loại để hạn chế số lượng các giả thuyết có

Trang 10

thể xảy ra nhiều, cho biết từ loại tương ứng của các từ lân cận Vấn đề này này có thể được giải quyết theo :

- Mô hình n-grrams: theo đó sự phụ thuộc cú pháp cục bộ được biểu diễn theo dạng

otomat hữu hạn trạng thái xác suất, tức là mô hình Markov, hoặc một phạm vi nhỏ hơn với mạng nơron nhiều tầng được huấn luyện để phát hiện ra các luật viết theo ngữ cảnh

- Tập văn phạm cục bộ, không ngẫu nhiên được cung cấp bởi các chuyên gia ngôn ngữ hoặc được suy diễn một cách tự động từ một tập dữ liệu huấn luyện với các kỹ thuật cây hồi quy và phân loại (CART)

Module phân tích cú pháp- ngôn điệu: có nhiệm vụ rà soát trong không gian tìm

kiếm còn lại và các cấu trúc văn bản tìm thấy (tức là sự tổ chức của chúng thành mệnh đề

và các thành phần giống như cụm từ) có liên quan mật thiết nhiều tới thể hiện hiện ngôn điệu thực sự của nó

1.1.2 Module LTS:

Module chịu trách nhiệm xác định tự động phiên âm ngữ âm cho văn bản nhận được Đối với các ngôn ngữ có biến đổi hình thái như hệ ngôn ngữ Ấn- Âu , đây là một module quan trọng vì có nhiều phiên âm không được đề cập đến trong từ điển Tuy nhiên, chữ viết tiếng Việt là loại chữ ghi âm nên số lượng các mục trong từ diển được giảm bớt rất nhiều

1.1.3 Phát sinh ngôn điệu

Thuật ngữ ngôn điệu dùng để chỉ các thuộc tính nhất định về tín hiệu tiếng nói liên

quan đến khả năng nghe rõ sự thay đổi trong độ cao thấp; độ to nhỏ và độ dài của âm tiết Các đặc trưng của ngôn điệu có các chức năng cụ thể trong giao tiếp bằng tiếng nói Hiệu quả rõ ràng của ngôn điệu chính là sự nhấn mạnh Ví dụ, có các sự kiện nào đó về cao độ làm cho một âm tiết nổi bật trong lời nói, từ hoặc nhóm cấu trúc cú pháp có chứa

âm tiết đó một cách không trực tiếp sẽ được làm nổi bật như một yếu tố quan trọng hay yếu tố mới chuyển tải ý nghĩa của lời nói Sự có mặt của dấu trọng âm có thể có những hiệu quả khác nhau như sự tương phản, phụ thuộc vào vị trí mà trọng âm xuất hiện hoặc ngữ cảnh ngữ nghĩa của lời nói

Các đặc trưng ngôn điệu tạo ra một sự phân đoạn chuỗi tiếng nói thành các nhóm

Trang 11

âm tiết, chúng làm cho các nhóm âm tiết hoặc nhóm các từ thành các chuỗi lớn hơn Một

số đặc trưng ngôn điệu thể hiện quan hệ hai hay nhiều nhóm âm tiết được liên kết với nhau theo vài cách khác nhau Hiệu quả của việc nhóm như vậy có tính chất phân cấp, mặc dù không cần phải giống hệt cấu trúc cú pháp của lời nói

Như vậy quá trình tiên đoán ngữ điệu từ văn bản là phải xác định được độ dài, cao

độ tần số cơ bản của các ngữ đoạn tổng hợp sao cho phù hợp với các quy luật về ngữ điệu của một ngôn ngữ Đó là việc xác định vị trí trọng âm của từ được phát âm Lên xuống giọng ở các vị trí khác nhau trong câu, như đầu câu, cuối câu,v v và xác định các biến thể kác nhau của các âm phụ thuộc vào ngữ cảnh khi được phát âm trong một ngữ lưu liên tục Bước này bao gồm cả việc xác định điểm dừng nghỉ lấy hơi khi phát âm, nó hoặc đọc một văn bản Từ đó tạo ra các thông tin để điều khiển ngữ điệu thích hợp cho bộ tổng hợp tiếng nói

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Diệp Quang Ban, Hoàng Văn Thung (2004), Ngữ pháp tiếng Việt 1, NXB Giáo Dục, Hà

Nội

[2] Diệp Quang Ban (2004), Ngữ pháp tiếng Việt 2, NXB Giáo Dục, Hà Nội

[3] Nguyễn Tài Cẩn (1998), Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản Ngữ), NXB Đại

học Quốc gia Hà Nội

[4] Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Ngọc Phiến, (2005) Cơ sở ngôn ngữ học và tiếng Việt, NXB Giáo Dục, Hà Nội

[5] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003), Sử dụng bộ gán

nhãn từ loại xác suất QTAG cho văn bản tiếng Việt - Kỉ yếu hội thảo khoa học quốc gia lần thứ nhất về nghiên cứu, phát triển và ứng dụng công nghệ thông tin và truyền thông (ICT.rda 2003), Nhà xuất bản Khoa học và kĩ thuật, Hà nội

[6] Đoàn Thiện Thuật (1999), Ngữ âm tiếng Việt, NXB Đại học Quốc Gia Hà Nội

[7] Đỗ Xuân Thảo, Lê Hữu Tỉnh (1997), Giáo trình tiếng Việt 2, NXB Giáo Dục, Hà Nội

Tiếng Anh

Trang 12

[8] Chen, K J., & Liu, S H (1992), Word identification for Mandarin Chinese

sentences Proceedings of the Fifteenth International Conference on Computational

Linguistics, Nantes: COLING-92

[9] Dinh Dien, Hoang Kiem, Nguyen Van Toan, Vietnamese Word Segmentation,

Proceedings of NLPRS’01 ,Tokyo, Japan, 11/2001

[10] Dinh Dien , Pham Phu Hoi, Ngo Quoc Hung (2004), Some Lexical Issues in Building

Electronic VietnameseDictionary

[11] Chih Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, [On- line] Available:

http://technology.chtsai.org/wordlist/

[12] Jianfeng Gao, Mu Li, and Chang-Ning Huan (2003), Improved source-chanel

models for Chinese word segmentation

[13] Le An Ha, A method for word segmentation in Vietnamese (2004),

[14] Thiery Dutoit (1997), High quality text to speech synthesis: an overview, Faculte

Polytechnique de Món, TCTS Lab

[15] Xuedong Huang, Alex Acero, Hsiao Wuen Hon (2001), Spoken Language Procesing,

Prentice-Hall Internation (UK) Limited , London

Ngày đăng: 19/09/2016, 05:00

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS - Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Hình 1.1 Sơ đồ chức năng tổng quát của hệ thống TTS (Trang 8)
Hình 1.1 giới thiệu sơ đồ cơ bản của một bộ tổng hợp TTS nói chung [14]. Giống  như việc đọc của con người, hệ thống bao gồm: - Phân tích văn bản cho tổng hợp tiếng nói tiếng Việt
Hình 1.1 giới thiệu sơ đồ cơ bản của một bộ tổng hợp TTS nói chung [14]. Giống như việc đọc của con người, hệ thống bao gồm: (Trang 8)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w