Thiết kế giải thuật nhận dạng tiếng nói trên FPGA điều khiển robot (fpga based designs for robot communications)

Các hệ thống nhận dạng có nhiều ứng dụng vô cùng to lớn trong các lĩnh lực của cuộc sống, một trong những ứng dụng quan trọng là tạo ra các thế hệ robot thông minh nhận tạo có thể “nghe”

Trang 1

TRƯỜNG ĐẠI HỌC BÁCK KHOA

HÀ HOÀNG KHA

ĐỀ TÀI

THIẾT KẾ GIẢI THUẬT NHẬN DẠNG TIẾNG NÓI TRÊN FPGA ĐIỀU KHIỂN ROBOT

FPGA BASED DESIGNS FOR ROBOT COMMUNICATIONS

CHUYÊN NGÀNH: KỸ THUẬT VÔ TUYẾN ĐIỆN TỬ

MÃ SỐ: 2.07.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH 12-2002

Trang 2

LỜI CẢM ƠN

Xin chân thành cảm ơn Thầy Tiến sĩ Lê Tiến Thường đã tận tình hướng dẫn,

cung cấp tài liệu và đóng góp những ý kiến quý báu giúp tôi hoàn thành luận văn này

Xin chân thành cảm ơn tất cả thầy côâ và bạn bè đồng nghiệp ở Trường Đại học Bách Khoa đã quan tâm giúp đỡ và tạo điều kiện để tôi hoàn thành

chương trình học Cao học

Tháng 12 năm 2002

Hà Hoàng Kha

Trang 3

LỜI NÓI ĐẦU

Nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng đã phát triển trong những thập niên qua Mục đích của hệ thống nhận dạng là tạo ra những cái máy có thể giao tiếp với con người một cách tự nhiên và hiệu quả Các hệ thống nhận dạng có nhiều ứng dụng vô cùng to lớn trong các lĩnh lực của cuộc

sống, một trong những ứng dụng quan trọng là tạo ra các thế hệ robot thông minh nhận tạo có thể “nghe”, “hiểu”, và “hoạt động” theo thông tin từ

tiếng nói, và có thể nói để trao đổi thông tin giữa các máy hoặc giữa máy với

người Các robot có thể trao đổi thông tin như thế được gọi là robot communications

tính thành những vi mạch để ứng dụng vào thực tế gặp nhiều khó khăn, cần

nhiều thời gian và chi phí

Tuy nhiên, trong những năm gần đây, với sự phát triển công nghệ ASICs (Application Specific Integrated Circuits) đã mở ra một hướng phát triển mới

cho công nghệ kỹ thuật điện tử số hiện đại Với những thiết bị có thể lập trình

như CPLD (Complex Programmable Logic Device), FPGA (Field

Progammable Gate Array) cho phép thiết kế thử nghiệm các hệ thống số tiện

lợi và rẻ tiền, và đặc biệt với ngôn ngữ mô tả phần cứng HDL (Hardware Description Languages) quá trình sản xuất IC nhanh chóng và tiện lợi Với

những ưu điểm trên, công nghệ FPGA đã trở thành một giải pháp hiệu quả

trong việc thử nghiệm và thiết kế các vi mạch ứng dụng

Với đề tài : “THIẾT KẾ GIẢI THUẬT NHẬN DẠNG TIẾNG NÓI TRÊN FPGA ĐỂ ĐIỀU KHIỂN ROBOT” Luận án xây dựng một giải thuật nhận

dạng tiếng nói tiếng Việt theo hướng kết hợp mẫu, dựa trên các đặc trưng năng lượng tiếng nói, tốc độ biến thiên qua zero, và phổ năng lượng của tín hiệu bằng công cụ phân tích wavelets rời rạc với cấu trúc dãy bộ lọc hai kênh

Toàn bộ giải thuật được viết bằng ngôn ngữ mô tả phần cứng chuẩn VHDL

Trang 4

và cài đặt thử nghiệm trên FPGA Việc xây dựng chương trình trên FPGA bằng ngôn ngữ VHDL sẽ là tiền đề cho việc thiết kế các IC chuyên dụng

nhận dạng tiếng nói tiếng Việt

Phần trình bày luận án gồm các nội dung sau:

Chương 1: Giới thiệu khái quát về lịch sử phát triển robot, trình bày mô hình

robot communications, tổng quan về các phương pháp nhận dạng tiếng nói và những khó khăn khi xây dựng hệ thống nhận dạng

Chương 2: Trình bày các vấn đề tạo và tiếp nhận tiếng nói của con người, các

đặc trưng ngữ âm tiếng Việt

Chương 3: Lý thuyết xử lý tín hiệu tiếng nói, bao gồm số hoá tín hiệu tiếng

nói, tiền xử lý, các đặc trưng thời gian ngắn như năng lượng frame, tốc độ biến thiên qua zero, phân tích năng lượng frame bằng mô hình dãy bộ lọc, thực hiện dãy bộ lọc bằng biến đổi Haar wavelets

Chương 4: Các vấn đề trong kỹ thuật nhận dạng so sánh mẫu: giải thuật tách

điểm đầu cuối, kỹ thuật canh lề và chuẩn hoá thời gian dùng giải thuật quy hoạch động, và luật quyết định nhận dạng

Chương 5: Trình bày sự phát triển kỹ thuật EDA (Electronics Design Automation), các cấu trúc và ứng dụng của thiết bị logic số có thể lập trình,

những ưu điểm và hạn chế ngôn ngữ mô tả phần cứng VHDL

Chương 6: Thiết kế và thực hiện giải thuật nhận dạng tiếng nói theo hướng

kết hợp mẫu trên FPGA để điều khiển cánh tay robot Giải thuật xây dựng

dựa trên các đặc trưng ZCR (Zero Crossing Rate), năng lượng frame, ước

lượng formant bằng waveletes rời rạc

Chương 7: Nhận xét kết quả, những ưu điểm và hạn chế khi thực hiện giải

thuật trên FPGA, và đề xuất hướng phát triển đề tài

Trang 5

PREFACE

Speech recognition is an important area of research for the last several decades The major goal of speech recognition is to create machines that can interface with people naturally and efficiently Speech recognition systems have very important applications in many of aspects of our daily life The

study of speech recognition is part of a quest for “artificially intelligent”

machines that can “hear”, understand” and “act upon” spoken information, and “speak” in completing the information exchange The machines are called robot communications

Many researchers have developed the speech recognition algorithms for robot communications with relatively efficient recognition results But, most algorithms were programmed in high-level computing languages with supporting the computation power and memory of a computer Producing these systems in the integrated circuits to apply in the real word is difficultly and costly

However, in recent years, successful developments in ASIC technology have

opened a new tendency in the modern digital electronic design High-density

programmable logic Devices, including CPLD (Complex Programmable Logic Device), FPGA (Field Programmable Gate Array) allow designing and

testing the digital systems quickly and effectively Specially, with standard hardware description language, VHDL, converting a design from a

programmable logic to an ASIC implementation is feasible So, FPGA is

particularly suited for designing and testing application digital circuits

The thesis, “FPGA based designs for robot communications”, develops a

speech recognition algorithm for Vietnamese language based on pattern recognition approach The features of the speech such as short time energy, zero crossing rate and spectrum of signal from discrete wavelet transform are parameters to be recognized Realizing the speech recognition system on

FPGA with VHDL is the initial step to design integrated circuits for

recognizing Vietnamese speech

Trang 6

The thesis is organized into seven chapters:

Chapter 1: Introduces generally about history of robot developments, robot

communication model The global view of speech recognition approaches to speech recognition and difficulties in building speech recognition system

Chapter 2: Presents the speech production process in human being and the

acoustic-phonetic features of the sound in Vietnamese language

Chapter 3: Presents the digital signal processing including: sampling,

short-term features energy frame, and correlation, zero crossing rate.) Specially, introduces method to speech spectral analysis with filter bank model and discrete wavelets transform

Chapter 4: Discusses the problems in pattern comparison techniques: end

point detection, the algorithms to time aligning and normalizing, and discusses dynamic time warping algorithms

Chapter 5: Presents the advances in Electronics Design Automation,

introduces the architecture and applications of some programmable logic

devices And show the strengths and weaknesses of VHDL

Chapter 6: Design completely the speech recognition systems and configured

on FPGA to control robot communications Presents detailed algorithms to extract the features spectrum, ZCR of speech and implementation results

Chapter 7: Comments on the speech recognition system, show the strengths

and weaknesses of implementation speech recognition on FPGA., and proposes the future trends of thesis

Trang 7

THIẾT KẾ GIẢI THUẬT NHẬN DẠNG TIẾNG NÓI TRÊN FPGA

ĐIỀU KHIỂN ROBOT TÓM TẮT

Hệ thống nhận dạng tiếng nói được xây dựng dựa trên các đặc trưng tiếng nói làm cơ sở nhận dạng Về mặt ngữ âm tiếng nói được tạo ra bởi luồng không khí từ phổi kích thích dây thanh đới dao động tạo ra hợp âm có tần số cơ bản và rất nhiều hoạ tần Các khoang cộng hưởng của cơ quan phát âm sẽ khuếch đại một vài thành phần tần số và làm suy hao các thành phần tần số còn lại, từ đó sẽ tạo ra các tiếng nói khác nhau Các thành phần tần số được cộng hưởng có khuynh hướng hình thành toàn bộ phổ tần tín hiệu tiếng nói, được gọi là các formant Do đó các formant là đặc trưng rất quan trọng để phân biệt các âm tiết với nhau

Tuy nhiên tiếng nói là tín hiệu không dừng, có các đặc trưng biến đổi theo thời gian, do đó để phân tích tiếng nói cần phải khảo sát trong những khoảng

thời gian ngắn, gọi là một frame, và các đặc trưng trong một frame coi như

không thay đổi Một công cụ xử lý tín hiệu hiệu quả để phân tích tín hiệu

không dừng đó là biến đổi wavelets, phân tích đa phân giải, có tính định vị

trong miềm thời gian và tần số Để việc phân tích và xử lý tín hiệu trong thời gian thực cần phải có một cấu trúc phần cứng xử lý song song, các thiết bị

logic có thể lập trình PLD (Programmable Logic Device) được chọn như là

một giải pháp hiệu quả

Kết hợp đặc tính phân tích đa phân giải, biến đổi wavelets với cấu trúc xử lý

song song trên FPGA là một giải pháp hiện đại và hiệu quả cho việc xây

dựng một hệ thống nhận dạng tiếng nói tiếng Việt dựa trên các đặc trưng:

năng lượng frame, ZCR (Zero Crossing Rate) , các formant để làm cơ sở

nhận dạng

Hệ thống nhận dạng tiếng nói được thực hiện gồm ba bước: lấy mẫu nhiễu môi trường, huấn luyện và nhận dạng Trong giai đoạn lấy mẫu nhiễu môi trường, năng lượng nhiễu và ZCR được lưu trữ làm cơ sở cho việc tách âm tiết Trong quá trình huấn luyện các đặc trưng tiếng nói được trích ra và lưu trữ trong cơ sở dữ liệu Trong giai đoạn nhận dạng, các đặc trưng tiếng nói được so sánh với các đặc trưng trong cơ sở dữ liệu để tìm ra từ có đặc trưng gần nhất Sau cùng, tiếng nói được nhận dạng và giải mã thành lệnh tương ứng để điều khiển robot

Trang 8

FPGA BASED DESIGNS FOR ROBOT COMMUNICATIONS

ABSTRACT

Speech recognition system is built based on the features of speech to recognize According to acoustic phonetic theory, speech is generated by the airflow from the lung, which excite vocal cords vibrating to produces a series

of sounds, which have the fundamental frequency and many harmonics The resonant cavities of the human vocal organ will amplify some frequencies to form the overall spectrum, called formants The formant is a very important feature to distinguish between syllables

However, speech is a non-stationary signal which features vary slowly in time

So, it needs to be analyzed and processed in short-time periods, called frame, and the characteristics of frame are considered stationary Wavelet is a good signal processing method for non-stationary signal analysis with good resolution in time and frequency To process signal in real time needs hardware architectures which can process parallel Programmable logic devices are chosen as effective solutions

Implementation of multiresoulution signal processing in parallel processing architecture of FPGA is a modern and effective solution for building a speech recognition system

The speech recognition system implemented in this thesis is a dependent, isolated word system The fundaments for recognizing are the features: short-time energy, zero-crossing rate, and formants The system has three operating modes: noise sample, voice training, and recognition In noise sample mode, the number of zero-crossing and energy of the noise is found to set the threshold for word boundary detection In training phase, speech signal

speaker-is processed to extract important features to store in memory During the recognition stage, systems compares an unknown input word to a library of stored words to find the closet match After all, word recognized is decoded into appropriate commands to control robot

Trang 9

Chương 1: TỒNG QUAN ROBOT COMUNICATION VÀ

HỆ THỐNG NHẬN DẠNG TIẾNG NÓI

3 Hệ thống nhận dạng tiếng nói 73.1 Các hướng nhiên cứu nhận dạng tiếng nói 8

3.3 Phân loại hệ thống nhận dạng tiếng nói 103.4 Các khó khăng trong việc nhận dạng itếng nói 113.5 Các yếu tố ảnh hưởng mức độ phức tạp và chất lượng hệ thống

Chương 2: ĐẶC TRƯNG NGỮ ÂM TIẾNG VIỆT

1 Các vấn đề cơ bản của tiếng nói 13

2.4 Hệ thống các âm vị trong tiếng Việt 25

Trang 10

1 Số hoá tín hiệu 35

3 Xử lý tín hiệu thời gian ngắn 38

4 Phân tích phổ bằng dãy bộ loc 444.1 Các dãy bộ lọc được sử dụng trong nhận dạng tiếng nói 47

Chương 4: CANH LỀ VÀ CHUẨN HOÁ THỜI GIAN TRONG

HỆ THỐNG NHẬN DẠNG KẾT HỢP MẪU

3 Các độ lệch trong nhận dạng tiếng nói 70

4 Canh lề và chuẩn hoá theo thời gian 73

6 Mô hình nhận dạng theo hướng kết hợp mẫu 82

Chương 5: THIẾT KẾ HIỆN ĐẠI TRÊN FPGA

NGÔN NGỮ MÔ TẢ PHẦN CỨNG

1 Sự phát triển và ứng dụng kỹ thuật EDA 841.1 Phương pháp thiết kế từ đỉnh xuống 84

2 Các thiết bị lập trình dung lượng cao-FPGA 86

Trang 11

2.3 Các công nghệ lập trình chip 90

2.6 Quá trình cài đặc chương trình trên FPGA 98

3 Ngôn ngữ mô tả phần cứng VHDL 105

Chương 6: THIẾT KẾ GIẢI THUẬT

NHẬN DẠNG TIẾNG NÓI TRÊN FPGA

3 Thiết kế giải thuật nhận dạng bằng ngôn ngữ VHDL 117

3.5 Ước lượng formant bằng Haar wavelets rời rạc 124

4 Cài đặt hệ thống nhận dạng trên FPGA 1324.1 Hệ thống nhận dạng dựa trên ZCR 1334.2 Hệ thống nhận dạng dựa trên các formant

Chương 7: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI

Tài liệu tham khảo

Trang 12

C hương 1

TỔNG QUAN ROBOT COMMUNICATIONS NHẬN DẠNG TIẾNG NÓI

Trang 13

1

TỔNG QUAN ROBOT COMMUNICATIONS &

MÔ HÌNH NHẬN DẠNG TIẾNG NÓI

1.1 GIỚI THIỆU ROBOT

1.1.1 Lịch sử phát triển Robot

Nguồn gốc của robot có từ thời Hy Lạp cổ đại, các kỹ sư người Hy Lạp đã tạo

ra một cái tượng có khả năng chuyển động Vào năm 270 trước Công nguyên, Ctesibus, một kỹ sư người Hy Lạp đã chế tạo những cái đàn ống, đồng hồ nước với các hình ảnh chuyển động

Vào những năm 1770, Pierre Jacquet Droz, một nhà phát minh người Thụy Sĩ đã tạo ra ba con búp bê máy và mỗi con có thể thực hiện được những chức năng riêng biệt: con có thể viết, con khác có thể chơi nhạc trên đàn ống, con thứ ba có thể vẽ một bức tranh đơn giản Đó là một kỳ công mà họ đã làm, những con búp bê này thực hiện được những động tác tuyệt vời mà chỉ dùng hộp số, nhông, chốt và lò xo

Gần hơn, vào năm 1898, Nikola Tesla xây đã xây dựng tàu ngầm điều khiển bằng sóng vô tuyến Đây là một phát minh không nhỏ vào năm này Tàu này đã được trình diễn tại Madison Square Garden Mặc dù Nikola Tesla đã có kế hoạch cho tàu tự động, nhưng không đủ kinh phí cho cuộc nghiên cứu được tiến triển xa hơn

Từ “robot“ lần đầu tiên được sử dụng vào năm 1921 trong một vở kịch có tựa đề R.U.R-Rossum’s Universal Robot của một tác giả người Séc, Karel Capek Trong đó, robot được mô tả như một máy phục vụ

Trang 14

Về mặt lịch sử, người ta cố tìm kiếm để đặt vào các vật thể vô tri vô giác những khả năng và thuộc tính giống loài người Điều này đã tạo ra một từ

“anthrobot”, robot có hình dạng của con người

Bắt đầu từ đây, robot đã trở thành đề tài chủ yếu trong các phim truyện khoa

học giả tưởng, và đã tạo ra nhiều thuật ngữ mô tả các dạng khác nhau của

robot Ngoài những robot bằng thiết cũ, còn có cyborg một nửa người và một nửa máy và android là một robot được xây dựng đặc biệt, thiết kế giống

Trong thời đại công nghiệp phát triển, các robot được ứng dụng rộng rãi trong nhiều những vực nhằm thay thế con người trong việc thực hiện các công việc lặp đi lặp lại và những công việc nguy hiểm cần độ chính xác cao Sau đây là

sơ lược lịch sử phát triển của các máy móc tự động đã dẫn đến sự ra đời và

phát triển của các robot công nghiệp

1801 Joseph Jacquard phát minh một máy dệt được điều khiển bằng card

đục lổ

1830 Christopher Spencer (người Mỹ) thiết kế máy tiện hoạt động dựa vào

kỹ thuật cam

1892 Ở Mỹ, Seward Babbitt thiết kế một cần trục cơ giới hóa có kẹp để di

chuyển các thỏi khỏi lò luyện

1921 Từ robot xuất hiện lần đầu tiên trong một trò chơi ở Luân Đôn Trò

chơi, được viết bởi Karel Capek (người Tiệp Khắc), giới thiệu từ robot trong cụm từ Czech robota, có nghĩa là một nông nô hoặc một lao động quỵ lụy Từ đó khái niệm robot đã xuất hiện

1938 Willard Pollard và Harold Roselund (người Mỹ) thiết kế một cơ cấu

sơn phun có thể lập trình được cho công ty DeVilbiss

1946 George Devol được cấp bằng sáng chế về một thiết bị playback điều

khiển máy móc đa chức năng Thiết bị sử dụng một bộ ghi từ tính Trong cùng năm này máy tính xuất hiện lần đầu tiên Nhà khoa học

Trang 15

người Mỹ J Presper Eckert và John Mauchly xây dựng máy tính điện tử lớn đầu tiên gọi là Eniac ở trường đại học Pennsylvania Một máy tính thứ hai được đặt tên là Whirlwind, là máy tính số đa năng đầu tiên, được thiết kế ở M.I.T

1948 Norbert Wiener, một giáo sư ở M.I.T, xuất bản quyển Cybertmetics

mô tả khái niệm giao tiếp và điều khiển trong điện tử, máy móc, và hệ thống sinh vật học

1951 Một cánh tay có khớp nối trang bị bộ hoạt động từ xa được thiết kế bởi

Raymond Goertz cho Atomic Energy Commission

1954 Robot có thể lập trình đầu tiên được thiết kế bởi George Devol, người

đã đưa ra thuật ngữ Universal Automation Sau đó thuật ngữ này được

viết ngắn gọn là Unimation, đó chính là tên của công ty robot đầu

tiên

1959 Tập đoàn Planet đưa ra thị trường robot thương mại đầu tiên

1960 Unimation được tập đoàn Condec mua lại và sự phát triển của Hệ

thống Robot Unimate được bắt đầu

Tập đoàn AMF (American Machine and Foundry) đưa ra thị trường

một robot Versatran, được thiết kế bởi Harry Johnson và Veljko

Milenkovic

1962 General Motors lắp đặt robot công nghiệp đầu tiên vào dây chuyền

sản suất Đó chính là robot Unimate

1964 Các phòng thí nghiệm nghiên cứu trí tuệ nhân tạo được mở ở M.I.T.,

Viện nghiên cứu Stanford (SRI), Đại học Stanford và Đại học Edinburgh

1968 SRI xây dựng và thử nghiệm robot di động có khả năng nhìn, được gọi

là Shakey

1970 Đại học Stanford phát triển một cánh tay robot, làm tiêu chuẩn cho

các công trình nghiên cứu Cánh tay hoạt động bằng điện năng và được gọi là Cánh tay Stanford

1973 Robot thương mại đầu tiên được điều khiển bằng máy tính mini được

Richard Hohn thiết kế cho tập đoàn Cincinnati Milacron Robot được

gọi là T3, The Tomorow Tool

1974 Giáo sư Scheiman, người phát triển Cánh tay Stanford, thành lập liên

hợp Vicarm để đưa ra thị trường một phiên bản cánh tay mới cho các ứng dụng công nghiệp Cánh tay mới được điều khiển bằng một máy tính mini

Trang 16

1976 Các cánh tay robot được sử dụng trên tàu vũ trụ không người lái

Viking1 và Viking2

1977 ASEA, một công ty robot châu Âu, đưa ra các robot công nghiệp dùng

điện năng Chúng sử dụng một máy vi tính để điều khiển lập trình và hoạt động Cùng năm Unimation mua lại liên hợp Vicarm

1978 Robot Puma (Programable Universal Machine for Assembly) được

Unimation phát triển từ kỹ thuật Vicarm

1980 Công nghiệp robot bắt đầu phát triển nhanh chóng với một robot mới

hoặc một công ty ra đời mỗi tháng

1.1.2 Mục đích sử dụng robot

Robot là những thiết bị không thể thiếu trong nên sản xuất công nghiệp Lý

do là chi phí trên một giờ để vận hành robot thì nhỏ hơn nhiều so với chi phí

của một người lao động thực hiện cùng chức năng Hơn nữa, khi được lập trình, robot có thực hiện các công việc lặp đi lặp lại với độ chính xác cao hơn hẳn một công nhân nhiều kinh nghiệm Tuy nhiên, con người thì linh hoạt hơn và có thể chuyển giao nhiệm vụ công việc một cách dễ dàng hơn Robot thì chỉ làm công việc chuyên biệt, không thể chuyển robot hàn thành robot đếm sản phẩm trong thùng Ngoài việc thực hiện công việc một cách nhanh chóng

và hiệu quả, robot còn thay thế cho con người thực hiện các công việc trong

môi trường độc hại, nguy hiểm, có rủi ro cao như: công việc trong các hầm mỏ, nơi có phóng xạ, hoá chất nguy hiểm v.v

1.1.3 Định nghĩa và phân loại robot

Khái niệm phổ biết về người máy là một thiết bị thực hiện những công việc giống như con người và có những khả năng thông minh của con người như có thể nghe và nói

Robot là một cái máy tự động đa chức năng có thể lập trình lại được thiết để

di chuyển các công cụ hoặc các thiết bị đặc biệt thông qua những thao tác được lập trình sẵn để thực hiện các nhiệm vụ khác nhau

Hai đặc điểm đa chức năng và có thể lập trình lại là đặc trưng quan trọng

nhất để phân biệt robot với các máy móc tự động khác Một robot phải có

khả năng có thể được lập trình lại để thực hiện một nhiệm vụ mới hoặc có

thể thay đổi các cử động của cánh tay hoặc công cụ Ngoài ra, robot phải có

Trang 17

khả năng thực hiện nhiều chức năng khác nhau, phụ thuộc vào chương trình và công cụ đang dùng

Robot có thể được phân loại theo kỹ thuật điều khiển, khả năng, sự di chuyển:

Phân loại theo kỹ thuật điều khiển, có:

- Robot điểm-điểm: có khả năng di chuyển từ điểm này đến điểm khác

và không thể dừng ở các điểm trung gian bất kỳ

- Robot điểm liên tục: có thể di chuyển trên một đường và có thể dừng ở

một điểm trung gian bất kỳ

- Robot di chuyển theo quỹ đạo: di chuyển theo một quỹ đạo được mô tả

bằng phương trình đại số

- Robot được điều khiển phụ: có những thiết bị cảm biến trạng thái hiện

tại và hồi tiếp về để điều khiển robot

Phân loại theo khả năng, gồm:

- Robot được điều khiển trình tự: là những máy thực hiện những thao tác

trình tự cố định theo những lệnh, ví dụ trình tự giặt trong máy giặt

- Robot thích nghi: có khả năng tương tác với môi trường thông qua cảm

biến để thực hiện công việc bằng cách thay các thông số điều khiển

- Robot thông minh: được trang bị cảm biến để học và lấy mẫu môi

trường để tạo ra cơ sở kiến thức và hoạt động với sự trợ giúp của hệ chuyên gia Cơ sở kiến thức được cập nhật thường xuyên để robot hoạt động tốt hơn

Phân loại theo khả năng di chuyển, có:

- Robot cố định: được gắn cố định trong một không gian làm việc

- Robot di động: được đặt trên những bánh xe, có thể di chuyển tự động

hoạt được điều khiển từ xa

- Robot đi bộ: là những robot có chân, có thể di chuyển trong địa hình khó

khăn Đôi khi có khả năng leo lên và xuống dốc Vấn đề khó khăn của robot đi bộ là đảm bảo sự cân bằng trong khi di chuyển

1.1.4 Cấu trúc cơ bản của một hệ thống Robot

Một hệ thống robot cơ bản bao gồm một cánh tay cơ khí được gắn công cụ để làm việc (gọi là công cụ end-of-arm), một bộ điều khiển dựa vào máy tính gắn với trạm dạy (teach station) và thiết bị lưu trữ chương trình, một nguồn năng lượng khí nén hoặc thủy lực để điều khiển cánh tay máy (hình 1.1) Ngoài ra, để có các thông tin về môi trường bên ngoài, hệ thống phải dùng thêm một loạt các cảm biến

Trang 18

Cánh tay

cơ khí robot

Nguồn năng lượng khí nén hoặc thủy lực

Máy tính điều khiển robot

Công cụ end-of-arm

Thiết bị dạy đầu cuối

Đĩa lưu chương trình

Các cảm biến

Hình 1.1- Hệ thống robot cơ bản 1.1.5 Các thế hệ Robot

- Thế hệ thứ nhất: là những robot nhặt đặt dùng khí nén, có hơn khoảng

90% robot đang sử dụng thuộc loại này

- Thế hệ hai: robot được trang bị thiết bị cảm biến để tìm hướng đi

- Thế hệ thứ ba: robot thông minh nhân tạo, có khả năng tự học hỏi và ra quyết định

- Thế hệ thứ tư: là loại robot sinh học nhân tạo

1.2 ROBOT COMMUNICATIONS

Sự thông minh của robot là một yếu tố rất quan trọng nên các nhà nghiên cứu đang cố gắng tạo ra các thế hệ robot ngày càng thông minh hơn Một trong các nổ lực đó là mang lại khả năng giao tiếp tự nhiên giữa người với robot

cũng như giao tiếp giữa người với người: tạo ra các robot có thể nghe và nói

với con người Robot có khả năng giao tiếp với con người bằng tiếng nói được

gọi là robot communications

Về cơ bản, một robot communications có mô hình như ở hình 1.2

Xử lý tín hiệu tiếng nói Hệ thống nhận dạng tiếng nói Điều khiển robot Micro

Trang 19

Hình 1.2 –Mô hình robot Communications

Các lệnh điều khiển robot được nói trực tiếp vào micro hoặc thông qua một đường truyền hữu tuyến hoặc vô tuyến Khối xử lý tiếng nói có nhiệm vụ tách tín hiệu tiếng nói từ nền nhiễu và thực hiện số hoá tín hiệu Bộ phận nhận dạng tiếng nói phân tích tín hiệu tiếng nói để trích các đặc trưng và thực hiện

so sánh với các mẫu đã lưu trưng trong bộ từ vựng để tìm ra lệnh gần giống nhất Khối điểu khiển robot có chức năng giao tiếp giữa khối nhận dạng và robot, thực hiện chuyển đổi lệnh thành mã phù hợp để điều khiển robot thực hiện công việc tương ứng Mô hình robot trong luận án là một cánh tay robot (robotic arm)

Hình 1.3 – Mô hình cánh tay Robot 1.3 HỆ THỐNG NHẬN DẠNG TIẾNG NÓI

Tiếng nói là một phương tiện trao đổi thông tin một cách tự nhiên và hiệu quả Mục tiêu của hệ thống nhận dạng là tạo ra những cái máy có thể nhận thông tin từ tiếng nói và hoạt động theo thông tin đó Hơn nữa, việc trao đổi thông tin từ máy với người có thể thực hiện thông qua bộ tổng hợp tiếng nói

Do đó, việc nghiên cứu nhận dạng tiếng nói là một phần yêu cầu của “một máy thông minh nhân tạo” có thể “nghe”, “hiểu” và “hoạt động” theo thông tin từ tiếng nói, và có thể “nói” để trao đổi thông tin giữa các máy hoặc

giữa máy với người

Trang 20

Hệ thống nhận dạng tiếng nói chủ yếu dựa vào các đặc trưng tiếng nói để làm

cơ sở nhận dạng Tuy nhiên do tính chất quá phức tạp của tiếng nói, nên việc nhận dạng gặp rất nhiều khó khăn Để vượt qua những khó khăn này, người ta đã theo đuổi nhiều hướng nghiên cứu khác nhau nhằm mục đích nâng cao độ chính xác của quá trình nhận dạng

Để có thể nghiên cứu được cấu trúc của tiếng nói, đòi hỏi phải có sự kết hợp của các nhà ngôn ngữ học, tâm lý học, và các nhà sinh lý học Mục tiêu việc nhận dạng tiếng nói là tạo ra hệ thống máy có thể thông tin về nhau qua tiếng nói

1.3.1 Các hướng nghiên cứu nhận dạng tiếng nói:

1 Hướng âm học-ngữ âm (The Acoustic-Phonetic Approach)

Các hướng nghiên cứu ban đầu dựa vào việc tìm âm tiếng nói và gán nhãn (label) cho các âm này Đây là cơ sở của hướng âm học-ngữ âm với giả thuyết tồn tại một số hữu hạn các đơn vị ngữ âm khác nhau có thể phân biệt được trong ngôn ngữ nói với các đặc điểm được mô tả bằng các đặc tính âm học hiện diện rõ ràng trong tín hiệu tiếng nói Mặc dù các đặc tính âm học của các đơn vị ngữ âm có thể thay đổi theo người nói hoặc theo các âm lân cận, hướng nghiên cứu âm học-ngữ âm giả sử rằng các qui luật chi phối sự thay đổi là không phức tạp (straightforward) và có thể cho máy học dễ dàng Bước đầu tiên trong hướng âm học-ngữ âm là phân đoạn và gán nhãn (segmentation and labeling) trong đó tín hiệu tiếng nói được phân ra thành các vùng âm học ổn định, mỗi vùng được gán bởi một hoặc nhiều kí hiệu ngữ âm tạo thành một

chuỗi âm vị mô tả tiếng nói Bước thứ hai là cố gắng xác định một từ có nghĩa

(hoặc một chuỗi các từ) từ chuỗi kí hiệu âm vị được tạo ra trong bước đầu tiên Trong quá trình này, các giới hạn ngôn ngữ học (ví dụ như từ vựng, ngữ cảnh và các qui luật ngữ nghĩa) được áp dụng để truy xuất bộ từ vựng dựa trên chuỗi âm vị Hướng âm học-ngữ âm không được sử dụng rộng rãi trong các ứng dụng thương mại

2 Hướng kết hợp mẫu (Pattern-Matching Approach)

Hướng kết hợp mẫu gồm hai bước chủ yếu là huấn luyện mẫu (pattern training) và so sánh mẫu (pattern comparison) Đặc tính chủ yếu của hướng

này là sử dụng các cơ cấu toán học rõ ràng và thiết lập sự biểu diễn thích hợp các mẫu tiếng nói cho việc so sánh chính xác các mẫu từ một tập hợp các mẫu huấn luyện đã gán nhãn thông qua giải thuật huấn luyện nghiêm chỉnh Tiếng nói có thể được biểu diễn ở dạng mẫu tiếng nói (speech template) hoặc một

Trang 21

mô hình thống kê (statistical model), và có thể được áp dụng cho một âm, một từ hoặc một nhóm từ Trong giai đoạn so sánh mẫu, có một sự so sánh trực tiếp giữa tiếng nói chưa biết (cần nhận dạng) với mỗi mẫu được học trong giai đoạn huấn luyện để xác định đặc tính của mẫu chưa biết dựa theo chất lượng của việc kết hợp mẫu

3 Hướng thông minh nhân tạo (Artificial Intelligence Approach)

Hướng thông minh nhân tạo cố gắng máy móc hóa hoạt động nhận dạng theo cách con người áp dụng trí khôn trong việc hình dung, phân tích và đánh giá tiếng nói dựa trên một tập hợp các tính chất âm học đo được Trong số các kỹ thuật được sử dụng trong hướng này có việc sử dụng một hệ chuyên gia trong đó tích hợp âm vị, từ vựng, cú pháp, ngữ nghĩa và ngay cả các kiến thức thực tế cho việc phân đoạn và gán nhãn, và sử dụng các công cụ như các mạng neural nhân tạo cho việc học các quan hệ giữa các sự kiện âm vị Trọng tâm trong hướng này chủ yếu là sự biểu diễn kiến thức và tích hợp các nguồn kiến thức Phương pháp này chưa được sử dụng rộng rãi trong các hệ thống thương mại

1.3.2 Mô hình hệ thống nhận dạng tiếng nói

Mô hình tổng quát của một hệ thống nhận dạng theo hướng kết hợp mẫu được mô tả ở hình 1.4 Tín hiệu tiếng nói đầu tiên được biến đổi thành dạng tín hiệu phù hợp cho việc xử lý Trong quá trình xử lý, tiếng nói được phân tích và trích các đặc trưng Nếu trong quá trình huấn luyện thì các đặc trưng này được lưu trữ thành cơ sở dữ liệu dưới dạng mẫu tham khảo hoặc mô hình thống kê để phục vụ cho việc so sánh mẫu trong khối kết hợp mẫu Trong giai đoạn nhận dạng các đặc trưng sẽ được so sánh với các mẫu đã lưu trữ để tìm mẫu gần với đặc trưng tiếng nói cần nhận dạng nhất Khối quyết định nhận dạng sẽ chọn mẫu nhận dạng tốt nhất

Quyết định nhận dạng Tiếng nói

Hình 1.4 - Sơ đồ khối bộ nhận dạng tiếng nói theo hướng kết hợp mẫu

Trang 22

1.3.3 Phân loại hệ thống nhận dạng tiếng nói

Các hệ thống nhận dạng tiếng nói được phân loại dựa vào các tiêu chí sau:

1 Kích thước bộ từ vựng nhận dạng, bao gồm:

Bộ từ vựng nhỏ: khả năng nhận dạng có thể tới 100 từ;

Bộ từ vựng trung bình: từ 100 đến 1000 từ;

Bộ từ vựng lớn: lớn hơn 1000 từ

2 Cách thức người sử dụng nói với hệ thống nhận dạng, có ba kiểu:

Kiểu từ cô lập: người sử dụng nói từng từ hoặc từng lệnh riêng biệt và

có khoảng dừng giữa các từ

Kiểu từ nối nhau: người sử dụng nói lưu loát toàn bộ các từ trong một

bộ từ vựng nhỏ (ví dụ số điện thoại)

Kiểu nói liên tục (continous speech mode): người sử dụng có thể nói

một cách lưu loát các từ trong một bộ từ vựng lớn (thường không giới hạn)

3 Thông tin về các mẫu tiếng nói của người sử dụng, bao gồm:

Hệ thống phụ thuộc người nói: người sử dụng phải là người đã huấn

luyện hệ thống

Hệ thống độc lập người nói: người sử dụng không nhất thiết là người

đã huấn luyện hệ thống, do đó hệ thống này có thể làm việc trên một số lượng lớn người sử dụng

Hệ thống thích ứng người nói: tự cập nhật thông tin về từng người sử

dụng riêng biệt trong thời gian hệ thống được sử dụng

4 Số lượng kiến thức về âm học và từ vựng học sử dụng trong hệ thống, bao gồm:

Hệ thống âm học đơn giản không có kiến thức về ngôn ngữ học;

Hệ thống tích hợp kiến thức âm học và ngôn ngữ học

1.3.4 Các khó khăn trong việc nhận dạng tiếng nói

Cùng một âm có thể khác nhau khi được phát âm bởi các người khác nhau do đặc trưng bộ máy phát âm của từng người Thậm chí tiếng nói của cùng một người khi phát âm cùng một âm cũng có khác nhau do ảnh hưởng của các âm lân cận

Trang 23

Không có các ranh giới rõ ràng giữa các âm hoặc các từ Ngay cả việc khá đơn giản là tìm điểm bắt đầu và kết thúc của một âm (endpoint detection) cũng khó khăn và dễ xảy ra lỗi, đặc biệt trong môi trường nhiễu

Sự thay đổi của tiếng nói do tiếng địa phương, trong đó thường bỏ sót một số âm hoặc thay thế một âm bằng một âm khác Các đặc tính ngôn điệu như âm điệu, nhịp điệu và trọng âm cũng có thể gây thay đổi tín hiệu tiếng nói

Bản thân tín hiệu tiếng nói không thể luôn luôn mang tất cả các thông tin âm học-ngữ âm cần thiết để nhận dạng

1.3.5 Các yếu tố ảnh hưởng mức độ phức tạp và chất lượng hệ thống

4 Môi trường hoạt động : lý tưởng hay nhiễu ? Bản chất loại nhiễu ?

1.3.5.1 Hệ phụ thuộc người nói hay độc lập người nói

Về nguyên lý, các giải thuật nhận dạng tiếng nói có thể được sử dụng cho cả

hệ thống phụ thuộc người nói hay độc lập người nói, chỉ có sự khác biệt

trong giai đoạn huấn luyện Hệ thống nhận dạng phụ thuộc người nói sử dụng đặc trưng tiếng nói của một người làm cơ sở nhận dạng Do đó, người sử dụng phải là người đã huấn luyện hệ thống Hệ thống này có chất lượng tốt hơn hệ

thống độc lập người nói bởi vì các từ có các đặc trưng tiếng nói tương đối ổn

định Hơn nữa, thư viện nhận dạng tương đối nhỏ bởi vì số mẫu đặc trưng yêu cầu cho mỗi từ tương đối ít Do giọng nói, tốc độ nói của từng người, từng vùng là khác nhau, nên chất lượng hệ thống phụ thuộc người nói suy giảm khi người sử dụng không phải là người huấn luyện Vì vậy, hệ thống này không phù hợp cho các ứng dụng công cộng, vì cần phải huấn luyện lại hệ thống khi người mới sử dụng

Trang 24

Hệ thống nhận dạng độc lập người nói thường được huấn luyện từ nhiều

người Quá trình huấn luyện phức tạp hơn vì cần nhiều mẫu đặc trưng hơn cho một từ (có thể hàng trăm hoặc hàng ngàn mẫu cho một từ) để huấn luyện hệ

thống Do đó, hệ thống độc lập người nói thường yêu cầu bộ nhớ lớn hơn 1.3.5.2 Kích thước bộ từ vựng

Chất lượng và tốc độ nhận dạng sẽ giảm khi khích thước bộ từ vựng tăng Các nhà nghiên cứu nhận dạng tiếng nói ước lượng rằng mức độ khó khăn của hệ thống nhận dạng tăng theo hàm logarithm với kích thước bộ từ vựng Dung lượng nhớ cũng tăng khi kích thước bộ từ vựng tăng

1.3.5.3 Nhận dạng từ cô lập hay liên tục

Bộ nhận dạng từ cô lập IWR (Isolated Word Recognition) được huấn luyện

bằng những từ rời rạc Trong quá trình nhận dạng, người nói phát âm một câu với khoảng dừng đủ dài giữa các từ (tối thiểu là 20ms) để khoảng im lặng không nhầm với phụ âm xát yếu và khoảng bật hơi Ranh giới giữa các từ được xác định bằng các giải thuật tách điểm đầu cuối (endpoint detection) Đây là bộ nhận dạng đơn giản nhất, và đặc biệt phù hợp cho các ứng dụng điều khiển máy móc bằng lệnh đơn

Hệ thống nhận dạng phức tạp nhất là nhận dạng tiếng nói liên tục CSD (Continuous Speech Recognition) Người sử dụng phát âm một thông điệp

tương đối dài không giới hạn Vấn đề khó khăn là phải tách ra ranh giới giữa các từ khi có sự ảnh hưởng của âm lân cận

1.3.5.4 Nhiễu môi trường

Một trong những vấn đề quan trọng của hệ thống nhận dạng là làm thế nào hệ thống có tính chống nhiễu tốt Các nguồn nhiễu có thể là âm thanh từ các nguồn khác như: các thiết bị âm thanh, máy điều hoà… hoặc các nhiễu trong nhà máy… Các loại nhiễu này sẽ làm suy giảm chất lượng của hệ thống nhận dạng

Trang 25

2.1 CÁC VẤN ĐỀ CƠ BẢN CỦA TẾNG NÓI

Nghiên cứu quá trình tạo và cảm nhận tiếng nói của con người, cùng với các đặc tính ngữ âm của tiếng nói chính là cơ sở cho việc phân tích, phân loại, xử lý và nhận dạng tiếng nói

2.1.1 Bộ máy phát âm của người

Bộ máy phát âm của người bao gồm các thành phần cơ bản: phổi, khí quản, thanh quản, khoang miệng và khoang mũi

Thanh quản (larynx) chứa hai nếp gấp trong da gọi là dây thanh đới Sự dao

động của dây thanh đới chính là nguồn gốc tạo ra tiếng nói

Khoang miệng (vocal tract) là một ống âm học (acoustic tube) có chiều dài

xấp xỉ khoảng 17cm đối với người đàn ông trưởng thành Nó được kết thúc phía trước bởi hai môi và phía sau bởi dây thanh đới Vùng diện tích cắt ngang có thể thay đổi trong khoảng từ 0 đến 20 cm2 bằng cách điều khiển các cơ bắp của bộ máy phát âm Khoang miệng đóng vai trò hộp cộng hưởng động, thể tích của nó có thể thay đổi được nhờ vào sự chuyển động của các cơ quan như lưỡi, môi, hàm dưới… Nhờ vào sự chuyển động này mà tần số cộng hưởng của khoang miệng có thể thay đổi và tạo ra các tiếng nói khác nhau

Khoang mũi (nasal tract) cũng là một ống phát âm với diện tích và chiều dài

cố định, được kết thúc phía trước bởi lỗ mũi (nostrils) và phía sau bởi vòm miệng (velum)

Trang 26

Khí quảnThanh môn

HàmMôi

Khi phát âm các âm không mũi (non-nasalised sounds), vòm miệng sẽ chặn

khoang mũi lại, do đó âm thanh chỉ đi ra theo đường miệng qua hai môi

Khi phát âm các âm mũi (nasalised sounds) vòm miệng sẽ được hạ thấp

xuống và khoang mũi sẽ được nối thông với khoang miệng Tuy nhiên, trong trường hợp này phía trước của khoang miệng sẽ được đóng lại hoàn toàn và âm thanh chỉ được truyền ra ngoài qua đường mũi

Khi nói không khí sẽ đi vào phổi bởi sự nở rộng các cơ của lồng ngực và sự hạ thấp của cơ hoành Khi lồng ngực co lại, không khí sẽ được tống ra ngoài qua khí quản và thanh môn (glottis) Sự lưu thông này của không khí là nguồn kích thích dây thanh đới dao động tạo ra sự phát âm

Như vậy, phổi lưu trữ không khí để kích thích dây thanh đới dao động, sự dao động của dây thanh đới là nguồn gốc tạo ra âm thanh Âm thanh được tạo ra từ dây thanh đới sẽ được truyền ra ngoài qua các khoang phía trên thanh hầu (khoang yết hầu, khoang miệng và khoang mũi), các khoang này đóng vai trò là các hộp cộng hưởng sẽ khuếch đại một vài thành phần tần số và làm suy giảm các thành phần tần số còn lại, từ đó sẽ tạo ra các tiếng nói khác nhau

Trang 27

Dây thanh đới chuyển động nhanh hay chậm, biên độ lớn hay nhỏ là do tốc độ của luồng không khí đi từ phổi lên khí quản và do sức căng của dây thanh đớùi, cả hai điều này đều có thể được điều khiển bởi người nói nhằm điều khiển cường độ âm thanh phát ra Bộ máy phát âm của mọi người đều khác nhau, do đó giọng nói của mỗi người mỗi khác Ví dụ như sự khác nhau về chiều dài của dây thanh đới dẫn đến giọng nói của nam giới trầm hơn giọng nói của phụ nữ

2.1.3 Bản chất của tiếng nói

Ở mức độ ngôn ngữ học, tiếng nói được xem là một chuỗi các âm thanh cơ

bản được gọi là âm vị (phoneme) Âm vị là đơn vị cơ bản để tạo ra âm thanh

nhưng đôi khi chúng ta không nhận được âm vị đó từ tín hiệu tiếng nói Cùng một âm vị có thể biểu diễn bởi nhiều tiếng nói khác nhau Hơn nữa, các người nói khác nhau phát âm cùng một chuỗi tiếng nói thì sẽ chuyển đi cùng một lượng thông tin như nhau, nhưng âm thanh lại không giống nhau hoàn toàn Nguyên nhân chính là do sự khác nhau về hình dạng của bộ máy phát âm của mỗi người và do sự ảnh hưởng của thổ ngữ tức là tiếng nói được phát ra ở những khu vực khác nhau

2.1.4 Các đặc trưng vật lý

Tiếng nói có các đặc trưng vật lý như sau:

Độ cao: mức độ cao thấp của âm phụ thuộc vào sự chấn động nhanh hay

chậm của không khí trong một khoảng thời gian nhất định, được người ta gọi là tần số dao động

Độ mạnh: cường độ do biên độ dao động quyết định, trong ngôn ngữ phụ âm

phát ra thường mạnh hơn nguyên âm Đây chính là một trong những đặc điểm góp phần nhận diện sự khác biệt giữa phụ âm và nguyên âm trong âm thanh lời nói

Độ dài: hay trường độ của âm phụ thuộc vào sự chấn động lâu hay mau của

các phần tử không khí

Âm sắc: là sắc thái riêng của một âm do các cá thể khác nhau tạo ra Giọng

nói của người này khác với người kia chính là âm sắc của mỗi một người làm nên nét cái khu biệt ấy

Trang 28

Tiếng ồn và tiếng thanh: do một bên là sự chuyển động không nhịp nhàng

còn bên kia là sự chuyển động nhịp nhàng (có chu kỳ ổn định) tạo ra

2.1.5 Phân loại tiếng nói

Tiếng nói có thể được phân làm ba loại khác nhau như sau:

Âm hữu thanh (voiced sounds): là dạng tiếng nói giống như khi ta phát các

âm ‘a’, ‘o’… Aâm thanh này được phát ra khi dây thanh được căng ra và chúng

chuyển động theo kiểu nới lỏng (relaxation mode) tạo nên áp suất không khí làm cho thanh môn mở ra và để cho không khí chuyển động xuyên qua nó Sự chuyển động này của các dây thanh tạo ra một dạng sóng của dòng không khí gần giống dạng tam giác Dạng sóng này có dạng tuần hoàn hoặc gần tuần hoàn Chúng có phổ tần số của các thành phần hài là bội số của tần số cơ bản

còn gọi là tần số pitch và tốc độ suy giảm của chúng là 12dB/octave

Bộ máy phát âm của con người hoạt động giống như một bộ cộng hưởng, khuếch đại một vài thành phần tần số và làm suy giảm các thành phần tần số còn lại để tạo ra dạng sóng nguyên âm

Tốc độ chuyển động của dây thanh phụ thuộc vào áp suất không khí trong phổi và sức căng của dây thanh Cả hai điều này đều có thể được điều khiển bởi người nói để làm thay đổi cường độ âm thanh được phát ra

Tiếng nói của người đàn ông trưởng thành có tần số cơ bản thay đổi trong khoảng từ 50 đến 250Hz, trung bình khoảng 120Hz Trong khi đó tiếng nói của người phụ nữ trưởng thành có tần số cơ bản cao hơn rất nhiều, có thể lên đến 500Hz

Âm vô thanh (unvoiced sounds): ví dụ như p, t, f… khi phát ra các âm này dây

thanh đới không chuyển động Âm vô thanh được chia làm hai loại là âm xát (fricative sounds) và âm bật hơi (aspirated sounds)

Khi phát âm các âm xát ( ‘s’, ‘x’…) sự siết lại được tạo ra tại một vài điểm nào

đó trong bộ máy phát âm và không khí bị ép buộc phải đi qua, do đó tạo ra một sự chuyển động hỗn loạn (turbulence) sẽ kích thích nhiễu ngẫu nhiên phát sinh Sự siết lại thường có xu hướng xảy ra ở phía trước miệng nên sự cộng hưởng của bộ máy phát âm ít ảnh hưởng đến các âm xát được phát ra

Khi phát âm các âm bật hơi (h, kh, k…) sự chuyển động hỗn loạn của không

khí xảy ra tại thanh môn trong khi các dây thanh được giữ ở khoảng cách khá

Trang 29

xa nhau Trong trường hợp này, sự cộng hưởng của dây thanh đới sẽ điều chỉnh dạng phổ của nhiễu ngẫu nhiên Hiệu ứng này sẽ được nghe rất rõ đối với các tiếng nói thì thầm

Âm bật hơi (plosive sounds): ví dụ như âm ‘đ’ trong từ ‘đi’ Khi phát các âm

này, bộ máy phát âm sẽ được đóng lại hoàn toàn tại một điểm nào đó trong bộ máy phát âm Aùp suất không khí trong bộ máy phát âm sẽ tăng lên tức thời và sau đó được giải phóng một cách đột ngột Sự giải thoát nhanh chóng của áp suất này sẽ tạo nên một sự kích thích tạm thời của bộ máy phát âm Sự kích thích tạm thời này có thể xảy ra kèm theo hoặc không kèm theo sự chuyển động của dây thanh đới

2.2 CƠ SỞ NGỮ ÂM TIẾNG VIỆT

Khác với các ngôn ngữ khác, tiếng Việt là một ngôn ngữ đơn âm Mỗi âm tương ứng với một từ đơn được phát ra trong một luồng hơi thở duy nhất được

gọi là âm tiết Về mặt phát âm thì không thể phân chia âm tiết thành các yếu

tố nhỏ hơn Tuy nhiên về mặt thính giác thì âm tiết được cấu thành từ 5 yếu tố: âm đầu, âm đệm, âm chính, âm cuối và các thanh điệu

2.2.1 Khái niệm âm tiết

Âm tiết là một đơn vị phát âm nhỏ nhất trong một chuỗi lời nói Một âm tiết

có thể gồm nhiều yếu tố ngữ âm cấu thành, nhưng dù phát âm chậm đến đâu

cũng không thể tách ra từng yếu tố được Ví dụ “học tập” gồm hai âm tiết: âm tiết “học” và âm tiết “tập”

Về mặt cấu tạo, âm tiết được xác định như một đợt căng cơ thịt của bộ máy phát âm Cứ mỗi lần cơ phát âm căng dần lên tới đỉnh cao nhất rồi trùng xuống là ta có một âm tiết Khi phát âm một chuỗi lời nói, các đợt căng của

cơ phát âm nối tiếp nhau, làm thành một chuỗi âm tiết và có thể hình dung

bằng một chuỗi đường cong hình sin như hình 2.2

tiết ranhâm tiết đỉnh âmtiết

Trang 30

Hình 2.2 – Đường cong biểu diễn quá trình phát âm hai âm tiết “học tập”

Hai âm 'ô' và 'â' ở đỉnh âm tiết, là âm tố làm thành âm tiết, gọi là âm tố âm

tiết tính

Ngược lại 'h', 'c', 't', 'p' không làm thành âm tiết, gọi là âm tố phi âm tiết tính

Về mặt âm hưởng, trong âm tiết, âm tố âm tiết tính có độ vang lớn nhất Tuy nhiên độ vang và âm sắc của toàn âm bị qui định chặt chẽ bởi yếu tố phi âm tiết tính theo sau Khi khảo sát các âm tiết người ta chú ý nhiều đến cách

kết thúc âm tiết hơn là cách mở đầu và phân loại các âm tiết theo cách kết thúc:

• Âm tiết mở: là những âm tiết kết thúc bằng cách giữ nguyên âm sắc của

nguyên âm (những âm tiết không có phần cuối là phụ âm hay bán nguyên âm) Ví dụ “quê mẹ”

• Âm tiết khép: là những âm tiết kết thúc bằng phụ âm Ví dụ “độc lập”

Khi phân loại tỉ mỉ hơn, ta có thêm hai loại nữa:

• Âm tiết nửa mở: kết thúc bằng một nguyên âm phi âm tiết tính hay một

bán nguyên âm như ‘u’, ’i’ (hay ‘y’) Ví dụ “đại hội”, “bấy lâu”

• Âm tiết nửa khép: kết thúc bằng một phụ âm vang Ví dụ: “Đảng Cộng

Sản”

Các đặc điểm âm tiết Tiếng Việt:

a Tính độc lập rất cao: đặc điểm này được thể hiện trong dòng lời nói,

âm tiết bao giờ cũng được thể hiện rõ ràng và tách ra thành từng khúc đoạn riêng biệt, điều mà các ngôn ngữ khác không có được

b Âm tiết tiếng Việt không có hiện tượng nối âm: Điều này khác với

các ngôn ngữ khác chẳng hạn như tiếng Anh khi ta nói nhanh các từ this,

is, a, book thì các từ này có thể được nối lại với nhau thành thi_si_sa_book, hoặc trong tiếng Pháp 3 từ Les, a, mis có thể đọc nối lại với nhau thành Lé_sa_mis còn trong tiếng Việt khi ta nói một câu, chẳng

hạn “tôi ăn cơm” thì dù cho ta nói nhanh đến đâu câu nói này cũng sẽ

nghe được thành 3 từ tách ra riêng biệt,“tôi_ăn_ cơm “ rõ ràng Như vậy

Trang 31

ranh giới giữa các âm tiết trong tiếng Việt là rõ ràng trong mọi tình huống

c Âm tiết trong tiếng Việt có khả năng biểu hiện ý nghĩa: Tuyệt đại đa

số các âm tiết trong tiếng Việt là những từ đơn và có nghĩa Chẳng hạn

như các từ giảng đường, sinh viên thì mỗi một từ giảng, đường, sinh, viên

đều có nghĩa riêng của chúng

d Âm tiết của tiếng Việt có cấu trúc chặt chẽ: Âm tiết tiếng Việt cũng

như nhiều ngôn ngữ Châu Aâu khác, không phải là một khối không thể phân tách được Tuy nhiên, âm tiết tiếng Việt có một cấu trúc chặt chẽ riêng biệt của mình Mô hình cấu trúc tổng quát của một âm tiết tiếng Việt được thể hiện như sau:

Thanh điệu Phần vần

Aâm Đầu Aâm

đệm Aâm chính Aâm cuối

Bảng 2.1- Cấu trúc của một âm tiết tiếng Việt

Từ mô hình trên ta thấy trong tiếng Việt mỗi âm tiết ở dạng đầy đủ sẽ bao gồm năm phần như sau:

a Thanh điệu: mỗi âm tiết đều có một thanh điệu có chức năng phân biệt

các âm tiết hoặc các từ khác nhau về cao độ Trong tiếng Việt có tất cả

sáu thanh là: thanh không dấu (thanh ngang), thanh huyền, thanh sắc, thanh nặng, thanh hỏi, thanh ngã

b Âm đầu: có chức năng mở đầu một âm tiết Âm đầu bao giờ cũng do

các phụ âm đảm nhiệm Trong các âm tiết như ăn uống tuy chữ viết không có phụ âm đầu nhưng thực chất chúng cũng có một phụ âm tắt thanh hầu, được ký hiệu là /?/

c Âm đệm: có chức năng làm thay đổi âm sắc của âm tiết sau lúc mở đầu

Thành phần này do bán nguyên âm /w/ đảm nhiệm Chính nhờ có nó mà

người ta phân biệt âm sắc của âm tiết tán và toán, tấn và tuấn Ở đây, toán và tuấn là âm tiết có âm đệm, tán và tấn thì không có âm đệm hay người ta gọi nó có âm đệm zero

d Âm chính: đây là thành phần hạt nhân của âm tiết, là thành phần quyết

Trang 32

định âm sắc chủ yếu của âm tiết Thành phần này bao giờ cũng do một nguyên âm đảm nhiệm, khác với các thành phần khác trong tiếng Việt, thành phần này bao giờ cũng được thể hiện bằng chữ viết

e Âm cuối: Có chức năng kết thúc âm tiết và do các phụ âm và bán

nguyên âm đảm nhiệm Cũng như âm đệm thành phần này có thể không có mặt Trong trường hợp ấy ta có âm cuối zêro

Như vậy, các âm tiết tiếng Việt có tối đa là 5 thành phần và có tối thiểu là 3

thành phần Có thể không có âm đệm và âm cuối như từ “đa”ù

Tuy nhiên 5 thành phần trên không phải bình đẳng nhau về mức độ độc lập và khả năng kết hợp Âm tiết tiếng Việt có cấu trúc 2 bậc như sau (hình 2.3):

Âm đệm - Âm chính - Âm cuối Âm đầu - Vần - Thanh điệu

Âm tiết

Hình 2.3- Cấu trúc hai bậc của âm tiết tiết việt 2.2.2 Âm tố và nhận diện các âm tố

Âm tố (sound) là đơn vị ngữ âm nhỏ nhất không thể chia tách được nữa

Chẳng hạn như trong âm tố ma ta có 2 âm tố là [m] và [a] Âm tố được ghi lại

một cách thống nhất trong một bảng ký hiệu phiên âm đặt trong 2 ngoặc

vuông, ví dụ [m] và [a] Bảng phiên âm quốc tế có tên là IPA (Internation

Phonetic Association) Nguyên tắc của sự phiên âm là mỗi một âm trong ngôn ngữ chỉ được dùng một con chữ Tuy nhiên trong lời nói thường có nét rườm rà, vì vậy người ta còn thường dùng thêm dấu phụ để biểu hiện, chẳng hạn ta

dùng dấu ngửa (ΰ) đặt trên nguyên âm để chỉ tính chất ngắn của nó (ví dụ [ă] là âm [a] ngắn v.v )

Âm thanh được tạo ra từ bộ máy phát âm của con người và chúng được ghi

nhận như một hiện tượng âm học nên âm tố được nhận diện nhờ vào sự cấu âm và âm học của nó Tuy nhiên trong ngôn ngữ người ta không phải bao giờ

cũng sử dụng tất cả các đặc điểm của hai bình diện trên để khu biệt lời nói

Trang 33

mà chỉ lựa chọn một số đặc trưng nào đó Ví dụ như chúng ta dựa vào độ dài,

ngắn của từ để phân biệt từ tám và từ tắm

Dựa theo cách thoát ra của luồng không khí khi phát âm, các âm thường được phân tách theo thế lưỡng phân để có được hai loại như sau:

a Nguyên âm: (vowels) được tạo ra bởi sự kích thích âm thanh bên trong

bộ máy phát âm với các khớp được giữ ở vị trí tĩnh (articulator remaining static) Nguyên âm được phát đi từ miệng, không có sự kết hợp với mũi Hình dạng của mũi được giữ khá cố định và mỗi nguyên âm được phân biệt bởi vị trí của lưỡi (nâng lên hoặc hạ xuống, đưa ra trước hoặc ra sau) Do đó nguyên âm còn có thể được phân ra thành nguyên âm trước, nguyên âm giữa và nguyên âm sau tùy thuộc vào vị trí của lưỡi trong

quá trình phát âm Ở mức độ âm học mỗi nguyên âm được phân biệt

bởi 3 hoặc 4 formant của nó

Trong tiếng Việt [i], [e], [a], [u], [o]… là những nguyên âm Về mặt âm

học các âm này bao giờ cũng là tiếng thanh bởi vì khi phát các nguyên

âm, sự chấn động của các phần tử không khí thoát ra ta có một chu kỳ khá đều đặn Bởi vì khi cấu âm để hình thành một nguyên âm, bộ máy

phát âm làm việc khá điều hòa, đều đặn từ đầu đến cuối Sự hoạt dộng điều hòa của bộ máy phát âm làm cho luồng hơi thoát ra với cường độ yếu nhưng không bị cản lại, không bị tắc nghẽn mà liên tục

b Phụ âm: Khác với tạo ra các nguyên âm, khi tạo ra các phụ âm, luồng

không khí từ phổi đi ra thường bị cản trở ở một điểm nào đó Chẳng hạn

trong tiếng Việt sự khép chặt của hai môi làm nên phụ âm [m], sự tiếp

xúc giữa hai đầu lưỡi với lợi tạo nên một sự cản trở để có được các âm

[t], [d]… Như vậy các phụ âm thường được tạo nên nhờ những tiếng nổ

hay tiếng xát có một âm hưởng rất khó nghe Cách cấu âm này tạo ra

một kết quả âm học là các phụ âm thường có tần số chấn động không ổn định, do đó là tiếng động chứ không phải là tiếng thanh như nguyên

âm Điều này xảy ra do khi phát các phụ âm, bộ máy phát âm làm việc không điều hòa, khi căng, khi chùng, làm nên sự tắc nghẽn, đứt quãng

Trang 34

Hình 2.4 – Dạng sóng của tiếng ‘la’

Trong đó 20% đầu tín hiệu không tuần hoàn đặc trưng cho phụ âm ‘l’, phần còn

lại tuần hoàn đặc trưng cho nguyên âm ‘a’

Về mặt phương thức cấu âm, phụ âm được phân thành các loại như sau:

Phụ âm bật hơi: ví dụ như ‘th’: khi phát âm không khí không những phá

vỡ sự cản trở gây nên một tiếng nổ nhẹ mà đồng thời khi thoát ra còn gây ra một tiếng cọ xát ở khe giữa hai mép dây thanh

Phụ âm mũi: ví dụ như ‘m’, ‘n’, ‘ng’, ‘nh’ Do dây thanh tạo ra, theo

luồng không khí từ phổi đi lên thoát ra ngoài tự do qua mũi, chịu sự cộng

hưởng của khoang mũi Phụ âm này có đặc điểm của nguyên âm nên được gọi là phụ âm vang

Phụ âm xát: như ‘v’, ‘s’, ‘g’: là tiếng cọ xát do luồng không khí từ phổi

đi ra bị cản trở không hoàn toàn, chỉ bị khó khăn phải lách qua khe hẹp

Trang 35

nhỏ và khi thoát ra cọ xát với thành của bộ máy phát âm

Xét về phương diện phổ tần số: đặc trưng phổ của dạng sóng tiếng nói là

thay đổi theo thời gian (không dừng) Tiếng nói được chia thành những đoạn

âm thanh có tính chất ngữ âm giống nhau qua các khoảng thời gian ngắn Dựa

vào cách phân loại âm tiết trên, tiếng nói được phân loại theo diện rộng gồm:

(1) nguyên âm không hạn chế luồng không khí qua bộ máy phát âm và có

chu kỳ đặc trưng, và (2) phụ âm có biên độ yếu hơn, thường gây nhiễu cho

nguyên âm, và không có chu kỳ đặc trưng

Hình 2.5 - Phổ biên độ của phụ âm ‘l’ và nguyên âm ‘a’ ø

Trang 36

Hình 2.5 vẽ biên độ của phần xác lập của phụ âm /l/ và nguyên âm /a/ Một lần nữa chứng minh dạng sóng của nguyên âm có chu kỳ tuần hoàn ổn định, còn phụ âm thì không có đặc điểm này Một chu kỳ của phần tuần hoàn gọi là

chu kỳ cơ bản (pitch period) Ở mỗi trường hợp của phổ nguyên âm và phụ

âm có những vùng cộng hưởng và vùng phản cộng hưởng rõ trong phổ Các tần số cộng hưởng có khuynh hướng hình thành toàn bộ phổ, được gọi là các

formant Khái niệm này thường được dùng để chỉ tần số cộng hưởng trung tâm Các formant thường kí hiệu là F1, F2, F3…, bắt đầu với tần số thấp nhất

Về nguyên tắc, trong tín hiệu tiếng nói có vô hạn formant nhưng thực tế ta thường tìm từ 3 đến 5 formant trong băng thông Nyquyst sau khi lấy mẫu là

đủ đặc trưng cho tiếng nói này

Ngoài hai loại âm tố chủ yếu là phụ âm và nguyên âm vừa nêu trên, trong

ngôn ngữ còn có một loại âm tố trung gian, đó là các bán nguyên âm hay các bán phụ âm Những âm tố này vừa mang tính chất nguyên âm vừa mang tính

chất phụ âm Ví dụ âm [-i] và [u] trong 2 từ hai, cau là các bán nguyên âm

Như vậy nếu nguyên âm ở một cực và phụ âm ở cực kia thì bán nguyên âm sẽ

ở vị trí trung gian của hai cực ấy

2.2.3 Âm vị

Âm vị là đơn vị tối thiểu của một hệ thống ngữ âm trong một ngôn ngữ có chức năng cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ ấy Trong âm học để ghi âm vị người ta thường đặt ký hiệu nguyên âm ở

trong hai vạch nghiêng song song Ví dụ: /b/, /a/, /e/, v.v…

Đặc trưng của âm vị: âm vị có những đặc trưng cấu âm và những đặc trưng

âm học cụ thể, xác định Nhưng trong số những đặc trưng ấy chỉ có một vài đặc trưng được sử dụng để thực hiện chức năng mà âm vị đảm nhiệm Những đặc trưng ấy là nét khu biệt của âm vị, nhờ nó các âm vị phân biệt được với nhau Ví dụ trong tiếng Việt âm vị /n/ có ba đặc trưng, hai đặc trưng về cấu âm là tắc và đầu lưỡi và một đặc trưng âm học là vang Nhờ đặc trưng cấu âm đầu lưỡi, /n/ khu biệt được với /m/ là một phụ âm cũng có đặïc trưng tắc và vang nhưng có cấu âm môi Tính chất tắc làm cho /n/ phân biệt được với /l/ là một phụ âm đầu lưỡi và vang nhưng là phụ âm xát Cuối cùng nhờ đặc trưng vang, /n/ khu biệt được với /t/ vốn là một phụ âm tắt, đầu lưỡi nhưng là một phụ âm ồn Như vậy nhờ có ba đặc trưng về cấu âm và âm học của mình, /n/

phân biệt được với /m/, /l/ và /t/ và do đó ta phân biệt được các âm na, la, ma và ta Các đặc trưng này được gọi là các đặc trưng khu biệt Có thể nói các

âm vị phân biệt được với nhau nhờ những đặc trưng khu biệt và các đặc trưng

Trang 37

này bao giờ cũng được thể hiện đồng thời Chính nhờ những tính chất này mà đôi khi người ta còn định nghĩa âm vị là một chùm những đặc trưng khu biệt được thể hiện đồng thời

Khi tìm hiểu âm vị chúng ta nhận thấy âm vị và âm tố có một nét chung đều là đơn vị tối thiểu, nhỏ nhất trong hệ thống ngữ âm của ngôn ngữ Nhưng giữa âm vị và âm tố có một vài sự khác biệt như sau:

Âm tố là một đơn vị ngữ âm nhỏ nhất không thể chia tách, còn âm vị là một đơn vị nhỏ nhất có chức năng cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa Vì thế âm vị chỉ gồm những đặc trưng khu biệt còn âm tố bao gồm cả những đặc trưng khu biệt lẫn những đặc trưng không khu biệt

Âm tố là một đơn vị cụ thể (là các âm [a], [b], [c] có thực) còn âm vị là một

đơn vị trừu tượng Do vậy âm vị được thể hiện ra bằng các âm tố và âm tố là sự thể hiện của các âm vị

2.3 Hệ thống các âm vị trong tiếng Việt

2.3.1 Âm đầu

Tất cả các âm tiết trong tiếng Việt về mặt cấu âm đều bắt đầu bằng động tác khép lại (môi, lưỡi, khe thanh…), gây ra sự cản trở không khí hoàn toàn hoặc một phần, sau đó mới mở ra tạo nên một tiếng động đặc thù Như vậy các âm

vị đảm nhiệm âm đầu đều là phụ âm

Các âm đầu và sự thể hiện bằng chữ viết: trong tiếng Việt có tất cả 22 âm

vị làm âm đầu Người ta thường ghi âm vị bằng ký hiệu phiên âm quốc tế, tuy nhiên trong thực tế các âm vị đều được thể hiện bằng chữ viết Đa số các âm

vị đều có sự thể hiện bằng một con chữ, có 9 trường hợp được thể hiện bằng cách ghép 2 con chữ và 1 trường hợp phải ghép 3 con chữ để ghi 1 âm vị Có một số âm vị được thể hiện không thống nhất Các âm vị âm đầu và sự thể hiện bằng chữ viết được trình bày trong các bảng 2.2

Trang 38

Âm vị Chữ viết Âm vị Chữ viết Âm vị Chữ viết

Bảng 2.2 - Các âm vị âm đầu được thể hiện bằng một chữ viết tương ứng

Âm vị Được ghi bằng:

/k/

- ‘k’ khi đứng trước các âm / i, e, ε, /1 VD: “ký, kể, kẻ, kiếp”

- ‘c’ trong các trường hợp còn lại VD: “cá, cờ”

/ γ / - ‘gh’ khi đứng trước / i, e, ε / VD: “ghế, ghi”

- ‘g’ trong các trường hợp còn lại VD: “gỗ, gà”

- ‘ngh’ khi đứng trước / i, e, ε, / VD: “nghĩ”

- ‘ng’trong các trường hợp khác VD: “ngũ”

- ‘gi‘ theo cách phát âm của một số thầy cô giáo

/z/

- ‘gi’ theo cách phát âm phổ biến ngoài xã hội Nếu theo sau là ‘i, iê,

ia’ thì ‘gi’ bị tinh giảm thành ‘g’ VD: “gì, giếng”

Tùy những từ cụ thể mà /z/ được ghi là ‘d’ hay ‘gi’ Không có quy luật cụ thể

Bảng 2.3 - Các âm vị âm âm đầu được thể hiện không thống nhất

Các đặc điểm khu biệt của âm đầu

Người ta dựa vào hai tiêu chí lớn để phân biệt các âm đầu là tiêu chí về

phương thức cấu âm và tiêu chí định vị của bộ máy phát âm

Về phương thức cấu âm:

- Tiêu chí tắc / xát làm các phụ âm tắc / b, d, t, t’, c, m, n, , / đối lập với các phụ âm xát / f, v, s, z, l, , , , γ, h /

- Trong cả hai loại phụ âm tắc và phụ âm xát, tiêu chí về thanh tính tạo

nên sự khác biệt giữa các phụ âm vang /m, n, , / với các phụ âm ồn /b, d, t, t’, c, k, , f, v, s, z, , , , γ, h/

- Tiêu chí bật hơi khu biệt /t/ với /t’/

Trang 39

Về tiêu chí định vị:

- Tiêu chí định vị môi / lưỡi / thanh hầu khu biệt các phụ âm môi /b, m, f, v/ với âm lưỡi / d, t, t’, s, z, n, l, , , , c, , k, , γ, / và các âm thanh hầu / , h/

- Trong số các phụ âm lưỡi lại có sự đối lập giữa các âm đầu lưỡi /d, t, , t’, s, z, , , n, l / với âm mặt lưỡi / c, / và các âm gốc lưỡi / k, , γ, /

- Trong số các âm đầu lưỡi lại có sự khu biệt giữa các âm đầu lưỡi quặt / , , / với các âm đầu lưỡi bẹt / d, t, t’, s, z, n, l /

Áp dụng tất cả các tiêu chí về phương thức cấu âm và phương thức định vị như

trên, mỗi âm vị phụ âm đầu có thể được nhận diện như trong bảng 2.4

Đầu lưỡi Định vị

Mặt lưỡi

Gốc lưỡi

Thanh hầu

âm “toán”, ngoài động tác cấu âm /t/ bình thường, còn kèm theo hiện tượng

Trang 40

môi chúm lại, làm âm sắc bị trầm đi một chút so với âm tiết “tán” Hiện

tượng tròn môi xuất hiện trong suốt giai đoạn phát âm của âm đầu và phần đầu của nguyên âm (âm chính) Về mặt âm học, nó làm xuất hiện một âm

lướt / / giữa phụ âm đầu và nguyên âm Ngược lại ở âm tiết “tán” không có

hiện tượng tròn môi, do đó không có âm lướt / / nào cả

Về đặc trưng âm học, “toán” và “tán” đối lập ở chỗ âm sắc bị trầm hóa / không trầm hóa Căn cứ về mặt cấu âm, người ta giả thuyết các đặc trưng âm

học này tồn tại như hai âm vị độc lập: âm vị bán nguyên âm môi / / nếu âm sắc bị trầm hóa (có hiện tượng tròn môi, như trong “toán”) và âm vị

/zero/ nếu âm sắc không bị trầm hóa (không có hiện tượng tròn môi, như trong

“tán”) Đây là hai âm vị làm âm đệm

Về mặt chữ viết, âm vị / / được ghi bằng ‘u’ khi đứng trước các nguyên âm

hẹp và hơi hẹp như “Huế, huân, huy”, hoặc khi đứng sau phụ âm /k/ như

“quê, quân” Ngoài ra / / còn được ghi bằng ‘o’ khi xuất hiện trước các

nguyên âm rộng và hơi rộng, ví dụ như “hoa hòe, họa hoằn” Âm vị /zero/

được thể hiện bằng sự vắng mặt một con chữ

Quy luật phân bố của âm đệm sau âm đầu

Âm đệm / / không xuất hiện sau tất cả các phụ âm môi /b, m, f, v/ và 2 phụ âm /n, / / / cũng không xuất hiện trước tất cả các nguyên âm tròn môi Tuy nhiên cũng có một số trường hợp ngoại lệ:

- / / xuất hiện sau /n/ chỉ trong 2 từ Hán Việt “noa”, “noãn”

- / / đứng trước / / chỉ trong 1 từ “roa”

- /γ/ đứng trước / / chỉ trong 1 từ “góa”

Ngược lại, âm vị /zero/ có thể xuất hiện sau tất cả các phụ âm đầu

2.3.3 Âm chính

Trong tiếng Việt đỉnh âm tiết bao giờ cũng nằm ở đoạn nguyên âm Các nguyên âm mang âm sắc chủ yếu của âm tiết Do đó chúng được coi là các âm chính của âm tiết Có tất cả 16 âm vị nguyên âm làm âm chính Trong đó có 13 nguyên âm đơn và 3 nguyên âm đôi

Cũng giống như các âm đầu, khi thể hiện bằng chữ viết có một số âm vị nguyên âm chỉ có duy nhất một chữ viết tương ứng, tuy nhiên cũng có một số

Định dạng
Số trang	154
Dung lượng	2,53 MB

Thiết kế giải thuật nhận dạng tiếng nói trên FPGA điều khiển robot (fpga based designs for robot communications)

XỬ LÝ TÍN HIỆU THỜI GIAN NGẮN

CANH LỀ VÀ CHUẨN HÓA THEO THỜI GIAN