1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu kỹ thuật nhận dạng người nói dựa trên từ khoá tiếng Việt

156 25 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 156
Dung lượng 2,15 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu kỹ thuật nhận dạng người nói dựa trên từ khoá tiếng Việt Nghiên cứu kỹ thuật nhận dạng người nói dựa trên từ khoá tiếng Việt Nghiên cứu kỹ thuật nhận dạng người nói dựa trên từ khoá tiếng Việt luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

_ _

NGÔ MINH DŨNG

NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG

NGƯỜI NÓI DỰA TRÊN TỪ KHÓA TIẾNG VIỆT

LUẬN ÁN TIẾN SỸ KỸ THUẬT

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

_ _

Ngô Minh Dũng

NGHIÊN CỨU KỸ THUẬT NHẬN DẠNG

NGƯỜI NÓI PHỤ THUỘC TỪ KHÓA TIẾNG VIỆT

Chuyên ngành : Công nghệ phần mềm

Mã số : 62.48.10.01

LUẬN ÁN TIẾN SỸ KỸ THUẬT

Hướng dẫn khoa học: PGS TS Đặng Văn Chuyết

PGS TS Vũ Kim Bảng

HÀ NỘI - 2010

Trang 3

LỜI CẢM ƠN

Xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới các thầy hướng dẫn khoa học Đặng Văn Chuyết và Vũ Kim Bảng, các thầy cô Nguyễn Thúc Hải, Trịnh Văn Loan, Nguyễn Thị Hoàng Lan, Quách Tuấn Ngọc (khoa Công nghệ thông tin – Đại học Bách khoa Hà Nội), Lương Chi Mai (Viện Công nghệ Thông tin), Lê Khánh Hùng (Viện Công nghệ ứng dụng) và các thầy phản biện độc lập đã tận tình hướng dẫn và đóng góp nhiều ý kiến quý báu cho luận án

Xin chân thành cảm ơn các đồng nghiệp công tác tại phòng Giám định Kỹ thuật pháp lý (Viện Khoa học Hình sự) và trung tâm Ngữ âm thực nghiệm (Viện Ngôn ngữ học) đã nhiệt tình giúp đỡ và hợp tác rất nhiều trong nghiên cứu, thực nghiệm, thu mẫu… để tác giả có thể hoàn thành được luận án

Xin cảm ơn rất nhiều các anh, chị làm việc tại Viện Đào tạo Sau đại học Đại học Bách khoa Hà Nội, vụ Giáo dục đại học đã nhiệt tình giúp đỡ, tạo mọi điều kiện giúp tác giả thực hiện thành công luận án Lời cảm ơn đặc biệt nhất xin dành cho người vợ và hai con trai yêu quý của tác giả, những người luôn bên cạnh động viên kích lệ tác giả, nguồn lực lớn nhất giúp tác giả hoàn thành luận án

Xin cảm ơn tất cả !

Trang 4

LỜi CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận án

là trung thực và chưa từng được ai công bố trong bất cứ một công trình nào khác

Tác giả luận án

Ngô Minh Dũng

Trang 5

Mục lục Trang

Mở đầu

Chương 1: Tổng quan về nhận dạng người nói

1.1 Cơ sở khoa học của nhận dạng người nói

1.2 Thông tin đặc trưng giọng nói mỗi người

1.3 Các phương pháp nhận dạng người nói hiện nay trên thế giới

1.3.1 Nhận dạng người nói bằng cơ quan thính giác của con người

1.3.2 Nhận dạng người nói bằng phương pháp thủ công

1.3.3 Nhận dạng người nói tự động

1.4 Nguyên lý làm việc hệ nhận dạng người nói

1.4.1 Cấu trúc cơ bản của một hệ nhận dạng người nói

1.4.2 Trích chọn đặc trưng

1.4.3 Nhận dạng người nói bằng mô hình Markov ẩn

1.4.4 Nhận dạng người nói bằng mô hình hỗn hợp Gauss

1.4.5 Nhận dạng người nói bằng mạng Nơron nhân tạo

1.4.6 Một số thuật toán đối sánh mẫu dùng trong nhận dạng người nói

1.4.7 Quyết định nhận dạng

1.5 Các nguyên nhân gây lỗi nhận dạng người nói

1.5.1 Tính không ổn định của bản thân người nói

1.5.2 Cải trang tiếng nói và giả giọng nói người khác

1.5.3 Các tác nhân kỹ thuật gây sai số cho nhận dạng người nói

1.6 Sơ lược tình hình nghiên cứu nhận dạng người nói

1.6.1 Nghiên cứu nhận dạng người nói bằng phương pháp thủ công

1.6.2 Nghiên cứu nhận dạng người nói bằng phương pháp tự động

1.7 Giám định pháp lý nhận dạng người nói và vấn đề tiếng Việt

1.7.1 Phương pháp kinh điển giám định pháp lý nhận dạng người nói

1.7.2 Phương pháp tự động giám định pháp lý nhận dạng người nói

1.7.3 Các vấn đề tồn tại của giám định nhận dạng người nói tiếng Việt

Chương 2 : Giám định nhận dạng người nói tiếng Việt theo phương pháp

nghe-phân tích phổ âm thanh

2.1 Ngữ âm tiếng Việt với nhận dạng người nói

2.1.1 Một số đặc trưng ngữ âm tiếng Việt

Trang 6

2.1.2 Đặc trưng ngữ âm tiếng Việt với nhận dạng người nói

2.2 Các tham số tiếng nói trong nhận dạng người nói

2.3 Formants trong âm tiết tiếng Việt

2.3.1 Một số đặc điểm cấu trúc formant trong âm tiết tiếng Việt

2.3.2 Đánh giá các phương pháp xác định formants

2.3.3 Cơ sở dữ liệu âm tiết người nói tiếng Việt

2.3.4 Phạm vi thay đổi của các formant trong âm tiết tiếng Việt

2.4 Phạm vi thay đổi trung bình của tần số cơ bản

2.5 Phổ trung bình trong thời gian dài

2.6 Quy trình giám định nhận dạng người nói tiếng Việt

Chương 3 : Xác suất nhận dạng người nói của âm tiết tiếng Việt

3.1 Cơ sở đánh giá khả năng nhận dạng người nói đối với âm tiết

3.2 Kiểm định giả thiết thống kê phạm vi biến đối tương đối của các

formant trong âm tiết

3.3 Xác suất nhận dạng người nói của âm tiết tiếng Việt

3.4 Một số nhận xét từ phân tích xác suất nhận dạng người nói

3.4.1 Số lượng âm tiết đồng nhất

3.4.2 Xác suất trung bình nhận dạng người nói của formant

3.4.3 Khả năng phân biệt người nói của các âm tiết tiếng Việt

3.5 Kiểm nghiệm khả năng nhận dạng người nói của âm tiết tiếng Việt

3.5.1 Hệ nhận dạng người nói phụ thuộc từ khóa cơ sở

3.5.2 Khảo sát độ chính xác nhận dạng của hệ nhận dạng người nói cơ

sở với các âm tiết khác nhau 3.6 Ý nghĩa thực tiễn việc xác định khả năng phân biệt người nói đối với

âm tiết tiếng Việt

Chương 4 : Giám định tự động nhận dạng người nói tiếng Việt

4.1 Các vấn đề tồn tại của giám định tự động nhận dạng người nói tiếng

Việt

4.2 Mô hình âm tiêt và mô hình âm vị trong nhận dạng người nói

4.2.1 Hệ nhận dạng người nói dựa trên mô hình âm tiết

4.2.2 Hệ nhận dạng người nói dựa trên mô hình âm vị

4.2.3 So sánh các hệ nhận dạng người nói dựa trên mô hình âm tiết và

Trang 7

4.3 Chuẩn hóa điều kiện ghi âm trong giám định tự động nhận dạng người

nói

4.3.1 Giám định tự động nhận dạng người nói trong các điều kiện ghi

âm khác nhau 4.3.2 Cơ sở của phương pháp chuẩn hóa theo phổ trung bình

4.3.3 Xây dựng tập dữ liệu khảo sát người nói trong điều kiện ghi khác

nhau 4.3.4 Hệ nhận dạng người nói cơ sở để khảo sát

4.3.5 Đánh giá phương pháp chuẩn hóa theo phổ trung bình

4.4 Sơ đồ khối quy trình giám định nhận dạng người nói tổng quát

Kết luận và kiến nghị

Danh mục công trình khoa học đã công bố

Tài liệu tham khảo

Trang 8

Giải thích các ký hiệu và chữ viết tắt

ANN (Artificial Neuron Network ) : Mạng Nơron nhân tạo

DFT (Discrete Fourier Transform) : Biến đổi Fuarie rời rạc

DTW (Dynamic Time Warping): Thuật toán gói thời gian động

EER (Equal Error Rate) : sai số cân bằng

FA (Fault Accept): sai số chấp nhận

FR.(Fault Reject): sai số từ chối

F0 (Fundamental Frequency): Tần số âm cơ bản

F1, F2, F3, F4 : Giá trị các formant bậc 1, 2, 3, 4

GMM (Gaussian Mixing Model) : Mô hình hỗn hợp Gauss

HMM (Hidden Markov Models ) : Mô hình Markov ẩn

IDFT (Inverse Discrete Fourier Transform) : Biến đổi ngược Fuarie

rời rạc

LR (Likelihood Rate ) : Tỷ số likelihood

LLR (Log Likelihood Rate ) : Logarit tỷ số likelihood

LPC (Linear Predictive Coding ) : Mã hóa dự đoán tuyến tính

LPCC (Linear Predictive Ceptral Coefficients) : Các hệ số ceptrum

dự đoán tuyến tính

LTA (Long Term Average spectrum): Phổ trung bình thời gian dài

MFCC (Mel-Frequency Ceptral Coefficients) : Các hệ số ceptrum tần

số Mel

ML (Maximum Lilikehood ) : likelihood cực đại

MS : Phương pháp chuẩn hóa trung bình phổ

NDNN : Nhận dạng người nói

NDTN : Nhận dạng tiếng nói

RASTA (RelAtive SpecTrA) : Phổ tương thích

VQ (Vector Quantization) : Lượng tử vector

Trang 9

Danh mục các bảng

Bảng 2.1: Phạm vi biến đổi trung bình formants trong âm tiết

Bảng 2.2 : Phạm vi thay đổi của tần số cơ bản trung bình

Bảng 2.3 : Kết quả khảo sát độ ổn đinh của phổ LTA

Bảng 3 : Xác suất nhận dạng người nói của các âm tiết được khảo sát

Bảng 4 : Kết quả khảo sát một số phương pháp chuẩn hóa

Trang 10

Danh mục các hình

Hình 1.1: Cấu tạo cơ quan phát âm con người

Hình 1.2 Phân loại các thông tin đặc trưng người nói

Hình 1.3: Nhận dạng người nói hai người bằng phương pháp thủ công

Hình 1.4: Cấu trúc cơ bản hệ nhận dạng người nói

Hình 1.5: Phân tích phổ thời gian ngắn

Hình 1.6 : Sơ đồ khối xác định các hệ số MFCC

Hình 1.7: Sơ đồ một mô hình HMM 5 trạng thái dịch chuyển từ trái sang

phải

Hình 1.8 : Mô hình cơ bản của một Nơron

Hình 1.9 : Phân lớp nhận dạng người nói sử dụng ANN

Hình 2.1: Hệ thống phân tích phổ tín hiệu tiếng nói CSL

Hình 2.2: Giá trị các formant trên từng khúc đoạn 20ms giữa hai mẫu

tiếng nói

Hình 2.3: Xác định giá trị (Fi) và bề rộng (Bi) của các formant trên một

số khúc đoạn được cho là âm vị /a/ trong một âm tiết “bách”

Hình 2.4: Tín hiệu tiếng nói và phổ ba chiều của hai người phát âm cùng

cụm từ “đại học bách khoa”

Hình 3.1: Minh họa quan hệ hai hàm phân bố chuẩn

Hình 3.2: Minh họa mối quan hệ giữa các hàm phân bố xác suất và khả

năng phân biệt người nói của formant trong âm tiết

Hình 3.3 : Xác suất nhận dạng người nói theo số âm tiết đồng nhất

Hình 3.4: Xác suất trung bình nhận dạng người nói của các formant

trong âm tiết tiếng Việt

Trang 11

Hình 3.5: Xác suất nhận dạng người nói của các âm tiết tiếng Việt được

khảo sát

Hình 3.6: Sơ đồ biểu diễn một mô hình HMM có số trạng thái N = 6

Hình 3.7: Độ chính xác nhận dạng trung bình của các âm tiết theo số

trạng thái HMM và số hệ số MFCC

Hình 3.8: Độ chính xác nhận dạng của hệ nhận dạng người phụ thuộc từ

khóa là các âm tiết theo số hệ số MFCC

Hình 3.9: Độ chính xác nhận dạng của hệ nhận dạng người nói phụ

thuộc từ khóa là các âm tiết được khảo sát

Hình 4.1: Hệ nhận dạng người nói dựa trên các mô hình âm tiết

Hình 4.2: Hệ nhận dạng người nói dựa trên các mô hình âm vị

Hình 4.3: Kết quả khảo sát độ chính xác nhận dạng theo độ dài từ khóa

của các hệ nhận dạng người nói dựa trên các mô hình đơn vị

âm tiết và âm vị tiếng Việt

Hình 4.4: Sai số từ chối (FR) và sai số chấp nhận (FA) của các hệ nhận

dạng người nói dựa trên các mô hình đơn vị âm tiết và âm vị

tiếng Việt

Hình 4.5: Sơ đồ khối tính các hệ số MFCC được hiệu chỉnh

Hình 4.6: Phổ tiếng nói 2 người trong các điều kiện ghi khác nhau;

Hình 4.7: Đường trung bình phổ của kênh thông tin HT1 và HT2

Hình 4.8: Các đường quan hệ sai số DET

Hình 4.9: Sơ đồ khối quy trình giám định nhận dạng người nói tổng quát

Trang 12

Mở đầu

1 Tính cấp thiết của đề tài

Tiếng nói là phương tiện trao đổi thông tin phổ biến nhất của con người Nhận

dạng người từ giọng nói hay nhận dạng người nói (speaker recognition) cùng với nhận dạng tiếng nói (speech recognition) là những lĩnh vực nhận dạng liên quan đến

xử lý tiếng nói đang được quan tâm nghiên cứu hiện nay Tiếng nói, ngoài thông tin ngữ nghĩa mà người nói muốn truyền đạt cho người nghe (những thông tin có thể ghi lại dưới dạng chữ viết), còn chứa những thông tin khác như phương ngữ, trạng thái tình cảm khi nói cũng như những thông tin riêng của giọng nói Trong khi nhận dạng tiếng nói dựa trên thông tin ngữ nghĩa thì nhận dạng người nói lại dựa vào các thông tin riêng của giọng nói

Các lĩnh vực ứng dụng nhận dạng người nói hiện nay như xác thực quyền truy cập vào các hệ thống an ninh bằng mật khẩu nói, giám sát người qua giọng nói hay tách tiếng nói của từng người từ môi trường nhiều người nói Ứng dụng xác thực người nói trong giao dịch sử dựng thẻ tín dụng hay trong giao tiếp điện tử bằng hộp thư thoại có sử dụng kỹ thuật nhận dạng người nói để giúp nhận dạng tiếng nói có được các tham số nhận dạng thích hợp Ngoài ra, nhận dạng người nói còn có một

lĩnh vực ứng dụng khá quan trọng đó là giám định pháp lý nhận dạng người nói

(forensic speaker recognition)

Ở nước ta hiện nay, nhận dạng người nói mới bước đầu được ứng dụng trong lĩnh vực giám định pháp lý nhận dạng người nói phục vụ cho công tác điều tra và xét xử tội phạm Lĩnh vực giám định này là quá trình xác thực người nói giữa mẫu

tiếng nói được ghi âm xong chưa biết ai nói (unknown speaker) và mẫu tiếng nói của những người bị nghi vấn (suspect speakers) Đây là một lĩnh vực giám định

pháp lý mới với nhiều vấn đề liên quan tới kỹ thuật nhận dạng người nói cần giải quyết khi xây dựng cũng như nâng cao độ tin cậy của kết luận giám định Cho đến trước năm 2004 chưa có công trình nghiên cứu nào về vấn đề này cho người nói tiếng Việt được công bố Trước tình hình đó, luận án đã chọn vấn đề nhận dạng người nói tiếng Việt ứng dụng trong giám định pháp lý để nghiên cứu

Trang 13

2 Mục tiêu nghiên cứu của luận án

Mục tiêu nghiên cứu của luận án là nghiên cứu các kỹ thuật nhận dạng người nói nhằm giải quyết các vấn đề liên quan tới nhận dạng người nói tiếng Việt ứng dụng trong giám định pháp lý tại Việt Nam Các kỹ thuật nhận dạng người nói liên quan tới tiếng Việt như nghiên cứu phạm vi ổn định của một số các tham số tiếng nói đối với mỗi người nói, lựa chọn đơn vị ngữ âm thích hợp để tiến hành so sánh nhận dạng người nói, hay đánh giá khả năng phân biệt người nói của các đơn vị ngữ

âm tiếng Việt… Tất cả nhằm tới mục đích cuối cùng là xây dựng và hoàn thiện một quy trình giám định pháp lý nhận dạng người nói tiếng Việt phục vụ công tác điều tra và xét xử tội phạm tại Việt Nam

3 Đối tượng và phạm vi nghiên cứu

Để tiến hành nghiên cứu nhận dạng người nói tiếng Việt, đối tượng được luận

án chọn để nghiên cứu là tiếng Việt của những người nói giọng Bắc Bộ (những người phát âm đủ 6 thanh điệu tiếng Việt) Xong các kết quả nghiên cứu được áp dụng thử nghiệm cho cả những người nói giọng Nam bộ và Trung bộ để đánh giá Tất cả các nội dung nghiên cứu trong luận án chỉ giới hạn trong phạm vi điều kiện người nói trong trạng thái bình thường, các vấn đề người nói cố tình cải trang hay giả giọng nói đều nằm ngoài phạm vi nghiên cứu của luận án

4 Ý nghĩa khoa học và thực tiễn của luận án

Việc nghiên cứu các kỹ thuật nhận dạng người nói tiếng Việt ứng dụng trong giám định pháp lý như phạm vi ổn định một số các tham số tiếng nói đối với mỗi người nói hay lựa chọn đơn vị ngữ âm thích hợp cho tiếng Việt cũng như nghiên cứu về khả năng phân biệt người nói của các đơn vị ngữ âm này… sẽ đóng góp vào bức tranh tổng thể về nghiên cứu nhận dạng người nói nói chung, phục vụ cho các ứng dụng khác nhau của nhận dạng người nói tiếng Việt

Kết quả nghiên cứu của luận án góp phần trực tiếp xây dựng và phát triển lĩnh vực giám định pháp lý nhận dạng người nói tại Việt Nam Điều này có ý nghĩa thực tiễn to lớn trong công tác điều tra và xét xử tội phạm liên quan tới người nói tiếng Việt, nhất là trong bối cảnh số vụ án có liên quan tới tiếng nói tại nước ta tăng

Trang 14

nhanh trong những năm qua và sẽ còn tiếp tục tăng trong những năm tới theo sự phát triển mạnh mẽ của các thiết bị thông tin viễn thông

5 Kết cấu luận án

Nội dung luận án được chia thành 5 chương, cụ thể như sau:

Chương 1: Tổng quan về nhận dạng người nói Chương này trình bày cơ sở

khoa học của nhận dạng người nói, các phương pháp và kỹ thuật nhận dạng người nói cũng như hiện trạng của lĩnh vực này trên thế giới

Chương 2: Giám định nhận dạng người nói tiếng Việt theo phương pháp nghe

- phân tích phổ âm thanh Mục tiêu của chương này là xây dựng một quy trình

giám định pháp lý nhận dạng người nói tiếng Việt trên cơ sở nghiên cứu phạm vi thay đổi của một số tham số tiếng nói đối với mỗi người và giữa nhiều người nói khác nhau Các tham số tiếng nói tiếng Việt được tập trung khảo sát là các formant thuộc phạm vi âm tiết, tần số cơ bản trung bình và phổ trung bình

Chương 3: Khả năng phân biệt người nói của âm tiết tiếng Việt Nội dung

chính là nghiên cứu khả năng phân biệt người nói đối với một số âm tiết tiếng Việt dựa trên lý thuyết xác suất và thống kê phạm vi biến đổi tương đối các formant được xác định trong phạm vi âm tiết, từ đó rút ra được quy tắc đánh giá khả năng phân biệt người nói của các âm tiết tiếng Việt

Chương 4: Giám định tự động nhận dạng người nói tiếng Việt Lựa chọn đơn

vị ngữ âm thích hợp cho các hệ nhận dạng người nói phụ thuộc từ khóa tiếng Việt được trình bày ở chương này, bên cạnh đó, đề xuất phương pháp giải quyết vấn đề điều kiện ghi âm khác nhau khi áp dụng các hệ giám định tự động nhận dạng người nói

Trang 15

Chương 1 Tổng quan về nhận dạng người nói

1.1 Cơ sở khoa học của nhận dạng người nói

Tiếng nói tự nhiên ngoài thông tin ngữ nghĩa mà người nói muốn truyền đạt

cho người nghe còn chứa những thông tin khác như trạng thái tình cảm khi nói, hay những đặc tính riêng của giọng người nói

Đặc tính riêng trong giọng nói của mỗi người hay đặc tính riêng của người nói

là một hiện tượng phức tạp được hình thành từ 2 yếu tố: cấu tạo giải phẫu sinh lý cơ quan cấu âm của con người và những đặc điểm phát âm mà con người học được (cả

tự giác lẫn tự phát) trong cuộc sống Một yếu tố đặc trưng cho cấu trúc vật lý của cơ quan cấu âm còn yếu tố kia đặc trưng cho hành vi hoạt động của nó Để tìm hiểu kỹ hơn vấn đề này ta hãy xét đến quá trình tạo ra tiếng nói của con người

Tiếng nói tự nhiên do cơ quan cấu âm của con người tạo ra Cơ quan cấu âm của con người bao gồm: Phổi, khí quản, đôi dây thanh âm, yết hầu, vòm họng, khoang mũi, khoang miệng, lưỡi, răng, môi, được chia làm 2 tuyến phát âm: tuyến miệng và tuyến mũi (hình 1.1) Tuyến phát âm miệng bắt đầu từ thanh môn (khe hở hẹp giữa hai dây thanh) tới môi Tuyến phát âm mũi tính từ vòm họng ra tới

lỗ mũi Dưới tác dụng của các lực căng cơ phổi, phổi bị nén lại, không khí từ phổi theo khí quản ra tới đôi dây thanh Dưới sự điều khiển của hệ thần kinh, dây thanh

có thể trùng hay căng trùng liên tục Khi trùng, dây thanh không tham gia vào quá trình phát âm, luồng khí theo khe hẹp giữa hai dây thanh thoát ra ngoài theo tuyến miệng hoặc tuyến mũi, sau khi đã bị cuộn xoáy hỗn loạn, va chạm hay cọ xát vào các các khe hẹp và các hốc của cơ quan cấu âm tạo ra các âm thanh khác nhau, đó là

các âm vô thanh (unvoice) Khi dây thanh căng trùng liên tục, luồng khí bị điều chế thành các xung khí (xung thanh môn) có tần số được gọi là tần số cơ bản

(fundamental frequency) Các xung khí nay đi lên gặp các khoang rỗng như khoang

yết hầu, khoang họng, khoang miệng, khoang mũi sẽ cộng hưởng ở những tần số

nhất định được gọi là các formant Tuỳ thuộc vào hoạt động và vị trí của các bộ

phận cơ quan cấu âm mà hình dạng, thể tích của các khoang cộng hưởng này thay

Trang 16

đổi dẫn đến các âm phát ra khác nhau, đó là các âm hữu thanh (voice) Nếu luồng

khí thoát ra ngoài một cách tự do không gặp bất cứ sự ngăn cản nào, ta nói đó là các

nguyên âm (vowel) Ngược lại, nếu luồng khí này khi thoát ra ngoài gặp sự cản trở

nào đó chẳng hạn như sự tiếp xúc của đầu lưỡi với răng hay sự kép chặt 2 môi tạo

nên tiếng cọ sát hay tiếng nổ đó là các phụ âm hữu thanh (voiced consonant) Tiếng

nói do con người phát ra chính là sự tổ hợp và thay đổi liên tục của tất cả các loại

âm phát ra này

Hình 1.1: Cấu tạo cơ quan phát âm con người

Từ góc độ cấu trúc vật lý ta thấy mỗi người có một cơ quan cấu âm với những đặc điểm riêng về hình dạng, kích thước của đôi dây thanh cũng như các khoang hốc cộng hưởng hay các cơ quan cấu âm khác Những yếu tố sinh lý thuộc về bản chất di truyền tự nhiên của mỗi người này sẽ làm cho âm phát ra khi nói của những người khác nhau sẽ không thể giống nhau hoàn toàn được cho dù phát âm như nhau Bên cạnh đó, cách thức hoạt động cấu âm của các bộ phận cấu âm như lưỡi, răng, môi lại mang đậm sắc thái tâm lý riêng của mỗi người, những yếu tố này được hình thành dần dần trong quá trình nhận thức của mỗi người từ khi học nói tới tuổi trưởng thành Chính cách thức hoạt động cấu âm không giống nhau nên âm phát ra của mỗi người có những đặc trưng riêng một cách rất vô thức mặc dù không chủ định phát âm như vậy

Trang 17

Do vậy, dù khi phát âm những âm giống nhau âm phát ra của mỗi người vẫn

có những sắc thái riêng biệt Có thể nói tiếng nói của mỗi người có các đặc trưng riêng khác nhau Các đặc trưng này tuy không phải là bất biến từ lúc người biết nói đến lúc chết già, những nó có tính khá ổn định trong những giai đoạn dài của cuộc đời Khi con người đã trưởng thành, những thói tật khi nói, những đặc điểm khu biệt trong cấu âm sẽ hình thành và mang tính ổn định cao [44]

1.2 Thông tin đặc trưng giọng nói mỗi người

Các thông tin đặc trưng cho giọng nói của mỗi người được thể hiện ở nhiều mức khác nhau, từ các đặc trưng mức cao như phong cách nói, cách sử dụng cú pháp hay từ vừng khi nói, đến các đặc trưng mức thấp hơn như ngôn điệu, ngữ âm, cho tới mức thấp nhất là các đặc trưng âm thanh Các thông tin mức cao thường được hình thành dần trong quá trình nhận thức của mỗi người, trong khi thông tin mức thấp lại thường là kết quả thuộc các yếu tố sinh lý cơ quan cấu âm của mỗi người

Hình 1.2 Phân loại các thông tin đặc trưng người nói

Các thông tin đặc trưng mức cao có ưu điểm là ít bị ảnh hưởng bởi nhiễu và kênh truyền song rất khó trích chọn tự động, mô hình hóa phức tạp và thường phải yêu cầu thời gian phát âm đủ lớn, trong khi đó thông tin đặc trưng mức thấp, ngược lại, rất dễ bị tác động bởi nhiễu và kênh truyền song trích chọn tự động dễ dàng

Trang 18

hơn, mô hình hóa cũng đơn giản hơn và thường không yêu cầu nhiều về thời gian phát âm Hình 1.2 biểu diễn các mức thông tin đặc trưng người nói

1.3 Các phương pháp nhận dạng người nói hiện nay trên thế giới

1.3.1 Nhận dạng người nói bằng cơ quan thính giác của con người

Chúng ta vẫn thường nhận dạng người nói hàng ngày như nhận ra người quen khi nghe tiếng nói của họ Nhận dạng người nói bằng cảm thụ thính giác chủ yếu dựa trên các thông tin mức cao của tiếng nói như phong cách nói, âm sắc, ngữ điệu của giọng nói, phương ngữ hay tật phát âm… Con người khi cảm thụ các thông tin này có thể nhận ra được người nói Năm 1998, Schmidt-Niel và Cristal đã tiến hành một thí nghiệm so sánh độ chính xác nhận dạng người nói của 65 người nghe khác nhau, kết quả cho thấy khả năng phân biệt người nói giữa những người khác nhau là không như nhau [15]

1.3.2 Nhận dạng người nói bằng phương pháp thủ công

Phương pháp này so sánh ảnh phổ của hai mẫu tiếng nói để quyết định xem liệu chúng có phải do cùng một người nói ra không Mẫu tiếng nói ở đây được hiểu

là một đoạn tiếng nói, đó có thể là một âm tiết, một từ hay cụm từ, thậm chí là một

câu nói Những người tiến hành nhận dạng người nói (giám định viên) thường phải

có kiến thức nhất định về ngữ âm của ngôn ngữ được nói Trước tiên giám định viên phải nghe bằng tai để quyết định liệu hai mẫu tiếng nói này có đồng âm không Tiếp đến, việc so sánh hai mẫu tiếng nói được thực hiện chủ yếu trên phổ ba chiều

năng lượng - tần số - thời gian (spectrogram hay sonagram) Sử dụng cách đánh

giá định tính khi thực hiện so sánh diễn tiến của các formant, bề rộng formant, tỷ lệ tương đối giữa chúng trên các phổ ba chiều này Hình 1.3 minh họa so sánh phổ ba chiều của hai mẫu tiếng nói bằng phương pháp thủ công

Trang 19

Hình 1.3: Nhận dạng người nói hai người bằng phương pháp thủ công

Trong quá trình so sánh nhận dạng người nói, giám định viên có thể kết hợp đồng thời với so sánh định lượng một số tham số tiếng nói của các mẫu tiếng nói để tăng cường độ chính xác và độ tin cậy của kết quả nhận dạng

1.3.3 Nhận dạng người nói tự động

Phương pháp này khác hẳn với hai phương pháp trên ở chỗ toàn bộ quá trình nhận dạng người nói được thực hiện tự động bởi các thuật toán máy tính Quá trình nhận dạng được thưc hiện dựa trên việc mô hình hoá tín hiệu tiếng nói theo cách trích chọn một số thông tin đặc trưng người nói và sử dụng các thuật toán phân lớp nhận dạng các mô hình người nói này Nhận dạng người nói tự động thường được

chia ra làm 2 nhiệm vụ chính: định danh người nói (speaker identification) và xác thực hay kiểm tra người nói (speaker verification) Trong định danh người nói (đối

sánh 1:N), tiếng nói của một người chưa biết sẽ được đối sánh với một cơ sở dữ liệu

N người nói đã biết, và người có kết quả đối sánh phù hợp nhất sẽ được định danh cho tiếng nói người chưa biết Nếu mẫu tiếng nói của người chưa biết song chắc chắn thuộc một trong số những người nói có trong cơ sở dữ liệu đối sánh thì việc

định danh này được coi là định danh trên tập đóng, ngược lại thì gọi là định danh trên tập mở Trong xác thực người nói (đối sánh 1:1), quyết định ở đây là tiếng nói

của người chưa biết có phải là tiếng nói của một người đã được hệ thống xác định từ trước Mẫu tiếng nói của người xác định được đưa vào hệ thống, và mẫu tiếng nói của một người chưa xác định được đối sánh với nhau Nếu độ giống nhau giữa 2 mẫu này lớn hơn một mức ngưỡng định trước thì xác định hai người đó là một, quyết định “chấp nhận”, ngược lại thì xác định đó là hai người khác nhau, quyết

Trang 20

định “từ chối” Rõ ràng xác thực người nói có thể coi là định danh người nói trên tập mở với số người trong cơ sở dữ liệu bằng 1 Do vậy, trong khuôn khổ luận án

này, quy ước khái niệm nhận dạng người nói trên tập đóng là để chỉ định danh người nói trên tập đóng, còn khái niệm nhận dạng người nói trên tập mở sẽ bao

gồm cả định danh người nói trên tập mở và xác thực người nói

Tùy thuộc thuật toán nhận dạng người nói có phụ thuộc nội dung ngôn ngữ nói

hay không mà chia ra làm hai loại nhận dạng người nói phụ thuộc từ khóa (Text

Dependent Speaker Recognition) và nhận dạng người nói không phụ thuộc từ khóa (Text Independent Speaker Recognition)

1.4 Nguyên lý làm việc hệ nhận dạng người nói

1.4.1 Cấu trúc cơ bản của một hệ nhận dạng người nói

Hệ nhận dạng người nói (speaker recognition system) ở đây được hiểu là hệ tự

động nhận dạng người nói và được xây dựng dựa trên phương pháp nhận dạng người nói tự động Như mọi hệ nhận dạng thông thường, cấu trúc của một hệ nhận dạng người nói cũng bao gồm hai modul cơ bản là trích chọn đặc trưng và phân lớp nhận dạng, trong đó modul phân lớp nhận dạng gồm hai thành phần là đối sánh mẫu và quyết định nhận dạng Nguyên lý nhận dạng cũng được thực hiện theo hai pha: huấn luyện và nhận dạng Cơ sở dữ liệu bao gồm các mô hình người nói được tạo ra trong pha huấn luyện Trong pha nhận dạng, mẫu tiếng nói của người chưa biết sẽ được đối sánh với các mô hình người nói có trong cơ sở dữ liệu để ra quyết định nhận dạng Hình 1.4 mô tả cấu trúc cơ bản của một hệ nhận dạng người nói Trong đó, modul trích chọn đặc trưng sẽ tạo ra một tập các đặc trưng từ tín hiệu tiếng nói Các đặc trưng này phải thể hiện được các thông tin xác định người nói Modul phân lớp nhận dạng có chức năng đối sánh các đặc trưng được trích chọn mẫu tiếng nói của người chưa biết với các mô hình người nói và quyết định nhận dạng Hiện có nhiều mô hình phân lớp nhận dạng được sử dụng cho các hệ nhận dạng người nói như đối sánh mẫu bằng thuật toán gói thời gian động [12], lượng tử vector [14], [15], [36], hay sử dụng nhiều hơn là các mô hình thống kê như

mô hình Markov ẩn [17], [21], [23], [45] mô hình hỗn hợp Gauss [10], [25], [30], [37], và gần đây là nhận dạng bằng mạng nơron [29], [34], [35]

Trang 21

Hình 1.4: Cấu trúc cơ bản hệ nhận dạng người nói

Do tính chất quyết định nhận dạng người nói trên tập đóng và trên tập mở là khác nhau nên cách đánh giá các hệ nhận dạng này cũng khác nhau Với hệ nhận dạng người nói trên tập đóng, quyết định nhận dạng sẽ luôn là một người nào đó có trong cơ sở dữ liệu, do vậy chỉ có thể có một loại sai số duy nhất là nhận dạng không đúng người nói và việc đánh giá khả năng nhận dạng của một hệ nhận dạng

người nói trên tập đóng được xác định dựa trên độ chính xác nhận dạng Với hệ nhận dạng người nói trên tập mở thì khác, ở đây có hai loại sai số: chấp nhận sai (Fault Accept - FA) người không có trong cơ sở dữ liệu và từ chối sai (Fault Reject

- FR) người có trong cơ sở dữ liệu Việc đánh giá hệ nhận dạng người nói trên tập

mở được xác định dựa trên sự cân bằng của hai loại sai số này, sai số khi đó được

gọi là sai số cân bằng (Equal Error Rate – EER) Tuy nhiên, trong thực tế khả

năng nhận dạng của hệ nhận dạng người nói trên tập mở thường được đánh giá dựa trên giá phải trả do hai loại sai số này gây ra Ví dụ, trong hệ thống mua bán qua điện thoại bằng thẻ tín dụng giá của chấp nhận sai đắt hơn rất nhiều so với giá phải trả cho từ chối sai Trong khuôn khổ luận án, khi đánh giá các hệ nhận dạng người nói, luận án chỉ sử dụng độ chính xác nhận dạng đối với hệ nhận dạng người nói

1.4.2 Trích chọn đặc trưng

Trong hệ nhận dạng người nói, trích chọn đặc trưng là quá trình biến đổi tín hiệu tiếng nói thành chuỗi các vector mang thông tin đặc trưng về người nói Với mục đích nhận dạng người nói, các đặc trưng trích chọn cần có các thuộc tính sau: Thay đổi nhiều từ người này sang người khác; Ít thay đổi đối với mỗi người; Dễ dàng đo lường; Khó bị bắt chước và khó bị thay đổi khi giả giọng; Không bị ảnh hưởng bởi nhiễu; Độc lập hoàn toàn với các đặc trưng khác Thực tế, chẳng có đặc trưng nào thoả mãn được tất cả các thuộc tính này Tùy thuộc yêu cầu cụ thể khi xây

Trang 22

dựng các hệ nhận dạng người nói mà ưu tiên thuộc tính nào hơn Rõ ràng với mục đích tự động thì thuộc tính dễ dàng đo lường sẽ được ưu tiên hàng đầu, và vì vậy các đặc trưng thuộc thông tin mức thấp luôn là sự lựa chọn đầu tiên khi tiến hành xây dựng các hệ nhận dạng người nói

Hình 1.5: Phân tích phổ thời gian ngắn

Các đặc trưng trích chọn thuộc thông tin mức thấp thông dụng hiện nay được

sử dụng trong nhận dạng người nói chủ yếu dựa trên việc phân tích phổ thời gian ngắn của tín hiệu tiếng nói Quá trình trích chọn đặc trưng thực hiện trên từng

khung nhìn (frame) được xác định bởi một cửa sổ có độ dài ứng với khoảng tín

hiệu tiếng nói gần như không đổi (10 ÷ 30 ms) và được dịch chuyển dọc theo tín

hiệu với bước dịch chuyển thường là 25-75% độ dài cửa sổ (overlap) Mỗi frame

thường được nhân với một hàm cửa sổ để tránh sự thay đổi đột ngột ở các điểm đầu

và cuối Một tập các đặc trưng được trích chọn từ mỗi frame được gọi là một vector đặc trưng Như vậy sau khi trích chọn các đặc trưng của toàn bộ tín hiệu tiếng nói sẽ được một tập các vector đặc trưng (hình 1.5)

Các đặc trưng trích chọn thông dụng hiện nay là các vector biểu diễn đường bao phổ năng lượng như các hệ số Ceptre tần số Mel (MFCC), các hệ số Ceptre dự đoán tuyến tính (LPCC), hay các hệ số Ceptre dự đoán tuyến tính cảm thụ (PLPC) [30] Sự khác biệt giữa các vector đặc trưng này chủ yếu ở cách biểu diễn phổ Các

đặc trưng MFCC được lấy trực tiếp từ phổ năng lượng qua phân tích Fourier (DFT)

Trang 23

như trên hình 1.6 Trong khi đó các đặc trưng LPCC và PLPC lại sử dụng mô hình toàn cực để biểu diễn phổ tiếng nói sau khi đã được làm trơn [36]

Ngoài ra, trong nhận dạng người nói còn sử dụng các đặc trưng động, còn gọi

là các đặc trưng Delta, đó là các đặc trưng biểu diễn tốc độ cũng như gia tốc thay đổi của phổ tiếng nói [12]

Hình 1.6 : Sơ đồ khối xác định các hệ số MFCC

1.4.3 Nhận dạng người nói bằng mô hình Markov ẩn

Theo lý thuyết về mô hình Markov ẩn (Hidden Markov Models – HMM) thì

một hệ thống thay đổi theo thời gian có thể được mô tả bởi một số hữu hạn các trạng thái thay đổi theo thời gian, trong đó các quan sát được (tức đầu ra của hệ thống) không phải trực tiếp là các trạng thái mà là một hàm xác suất của chúng Mô hình HMM sẽ biểu diễn một hệ thống thay đổi theo thời gian bằng hai quá trình thống kê: một quá trình biểu diễn sự chuyển đổi giữa các trạng thái và một quá trình thể hiện các quan sát được trên mỗi trạng thái Ngoài ra mô hình còn có hai trạng thái đặc biệt là bắt đầu và kết thúc, quá trình hoạt động của một mô hình HMM luôn bắt đầu từ trạng thái đầu và dừng ở trạng thái kết thúc

Ký hiệu số trạng thái của mô hình hệ thống là N, số chiều vector đặc trưng để phân biệt các quan sát được trên mỗi trạng thái là M

trạng thái j ở thời điểm t+1

Trang 24

Ký hiệu  là xác suất trạng thái thiết lập ban đầu: = {i } với 1 i N , ở

Các xác suất trên có thể được xác định bởi các hàm mật độ xác suất rời rạc

hoặc liên tục Việc chuyển đổi từ trạng thái i ở thời điểm t sang trạng thái j ở thời điểm t+1 có thể được thực hiện bằng nhiều cách phụ thuộc vào cấu trúc của mô

hình HMM [24] Hình 1.7 minh họa bằng sơ đồ một mô hình HMM 5 trạng thái dịch chuyển từ trái sang phải

Hình 1.7: Sơ đồ một mô hình HMM 5 trạng thái dịch chuyển

từ trái sang phải

Vấn đề là ứng dụng mô hình HMM vào nhận dạng người nói được tiến hành như thế nào Như đã biết, khi phát âm, tiếng nói phát ra là một chuỗi các âm khác nhau do các vị trí khác nhau của cơ quan cấu âm tạo nên Nếu coi mỗi vị trí tĩnh của

cơ quan cấu âm như một trạng thái, ta sẽ có một số hữu hạn trạng thái của tiếng nói, còn các vector đặc trưng trích chọn từ các frame là các mẫu quan sát được của tiếng nói, khi đó tiếng nói hoạt động giống như một mô hình HMM Xét trên khía cạnh cấu âm, mỗi vị trí tĩnh của cơ quan cấu âm có thể ứng với mỗi âm vị Thông tin thời gian được mã hóa bằng việc chuyển từ trạng thái này sang trạng thái khác theo chuỗi chuyển tiếp Thời gian tiêu tốn trên mỗi trạng thái không giống nhau tùy thuộc vào tiếng nói mỗi người Do vậy, trong tiếng nói, mỗi từ, mỗi âm tiết hay mỗi

âm vị đều có thể biểu diễn bằng một mô hình HMM Chẳng hạn mỗi âm vị có thể được biểu diễn bằng một mô hình HMM 3 trạng thái (bao gồm cả 2 trạng thái bắt

Trang 25

đầu và kết thúc), hay mỗi âm tiết có thể được biểu diễn bằng một mô hình có số trạng thái tùy thuộc số âm vị có trong âm tiết đó

Áp dụng mô hình HMM cho nhận dạng người nói được thực hiện như sau:

được xác định trên cơ sở cực đại hoá xác suất chuỗi mẫu quan sát của mô hình :

chuỗi trạng thái X = {x(0) x(1) … x(t) x(t+1)…x(T)}

Trong pha nhận dạng, điểm số đối sánh được xác định bằng xác suất ước lượng

xác định bằng tổng tất cả các khả năng có thể xuất hiện của chuỗi trạng thái X

(thuật toán Baum-Welch) [28]:

hoặc là bằng xác suất chuỗi trạng thái X có xác suất xuất hiện cao nhất (thuật toán

Viterbi) [28]:

thời điểm t+1

b x(t) (o t ) : xác suất xuất hiện mẫu quan sát O t khi hệ thống ở thời điểm t

Các nghiên cứu đều chỉ ra không có sự khác biệt lớn về kết quả nhận dạng người nói giữa hai thuật toán này [21]

1.4.4 Nhận dạng người nói bằng mô hình hỗn hợp Gauss

độ xác suất hỗn hợp được định nghĩa là tổ hợp tuyến tính của các hàm mật độ xác suất thành phần có dạng phân bố chuẩn (phân bố Gauss) đa chiều của các vector đặc trưng :

Trang 26

Với:

M : Số hàm mật độ xác suất thành phần

x : Vector thuộc không gian vector đặc trưng

N : Số chiều của vector đặc trưng (số các đặc trưng)

Áp dụng mô hình GMM cho nhận dạng người nói được thực hiện như sau: Trong pha học, các vector đặc trưng được trích chọn của mỗi người nói sẽ tạo nên một mô hình GMM tương ứng Mỗi mô hình GMM được biểu diễn bằng một

nói, một bộ 3 tham số này được tham chiếu như một mô hình người nói Tập các bộ

Thường sử dụng thuật toán cực đại hóa vọng số (Expectation Maximization – EM)

[20], [24] để xác định bộ 3 tham số này của mô hình GMM cho mỗi người nói

Trong pha nhận dạng, điểm số đối sánh là xác suất ước lượng (likelihood) của vector đặc trưng (x) được xác định theo giá trị hàm mật độ xác suất hỗn hợp Gauss

p(x)

Xét về bản chất, mô hình GMM có thể coi là mô hình một trạng thái, điều này khác với mô hình HMM Thực vậy, quá trình tính toán mô hình GMM không hề đề cập tới yếu tố thời gian, toàn bộ tất cả các vector đặc trưng thuộc chuỗi lời nói (phát

âm của mỗi người) luôn được xem như ở trong cùng một thời điểm (trạng thái tĩnh)

Do vậy sự biểu diễn một mô hình GMM không phụ thuộc vào trình tự xuất hiện các

Trang 27

vector đặc trưng hay nói rộng ra là không phụ thuộc nội dung nói Vì lẽ đó, mô hình GMM thích hợp với các hệ nhận dạng người nói không phụ thuộc từ khóa

1.4.5 Nhận dạng người nói bằng mạng Nơron nhân tạo

Mạng Nơron nhân tạo (Artificial Neuron Network – ANN) được sử dụng khá

hiệu quả trong các bài toán nhận dạng ANN là mô hình tính toán mô phỏng bộ não con người trong một sơ đồ kết nối các tế bào thần kinh ANN có khả năng mô hình hóa phi tuyến và thực hiện được nhiều nhiệm vụ khác nhau như: phân lớp

(classification) , bộ nhớ liên hợp (associative memory), hay tạo nhóm (clustering)

ANN bao gồm một tập các Nơron được nối với nhau bởi các trọng số Mỗi Nơron là một phần tử xử lý thực hiện một hàm và tạo ra một kết quả (hình 1.8)

Việc tính toán của một Nơron bao gồm lấy tổng có trọng số của các đầu vào (1.5) và dùng tổng đó làm đối của một hàm phi tuyến (1.6)

Hình 1.8 : Mô hình cơ bản của một Nơron

Trang 28

này xấp xỉ một hàm bước nhảy Việc lựa chọn hàm kích hoạt thường dựa trên hai tiêu chí: độ phân biệt và tính phi tuyến Các hàm kích hoạt có phân biệt thường được lựa chọn vì chúng thuận tiện trong việc mô phỏng các hàm đại số Đặc biệt,

thuật toán học xuống dốc theo hướng nhanh nhất (gradient descent) dựa trên sự tính

toán gradient của độ đo tổng thể sự hoạt động của mạng với các trọng số mong muốn của mạng Hàm Sigmoid dễ dàng thực hiện các thao tác giải tích, vì vậy nó hay được dùng làm hàm kích hoạt Một lợi thế của ANN dùng hàm kích hoạt phi tuyến là chúng có khả năng tính toán các ánh xạ phức tạp hơn hàm tuyến tính

Quá trình học (hay huấn luyện) của ANN là quá trình thay đổi các trọng số của các phần tử sao cho ANN cho ra kết quả khớp nhất với bộ dữ liệu chứa các mẫu của hàm đích Sai số trung bình bình phương thường được sử dụng để đo sự trùng khớp giữa ánh xạ cần xây dựng với hàm đích cho trước Trong nhận dạng người nói, các ANN có thể tạo thành bộ phân lớp như trên hình 1.9 Ở đây, mỗi người nói được

mô hình hóa bằng một ANN riêng Một cách lý tưởng, khi các vector đặc trưng của mỗi người nói xác định được đưa tới đầu vào của bộ phân lớp, thì đầu ra ANN của người đó có giá trị là 1, còn đầu ra ANN của những người còn lại đều có giá trị 0 Một bộ chọn sẽ quét các đầu ra của các ANN để ra quyết định nhận dạng người nói

Hình 1.9 : Phân lớp nhận dạng người nói sử dụng ANN

1.4.6 Một số thuật toán đối sánh mẫu dùng trong nhận dạng người nói

Thuật toán gói thời gian động

Thuật toán gói thời gian động (Dynamic Time Warping – DTW) [28] là một

thuật toán đối sánh mẫu bằng cách căn lề về mặt thời gian và đo lường khoảng cách (độ giống nhau) của 2 mẫu tiếng nói Một lẽ tự nhiên, những mẫu tiếng nói có nội

Trang 29

dung khác nhau khoảng cách giữa chúng phải lớn hơn nhiều so với những mẫu có nội dung giống nhau nên thuật toán này chỉ thích hợp với các hệ nhận dạng người nói phụ thuộc từ khoá

Mô hình người nói ở đây chính là chuỗi các vector đặc trưng của mẫu tiếng nói Vì vậy pha huấn luyện chỉ đơn giản là trích chọn và lưu các vector đặc trưng mẫu tiếng nói của từng người vào cơ sở dữ liệu của hệ nhận dạng người nói Trong

pha nhận dạng, thuật toán DTW được sử dụng để xác định điểm số đối sánh, đó là

khoảng cách giữa các vector đặc trưng của mẫu tiếng nói cần kiểm tra với tất cả các mẫu có trong cơ sở dữ liệu

Lượng tử vector

Lượng tử vector (Vector Quantization - VQ) [28] cũng là một phương pháp

nhận dạng đối sánh mẫu song thay vì phải đối sánh tất cả các vector đặc trưng phương pháp này chỉ sử dụng một số vector đặc trưng tiêu biểu mà thôi Lượng tử vector là một quá trình ánh xạ các vector từ một không gian vector sang một số vùng xác định của không gian đó Các vùng nay còn được gọi là các nhóm

(clusters) và mỗi nhóm được đại diện bởi một vector trung tâm của nó (centroid)

Một tập các vector trung tâm biểu diễn toàn bộ không gian vector được gọi là một

codebook Tổng khoảng cách giữa một vector đặc trưng với các vector trung tâm

trong codebook được gọi là méo lượng tử (quantization distortion)

Trong nhận dạng người nói, phương pháp VQ được áp dụng cho không gian vector đặc trưng trích chọn, kết quả là tạo ra một codebook người nói Một codebook như vậy có kích cỡ nhỏ hơn rất nhiều so với tập vector đặc trưng và được tham chiếu như một mô hình người nói Với mỗi người nói sẽ có một codebook riêng Tập các codebook này tạo thành cơ sở dữ liệu của hệ nhận dạng người nói khi kết thúc pha huấn luyện Trong pha nhận dạng, điểm số đối sánh được xác định là

méo lượng tử giữa các vector đặc trưng của tiếng nói cần nhận dạng với tất cả các

codebook của người nói có trong cơ sở dữ liệu

1.4.7 Quyết định nhận dạng

Bước cuối cùng của một hệ nhận dạng người nói là ra quyết định nhận dạng

Do tính chất quyết định nhận dạng trên tập đóng và tập mở khác nhau nên hàm

Trang 30

quyết định nhận dạng cũng khác nhau tùy thuộc cơ sở dữ liệu người nói là tập đóng hay mở

Nhận dạng trên tập đóng, người có điểm số đối sánh lớn nhất hoặc nhỏ nhất sẽ

được quyết định nhận dạng tùy thuộc nhận dạng theo mô hình thống kế hay theo khoảng cách đối sánh mẫu Nhận dạng người nói theo mô hình thống kê hay mạng nơron, quyết định nhận dạng người nói trên tập đóng thường sử dụng phương pháp

likelihood cực đại (Maximum Lilikehood - ML), người ứng với likelihood lớn nhất

sẽ được quyết định nhận dạng, hàm quyết định có dạng:

Nhận dạng trên tập mở, khác với nhận dạng trên tập đóng là có thể xảy ra

trường hợp người được nhận dạng không có trong tập dữ liệu do vậy người được nhận dạng ngoài điểm số đối sánh lớn nhất (hoặc nhỏ nhất) như trên tập đóng thì điểm số đối sánh này cần phải lớn hơn (hay nhỏ hơn) một ngưỡng xác định còn gọi

là ngưỡng nhận dạng

Trong nhận dạng người nói theo mô hình thống kê HMM hay GMM, quyết định nhận dạng người nói trên tập mở còn có thể áp dụng kỹ thuật tỷ số giữa 2

likelihood (Log Likelihood Rate – LLR):

Trang 31

ngưỡng này được xác định dựa trên các dữ liệu huấn luyện hay tập dữ liệu phát triển khi xây dựng hệ nhận dạng người nói

1.5 Các nguyên nhân gây lỗi nhận dạng người nói

1.5.1 Tính không ổn định của bản thân người nói

Ta biết rằng sức khoẻ cả về thể chất lẫn tinh thần đều ảnh hưởng tới tiếng nói của mỗi người Các chất kích thích và thuốc gây nghiện đều có ảnh hưởng tới tiếng nói Ví dụ hút thuốc lá trong một thời gian dài sẽ làm cho tiếng nói thay đổi Nếu một người đang bị stress, một vài tham số âm học của người đó sẽ thay đổi làm cho tiếng nói phát ra khi đó sẽ khác với tiếng nói phát ra khi đang ở trạng thái bình thường Ngoài ra, tiếng nói của mỗi người còn thay đổi theo tuổi tác, theo trọng lượng cơ thể và nhiều sự thay đổi thể chất khác Trên thực tế, sự thay đổi của tiếng nói theo thời gian có lẽ là sự thay đổi lớn nhất của tiếng nói trong bản thân mỗi người Đây là nguyên nhân đầu tiên gây lỗi khi tiến hành nhận dạng người nói

1.5.2 Cải trang tiếng nói và giả giọng nói người khác

Cải trang tiếng nói là ai đó cố tình làm thay đổi giọng nói của mình để người khác hay máy tính không thể nhận ra giọng nói thực của mình Điều nay thường chỉ xảy ra trong giám định pháp lý nhận dạng người nói Ví dụ khi gọi điện tống tiền,

kẻ gây án thường hay che miệng hoặc cố tình nói giọng khác với giọng thật của mình hy vọng tránh được sự điều tra của cảnh sát Cải trang tiếng nói còn thể hiện bằng cách bắt chước giọng nói của một phương ngữ khác như sử dụng vốn từ vựng địa phương hay cố gắng phát âm theo hệ thống ngữ âm của phương ngữ đó Giả giọng, hay còn gọi là nhại tiếng người khác, là một trường hợp đặc biệt của cải trang giọng nói khi người nói cố tình bắt chước giọng nói của ai đó Nói chung, cải trang hay giả giọng nói đều làm giảm khả năng phân biệt người nói

1.5.3 Các tác nhân kỹ thuật gây sai số cho nhận dạng người nói

Các tác nhân kỹ thuật làm mất tính trung thực của tiếng nói được gọi chung là nhiễu Nhiễu tác động lên tiếng nói có rất nhiều loại xong có thể được chia làm hai nhóm chính: nhiễu từ môi trường ghi âm và nhiễu từ môi trường truyền dẫn

Đầu tiên, tiếng nói được thu vào micro hay ống nghe điện thoại, và do vậy các

âm thạnh không mong muốn từ môi trường xung quanh cũng theo vào micro cùng

Trang 32

tiếng nói Tiếp đến, nếu micro có chất lượng kém sẽ làm méo phi tuyến phổ tiếng nói Biến đổi A/D cũng gây méo tín hiệu Các thiết bị điện tử ghi/thu cũng có thể can nhiễu vào sóng vô tuyến của điện thoại di động Nếu tín hiệu tiếng nói được truyền qua mạng điện thoại, mã hoá GMS, hoặc trong các hệ thống đĩa mini với các giải thuật nén sẽ chịu ảnh hưởng của kỹ thuật nén tín hiệu, điều đó cũng đồng nghĩa với việc làm cộng thêm nhiễu vào tín hiệu tiếng nói Mã hoá tiếng nói cũng là nguyên nhân làm giảm khả năng phân biệt người nói Cuối cùng, các điều kiện đối sánh cũng là nguyên nhân gây sai số trong nhận dạng người nói Điều kiện đối sánh không giống nhau xảy ra khi điều kiện ghi âm mẫu tiếng nói huấn luyện hệ thống khác với điều kiện ghi âm mẫu tiếng nói khi nhận dạng (như thay đổi môi trường ghi âm hay micro cũng như môi trường truyền dẫn…)

Tóm lại, sóng âm tiếng nói mà ta sử dụng để nhận dạng người nói bằng các phương pháp thủ công hay tự động dường như không giống với sóng âm tiếng nói được phát ra từ miệng của người nói, bởi trước khi đưa vào nhận dạng nó đã được truyền qua một hoặc nhiều môi trường và bị can nhiễu làm méo đi ít nhiều Đó là nguyên nhân chính làm giảm độ chính xác của nhận dạng người nói

1.6 Sơ lược tình hình nghiên cứu nhận dạng người nói

1.6.1 Nghiên cứu nhận dạng người nói bằng phương pháp thủ công

Đầu những năm 60 của thế kỷ trước, Lawrence Kersta đã lần đầu tiên thực hiện nhận dạng người từ tiếng nói bằng cách so sánh ảnh phổ ba chiều của tiếng nói tại phòng thí nghiệm tiếng nói của hãng Bell Telephone [15] Về cơ bản, nguyên tắc nhận dạng người nói bằng phương pháp thủ công này vẫn được giữ nguyên cho đến nay Báo cáo tổng quan về giám định pháp lý nhận dạng người nói tại hội nghị Interpol năm 2004 tại Lion (Pháp) cũng nói rõ phương pháp giám định bằng so sánh ảnh phổ tiếng nói vẫn là phương pháp giám định chủ đạo hiện nay tại nhiều phòng giám định pháp lý tiếng nói trên thế giới [5]

Năm 1997, Hiệp hội giám định pháp lý tiếng nói của Mỹ đã công bố các tiêu chuẩn đề so sánh phổ tiếng nói phục vụ công tác giám định pháp lý người nói tiếng Anh [33] Với tiếng Trung, Viện Khoa học Hình sự Trung Quốc đã tiến hành khảo sát phạm vi thay đổi trung bình trong mỗi người nói ở trạng thái bình thường của

Trang 33

một số tham số tiếng nói [48], tiếp đến là khảo sát các tham số này trong điều kiện người nói cố tình cải trang hay giả giọng nói, kết quả nghiên cứu đã được Cuiling Zhang đề cập tới trong các báo cáo khoa học tại hội thảo khoa học hình sự tổ chức tại Hongkong năm 2005 [7], [8],[9]

Với tiếng Việt, cho đến trước năm 2004 chưa có một công trình nào liên quan tới vấn đề này được công bố

1.6.2 Nghiên cứu nhận dạng người nói bằng phương pháp tự động

Nghiên cứu tự động nhận dạng người nói đã được thực hiện trên nhiều ngôn ngữ khác nhau Từ những năm 80 của thế kỷ trước phòng nghiên cứu tiếng nói của Anh đã xây dựng hệ nhận dạng người nói không phụ thuộc từ khóa dựa trên phân tích thống kê tần số âm cơ bản và các tham số biểu diễn đường bao phổ tiếng nói liên tục trong 20 giây, khảo sát trên tập 22 người (20 nam , 2 nữ), độ chính xác đạt

từ 75% - 89% phụ thuộc từng thuật toán cài đặt [15] Năm 1986, phòng thí nghiệm tiếng nói của hãng Bell Telephone đã xây dựng một hệ nhận dạng người nói phụ thuộc từ khóa bằng phương pháp VQ, dữ liệu khảo sát là tập 100 người (50 nam, 50 nữ) phát âm rời rạc các con số tiếng Anh từ 0 đến 9, độ chính xác đạt 89% [15] Năm 1997, Đức đã xây dựng hệ nhận dạng người nói theo mô hình HMM, đặc trưng trích chọn là các hệ số ceptre, dữ liệu khảo sát là chuỗi các con số tiếng Đức được đọc qua điện thoại, sai số nhận dạng đạt được từ 0,3% đến 1,45% tùy thuộc số lượng dữ liệu huấn luyện [3],[4] Nghiên cứu nhận dạng người nói còn được thực hiện trên rất nhiều ngôn ngữ châu Âu khác nữa như tiếng Pháp, tiếng Tây Ban Nha, tiếng Italy…[10] Một số ngôn ngữ bản địa Ấn Độ đã được Rajeswara Rao và các cộng sự thực hiện nghiên cứu nhận dạng người nói, kết quả khảo sát độ chính xác nhận dạng đạt từ 90% đến 100% tùy từng ngôn ngữ [38] Nhận dạng người nói cũng đã được nghiên cứu thử nghiệm trên các ngôn ngữ đơn âm tiết như tiếng Trung, tiếng Thái [23], [34] Với tiếng Trung, sử dụng mô hình HMM và các thuật toán nhận dạng người nói DTW, NN (mạng nơron), khảo sát trên tập dữ liệu 10 người đều là nam giới, phát âm rời rạc 10 âm tiết số tiếng Trung từ số 0 đến số 9, trong các lần thử, độ chính xác nhận dạng trung bình đạt cao nhất với mô hình HMM là 95,4% , trong khi đó với DTW con số đó là 87,1% và NN là 87,7%.[23]

Trang 34

Hiện tại, các vấn đề về nhận dạng người nói chủ yếu tập trung vào việc nghiên cứu nâng cao khả năng nhận dạng của các hệ nhận dạng người nói Khai thác các thông tin mức cao của tiếng nói cũng là một hướng nghiên cứu nhằm nâng cao khả năng phân biệt người nói như sử dụng mô hình thông tin ngôn điệu [1] hay đề xuất một mô hình nhân dạng người nói sử dụng các thông tin ngữ âm có sự kết hợp với các thông tin mức thấp của tiếng nói [30] Một hướng nghiên cứu khác là áp dụng cải tiến các kỹ thuật sẵn có như sử dụng kỹ thuật phân tích phân biệt tuyến tính (LDA) [31], hay đề xuất phương pháp xác định ngưỡng nhận dạng phụ thuộc người nói [18]… Nghiên cứu các kỹ thuật nâng cao khả năng phân biệt người nói trong điều kiện tiếng nói bị suy giảm (méo) do các tác nhân kỹ thuật gây ra cũng là một hướng nghiên cứu của nhận dạng người nói Ngoài các kỹ thuật thông dụng như lọc nhiễu tín hiệu tiếng nói trước khi đưa vào trích chọn đặc trưng, nhiều kỹ thuật đã được nghiên cứu áp dụng riêng cho nhận dạng người nói để khắc phục vấn đề này

như kỹ thuật gói tần số (Frequency Warping) hay kỹ thuật chia nhỏ dải tần

(Subband) [17] Do tín hiệu tiếng nói khi huấn luyện và khi nhận dạng có thể được

ghi trong những điều kiện khác nhau nên điểm số đối sánh thường được chuẩn hoá trước khi đem so sánh Phương pháp chuẩn hóa điểm số đối sánh phổ biến nhất là biến đổi phân bố xác suất các điểm số đối sánh trên từng kênh thông tin về dạng chuẩn hóa [37] Các phương pháp tác động lên không gian vector đặc trưng như trừ trung bình phổ (CMS) [12] hay lọc RASTA [16] có thể được coi là các phương pháp điển hình hoạt động theo nguyên tắc bộ lọc trong không gian vector đặc trưng Ngoài ra còn nhiều các phương pháp khác như gói các đặc trưng [19], phân bố

Gauss hóa thời gian ngắn (Short-time Gaussianization) [2] hay chuẩn hóa trung bình phổ được biến đổi (Modified-Mean Cepstralmean Normalization) [13], … tất

cả đều nhằm làm giảm ảnh hưởng của kênh truyền lên tín hiệu tiếng nói, từ đó nâng cao được khả năng phân biệt người nói

Cho đến trước năm 2004, các công trình nghiên cứu nhận dạng người nói tiếng Việt mới chỉ dừng ở mức đánh giá thử nghiệm trong phòng thí nghiệm

1.7 Giám định pháp lý nhận dạng người nói và vấn đề tiếng Việt

Trang 35

Giám định pháp lý nhận dạng người nói là một ứng dụng quan trọng các phương pháp nhận dạng người nói trong điều tra và xét xử tội phạm Với sự bùng

nổ của các thiết bị ghi âm trong thông tin viễn thông, tín hiệu tiếng nói ghi âm ngày nay được nhiều nước coi là một dấu vết quan trọng để điều tra và xét xử các vụ án bên cạnh các dấu vết truyền thống khác như vân tay, chữ ký, chữ viết Hiện trên thế giới tồn tại hai phương pháp giám định nhận dạng người nói: Phương pháp nghe

– phân tích phổ âm thanh (Auditory – Acoustic Method) còn gọi là kinh điển (Classic Method) và phương pháp tự động (Automatic Method) [6]

1.7.1 Phương pháp nghe - phân tích phổ âm thanh giám định nhận dạng người nói

Đây là một phương pháp giám định nhận dạng người nói tổng hợp, kết hợp phương pháp nhận dạng người nói bằng cảm thụ của cơ quan thính giác con người với phương pháp nhận dạng người nói thủ công và đo lường tự động một số các tham số tiếng nói để đối sánh Là phương pháp tổng hợp nên nó có thể phát huy được ưu điểm của từng phương pháp nhận dạng người nói Điểm mạnh của phương

pháp “nghe” là cảm nhận và phân biệt được các thông tin mức cao của tiếng nói

Phương pháp thủ công có ưu điểm là mọi thông tin chi tiết về người nói ở mức thấp hơn như âm tiết, âm vị hay thậm chí ở mức nhỏ hơn đều có thể được xem xét, do vậy có thể thu được những thông tin rất đặc trưng về người nói Việc đo lường một

số các tham số tiếng nói là một bổ sung định lượng cho hai phương pháp còn nặng

về định tính trên Do vậy phương pháp giám định nhận dạng người nói nghe - phân tích phổ thường cho kết luận giám định với độ chính xác và độ tin cậy cao Một ưu điểm khác của phương pháp nhận dạng người nói này là có thể giải thích một cách

rõ ràng phương pháp và kết quả nhận dạng cho người khác (những người có trách nhiệm xét xử ở tòa án chẳng hạn), đây là điều rất cần thiết trong hoạt động của công tác giám định pháp lý

Nhược điểm của phương pháp giám định nhận dạng người nói nghe - phân tích phổ âm thanh là người tiến hành giám định cần có sự hiểu biết nhất định về ngữ âm của các mẫu tiếng nói giám định, do vậy họ thường là những chuyên gia ngữ âm của ngôn ngữ được sử dụng trong các mẫu tiếng nói này Một nhược điểm nữa của phương pháp giám định nhận dạng người nói nghe - phân tích phổ là chậm và tốn

Trang 36

nhiều công sức của giám định viên Hạn chế này đã làm cho việc thực hiện giám định pháp lý nhận dạng người nói bằng phương pháp nghe - phân tích phổ trên tập

dữ liệu nhiều người nói nghi vấn gặp rất nhiều khó khăn, vì vậy phương pháp này chủ yếu được áp dụng khi cần giám định hai mẫu tiếng nói có phải do cùng một người nói ra hay không

1.7.2 Phương pháp tự động giám định pháp lý nhận dạng người nói

Đây là phương pháp giám định nhận dạng người nói hoàn toàn dựa vào sự

phân tích và so sánh các mẫu tiếng nói bằng máy tính Hoạt động tự động giám định nhận dạng người nói trên máy tính dựa trên nguyên tắc làm việc của các phương pháp nhận dạng người nói tự động Ưu điểm của phương pháp giám định tự động là thời gian thực hiện nhanh, ít tốn sức người và do vậy có thể thực hiện giám định đồng thời giữa một mẫu tiếng nói với những mẫu tiếng nói của nhiều người nghi vấn Chính ưu điểm này đã làm cho việc giám định nhận dạng người nói trên các tập dữ liệu nhiều người nói chủ yếu thực hiện bằng phương pháp tự động

Nhược điểm của phương pháp giám định nhận dạng người nói tự động bằng các thuật toán máy tính là, do chính cách biểu diễn trong không gian các mô hình người nói mà các thuật toán sử dụng để phân lớp nhận dạng luôn tồn tại vùng chồng

lên nhau (overlay) nên sai số nhận dạng là điều không thể tránh khỏi Một nhược

điểm nữa của phương pháp này là rất nhạy cảm với các loại nhiễu do các mô hình người nói hiện nay được xây dựng chủ yếu dựa trên các thông tin mức thấp của tiếng nói, những thông tin rất nhảy cảm với nhiễu Cuối cùng, rất khó giải thích phương pháp và kết quả giám định nhận dạng người nói của phương pháp này cho những người không có chuyên môn sâu về các thuật toán máy tính biết

Do vậy, trong hoạt động giám định pháp lý nhận dạng người nói hiện nay, thường có sự kết hợp cả hai phương pháp: phương pháp tự động để lọc nhanh từ tập

dữ liệu nhiều người nói nghi vấn ra một số ít người và phương pháp nghe - phân tích phổ sẽ quyết định nhận dạng người nói cuối cùng trong số ít người đã được lọc

ra

1.7.3 Các vấn đề tồn tại của giám định nhận dạng người nói tiếng Việt

Trang 37

Giám định nhận dạng người nói là một lĩnh vực giám định pháp lý mới tại Việt Nam Thực hiện giám định nhận dạng người nói tiếng Việt không đơn giản chỉ là áp dụng máy móc các phương pháp giám định nhận dạng người nói sẵn có mà cần có

sự nghiên cứu các đặc trưng ngữ âm tiếng Việt để có thể áp dụng có hiệu quả trong nhận dạng người nói

Do phương pháp nghe - phân tích phổ âm thanh giám định nhận dạng người nói chủ yếu áp dụng khi cần giám định so sánh hai mẫu tiếng nói với nhau, nên về hoạt động nhận dạng người nói phương pháp này giống một hệ xác thực người nói (đối sánh 1:1) Vì vậy để áp dụng phương pháp giám định nghe - phân tích phổ âm thanh cho người nói tiếng Việt, cần xác định các ngưỡng nhận dạng cho các tham số tiếng nói tiếng Việt mang thông tin về người nói được sử dụng trong giám định nhận dạng người nói theo phương pháp này

Ngược lại, phương pháp tự động giám định nhận dạng người nói được áp dụng chủ yếu khi giám định nhận dạng người nói trên tập dữ liệu nhiều người nói Về bản chất đây chính là hoạt động nhận dạng người nói của một hệ định danh người nói (đối sánh 1:N) được áp dụng trong giám định pháp lý Như đã trình bày ở các phần trước, việc áp dụng các hệ tự động nhận dạng người nói trong thực tế còn gặp nhiều trở ngại, đặc biệt là do các tác nhân kỹ thuật như nhiễu hay điều kiện đối sánh khác nhau gây ra Dễ hình dung ra hoạt động thực tế của giám định pháp lý, trong khi mẫu tiếng nói cần xác định người nói thường được ghi bí mật trong bất cứ môi trường nhiễu nào (như quán bar, ngoài đường phố hay trong ôtô …) thì tiếng nói mẫu của đối tượng bị tình nghi thường được ghi âm một cách công khai trong môi trường văn phòng với nhiễu nền thấp

Ngoài ra, với nhận dạng người nói phụ thuộc từ khóa tiếng Việt, các vấn đề đặt

ra như nên chọn những câu, từ tiếng Việt một cách ngẫu nhiên hay có chủ định từ trước, hay chọn đơn vị ngữ âm như thế nào để xây dựng tập từ điển từ khóa tiếng Việt … cũng là những vấn đề cần giải quyết khi muốn áp dụng phương pháp tự động cho giám định nhận dạng người nói tiếng Việt

Trang 38

Mục tiêu của luận án, như đã nói, là nghiên cứu các kỹ thuật nhận dạng người nói nhằm giải quyết các vấn đề liên quan tới giám định nhận dạng người nói tiếng Việt Các chương tiếp theo sẽ lần lượt trình bày các vấn đề đã được đặt ra ở trên

Trang 39

Chương 2 Giám định nhận dạng người nói tiếng Việt bằng phương

pháp nghe - phân tích phổ âm thanh

2.1 Ngữ âm tiếng Việt với nhận dạng người nói

2.1.1 Một số đặc trưng ngữ âm tiếng Việt

Ngữ âm học là lĩnh vực nghiên cứu các đặc trưng âm thanh và những nguyên

lý cấu âm của tiếng nói Trong hoạt động của cơ quan cấu âm của con người, ngoài những cách thức chung để tạo ra âm thanh tiếng nói luôn kèm theo đó là các cách thức đặc thù riêng của mỗi người, mỗi vùng miền hay mỗi ngôn ngữ… Do vậy khi nghiên cứu giám định nhận dạng người nói bằng phương pháp nghe - phân tích phổ không thể không tìm hiểu về ngữ âm của ngôn ngữ được các mẫu tiếng nói sử dụng

Trong ngữ âm học, đơn vị ngữ âm nhỏ nhất của một ngôn ngữ là Âm vị (Phoneme) Căn cứ trên nguyên tắc cấu âm, âm vị được chia thành hai loại nguyên

âm và phụ âm Theo tác giả Đoàn Thiện Thuật [49], tiếng Việt có 9 nguyên âm đơn

(a/ă, y/i, e ,ê, o/oo, ơ/â, ô, u, ư) và 3 nguyên âm đôi (ie , uô, ươ) Tuỳ thuộc vị trí

lưỡi mà chia ra các loại nguyên âm dòng trước, dòng giữa hay dòng sau Tiếng Việt

có tất cả 22 phụ âm và thường được phân loại và miêu tả căn cứ vào hai tiêu chuẩn chính là phương thức cấu âm ( như tắc, xát, bật hơi…), và vị trí cấu âm (như đầu lưỡi, mặt lưỡi hay gốc lưỡi …)

Đơn vị phát âm nhỏ nhất là Âm tiết (Syllable), được cấu tạo từ các âm vị Đặc

điểm của ngữ âm tiếng Việt là tính cố định về vị trí của âm vị trong âm tiết tạo nên tính thống nhất trong cấu trúc âm tiết Mỗi âm tiết có 3 thành phần luôn có mặt và

có thể dễ dàng bị phân tách là âm đầu, vần, và thanh điệu Phần vần gồm có: âm đệm, âm chính và âm cuối, trong đó âm chính luôn phải có mặt, âm đệm và âm cuối

có thể vắng mặt Theo định nghĩa của ngữ âm học thì các thành tố này chính là sự thể hiện của các âm vị Căn cứ vào âm cuối, âm tiết được chia thành 4 loại mở, khép, nửa mở và nửa khép [49]

Tiếng Việt thuộc loại ngôn ngữ có thanh điệu (Tone) Thanh điệu là yếu tố ngữ

điệu siêu đoạn tính nằm trong phạm vi âm tiết và được các nhà ngôn ngữ học coi

Trang 40

như các âm vị, có chức năng khu biệt âm tiết [39] Đó là sự thay đổi tần số cơ bản theo những quy luật nhất định khi phát âm từng âm tiết Trong tiếng Việt có 6 thanh điệu, đó là các thanh: không, huyền, ngã, sắc, hỏi, nặng Có một nhận xét là không phải ai cũng có thể phát âm đủ cả 6 thanh điệu tiếng Việt Các nghiên cứu trong [26],[40], [47] đều chỉ ra rằng, chỉ có phương ngữ Bắc bộ mới phát âm đủ 6 thanh điệu, các phương ngữ khác chỉ phát âm được 5 thanh

Đơn vị ngôn ngữ có ý nghĩa nhỏ nhất là Hình vị (Morpheme) Một đặc trưng ngữ âm quan trọng của tiếng Việt là ngôn ngữ đơn âm tiết (mono syllable), ranh

giới âm tiết trùng với ranh giới hình vị Mỗi âm tiết là hình thức biểu đạt của một hình vị, điều đó có nghĩa là trong tiếng Việt đơn vị phát âm nhỏ nhất đồng thời cũng

là đơn vị ngôn ngữ có ý nghĩa nhỏ nhất Do vậy âm tiết tiếng Việt có vị trí đặc biệt quan trọng khác hẳn âm tiết trong các ngôn ngữ đa âm tiết như tiếng Anh Khi nghiên cứu về cấu âm, trong tiếng Anh vai trò âm tiết khá mờ nhạt so với âm vị, còn trong tiếng Việt âm tiết đóng vai trò quan trọng không kém so với âm vị

2.1.2 Đặc trưng ngữ âm tiếng Việt với nhận dạng người nói

* Đơn vị ngôn ngữ trong nhận dạng người nói:

Đơn vị ngôn ngữ có ý nghĩa nhỏ nhất (hình vị) có vai trò như những viên gạch

để xây nên các từ, các câu trong ngôn ngữ nói Do vậy, trong nhận dạng người nói phụ thuộc từ khóa, nghiên cứu khả năng phân biệt người nói của hình vị đóng một vai trò quan trong trong việc chọn lựa từ khóa Việc nghiên cứu này cũng có ý nghĩa quan trọng tương tự như trong việc lựa chọn từ để so sánh trong giám định pháp lý nhận dạng người nói bằng phương pháp nghe - phân tích phổ âm thanh Trong trường hợp này, từ để so sánh cũng có thể được gọi là từ khóa

Đối với các ngôn ngữ đa âm tiết như tiếng Anh, âm vị là đơn vị ngữ âm có thể đóng vai trò hình vị [49] Do vậy nghiên cứu khả năng phân biệt người nói của các hình vị chính là nghiên cứu khả năng phân biệt người nói của các âm vị Một số nghiên cứu trên tiếng Anh đã chỉ ra các nguyên âm, âm mũi có khả năng phân biệt người nói tốt, còn âm xát, âm tắc thì ít thay đổi từ người này sang người khác [36] Trong tiếng Việt, đơn vị ngữ âm đóng vai trò hình vị không phải là âm vị mà là

âm tiết [49], nên bên cạnh việc nghiên cứu khả năng phân biệt người nói của các âm

vị với tư cách là đơn vị ngữ âm nhỏ nhất, cần tập trung nghiên cứu khả năng phân

Ngày đăng: 30/04/2021, 11:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w