1. Trang chủ
  2. » Luận Văn - Báo Cáo

DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT

107 655 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 107
Dung lượng 2,14 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đề tài tìm hiểu và xây dựng một dịch vụ trên hệ thống tổng đài điện thoại với cách tiếp cận mới. Sử dụng giọng nói để điều khiển, lựa chọn các chức năng, dịch vụ của tổng đài điện thoại bằng giọng nói

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA MẠNG MÁY TÍNH VÀ TRUYỀN THÔNG

KHÓA LUẬN TỐT NGHIỆP

DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN

DẠNG GIỌNG NÓI TIẾNG VIỆT

Giảng viên hướng dẫn:

TS ĐÀM QUANG HỒNG HẢI

Sinh viên thực hiện:

Lớp: MMT03

Thành phố Hồ Chí Minh, tháng 3 năm 2013

Trang 2

Có thể nói công nghệ VoIP ngày càng phát triển về số lượng người dùng cũng nhưtính năng ngày càng được cải tiến Do đó, đối tượng người dùng cũng ngày càng phong phú và kéo theo những nhu cầu ngày càng cao Nắm bắt được nhu cầu đó, chúng em đã mạnh dạn tìm hiểu và triển khai hệ thống VoIP sử dụng một cách tiếp cận mới: điều khiển, lựa chọn các tính năng, dịch vụ của tổng đài bằng “giọng nói” trong khóa luận tốt nghiệp này.

Mục tiêu của khóa luận:

Tìm hiểu kiến thức về nhận dạng giọng nói, vận dụng kiến thức tìm hiểu được xây dựng hệ thống tổng đài tra điểm tự động điều khiển bằng giọng nói

- Tìm hiểu các khái niệm có liên quan đến hệ nhận dạng tiếng nói để làm rõ hơnmột số yếu tố quan trọng trong việc sử dụng công cụ hỗ trợ

- Tìm hiểu phương pháp cài đặt công cụ hỗ trợ xây dựng hệ nhận dạng tiếng nói

- Tìm hiểu xây dựng mô hình âm học, mô hình ngôn ngữ thích hợp cho tiếng Việt

- Xây dựng chương trình mô phỏng, thực nghiệm, thử nghiệm giữa các mô hình vớinhau từ đó đưa ra kết luận và nhận xét

Ý nghĩa của khóa luận:

Đề tài tìm hiểu và xây dựng một dịch vụ trên hệ thống tổng đài điện thoại với cáchtiếp cận mới Sử dụng giọng nói để điều khiển, lựa chọn các chức năng, dịch vụ của tổng đài điện thoại bằng giọng nói Đây là một cách tiếp cận mới đầy thú vị, đặc biệt là hỗ trợ rất đắc lực cho những người khiếm thị Người dùng khiếm thị có thể gặp khó khăn trong

Trang 3

việc thao tác trên bàn phím điện thoại Chính vì thế ứng dụng này có tính áp dụng vào thực tế cao Mở ra một xu hướng dịch vụ gia tăng mới cho người dùng.

Trang 4

LỜI CẢM ƠN

Lời đầu tiên chúng em xin gửi lời cảm ơn chân thành và biết ơn đến Ban lãnh đạo trường Đại Học Công Nghệ Thông Tin nói chung và các thầy cô trong khoa Mạng Máy Tính và Truyền Thông nói riêng đã tạo điều kiện, môi trường học tập và thực hành

chuyên nghiệp cũng như tận tình dìu dắt chúng em suốt những năm tháng học tập tại trường

Chúng em cũng xin gởi lời biết ơn sâu sắc đến Tiến sĩ Đàm Quang Hồng Hải, người Thầy đã tận tình hướng dẫn, chia sẻ kiến thức, tài liệu và giúp đỡ chúng em hướng giải quyết đúng đắn khi chúng em gặp phải những khó khăn, vướng mắc trong quá trình thực hiện khóa luận tốt nghiệp

Chúng tôi cũng xin gửi lời cảm ơn chân thành tới các ba mẹ, anh chị, các bạn đã nhiệt tình giúp đỡ chúng tôi trong quá trình thu thập dữ liệu phục vụ khóa luận tốt nghiệp này

Với sự đam mê và nhiệt huyết tìm hiểu những cái mới, trong quá trình thực hiện khóa luận này, chúng em đã cố gắng hết khả năng của mình, tuy nhiên cũng không thể tránh khỏi những thiếu sót Chúng em rất mong nhận được sự góp ý quý báu của quý thầy

cô để chúng em phát triển đề tài này được tốt hơn

Thành phố Hồ Chí Minh, 01 tháng 03 năm 2013

Sinh viên thực hiện Nguyễn Nghĩa Tuấn & Đặng Tiểu Bình

Trang 5

NHẬN XÉT (Của giảng viên hướng dẫn)

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

Trang 6

NHẬN XÉT (Của giảng viên phản biện)

………

………

………

………

………

………

………

………

………

………

………

………

………

………

………

Trang 7

M c L c ục Lục ục Lục

Trang

MỞ ĐẦU 2

LỜI CẢM ƠN 4

DANH MỤC CÁC TỪ VIẾT TẮT 11

DANH MỤC BẢNG 12

DANH MỤC HÌNH 13

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI 15

1.1 ĐỊNH NGHĨA ĐỀ TÀI 15 1.2 HƯỚNG TIẾP CẬN ĐỀ TÀI 16 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 17

2.1 CÔNG NGHỆ VoIP17 2.1.1 Cấu hình mạng điện thoại IP 19

2.1.2 Các thiết bị đầu cuối 20

2.1.3 Các khái niệm trong VOIP 21

2.1.4 Báo hiệu trên mạng điện thoại VOIP 22

2.1.5 Cấu trúc kết nối 24

2.1.6 Các ứng dụng của VOIP 24

2.2 HỆ THỐNG TỔNG ĐÀI ASTERISK 25 2.2.1 Giới thiệu tổng đài Asterisk 25

2.2.2 Kiến trúc tổ chức Asterisk 27

2.2.3 Tìm hiểu dialplan của tổng đài Asterisk 28

2.3 CƠ SỞ LÝ THUYẾT VỀ NHẬN DẠNG GIỌNG NÓI37 2.3.1 Phân loại các hệ nhận dạng giọng nói 38

2.3.2 Một số phương pháp nhận dạng giọng nói 38

Trang 8

2.3.1.1 Giới thiệu 40

2.3.1.2 Rút trích đặc trưng 45

2.3.1.2.1 Phương pháp rút trích đặc trưng MFCC 45

2.3.3.2.1 Tìm hiểu về Formant 51

2.3.4 Mô hình hợp GAUSS 53

2.3.5 Mô hình MARKOV ẩn 56

2.3.5.1 Giới thiệu chuỗi Makov 56

2.3.5.2 Mô hình Markov ẩn 57

2.3.5.3 Ba bài toán cơ bản của HMM 59

2.3.6 Mô hình MARKOV ẩn đơn 65

2.3.6.1 Đặc tả mô hình 65

2.3.6.2 Huấn luyện tham số 67

CHƯƠNG 3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG TỔNG ĐÀI 70

3.1 HUẤN LUYỆN NHẬN DẠNG GIỌNG NÓI HMM 70 3.1.1 Bước Chuẩn Bị : 70

3.1.1.1 Cài đặt HTK 70

3.1.1.2 Chuẩn bị các thư mục và các tập tin cho quá trình huấn luyện 71

3.1.1.3 Các bước chuẩn bị cho quá trình huấn luyện 76

3.1.2 Giai Đoạn Huấn Luyện 81

3.1.2 Kết Quả Huấn Luyện 86

3.1.3 Module Nhận Dạng Giọng Nói Trong Tổng Đài Asterisk 87

3.1.4 Kết Quả Thử Nghiệm Nhận Dạng Trên Tổng Đài Asterisk 88

3.2 THIẾT KẾ CƠ SỞ DỮ LIỆU 89 3.2.1 Mô tả sơ lược hệ thống : 89

Trang 9

3.2.2 Yêu cầu hệ thống: 90

3.2.3 Mô hình thực thể mối kết hợp 91

3.2.4 Thuyết minh mô hình 91

3.2.5 Dữ liệu quan hệ 92

3.3 THIẾT KẾ XỬ LÝ 94 3.3.1 Cây chức năng ứng dụng của tổng đài 94

3.3.2 Sơ đồ xử lý chức năng 94

3.3.3 Quy trình xử lý thông tin tổng quá của hệ thống 95

3.4 LẬP TRÌNH AGI SCRIPT 96 3.4.1 Giới thiệu AGI script 96

3.4.2 Giới thiệu ngôn ngữ PHP 97

3.4.3 Giới thiệu thư viên lập trình phpAGI 97

3.4.4 Nguyên tắc hoạt động của AGI script 98

3.4.5 Xây dựng Dialplan 98

CHƯƠNG 4 TỔNG ĐÀI TRA ĐIỂM BẰNG GIỌNG NÓI 101

4.1 GIỚI THIỆU 101 4.2 CHỨC NĂNG CHÍNH CỦA DỊCH VỤ 102 4.3 QUY TRÌNH XỬ LÝ CHỨC NĂNG CỦA TỔNG ĐÀI 103 4.4 CÔNG NGHỆ ĐƯỢC SỬ DỤNG 103 4.5 VẬN HÀNH TỔNG ĐÀI 104 4.5.1 Quản lý tổng đài: 104

4.5.2 Quản lý dữ liệu 104

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 105 5.1 KẾT LUẬN 105

Trang 10

5.1.1 Kết quả đạt được 1055.1.2 Những hạn chế còn tồn tại 106

TÀI LIỆU THAM KHẢO 107PHỤ LỤC A CÀI ĐẶT VÀ VẬN HÀNH SOFTPHONE 109

Trang 11

CHƯƠNG 1 DANH MỤC CÁC TỪ VIẾT TẮT

PSTN Public switched telephone

network

Mạng chuyển mạch công cộng

VoIP Voice over Internet Protocol Thoại trên giao thức

InternetASR Automatic Speaker Recognition Nhận dạng người nói

tự động

bản

mền

IAX Inter-Asterisk eXchange Giao thức thoại của

AsteriskTDM Time-division multiplexing Ghép kênh phân chia

thời gianISDN Integrated Services Digital

Network

Mạng đa dịch vụ

IVR Interactive Voice Response Tương tác thoại

SIP Session Initiation Protocol Giao thức VoIP

HTK Hidden Markov Model Toolkit Công cụ nhận dạng

tiếng nói

DANH MỤC BẢNG

Trang 13

DANH MỤC HÌNH

Hình 1.1 Tổng quan mô hình nhận dạng tiếng nói

Hình 1.2 Sơ đồ khối các chức năng trong hệ thống

Hình 1.3 Các lĩnh vực về nhận dạng giọng nói

Hình 2.1 Kiến trúc tổ chức của Asterisk

Hình 2.2 IP PBX

Hình 2.3 Công đoạn rút trích đặc trưng

Hình 2.4 Ví dụ phân khung đoạn tín hiệu

Hình 2.5 Cửa sổ Hamming và tín hiệu sau khi nhân với hàm cửa sổ HammingHình 2.6 Tổng quát phương pháp rút trích đặc trưng MFCC

Hình 2.7 Biểu đồ thang tần số Mel theo tần số thực

Hình 2.8 Băng lọc tần số Mel

Hình 2.9 Đưa tín hiệu vào băng lọc tần số Mel

Hình 2.10 Minh họa hiện tượng cộng hưởng

Hình 2.11 Minh họa Formant

Hình 2.12 Hàm mật độ Gausss

Hình 2.13: Mô hình GMM

Hình 2.14:Hàm mật độ của GMM có 3 phân phối Gauss

Hình 2.15 Mô hình Markov chain thời tiết

Hình 2.16 Mô hình Markov ẩn 3 trạng thái

Hình 2.17 Ví dụ HMM đơn giản

Hình 2.18 Cách tính p(q tS i,q t1 S j,O|  )

Hình 2.20: Mô hình MGHMM 3 trạng thái

Hình 3.1 Các chức năng của tổng đài

Hình 3.2 Sơ đồ xử lý chức năng đối với đối tượng quản lý

Hình 3.3 Sơ đồ xử lý chức năng đối với đối tượng người dùng

Trang 14

Hình 4.2 Quy trình xử lý chức năng của tổng đài

CHƯƠNG 2 GIỚI THIỆU ĐỀ TÀI 2.1 ĐỊNH NGHĨA ĐỀ TÀI

Trang 15

- Đề tài nghiên cứu của luận văn là xây dựng tổng đài dịch vụ tra tra điểm bằng giọng nói tiếng Việt Trong đó là bài toán giải quyết nhận dạng tiếng nói tiếng Việt trên môi trường mạng viễn thông.

- Tiếng nói từ đầu cuối điện thoại truyền đi trên mạng viễn thông đến tổng đài nhận dạng tiếng nói Voice Server, tại đây tiếng nói sẽ được nhận dạng và chuyển thành văn bản (Speech-To-Text)

Hình 1.1 Tổng quan mô hình nhận dạng tiếng nói

- Quá trình chuyển đổi tiếng nói thành văn bản được thực hiện bởi bộ phận nhận dạng tiếng nói tự động ASR (Automatic Speech Recognition) Hệ thống nhận dạngtiếng nói tự động tổng quát như hình vẽ dưới đây:

Speech-to-text

Tổng đài voice server

T

Speech Recognition

words

“Một hai ba”

Tiếng nói

Trang 16

2.2 HƯỚNG TIẾP CẬN ĐỀ TÀI

- Bài toán nhận dạng tiếng nói bao gồm: nhận dạng lời nói, nhận dạng người nói, nhận dạng ngôn ngữ, nhận dạng giới tính… Trong nhận dạng lời nói lại bao gồm 2loại là nhận dạng độc lập người nói và nhận dạng phụ thuộc người nói Trong luậnvăn này sẽ thực hiện nhận dạng độc lập người nói

Hình 1.3 Các lĩnh vực về nhận dạng giọng nói

- Hệ thống nhận dạng độc lập người nói là hệ thống cho phép nhận dạng được nhiềugiọng nói khác nhau, nhiều cách phát âm khác nhau trên cùng một ngôn ngữ, do vậy hệ thống nhận dạng độc lập người nói cần một lượng lớn dữ liệu huấn luyện

để có thể nhận dạng được tiếng nói của nhiều người khác nhau

- Dựa lý thuyết nên tảng mô hình Markov ẩn hợp Gauss, thích ứng tiếng nói mã hóatrên kênh truyền, áp dụng vào bài toán nhận dạng tiếng Việt trên môi trường mạngđiện thoại IP, từ đó xây dựng hệ thống tổng đài tra điểm sinh viên bằng giọng nói với tập từ vựng 10 con số từ 0 đến 9

Trang 17

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT 3.1 CÔNG NGHỆ VoIP

Dịch vụ điện thoại IP là dịch vụ ứng dụng cao cấp cho phép truyền tải các cuộc đàm thoại sử dụng hạ tầng mạng IP Nguyên tắc VoIP gồm việc số hoá tín hiệu giọng nói,nén tín hiệu đã số hoá, chia tín hiệu thành các gói và truyền những gói số liệu này trên nền IP Đến nơi nhận, các gói số liệu đựợc ghép lại, giải mã ra tín hiệu analog để phục hồi âm thanh

Trong dịch vụ điện thoại IP có thể có sự tham gia của 3 loại đối tượng cung cấp dịch vụ như sau:

Để có thể sử dụng được dịch vụ điện thoại IP, người sử dụng cần thông qua mạng Internet và các chương trình ứng dụng cho điện thoại IP Trong khi các nhà cung cấp dịch vụ Internet cung cấp sự truy cập Internet cho khách hàng của họ thì các nhà cung cấp dịch vụ điện thoại ITSP cung cấp dịch vụ điện thoại IP cho khách hàng bằng cách sử dụng các chương trình ứng dụng dùng cho điện thoại IP Có thể nói rằng dịch

vụ truy cập Internet cung cấp bởi các ISP chưa đủ để cung cấp dịch vụ điện thoại IP Người sử dụng cần phải truy nhập vào nhà cung cấp dịch vụ điện thoại IP khi sử dụng điện thoại IP Họ không thể gọi hoặc nhận các cuộc đàm thoại thông qua dịch vụ điện thoại IP nếu chỉ có truy nhập vào mạng Internet Để phục vụ cho việc truyền thông giữanhững người sử dụng trên các máy tính đầu cuối của mạng Internet, các công ty phần mềm đã cung cấp các trương trình ứng dụng dùng cho điện thoại IP thực hiện vai trò của ITSP Đối với người sử dụng trên mạng chuyển mạch kênh, họ sẽ truy nhập vào ISP hoặc ITSP thông qua các điểm truy nhập trong mạng chuyển mạch kênh

Trang 18

VoIP dựa trên sự kết hợp của mạng chuyển mạch kênh và chuyển mạch gói là mạng IP Mỗi loại mạng có những đặc điểm khác biệt nhau Trong mạng chuyển mạch kênh một kênh truyền dẫn dành riêng được thiết lập giữa hai thiết bị đầu cuối thông qua một hay nhiều nút chuyển mạch trung gian Dòng thông tin truyền trên kênh này là dòng bit truyền liên tục theo thời gian Băng thông của kênh dành riêng được đảm bảo và cố định trong quá trình liên lạc (64Kbps đối với mạng điện thoại PSTN), vỡ độ trễ thông tin

là rất nhỏ chỉ cỡ thời gian truyền thông tin trên kênh

Khác với mạng chuyển mạch kênh, mạng chuyển mạch gói (Packet Switching Network) sử dụng hệ thống lưu trữ rồi truyền tại các nút mạng Thông tin được chia thành các gói, mỗi gói được thêm các thông tin điều khiển cần thiết cho quá trình truyền như là địa chỉ nơi gửi, địa chỉ nơi nhận Các gói thông tin đến nút mạng được xử lý và lưu trữ trong một thời gian nhất định rồi mới được truyền đến nút tiếp theo sao cho việc

sử dụng kênh có hiệu quả cao nhất Trong mạng chuyển mạch gói không có kênh dành riêng nào được thiết lập, băng thông của kênh logic giữa hai thiết bịđầu cuối thường không cố định, và độ trễ thông tin lớn hơn mạng chuyển mạch kênh rất nhiều

3.1.1 C u hình m ng đi n tho i IP ấu hình mạng điện thoại IP ạng điện thoại IP ện thoại IP ạng điện thoại IP

Theo các nghiên cứu của ETSI, cấu hình chuẩn của mạng điện thoại IP có thể bao gồm các phần tử sau:

Trang 19

Trong các kết nối khác nhau cấu hình mạng có thể thêm hoặc bớt một số phần tử trên

Cấu hình chung của mạng điện thoại IP gồm các phần tử Gatekeeper, Gateway, các thiết

bị đầu cuối thoại và máy tính Mỗi thiết bị đầu cuối giao tiếp với một gatekeeper và giaotiếp này giống với giao tiếp giữa thiết bị đầu cuối và gateway

Mỗi gatekeeper sẽ chịu trách nhiệm quản lý một vùng, nhưng cũng có thể nhiều gatekeeper chia nhau quản lý một vùng trong trường hợp một vùng có nhiều gatekeeper

Trong vùng quản lý của các gatekeeper, các tín hiệu báo hiệu có thể được chuyển tiếp qua một hoặc nhiều gatekeeper Do đó các gatekeeper phải có khả năng trao đổi cácthông tin với nhau khi cuộc gọi liên quan đến nhiều gatekeeper

3.1.2 Các thi t b đ u cu i ết bị đầu cuối ị đầu cuối ầu cuối ối

Thiết bị đầu cuối là một nút cuối trong cấu hình của mạng điện thoại IP Nó có thểđược kết nối với mạng IP sử dụng một trong các giao diện truy nhập Một thiết bịđầu cuối

có thể cho phép một thuê bao trong mạng IP thực hiện cuộc gọi tới một thuê bao khác trong mạng chuyển mạch kênh Các cuộc gọi đó sẽ được Gatekeeper mà thiết bị đầu cuốihoặc thuê bao đã đăng ký giám sát

Một thiết bị đầu cuối có thể gồm các khối chức năng sau:

tải thông tin kết nối với thiết bị đầu cuối

kết nối với thiết bị đầu cuối

hoặc phần tử mạng, thu nhập các thông tin dùng để xác định bản tin báo

Trang 20

 Chức năng quản lý: giao tiếp với hệ thống quản lý mạng.

sự kiện (truy nhập, cảnh báo) và tài nguyên

dụng ra thiết bị ngoại vi

3.1.3 Các khái ni m trong VOIP ện thoại IP

2.1.3.1 PBX - Private Branch Exchange

PBX hay còn gọi là PABX - Private Automatic Branch Exchange là hệ thống tổng đài nội bộ được đặt tại nhà thuê bao, từ Automatic ở đây muốn nói đến là hệ thống tổng đài điện tử tự động nhưng hiện nay đa số là tổng đài PBX điện tử tự động nên từ trênthực sự không còn cần thiết nữa

PBX với mục tiêu chia sẻ nhiều thuê bao nội bộ gọi ra thế giới bên ngoài thông qua một vài đường trung kế hay nói một cách khác PBX là hệ thống trung chuyển giữa các đường dây điện thoại bên ngoài từ công ty điện thoại và máy điện thoại nội bộ trongtổng đài PBX Vì thế nên số lượng máy điện thoại nội bộ luôn nhiều hơn số đường dây nối đến PBX từ bên ngoài

PBX thực hiện chuyển mạch cuộc gọi các máy điện thoại nội bộ với nhau và với các máy điện thoại bên ngoài thông qua đường trung kế Đồng thời thực hiện chuyển mạch các cuộc gọi điện thoại từ bên ngoài vào các máy điện thoại nội bộ

Ngoài việc chuyển mạch cuộc gọi PBX cung cấp nhiều tính năng sử dụng cho nhiều mục đích khác nhau của khách hàng mà bản thân các đường dây điện thoại từ công

ty điện thoại kết nối đến không thể thực hiện được, các tính năng như tương tác thoại (IVR), Voicemail, phân phối cuộc gọi tự động (ADC) (các khái niệm này sẽ được trìnhbày rõ hơn ở chương sau)

Hiện nay với việc phát triển mạnh mẽ của công nghệ VoIP, chúng ta còn có thêm thuật ngữ IP PBX Đây là hệ thống chuyển mạch PBX với công nghệ Voip

2.1.3.2 PSTN – Public Switched Telephone Network

PSTN là mạng chuyển mạch điện thoại công cộng hay nói cách khác là mạng kết nối tất cả các hệ thống tổng đài chuyển mạch - mạch Để hiểu rõ hơn hãy xem xét mạng PSTN với mạng Internet về khía cạnh chuyển thoại trên đó Chuyển mạch mạch muốn

Trang 21

thực hiện cuộc gọi giữa hai thuê bao thì hệ thống phải giành riêng một kênh truyền

64kbps để chuyển tải tín hiệu thoại trên đó

Còn cuộc gọi điện thoại trên mạng Internet thì tín hiệu thoại được đóng gói và chuyển đi trên cùng kênh truyền với nhiều dịch vụ khác Vì lẽ đó chất lượng cuộc gọi trênmạng PSTN bao giờ cũng tốt hơn trên mạng Internet nhưng đổi lại chi phí lại đắc hơn rất nhiều, đặc biệt là các cuộc gọi quốc tế, nên phải cần cân nhắc kỹ khi sử dụng

PSTN được phát triển trên chuẩn ITU (International Telecommunication Union) còn mạng Internet được phát triển trên chuẩn IETF (Internet Engineering Task Force) cả hai mạng trên đều sử dụng địa chỉ để định tuyến cuộc gọi, PSTN sử dụng các con số điện thoại để chuyển mạch cuộc gọi giữa các tổng đài điện thoại trong khi đó trên mạng Internet, địa chỉ IP sẽ được sử dụng để định tuyến các gói thoại

2.1.3.3 FXO và FXS

FXO (Foreign Exchange Office) là thiết bị nhận tín hiệu từ tổng đài gửi đến như dòng chuông, tín hiệu nhấc gác máy, tín hiệu mời quay số, gửi và nhận tín hiệu thoại… FXO giống như máy Fax hay modem dial-up 56k Dùng để kết nối với đường dây điện thoại

FXS (Foreign Exchange Station) là thiết bị tại nơi cung cấp đường dây điện thoại,thiết bị FXS sẽ cung cấp tín hiệu mời quay số (dialtone), dòng chuông, hồi âm chuông (ring tone) Trong đường dây Analog FXS cung cấp dòng chuông và điện áp cho điện thoại hoạt động ví dụ FXS cung cấp điện áp - 48VDC đến máy điện thoại Analog trong suốt thời gian đàm thoại và cung cấp 90VAC (20Hz) để phát điện áp rung chuông Thiết

bị FXS phát còn thiết bị FXO nhận

Card TDM sử dụng trong hệ thống Asterisk thường tích hợp vừa thiết bị FXO vừa là thiết bị FXS (Giống bộ ATA) FXO để kết nối với đường dây điện thoại còn FXS dùng để kết nối với máy điện thoại analog thông thường dùng để chuyển mạch cuộc gọi TDM qua hệ thống Asterisk

3.1.4 Báo hiệu trên mạng điện thoại VOIP

2.1.4.1 SIP ( Session Initiation Protocol)

SIP (Session Initiation Protocol) là giao thức báo hiệu điều khiển lớp ứng dụng của mô hình TCP được dùng để thiết lập, duy trì, kết thúc các phiên truyền thông đa phương tiện(multimedia) Các phiên multimedia bao gồm thoại Internet, hội nghị và các ứng dụng tương tự có liên quan đến các phương tiện truyền đạt (media) như âm thanh, hình ảnh,

Trang 22

và dữ liệu SIP sử dụng các bản tin mời (INVITE) để thiết lập các phiên và để mang các thông tin mô tả phiên truyền dẫn SIP hỗ trợ các phiên đơn bá (unicast) và quảng bá(multicast) tương ứng các cuộc gọi điểm tới điểm và cuộc gọi đa điểm

SIP được sử dụng kết hợp với các chuẩn giao thức IETF khác như là SAP, SDP và

MGCP (MEGACO) để cung cấp một lĩnh vực rộng hơn cho các dịch vụ VoIP Nó bao gồm các yêu cầu được gởi đến từ người sử dụng SIP client đến SIP server Server xử lýcác yêu cầu và đáp ứng đến client Một bản tin yêu cầu, cùng với các bản tin đáp ứng lại bản tin yêu cầu đó tạo nên sự thực thi SIP

Trong chồng giao thức TCP/IP thì SIP hoạt động ở lớp Application Trong lập trình triển khai SIP thì người ta xem SIP thuộc cả 3 lớp trên cùng của mô hình OSI

(Application, Presentation và Session)

Một mạng SIP bao gồm nhiều thành phần, các thành phần đó có thể tương tác với nhau

để thực hiện một phiên nào đó, đồng thời có thể tương tác với các thành phần của một mạng SIP khác một khi user có nhu cầu thực hiện kết nối tới một user khác không cùng mạng với nó

2.1.4.2 IAX (Inter Asterisk eXchange)

IAX là giao thức báo hiệu Voip được phát triển bởi tác giả của phần mềm

Asterisk để khắc phục những hạn chế trong giao thức SIP Không giống như giao thức SIP chuyển tải thoại và báo hiệu trên hai kênh khác nhau (out of band), IAX chuyển tải thoại và báo hiệu trên cùng một kênh(in band) IAX là giao thức tối ưu trong việc sử dụng băng thông, cho phép nhiều gói dữ liệu thoại trên cùng một IP header, cơ chế chuyển tải nhiều cuộc gọi trên cùng một gói IP được gọi là trung kế (Trunk)

IAX là một giao thức báo hiệu và truyền media theo mô hình peer-to-peer, tương

tự như SIP nhưng không sử dụng giao thức RTP để truyền media mà IAX sẽ truyền thoại trên cùng một đường với báo hiệu, thay vào đó IAX sử dụng giao thức UDP (User Datagram Protocol) trên một port duy nhất (port 4569) để truyền và nhận cả tín hiệu báohiệu và media nên dùng ít overhead hơn RTP Được sử dụng nhằm mục đích tiết kiệm băng thông cho báo hiệu và media, bên cạnh đó là tính năng trong suốt với NAT

IAX có thể truyền cùng lúc nhiều cuộc gọi trên một đường duy nhất Chẳng hạn như khi kết hợp với chuẩn nén G.729 thì IAX có thể cho phép đến 103 cuộc gọi được gửi

đi trên đường truyền 1Mbps

Bên cạnh đó, IAX sử dụng dữ liệu dưới dạng các bit nhị phân nên tín hiệu truyền

đi có độ trễ thấp hơn so với các giao thức khác dùng bảng mã ASCII Ngoài ra IAX

Trang 23

thường xuyên sử dụng cơ chế Ping-Pong để nhận biết được thiết bị nào không còn hoạtđộng nữa

Việc dùng 4 byte làm header và sử dụng băng thông thấp giúp mọi người chú ý đến giao thức này nhiều hơn Nếu có nhiều cuộc gọi đến cùng đích, tính năng IAX

trunking sẽ làm giảm sự quá tải bằng cách nối dữ liệu từ nhiều kênh thành một gói tin,

do đó không những số lượng gói tin truyền đi được giảm bớt mà số lượng header cũng giảm, nhờ vậy mà có thể tiết kiệm đến 80% băng thông

Băng thông trong VoIP chịu ảnh hưởng bởi nhiều yếu tố nhưng hai yếu tố quan trọng nhất cần phải nói đến là Codecs và Protocol Headers

3.1.5 C u trúc k t n i ấu hình mạng điện thoại IP ết bị đầu cuối ối

Về cơ bản có thể chia cấu trúc kết nối trong các ứng dụng dịch vụ thoại Internet thành ba loại:

 Kết nối PC - PC

 Kết nối PC - Máy thoại

 Kết nối Máy thoại - Máy thoại

3.1.6 Các ng d ng c a VOIP ứng dụng của VOIP ục Lục ủa VOIP

2.1.6.1 Gọi điện thoại qua internet

Điện thoại Internet không còn chỉ là công nghệ cho giới sử dụng máy tính mà cho cả người sử dụng điện thoại quay vào gateway Dịch vụ này được một số nhà khai thác lớn cung cấp và chất lượng thoại không thua kém chất lượng của mạng thoại thông thường, đặc biệt là trên các tuyến quốc tế Mặc dù vẫn còn một số vấn đề về sự tương thích của các gateway, các vấn đề này sẽ sớm được giải quyết khi tiêu chuẩn H.323 của ITU được sử dụng rộng rãi

Suốt từ khi các máy tính bắt đầu kết nối với nhau, vấn đề các mạng tích hợp luôn

là mối quan tâm của mọi người Mạng máy tính phát triển bon cạnh mạng điện thoại Các mạng máy tính và mạng điện thoại song song tồn tại ngay trong cùng một cơ cấu, giữa các cơ cấu khác nhau, và trong mạng rộng WAN Công nghệ thoại IP không ngay lập tức đe doạ đến mạng điện thoại toàn cầu mà nó sẽ dần thay thế thoại chuyển mạch kênh truyền thống Sau đây là một vài ứng dụng tiêu biểu của dịch vụ thoại Internet

2.1.6.2 Dịch vụ Callback Web

“World Wide Web” đã làm cuộc cách mạng trong cách giao dịch với khách hàng

Trang 24

tiện kinh doanh quan trọng trong nhiều nước Điện thoại web hay “bấm số” (click to dial)cho phép các nhà doanh nghiệp có thể đưa thêm các phím bấm lên trang web để kết nối tới hệ thống điện thoại của họ Dịch vụ bấm số là cách dễ nhất và an toàn nhất để đưa thêm các kênh trực tiếp từ trang web của bạn vào hệ thống điện thoại.

2.1.6.3 Dịch vụ Fax qua IP

Nếu bạn gửi nhiều fax từ PC, đặc biệt là gửi ra nước ngoài thì việc sử dụng dịch

vụ Internet faxing sẽ giúp bạn tiết kiệm được chi phí và cả kênh thoại Dịch vụ này sẽ chuyển trực tiếp từ PC của bạn qua kết nối Internet.Khi sử dụng dịch vụ thoại và fax qua Internet, có hai vấn đề cơ bản:

mềm chẳng hạn Quicknet’s Internet PhoneJACK Cấu hình này cung cấp cho người sử dụng khả năng sử dụng thoại qua Internet thay cho sử dụng điện thoại bàn truyền thống

Cấu hình này cung cấp dịch vụ thoại qua Internet giống như việc mở rộng

hệ thống điện thoại hiện hành

2.1.6.4 Dịch vụ Call Center

Gateway call center với công nghệ thoại qua Internet cho phép các nhà kiểm duyệt Web với các PC trang bị multimedia kết nối được với bộ phân phối các cuộc gọi tự động(ACD) Một ưu điểm của thoại IP là khả năng kết hợp cả thoại và dữ liệu trên cùng một kênh

3.2 HỆ THỐNG TỔNG ĐÀI ASTERISK

3.2.1 Gi i thi u t ng đài Asterisk ới thiệu tổng đài Asterisk ện thoại IP ổng đài Asterisk

Asterisk là hệ thống chuyển mạch mềm, là phần mềm nguồn mở được viết bằng ngôn ngữ C chạy trên hệ điều hành Linux thực hiện tất cả các tính năng của tổng đài PBX, cho phép các máy điện thoại nhánh thực hiện cuộc gọi với nhau và kết nói với các

hệ thống điện thoại khác bao gồm cả mạng điện thoại Analog thông thường (PSTN) và điện thoại IP (VoIP).Asterisk ra đời năm 1999, được viết bởi một sinh viên có tên là Mark Sphencer Mark Spencer viết phần mềm này ban đầu không ngoài mục đích hỗ trợ cho công ty của mình trong việc liên lạc đàm thoại hỗ trợ cộng đồng người sử dụng

và phát triển Linux

Trang 25

Asterisk là một PBX và nhiều hơn thế Asterisk là một phần mềm mang tính cách mạng, tin cậy, mã nguồn mở và miễn phí mà biến một PC rẻ tiền thông thường chạy Linux thành một hệ thống điện thoại doanh nghiệp mạnh mẽ Asterisk là một bộ công

cụ mã nguồn mở cho các ứng dụng thoại và là một server xử lý cuộc gọi đầy đủ chức năng Asterisk là một nền tảng tích hợp điện thoại vi tính hoá kiến trúc mở Nhiều hệ thống Asterisk đã được cài đặt thành công trên khắp thế giới

Hiện nay, Asterisk trên đà phát triển nhanh được rất nhiều doanh nghiệp triển khaiứng dụng cho công ty của mình Đây là xu thế tất yếu của người sử dụng điện thoại, vì các công ty đều có mạng máy tính và cần liên lạc với nhau trong công việc giữa các phòng ban hoặc chi nhánh và cần một chi phí thấp thậm chí không phải tốn chi phí khi thực hiện các cuộc gọi trên mạng nội bộ của công ty

Asterisk thoạt đầu được phát triển trên GNU/Linux nền x86(Intel), nhưng giờ đây

nó cũng có thể biên dịch và chạy trên OpenBSD, FreeBSD và MacOSX và Microsoft Windows

Asterisk là hệ thống chuyển mạch tích hợp vừa là công nghệ truyền thống TDM vừa là chuyển mạch VoIP Asterisk có khả năng giao tiếp với điện thoại analog thông thường, giao tiếp với thiết bị điện thoại VoIP, ngoài ra còn có thể giao tiếp với mạng PSTN và các nhà cung cấp VoIP khác

Trang 26

3.2.2 Ki n trúc t ch c Asterisk ết bị đầu cuối ổng đài Asterisk ứng dụng của VOIP

Hình 2.1 Kiến trúc tổ chức của Asterisk

Về cơ bản kiến trúc của Asterisk là sự kết hợp giữa nền tảng công nghệ điện thoại

và ứng dụng điện thoại công nghệ điện thoại cho VoIP như SIP, H323, IAX… Các công nghệ điện thoại cho hệ thống chuyển mạch mạch TDM như T1, E1, ISDN và các giao tiếp đường truyền thoại Analog Các ứng dụng thoại như chuyển mạch cuộc gọi, tương tác thoại, caller ID, voicemail, chuyển cuộc gọi…

Trang 27

Hình 2.2 IP PBX

3.2.3 Tìm hiểu dialplan của tổng đài Asterisk

2.2.2.1Khai báo context

Ngữ cảnh (context) là thành phần không thể thiếu của tổ chức Dialplan, không được đặt tên ngữ cảnh có khoảng trắng Việc sử dụng ngữ cảnh cần đảm bảo tính bảo mật Nếu sử dụng ngữ cảnh đúng, cho phép người gọi này thực hiện khả năng đặc biệt nào đó (như là cuộc gọi đường dài) mà không cho phép đối với những người gọi khác Sau đây là tổ chức các ngữ cảnh trong tập tin cấu hình extension.conf:

Trang 28

Như vậy ứng với mỗi trường hợp hệ thống sẽ có ngữ cảnh khác nhau, ngữ cảnh được đặt trong dấu [].

a Ngữ cảnh [general]

Ngữ cảnh đầu tiên trong tập tin extension.còn là [general] Có 3 thông số được thiếtlập tại ngữ cảnh này:

writeprotect=no thì chúng ta có thể lưu dialplan từ dòng lệnh của Asterisk CLI>save dialplan.CLI là giao tiếp dòng lệnh của hệ thống Asterisk, tại đây

chúng ta có thể thực hiện các lệnh tương tác với Asterisk như xem trạng tháicác extension, liệt kê ứng dụng…, tư giao tiếp dòng lệnh của hệ điều hànhlinux chuyển qua giao tiếp dòng lệnh của Asterisk được thực hiện bằng lệnh

#asterisk –r

cuộc gọi Asterisk sẽ kế thúc cuộc gọi, còn thiết lập bằng no thì sau khi hoàn

tất xử lý cuộc gọi thì hệ thống sẽ đợi extention khác quay số

b Ngữ cảnh [global]

Trang 29

Ngữ cảnh [global] là nơi khai báo các biến riêng tư định nghĩa đê sử dụng trong các ngữ cảnh xử lý extention ở những phận tiếp theo Các biến không

phân biệt chữ hoa và chữ thường nên biến ${MYVAR} và ${mYvaR} là như

nhau

Ví dụ:

c Các ngữ cảnh khác

Đối với Asterisk khi nói đến ngữ cảnh thì thường quan tâm đến trường hợp

cụ thể nào đó, do đó trong hệ thống sẽ có rất nhiều ngữ cảnh khác nhau

Ví dụ: Khi gọi đến tổng đài Asterisk có một thông điệp thông báo như sau

“Chào mừng các bạn gọi đến công ty chúng tôi, hãy nhấn phím 1 để gặp phòng kinh doanh, phím 2 để gặp phòng kỹ thuật…” khi người gọi chọn phím 1 thì hệ

thống sẽ chuyển đến một ngữ cảnh là [phongkinhdoanh] Khi người gọi nhấn phím 2 thì hệ thống sẽ định hướng cuộc gọi qua ngữ cảnh [phongkythuat].

Trang 30

Ngoài ra, khi cấu hình cho các kênh thoại thì ngữ cảnh ở đây là việc xử lý các cuộc gọi tương ứng với kênh đó qua kế hoạch dialplan.

Ví dụ: với tập tin SIP.conf

Trong tập tin extention.conf

2.2.2.2 Biến trong Asterisk

a Phân loại biến trong Dialplan

Asterisk sử dụng biến trong các đối số của application, cú pháp được sử dụng như sau:

${TenBien}

TenBien chứa bất kỳ chuỗi số alphanumeric nào nhưng phải bắt đầu bằng

một ký tự số Biến do người dùng đặt không phân biệt chữ hoa chữ thường

Ví dụ: ${TenBien} và ${TENBIEN} là như nhau, nhưng với các biến có sẵn

trong Asterisk phải gọi đúng tên biến vì có phân biệt chữ hoa chữ thường

${EXTEN} là biến có sẵn trong Asterisk nên không thể gọi ${exten}, nếu gọi

như vậy là sai

Có 3 kểu biến trong hệ thống Asterisk:

 Biến toàn cục (global variables): được định nghĩa tại ngữ

cảnh [globals] hoặc được khai báo bằng lệnh SetGlobalVaR.

Trang 31

Một khi được định nghĩa, biến có thể được sử dụng bởi bất kỳkênh nhào tại bất kỳ thời điểm nào.

biến kênh chỉ có hiệu lực bên trong kênh khai báo chúng Mộtkhi kết thúc cuộc gọi biến kênh cũng sẽ không còn tồn tạinữa

có thể truy cập biến môi trường của hệ điều hành linux Để

truy cập biến môi trường chúng ta dùng cú pháp : $ {ENV(foo)}

Chú ý: Nếu khai báo biến toàn cục và biến kênh cùng tên nhau thi giá trị củabiến là biến kênh nhưng tại kênh khác nếu gọi biến toàn cục thì giá trị biến toàn cục có hiệu lực vì biến kênh chỉ có hiệu lực tại kênh đó

b Một số biến định nghĩa bởi Dialplan

Asterisk định nghĩa một số biến giúp ích cho trong việc thực hiện Dialplan, các biến này có phân biệt chữ hoa chữ thường nên cần lưu ý khi gọi sử dụng, đa phần các biến do Asterisk định nghĩa đều có ký tự chữ hoa, một vài biến tiêu biểu:

${ANSWEREDTIME}: lưu tổng số thời gian đàm thoại

${CHANNEL}: kênh hiện tại

${CONTEXT}: ngữ cảnh hiện tại

${PRIORITY}: thứ tự hiện tại

${DIALSTATUS}: trạng thái quay số như bận, không trả lời…

2.2.2.3 Lệnh trong DialPlan

Lệnh hoàn chỉnh trong Dialplan có dạng sau:

Exten=> Name, priority, application ()

Trang 32

 Priority ( số thứ tự): mỗi số nội bộ có thể bao gồm nhiều thứ tự thực hiện, mỗi thứ gọi là “ priority”

=> tương ứng với mỗi ứng dụng thực hiện, exten=> giống nhau cho mỗi dòng thực hiện trong Dialplan

Ví dụ:

Exten => 9999,1,Dial (Zap/1,20)

Exten => 9999,2,Voicemail (u7325010)

9999 là số điện thoại mà thuê bao quay, còn các số 1 và 2 là các priorites tức là thứ tự thực hiện các lệnh Khi thuê bao quay số 7325010 thì đổ chuông máy điện thoại tại Zap/1 trong vòng 20 giây Nếu sau 20 giây không trả lời thì cuộc gọi

sẽ được định hướng đến hộp thư thoại u7325010 chữ u ở đây có nghĩa là

“unavailable message”

a Name – số nội bộ

Dialplan là một tập gồm nhiều số nội bộ, khi một cuộc gọi tương ứng với số nội bộnào thì ứng dụng cho cuộc gọi đó sẽ được thực hiện Số nội bộ có thể đơn giản vớimột đích danh cụ thể như 8051, letoan hay là một chuỗi so mẫu được thực hiện như _9xxx

Khai báo các số nội bộ tùy vào trường hợp sử dụng mà có phân biệt chữ hoa và chữ thường hay không Nếu ta khai báo số nội bộ thế nào thì khi gọi đến phải gọi đúng như thế nghĩa là có phân biệt chữ hoa và chữ thường, còn số nội bộ sử dụng trong 1 ngữ cảnh thì không phân biệt chữ hoa hay chữ thường

Ví dụ: phân biệt chữ hoa và chữ thường

/etc/asterisk/sip.conf

[x-ten]

Trang 33

Exten => x-ten,1,dial (SIP/x-ten)

Ví dụ: Không phân biệt chữ hoa và chữ thường

/etc/asterick/extentions.conf

[ noi bo]

Exten => x-ten, 1, dial ( SIP/x-ten)

Exten => X-TEN, 2, hangup()

Extention chính là số điện thoại nội bộ có 3 kiểu extention như sau: litteral,

predefined và pattern

Ví dụ như: 8051, x-ten, 8051-SIP

hợp có thể xảy ra trong kế hoạch dialplan như máy điện thoại không gắn với mạng, không trả lời, quá thời gian time out, hay chuyển đến điện thoại viên,…

Trang 34

Ví dụ:

/etc/asterisk/extentions.conf [from – local]

Exten => 100,1, Dial (SIP/100,15) Exten => t,1,Playback (timeout) Exten => t,2,hangup()

Exten => i,1,Playback (Invalid) Exten => i,2,hangup()

Trong đoạn dialplan trên thực hiện quay số máy nội bộ 100 trong thời gian 15 giây, nếu quá thời gian thì thông báo hết thời gian timeout với extention t, còn nếu máy điện thoại không trả lời hay không có trên mạng thì phát thông báo invalid qua extention i

nhiều con số chẳng hạn từ 100 – 999, với một dãy số như thế để tối ưu trong khai báo ta dùng Pattern để giải quyết Một số quy định tạo mẫu trongDialplan

“_’’ là ký tự bắt đầu của một Pattern

Z là con số bất kỳ từ 1-9

X là con số bất kỳ từ 0-9

N là con số bất kỳ từ 2-9

[] so khớp bất kỳ số hoặc vùng số nào được chỉ định trong dấu []

“.” Dấu chấm đại diện cho mọi con số (_1234 Số đầu tiên là 1234 còn lại

là số bất kỳ ví dụ: 12345 hay 123456789 đều được)Chú ý: Không sử dụng “_.” Vì trong Pattern này sẽ so khớp tất cả các extention định nghĩa trước (Predefined) thay vào đó chúng ta sử dụng “_X.”

Trang 35

Ví dụ:

“_09XXXXXXXX”: Pattern các số điện thoại mạng di động Việt Nam

“_092XXXXXXX”: Pattern các số điện thoại mạng HT mobile

“_098XXXXXXX”: Pattern các số điện thoại mạng Viettel

“_062XXXXX”: Pattern các số điện thoại tại tỉnh Bình Thuận

“_11N”: Pattern các số điện thoại đặc biệt như 113, 114,115

a) Priorities – thứ tự ưu tiên

Priorities là thứ tự thực hiện các ứng dụng trong dialplan, khi thứ tự “1” được thực hiện thì kế tiếp là ứng dụng tại thứ tự số “2” được thực hiện Asterisk không quan tâm thứ tự sắp xếp câu lệnh thế nào mà chỉ cần biết đến priorities trên mỗi dòng lệnh

Ví dụ:

Exten => 8051,2,hangup()

Exten => 8051,1,dial( SIP/8051,20)

Kể từ version 1.2 của Asterisk thay vì sử dụng gán một con số cụ thể cho thứ tự thực hiện như trên thì ta có thể gán ký tự “n” cho mọi dòng “exten=>” điều này sẽ nói với Asterisk là ứng dụng với thứ tự tiếp theo sẽ thực hiện Thứ tự thực hiện từng dòng 1 từ trên xuống dưới

Ví dụ:

Exten => 8051,n,dial(SIP/8051,20) Exten => 8051,n,hangup()

b Applications – hàm ứng dụng

Đây là phần quan trọng trong Dialplan tức là ứng dụng nào sẽ được thực hiện trên mỗi dòng, các ứng dụng như thực hiện quay số, trả lời cuộc gọi hay đơn giản là nhấc máy, gác máy để biết thêm thông tin về các ứng dụng cũng như các thông số kèm theo dung lệnh Show Applications trên giao tiếp dòng lệnh của

Trang 36

Một số ứng dụng thường gặp trong Dialplan:

nhận con số từ phím nhấn của máy điện thoại, sau khi nhận con số từ phím nhấn máy điện thoại, Asterisk sẽ ngắt phát thông điệp và xử lý chuyển đến

số thứ tự priority tương ứng với con số nhận được

hành đến context, extention, priority được chỉ định trong ứng dụng Goto()

quyết định có rẽ nhánh hay không

tiếp tục ví dụ ở trên thì khi chuyển đến các phòng tương ứng, Asterisk sẽ quay số SIP/8051cho phòng kỹ thuật, iax2/8000 cho phòng Hành Chánh và gọi đến zap/1 cho phòng tiếp thị bán hàng

dialplan không cần ứng dụng này, nhưng theo logic của xử lý cuộc gọi thì nên sử dụng

“hello-world” trên tập tin hello – world được đặt tại thư mục

/var/lib/asterisk/sounds/en Đây là thư mục mặc định để lấy tập tin thoại sử

dụng, nhưng nếu chúng ta có một tập tin hello – world đặt tại thư mục khác chúng ta cũng có thể chỉ rõ thư mục để ứng dụng playback() thực hiện ví dụnhư playback (thumuc/hello-world)

ứng dụng này thực hiện thì xem như kết thúc cuộc gọi hiện hành, các lệnh dialplan sau lời gọi ứng dụng sẽ không được thực hiện

thì thứ tự (priority) tiếp theo sẽ thực hiện còn ngược lại sẽ kết thúc

Trang 37

 Record(): thu lại những tin nhắn thoại để phục vụ cho kế hoạch dialplan.

3.3 CƠ SỞ LÝ THUYẾT VỀ NHẬN DẠNG GIỌNG NÓI

3.3.1 Phân loại các hệ nhận dạng giọng nói

a Nhận dạng liên tục và nhận dạng rời rạc

Một hệ nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên tục và nhận dạng từng từ Nhận dạng liên tục tức là nhận dạng tiếng nói được phát liên tục trongmột chuỗi tín hiệu, chẳng hạn như một câu nói, một mệnh lệnh hoặc một đoạn văn được đọc bởi người dùng Các hệ thống loại này rất phức tạp, nó phức tạp ở chỗ các từ được phát liên tục khó xử lý kịp (nếu cần thời gian thực), hoặc khó tách ra nếu như người nói liên tục không có khoảng nghỉ (thông thường rất hay xảy ra trong thực tế) Kết quả tách

từ ảnh hưởng rất lớn đến các bước sau, cần xử lý thật tốt trong quá trình này Trái lại, đối với mô hình nhận dạng từng từ, mỗi từ cần nhận dạng được phát âm một cách rời rạc, có các khoảng nghỉ trước và sau khi phát âm một từ Mô hình loại này dĩ nhiên đơn giản hơn

mô hình nhận dạng liên tục, đồng thời cũng có những ứng dụng thực tiễn như trong các

hệ thống điều khiển bằng lời nói, quay số bằng giọng nói , với độ chính xác khá cao, tuynhiên khó áp dụng rộng rãi đối với mô hình trên Trong giới hạn của khóa luận này nhóm

sử dụng phương pháp nhận dạng từng từ

b Nhận dạng phụ thuộc người nói và độc lập người nói

Đối với nhận dạng phụ thuộc người nói thì mỗi một hệ nhận dạng chỉ phục vụ được cho một người, và nó sẽ không hiểu người khác nói gì nếu như chưa được huấn luyện lại từ đầu Do đó, hệ thống nhận dạng người nói khó được chấp nhận rộng rãi vì không phải ai cũng đủ khả năng kiến thức và nhất là kiên nhẫn để huấn luyện hệ thống Đặc biệt là hệ thống loại này không thể ứng dụng ở nơi công cộng Ngược lại, hệ thống nhận dạng độc lập người nói cho phép nhận dạng được nhiều giọng nói khác nhau, nhiều cách phát âm khác nhau trên cùng một ngôn ngữ

3.3.2 Một số phương pháp nhận dạng giọng nói

Có 3 phương pháp phổ biến được sử dụng trong nhận dạng tiếng nói hiện nay:

Trang 38

- Phương pháp âm học - ngữ âm học.

- Phương pháp nhận dạng mẫu

- Phương pháp ứng dụng trí tuệ nhân tạo

a Phương pháp âm học-ngữ âm học (acoustic-phonetic)

Phương pháp này dựa trên lý thuyết về Âm học-Ngữ âm học Lý thuyết đó cho biết: tồn tại các đơn vị ngữ âm xác định, có tính phân biệt trong lời nói và các đơn vị ngữ

âm đó được đặc trưng bởi một tập các tín hiệu tiếng nói Các bước nhận dang của phươngpháp gồm:

Bước 1: Phân đoạn và gán nhãn Bước này chia tín hiệu tiếng nói thành các đoạn

có đặc tính âm học đặc trưng cho một (hoặc một vài) đơn vị ngữ âm, đồng thời gán cho mỗi đoạn âm thanh đó một hay nhiều nhãn ngữ âm phù hợp

Bước 2: Nhận dạng Bước này dựa trên một số điều kiện ràng buộc về từ vựng, ngữ pháp… để xác định một hoặc một chuỗi từ đúng trong các chuỗi nhãn ngữ âm được tạo ra sau bước 1

Trang 39

mẫu được áp dụng thành công trong nhận dạng tiếng nói là lượng tử hóa vector, so sánh thời gian động (DTW), mô hình Markov ẩn (HMM), mạng nơron nhân tạo (ANN).

c Phương pháp ứng dụng trí tuệ nhân tạo

Phương pháp ứng dụng trí tuệ nhân tạo kết hợp các phương pháp trên nhằm tận dụng tối đa các ưu điểm của chúng, đồng thời bắt chước các khả năng của con người trong phân tích và cảm nhận các sự kiện bên ngoài để áp dụng vào nhận dạng tiếng nói

Đặc điểm của các hệ thống nhận dạng theo phương pháp này là: Sử dụng hệ chuyên gia để phân đoạn, gán nhãn ngữ âm Điều này làm đơn giản hóa hệ thống so với phương pháp nhận dạng ngữ âm.Sử dụng mạng nơron nhân tạo để học mối quan hệ giữa các ngữ âm, sau đó dùng nó để nhận dạng tiếng nói

Việc sử dụng hệ chuyên gia nhằm tận dụng kiến thức con người vào hệ nhận dạng:

- Kiến thức về âm học: Để phân tích phổ và xác định đặc tính âm học của các mẫu tiếng nói

- Kiến thức về từ vựng: sử dụng để kết hợp các khối ngữ âm thành các từ cần nhậndạng

Trang 40

hiệu tiếng nói, làm giảm đi rất nhiều số lượng tính toán cần thực hiện, làm rõ ràng hơn sựkhác biệt giữa 2 tín hiệu tiếng nói Hình bên dưới minh họa cho quá trình rút trích đặc trưng.

Có nhiều phương pháp để thực hiện rút trích đặc trưng, 2 trong số đó là phương pháp MFCC và LPC

Hình 2.3 Công đoạn rút trích đặc trưngHình 2.3 mô tả quá trình của việc rút trích đặt trưng, tín hiệu âm thanh lưu trong máy tính là tín hiệu digital [9], mô hình hóa tín hiệu âm thanh trong máy tính dưới dạng toán học là một hàm s(n), trong đó n chỉ thời gian (thông thường là ms) và s(n) là biên độ âm

a Làm rõ tín hiệu (pre-emphasis - tiền khuếch đại)

Theo các nghiên cứu về âm học thì giọng nói có sự suy giảm 20dB/decade khi lên tần số cao do đặc điểm sinh lý của hệ thống phát âm con người Để khắc phục sự suy giảm này, chúng

Ngày đăng: 29/06/2016, 11:03

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Phạm Minh Nhựt, Định danh người nói độc lập với văn bản bằng mô hình thống kê , Luận văn thạc sĩ khoa học máy tính 2006, Đại học Khoa học tự nhiện TP Hồ Chí Minh Sách, tạp chí
Tiêu đề: Định danh người nói độc lập với văn bản bằng mô hình thống kê
[5] D Gomillion-B Dempster, Building Telephony Systems with Asterisk, Packt Publishing Ltd, UK,2006, chapter 4 Sách, tạp chí
Tiêu đề: Building Telephony Systems with Asterisk
[6] Jared Smith-Jim Van Meggelen-Leif Madsen, Asterisk: The Future of Telephony, O’Reilly Media, CA 95472, 2005, pp. 69-117 Sách, tạp chí
Tiêu đề: Asterisk: The Future of Telephony
[7] Nir Simionovich, Asterisk Gateway Interface 1.4 and 1.6 Programing, PACKT Publishing , 2008 Sách, tạp chí
Tiêu đề: Gateway Interface 1.4 and 1.6 Programing
[8] Marc Blanchet, Asterisk Primer, Viagensie, Canada, 2007 [9] Paul Mahler, VoIP telephony with Asterisk, Signate, UK, 2004 [10] The HTK Book (for HTK Version 3.4),http://htk.eng.cam.ac.uk/doc/docs.shtml Sách, tạp chí
Tiêu đề: Asterisk Primer", Viagensie, Canada, 2007[9] Paul Mahler, "VoIP telephony with Asterisk", Signate, UK, 2004[10] "The HTK Book

HÌNH ẢNH LIÊN QUAN

Hình 1.2 Sơ đồ khối các chức năng trong hệ thống - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Hình 1.2 Sơ đồ khối các chức năng trong hệ thống (Trang 15)
Hình 1.1 Tổng quan mô hình nhận dạng tiếng nói - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Hình 1.1 Tổng quan mô hình nhận dạng tiếng nói (Trang 15)
Hình 1.3 Các lĩnh vực về nhận dạng giọng nói - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Hình 1.3 Các lĩnh vực về nhận dạng giọng nói (Trang 16)
Hình 2.1  Kiến trúc tổ chức của Asterisk - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Hình 2.1 Kiến trúc tổ chức của Asterisk (Trang 26)
Hình 2.2 IP PBX - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Hình 2.2 IP PBX (Trang 28)
Hình 2.17 minh họa một ví dụ HMM đơn giản về mối liên hệ giữa số lượng que  kem với thời tiết - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Hình 2.17 minh họa một ví dụ HMM đơn giản về mối liên hệ giữa số lượng que kem với thời tiết (Trang 56)
Bảng dữ liệu SINHVIEN: lưu trữ thông tin của từng sinh viên. - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Bảng d ữ liệu SINHVIEN: lưu trữ thông tin của từng sinh viên (Trang 89)
Hình 3.1  Các chức năng của tổng đài - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Hình 3.1 Các chức năng của tổng đài (Trang 90)
Bảng dữ liệu USER: lưu thông tin tài khoản, mật khẩu của người quản trị trang quản lý - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Bảng d ữ liệu USER: lưu thông tin tài khoản, mật khẩu của người quản trị trang quản lý (Trang 90)
3.3.2. Sơ đồ xử lý chức năng - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
3.3.2. Sơ đồ xử lý chức năng (Trang 91)
Hình 4.2 Quy trình xử lý chức năng của tổng đài - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Hình 4.2 Quy trình xử lý chức năng của tổng đài (Trang 100)
Hình 6.1 Cấu hình X-Lite - DỊCH VỤ TRA ĐIỂM TỰ ĐỘNG SỬ DỤNG NHẬN DẠNG GIỌNG NÓI TIẾNG VIỆT
Hình 6.1 Cấu hình X-Lite (Trang 106)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w