Hệ thống tra cứu thông tin đào tạo tín chỉ qua mạng điện thoại

Bài báo giới thiệu hệ thống EDUvoice - ứng dụng trong các hệ hỏi đáp thông tin qua mạng điện thoại (PSTN). Hệ thống có thể hiểu được các câu lệnh tiếng nói của người dùng, giúp cho việc tra cứu thông tin đào tạo tại khoa CNTT trường đại học Nông Lâm bằng tiếng nói tiếng Việt thông qua mạng điện thoại.

Trang 1

Hệ thống tra cứu thông tin đào tạo tín chỉ

qua mạng điện thoại

Trần Khải Thiện1, Vũ Thanh Hiền5

Khoa CNTT - Đại học Ngoại Ngữ Tin Học

TP.HCM TP.HCM, Việt Nam

thientk@gmail.com

Trần Khải Cát Tiên2, Mai Anh Thơ3,

Nguyễn Minh Nhật4 Khoa CNTT - Đại học Nông Lâm TP.HCM

TP.HCM, Việt Nam cattientk@gmail.com

Tóm tắt—Bài báo giới thiệu hệ thống EDUvoice - ứng

dụng trong các hệ hỏi đáp thông tin qua mạng điện thoại

(PSTN) Hệ thống có thể hiểu được các câu lệnh tiếng nói

của người dùng, giúp cho việc tra cứu thông tin đào tạo tại

khoa CNTT trường đại học Nông Lâm bằng tiếng nói

tiếng Việt thông qua mạng điện thoại Điểm đặc biệt của

hệ thống là có khả năng phân tích cú pháp và ngữ nghĩa

của các câu lệnh tiếng nói sau khi được nhận dạng bởi

thành phần nhận dạng tiếng nói EDUvoice bao gồm các

thành phần chính như sau: thành phần giao tiếp mạng

điện thoại; thành phần nhận dạng tiếng nói tiếng Việt;

thành phần xử lý ngôn ngữ tự nhiên và thành phần tổng

hợp tiếng nói tiếng Việt Theo hiểu biết của chúng tôi, đây

là một trong những hệ thống đầu tiên tại Việt Nam thực

hiện việc tích hợp cơ chế xử lý ngôn ngữ tự nhiên vào các

ứng dụng tiếng nói Điều này giúp cho các ứng dụng tiếng

nói trở lên thông minh hơn, có thể giao tiếp với con người

bằng ngôn ngữ tự nhiên với độ chính xác cao và tốc độ xử

lý nhanh Hệ thống qua thực nghiệm đạt độ chính xác cao

và thân thiện với người dùng là minh chứng rõ nét cho

tính thực tế của nghiên cứu

Từ khóa—Spoken Dialog Systems, Natural Language

Processing, Voice Server, EDUvoice

I GIỚITHIỆU Trên thế giới, từ những năm 1960 -1970 đã xuất hiện

những nghiên cứu về các hệ giao tiếp bằng tiếng nói

(Spoken Dialog Systems) điển hình như ELIZA [18] và

SHRDLU [19] Nhưng phải đến những năm 1990 thì

các hệ giao tiếp bằng tiếng nói mới thật sự phát huy tính

ứng dụng cao bởi sự tích hợp với các hệ thống tương tác

qua điện thoại (Telephone IVR Systems) như TRAIN

[15], RAILTEL [2], và hiện nay IBM Watson, SIRI và

trợ lý ảo Cortana đang là những sản phẩm ưu tú nhất

của ứng dụng tiếng nói

Ở Việt Nam, trong những năm vừa qua, các nghiên cứu

về công nghệ xử lý tiếng nói cũng đã thu được những

kết quả đáng khích lệ Hai nội dung nghiên cứu chính

của công nghệ này bao gồm Nhận dạng tiếng nói và Tổng hợp tiếng nói đã và đang được 2 nhóm nghiên cứu chính là Viện Công nghệ thông tin (Viện Khoa học và Công nghệ Việt Nam) và trường Đại học Khoa học tự nhiên (ĐHQG-HCM) thực hiện và cho ra nhiều công bố được đánh giá cao [3], [5], [7], [10], [16] Tuy nhiên, những kết quả nghiên cứu nói trên chỉ tập trung vào việc nâng cao hiệu quả xử lý tiếng nói tiếng Việt mà chưa quan tâm đến vấn đề xử lý ngữ nghĩa của các câu lệnh tiếng nói

EDUvoice là hệ thống voice server được xây dựng dựa trên sự kết hợp giữa xử lý ngôn ngữ nói và ngôn ngữ viết, hệ thống có thể nhận dạng nhiều dạng câu lệnh bằng tiếng nói tiếng Việt để chuyển thành dạng văn bản,

kế tiếp xử lý cú pháp và ngữ nghĩa của chúng, rồi phát sinh các truy vấn cơ sở dữ liệu, cuối cùng là trả lời cho người dùng với những dữ liệu đã truy vấn được bằng giọng đọc tiếng Việt Việc xử lý cú pháp và ngữ nghĩa của các câu lệnh trong hệ thống được giải quyết với DCG (Definite Clause Grammar) [4] Trong phần xử lý tiếng nói, chúng tôi sử dụng công cụ HTK (Hidden Markov Model Toolkit) [14] cho việc nhận dạng tiếng nói và áp dụng phương pháp Unit-selection [1] cho việc tổng hợp tiếng nói

Hình 1 Hệ thống EDUvoice

Trang 2

II KIẾNTRÚCHỆTHỐNG

Hệ thống được thiết kế có chức năng như sau: Nhận

dạng câu truy vấn qua điện thoại; xử lý câu truy vấn;

tiến hành truy xuất thông tin trong cơ sở dữ liệu; trả lời

lại cho người dùng qua điện thoại và được thực hiện

theo kịch bản sau:

(0) Trạng thái chờ

(1) User gọi vào hệ thống và hỏi bằng tiếng Việt

(2) Hệ thống xác nhận user nội dung vừa hỏi

(2.0) Nếu user xác nhận đúng, hệ thống tiếp tục

xử lý bước (3)

(2.1) Nếu user xác nhận sai, hệ thống quay về

trạng thái chờ (0)

(3) Tiếng nói được đưa qua bộ nhận dạng và

chuyển thành câu truy vấn dạng văn bản tiếng

Việt

(4) Hệ thống phân tích cú pháp và xử lý ngữ nghĩa

câu truy vấn

(4.0) Nếu câu truy vấn đúng cú pháp

- Hệ thống thực hiện việc truy vấn cơ sở

dữ liệu và trả kết quả bằng tiếng nói

đến người dùng

- Kết thúc và quay về bước (0)

(4.1) eNgược lại, nếu là câu truy vấn sai cú

pháp thì hệ thống sẽ thông báo bằng tiếng

nói lại cho user để thực hiện lại câu truy

vấn

Hình 2 Mô phỏng kịch bản hoạt động

Để hiện thực các chức năng nói trên, hệ thống cần có những thành phần sau (Hình 3):

A Bộ nhận dạng tiếng nói: chuyển dữ liệu âm thanh là tiếng nói của người dùng thành dữ liệu văn bản

B Bộ xử lý ngôn ngữ tiếng Việt: xử lý cú pháp, ngữ nghĩa của các câu truy vấn của người dùng

C Bộ xử lý trung tâm: kết nối các thành phần trong hệ thống thông qua việc:

1 Chuyển dữ liệu văn bản từ bộ nhận dạng tiếng nói thành dạng dữ liệu chuẩn thực thi tập tin Prolog trong bộ xử lý ngôn ngữ

2 Chuyển đổi những biểu diễn ngữ nghĩa của các câu truy vấn thành tập những câu lệnh truy xuất đến

cơ sở dữ liệu, đồng thời thực thi chúng

3 Lọc, sắp xếp và trả về kết quả xử lý của hệ thống cho người dùng

D Cơ sở dữ liệu: chứa thông tin đào tạo tín chỉ

E Bộ tổng hợp tiếng nói tiếng Việt: chuyển dữ liệu văn bản thành tiếng nói

Hình 3 Kiến trúc hệ thống

III MÔ-ĐUNGIAOTIẾP Nhiệm vụ của mô-đun này là giao tiếp máy tính

và hệ thống điện thoại Ngoài ra, mô-đun giao tiếp còn tiếp nhận, xử lý tín hiệu đến từ điện thoại và trả lời thông tin từ máy tính trở lại hệ thống điện thoại

Về phần cứng, chúng tôi sử dụng modem Intel® 536EP Modem của Intel Modem kết nối trực tiếp với line điện thoại và máy tính, làm cầu nối trung gian truyền tải tín hiệu giữa hệ thống điện thoại và máy tính

Trang 3

Hình 4 Vai trò của Voice Modem

Về phần mềm, chúng tôi sử dụng bộ thư viện TAPI,

mà cụ thề là TAPI 3 do Microsoft và Intel hợp tác đưa ra

[6]

IV BỘNHẬNDẠNGTIẾNGNÓI

Trong hệ thống EDUvoice, chúng tôi sử dụng HTK

để xây dựng thành phần nhận dạng tiếng nói HTK cung

cấp các công cụ xử lý tiếng nói, đặc biệt là nhận dạng

tiếng nói, dựa trên HMM [14] Dựa theo cách tiếp cận

của [9], [11], [17], chúng tôi đã áp dụng mô hình phụ

thuộc ngữ cảnh (“context-dependent model”) dựa trên

triphone để nhận dạng các từ trong bộ từ vựng, đồng

thời định nghĩa văn phạm chứa các cấu trúc câu có thể

có trong ngữ cảnh của ứng dụng giúp cho việc nhận

dạng các chuỗi từ (câu) được chính xác

A Các bước xây dựng bộ nhận dạng tiếng nói

Việc xây dựng một hệ nhận dạng tiếng nói gồm có hai

giai đoạn chính:

1) Giai đoạn huấn luyện:

a) Chuẩn bị tập dữ liệu tiếng nói cần huấn luyện

và mã hóa tập dữ liệu này

b) Gán nhãn, lập từ điển

c) Tạo các mô hình HMM (prototype HMM) cho

mỗi đơn vị phone

Đầu ra của giai đoạn huấn luyện là tập các mô hình

HMM đã được huấn luyện (hmmset)

2) Giai đoạn nhận dạng:

a) Tập các mô hình HMM đã được huấn luyện

(hmmset) - là kết quả của giai đoạn huấn luyện

b) Xây dựng văn phạm

c) Trích đặc trưng cho chuỗi âm thanh cần nhận

dạng

Đầu ra của giai đoạn nhận dạng là chuỗi văn bản

Hình 5 Sơ đồ các công đoạn xây dựng bộ nhận dạng tiếng nói sử

dụng HTK [17]

B Dữ liệu huấn luyện

Tập dữ liệu huấn luyện được thu âm trong 160 phút với 2429 mẫu câu Dữ liệu này được lấy mẫu ở mức

8000 Hz, 16 bit theo định dạng PCM trong điều kiện môi trường ít tiếng ồn với 7 giọng đọc của nam

Bảng 1 BỘ TỪ VỰNG GỒM 68 TIẾNG

ai bao bản bộ cao

cơ của dạy giảng gì khoa không kế kỳ là môn mạng mấy mềm một những nào này nâng phân thu thuyết thông thơ thầy trong trình tích tín tính chỉ các có cô công hai hành hùng hệ học

lý lập mi máy mã

mở nghệ ngành nhiêu nhập phí phần phụ quyết thiết thống thực tin tiên tiết viên và web

Trang 4

C Xây dựng văn phạm

Mô hình ngôn ngữ cung cấp thông tin về cú pháp,

ngữ nghĩa, trật tự từ của câu Thành phần này giúp hệ

thống lựa chọn ra kết quả nhận dạng tốt nhất trong danh

sách các ứng viên chọn lọc được bởi tiến trình nhận

dạng Cấu trúc câu có thể có trong ngữ cảnh của ứng

dụng Việc xây dựng mô hình ngôn ngữ bao gồm việc

xác định văn phạm cho ngôn ngữ đó Tính phức tạp của

văn phạm phụ thuộc vào mức độ phức tạp của hệ thống

cần nhận dạng Cấu trúc văn phạm là một đồ thị có

hướng tổng quát, chứa các cấu trúc câu có thể có trong

ngữ cảnh của ứng dụng Trong ứng dụng của chúng tôi,

một phần của tập tin văn phạm (dạng có mã hóa

TELEX) thể hiện như sau:

$Khoa = (NGAFNH | KHOA) [COONG NGHEEJ THOONG TIN];

$ $Bomon = BOOJ MOON (HEEJ THOOSNG THOONG TIN |

MAJNG MASY TISNH | COONG NGHEEJ PHAAFN MEEFM);

$Giangviennao = GIARNG VIEEN | THAAFY COO;

…

$sen1 = $Khoa COS $nhungcac BOOJ MOON NAFO ;

D Tổng hợp tiếng nói

Hệ thống tổng hợp tiếng (Text-To-Speech) nói gồm

02 công đoạn chính là phân tích văn bản (quá trình xử

lý, chuẩn hóa văn bản đầu vào thành một dạng chuẩn để

có thể tổng hợp được) và tổng hợp tiếng nói (tạo ra tín

hiệu tiếng nói từ kết quả của phần phân tích văn bản)

Việc tổng hợp tiếng nói có thể được thực hiện bằng tổng

hợp Formant [10] hay phương pháp Unit-selection

[10],… Với EDUvoice, chúng tôi chọn cách tiếp cận

tổng hợp bằng phương pháp Unit-selection, thực hiện

theo quy trình theo hình 6

Hình 6 Quy trình tổng hợp bằng phương pháp ghép nối chọn đơn

vị [10]

V XỬLÝNGÔNNGỮTIẾNGVIỆT

A Cú pháp câu lệnh truy vấn

Trong hệ thống của chúng tôi có tất cả 48 dạng câu truy vấn và được chia thành 6 chủ đề, một số dạng câu tiêu biểu được trình bày trong bảng 2

Bảng 2 MỘT SỐ DẠNG CÂU TRUY VẤN PHÂN THEO

CHỦ ĐỀ

STT Chủ đề Dạng câu truy vấn

1 Khoa – Bộ môn [Ngành] có những bộ môn nào

2 Bộ môn – Giảng viên <bộ môn> có những (giảng viên

| thầy cô) nào

3 Môn học – Giảng viên (thầy cô | giảngviên) nào dạy

<môn học>

<giảng viên> dạy những (môn | môn học) nào

<giảng viên> có dạy <môn học> không

<môn học> có những (giáo viên

| thầy cô | giảngviên) nào dạy

4 Môn học <môn học> có mã môn học là gì

<môn học>có môn tiên quyết là

môn nào

<môn học> có bao nhiêu tiết lý

thuyết

<môn học> có bao nhiêu tiết thực hành

<môn học>có bao nhiêu tín chỉ

5 Học phí <môn học>có học phí là bao

nhiêu

6 Phụ thu [Ngành] có <phụ thu> không

[Ngành] có <phụ thu> là bao

nhiêu

Trang 5

B Phân tích ngữ nghĩa câu lệnh

Để biểu diễn ngữ nghĩa cho các câu truy vấn, chúng

tôi sử dụng DCG [4], có tất cả 17 cấu trúc biểu diễn

nghĩa cho bởi bảng 3

Bảng 3 CÁC CẤU TRÚC BIỂU DIỄN NGHĨA CỦA CÂU

TRUY VẤN

STT Chủ đề Cấu trúc nghĩa câu truy vấn

1 Bộ môn which_depts(Faculty)

2 Giảng viên which_teachers(Dept)

which_teachers(Course) yesno_teacher(Teacher,Course)

3 Môn học course(Teacher)

4 Mã môn học course_id(Course)

5 Môn tiên quyết prerequisite(Course)

6 Số tín chỉ credit(Course)

theory_credit(Course) practise_credit(Course)

7 Số tiết lý thuyết

– thực hành

theory(Course) practise(Course)

8 Học phí fee(Course)

9 Học kỳ yesno_course(Semester,Course)

yesno_teacher_mon(Teacher,Cours

e,Semester)

10 Phụ thu yesno_surcharge(Faculty)

surcharge(Faculty)

Ví dụ 1: Ngành Công Nghệ Thông Tin có những bộ môn nào?

Luật cú pháp và ngữ nghĩa DCG được định nghĩa như sau:

query(which_depts(Faculty)) > p_industry, n_faculty(Faculty),p_have, p_plural, p_dept, p_which

n_ industry >[ngành]

n_faculty(faculty(công, nghệ, thông , tin)) >[ công, nghệ, thông , tin]

p_have >[cos]

p_plural >[những]

p_dept >[bộ,môn]

p_which >[nào]

Ta được luật cú pháp và ngữ nghĩa xác định cấu trúc nghĩa của câu truy vấn ví dụ 1 như sau:

which_depts (faculty (công, nghệ, thông , tin))

Cấu trúc nghĩa này là cấu trúc nghĩa số 1 mục 1

Từ các cấu trúc nghĩa này, chúng tôi tiến hành chuyển đổi thành câu lệnh SQL tương ứng để truy xuất vào cơ sở dữ liệu

VI THỬNGHIỆMVÀĐÁNHGIÁ Việc thử nghiệm trước tiên được tiến hành theo từng thành phần của hệ thống; gồm Thành phần Nhận dạng tiếng nói, Thành phần Xử lý ngôn ngữ Tiếng Việt và Bộ

Xử lý trung tâm Kế đến, chúng tôi tiến hành các thử nghiệm trên cả hệ thống, cũng như tiến hành các khảo sát về cảm nhận/ đánh giá của người dùng về hệ thống, bao gồm thành phần Tổng hợp Tiếng nói

A Thành phần nhận dạng tiếng nói

Hiệu năng của hệ thống nhận dạng tiếng nói thường được đánh giá qua độ đo WER (Word Error Rate), biểu diễn bởi công thức sau: WER= (S + D + I) / N x 100% Trong đó, N là tổng số từ, S là số lỗi sửa, I là số lỗi chèn

và D là số lỗi xóa

Ở đây, chúng tôi sử dụng độ đo WAR (Word Accuracy Rate) để đánh giá hiệu năng của hệ thống, biểu diễn bởi công thức: WAR = (1 – (S + D + I) / N) x 100%

Hiệu năng hệ thống

Chúng tôi lần lượt tiến hành các thử nghiệm offline được chia theo: khu vực, giới tính, độ tuổi và ngữ liệu huấn luyện, độ chính xác của hệ thống cho bởi các bảng

4, 5, 6 và 7

Trang 6

Bảng 4 THỬ NGHIỆM THEO KHU VỰC

Bắc Trun

g Nam

VNSE_

A1

Tập ngữ liệu huấn

luyện chỉ bao gồm

các giọng đọc miền

Bắc

95% 75% 92%

Bảng 5 THỬ NGHIỆM THEO GIỚI TÍNH

VNSE_

G1

Tập ngữ liệu huấn

luyện chỉ bao gồm

giọng đọc giới tính nam

87% 96%

Bảng 6 THỬ NGHIỆM THEO ĐỘ TUỔI

18-30 Khác

VNSE_D1 Tập ngữ liệu huấn

luyện gồm giọng đọc

có độ tuổi 18-30

93,73% 91%

Bảng 7 THỬ NGHIỆM THEO ĐỘ LỚN TẬP NGỮ LIỆU

Người tham gia huấn luyện

Người không tham gia huấn luyện

VNSE_C01 Tập ngữ liệu huấn

luyện 1 giọng đọc

99% 64%

VNSE_C05 Tập ngữ liệu huấn

99% 90%

VNSE _C7 Tập ngữ liệu huấn

98,49% 93,73%

B Thành phần xử lý ngôn ngữ tự nhiên

Với thành phần xử lý ngôn ngữ tự nhiên, chúng tôi tiến hành thử nghiệm trên 100 câu, thành phần này cho kết quả đúng với cả 100 mẫu câu thử Đây là các mẫu câu nằm trong phạm vi các cấu trúc cú pháp đã được xây dựng cho hệ thống Hệ thống có khả năng xử lý đúng toàn bộ các câu chuẩn này, điều này cho thấy hệ thống

có tính ổn định và chính xác

Độ bao phủ: Với những câu không thuộc phạm vi các cấu trúc cú pháp thì hệ thống sẽ trả về kết quả phân tích cú pháp là false Điều này cho thấy các qui tắc cú pháp DCG mà đề tài đã xây dựng và bộ từ điển vẫn chưa bao quát hết tất cả các trường hợp Nếu bổ sung thêm bộ

từ điển từ loại và hoàn thiện các qui tắc cú pháp DCG,

độ bao phủ của hệ thống sẽ được tăng lên rất cao

C Khảo sát người dùng

Chúng tôi cũng đã tiến hành các khảo sát người sử dụng hệ thống với câu hỏi: “Hệ thống có dễ sử dụng hay không?” với 4 mức đánh giá, và được kết quả như bảng

8

Bảng 8 KHẢO SÁT MỨC TIỆN DỤNG CỦA HỆ THỐNG

Rất tiện dụng

Khá tiện dụng

Hơi tiện dụng Không tiện

dụng

30% 27% 23% 20%

D Thử nghiệm trên toàn bộ hệ thống

Hệ thống được xây dựng trên môi trường PC với ngôn ngữ lập trình MS Visual C# 2012 và SWI-Prolog

version 7.1.9

Bảng 9 THÔNG SỐ THỰC NGHIỆM

Số lượng câu truy vấn 100 Môi trường trong nhà (in-door) Tốc độ lấy mẫu 8 kHz Lượng tử hóa (Quantization) 16 bits Định dạng PCM Thiết bị điện thoại di động

Trang 7

Hệ thống cho kết quả chính xác với 94/100 câu truy

vấn tiếng Việt Như đã nhận thấy ở trên, các kết quả

không mong đợi đều thuộc về giai đoạn nhận dạng

Thời gian phản hồi trung bình của hệ thống là 2.6 giây

E Đánh giá

Trong quá trình kiểm thử, thành phần nhận dạng

tiếng nói đã nhận dạng sai 25 câu trong tổng số 100 câu

đưa vào thử nghiệm Nhưng xét về mặt ngữ nghĩa có

đến 19/25 câu nhận dạng sai vẫn bảo toàn được nghĩa

ban đầu và được hệ thống xử lý đúng bởi thành phần xử

lý ngôn ngữ tự nhiên, chỉ có 6 câu cho nghĩa sai bởi giai

đoạn nhận dạng Điều này cho thấy thành phần xử lý

ngôn ngữ tự nhiên đóng vai trò quan trọng trong hệ

thống, thành phần này có thể “sửa sai” cho cả giai đoạn

nhận dạng tiếng nói

VII KẾTLUẬN Bài báo đã trình bày mô hình kiến trúc của hệ thống

EDUvoice cũng như cách tiếp cận để xây dựng nó

Trong hệ thống, thành phần xử lý ngôn ngữ tiếng Việt –

nơi chịu trách nhiệm phân tích cú pháp và ngữ nghĩa

của các dạng câu lệnh là thành phần cốt lõi của hệ

thống Theo hiểu biết của chúng tôi, đây là một trong

những hệ thống đầu tiên tại Việt Nam được trang bị một

cơ chế xử lý ngôn ngữ tự nhiên hiệu quả vào ứng dụng

tiếng nói, giúp cho hệ thống trở nên thông minh và linh

hoạt Nghiên cứu này cũng mở ra một hướng phát triển

mới cho việc xây dựng và phát triển các hệ thống hỏi

đáp có thể hiểu và giao tiếp bằng tiếng nói tiếng Việt

với người dùng Hoạt động sắp tới của chúng tôi là triển

khai ứng dụng voice server với mô-đun giao tiếp sử

dụng tổng đài nguồn mở Asterisk nhằm giúp hệ thống

hoạt động linh hoạt hơn

TÀILIỆUTHAMKHẢO

[1] A Hunt, A Black and W Alan, “Unit selection in a

concatenative speech synthesis system using a large speech

database," Pro c ICASSP-96, 1, pp 373, 1996

[2] Bennacef, S., Devillers, L., Rosset, S., and Lame1, L.: Dialogin

the RAILTEL telephone‐based system In Proc ICSLP,

pp.550‐‐553 (1996)

[3] Duong Dau, Minh Le, Cuong Le and Quan Vu, “A Robust

Vietnamese Voice Server for Automated Directory Assistance

Application,” RIVF-VLSP 2012, Ho Chi Minh City, Viet Nam,

2012

[4] Fernando C N Pereira and Stuart M Shieber, Prolog and

Natural-Language Analysis Microtome Publishing, pp 1 – 284,

Massachusetts, 2005

[5] Hue Nguyen, Truong Tran, Nhi Le, Nhut Pham, Quan Vu,

“iSago: The Vietnamese Mobile Speech Assistant for Food-court and Restaurant Location,” RIVF-VLSP 2012, Ho Chi Minh City, Viet Nam, 2012

[6] Michelle Quinton, Windows NT 5.0 Brings You New Telephony Development Features with TAPI 3.0, Microsoft Systems Journal [Online] Available:

http://www.microsoft.com/msj/1198/tapi3/tapi3.aspx , 1998 [7] Nhut Pham, Quan Vu, “A Spoken Dialog System for Stock Information Inquiry,” in Proc IT@EDU, Ho Chi Minh City, Viet Nam, 2012

[8] Patrick Blackburn, Johan Bos, “Representation and Inference for Natural Language: A First Course in Computational Semantics” CSLI Press, pp 1 – 376, Chicago, 2007

[9] Quan Vu et al., (2012) “Nghiên cứu xây dựng hệ thống Voice Server và ứng dụng cho các dịch vụ trả lời tự động qua điện thoại” Technical report, Research project, HCM City Department of Science and Technology, Viet Nam

[10] Quan Vu, “VOS: The Corpus-based Vietnamese Text-to-speech System,” Journal on Information, Technologies, anh Communications, 2010

[11] Quoc The Van, Nguyen B P Nguyen, Anh K V Nguyen, Hien Thanh Vu, Thien Khai Tran “Vietnamese Speech Processing and Synthesis in VNSExpenses System” International Journal of Advanced Research in Computer and Communication Engineering Vol 3, Issue 4, 2014

[12] Richard Montague, Formal Philosophy: Selected Papers of Richard Montague Bell & Howell Information & Lea, pp 1 –

119, New Haven, 1974

[13] Sandiway Fong, “LING 364: Introduction to Formal Semantics www.dingo.sbs.arizona.edu/~sandiway ”, 2012

[14] Steve Young et al, The HTK Book (version 3.4) [Online] Available: www.htk.eng.cam.ac.uk/docs/docs.shtml , 2006 [15] Sikorski,T and Allen, J., A task‐based evaluation of the TRAINS-95 dialogue system In Proc ECAI Workshop on Dialogue Processing in Spoken Language Systems (1996) [16] Thang Vu, Mai Luong, “The Development of Vietnamese Corpora Toward Speech Translation System,” RIVF-VLSP

2012, Ho Chi Minh City, Viet Nam, 2012

[17] Thien Khai Tran, Dang Tuan Nguyen (2013) “Semantic Processing Mechanism for Listening and Comprehension in VNSCalendar System” International Journal on Natural Language Computing (IJNLC) Vol 2, No.2, April 2013 [18] Weizenbaum, J., ELIZA A computer program for the study of natural language communication between man and machine Commun ACM, Vol.9, No.1, pp.36‐‐45 (1966)

[19] Winograd, T.,Understanding Natural Langauge.Academic Press (1972)

Định dạng
Số trang	7
Dung lượng	4,47 MB